4.5 自监督学习
说明 本讲核心:自监督学习让 AI 学会了“自己给自己出题,自己给自己判卷”,从而不再依赖昂贵的人工标注数据。 一句话口诀:不仅要通过老师学(监督),在没人管的时候也要自己学(自监督)。
4.5.1 从“英语完形填空”说起
想象一下,你正在做英语考试中的“完形填空”题:
The weather is very hot today, I want to eat an ice ____.
即使我不给你看答案,你也能凭借几十年来积累的常识,猜出这里填 “cream” (冰淇淋) 的概率最大,而不是 “hockey” (冰球) 或 “car” (汽车)。
你是怎么做到的? 并没有老师在旁边告诉你“这里必须填 cream”,而是你阅读了无数句子后,掌握了单词之间的搭配规律。这种利用上下文(Context)来预测缺失部分的能力,就是自监督学习的核心。
4.5.2 自监督学习:自己教自己
在 4.1 节我们介绍了 监督学习(需要老师打标签)和 无监督学习(纯粹自己找规律)。而 自监督学习 (Self-Supervised Learning) 介于两者之间,它最巧妙的地方在于:数据本身就是标签。
它的工作流程通常是这样的(以文本为例):
掩码(Masking)/ 挖空:拿来一段完整的文本,随机把其中几个词盖住(Mask)。
原句:
北京是中国的首都挖空后:
北京是中国的[MASK]
预测(Prediction)/ 填空:让模型去猜被盖住的词是什么。
计算损失(Loss)/ 对答案:因为原句是完整的,所以我们知道正确答案是
首都。如果模型猜
城市,给 50 分。如果模型猜
首都,给 100 分。如果模型猜
苹果,给 0 分,并狠狠地调整参数。
哪怕没有任何人工标注的数据,只要有海量的互联网文本,模型就可以通过这种“日夜不停地做完形填空”,学到语言的语法、语义和世界知识。
4.5.3 为什么它是 GPT 的秘诀?
在自监督学习出现之前,机器学习面临的最大瓶颈是 “数据标注太贵了”。 想训练一个识别猫的模型,你得找人一张张标“这是猫”;想训练个翻译模型,你得找精通双语的人一句句翻译。
但是,互联网上有无穷无尽的 “生文本”(Raw Text)—— 网页、书籍、论坛对话。这些数据是免费的,但没有标签。
自监督学习把这些“废料”变成了“金矿”。
BERT 模型:利用“完形填空”(Masked Language Modeling),学会了双向理解语言。
GPT 模型:利用“文字接龙”(Next Token Prediction),即根据上文预测下一个字,学会了生成流畅的文本。
提示 小知识:GPT 的全称是 Generative Pre-trained Transformer。其中的 Pre-trained (预训练) 指的就是在一个超大规模数据集上进行 自监督学习 的过程。
4.5.4 小结:机器学习进阶版图
到现在,我们终于拼齐了机器学习的完整版图:
监督学习
老师教学生
有题有答案 (Label)
分类、预测房价、人脸识别
无监督学习
学生自习
有书没答案
聚类用户、降维分析
强化学习
婴儿学走路
摔倒了会疼 (Reward)
下围棋、机器人控制、游戏
自监督学习
做完形填空
自己挖空自己填
大语言模型 (Pre-training)
自监督学习的出现,标志着 AI 从 “必须依赖人类经验” 走向了 “可以从海量数据中自主汲取知识” 的新时代。
4.5.5 思考题
如果你要训练一个中文客服助手,在“纯监督学习”和“先自监督预训练再微调”之间,你会如何取舍?为什么?
最后更新于
