5.2 掩码语言模型:完形填空的智慧
掩码语言模型(Masked Language Model,MLM)是 BERT 开创的预训练范式,它通过一种类似“完形填空”的巧妙设计,实现了双向上下文建模。
5.2.1 为什么需要双向预训练
自回归模型只能从左到右预测,这意味着每个词的表示只包含了它左边上下文的信息。但在许多 NLP 任务中,右边的信息同样关键。
BERT 论文开篇就指出:现有的语言模型预训练方法(如 GPT)是单向的,这从根本上限制了预训练表征的能力。 例如在问答任务中,需要同时从问题的两个方向理解含义。
然而,简单的双向语言模型是行不通的。如果模型可以看到所有位置的信息来预测某个位置的词,那它就能直接“看到”答案——预测变成了一个无意义的复制任务。
5.2.2 掩码策略的设计
BERT 的解决方案是随机遮住一部分词,然后让模型预测被遮住的内容。具体策略:
随机选择输入中 15% 的词元进行遮盖
其中 80% 替换为特殊标记
[MASK]10% 替换为随机词
10% 保持不变
这个看似复杂的三重策略有明确的设计理由:
80% 使用
[MASK]:主要的训练信号来源,迫使模型根据上下文推断被遮住的内容10% 随机替换:防止模型过度依赖
[MASK]标记的存在,使其对任何位置都保持纠错能力10% 不变:引导模型学习在某些位置“确认”原始内容也是正确的,避免总是期望改变
5.2.3 MLM 与自回归的本质区别
两种范式的核心区别可以从信息流向来理解:
预测目标
每个位置预测下一个词
只预测被遮盖的词
上下文
单向(左到右)
双向(全部可见位置)
训练效率
每个词元都贡献损失
只有 15% 的词元贡献
适合任务
文本生成
自然语言理解
代表模型
GPT 系列
BERT 系列
MLM 的一个明显劣势是训练效率较低:每个样本中只有 15% 的词元参与损失计算,而自回归模型的每个词元都贡献梯度。这意味着 BERT 需要更多的训练数据和计算才能达到同等程度的学习。
5.2.4 下一句预测与后续改进
BERT 还引入了下一句预测(Next Sentence Prediction,NSP)作为辅助任务:给定两个句子,判断第二个句子是否是第一个句子在原文中的下一句。这旨在帮助模型学习句子间的关系。
然而,后续研究(特别是 RoBERTa)发现 NSP 任务的贡献非常有限甚至是有害的。RoBERTa 去掉了 NSP,转而使用更大的批次、更多的数据和更长的训练时间,取得了显著的性能提升。这一发现说明在预训练中,主要学习信号(MLM)的质量远比辅助任务重要。
最后更新于
