5.2 掩码语言模型:完形填空的智慧

掩码语言模型(Masked Language Model,MLM)是 BERT 开创的预训练范式,它通过一种类似“完形填空”的巧妙设计,实现了双向上下文建模。

5.2.1 为什么需要双向预训练

自回归模型只能从左到右预测,这意味着每个词的表示只包含了它左边上下文的信息。但在许多 NLP 任务中,右边的信息同样关键。

BERT 论文开篇就指出:现有的语言模型预训练方法(如 GPT)是单向的,这从根本上限制了预训练表征的能力。 例如在问答任务中,需要同时从问题的两个方向理解含义。

然而,简单的双向语言模型是行不通的。如果模型可以看到所有位置的信息来预测某个位置的词,那它就能直接“看到”答案——预测变成了一个无意义的复制任务。

5.2.2 掩码策略的设计

BERT 的解决方案是随机遮住一部分词,然后让模型预测被遮住的内容。具体策略:

  1. 随机选择输入中 15% 的词元进行遮盖

  2. 其中 80% 替换为特殊标记 [MASK]

  3. 10% 替换为随机词

  4. 10% 保持不变

这个看似复杂的三重策略有明确的设计理由:

  • 80% 使用 [MASK]:主要的训练信号来源,迫使模型根据上下文推断被遮住的内容

  • 10% 随机替换:防止模型过度依赖 [MASK] 标记的存在,使其对任何位置都保持纠错能力

  • 10% 不变:引导模型学习在某些位置“确认”原始内容也是正确的,避免总是期望改变

5.2.3 MLM 与自回归的本质区别

两种范式的核心区别可以从信息流向来理解:

特性
自回归 LM
掩码 LM

预测目标

每个位置预测下一个词

只预测被遮盖的词

上下文

单向(左到右)

双向(全部可见位置)

训练效率

每个词元都贡献损失

只有 15% 的词元贡献

适合任务

文本生成

自然语言理解

代表模型

GPT 系列

BERT 系列

MLM 的一个明显劣势是训练效率较低:每个样本中只有 15% 的词元参与损失计算,而自回归模型的每个词元都贡献梯度。这意味着 BERT 需要更多的训练数据和计算才能达到同等程度的学习。

5.2.4 下一句预测与后续改进

BERT 还引入了下一句预测(Next Sentence Prediction,NSP)作为辅助任务:给定两个句子,判断第二个句子是否是第一个句子在原文中的下一句。这旨在帮助模型学习句子间的关系。

然而,后续研究(特别是 RoBERTa)发现 NSP 任务的贡献非常有限甚至是有害的。RoBERTa 去掉了 NSP,转而使用更大的批次、更多的数据和更长的训练时间,取得了显著的性能提升。这一发现说明在预训练中,主要学习信号(MLM)的质量远比辅助任务重要

最后更新于