# 5.2 掩码语言模型：完形填空的智慧

掩码语言模型（Masked Language Model，MLM）是 BERT 开创的预训练范式，它通过一种类似“完形填空”的巧妙设计，实现了双向上下文建模。

## 5.2.1 为什么需要双向预训练

自回归模型只能从左到右预测，这意味着每个词的表示只包含了它左边上下文的信息。但在许多 NLP 任务中，右边的信息同样关键。

BERT 论文开篇就指出：**现有的语言模型预训练方法（如 GPT）是单向的，这从根本上限制了预训练表征的能力。** 例如在问答任务中，需要同时从问题的两个方向理解含义。

然而，**简单的双向语言模型是行不通的**。如果模型可以看到所有位置的信息来预测某个位置的词，那它就能直接“看到”答案——预测变成了一个无意义的复制任务。

## 5.2.2 掩码策略的设计

BERT 的解决方案是**随机遮住一部分词，然后让模型预测被遮住的内容**。具体策略：

1. 随机选择输入中 15% 的词元进行遮盖
2. 其中 80% 替换为特殊标记 `[MASK]`
3. 10% 替换为随机词
4. 10% 保持不变

这个看似复杂的三重策略有明确的设计理由：

* **80% 使用 `[MASK]`**：主要的训练信号来源，迫使模型根据上下文推断被遮住的内容
* **10% 随机替换**：防止模型过度依赖 `[MASK]` 标记的存在，使其对任何位置都保持纠错能力
* **10% 不变**：引导模型学习在某些位置“确认”原始内容也是正确的，避免总是期望改变

## 5.2.3 MLM 与自回归的本质区别

两种范式的核心区别可以从**信息流向**来理解：

| 特性   | 自回归 LM      | 掩码 LM        |
| ---- | ----------- | ------------ |
| 预测目标 | 每个位置预测下一个词元 | 只预测被遮盖的词元    |
| 上下文  | 单向（左到右）     | 双向（全部可见位置）   |
| 训练效率 | 每个词元都贡献损失   | 只有 15% 的词元贡献 |
| 适合任务 | 文本生成        | 自然语言理解       |
| 代表模型 | GPT 系列      | BERT 系列      |

MLM 的一个明显劣势是**训练效率较低**：每个样本中只有 15% 的词元参与损失计算，而自回归模型的每个词元都贡献梯度。这意味着 BERT 需要更多的训练数据和计算才能达到同等程度的学习。

## 5.2.4 下一句预测与后续改进

BERT 还引入了**下一句预测**（Next Sentence Prediction，NSP）作为辅助任务：给定两个句子，判断第二个句子是否是第一个句子在原文中的下一句。这旨在帮助模型学习句子间的关系。

然而，后续研究（特别是 RoBERTa）发现 NSP 任务的贡献非常有限甚至是有害的。RoBERTa 去掉了 NSP，转而使用更大的批次、更多的数据和更长的训练时间，取得了显著的性能提升。这一发现说明在预训练中，**主要学习信号（MLM）的质量远比辅助任务重要**。


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://yeasy.gitbook.io/llm_internals/di-er-bu-fen-xun-lian-pian/05_pretraining/5.2_masked_lm.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.