12.1 BERT：双向理解的突破

BERT（Bidirectional Encoder Representations from Transformers）是 Google 在 2018 年提出的模型，开创了基于 Transformer 编码器的双向预训练范式，在自然语言理解任务上实现了革命性的突破。

12.1.1 BERT 的核心创新

BERT 的核心创新在于将 Transformer 编码器用于双向预训练。与 GPT 只能从左到右看文本不同，BERT 的自注意力没有因果掩码，每个位置都可以同时关注前后文——这正是编码器架构的核心优势。

BERT 提供了两种规格：

配置

层数

隐藏维度

注意力头

参数量

BERT-Base

768

110M

BERT-Large

1024

340M

BERT 使用两个预训练任务（详见 5.2 节）：

掩码语言模型（MLM）：随机遮盖 15% 的词元，让模型预测被遮盖的内容。通过双向上下文进行预测，使每个位置的表示都融合了完整的句子信息。

下一句预测（NSP）：给定两个句子，判断是否是原文中相邻的上下文。旨在帮助模型理解句子间的语义关系。但后续研究（RoBERTa）发现 NSP 的实际贡献极为有限。

BERT 引入了影响深远的**“预训练-微调”**范式：先在大规模无标注数据上预训练，然后在特定任务的少量标注数据上微调。微调时只需添加一个任务相关的输出层（如分类层），调整所有参数即可。

这种范式使得 BERT 在发布时一举刷新了 11 项 NLP 基准的最佳记录，包括 GLUE、SQuAD 等。其成功证明了双向 Transformer 编码器在理解型任务上的强大能力。

适用场景：文本分类、命名实体识别、关系抽取、阅读理解、语义相似度等理解型任务。

局限：BERT 不适合文本生成任务（它不是自回归模型），最大序列长度限制为 512（受可学习位置编码的固定长度限制），且 MLM 的 15% 遮盖率导致训练效率低于自回归方式。

最后更新于1天前