本章小结

本章解析了 Transformer 的文本预处理流程以及除注意力机制之外的所有核心组件,揭示了每个技术环节存在的必要性和设计原理。

分词作为模型处理文本的第一步,通过 BPE 等子词分割算法在字符级与词级之间取得了平衡,解决了未登录词问题并提高了覆盖率。

词嵌入将离散的词元索引映射为稠密的连续向量,使数学运算成为可能。早期的静态嵌入发展为 Transformer 中的初始表示,而缩放设计(如乘以 $\sqrt{d_{\text{model}}}$)可确保词义信息不被位置编码淹没。

位置编码弥补了注意力机制的置换不变性缺陷。由于自注意力无法区分不同顺序的序列,位置信息必须通过外部编码显式注入。

前馈网络提供了注意力层缺失的非线性变换能力,并充当模型的“记忆层”——存储事实知识的主要位置。其“先升维后降维”的沙漏结构在扩大表示容量的同时保持了维度一致性。

残差连接通过建立梯度的“高速公路”,解决了深层网络的退化问题,使 Transformer 能够堆叠到数十乃至上百层。维度一致性的要求也解释了为什么所有层的输出维度都保持为 $d_{\text{model}}$。

层归一化稳定了训练过程中的数值分布。选择 LayerNorm 而非 BatchNorm 是因为序列任务的特殊性——变长输入和小批次使 BatchNorm 不适用。现代模型普遍采用 Pre-Norm 配置和更高效的 RMSNorm。

三种架构变体——仅编码器、仅解码器、编码器-解码器——各有适用场景。仅解码器架构凭借良好的扩展性和通用性,成为了大语言模型时代的主流选择。

下一章将深入讨论位置编码的不同方案及其设计哲学——这是近年来 Transformer 架构中演化最为活跃的领域之一。

最后更新于