第三章:Transformer 核心组件解析

注意力机制赋予了 Transformer 建立全局依赖关系的能力,但一个完整的 Transformer 层远不止注意力。分词作为第一步将原始文本切分为离散词元,词嵌入将其转化为连续向量,位置编码注入了序列表达顺序信息,前馈网络提供了非线性变换能力,残差连接确保梯度能流过深层网络,层归一化稳定了训练过程。

这些组件看起来各自独立,但它们的协同作用构成了 Transformer 的完整计算管道。每一个组件的存在都不是偶然的——它解决了特定的技术问题,缺少任何一个,架构的能力都会显著受损。

本章将逐一解析这些组件的原理和设计动机,并在最后展示它们如何组装成完整的编码器-解码器架构。

最后更新于