本章小结

本章系统解析了位置编码从原始 Transformer 到现代大语言模型的设计演进,核心要点如下:

正弦位置编码利用不同频率的三角函数编码位置,类似傅里叶分解。其关键数学性质是相对位置可以用线性变换表示,这使模型理论上能感知相对距离。

可学习位置编码让模型自由学习最优的位置表示,灵活但无法外推到未见过的位置——成为处理长序列的瓶颈。

**旋转位置编码(RoPE)**是当前的主流方案。它通过在查询和键上应用位置相关的旋转,使注意力分数天然地成为相对位置的函数。配合位置内插和 YaRN 等长度外推技术,RoPE 能够支持数十万词元的上下文窗口。

ALiBi 用更简洁的方式——在注意力分数上加线性距离惩罚——实现了良好的相对位置感知和外推能力。

设计趋势从绝对到相对、从嵌入层到注意力层、从固定长度到可扩展,反映了对位置编码本质需求的逐步深入理解:重要的不是“在哪里”,而是“相隔多远”。

至此,第一部分“基础篇”结束。读者已经建立了对 Transformer 架构的完整理解——从为什么需要它、它的核心注意力机制、各组件的设计逻辑,到位置编码的演进。下一部分将进入“训练篇”,探讨如何在大规模数据上有效地训练 Transformer 模型。

最后更新于