# 本章小结

本章系统解析了位置编码从原始 Transformer 到现代大语言模型的设计演进，核心要点如下：

**正弦位置编码**利用不同频率的三角函数编码位置，类似傅里叶分解。其关键数学性质是相对位置可以用线性变换表示，这使模型理论上能感知相对距离。

**可学习位置编码**让模型自由学习最优的位置表示，灵活但无法外推到未见过的位置——成为处理长序列的瓶颈。

\*\*旋转位置编码（RoPE）\*\*是当前的主流方案。它通过在查询和键上应用位置相关的旋转，使注意力分数天然地成为相对位置的函数。配合位置内插和 YaRN 等长度外推技术，RoPE 能够支持数十万词元的上下文窗口。

**ALiBi** 用更简洁的方式——在注意力分数上加线性距离惩罚——实现了良好的相对位置感知和外推能力。

**设计趋势**从绝对到相对、从嵌入层到注意力层、从固定长度到可扩展，反映了对位置编码本质需求的逐步深入理解：**重要的不是“在哪里”，而是“相隔多远”。**

至此，第一部分“基础篇”结束。读者已经建立了对 Transformer 架构的完整理解——从为什么需要它、它的核心注意力机制、各组件的设计逻辑，到位置编码的演进。下一部分将进入“训练篇”，探讨如何在大规模数据上有效地训练 Transformer 模型。

***

> 📝 **发现错误或有改进建议？** 欢迎提交 [Issue](https://github.com/yeasy/llm_internals/issues) 或 [PR](https://github.com/yeasy/llm_internals/pulls)。
