# 4.4 ALiBi 与其他相对位置方案

除了 RoPE，研究者还提出了多种其他相对位置编码方案。了解这些方案有助于理解位置编码设计空间中的不同权衡。

## 4.4.1 ALiBi：用偏置替代编码

**ALiBi**（Attention with Linear Biases，Press 等人，2022 年）采用了一种极其简洁的方法：**不添加任何位置编码向量，而是直接在注意力分数上加一个与距离成正比的负偏置。**

$$\text{score}(q\_m, k\_n) = q\_m^T k\_n - r \cdot |m - n|$$

其中 $r$ 是一个预设的斜率参数（不同头使用不同的 $r$ 值），$|m - n|$ 是两个位置之间的距离。

ALiBi 的直觉很自然：**距离越远的位置，注意力分数的惩罚越大。** 这引入了一种位置先验——相近的词更可能相互关联。不同的头使用不同的斜率 $r$，使得有些头关注近距离上下文、有些头关注远距离上下文。

ALiBi 的最大优势是**出色的长度外推能力**——它在 1024 长度上训练后可以直接外推到 2048 甚至更长，性能衰减很小。这是因为线性偏置函数对任意距离都有定义，不像可学习编码那样存在位置上限。

## 4.4.2 其他相对位置编码方案

**Transformer-XL 的相对位置编码（Relative Position Encoding）**：Dai 等人（2019 年）提出在注意力分数的计算中显式加入可学习的相对位置偏置项。这种方法将注意力分数分解为四项：内容-内容、内容-位置、位置-内容和位置-位置交互。虽然有效，但实现较为复杂。

**T5 的相对位置偏置（Relative Position Bias）**：T5 使用了简化的可学习相对位置偏置——为每个可能的相对距离学习一个标量偏置值。距离超过一定阈值后使用同一个偏置值（桶化处理），使其能够泛化到较长的距离。

## 4.4.3 各方案的对比

| 方案    | 类型 | 编码位置   | 外推能力   | 额外参数                 | 代表模型           |
| ----- | -- | ------ | ------ | -------------------- | -------------- |
| 正弦编码  | 绝对 | 嵌入层    | 理论上有   | 无                    | 原始 Transformer |
| 可学习编码 | 绝对 | 嵌入层    | 无      | $L\_{\max} \times d$ | GPT-2、BERT     |
| RoPE  | 相对 | Q/K 旋转 | 强（可扩展） | 无                    | Llama、Gemma    |
| ALiBi | 相对 | 注意力偏置  | 强      | 无                    | BLOOM          |
| T5 偏置 | 相对 | 注意力偏置  | 中等     | 少量                   | T5、Flan-T5     |

表 4-1：主要位置编码方案对比

## 4.4.4 设计趋势

从位置编码的演进中可以看到几个清晰的趋势：

1. **从绝对到相对**：现代方案倾向于编码相对位置而非绝对位置，因为大多数语言关系与相对距离更相关
2. **从嵌入层到注意力层**：位置信息的注入点从输入嵌入转移到了注意力计算过程中，使位置信息能更直接地影响注意力分数
3. **从固定到可扩展**：外推能力成为了关键考量，固定最大长度的方案逐渐被淘汰
4. **从复杂到简洁**：RoPE 和 ALiBi 的成功表明，简洁优雅的数学设计往往比复杂的参数化方案更有效

RoPE 凭借其在相对位置编码、外推能力和计算效率三方面的综合优势，成为了当前大语言模型的事实标准。
