4.4 ALiBi 与其他相对位置方案

除了 RoPE,研究者还提出了多种其他相对位置编码方案。了解这些方案有助于理解位置编码设计空间中的不同权衡。

4.4.1 ALiBi:用偏置替代编码

ALiBi(Attention with Linear Biases,Press 等人,2022 年)采用了一种极其简洁的方法:不添加任何位置编码向量,而是直接在注意力分数上加一个与距离成正比的负偏置。

score(qm,kn)=qmTknrmn\text{score}(q_m, k_n) = q_m^T k_n - r \cdot |m - n|

其中 $r$ 是一个预设的斜率参数(不同头使用不同的 $r$ 值),$|m - n|$ 是两个位置之间的距离。

ALiBi 的直觉很自然:距离越远的位置,注意力分数的惩罚越大。 这引入了一种位置先验——相近的词更可能相互关联。不同的头使用不同的斜率 $r$,使得有些头关注近距离上下文、有些头关注远距离上下文。

ALiBi 的最大优势是出色的长度外推能力——它在 1024 长度上训练后可以直接外推到 2048 甚至更长,性能衰减很小。这是因为线性偏置函数对任意距离都有定义,不像可学习编码那样存在位置上限。

4.4.2 其他相对位置编码方案

Transformer-XL 的相对位置编码(Relative Position Encoding):Dai 等人(2019 年)提出在注意力分数的计算中显式加入可学习的相对位置偏置项。这种方法将注意力分数分解为四项:内容-内容、内容-位置、位置-内容和位置-位置交互。虽然有效,但实现较为复杂。

T5 的相对位置偏置(Relative Position Bias):T5 使用了简化的可学习相对位置偏置——为每个可能的相对距离学习一个标量偏置值。距离超过一定阈值后使用同一个偏置值(桶化处理),使其能够泛化到较长的距离。

4.4.3 各方案的对比

方案
类型
编码位置
外推能力
额外参数
代表模型

正弦编码

绝对

嵌入层

理论上有

原始 Transformer

可学习编码

绝对

嵌入层

$L_{\max} \times d$

GPT-2、BERT

RoPE

相对

Q/K 旋转

强(可扩展)

Llama、Gemma

ALiBi

相对

注意力偏置

BLOOM

T5 偏置

相对

注意力偏置

中等

少量

T5、Flan-T5

表 4-1:主要位置编码方案对比

4.4.4 设计趋势

从位置编码的演进中可以看到几个清晰的趋势:

  1. 从绝对到相对:现代方案倾向于编码相对位置而非绝对位置,因为大多数语言关系与相对距离更相关

  2. 从嵌入层到注意力层:位置信息的注入点从输入嵌入转移到了注意力计算过程中,使位置信息能更直接地影响注意力分数

  3. 从固定到可扩展:外推能力成为了关键考量,固定最大长度的方案逐渐被淘汰

  4. 从复杂到简洁:RoPE 和 ALiBi 的成功表明,简洁优雅的数学设计往往比复杂的参数化方案更有效

RoPE 凭借其在相对位置编码、外推能力和计算效率三方面的综合优势,成为了当前大语言模型的事实标准。

最后更新于