4.4 ALiBi 与其他相对位置方案
除了 RoPE,研究者还提出了多种其他相对位置编码方案。了解这些方案有助于理解位置编码设计空间中的不同权衡。
4.4.1 ALiBi:用偏置替代编码
ALiBi(Attention with Linear Biases,Press 等人,2022 年)采用了一种极其简洁的方法:不添加任何位置编码向量,而是直接在注意力分数上加一个与距离成正比的负偏置。
score(qm,kn)=qmTkn−r⋅∣m−n∣
其中 $r$ 是一个预设的斜率参数(不同头使用不同的 $r$ 值),$|m - n|$ 是两个位置之间的距离。
ALiBi 的直觉很自然:距离越远的位置,注意力分数的惩罚越大。 这引入了一种位置先验——相近的词更可能相互关联。不同的头使用不同的斜率 $r$,使得有些头关注近距离上下文、有些头关注远距离上下文。
ALiBi 的最大优势是出色的长度外推能力——它在 1024 长度上训练后可以直接外推到 2048 甚至更长,性能衰减很小。这是因为线性偏置函数对任意距离都有定义,不像可学习编码那样存在位置上限。
4.4.2 其他相对位置编码方案
Transformer-XL 的相对位置编码(Relative Position Encoding):Dai 等人(2019 年)提出在注意力分数的计算中显式加入可学习的相对位置偏置项。这种方法将注意力分数分解为四项:内容-内容、内容-位置、位置-内容和位置-位置交互。虽然有效,但实现较为复杂。
T5 的相对位置偏置(Relative Position Bias):T5 使用了简化的可学习相对位置偏置——为每个可能的相对距离学习一个标量偏置值。距离超过一定阈值后使用同一个偏置值(桶化处理),使其能够泛化到较长的距离。
4.4.3 各方案的对比
正弦编码
绝对
嵌入层
理论上有
无
原始 Transformer
可学习编码
绝对
嵌入层
无
$L_{\max} \times d$
GPT-2、BERT
RoPE
相对
Q/K 旋转
强(可扩展)
无
Llama、Gemma
ALiBi
相对
注意力偏置
强
无
BLOOM
T5 偏置
相对
注意力偏置
中等
少量
T5、Flan-T5
表 4-1:主要位置编码方案对比
4.4.4 设计趋势
从位置编码的演进中可以看到几个清晰的趋势:
从绝对到相对:现代方案倾向于编码相对位置而非绝对位置,因为大多数语言关系与相对距离更相关
从嵌入层到注意力层:位置信息的注入点从输入嵌入转移到了注意力计算过程中,使位置信息能更直接地影响注意力分数
从固定到可扩展:外推能力成为了关键考量,固定最大长度的方案逐渐被淘汰
从复杂到简洁:RoPE 和 ALiBi 的成功表明,简洁优雅的数学设计往往比复杂的参数化方案更有效
RoPE 凭借其在相对位置编码、外推能力和计算效率三方面的综合优势,成为了当前大语言模型的事实标准。
最后更新于
