标准 Transformer 编码器的自注意力复杂度为 $O(n^2)$(详见 2.5 节),使其难以处理超过 512-1024 词元的长文本。Longformer 和 BigBird 通过稀疏注意力模式突破了这一限制。
Longformer(Beltagy 等人,2020 年)将注意力分解为两种模式的组合:
局部滑动窗口注意力:每个词元只关注其前后固定大小窗口(如 256 个位置)内的词元。这提供了局部上下文信息,复杂度为 $O(n \cdot w)$($w$ 为窗口大小),对序列长度线性。
全局注意力:少数特殊位置(如 [CLS] 标记或任务特定的关键位置)关注所有位置,同时被所有位置关注。这确保了全局信息的汇聚。
[CLS]
这种混合模式在保持处理长文本能力的同时,将总复杂度降至 $O(n)$。Longformer 能够处理长达 4096 个词元的文档(是 BERT 的 8 倍),在长文档分类、长文本问答等任务上表现出色。
BigBird(Zaheer 等人,2020 年)在 Longformer 的基础上加入了第三种注意力模式:
局部窗口注意力:与 Longformer 相同
全局注意力:与 Longformer 相同
随机注意力:每个词元随机关注若干个远距离位置
随机注意力的加入有一个深刻的理论意义——BigBird 的作者证明了这种稀疏注意力模式保持了标准注意力的图灵完备性。也就是说,理论上不存在标准注意力能完成而 BigBird 不能完成的计算任务。
随着大语言模型上下文窗口的不断扩大(从 4K 到 128K 甚至 1M),长文本处理已从编码器模型的专属领地扩展到了解码器模型。现代方法(如 Flash Attention、RoPE 长度外推、Ring Attention 等)使得标准注意力也能高效处理数十万词元的序列。
然而,Longformer 和 BigBird 的设计思想——用结构化的稀疏模式近似全连接注意力——仍然是一个活跃的研究方向,在资源受限的高效推理场景下有重要价值。关于百万级长上下文的工程实现和有效利用的系统性讨论,参见 14.6 节。
最后更新于3天前