本章小结
高效注意力(稀疏注意力、线性注意力)通过限制注意力范围或核函数近似来突破 $O(n^2)$ 的瓶颈,在超长序列场景下尤为重要。
**混合专家模型(MoE)**通过只激活部分参数实现了“大容量、低计算”的目标,DeepSeek-V3(671B 总参/37B 激活)等模型证明了这一方向的巨大价值。
**状态空间模型(Mamba 等)**用线性递推替代注意力,复杂度从 $O(n^2)$ 降至 $O(n)$。混合架构将注意力与 SSM 结合,在不同层使用不同机制以兼取两者之长。
多模态 Transformer 正在走向统一不同模态的表示与生成,是下一代基础模型的核心方向。
AI Agent 与工具调用让 LLM 从被动问答走向主动执行任务。通过 Function Calling 实现结构化工具调用,以 ReAct 等架构模式组织推理与行动,借助 MCP 等标准化协议降低工具集成成本。Agent 的兴起也对推理引擎提出了长对话管理、状态维持和并发调用等新需求。
推理时计算扩展通过自发的思维链生成、多路采样和过程验证,将模型的性能瓶颈从训练阶段部分转移到推理阶段。这不仅赋予模型解决复杂推理问题所需的工作深度,也意味着模型部署策略正在向根据问题难度自适应调配计算资源的“混合混合思考模式”演变。
长上下文技术的系统性发展使大语言模型从 4K 上下文窗口跨越到百万级。Ring Attention 和序列并行(DeepSpeed Ulysses)解决了分布式注意力的工程实现,RoPE 外推技术(YaRN 等)使模型能从短序列训练扩展到长序列推理。然而,“Lost in the Middle”现象和注意力稀释问题揭示了支持长上下文与有效利用长上下文之间的鸿沟,上下文工程和 RAG 的互补使用正成为弥合这一鸿沟的实践方向。
Transformer 的核心设计原则——注意力机制的全局连接、残差连接的梯度保障、并行计算的效率——依然是深度学习最成功的架构范式。在这些原则之上的持续创新,将继续推动人工智能向更高的峰值攀登。
最后更新于
