Transformer 并非终点。自注意力的 $O(n^2)$ 瓶颈、日益增长的模型规模和对更强推理能力的需求,推动着架构向多个方向演进。本章探讨高效注意力、混合专家模型、状态空间模型、多模态 Transformer 等前沿方向,深入分析 AI Agent 与工具调用如何让 LLM 从“对话”走向“行动”,介绍推理时计算扩展如何让模型学会深度思考,并系统梳理长上下文技术从工程实现到有效利用的完整图景。
最后更新于1天前