本章小结
GPT 系列展示了规模扩展的力量——从 1.17 亿到未公开规模的 GPT-4,涌现能力的发现推动了行业向更大模型的竞赛。GPT-4o mini 改变了 API 定价格局,而 o1 系列开辟了推理时计算扩展的新维度,证明投入更多推理计算同样能大幅提升模型能力。
Llama 通过 RoPE、RMSNorm、SwiGLU、GQA 等架构改进确立了现代 LLM 的标准配方。Llama 3.1 的 405B 模型首次让开源追平闭源前沿,3.2 将 LLM 带到手机端侧,3.3 则以 70B 实现了 405B 级别的对齐效果,展现了开源生态的蓬勃发展。
DeepSeek 以创新的 MoE 架构和 FP8 训练大幅降低成本达到前沿水平。特别是 DeepSeek-R1 通过纯强化学习训练实现了推理能力的涌现,并将其蒸馏到小模型中,为开源推理模型开辟了新路径。Gemini 代表了原生多模态和百万级上下文的发展方向。Claude 以 Artifacts 和 Computer Use 推动了 AI 交互方式的创新。Qwen 2.5 标志着中国开源 LLM 在国际基准上的全面崛起。
T5/BART 等编码器-解码器模型在 Seq2Seq 任务上有架构优势,但在大规模实践中让位于更简洁的纯解码器架构。
下一章将讨论 Transformer 架构的前沿创新与未来趋势。
最后更新于
