第八章 新架构与创新案例

从 Transformer 的天花板到 SSM 混合架构,再到 DeepSeek 的低成本奇迹


Transformer 架构统治了 AI 世界近十年,但它并非完美——二次复杂度(O(N²))让处理超长文本变得极其昂贵。2024 年起,状态空间模型(SSM)和混合架构(Mamba、Jamba)开始挑战这一格局。

与此同时,DeepSeek 用不到 600 万美元训练出了与 GPT-4 相当的模型,证明了架构创新和工程效率可以击败规模堆叠。

本章将这两条技术线索合为一体:先理解“为什么需要新架构”,再看“新架构如何在实践中大放异彩”。

本章内容

Part A:超越 Transformer

Part B:DeepSeek 深度解析

最后更新于