# 第八章 新架构与创新案例

> 从 Transformer 的天花板到 SSM 混合架构，再到 DeepSeek 的低成本奇迹

***

Transformer 架构统治了 AI 世界近十年，但它并非完美——二次复杂度（O(N²)）让处理超长文本变得极其昂贵。2024 年起，状态空间模型（SSM）和混合架构（Mamba、Jamba）开始挑战这一格局。

与此同时，DeepSeek 用不到 600 万美元训练出了与 GPT-4 相当的模型，证明了架构创新和工程效率可以击败规模堆叠。

本章将这两条技术线索合为一体：先理解“为什么需要新架构”，再看“新架构如何在实践中大放异彩”。

## 本章内容

**Part A：超越 Transformer**

* [**8.1 Transformer 的二次复杂度**](/ai_beginner_guide/di-er-bu-fen-he-xin-ji-shu-jie-xi/08_new_architectures/8.1_transformer_limitation.md)：理解注意力机制的根本瓶颈
* [**8.2 状态空间模型入门**](/ai_beginner_guide/di-er-bu-fen-he-xin-ji-shu-jie-xi/08_new_architectures/8.2_ssm_basics.md)：用初学者友好的比喻理解 SSM
* [**8.3 混合架构的未来**](/ai_beginner_guide/di-er-bu-fen-he-xin-ji-shu-jie-xi/08_new_architectures/8.3_hybrid_architectures.md)：Jamba、Bamba、Titans 如何结合两者优势
* [**8.4 长上下文与持久记忆**](/ai_beginner_guide/di-er-bu-fen-he-xin-ji-shu-jie-xi/08_new_architectures/8.4_long_context.md)：新架构对 AI 应用的深远影响

**Part B：DeepSeek 深度解析**

* [**8.5 DeepSeek 的故事**](/ai_beginner_guide/di-er-bu-fen-he-xin-ji-shu-jie-xi/08_new_architectures/8.5_deepseek_story.md)：从小公司到 AI 独角兽
* [**8.6 MLA 架构与 MoE 创新**](/ai_beginner_guide/di-er-bu-fen-he-xin-ji-shu-jie-xi/08_new_architectures/8.6_mla_moe_innovation.md)：多头潜在注意力与混合专家如何优化效率
* [**8.7 DeepSeek-R1 推理模型**](/ai_beginner_guide/di-er-bu-fen-he-xin-ji-shu-jie-xi/08_new_architectures/8.7_deepseek_r1.md)：为什么 DeepSeek 能在推理上与 o1 竞争


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://yeasy.gitbook.io/ai_beginner_guide/di-er-bu-fen-he-xin-ji-shu-jie-xi/08_new_architectures.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.