> For the complete documentation index, see [llms.txt](https://yeasy.gitbook.io/llm_internals/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://yeasy.gitbook.io/llm_internals/di-si-bu-fen-mo-xing-yu-qian-yan-pian/13_decoder_models/13.3_deepseek_gemini.md).

# 13.3 DeepSeek、Gemini 与其他前沿模型

2024 年，LLM 领域进入了百花齐放的阶段。除了 OpenAI 和 Meta，多家机构推出了各具特色的前沿模型，推动了架构创新和成本优化的双重进步。

## 13.3.1 DeepSeek：效率创新的标杆

DeepSeek（深度求索）团队以极致的工程效率著称，在有限的算力预算下达到了与顶尖闭源模型比肩的水平。

**DeepSeek-V2**（2024 年）引入了两项关键创新：

* **Multi-head Latent Attention（MLA）**：将 KV 缓存压缩到一个低维潜变量空间中，并通过投影吸收避免在每步显式还原完整 K/V，大幅减少推理时的显存占用
* **DeepSeekMoE**：使用更细粒度的专家（V2 为 160 个路由专家 + 2 个共享专家，V3 进一步扩展至 256 个路由专家，而非传统 MoE 的 8 个大专家），每个词元激活更少的参数，实现了更精细的路由和更好的负载均衡

**DeepSeek-V3**（2024 年 12 月）是 MoE 架构的集大成之作：

* 总参数 671B，每词元激活 37B（仅 5.5%）
* **FP8 混合精度训练**：在主要计算中使用 8 位浮点数，训练效率大幅提升
* **多词元预测**（Multi-Token Prediction）：每步预测多个未来词元，训练信号更丰富
* 公开技术报告披露的训练运行成本不到 **600 万美元**（约 2788K H800 GPU 小时）——这是一次训练 run 的 GPU 小时成本口径，不等同于完整研发、数据、试验和人员成本

DeepSeek 证明了一个重要观点：**架构和工程创新可以大幅降低达到前沿能力所需的训练运行成本**，打破了“只有算力巨头才能训练前沿模型”的单一路径认知。

**DeepSeek-R1 / R1-Zero**（2025 年 1 月）则在推理能力上取得了里程碑式的突破，值得深入讨论。

**DeepSeek-R1-Zero** 的核心创新在于**纯强化学习训练推理能力**——采用 **GRPO**（Group Relative Policy Optimization）算法，不依赖任何人工标注的推理过程数据，也不先进行 SFT，仅以规则化奖励作为信号（以结果正确性为主，辅以要求把思考过程写入 `<think>` 标签的格式奖励），在组内比较的基础上优化策略，模型自发地涌现出了一系列高级推理行为：

* **自发的思维链**：模型学会了将复杂问题拆解为多个步骤逐步求解
* **自我验证**：在给出答案前，模型会自行检查推理过程的逻辑一致性
* **自我纠错**：当发现推理路径有误时，模型能够回溯并尝试新的方法
* **反思与元认知**：模型展现出对自身能力边界的认识，在不确定时会表达犹豫

这些行为的涌现尤其令人惊讶，因为 R1-Zero 的训练过程中从未显式教授这些策略。DeepSeek 团队将此描述为**强化学习的“顿悟时刻”**（Aha Moment）——模型在训练过程中突然学会了以结构化方式思考。

正式的 **DeepSeek-R1** 则不是纯 RL 版本：它先使用少量高质量长思维链数据做 cold-start，再经过面向推理的 RL、拒绝采样/SFT 和面向偏好的 RL 等多阶段训练，用来缓解 R1-Zero 的可读性差、语言混杂和重复问题，同时保留强推理能力。

R1 的另一个重要贡献是**推理能力的蒸馏**。团队成功地将 R1 的推理能力蒸馏到一系列更小的开源模型中（1.5B、7B、8B、14B、32B、70B），这些蒸馏模型在各自的参数量级上均展现出了远超同量级模型的推理能力。这种“大模型推理 → 小模型继承”的路径为推理能力的普及提供了实用方案。

与 OpenAI 的 o1 对比，DeepSeek-R1 不仅在性能上接近甚至匹配 o1（在数学和编程基准上），更重要的是**技术路线完全公开**——这是开源社区首次拥有了可与闭源推理模型抗衡的替代方案。

## 13.3.2 Gemini：原生多模态的代表

Google 的 **Gemini** 系列是从设计之初就支持多种模态的大模型家族：

* **Gemini 1.0**（2023 年）：Google Gemini 系列第一代原生多模态模型，同时处理文本、图像、音频和视频
* **Gemini 1.5**（2024 年）：引入 MoE 架构，支持 **100 万词元上下文窗口**
* **Gemini 2.0**（2024 年 12 月）：进一步提升工具使用能力
* **Gemini 2.5 Pro**（2025 年 3 月 25 日 Experimental；2025 年 6 月 17 日 stable GA）：进一步提升推理能力和工具使用能力
* **Gemini 3 Pro**（2025 年 11 月 18 日）：Google 发布的 Gemini 3 代模型；截至 2026 年 5 月，Gemini API 文档显示 Gemini 3 Pro Preview 已于 2026 年 3 月 9 日关闭，生产使用应迁移到更新的 Gemini 3.1 Pro Preview
* **Gemini 3.1 Pro Preview**（2026 年 2 月 19 日）：Google 文档中的 Gemini 3.1 Pro 预览版本，延续百万级输入上下文和工具集成能力
* **Gemini 3.5 Flash**（2026 年 5 月 19 日）：Google 发布的 Gemini 3.5 系列首个模型，面向智能体工作流、编码和多模态任务；模型卡标注最高 1M 输入上下文、64K 输出，并以 Flash 系列的低延迟作为主要定位

Gemini 1.5 的**百万级上下文窗口**是工程上的重大成就。实现如此长的上下文需要解决注意力机制的平方复杂度、KV 缓存和跨设备通信问题；公开文档确认了百万级上下文能力，但没有完整披露底层实现细节。百万级上下文使得全新的应用场景成为可能——一次性输入一整本书进行分析、理解长达数小时的视频内容、或者在数万行到十万行级代码片段中进行跨文件推理。实际可处理的“代码行数”取决于语言、注释密度、tokenizer 和提示压缩方式，不能把 100 万词元直接等同为百万行代码库。

Gemini 2.0（2024 年 12 月）则强化了**工具使用和 Agent 能力**，支持原生的函数调用、代码执行和搜索集成，向通用 AI 助手的方向迈进。

Gemini 的独特之处在于**原生多模态**——不是将视觉编码器与语言模型拼接，而是从预训练阶段就用统一的架构处理所有模态。这使得模型在跨模态推理（如理解图表中的趋势并用文字解释）方面表现出色。

## 13.3.3 Claude：安全性、长上下文与创新交互

Anthropic 的 **Claude** 系列以安全性研究和超长上下文能力著称，同时在产品创新方面推出了多项行业首创功能。

**Claude 3.5 Sonnet**（2024 年）在多项基准上超越了 GPT-4o，成为当时综合能力最强的模型之一，尤其在代码生成、文本分析和指令遵循方面表现突出。**Claude 3.5 Haiku** 则是该系列的高性价比版本，以极低的延迟和成本覆盖大量 API 调用场景——在某些基准上甚至超越了上一代的 Claude 3 Opus。

**Claude 3.7 Sonnet**（2025 年 2 月 24 日）引入了**混合推理能力**，在保持高效推理速度的同时提升了复杂问题的解决能力。**Claude Opus 4**（2025 年 5 月）标志着 Claude 进入第四代，在多模态理解和智能体能力方面实现了重大跃升。**Claude Sonnet 4.5**（2025 年 9 月 29 日）和 **Claude Haiku 4.5**（2025 年 10 月 15 日）分别面向高性能与高性价比场景。**Claude Opus 4.6**（2026 年 2 月 5 日）和 **Claude Sonnet 4.6**（2026 年 2 月 17 日）继续强化智能体与长上下文能力；其中 Sonnet 4.6 的 100 万词元上下文窗口属于 API beta 能力，具体条件以 Anthropic 官方文档为准。

**Claude Opus 4.7**（2026 年 4 月 16 日）是 Anthropic 发布的后续 Opus 模型，官方公告强调其在软件工程、视觉理解和复杂多步任务上的提升。**Claude Opus 4.8**（2026 年 5 月 28 日）进一步刷新了 Opus 代际，官方文档列出 `claude-opus-4-8`、1M 上下文（Microsoft Foundry 为 200K）、128K 输出和 Adaptive Thinking。由于闭源模型的基准、定价和上下文窗口会随产品发布调整，工程选型时应以 Anthropic 官方模型页和系统卡为准。

Claude 系列的两项产品创新尤为值得关注：

* **Artifacts**：允许用户在对话中直接生成可交互的内容（代码、文档、网页应用等），并在独立窗口中实时预览和迭代。这种“对话即创作”的范式模糊了聊天界面和创作工具之间的边界
* **Computer Use**（计算机使用）：Claude 能够直接操控桌面环境——移动鼠标、点击按钮、输入文字、截取屏幕，像人类用户一样使用软件。这是 AI Agent 领域的里程碑——按 Anthropic 官方说法，Claude 3.5 Sonnet 是首个在公开 beta 中提供计算机使用能力的前沿模型，将 LLM 的能力从文本生成扩展到通用的计算机操作

Anthropic 的 **Constitutional AI** 方法——用一组明确的 AI 原则来指导模型行为，通过 AI 自我评估减少对人工标注的依赖——也是对齐技术领域的重要贡献。Claude 在主流商用模型中率先支持了 200K 词元的上下文窗口，Sonnet 4.6 则在 API 中提供 100 万词元上下文窗口。

## 13.3.4 其他重要模型

**Mistral/Mixtral**（法国 Mistral AI）：Mixtral 8x7B 使用 MoE 架构，总参数 47B 但每词元只激活 13B，在同等激活参数量下性能超越了密集模型。Mistral 团队以小团队、高效率著称。

**Qwen 2.5**（阿里通义千问，2024 年）是中文开源 LLM 的代表性作品。其 72B 旗舰模型在多项基准上接近 Llama 3.1 405B 的水平，在中文、日语、韩语等亚洲语言任务上表现尤为突出。Qwen 2.5 系列提供了从 0.5B 到 72B 的完整尺寸覆盖，满足从端侧到服务器的不同部署需求。此外，团队还推出了专业化变体——**Qwen 2.5-Coder** 在代码生成基准上跻身开源模型前列，**Qwen 2.5-Math** 则在数学推理任务上展现出色能力。Qwen 2.5 的成功标志着中国开源 LLM 在国际基准上的全面崛起。

**GLM/ChatGLM**（智谱 AI）：基于 GLM（General Language Model）架构的中英文双语模型，通过独特的自回归填空预训练方式兼顾理解和生成能力。