13.3 DeepSeek、Gemini 与其他前沿模型
2024 年,LLM 领域进入了百花齐放的阶段。除了 OpenAI 和 Meta,多家机构推出了各具特色的前沿模型,推动了架构创新和成本优化的双重进步。
13.3.1 DeepSeek:效率创新的标杆
DeepSeek(深度求索)团队以极致的工程效率著称,在有限的算力预算下达到了与顶尖闭源模型比肩的水平。
DeepSeek-V2(2024 年)引入了两项关键创新:
Multi-head Latent Attention(MLA):将 KV 缓存压缩到一个低维潜变量空间中,大幅减少推理时的显存占用
DeepSeekMoE:使用更细粒度的专家(256 个小专家而非 8 个大专家),每个词元激活更少的参数,实现了更精细的路由和更好的负载均衡
DeepSeek-V3(2025 年)是 MoE 架构的集大成之作:
总参数 671B,每词元激活 37B(仅 5.5%)
FP8 混合精度训练:在主要计算中使用 8 位浮点数,训练效率大幅提升
多词元预测(Multi-Token Prediction):每步预测多个未来词元,训练信号更丰富
训练成本不到 600 万美元——仅为同等性能闭源模型估算成本的十分之一
DeepSeek 证明了一个重要观点:架构和工程创新可以大幅降低训练成本,打破了“只有算力巨头才能训练前沿模型”的认知。
DeepSeek-R1(2025 年)则在推理能力上取得了里程碑式的突破,值得深入讨论。
R1 的核心创新在于纯强化学习训练推理能力——不依赖任何人工标注的推理过程数据,仅通过结果正确性作为奖励信号,模型自发地涌现出了一系列高级推理行为:
自发的思维链:模型学会了将复杂问题拆解为多个步骤逐步求解
自我验证:在给出答案前,模型会自行检查推理过程的逻辑一致性
自我纠错:当发现推理路径有误时,模型能够回溯并尝试新的方法
反思与元认知:模型展现出对自身能力边界的认识,在不确定时会表达犹豫
这些行为的涌现尤其令人惊讶,因为训练过程中从未显式教授这些策略。DeepSeek 团队将此描述为强化学习的“顿悟时刻”(Aha Moment)——模型在训练过程中突然学会了以结构化方式思考。
R1 的另一个重要贡献是推理能力的蒸馏。团队成功地将 R1 的推理能力蒸馏到一系列更小的开源模型中(1.5B、7B、8B、14B、32B、70B),这些蒸馏模型在各自的参数量级上均展现出了远超同量级模型的推理能力。这种“大模型推理 → 小模型继承”的路径为推理能力的普及提供了实用方案。
与 OpenAI 的 o1 对比,DeepSeek-R1 不仅在性能上接近甚至匹配 o1(在数学和编程基准上),更重要的是技术路线完全公开——这是开源社区首次拥有了可与闭源推理模型抗衡的替代方案。
13.3.2 Gemini:原生多模态的代表
Google 的 Gemini 系列是从设计之初就支持多种模态的大模型家族:
Gemini 1.0(2023 年):首个原生多模态模型,同时处理文本、图像、音频和视频
Gemini 1.5(2024 年):引入 MoE 架构,支持 100 万词元上下文窗口
Gemini 2.0/2.5(2025 年):进一步提升推理能力和工具使用能力
Gemini 1.5 的百万级上下文窗口是工程上的重大成就。实现如此长的上下文需要解决注意力机制的平方复杂度问题,Google 采用了多层次的工程优化方案:在硬件层面利用 TPU 的高带宽互联实现跨设备的注意力计算分片,在算法层面结合了分层注意力(Hierarchical Attention)和高效的 KV 缓存管理策略。百万级上下文使得全新的应用场景成为可能——一次性输入一整本书进行分析、理解长达数小时的视频内容、或者在百万行代码库中进行跨文件推理。
Gemini 2.0(2024 年 12 月)则强化了工具使用和 Agent 能力,支持原生的函数调用、代码执行和搜索集成,向通用 AI 助手的方向迈进。
Gemini 的独特之处在于原生多模态——不是将视觉编码器与语言模型拼接,而是从预训练阶段就用统一的架构处理所有模态。这使得模型在跨模态推理(如理解图表中的趋势并用文字解释)方面表现出色。
13.3.3 Claude:安全性、长上下文与创新交互
Anthropic 的 Claude 系列以安全性研究和超长上下文能力著称,同时在产品创新方面推出了多项行业首创功能。
Claude 3.5 Sonnet(2024 年)在多项基准上超越了 GPT-4o,成为当时综合能力最强的模型之一,尤其在代码生成、文本分析和指令遵循方面表现突出。Claude 3.5 Haiku 则是该系列的高性价比版本,以极低的延迟和成本覆盖大量 API 调用场景——在某些基准上甚至超越了上一代的 Claude 3 Opus。
Claude 系列的两项产品创新尤为值得关注:
Artifacts:允许用户在对话中直接生成可交互的内容(代码、文档、网页应用等),并在独立窗口中实时预览和迭代。这种“对话即创作”的范式模糊了聊天界面和创作工具之间的边界
Computer Use(计算机使用):Claude 能够直接操控桌面环境——移动鼠标、点击按钮、输入文字、截取屏幕,像人类用户一样使用软件。这是 AI Agent 领域的里程碑,首次将 LLM 的能力从文本生成扩展到通用的计算机操作
Anthropic 的 Constitutional AI 方法——用一组明确的 AI 原则来指导模型行为,通过 AI 自我评估减少对人工标注的依赖——也是对齐技术领域的重要贡献。Claude 率先支持了 200K 词元的上下文窗口。
13.3.4 其他重要模型
Mistral/Mixtral(法国 Mistral AI):Mixtral 8x7B 使用 MoE 架构,总参数 47B 但每词元只激活 13B,在同等激活参数量下性能超越了密集模型。Mistral 团队以小团队、高效率著称。
Qwen 2.5(阿里通义千问,2024 年)是中文开源 LLM 的代表性作品。其 72B 旗舰模型在多项基准上接近 Llama 3.1 405B 的水平,在中文、日语、韩语等亚洲语言任务上表现尤为突出。Qwen 2.5 系列提供了从 0.5B 到 72B 的完整尺寸覆盖,满足从端侧到服务器的不同部署需求。此外,团队还推出了专业化变体——Qwen 2.5-Coder 在代码生成基准上跻身开源模型前列,Qwen 2.5-Math 则在数学推理任务上展现出色能力。Qwen 2.5 的成功标志着中国开源 LLM 在国际基准上的全面崛起。
GLM/ChatGLM(智谱 AI):基于 GLM(General Language Model)架构的中英文双语模型,通过独特的自回归填空预训练方式兼顾理解和生成能力。
最后更新于
