1.2 Claude 模型家族全景

1.2.1 三种尺寸,一种智慧

Anthropic 没有采取“一个模型通吃”的策略,而是推出了三个不同定位的模型系列。这种分层策略深受用户欢迎,因为它允许开发者在 智能水平 (Intelligence)响应速度 (Speed)使用成本 (Cost) 之间找到最佳平衡点。

这三个系列分别是:Opus (史诗/巨作)Sonnet (十四行诗)Haiku (俳句)

Claude Opus (史诗)

  • 定位:旗舰级,最强智能。

  • 特点:拥有近乎人类专家的推理能力。它擅长处理高度复杂的任务,如创意写作、战略分析、复杂数学证明和大型系统架构设计。

  • 适用场景:当需要“最好的结果”且不在乎多等几秒钟或多付一点钱时。

    • 科研论文润色

    • 法律合同审查

    • 复杂算法编写

  • 形象比喻:一位学识渊博的大学教授。

Claude Sonnet (十四行诗)

  • 定位:平衡级,企业首选。

  • 特点:这是 Claude 家族的 中流砥柱。它在大多数任务上的表现与 Opus 差距极小(甚至在编程任务上经常超越老版本的 Opus),但速度快 2 倍,成本仅为 Opus 的 1/5。

  • 适用场景:绝大多数日常任务的最佳默认选择。

    • 代码生成与调试 (VS Code 插件默认首选)

    • RAG (检索增强生成)

    • 数据提取与清洗

    • 构建 Agent 工作流

  • 形象比喻:一位经验丰富的高级工程师。

Claude Haiku (俳句)

  • 定位:轻量级,极致速度。

  • 特点:虽然体积小,但绝不“傻”。Claude 3 Haiku 的阅读速度可以达到每秒 200k tokens(读完一本《红楼梦》仅需不到 3 秒)。它专为高并发、低延迟场景设计。

  • 适用场景

    • 即时聊天机器人 (Chatbots)

    • 内容审核 (Content Moderation)

    • 海量文档的快速摘要

    • 作为复杂 Agent 系统中的“路由器”或“分类器”

  • 形象比喻:一位动作敏捷的实习生助理。

1.2.2 模型演进史

Claude 的迭代速度令人惊叹。每一次大版本更新都标志着 AI 能力的阶跃。

早期探索 (Claude 1 & 2)

  • Claude 1 (2023.03): Anthropic 的首次亮相。相比当时的 GPT-3.5,它更“守规矩”,更不容易被套话。

  • Claude 2 (2023.07): 一个极其重要的里程碑。它是世界上第一个向公众开放 100K Token (约 7.5 万单词) 上下文窗口的模型。这直接引爆了 PDF 阅读和长文档分析的市场需求。

家族化时代

2024 年 3 月,Anthropic 发布了 Claude 3 系列,正式确立了 Opus/Sonnet/Haiku 的产品矩阵。

  • Claude 3 Opus: 在当时一举超越 GPT-4,成为新的 SOTA (State of the Art) 模型。

  • 多模态能力: 全系支持视觉输入(Vision),能看懂图表和照片。

速度与智能的统一 (Claude 3.5)

  • Claude 3.5 Sonnet (2024.06): 这一版本被誉为“神作”。它以中等模型的成本和速度,实现了超越上一代旗舰 (Opus) 的智能。它引入了 Artifacts,改变了编程和 UI 设计的交互方式。

  • Claude 3.5 Sonnet (New) (2024.10): 进一步增强了代码能力,并首次引入 Computer Use (计算机操控)

第四代飞跃

  • Claude Opus 4 / Sonnet 4 (2025.05): Claude 4 代标志着推理能力的重大跃迁。Opus 4 因其强大的自主行动能力被 Anthropic 归类为 Level 3 模型,同时激活了 ASL-3 安全协议。

  • Claude Opus 4.1 (2025.08): 专注于 Agentic 任务和编程能力的增量升级,SWE-bench 成绩提升 7 个百分点。

  • Claude Sonnet 4.5 (2025.09): 平衡之王。在能力上匹配 Opus 4.1,但以更低的价格提供服务,迅速成为最广泛部署的模型。

  • Claude Haiku 4.5 (2025.10): 以 Sonnet 4.5 约 90% 的编码能力、4-5 倍的速度,为中小企业提供了极致性价比的选择。

  • Claude Opus 4.5 (2025.11): 被称为“世界上最好的编码、Agent 和 Computer Use 模型”。引入 Infinite Chats 功能,通过自动摘要旧上下文消除了窗口限制。同时 Opus 系列价格大幅下调。

百万上下文时代 (Claude 4.6)

  • Claude Opus 4.6 / Sonnet 4.6 (2026.02): 最新一代模型,均支持 1M Token 上下文窗口 (Beta)。Opus 4.6 在 Agentic 编码和复杂多学科推理中刷新 SOTA。Sonnet 4.6 在保持 $3/$15 定价的同时实现全面升级。

Claude Sonnet 4.5 vs 4.6 对比

Claude Sonnet 4.6 相比 4.5 的关键升级

维度
Sonnet 4.5
Sonnet 4.6
提升

编码能力 (HumanEval)

88.6%

92.3%

+3.7%

长上下文理解

200K tokens

1M tokens (Beta)

5 倍提升

Computer Use

✓ 支持

✓ 增强

更精准的交互

Agent 规划

✓ 支持

✓ 改进

更好的多步推理

JSON 输出准确率

94%

98%

+4%

价格

$3/$15

$3/$15

无变化

  • 编码提升 (+3.7% HumanEval): 在算法题、系统设计、代码重构上表现更稳定

  • 长上下文推理: 能更好地利用 1M token 窗口处理整个代码库

  • Computer Use 增强: 对屏幕上的 UI 元素识别更准确,操作更精细

  • Agent 决策改进: 在复杂多步骤任务中的自纠正能力更强

何时升级到 4.6

  • 现有 Sonnet 4.5 用户无需立即升级

  • 新项目或需要长上下文的应用建议使用 4.6

  • 企业应用可逐步迁移,两个版本 API 兼容

1.2.3 性能与成本对比图解

为了更直观地理解三者的区别,可以通过能力对比表来分析。

模型能力倾向对比

能力维度
Opus
Sonnet
Haiku

逻辑推理

⭐⭐⭐⭐⭐

⭐⭐⭐⭐

⭐⭐⭐

代码能力

⭐⭐⭐⭐⭐

⭐⭐⭐⭐⭐

⭐⭐⭐

响应速度

⭐⭐

⭐⭐⭐⭐

⭐⭐⭐⭐⭐

视觉理解

⭐⭐⭐⭐⭐

⭐⭐⭐⭐

⭐⭐⭐

成本经济性

⭐⭐⭐

⭐⭐⭐⭐⭐

(注:⭐越多代表该维度表现越优)

具体的 Token 成本

具体定价细节请参考 附录 E:Claude 定价与成本参考 以及 官方定价页面arrow-up-right

定价策略通常遵循:Opus ≈ 5x Sonnet ≈ 60x Haiku

1.2.4 新兴能力维度:Extended Thinking

除了传统的“智能-速度-成本”三角,Claude 正在引入新的维度:思考时间 (Thinking Budget)。 即允许模型在输出结果前,进行一段“静默思考”或“草稿纸推演”。这在处理需要深度逻辑(如复杂数学题、代码重构方案权衡)时,能显著提升准确率,但会消耗更多的推理时间与 Token。

1.2.5 如何选择?

在接下来的“模型选择”章节我们会详细讨论,但这里有一个简单的法则:

"Default to Sonnet, optimize with Haiku, escalate to Opus." “默认用 Sonnet,用 Haiku 优化成本,遇难事找 Opus。”

  1. 开发阶段:直接使用 Sonnet。它的反馈够快,智能足够高,能让开发者专注于业务逻辑而非 Prompt 调优。

  2. 上线前优化

    • 检查 Prompt 历史。如果发现大量任务只是简单的“提取 JSON”或“分类”,尝试切换到 Haiku 并微调 Prompt。这能瞬间节省 90% 的成本。

    • 如果发现某些复杂的长逻辑链推理(Chain of Thought)经常出错,将该特定步骤的模型切换为 Opus

  3. 混合编排:成熟的 Agent 系统往往是混合使用的。例如,用 Haiku 快速判断用户意图,然后根据意图分发给 Sonnet 或 Opus 处理。

1.2.6 展望未来

从 Claude 3 到 4.6,可以观察到三个明显的趋势:

  1. 模型能力差距缩小:Haiku 4.5 已经接近旧版旗舰水平,Sonnet 4.6 在多项指标上匹配 Opus。

  2. 价格持续下降:Opus 从 3 代的 $15/$75 降至 4.6 的 $5/$25,降幅超过 66%。

  3. 上下文窗口急剧扩大:从 200K 跃升至 1M Token (Beta),催生了全新的长文档分析和代码库级别的应用场景。

未来,或许不再需要痛苦地在成本和智能之间做取舍,AI 将像电力一样,既廉价又强大。


了解了模型家族,接下来深入挖掘 Claude 到底具体能干什么?它的六大核心能力是如何重新定义“生产力”的?

➡️ Claude 能做什么

最后更新于