# 1.4 如何选择合适的模型：决策框架

在实际的工程落地中，**“用哪个模型”** 往往是开发者面临的第一个难题。 选大了，钱包受不了；选小了，用户体验受不了。

本章将提供一套系统的决策框架，帮助在 **智能 (Intelligence)**、**延迟 (Latency)** 和 **成本 (Cost)** 这个“不可能三角”中找到最优解。

## 1.4.1 核心决策树

在做决定之前，请先回答以下三个问题：

1. **任务有多难？** (需要复杂推理吗？)
2. **用户能等多久？** (是实时对话还是后台批处理？)
3. **预算有多少？** (是一次性的 demo 还是百万级日活的产品？)

基于这三个维度，可以画出一棵决策树：

```mermaid
graph TD
    Start["开始任务分析"] --> Q1{"是否需要操作计算机?"}
    Q1 -- "是" --> OpCS["Claude Sonnet 4.6 / Opus 4.6 — Computer Use 推荐"]
    Q1 -- "否" --> Q2{"任务复杂度?"}

    Q2 -- "极高: 创意/科研/架构" --> Opus["Claude Opus 4.7"]
    Q2 -- "中高: 代码/数据/RAG" --> Sonnet["Claude Sonnet 4.6"]
    Q2 -- "简单: 翻译/分类/提取" --> Haiku["Claude Haiku 4.5"]

    Sonnet --> Q3{"对延迟是否极度敏感?"}
    Q3 -- "是: 需要 < 1秒响应" --> Haiku
    Q3 -- "否: 可以接受 2-3秒" --> Sonnet

    style Opus fill:#ffcccc,stroke:#333
    style Sonnet fill:#ccffcc,stroke:#333
    style Haiku fill:#ccccff,stroke:#333
```

## 1.4.2 详细选型指南

### 默认首选：Claude Sonnet 4.6

若不知如何选择，**首选它**。

* **理由**：它是 2026 年的“版本答案”。在编码能力、逻辑推理和视觉理解上均达到了 SOTA 水平，具有极高的性价比和出色的响应速度。
* **最佳场景**：
  * **代码助手**：IDE 插件、代码补全、重构。
  * **复杂的 RAG 系统**：阅读这一大段检索到的文档并回答问题。
  * **多步 Agent**：规划任务、调用工具。
  * **数据分析**：处理 Excel 表格、分析图表。

### 成本杀手：Claude Haiku 4.5

不可小觑。Haiku 是目前市场上性价比最高的模型之一。

* **理由**：它极其便宜，且速度极快。它的智能程度完全足以应付 80% 的“脏活累活”。
* **最佳场景**：
  * **内容审核**：判断用户输入是否违规。
  * **意图识别 (Router)**：作为网关，判断用户是想“查天气”还是“写诗”，然后分发给不同的模型。
  * **海量文档处理**：比如你要从 10 万份 PDF 中提取“发票金额”，用 Opus 可能会破产，用 Haiku 则毫无压力。
  * **实时翻译**：即时通讯软件中的即时翻译。

### 艺术与深思：Claude Opus 4.7

作为 Anthropic 最强大的模型，Opus 在极度复杂的任务上无可替代。

* **理由**：Opus 4.7 在最困难的 Agentic 编码、复杂的数学推导和逻辑推理中表现最好，SWE-bench Verified 达 87.6%，GPQA Diamond 达 94.2%，幻觉率极低。其输出往往详尽且富有洞察力。
* **最佳场景**：
  * **创意写作**：小说、剧本、营销软文。
  * **极度复杂的逻辑**：如果 Sonnet 在某个数学证明或逻辑推理上反复出错，请尝试 Opus。
  * **可以慢慢等的任务**：不需要实时反馈的离线报告生成。

## 1.4.3 成本经济学

以下算一笔账。假设应用每天有 100 个用户，每个用户进行 10 轮对话，每轮消耗 1,000 Tokens (输入+输出)。 日总量 = 100 万 (1M) Tokens。 下面先按 **80% 输入 / 20% 输出** 估算，便于做粗略预算。

* **极高复杂度的推理/长文写作**：选择 **Claude Opus 4.7**。
* **Computer Use (计算机视觉操控)**：选择 **Claude Sonnet 4.6** 或 **Claude Opus 4.7**。
* **企业级 Agent 路由分发中心**：选择 **Claude Haiku 4.5**。

| 模型                    | 日成本估算 (USD) | 性能评价        |
| --------------------- | ----------- | ----------- |
| **Claude Haiku 4.5**  | \~$1.8      | 极快，性价比高     |
| **Claude Sonnet 4.6** | \~$5.4      | 又快又聪明       |
| **Claude Opus 4.7**   | \~$9.0      | 极度聪明，工程能力最强 |

*注：以上按 Anthropic 当前参考定价的输入/输出分开计费方式折算；如果输出占比更高，成本会继续上升。*

**结论**：哪怕 Sonnet 比 Haiku 贵 3 倍，如果它能将用户留存率提高 5%，这约 $3.6 的差价也是值得的。但如果业务规模扩大到 100 万用户，Haiku 的成本优势就会变成巨大的利润空间。

## 1.4.4 高级架构：混合路由

成熟的 AI 应用不会只吊死在一棵树上。最佳实践是构建一个 **Model Router**。

### 架构图

```mermaid
graph TD
    User["用户请求：'给我写首关于春天的诗'"] --> Router["Router (由 Haiku 驱动)"]
    Router -- "思考：这是创意写作任务<br>决策：转发给 Opus" --> Worker["Claude Opus 4.7 进行创作"]
    Worker --> Result["返回结果"]
```

### 路由策略示例

1. **难度分级**：如果 Prompt包含关键词 “复杂”、“架构”、“分析”，路由到 Sonnet/Opus；如果包含 “总结”、“提取”、“分类”，路由到 Haiku。
2. **降级策略 (Fallback)**：优先尝试 Sonnet，如果 API 超时或报错，自动降级到 Haiku 以保证服务可用性。
3. **VIP 策略**：免费用户使用 Haiku，付费会员使用 Sonnet/Opus。

## 1.4.5 迁移指南

随着 Anthropic 快速迭代，每隔几个月就会有新模型 (如 3.5, 4.0)。

* **不要硬编码模型名称**：

```python
# 推荐实践：提取常量
MODEL_CHEAP = "claude-haiku-4-5-20251001" # 便宜型号用于大批量简单任务
MODEL_BALANCED = "claude-sonnet-4-6"  # 最佳性价比的高能力型号
MODEL_SOTA = "claude-opus-4-7"  # 当前最强能力型号

# 调用演示
response = client.messages.create(
    model=MODEL_SOTA,
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "你好，请介绍一下你自己。"}
    ]
)
```

* **建立评估集 (Evals)**：在切换模型前，务必跑一遍你的核心业务测试用例。新模型虽然通常更强，但可能会改变输出格式（比如 JSON 的空格处理），导致代码崩溃。

***

恭喜！已完成了第一章的学习，对 Claude 的身世、能力和选型有了全方位的认知。 现在，进入实战的核心——如何跟这位高智商的 AI 说话？

➡️ [第二章：提示工程核心技术](/claude_guide/di-yi-bu-fen-ji-chu-pian/02_prompt.md)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://yeasy.gitbook.io/claude_guide/di-yi-bu-fen-ji-chu-pian/01_intro/1.4_model_selection.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
