8.4 扩展思考

2024 年底,OpenAI o1 和 Claude 的新特性引发了关于 System 2 Thinking 的热潮。 所谓的 "Extended Thinking" (或称 Thinking Mode),是指模型在输出最终答案之前,能够在后台进行不可见的、长时间的思维推理。

8.4.1 什么是 System 1 vs System 2?

  • System 1 (快思考): 直觉式反应。

    • Example: "2+2=?" -> "4"。

    • Standard LLM Mode.

  • System 2 (慢思考): 逻辑推理,逐步验证。

    • Example: "计算 3491 x 231" -> (列竖式...) -> "806421"。

    • Extended Thinking Mode.

在 Extended Thinking 模式下,Claude 可能会花费 10 秒甚至几分钟来生成数千个 Hidden Tokens,用于自我辩论、尝试错误路径并回溯,最终只输出一个高质量的答案。

8.4.2 启用与控制

虽然具体 API 形式随时间演进,但逻辑通常如下:

response = client.messages.create(
    model="claude-4-5-sonnet-20250929", # 支持 thinking 的最新版本
    max_tokens=8192,
    thinking={ 
        "type": "enabled", 
        "budget_tokens": 4096  # 分配给思考过程的 Token 预算
    }, 
    messages=[{"role": "user", "content": "设计一个高并发秒杀系统的架构..."}]
)

用户通常看不到这 4096 个思考 Token(或者只能看到折叠的摘要),但最终结果的质量会显著提升。

8.4.3 工作流程解密

当启用了 Thinking Mode,Claude 的内部独白可能长这样:

(Hidden Thinking Block) User wants a high-concurrency system. Initial thought: Use Redis + MySQL. Critique: Simple Redis might act as a bottleneck if not sharded. Alternative: Explore Lua scripts for atomicity. Check: What about message queues? Kafka vs RabbitMQ? Decision: Let's propose a 3-layer architecture: CDN -> Nginx L7 -> MQ -> Consumer -> DB. Refinement: Need to mention cache consistency strategies (Cache-Aside vs Write-Through). ...

最终输出: "这是一个推荐的三层架构方案..."(逻辑严密,无漏洞)

8.4.4 适用场景

并非所有任务都需要慢思考。

场景
Extended Thinking
理由

创意写作

❌ NO

需要发散思维,过度逻辑化会扼杀灵感。

日常闲聊

❌ NO

用户不能忍受 10 秒延迟。

数学证明

✅ YES

需要严密的逻辑推导。

复杂代码架构

✅ YES

需要权衡多种设计模式的利弊。

法律/医疗建议

✅ YES

容错率极低,需要自我审查。

8.4.5 对 Agent 架构的影响

Extended Thinking 改变了设计 Agent 的方式。

减少 Loop 次数

以前可能需要用 ReAct 模式让 Agent 显式地思考 5 轮。 现在,可以把这 5 轮思考内化为一次 Extended Thinking Call。 External Loop -> Internal Thought。 不仅速度更快(减少网络 RTT),而且模型在内部状态下的注意力机制更集中。

混合策略

在 Multi-Agent 系统中,可以让 Planner Agent 开启 Extended Thinking(负责深思熟虑定计划),而 Executor Agent 使用普通模式(负责快速执行)。


一个好汉三个帮。即使是会“慢思考”的 Claude,也无法独自完成所有事情。 有时候,需要组建一支 AI 团队。

➡️ 多 Agent 协作系统

最后更新于