# 7.2 推理模型的工作原理

> 推理模型如何在“思考”过程中找到答案的技术解密

## 7.2.1 传统LLM的“快速预测”流程

为了理解推理模型的创新之处，我们先回顾一下传统LLM是如何工作的：

```mermaid
graph TD
    A["输入：用户提示词"]
    B["传统LLM的处理"]
    C["隐藏的内部状态<br/>（你看不见）"]
    D["输出：答案"]

    A --> B
    B --> C
    C --> D
```

当你问ChatGPT一个问题时，模型在内部进行了很多计算，但你只能看到最终答案。就像一个黑盒子——输入进去，输出出来。

传统LLM的问题是：**它的思考过程完全隐藏**。如果答案错了，你无法看到推理路径哪里出了问题。

## 7.2.2 推理模型的“先思考后作答”流程

推理模型的核心创新，不是让模型的完整内部思考过程原样显示，而是 **在回答前投入更多推理计算**，并根据不同产品形态决定向用户展示的详细程度。有的产品只提供最终答案，有的提供思路摘要或步骤说明，有的展示部分中间验证过程。

```mermaid
graph TD
    A["输入：用户提示词"]
    B["内部思考标签 &lt;thinking&gt;"]
    C["分解问题"]
    D["列举可能的方法"]
    E["逐步推导"]
    F["验证中间步骤"]
    G["发现并纠正错误"]
    H["最终确认答案"]
    I["外部思考标签 &lt;/thinking&gt;"]
    J["输出：最终答案"]

    A --> B
    B --> C --> D --> E --> F --> G --> H
    H --> I
    I --> J
```

最关键的是：**不同厂商对“思考过程”的展示程度不同**。有的只给最终答案，有的会给简短摘要，有的会显示更丰富的过程性说明；但原始内部推理通常不会完整公开。

### 具体例子：计算 23 × 47

**传统LLM**

```
用户：计算 23 × 47
LLM：答案是 1081
```

你不知道它是如何得出这个答案的。如果错了，你也不知道错在哪。

**推理模型（可能展示给用户的步骤摘要）**

```
用户：计算 23 × 47

【步骤摘要】
我需要计算 23 × 47。让我分解一下：
23 × 47 = 23 × (40 + 7)
        = 23 × 40 + 23 × 7

23 × 40 = 920
23 × 7 = 161

920 + 161 = 1081

让我验证一下：
47 × 20 = 940
47 × 3 = 141
940 + 141 = 1081 ✓

【回答用户】
答案是 1081。

23 × 47 = 1081
```

在支持这类展示的产品里，你能看到的是**经过整理后的说明**，而不是未经处理的原始内部推理 token。

## 7.2.3 三个关键的技术创新

### 1. 思考链的扩展

传统LLM已经支持“思维链”——让模型在输出答案前写下推理步骤。例如：

```
问题：如果一个盒子里有红球和蓝球各50个，我随机取出10个红球，
      现在还剩多少个球？

传统思维链输出：
1. 初始总数：100个（50红+50蓝）
2. 取出10个红球
3. 剩余：100 - 10 = 90个球
```

但这个过程仍然可能出错。推理模型进一步扩展了思维链：

```
推理模型的思维链输出：

[初始思考]
题目要求：计算剩余的球数。
已知条件：初始50红+50蓝，取出10红

[第一遍推导]
总球数：50 + 50 = 100
取出10红
剩余：100 - 10 = 90

[验证]
检查逻辑：是否理解正确了题意？
- "随机取出10个红球" → 只取红球，不取蓝球
- 所以蓝球数量不变：还是50个
- 红球数量变化：50 - 10 = 40个
- 总计：40 + 50 = 90个 ✓

[更仔细的验证]
让我想想有没有其他理解方式...
不，题意很清楚：只取了10个红球。

[最终答案]
90个球
```

推理模型不仅给出推理步骤，还会 **自我验证** 和 **自我纠正**。

### 2. 推理计算

这是推理模型最重要的概念。在传统模型中：

```
时间分配：
├─ 训练时（Training Time）：花费大量计算资源
│  └─ 学习如何解决问题
│
└─ 推理时（Inference Time）：用户提问时
   └─ 快速给出答案（计算资源很少）
```

但推理模型改变了这个比例：

```
时间分配：
├─ 训练时：一样的计算
│
└─ 推理时：现在分配大量计算资源！
   ├─ 思考（内部推理）：80% 的时间
   └─ 输出答案：20% 的时间
```

这听起来很浪费——为什么不提前思考好，而是在用户问问题时才思考呢？

**答案**：因为不同的问题需要不同深度的思考。

```
┌─────────────────────────────────┐
│  推理计算的经济学               │
├─────────────────────────────────┤
│                                 │
│ 简单问题                        │
│ "法国的首都是什么？"           │
│ 需要思考时间：1秒              │
│                                 │
│ 中等难度问题                    │
│ "解释量子纠缠"                 │
│ 需要思考时间：10秒             │
│                                 │
│ 困难问题                        │
│ "设计一个分布式系统架构"       │
│ 需要思考时间：60秒             │
│                                 │
│ 极难问题                        │
│ "证明黎曼假设"                 │
│ 需要思考时间：可能需要数分钟   │
│                                 │
└─────────────────────────────────┘
```

推理模型可以 **动态调整** 每个问题的思考时间。简单问题快速回答，难题可以花更多时间思考。

### 3. 多路径探索

这是一个有趣的能力。推理模型在思考过程中可以：

```
问题：有一个问题有多种可能的解法

[思路A]
方法1：使用直接法...
这可能导致答案X

[思路B]
方法2：使用间接法...
这可能导致答案Y

[思路C]
方法3：使用对比法...
这可能导致答案Z

[综合分析]
让我检查哪个答案更合理：
- 答案X：符合条件吗？✓
- 答案Y：符合条件吗？✗（这里有矛盾）
- 答案Z：符合条件吗？✓

在X和Z之间，哪个更优雅或更高效？
...

[最终选择]
答案是Z
```

这就像一个聪明的学生在做一道题时的思考过程——尝试多种方法，然后选择最好的。

## 7.2.4 四大推理模型的工作原理对比

### OpenAI o 系列与 GPT-5.x 路线

**核心机制**：强化学习优化

```
训练流程：
1. 初始模型学习多种推理风格
2. 使用强化学习鼓励"正确的思考过程"
3. 奖励信号来自于：
   ├─ 最终答案是否正确
   ├─ 推理步骤是否合理
   └─ 思考效率（用最少步骤解决）
```

这条路线的关键特点是：o 系列验证了“推理优先”的产品方向；截至 2026-05，OpenAI 官方模型页把 gpt-5.5 列为复杂推理与代码任务的旗舰选择之一。

OpenAI 推理路线的特点：

* 专门在 **数学、代码、科学问题** 上优化
* 思考过程相对“严谨”和“有逻辑”
* 成本较高（需要更多推理时间）

### Claude Extended Thinking

**核心机制**：扩展的内部状态管理

```
思考模式：
1. 初始化思考空间（类似一个"草稿纸"）
2. 逐步在这个空间中思考和修改
3. 允许"涂鸦"、"修改"、"回溯"
4. 最后整理成最终答案
```

Claude Extended Thinking的特点：

* 思考过程更“自然”和“人性化”
* 善于处理 **开放性问题** 和 **写作任务**
* 在部分产品入口中，可以看到经过整理后的思考内容或摘要

### DeepSeek-R1

**核心机制**：强化学习驱动的推理能力，外加蒸馏版小模型

```
核心路线：
第1阶段：
└─ 基于 DeepSeek-V3-Base 构建推理底座

第2阶段：
└─ 通过冷启动数据和强化学习获得推理能力

补充路线：
└─ 再把能力蒸馏到更小的 Distill 模型中
  └─ 方便本地部署和社区使用
```

DeepSeek-R1的特点：

* **成本极低**（相比o1）
* 思考过程 **更快** 但不失质量
* 开源且 **可本地部署**

### Google 的 Gemini Deep Research 模式

**核心机制**：多轮查询和信息整合

```
研究流程：
1. 分解问题成多个子问题
2. 对每个子问题进行搜索和思考
3. 整合不同来源的信息
4. 建立问题的完整理解
5. 输出综合性答案
```

Gemini Deep Research 模式的特点：

* 特别擅长 **信息聚合** 和 **研究任务**
* 可以整合来自互联网的最新信息
* 思考过程更像“学术研究”

## 7.2.5 推理计算的成本与收益

这是使用推理模型时的关键考虑：

```
┌─────────────────────────────────────┐
│ 推理模型的成本结构                   │
├─────────────────────────────────────┤
│                                     │
│ 计算成本（Token计费）               │
│ 思考token（按输出计费）             │
│    + 输出token（正常价格）          │
│    ──────────────────────          │
│    总成本 = 思考 + 输出            │
│                                     │
│ 一个"困难"问题可能需要：           │
│ • 思考token：8000个                │
│ • 输出token：200个                 │
│ • 总计：8200个token成本            │
│                                     │
│ 对比快速回答（无思考）              │
│ • 输出token：200个                 │
│                                     │
│ 额外成本：8000个思考token           │
│                                     │
└─────────────────────────────────────┘
```

**什么时候值得用推理模型？**

```
✓ 值得用                          ✗ 不值得用
├─ 数学计算题                     ├─ 简单事实查询
├─ 编程调试                       ├─ 日常聊天
├─ 逻辑推理                       ├─ 文本摘要
├─ 策略规划                       ├─ 创意写作（初稿）
├─ 科学分析                       └─ 翻译任务
└─ 复杂问题分解
```

## 7.2.6 本节小结

* 推理模型通过 **更强的回答前推理** 改进了传统LLM，部分产品还会提供思路摘要或过程性说明
* **推理计算** 允许在用户问问题时分配计算资源，而不仅仅在训练时
* 四条代表性路线（OpenAI、Claude、DeepSeek-R1、Gemini Deep Research 工作流）采用不同的技术方案
* 推理模型的成本更高，但在复杂问题上的准确率也高得多

## 7.2.7 思考题

1. 如果一个问题的答案很简单，推理模型仍然会进行长时间的思考吗？它会自动停止思考吗？
2. 推理模型可能“想太多”的情况是什么？过度思考会导致什么问题？
3. 如果你是一个学生，使用推理模型的Claude或o1来做数学作业，这算“作弊”吗？为什么？


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://yeasy.gitbook.io/ai_beginner_guide/di-er-bu-fen-he-xin-ji-shu-jie-xi/07_reasoning_models/7.2_how_reasoning_works.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.