7.2 推理模型的工作原理

推理模型如何在“思考”过程中找到答案的技术解密

7.2.1 传统LLM的“快速预测”流程

为了理解推理模型的创新之处,我们先回顾一下传统LLM是如何工作的:

spinner

当你问ChatGPT一个问题时,模型在内部进行了很多计算,但你只能看到最终答案。就像一个黑盒子——输入进去,输出出来。

传统LLM的问题是:它的思考过程完全隐藏。如果答案错了,你无法看到推理路径哪里出了问题。

7.2.2 推理模型的“显式思考”流程

推理模型的核心创新是 让思考过程可见

spinner

最关键的是:用户可以选择看或不看思考过程

具体例子:计算 23 × 47

传统LLM

用户:计算 23 × 47
LLM:答案是 1081

你不知道它是如何得出这个答案的。如果错了,你也不知道错在哪。

推理模型(显示思考过程)

现在你可以看到完整的推导过程。如果有错误,也能看到具体是哪一步出了问题。

7.2.3 三个关键的技术创新

1. 思考链的扩展

传统LLM已经支持“思维链”——让模型在输出答案前写下推理步骤。例如:

但这个过程仍然可能出错。推理模型进一步扩展了思维链:

推理模型不仅给出推理步骤,还会 自我验证自我纠正

2. 推理计算

这是推理模型最重要的概念。在传统模型中:

但推理模型改变了这个比例:

这听起来很浪费——为什么不提前思考好,而是在用户问问题时才思考呢?

答案:因为不同的问题需要不同深度的思考。

推理模型可以 动态调整 每个问题的思考时间。简单问题快速回答,难题可以花更多时间思考。

3. 多路径探索

这是一个有趣的能力。推理模型在思考过程中可以:

这就像一个聪明的学生在做一道题时的思考过程——尝试多种方法,然后选择最好的。

7.2.4 四大推理模型的工作原理对比

OpenAI o1/o3 系列

核心机制:强化学习优化

o1/o3特点:

  • 专门在 数学、代码、科学问题 上优化

  • 思考过程相对“严谨”和“有逻辑”

  • 成本较高(需要更多推理时间)

Claude Extended Thinking

核心机制:扩展的内部状态管理

Claude Extended Thinking的特点:

  • 思考过程更“自然”和“人性化”

  • 善于处理 开放性问题写作任务

  • 可以看到思想的“演化”过程

DeepSeek-R1

核心机制:蒸馏的思考过程

DeepSeek-R1的特点:

  • 成本极低(相比o1)

  • 思考过程 更快 但不失质量

  • 开源且 可本地部署

Google的Gemini Deep Research

核心机制:多轮查询和信息整合

Gemini Deep Research的特点:

  • 特别擅长 信息聚合研究任务

  • 可以整合来自互联网的最新信息

  • 思考过程更像“学术研究”

7.2.5 推理计算的成本与收益

这是使用推理模型时的关键考虑:

什么时候值得用推理模型?

7.2.6 本节小结

  • 推理模型通过 显式的思考过程 改进了传统LLM

  • 推理计算 允许在用户问问题时分配计算资源,而不仅仅在训练时

  • 四大推理模型(o1/o3、Claude、DeepSeek-R1、Gemini)采用不同的技术路线

  • 推理模型的成本更高,但在复杂问题上的准确率也高得多

7.2.7 思考题

  1. 如果一个问题的答案很简单,推理模型仍然会进行长时间的思考吗?它会自动停止思考吗?

  2. 推理模型可能“想太多”的情况是什么?过度思考会导致什么问题?

  3. 如果你是一个学生,使用推理模型的Claude或o1来做数学作业,这算“作弊”吗?为什么?

最后更新于