12.2 智能体是如何工作的？

我们可以通过一个简单的模型——ReAct（Reasoning + Acting，推理+行动） 来理解智能体的工作流程。

12.2.1 ReAct 模式

ReAct 是智能体最经典的思考模式。它要求 AI 在每一步行动前，先进行推理（Reasoning），行动（Acting）后，再观察结果（Observation）。

任务：“周杰伦现在的年龄是多少？他的年龄乘以 2 是多少？”

智能聊天机器人（Smart Chatbot）的做法（可能瞎猜）： “周杰伦今年 45 岁，乘以 2 是 90。”（如果你运气好，它蒙对了年龄；运气不好，它是拿 2021 年的数据算的）

智能体（Agent）的做法（ReAct）：

智能体（Agent）不靠“猜”，它靠“查”和“算”。

对于更复杂的任务（如写游戏代码），智能体需要更高级的规划。

这种 自我纠错 的能力，是智能体最迷人的地方。

一个诸葛亮不如三个臭皮匠。有时候，我们需要组建一个智能体团队。

软件开发团队：

用户只需要说一句：“帮我写个贪吃蛇游戏”，这几个智能体就会在后台互相聊天、互相通过文件协作，最终交付给你一个可运行的游戏。

MetaGPT 和 AutoGen 就是这种多智能体框架的代表。

很多智能体 Demo 看起来很惊艳，但离在真实业务中上线运行，还差了至关重要的工程化与安全加固步骤：

评测体系（Evals）：传统的软件测试是给定输入看输出。但智能体每次的回答可能不同，路径也不同。需要建立一套专门的测试集，评测其在这个任务上的成功率、平均耗时、单任务成本（Token消耗）以及幻觉率。
行动边界与防护（Guardrails）：智能体有了“手脚”（工具调用权限）后，破坏力也随之增加。必须在系统中设定硬性边界（例如：禁止调用 DELETE API，转账或发公开邮件前必须请求人类二次确认/Human-in-the-loop）。
可观测性（Observability）：当智能体搞砸了任务时，你需要知道它是哪一步想错了。必须详细记录完整的工具调用链路、中间提示词版本和每一次网络请求的耗时，方便追踪与回放。

没有这三件套，智能体很容易停留在“演示可用、生产翻车”的玩具阶段。

如果你要把一个“演示版智能体”上线到真实业务中，你最担心的是评测、防护、还是可观测？为什么？

最后更新于2天前