12.2 智能体是如何工作的?

我们可以通过一个简单的模型——ReAct(Reasoning + Acting,推理+行动) 来理解智能体的工作流程。

12.2.1 ReAct 模式

ReAct 是智能体最经典的思考模式。它要求 AI 在每一步行动前,先进行推理(Reasoning),行动(Acting)后,再观察结果(Observation)。

任务:“周杰伦现在的年龄是多少?他的年龄乘以 2 是多少?”

智能聊天机器人(Smart Chatbot)的做法(可能瞎猜): “周杰伦今年 45 岁,乘以 2 是 90。”(如果你运气好,它蒙对了年龄;运气不好,它是拿 2021 年的数据算的)

智能体(Agent)的做法(ReAct)

  1. 思考(Thought):用户问周杰伦现在的年龄。我需要先查一下他的出生日期,然后根据今天的日期计算年龄。

  2. 行动(Action):调用搜索工具 Search(“周杰伦 出生日期”)

  3. 观察(Observation):搜索结果显示 “周杰伦出生于 1979 年 1 月 18 日”。

  4. 思考(Thought):好,知道了出生日期。现在需要获取当前日期。

  5. 行动(Action):调用系统时间工具 GetTime()

  6. 观察(Observation):系统时间工具返回日期 2026-02-13(示例日期)。

  7. 思考(Thought):出生日期是 1979-01-18,到 2026-02-13 已过生日,所以当前年龄是 47

  8. 行动(Action):调用计算器 Calculate(47 * 2)

  9. 观察(Observation):得到 94

  10. 最终回答 (Final Answer):按示例日期 2026-02-13 计算,周杰伦现在是 47 岁,他的年龄乘以 2 是 94

智能体(Agent)不靠“猜”,它靠“查”和“算”。

12.2.2 规划能力(Planning)

对于更复杂的任务(如写游戏代码),智能体需要更高级的规划。

  • 任务分解:把大任务拆成子任务(Sub-goals)。

  • 反思(Reflection):如果一步做错了,它会自己看报错信息,然后修正代码,再试一次。

这种 自我纠错 的能力,是智能体最迷人的地方。

12.2.3 多智能体(Multi-Agent)

一个诸葛亮不如三个臭皮匠。有时候,我们需要组建一个智能体团队。

软件开发团队

  • 产品经理智能体:负责把用户需求写成文档。

  • 架构师智能体:负责设计代码结构。

  • 工程师智能体:负责写代码。

  • 测试智能体:负责找 Bug,把 Bug 扔回给工程师。

用户只需要说一句:“帮我写个贪吃蛇游戏”,这几个智能体就会在后台互相聊天、互相通过文件协作,最终交付给你一个可运行的游戏。

MetaGPTAutoGen 就是这种多智能体框架的代表。

12.2.4 智能体安全与评测:从“能跑”到“可上线”

很多智能体 Demo 看起来很惊艳,但离在真实业务中上线运行,还差了至关重要的工程化与安全加固步骤:

  1. 评测体系(Evals):传统的软件测试是给定输入看输出。但智能体每次的回答可能不同,路径也不同。需要建立一套专门的测试集,评测其在这个任务上的成功率平均耗时单任务成本(Token消耗)以及幻觉率

  2. 行动边界与防护(Guardrails):智能体有了“手脚”(工具调用权限)后,破坏力也随之增加。必须在系统中设定硬性边界(例如:禁止调用 DELETE API,转账或发公开邮件前必须请求人类二次确认/Human-in-the-loop)。

  3. 可观测性(Observability):当智能体搞砸了任务时,你需要知道它是哪一步想错了。必须详细记录完整的工具调用链路、中间提示词版本和每一次网络请求的耗时,方便追踪与回放。

没有这三件套,智能体很容易停留在“演示可用、生产翻车”的玩具阶段。

12.2.5 思考题

如果你要把一个“演示版智能体”上线到真实业务中,你最担心的是评测、防护、还是可观测?为什么?

最后更新于