12.2 智能体是如何工作的?
我们可以通过一个简单的模型——ReAct(Reasoning + Acting,推理+行动) 来理解智能体的工作流程。
12.2.1 ReAct 模式
ReAct 是智能体最经典的思考模式。它要求 AI 在每一步行动前,先进行推理(Reasoning),行动(Acting)后,再观察结果(Observation)。
任务:“周杰伦现在的年龄是多少?他的年龄乘以 2 是多少?”
智能聊天机器人(Smart Chatbot)的做法(可能瞎猜): “周杰伦今年 45 岁,乘以 2 是 90。”(如果你运气好,它蒙对了年龄;运气不好,它是拿 2021 年的数据算的)
智能体(Agent)的做法(ReAct):
思考(Thought):用户问周杰伦现在的年龄。我需要先查一下他的出生日期,然后根据今天的日期计算年龄。
行动(Action):调用搜索工具
Search(“周杰伦 出生日期”)。观察(Observation):搜索结果显示 “周杰伦出生于 1979 年 1 月 18 日”。
思考(Thought):好,知道了出生日期。现在需要获取当前日期。
行动(Action):调用系统时间工具
GetTime()。观察(Observation):系统时间工具返回日期
2026-02-13(示例日期)。思考(Thought):出生日期是
1979-01-18,到2026-02-13已过生日,所以当前年龄是47。行动(Action):调用计算器
Calculate(47 * 2)。观察(Observation):得到
94。最终回答 (Final Answer):按示例日期
2026-02-13计算,周杰伦现在是47岁,他的年龄乘以 2 是94。
智能体(Agent)不靠“猜”,它靠“查”和“算”。
12.2.2 规划能力(Planning)
对于更复杂的任务(如写游戏代码),智能体需要更高级的规划。
任务分解:把大任务拆成子任务(Sub-goals)。
反思(Reflection):如果一步做错了,它会自己看报错信息,然后修正代码,再试一次。
这种 自我纠错 的能力,是智能体最迷人的地方。
12.2.3 多智能体(Multi-Agent)
一个诸葛亮不如三个臭皮匠。有时候,我们需要组建一个智能体团队。
软件开发团队:
产品经理智能体:负责把用户需求写成文档。
架构师智能体:负责设计代码结构。
工程师智能体:负责写代码。
测试智能体:负责找 Bug,把 Bug 扔回给工程师。
用户只需要说一句:“帮我写个贪吃蛇游戏”,这几个智能体就会在后台互相聊天、互相通过文件协作,最终交付给你一个可运行的游戏。
MetaGPT 和 AutoGen 就是这种多智能体框架的代表。
12.2.4 智能体安全与评测:从“能跑”到“可上线”
很多智能体 Demo 看起来很惊艳,但离在真实业务中上线运行,还差了至关重要的工程化与安全加固步骤:
评测体系(Evals):传统的软件测试是给定输入看输出。但智能体每次的回答可能不同,路径也不同。需要建立一套专门的测试集,评测其在这个任务上的成功率、平均耗时、单任务成本(Token消耗)以及幻觉率。
行动边界与防护(Guardrails):智能体有了“手脚”(工具调用权限)后,破坏力也随之增加。必须在系统中设定硬性边界(例如:禁止调用
DELETEAPI,转账或发公开邮件前必须请求人类二次确认/Human-in-the-loop)。可观测性(Observability):当智能体搞砸了任务时,你需要知道它是哪一步想错了。必须详细记录完整的工具调用链路、中间提示词版本和每一次网络请求的耗时,方便追踪与回放。
没有这三件套,智能体很容易停留在“演示可用、生产翻车”的玩具阶段。
12.2.5 思考题
如果你要把一个“演示版智能体”上线到真实业务中,你最担心的是评测、防护、还是可观测?为什么?
最后更新于
