1.1 从大语言模型到智能体的快速过渡
本节介绍从大语言模型到完整智能体系统的演进过程,阐述为什么单纯的模型能力还不足以构建生产级应用,以及Harness作为关键中间层的必要性。
1.1.1 问题的演变
在大语言模型刚出现时,应用开发的重点聚焦于模型本身:使用更大的模型、更好的提示词、更优质的数据。开发者期望通过改进模型,直接获得智能应用。
然而现实迅速转变。当LLM从实验室走向生产环境时,开发者面对了意外的复杂性:
可靠性问题:同样的问题,同一个模型的多次回答可能差异巨大,导致生产系统不可预测
外部交互问题:LLM只能生成文本,无法直接与真实世界系统交互。调用数据库、API、执行系统操作都需要额外的工程工作
成本控制问题:大规模调用API的成本快速增长,需要更精细的控制和优化
安全性问题:让LLM任意调用系统权限和外部接口存在严重的安全风险
对这些挑战的回应,催生了智能体的概念——一个能够感知环境、规划行动、执行任务、学习反馈的自主系统。
1.1.2 智能体的三个核心能力
一个完整的智能体系统需要三个维度的能力:
第一维:思维能力 这是LLM的长项。通过提示词工程、思维链(Chain-of-Thought)、多步推理等技术,让模型能够分解问题、规划步骤。
第二维:行动能力 这是传统系统工程的领地。智能体需要能够调用工具、操纵外部系统、获取实时信息,这涉及工具注册、权限管理、结果验证等一系列机制。
第三维:学习能力 即从执行结果中反馈、调整策略、积累经验。这涉及记忆机制、强化学习信号、迭代优化等。
在这三维中,LLM主要贡献第一维。而第二维和第三维的高质量实现,才是决定智能体系统成败的关键。
由此我们可以得出本书的核心等式:
Agent = LLM + Harness
大模型提供推理和决策的“大脑”,而 Harness 提供感知、执行、记忆和安全保障的“身体”。
模型决定了智能体的思维上限,Harness 决定了智能体的工程下限。一个没有 Harness 的大模型只是一台发动机,一个经过 Harness 工程化的智能体才是一辆能够可靠载人行驶的汽车。
1.1.3 为什么需要Harness
一个朴素的想法是:既然大模型已经能够推理和规划,为什么还要额外构建复杂的系统工程层?答案在于 可靠性和可控性的鸿沟。
考虑以下场景:一个智能体需要调用一个支付API。在LLM的推理中,它正确地识别了需要支付的金额、收款人等信息。但在实际调用时:
LLM是否正确地以API期望的格式构造了请求?
API返回了错误状态码,智能体是否能够正确地理解和处理?
网络超时了,是否应该重试?重试多少次?
重复调用相同的支付请求是否会导致重复扣款?
这些问题不能依靠LLM的“聪慧”来解决。它们需要系统工程层面的保障——这正是Harness要做的工作。
Harness不是要让智能体更聪明,而是要让智能体更可靠、更可控、更安全。
它通过以下方式实现这一目标:
标准化的工具调用协议:确保工具的输入输出格式一致、可预测
多层权限控制:从Free(完全自主)到Approve-once(每次审批)的梯度化信任管理
执行结果的验证和反馈:不仅记录智能体做了什么,更要验证它真正做了什么
故障恢复机制:当某个步骤失败时,系统能够优雅地降级或恢复
完整的可观测性:通过日志、追踪、指标等多个维度观察系统运行状态
1.1.4 本章的位置
本书假设读者对智能体的基本概念已有了解。关于智能体理论、多智能体协作、规划算法等深层内容,请参考《AI Agent完全指南(agentic_ai_guide)》。
本章及后续各章的重点,是 如何将一个理论上的智能体概念转化为生产级别的系统。这个转化过程,就是Harness工程要解决的问题。
带着这样的理解,我们可以开始深入Harness的定义与设计。
最后更新于
