本章小结

本章重点关注了智能体的动态进化与质量保障。如果不进行学习和评估，智能体只能是一个静态的演示品，而非可用的产品。

核心要点回顾

强化学习与反馈
- RLHF：通过人类反馈 (SFT -> 奖励模型 Reward Model -> PPO) 将智能体的行为与人类意图对齐。
- RLAIF：利用评审模型作为“老师”给策略打分，降低人工标注成本。
- 过程监督：不仅奖励最终结果 (Outcome)，更奖励中间推理步骤 (Process)，显著提升复杂任务表现。
评估体系
- 评估难点：多路径解法、环境副作用及多维度的衡量标准。
- 关键指标：成功率 (SR)、轨迹准确率、执行效率 (Cost/Steps) 及幻觉率。
- 基准测试：利用 AgentBench、GAIA、SWE-bench 等框架进行标准化测试。
- 大模型即裁判 (LLM-as-a-Judge)：使用高智商 LLM 自动化评审智能体的执行轨迹。
持续进化
- 终身学习：智能体应当在 交互中持续成长 (Evolution)。
- 经验回放：将成功的高价值案例存入长期记忆，作为未来的少样本 (Few-shot) 示例。
- 自我修正：自动优化系统提示词 (System Prompt)，并通过 数据飞轮 (Data Flywheel) 不断微调 (Fine-tune) 私有模型。

至此已掌握了从单体到群体的理论基础，也了解了如何评估与优化它们。现在，是时候将这些理论转化为工程代码了。下一章将进入 实战开发框架，以典型框架形态为例亲手构建你的智能体应用。

下一节: 第八章：开发框架全景

Last updated 3 days ago