本章小结

本章重点关注了智能体的动态进化与质量保障。如果不进行学习和评估,智能体只能是一个静态的演示品,而非可用的产品。

核心要点回顾

  1. 强化学习与反馈

    • RLHF:通过人类反馈 (SFT -> 奖励模型 Reward Model -> PPO) 将智能体的行为与人类意图对齐。

    • RLAIF:利用评审模型作为“老师”给策略打分,降低人工标注成本。

    • 过程监督:不仅奖励最终结果 (Outcome),更奖励中间推理步骤 (Process),显著提升复杂任务表现。

  2. 评估体系

    • 评估难点:多路径解法、环境副作用及多维度的衡量标准。

    • 关键指标:成功率 (SR)、轨迹准确率、执行效率 (Cost/Steps) 及幻觉率。

    • 基准测试:利用 AgentBench、GAIA、SWE-bench 等框架进行标准化测试。

    • 大模型即裁判 (LLM-as-a-Judge):使用高智商 LLM 自动化评审智能体的执行轨迹。

  3. 持续进化

    • 终身学习:智能体应当在 交互中持续成长 (Evolution)。

    • 经验回放:将成功的高价值案例存入长期记忆,作为未来的少样本 (Few-shot) 示例。

    • 自我修正:自动优化系统提示词 (System Prompt),并通过 数据飞轮 (Data Flywheel) 不断微调 (Fine-tune) 私有模型。

下一步

至此已掌握了从单体到群体的理论基础,也了解了如何评估与优化它们。现在,是时候将这些理论转化为工程代码了。下一章将进入 实战开发框架,以典型框架形态为例亲手构建你的智能体应用。


下一节: 第八章:开发框架全景

Last updated