第七章 学习、评估与进化

如果智能体每天犯同样的错误,那它不是真正的智能。本章探讨智能体的动态进化能力。不同于LLM预训练的一次性,智能体的学习应该是终身的、持续的。通过强化学习(RLHF/RLAIF) → 多维评估体系 → 持续进化机制(经验回放、自我修正、数据飞轮)的完整路径,实现行动→评估→反思→学习的闭环。

学习目标

完成本章后,你将能够:

  1. 应用 RLHF/RLAIF进行智能体行为微调

  2. 建立 多维度的评估体系与基准测试

  3. 实现 轨迹分析与持续学习机制

  4. 优化 推理能力与对齐安全性


下一节: 7.1 从反馈中学习:RLHF 与 RLAIF

最后更新于