第七章:学习、评估与进化
如果智能体每天犯同样的错误,那它就算不上真正的智能。本章探讨智能体的动态进化能力。不同于 LLM 的预训练(Pre-training)是一次性的,智能体的学习(Learning)应该是终身的、持续的。
本章重点关注强化学习在智能体中的应用,如何建立科学的评估体系来度量智能体的能力,以及如何实现持续的自我进化。
章节导读
解析人类反馈强化学习 (RLHF)及其变体AI 反馈强化学习 (RLAIF)。了解智能体如何通过环境奖励 (Reward) 来调整策略,实现自我改进。
智能体很难像分类模型那样用准确率 (Accuracy) 简单评估。本章将介绍 AgentBench、GAIA 等基准测试框架,以及基于轨迹 (Trajectory) 的评估方法。
当智能体完成一个任务时,它的决策过程是否合理?学习如何记录、分析和解释智能体的行为轨迹,实现可追溯的智能决策。
探讨智能体如何通过经验回放 (Experience Replay) 来微调自身的提示词或记忆库,实现"吃一堑长一智"的持续进化。
介绍推理增强模型如何通过思维链(Chain of Thought)实现深度推理,审慎对齐(Deliberative Alignment)提升安全性,以及在智能体复杂决策中的应用与成本权衡。
核心概念预览
具体示例如下:
图 7-0:智能体进化循环
下一章将进入实战环节,了解当前主流的智能体开发框架。
Last updated
