13.1 Harness 评估方法论

行业现状

LangChain《State of Agent Engineering》调研数据(1300+从业者):

  • 52.4% 的组织在测试集上运行离线评估

  • 37.3% 实施在线评估(online evaluations)

  • 22.8% 的生产阶段组织根本不做评估

  • 关键落差:可观测性采用率89% vs 评估采用率52%

这说明大多数团队能“看到”智能体在做什么,却缺乏系统化方法来判断“做得好不好”。评估是当前最被低估的投入领域。

13.1.1 评估的三个层级

智能体系统的质量评估需要在三个层级进行,从细到粗:

图 13-1:智能体三层评估架构

层级1:步骤级评估

定义:评估单个工具调用是否正确。

关键问题

  • 工具选择是否正确?(调用了合适的工具吗?)

  • 参数是否正确?(参数值是否符合预期?)

  • 工具执行是否成功?(有无错误?)

评估指标

指标
定义
计算

工具准确率

选择正确工具的比例

correct_tools / total_calls

参数准确率

参数正确的比例

correct_params / total_params

执行成功率

工具调用不出错的比例

successful_calls / total_calls

计算示例

层级2:轨迹级评估

定义:评估工具调用序列的效率和正确性。

关键问题

  • 是否走了弯路?(多余的调用?)

  • 调用顺序是否高效?(能否更快完成?)

  • 是否自我纠正?(遇到错误如何反应?)

评估指标

指标
定义
计算

轨迹长度效率

实际调用数 vs 最优调用数

optimal_steps / actual_steps

错误恢复率

遇到工具错误后成功恢复的比例

recovered_errors / total_errors

重复调用率

相同工具连续调用的次数

duplicate_calls / total_calls

平均调用深度

完成任务所需的平均步骤数

sum(trajectory_lengths) / num_tasks

计算示例

层级3:任务级评估

定义:评估是否完成了用户的最终目标。

关键问题

  • 最终答案是否正确?

  • 完成任务的成功率是否足够高?

  • 花费的资源(token、时间、成本)是否可接受?

评估指标

指标
定义
范围

任务成功率

完成任务的比例

0-100%

执行时间

完成任务的平均时间

Token效率

平均每个任务消耗的Token

Token数

成本效率

平均每个任务的API成本

美元

用户满意度

用户对结果的满意评分

1-5分

计算示例

13.1.2 评估指标体系

综合三个层级,构建完整的评估指标体系:

13.1.3 评估框架架构

评估框架的核心架构实现:

13.1.4 评估结果可视化

评估结果的可视化实现代码:


本节总结:Harness系统的质量评估需要从步骤、轨迹、任务三个层级进行,每层都有特定的指标和计算方法。综合评分权衡了任务成功、效率、准确性和成本。

最后更新于