> For the complete documentation index, see [llms.txt](https://yeasy.gitbook.io/harness_engineering_guide/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://yeasy.gitbook.io/harness_engineering_guide/di-si-bu-fen-an-quan-ping-gu-yu-yan-jin/13_evaluation.md).

# 第十三章：评估与质量保障

安全防护是必要但不充分的。要让智能体系统进入生产环境，还需要 **可量化的质量保障**。即使工具调用没有被护栏阻止，也可能因为工具选择错误、参数错误、轨迹规划不当而任务失败。

本章介绍如何系统地评估智能体系统的质量。评估的目标是 **在多个维度上定量描述系统性能**：

* 步骤级：单个工具调用是否正确
* 轨迹级：工具调用序列是否高效
* 任务级：最终是否完成用户目标

## 核心主题

1. **评估方法论**：设计科学的评估框架，区分步骤评估和结果评估
2. **端到端测试**：如何在真实场景中测试智能体系统
3. **基准测试**：接轨学术基准(GAIA、WebArena、SWE-Bench)
4. **持续评估**：生产环境中的质量监控
5. **实战测试**：为MiniHarness建立完整测试套件

## 行业现状

根据 LangChain 2026 年 State of Agent Engineering 调查，57.3% 的受访者已在生产环境运行智能体，约 89% 已实施可观测性，但离线评估采用率约为 52.4%。NIST 于 2026 年 2 月 17 日宣布 AI Agent Standards Initiative，标志着智能体互操作、安全和身份标准化进入更正式阶段。

## 本章的实用价值

* 快速上手：直接跳到13.2，学习端到端测试框架
* 建立基线：13.3介绍如何在自有系统上复现学术基准
* 持续改进：13.4的可观测性工具集成方案

## 本章结构

* 13.1：Harness 评估方法论
* 13.2：端到端测试策略
* 13.3：基准测试
* 13.4：持续评估与监控
* 13.5：实战：MiniHarness 完整测试

***

**下一章将展望Harness工程的未来方向。**
