# 第十三章：评估与质量保障

安全防护是必要但不充分的。要让智能体系统进入生产环境，还需要 **可量化的质量保障**。即使工具调用没有被护栏阻止，也可能因为工具选择错误、参数错误、轨迹规划不当而任务失败。

本章介绍如何系统地评估智能体系统的质量。评估的目标是 **在多个维度上定量描述系统性能**：

* 步骤级：单个工具调用是否正确
* 轨迹级：工具调用序列是否高效
* 任务级：最终是否完成用户目标

## 核心主题

1. **评估方法论**：设计科学的评估框架，区分步骤评估和结果评估
2. **端到端测试**：如何在真实场景中测试智能体系统
3. **基准测试**：接轨学术基准(GAIA、WebArena、SWE-Bench)
4. **持续评估**：生产环境中的质量监控
5. **实战测试**：为MiniHarness建立完整测试套件

## 行业现状

根据LangChain 2024报告，约51%的组织已在生产环境运行智能体系统，但质量评估方法多数不成熟。NIST于2026年2月发起AI Agent标准化倡议，标志着标准化的开始。

## 本章的实用价值

* 快速上手：直接跳到13.2，学习端到端测试框架
* 建立基线：13.3介绍如何在自有系统上复现学术基准
* 持续改进：13.4的可观测性工具集成方案

## 本章结构

* 13.1：Harness 评估方法论
* 13.2：端到端测试策略
* 13.3：基准测试
* 13.4：持续评估与监控
* 13.5：实战：MiniHarness 完整测试

***

**下一章将展望Harness工程的未来方向。**


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://yeasy.gitbook.io/harness_engineering_guide/di-si-bu-fen-an-quan-ping-gu-yu-yan-jin/13_evaluation.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
