12.3 评估体系与质量度量

系统化的评估是提示词工程质量保障的基础。一个好的提示词不仅要能完成任务,还需要在准确性、一致性、效率等多个维度上表现出色。本节深入探讨如何建立完整的提示词评估体系。

12.3.1 为什么需要系统化评估

问题:"这个提示词好不好?"

模糊的回答:"感觉还不错" ❌
量化的回答:"准确率 92%,一致性 0.85,平均延迟 1.2s" ✓

系统化评估能够:

  • 量化提示词的性能表现

  • 比较不同提示词版本的效果

  • 识别需要改进的具体方面

  • 建立持续优化的反馈循环

12.3.2 评估维度框架

核心评估维度

维度
定义
代表指标

正确性

输出是否符合预期

准确率、F1、BLEU

一致性

多次运行是否稳定

方差、一致性得分

相关性

是否回答了问题

相关度评分

完整性

是否覆盖所有要点

覆盖率

安全性

是否存在有害内容

违规率

效率

资源消耗是否合理

Token 数、延迟

spinner

图 12-3:提示词评估维度框架

12.3.3 评估方法详解

方法一:基于标准答案的评估

适用于有明确正确答案的任务(如分类、问答)。

实现示例

常用指标

指标
适用场景
计算方式

准确率

分类任务

正确数 / 总数

精确率

正类重要时

TP / (TP + FP)

召回率

漏检代价高时

TP / (TP + FN)

F1 分数

平衡场景

2 × P × R / (P + R)

BLEU

文本生成

n-gram 匹配度

ROUGE

摘要任务

与参考摘要重叠度

方法二:LLM-as-Judge 评估

使用大模型作为评判者,适用于无标准答案的开放式任务。

评估提示词模板

LLM-as-Judge 的最佳实践

减少 Judge 偏差

方法三:A/B 对比评估

比较两个提示词版本的相对效果。

实现流程

对比评估提示词

方法四:一致性评估

评估同一提示词多次运行结果的稳定性。

12.3.4 构建评估测试集

测试集设计原则

测试集结构示例

12.3.5 自动化评估流水线

spinner

图 12-4:自动化评估流水线

流水线代码框架

12.3.6 监控与持续评估

生产环境监控

评估仪表板指标

指标
计算周期
告警阈值

平均质量分

每小时

< 7.0

一致性得分

每日

< 0.8

安全违规率

实时

> 0.1%

平均 Token 数

每小时

> 预期 150%

P95 延迟

每分钟

> 3s

12.3.7 评估最佳实践

Do's ✓

  • 建立代表性、多样化的测试集

  • 多维度综合评估,不只看单一指标

  • 自动化评估流程,集成到 CI/CD

  • 定期回顾和更新测试集

  • 保留评估历史,跟踪趋势变化

Don'ts ✗

  • 仅依赖主观判断评价提示词质量

  • 测试集过小或覆盖面不足

  • 只在开发阶段评估,忽视生产监控

  • 忽视边界情况和异常输入

  • 评估标准不一致,难以比较版本

延伸思考

  1. “用 LLM 评估 LLM 的输出”是否可靠?这种评估本身会有什么偏差?你会如何校准?

  2. 对于你的业务场景,“准确性”和“用户满意度”哪个更重要?如何设计评估指标来反映这一优先级?

最后更新于