12.3 评估体系与质量度量
12.3.1 为什么需要系统化评估
问题:"这个提示词好不好?"
模糊的回答:"感觉还不错" ❌
量化的回答:"准确率 92%,一致性 0.85,平均延迟 1.2s" ✓12.3.2 评估维度框架
核心评估维度
维度
定义
代表指标
12.3.3 评估方法详解
方法一:基于标准答案的评估
指标
适用场景
计算方式
方法二:LLM-as-Judge 评估
方法三:A/B 对比评估
方法四:一致性评估
12.3.4 构建评估测试集
测试集设计原则
测试集结构示例
12.3.5 自动化评估流水线
12.3.6 监控与持续评估
生产环境监控
评估仪表板指标
指标
计算周期
告警阈值
12.3.7 评估最佳实践
Do's ✓
Don'ts ✗
延伸思考
最后更新于
