14.6 持续迭代与改进
上线不是终点,而是数据闭环的起点。
14.6.1 评估体系
如何知道系统的回答好不好?不能只靠人的感觉。我们使用 RAGAS 框架进行自动化量化评估。 主要指标包括:
Faithfulness (忠实度):回答是否忠实于检索到的上下文?(防幻觉)
Answer Relevance (回答相关性):回答是否解决了用户的问题?
Context Precision (上下文准确率):检索到的内容是否真的相关?
14.6.2 反馈闭环
在界面上设计点赞/点踩(👍/👎)按钮。
收集用户的负反馈(Bad Case)。
人工分析原因:是检索没找对?还是 LLM 理解错了?还是原始文档本身就有误?
将修正后的优质问答对加入 微调数据集,定期对 Embedding 模型或 LLM 进行微调 (Fine-tuning),让模型越来越懂业务。
14.6.3 全链路监控
接入可观测性工具(如 LangSmith、LangFuse 等),记录每一次调用的完整 Trace(以工具版本与隐私合规要求为准)。 监控指标:
Token 消耗与成本
P99 延迟
Rerank 后的平均相关性得分
通过持续的数据观测和迭代,我们的知识库系统才能真正成为企业的“最强大脑”。
最后更新于
