11.4 幻觉防护的工程实践

LLM 幻觉(模型生成虚假、不准确或自相矛盾的内容)是 AI Agent 系统的主要风险。第 7 章介绍了检测方法,本节关注 工程实践:工具调用前验证、输出交叉检验、置信度评估和系统级幻觉防护。

11.4.1 幻觉的四个来源

系统幻觉防护的分层示意图如下:

图 11-6:幻觉来源与防护层

11.4.2 工具调用前验证管线

参数验证与修正 工具调用前的验证管线包含三层检查:Schema、语义和上下文。首先定义验证级别和结果结构:

验证器的三个检查方法分别处理 Schema、语义和上下文:

11.4.3 输出交叉检验

多源验证与一致性检查

Anthropic 官方 API 采用 tool_usetool_result 的交叉验证范式,确保工具输出的完整性。Agent 在接收 tool_result 时自动检验返回值与调用参数的一致性,防止工具返回伪造结果。这种强制性的交叉验证机制成为幻觉防护的核心:

输出验证通过多个检查来评估输出的质量。首先定义验证级别和报告:

11.4.4 置信度评估

动态置信度模型 置信度评估通过多个信号的加权融合来产生综合评分。首先定义信号和评估结构:

置信度评估器的六个信号评估方法:

11.4.5 系统级幻觉防护

完整的防护流程

图 11-7:幻觉防护完整流程

完整的幻觉防护管线整合三层验证和决策逻辑:

使用示例展示管线的工作流程:

11.4.6 总结

幻觉防护的多层防线:

层级
防护机制
覆盖幻觉来源

1

工具调用前验证

参数错误导致的工具调用失败

2

输出交叉检验

工具输出误解、自相矛盾

3

置信度评估

模型不确定、自信心偏差

4

人工审查

系统级幻觉、复杂推理错误

配合第 7 章的检测方法,构成“预防+检测+修复”的完整幻觉防护体系。

最后更新于