9.2 输出内容安全审核
输出层是防止有害内容泄露的最后屏障。本节介绍输出安全审核的实践方法。
9.2.1 输出安全的重要性
即使输入防护完善,输出仍可能包含问题:
模型生成有害内容
泄露敏感信息
产生误导性内容
违反合规要求
输出审核流程
图 9-3:输出安全的重要性流程图
9.2.2 有害内容检测
检测并过滤有害内容:
内容分类
违法内容
犯罪指南
完全拒绝
仇恨言论
歧视性言语
完全拒绝
暴力内容
暴力描写
根据上下文
成人内容
不适宜内容
年龄限制
误导信息
虚假声明
警告标记
检测实现
9.2.3 输出过滤器
对检测到的问题内容进行处理:
9.2.4 幻觉检测
检测模型编造的虚假信息:
图 9-4:幻觉检测流程图
检测方法
知识库验证
与可信知识源对比
自我一致性
多次生成对比
溯源检查
验证引用的来源
置信度分析
模型输出的不确定性
幻觉检测的局限与实践建议
各种幻觉检测方法在实际应用中都存在固有的局限,企业不应依赖任何单一检测手段:
知识库验证的局限:知识库本身可能不完整、过时或存在偏差,导致将真实但罕见的信息误判为幻觉。例如,最新发生的时事、小众领域的专业知识或新兴技术可能不在知识库中,但模型的输出仍然是准确的。这种“基准漂移”使得基于知识库的验证容易产生误报。
一致性检查的局限:LLM 的输出具有内在的随机性,受
temperature、top-k、top-p等采样参数的影响。同一输入在不同推理运行下的多次输出可能存在合理的差异,而非都是错误。此外,对于创意类、开放式的任务,“多次输出有分歧”本身是正常现象,不应视为幻觉信号。置信度分析的局限:许多模型的置信度评分存在“校准问题”(calibration issue),即模型报告的置信度与实际准确度不匹配。高置信度分数不等于高准确度,低置信度也不一定意味着答案是错误的。这种校准偏差使得单纯依赖置信度得分来判定幻觉往往不可靠。
推荐的务实方案
多方法融合:结合多种检测方法(知识库验证、自我一致性、来源溯源等),而不是依赖单一手段,通过多维信号的交叉验证提高可信度。
分级审核阈值:根据输出内容的风险等级设置不同的审核触发点。对于医疗、法律、金融等高风险领域,设置更激进的疑似幻觉阈值,主动触发人工复核;对于低风险的信息类查询,可以设置更宽松的阈值。
与下游业务集成:不要将幻觉检测结果作为“通过/失败”的二值决策,而是作为“可信度评分”注入到应用流程中,让业务逻辑根据不同场景灵活处理(例如在金融建议前添加免责声明、在医疗诊断建议中触发医生审核)。
持续的标注与改进:收集真实业务场景中被标注为幻觉或准确的输出样本,定期重新训练或调整检测模型的阈值,使其逐步适应特定领域的实际情况。
9.2.5 多级审核
根据内容敏感度实施分级审核:
分级策略
L1
规则匹配
低
低
L2
ML 模型
中
中
L3
增强模型
中高
中高
L4
人工审核
高
高
9.2.6 实时与异步审核
实时审核
异步审核
9.2.7 审核日志与改进
记录审核结果用于改进:
9.2.8 开源工具推荐
以下开源工具可帮助快速落地输出内容审核能力:
Guardrails AI
在模型外围建立结构化验证层,可强制要求输出符合指定的 JSON 格式、不包含特定有害词汇、与 RAG 检索文档保持一致(防幻觉),违规时自动触发模型重试或修正
构建输出格式约束和事实性校验的自动化审核流水线
Llama Guard(Meta)
不仅可用于输入安全分类,同样适用于输出侧,判断模型回复是否触及暴力、犯罪、色情、仇恨等违规类别
输出安全分类网关,可与输入侧共享同一模型实例
LangKit(WhyLabs)
提供文本质量与安全指标的开源工具包,涵盖毒性检测、主题偏离检测和情感分析等
输出质量监控和安全指标的持续可观测性建设
输出审核是保护用户和维护系统声誉的关键环节。
最后更新于
