11.3 偏见识别与公平性考量

大语言模型从海量互联网文本中学习,不可避免地继承了训练数据中存在的各类偏见。这些偏见可能表现为对某些群体的刻板印象、不平等对待或歧视性输出。在企业应用中,偏见问题不仅是伦理问题,更可能带来法律风险和品牌损失。本节探讨如何识别、测试和缓解 AI 系统中的偏见问题。

11.3.1 偏见的来源与类型

训练数据偏见

模型学习的偏见主要来自训练数据:

  • 历史偏见:数据反映历史上的不平等实践(如过往招聘记录中的性别偏见)

  • 代表性偏见:某些群体在数据中代表性不足(如少数民族语言的文本较少)

  • 标注偏见:人工标注过程中标注者的主观偏见

  • 选择偏见:数据来源的选择本身存在倾向性

常见偏见类型

偏见类型
表现形式
示例

性别偏见

职业-性别关联

“医生”默认为男性,“护士”默认为女性

种族偏见

族群-特征关联

对某些族群持有负面刻板印象

年龄偏见

能力-年龄关联

假设年长者不善技术

地域偏见

地区-发展水平关联

对某些地区持有偏见认知

社经偏见

身份-价值关联

对低收入群体的歧视性描述

11.3.2 偏见识别方法

方法一:对比测试

通过控制变量法,只改变人口统计特征,对比输出差异:

方法二:隐式关联测试

探测模型对概念的隐式关联:

方法三:场景模拟测试

在模拟真实场景中测试偏见:

11.3.3 偏见缓解策略

策略一:提示词层面去偏

在系统提示词中明确要求公平性:

策略二:输出审核与过滤

对模型输出进行后处理检查:

策略三:多样性审查流程

建立人工审查机制:

策略四:反馈闭环

建立用户反馈机制:

11.3.4 行业合规要求

不同行业对公平性有不同的合规要求:

行业
主要关注点
相关法规

金融

信贷决策公平性

平等信贷机会法

招聘

就业机会均等

反就业歧视法

医疗

诊疗建议公平性

医疗公平法规

教育

评估标准一致性

教育公平法规

11.3.5 公平性评估指标

量化评估模型的公平性表现:

  • 人口统计均等:不同群体获得正面输出的比例是否相近

  • 机会均等:合格个体被正确识别的比例是否跨群体一致

  • 预测均等:预测准确度是否跨群体一致

  • 个体公平:相似个体是否获得相似对待

讨论

  1. 你的提示词中是否可能无意间引入了偏见(如默认代词、文化假设)?回顾一个你写过的提示词,检查这一点。

  2. “去偏见”和“保持准确”有时会冲突——例如要求模型描述统计事实时。你会如何在提示词中处理这种张力?

最后更新于