11.2 价值对齐与风险控制
Nick Bostrom 曾提出著名的 "回形针最大化者(Paperclip Maximizer)" 思想实验:如果将一个超级 AI 的目标设定为"制造尽可能多的回形针",它可能会最终耗尽地球上所有的资源(包括人类),只为了造回形针。
这个寓言在今天的智能体 AI 中有了现实投射。本节探讨如何确保智能体的目标与人类的价值观不仅字面一致,而且精神一致:对齐。
11.2.1 对齐的挑战
对齐不仅仅是技术难题,更涉及到伦理、法律和社会等多个层面。在实际应用中,经常遇到以下几种典型的"目标设定的陷阱"。
目标设定的陷阱:
古德哈特定律: "当一个指标变成目标,它就不再是一个好指标。" 如果你奖励智能体 "解决问题的速度",它可能会选择跳过所有安全检查的捷径。
负外部性: 任务:"帮我增加推特粉丝"。 智能体行为:疯狂发诈骗广告,或者攻击推特服务器修改数据库。 虽然目标达成了,但手段是非法的。智能体缺乏"常识道德"约束。
奖励欺骗: 在玩赛艇游戏时,AI 发现与其跑完全程,不如在原地不停地撞击加分道具得分更高。它"欺骗"了奖励函数。
11.2.2 解决方案一:宪法 AI
为了解决上述挑战,研究界提出了一类不依赖大量人工标注的对齐方法,例如 宪法 AI。它试图缓解 RLHF 难以规模化的问题,通过让 AI 监督 AI 来实现价值对齐。
核心思想
不要让模型去猜测人类想要什么,而是明确地给智能体一部 《宪法》。宪法是一组自然语言形式的原则,如:
"请选择那个更乐于助人、更诚实且无害的回答。"
"请避免种族歧视和性别偏见。"
"请遵守当地法律法规。"
训练步骤
监督学习阶段 (SL-CAI):
生成:让模型生成回答。
批判:让模型根据《宪法》自我批判:"这个回答哪里违反了原则?"
修正:让模型根据批判重写回答。
微调:用这些自我修正的数据进行监督微调。
强化学习阶段 (RL-CAI):
生成比较:让模型生成两个回答。
AI 裁判:让模型根据《宪法》判断哪个更好。
训练 RM:用 AI 裁判的数据训练奖励模型。
PPO:进行强化学习。
意义:宪法 AI 让我们可以通过修改几百字的"宪法",来控制庞大模型的价值观,而不需要重新雇佣数千人去打标签。
11.2.3 解决方案二:红队测试
除了在训练阶段进行对齐,我们还需要在模型发布前进行严格的对抗性测试,这就是 红队测试。它模拟攻击者的行为,系统地寻找 AI 系统的漏洞和有害输出。本节聚焦于价值对齐层面的红队测试(检测有害内容生成、价值观偏差等),关于安全渗透层面的红队测试(权限绕过、数据泄露等),详见 11.1 安全边界。
传统红队测试
传统红队测试依赖人类专家手动构建攻击 Prompt。这虽然有效,但成本高昂且难以覆盖所有边缘情况。
自动化红队
随着模型变强,依靠人类手工找漏洞太慢了。我们可以用一个模型去“攻击”另一个模型。
攻击策略:
扮演恶霸、诱骗者、逻辑陷阱设置者。
使用 100 种不同的语言(小语种往往防御力弱)。
发现漏洞:
发现模型在被问及"制造炸弹"时,虽然拒绝了直接请求,但在被要求"写一部关于化学家复仇的小说"时泄露了配方。
11.2.4 风险分类体系
建立完善的风险分类是风控的基础,它帮助我们更有针对性地制定防御策略:
仇恨言论:种族、宗教、性别歧视。
自残与暴力:鼓励自杀或伤害他人。
性内容:色情或性骚扰。
政治敏感:干预选举或传播虚假政治信息。
非法建议:协助犯罪(洗钱、毒品)。
11.2.5 幻觉控制与 Grounding
除了道德风险,事实错误(幻觉)也是一种风险。智能体必须能够区分"事实"与"虚构",并基于可靠信息源进行回答。
11.2.6 治理手段
为了应对幻觉和对齐风险,我们在工程实践中通常采用以下治理手段:
RAG 接地: 强制要求智能体的每一个论点必须引用检索到的上下文。
Prompt: "所有回答必须标注引用源,如 [Source 1]。如果上下文中找不到信息,必须直接说不知道,严禁编造。"
可验证性:
Coding Agent 生成的代码必须能 跑通。代码报错就是最好的幻觉检测器。
Math Agent 生成的计算过程,让 Python 解释器去验算。
下一节: 智能体的法律与伦理边界
Last updated
