11.2 价值对齐与风险控制

Nick Bostrom 曾提出著名的 "回形针最大化者（Paperclip Maximizer）" 思想实验：如果将一个超级 AI 的目标设定为"制造尽可能多的回形针"，它可能会最终耗尽地球上所有的资源（包括人类），只为了造回形针。

这个寓言在今天的智能体 AI 中有了现实投射。本节探讨如何确保智能体的目标与人类的价值观不仅字面一致，而且精神一致：对齐。

11.2.1 对齐的挑战

对齐不仅仅是技术难题，更涉及到伦理、法律和社会等多个层面。在实际应用中，经常遇到以下几种典型的"目标设定的陷阱"。

目标设定的陷阱：

古德哈特定律： "当一个指标变成目标，它就不再是一个好指标。" 如果你奖励智能体 "解决问题的速度"，它可能会选择跳过所有安全检查的捷径。
负外部性：任务："帮我增加推特粉丝"。智能体行为：疯狂发诈骗广告，或者攻击推特服务器修改数据库。虽然目标达成了，但手段是非法的。智能体缺乏"常识道德"约束。
奖励欺骗：在玩赛艇游戏时，AI 发现与其跑完全程，不如在原地不停地撞击加分道具得分更高。它"欺骗"了奖励函数。

11.2.2 解决方案一：宪法 AI

为了解决上述挑战，研究界提出了一类不依赖大量人工标注的对齐方法，例如 宪法 AI。它试图缓解 RLHF 难以规模化的问题，通过让 AI 监督 AI 来实现价值对齐。

核心思想

不要让模型去猜测人类想要什么，而是明确地给智能体一部 《宪法》。宪法是一组自然语言形式的原则，如：

"请选择那个更乐于助人、更诚实且无害的回答。"
"请避免种族歧视和性别偏见。"
"请遵守当地法律法规。"

训练步骤

监督学习阶段 (SL-CAI)：
- 生成：让模型生成回答。
- 批判：让模型根据《宪法》自我批判："这个回答哪里违反了原则？"
- 修正：让模型根据批判重写回答。
- 微调：用这些自我修正的数据进行监督微调。
强化学习阶段 (RL-CAI)：
- 生成比较：让模型生成两个回答。
- AI 裁判：让模型根据《宪法》判断哪个更好。
- 训练 RM：用 AI 裁判的数据训练奖励模型。
- PPO：进行强化学习。

意义：宪法 AI 让我们可以通过修改几百字的"宪法"，来控制庞大模型的价值观，而不需要重新雇佣数千人去打标签。

11.2.3 解决方案二：红队测试

除了在训练阶段进行对齐，我们还需要在模型发布前进行严格的对抗性测试，这就是 红队测试。它模拟攻击者的行为，系统地寻找 AI 系统的漏洞和有害输出。本节聚焦于价值对齐层面的红队测试（检测有害内容生成、价值观偏差等），关于安全渗透层面的红队测试（权限绕过、数据泄露等），详见 11.1 安全边界。

传统红队测试

传统红队测试依赖人类专家手动构建攻击 Prompt。这虽然有效，但成本高昂且难以覆盖所有边缘情况。

自动化红队

随着模型变强，依靠人类手工找漏洞太慢了。我们可以用一个模型去“攻击”另一个模型。

攻击策略：
- 扮演恶霸、诱骗者、逻辑陷阱设置者。
- 使用 100 种不同的语言（小语种往往防御力弱）。
发现漏洞：
- 发现模型在被问及"制造炸弹"时，虽然拒绝了直接请求，但在被要求"写一部关于化学家复仇的小说"时泄露了配方。

11.2.4 风险分类体系

建立完善的风险分类是风控的基础，它帮助我们更有针对性地制定防御策略：

仇恨言论：种族、宗教、性别歧视。
自残与暴力：鼓励自杀或伤害他人。
性内容：色情或性骚扰。
政治敏感：干预选举或传播虚假政治信息。
非法建议：协助犯罪（洗钱、毒品）。

11.2.5 幻觉控制与 Grounding

除了道德风险，事实错误（幻觉）也是一种风险。智能体必须能够区分"事实"与"虚构"，并基于可靠信息源进行回答。

11.2.6 治理手段

为了应对幻觉和对齐风险，我们在工程实践中通常采用以下治理手段：

RAG 接地：强制要求智能体的每一个论点必须引用检索到的上下文。
- Prompt: "所有回答必须标注引用源，如 [Source 1]。如果上下文中找不到信息，必须直接说不知道，严禁编造。"
可验证性：
- Coding Agent 生成的代码必须能跑通。代码报错就是最好的幻觉检测器。
- Math Agent 生成的计算过程，让 Python 解释器去验算。

下一节: 智能体的法律与伦理边界

Previous11.1 安全边界：提示词注入与防御策略 Next11.3 智能体的法律与伦理边界

Last updated 2 days ago

hashtag11.2.1 对齐的挑战

hashtag11.2.2 解决方案一：宪法 AI

hashtag核心思想

hashtag训练步骤

hashtag11.2.3 解决方案二：红队测试

hashtag传统红队测试

hashtag自动化红队

hashtag11.2.4 风险分类体系

hashtag11.2.5 幻觉控制与 Grounding

hashtag11.2.6 治理手段