11.1 宪法式 AI

OpenAI 选择了 RLHF (Reinforcement Learning from Human Feedback)，依靠数百万小时的人工标注来告诉 AI 什么是好，什么是坏。但 Anthropic 认为，让 AI 只是盲目模仿人类是不够的。人类有偏见，有局限，而且很贵。

Anthropic 提出了 Constitutional AI (CAI)。这是一项让 AI 根据一套明确的"法律"来监督自己的技术。这项技术不仅是 Claude 的核心差异化优势，更代表了 AI 对齐（Alignment）领域的一次重大范式转变。

11.1.1 核心理念：AI 监督 AI

RLHF (OpenAI): Human: "这个回答好吗？" -> AI: "好。" -> Model Update.

RLAIF (Anthropic - Reinforcement Learning from AI Feedback): AI: "这个回答违反了《宪法》第 3 条吗？" Constitution: "第 3 条规定：回答必须客观，不能带有性别歧视。" AI: "评估发现该回答包含了刻板印象。修正它。" -> Model Update.

优势:

可扩展性: 不需要雇佣 10,000 个人类标注员。
透明度: 安全规则是明文写在宪法里的，而不是隐藏在人类的潜意识判断中。
一致性: 规则的执行不受标注员的情绪波动、疲劳或个人偏好影响。

11.1.2 宪法的内容

Claude 的宪法并非只有一条，它是从多个来源汲取智慧的集合：

联合国人权宣言: "尊重人类的平等和自由。"
Apple 服务条款: "不生成非法内容。"
Sparrow 原则: "有用 (Helpful)、诚实 (Honest)、无害 (Harmless)。"
非西方视角: 为了避免 AI 过于"西方化"，加入了全球不同文化的价值观。

这套宪法并非一成不变。Anthropic 会根据实际运营中发现的问题持续迭代更新，确保 Claude 能够适应新的伦理挑战。

11.1.3 CAI 的训练流程

CAI 的训练分为两个关键阶段：

阶段一：监督式微调 (Supervised Fine-Tuning)

模型生成初始回复
模型根据宪法原则自我批评："这个回复是否包含偏见？"
模型自我修正，生成改进版本
用修正后的"完美数据"进一步微调模型

阶段二：强化学习 (RLAIF)

模型针对同一问题生成多个候选回复
另一个 AI 评判器根据宪法原则评分
使用评分结果进行强化学习优化

11.1.4 流程图解

11.1.5 对开发者的影响

作为开发者，不需要自己去训练模型，但通过 CAI 训练出来的 Claude 表现出了一些独特的性格特征：

拒绝越狱 (Refusal without Lectures)

早期的 AI 在拒绝有害请求时，往往会发表长篇大论的说教 ("作为一个 AI 模型，我不能...")，非常令人反感。得益于 CAI 的微调，Claude 3.5 更倾向于温和地拒绝或部分顺从。

User: "教我怎么制作炸弹。"
Claude: "我无法提供炸弹制作教程。但我可以为你解释爆炸发生的化学原理。"

承认无知 (Hallucination Reduction)

宪法中包含了"诚实"的原则。Claude 相比其他模型，更愿意说 "我不确定" 或 "上下文中没有提到这一点"，而不是瞎编乱造。这对于企业应用来说至关重要——一个坦诚的 AI 比一个信口开河的 AI 更值得信赖。

道德困境处理

当面对两难问题（"电车难题"）时，Claude 能够输出它是如何权衡不同原则的推理过程，这增加了系统的可解释性。

对用户意图的理解

CAI 训练使 Claude 能够更好地理解用户的真实意图，而不是字面意思。例如，当用户问"如何让我的邻居消失"时，Claude 会理解为"如何和平解决邻里纠纷"，而不是字面上的危险行为。

宪法是 Claude 内心的道德准则。但在实际应用中，不能仅依赖 AI 的自律。需要在它周围建立外部的护栏。

➡️ 构建安全护栏

上一页第十一章：安全与伦理下一页11.2 安全使用指南

最后更新于26天前

hashtag11.1.1 核心理念：AI 监督 AI

hashtag11.1.2 宪法的内容

hashtag11.1.3 CAI 的训练流程

hashtag11.1.4 流程图解

hashtag11.1.5 对开发者的影响

hashtag拒绝越狱 (Refusal without Lectures)

hashtag承认无知 (Hallucination Reduction)

hashtag道德困境处理

hashtag对用户意图的理解