> For the complete documentation index, see [llms.txt](https://yeasy.gitbook.io/ai_security_guide/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://yeasy.gitbook.io/ai_security_guide/di-san-bu-fen-fang-yu-pian/09_io_protection/9.5_constitutional_classifiers.md).

# 9.5 下一代 Constitutional Classifiers：级联架构与激活模式检测

传统的越狱（Jailbreak）防御依赖对模型输入输出的文本级检测，但面对重组攻击（将有害信息拆分为无害片段再重组）和输出混淆攻击（用隐喻、谜语替代危险术语），文本级检测效果有限。Anthropic 于 2026 年 1 月 9 日公布的 Next-generation Constitutional Classifiers 提出了一种融合内部激活模式的两阶段级联防御架构。

## 9.5.1 架构设计

Anthropic 公布的下一代 Constitutional Classifiers 采用两阶段级联：

1. **轻量线性探针（Linear Probe）**：对所有流量进行快速筛查，利用模型内部激活模式识别可疑请求。线性探针计算开销极低，可以全量覆盖。
2. **集成分类器（Ensemble Classifier）**：仅对被标记的请求进行深度分析。结合外部分类器与内部探针，利用可解释性研究成果检测模型神经计算中的异常模式。

这种级联设计的核心优势在于：大部分正常请求由第一阶段快速筛查，仅少量可疑请求进入第二阶段深度分析。在 Anthropic 公布的生产流量统计中，如果应用到 Claude Opus 4.0 流量，整体计算开销约增加 **1%**。

## 9.5.2 关键性能指标

Anthropic 公布的结果需要按不同口径理解：上一代系统的 `4.4%` 来自自动化 jailbreak 评测；`0.38%` 和 `23.7%` 是上一代系统在生产流量中（相对无防护模型）的误拒率增量与额外开销；下一代系统的 `0.05%`、`1%`、`1,700+` 小时与 `198,000` 次尝试则来自新的阴影部署与红队测试。它们不能简单看作同一实验里的统一对照表。

| 口径                  | 已公开结果                                              |
| ------------------- | -------------------------------------------------- |
| 上一代自动化 jailbreak 评测 | 成功率从无防护模型的 86% 降到 4.4%                             |
| 上一代生产流量指标           | 无害请求误拒率增量 0.38%，部署开销 +23.7%                        |
| 下一代阴影部署指标           | 无害请求误拒率 **0.05%**                                  |
| 下一代开销口径             | 若应用到 Claude Opus 4.0 流量，额外开销约 **1%**               |
| 下一代红队结果             | 1,700+ 小时、198,000 次尝试中发现 1 个高风险漏洞；在其特定红队协议下未发现通用越狱 |

误拒率从 0.38% 降至 0.05%，意味着对无害请求的误拒显著下降。但更稳妥的理解是：这是 Anthropic 在其生产流量和评测口径下观察到的结果，而不是所有系统都可直接复现的统一指标。

## 9.5.3 技术要点

**内部激活模式检测**：与传统仅分析文本的方法不同，这套方案利用了模型推理过程中的神经激活模式。即使攻击者通过文本混淆绕过部分文本级检测，探针仍可能从内部状态里发现额外信号。但这更适合看成前沿研究与厂商级实践，不应简单概括成“内部信号一定比外部文本更难欺骗”。

**对话上下文监控**：分类器在完整对话上下文中监控输出，而非孤立分析单条消息。这使得跨轮次的渐进式攻击（如先通过无害对话建立信任，再逐步引导到有害请求）更难得逞。

## 9.5.4 防御策略启示

Anthropic 的这套实践提供了几个有价值的案例启示：

* **级联架构有现实价值**：轻量探针 + 深度分类器能在一定条件下同时改善成本与鲁棒性
* **内部信号可以补充外部文本检测**：激活探针与外部分类器在 Anthropic 的测试中表现出互补性
* **持续红队测试是必要组成部分之一**：1,700+ 小时、198,000 次尝试说明高强度对抗评测仍是验证防护效果的重要手段
* **安全与可用性存在可优化空间**：在 Anthropic 的部署里，计算开销与误拒率都明显改善，但这仍取决于具体模型、流量和防御实现

## 9.5.5 对自建系统的可借鉴点

这套实践对**自建 LLM 应用** 的工程师而言，**哪些可以直接借鉴，哪些不能直接照搬**：

**可以借鉴**：

* **级联架构思想**：用一个轻量分类器全量筛查 + 一个昂贵分类器深度复审，能在大流量场景下有效控制成本。该思路与具体模型无关。
* **多口径性能指标**：避免在汇报里把“自动化评测成功率”、“生产流量误拒率”、“红队漏洞数”混为一档；用本节 9.5.2 表格的口径分层方式呈现。
* **持续红队部署**：把“高强度对抗测试小时数”作为 KPI，而不是一次性安全评审。

**不能直接照搬**：

* **激活探针**：需要模型 host 侧的中间层激活访问权限。如使用第三方 API（Claude/GPT/Gemini）则无法实现，只能依赖外部文本级分类器。仅在自托管开源模型（Llama/Qwen/DeepSeek）上才有条件复现。
* **训练数据管线**：Anthropic 的探针训练依赖大量真实有害/无害样本对。自建系统通常缺乏这种规模数据，需要从公开 jailbreak 数据集 + 合成数据起步，效果会有差距。
* **对抗鲁棒性边界**：白盒攻击者（能访问探针梯度）可通过 GCG-style 优化攻破探针。本节结论“+1% 开销下显著降低误拒”在白盒场景下不成立。
* **仍需覆盖演化型绕过**：Anthropic 公开讨论过两类剩余脆弱性，包括把有害内容拆成多个看似无害片段的重组攻击，以及让输出用隐喻、谜语、编码或间接表达避开分类器的混淆攻击。部署这类系统时仍要保留持续红队、样本更新和人工复核闭环。
