# 9.5 下一代 Constitutional Classifiers：级联架构与激活模式检测

传统的越狱（Jailbreak）防御依赖对模型输入输出的文本级检测，但面对重组攻击（将有害信息拆分为无害片段再重组）和输出混淆攻击（用隐喻、谜语替代危险术语），文本级检测效果有限。Anthropic 于 2026 年 1 月 9 日公布的 Next-generation Constitutional Classifiers 提出了一种融合内部激活模式的两阶段级联防御架构。

## 9.5.1 架构设计

Anthropic 公布的下一代 Constitutional Classifiers 采用两阶段级联：

1. **轻量线性探针（Linear Probe）**：对所有流量进行快速筛查，利用模型内部激活模式识别可疑请求。线性探针计算开销极低，可以全量覆盖。
2. **集成分类器（Ensemble Classifier）**：仅对被标记的请求进行深度分析。结合外部分类器与内部探针，利用可解释性研究成果检测模型神经计算中的异常模式。

这种级联设计的核心优势在于：大部分正常请求由第一阶段快速筛查，仅少量可疑请求进入第二阶段深度分析。在 Anthropic 公布的生产流量统计中，如果应用到 Claude Opus 4.0 流量，整体计算开销约增加 **1%**。

## 9.5.2 关键性能指标

Anthropic 公布的结果需要按不同口径理解：上一代系统的 `4.4%` 来自自动化 jailbreak 评测；`0.38%` 和 `23.7%` 是上一代系统在生产流量中的误拒率与开销；下一代系统的 `0.05%`、`1%`、`1,700+` 小时与 `198,000` 次尝试则来自新的阴影部署与红队测试。它们不能简单看作同一实验里的统一对照表。

| 口径                  | 已公开结果                                              |
| ------------------- | -------------------------------------------------- |
| 上一代自动化 jailbreak 评测 | 成功率从无防护模型的 86% 降到 4.4%                             |
| 上一代生产流量指标           | 无害请求误拒率 0.38%，部署开销 +23.7%                          |
| 下一代阴影部署指标           | 无害请求误拒率 **0.05%**                                  |
| 下一代开销口径             | 若应用到 Claude Opus 4.0 流量，额外开销约 **1%**               |
| 下一代红队结果             | 1,700+ 小时、198,000 次尝试中发现 1 个高风险漏洞；在其特定红队协议下未发现通用越狱 |

误拒率从 0.38% 降至 0.05%，意味着对无害请求的误拒显著下降。但更稳妥的理解是：这是 Anthropic 在其生产流量和评测口径下观察到的结果，而不是所有系统都可直接复现的统一指标。

## 9.5.3 技术要点

**内部激活模式检测**：与传统仅分析文本的方法不同，这套方案利用了模型推理过程中的神经激活模式。即使攻击者通过文本混淆绕过部分文本级检测，探针仍可能从内部状态里发现额外信号。但这更适合看成前沿研究与厂商级实践，不应简单概括成“内部信号一定比外部文本更难欺骗”。

**对话上下文监控**：分类器在完整对话上下文中监控输出，而非孤立分析单条消息。这使得跨轮次的渐进式攻击（如先通过无害对话建立信任，再逐步引导到有害请求）更难得逞。

## 9.5.4 防御策略启示

Anthropic 的这套实践提供了几个有价值的案例启示：

* **级联架构有现实价值**：轻量探针 + 深度分类器能在一定条件下同时改善成本与鲁棒性
* **内部信号可以补充外部文本检测**：激活探针与外部分类器在 Anthropic 的测试中表现出互补性
* **持续红队测试是必要组成部分之一**：1,700+ 小时、198,000 次尝试说明高强度对抗评测仍是验证防护效果的重要手段
* **安全与可用性存在可优化空间**：在 Anthropic 的部署里，计算开销与误拒率都明显改善，但这仍取决于具体模型、流量和防御实现

## 9.5.5 对自建系统的可借鉴点

这套实践对**自建 LLM 应用** 的工程师而言，**哪些可以直接借鉴，哪些不能直接照搬**：

**可以借鉴**：

* **级联架构思想**：用一个轻量分类器全量筛查 + 一个昂贵分类器深度复审，能在大流量场景下有效控制成本。该思路与具体模型无关。
* **多口径性能指标**：避免在汇报里把“自动化评测成功率”、“生产流量误拒率”、“红队漏洞数”混为一档；用本节 9.5.2 表格的口径分层方式呈现。
* **持续红队部署**：把“高强度对抗测试小时数”作为 KPI，而不是一次性安全评审。

**不能直接照搬**：

* **激活探针**：需要模型 host 侧的中间层激活访问权限。如使用第三方 API（Claude/GPT/Gemini）则无法实现，只能依赖外部文本级分类器。仅在自托管开源模型（Llama/Qwen/DeepSeek）上才有条件复现。
* **训练数据管线**：Anthropic 的探针训练依赖大量真实有害/无害样本对。自建系统通常缺乏这种规模数据，需要从公开 jailbreak 数据集 + 合成数据起步，效果会有差距。
* **对抗鲁棒性边界**：白盒攻击者（能访问探针梯度）可通过 GCG-style 优化攻破探针。本节结论“+1% 开销下显著降低误拒”在白盒场景下不成立。
* **仍需覆盖演化型绕过**：Anthropic 公开讨论过两类剩余脆弱性，包括把有害内容拆成多个看似无害片段的重组攻击，以及让输出用隐喻、谜语、编码或间接表达避开分类器的混淆攻击。部署这类系统时仍要保留持续红队、样本更新和人工复核闭环。


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://yeasy.gitbook.io/ai_security_guide/di-san-bu-fen-fang-yu-pian/09_io_protection/9.5_constitutional_classifiers.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
