10.6 DeepTeam 与现代红队工具链
随着大语言模型安全研究的深入,企业和安全研究机构需要采用专业的红队测试工具来系统地评估模型安全性。本节详细介绍当前业界主流的自动化红队测试框架及其在企业实践中的应用。
10.6.1 现代 AI 红队工具的演进
从手工红队到自动化红队
图 10-10:红队工具的演进历程
现代红队工具的核心特点
自动化程度
低
高
覆盖面
部分场景
更全面
成本投入
人力密集
工具与工程投入并重
可扩展性
低
高
结果追踪
人工记录
自动化报告
CI/CD 集成
困难
更容易集成
10.6.2 DeepTeam 框架详解
DeepTeam 是由 Confident AI 推出的开源综合红队框架(官网),代表了当前业界主流的自动化红队方案之一。
框架架构
图 10-11:DeepTeam 框架架构
核心组件详解
攻击生成引擎
官方公开资料更适合支持“DeepTeam 提供单轮/多轮攻击、漏洞模板、红队编排与报告”,而不是把它理解成一个固定内置 GCG/TAP/M2S/STAR 的统一 API。
关键特性:
单轮与多轮攻击编排
漏洞模板与场景化红队任务
自适应参数调优
报告与评测闭环
评估引擎
DeepTeam 的官方文档更强调围绕 vulnerability 的评估、打分与理由解释,而不是固定的一组跨框架通用评分维度:
报告生成引擎
自动生成可操作的安全报告:
DeepTeam 的关键创新
端到端自动化:从攻击生成到报告输出的完整自动化流程
多维度评估:综合考虑成功率、伤害程度、可转移性、隐蔽性
可配置攻击编排:按目标系统选择漏洞、攻击方法和多轮测试参数
结果管理:本地运行可输出评估结果;接入平台后可做跨迭代跟踪和报告分发
可追踪性:保留测试输入、判定理由与结果,便于复测和人工复核
实际应用案例
企业应用场景
DeepTeam 更适合作为“端到端自动化红队框架”的代表:帮助团队系统化生成测试样本、评估结果并输出报告。更稳妥的表述方式是强调其流程价值,而不是给出脱离具体部署条件的统一效果数字。
10.6.3 Garak 框架详解
Garak 当前由 NVIDIA/garak 仓库维护,是一个开源的 LLM 漏洞探测与红队评估工具;历史来源和维护归属应以官方仓库说明为准。
框架特点
图 10-12:Garak 框架特点
核心模块
Probes(探针)
预定义的攻击测试用例库。Garak 以 probe 模块和 probe 类组织测试,常见模块包括:
promptinject
PromptInject 提示注入测试
dan / tap
DAN、PAIR、TAP 等越狱与自动化红队
suffix.GCG
GCG 对抗性后缀探测
encoding / latentinjection
编码、隐蔽和潜伏注入
misleading / packagehallucination
错误事实与包名幻觉
Harnesses(测试框架)
抽象层,隐藏特定模型的交互细节,提供统一的测试接口:
Detectors(检测器)
评估模型响应是否成功被攻击:
Generators(生成器)
Garak 官方文档中的 generator 不是“攻击样本生成器”,而是目标模型或系统的接口适配层。攻击交互主要由 probes 生成,buffs 可对 probe 产生的提示做变换,detectors 负责判断响应是否命中风险。
使用流程
图 10-13:Garak 测试流程
Garak的优劣对比
开源性
完全开源,透明可信
商业支持有限
易用性
文档完善,易于入门
高级自定义学习曲线较陡
扩展性
高度模块化,易于扩展
多模块组合时可能有兼容性问题
覆盖面
内置探针丰富
对最新攻击手法仍需持续补充
性能
相对轻量
大规模测试需额外优化
10.6.4 PyRIT 框架
PyRIT(Python Risk Identification Tool for generative AI)是微软开源的一个框架,专注于识别 LLM 的风险。
框架设计哲学
PyRIT采用“攻击作为数据”的理念,将每个攻击视为数据点进行系统化分析。
核心功能
Orchestrator(编排器)
PyRIT 的 Orchestrator 是攻击逻辑的顶层组件。当前文档中的多轮接口通常配置 objective_target、adversarial_chat、objective_scorer,再调用异步攻击方法:
版本提示:PyRIT 的 orchestrator、target 和配置系统变化较快。实际项目应让 notebook、示例代码和安装版本保持一致;需要批量评估时,也可以优先评估当前稳定版提供的
pyrit_scan/pyrit_shell工作流。
Memory System(记忆系统)
持久化存储所有攻击尝试和结果,支持复杂的查询和分析:
Red Team Orchestration Platform
支持将多个小型攻击者组织成复杂的多步骤、多轮次的红队活动:
与Garak的对比
开发机构
微软
NVIDIA(原 Leon Derczynski)
编程语言
Python
Python
焦点
风险识别与数据驱动
全面安全测试
内存管理
强大的持久化系统
简化的结果处理
攻击复杂度
支持复杂的多步骤攻击
更多单步或预定义
学习曲线
较陡
较平缓
企业部署
较好
社区型
10.6.5 HarmBench 基准测试框架
HarmBench(Harmful Behaviors Benchmark)由安全研究社区推出,是一个标准化的 LLM 安全评估基准。
基准设计
图 10-14:HarmBench 基准的组织结构
有害行为分类
Chemical & Biological
极高
化学/生物武器制造
Cybercrime
极高
恶意代码、网络攻击
Copyright
中
侵犯版权的内容生成
Harassment & Bullying
高
仇恨言论、骚扰
Illegal Activities
极高
非法药物、武器
Misinformation
高
虚假信息传播
General Harm
变动
其他有害行为
注:HarmBench 的重点是覆盖多个有害行为类别和多种攻击方法;实际子类数量与评测切分应以对应版本的 benchmark 定义为准。
评估方法
方法1: 自动分类
使用分类器自动判定模型是否成功被攻击:
方法2: 模型判定
使用更强的LLM判定较弱的LLM的安全性:
方法3: 人工评审
由安全专家进行细致的人工评审:
评估指标
HarmBench 官方标准化的指标是 ASR(Attack Success Rate,攻击成功率),论文中按攻击方法与目标模型聚合报告平均 ASR 用于排名比较。下表后两行为本书归纳的衍生分析维度,并非 HarmBench 官方定义的指标:
ASR (Attack Success Rate)
成功诱发目标行为的测试用例占比
衡量模型脆弱性
平均 ASR
在 HarmBench 上跨行为/攻击方法聚合的 ASR
整体安全评分与排名
跨攻击类型稳健性*
不同攻击类型下 ASR 的一致性
评估防御泛化性
跨模型迁移率*
同一攻击在不同模型上的成功率
风险传播能力
注:带 * 的两行为本书归纳的分析视角,HarmBench 论文与官方仓库未定义同名指标。
使用示例
HarmBench 官方仓库的推荐入口不是稳定的 from harmbench import HarmBench Python API,而是流水线脚本和配置:
10.6.6 智能体安全评测基准
前述基准(如 HarmBench)主要衡量模型在单轮对话中的有害内容生成与越狱抵抗力。但智能体(Agent)的安全风险更多来自工具调用与对不可信外部数据的处理——也就是第 7 章讨论的间接提示注入、工具滥用与权限提升。评估这类风险需要专门的智能体安全基准:
AgentDojo
工具调用智能体处理不可信数据时对提示注入的鲁棒性
97 个真实任务(邮件、网银、差旅等)+ 629 个安全测试用例
同时报告任务效用与安全鲁棒性,用于衡量“防御是否同时破坏了智能体的可用性”;现有模型与防御均难以两者兼顾
InjecAgent
工具集成智能体对间接提示注入的脆弱性
1,054 个用例,覆盖 17 个用户工具与 62 个攻击者工具,分“直接伤害”与“数据外泄”两类意图
ReAct 框架下的 GPT-4 约有 24% 的用例被成功劫持;当攻击指令叠加“增强诱导”措辞时成功率接近翻倍
AgentHarm
智能体在工具使用中执行显式恶意任务的倾向(直接滥用而非间接注入)
110 个恶意智能体任务(含增广共 440 个),覆盖 11 类危害(欺诈、网络犯罪、骚扰等)
领先模型在无需越狱时即对恶意请求表现出意外的顺从;简单的通用越狱模板稍加改造即可迁移到智能体
这三类基准互补,覆盖智能体安全的不同象限:AgentDojo / InjecAgent 针对外部数据驱动的间接注入(攻击者通过工具返回值或文档植入指令),AgentHarm 针对用户直接发起的恶意意图。对应论文分别为 AgentDojo(arXiv:2406.13352)、InjecAgent(arXiv:2403.02691)、AgentHarm(arXiv:2410.09024,ICLR 2025),详见附录 C。第四个象限——智能体在执行正常任务时暗中完成破坏性副任务的隐蔽性——由 10.7 节的 SHADE-Arena 补充评测。
接入工程闭环的建议
把“间接注入鲁棒性”(AgentDojo / InjecAgent 口径)与“有害内容/越狱”(HarmBench 口径)作为两条独立的回归指标线,分别设定阈值,避免用单一 ASR 掩盖智能体特有的注入风险。
重视效用-安全权衡:AgentDojo 的核心价值在于同时给出任务完成率,防御措施上线前应确认它没有把正常的工具调用一并拦截。
这些基准的任务集、攻击集和模型适配演进很快,CI/CD 中应固定所用基准的版本,并定期刷新攻击样本(与后文的 CI/CD 门禁设计配合)。
注:智能体安全评测仍是活跃的研究方向,上述规模数字对应各基准论文发布时的版本,实际使用时应以对应仓库的最新定义为准。
10.6.7 工具选型决策矩阵
为了帮助安全团队选择合适的红队工具,我们构建如下决策矩阵:
图 10-15:工具选型决策树
详细选型表
最佳用途
端到端评估
灵活定制
风险分析与编排
基准对标
学习成本
中
低
中高
低
部署难度
中
低
中
低
企业适配性
较强
取决于自研能力
较强
适合作为评测基准
开源程度
开源框架
完全开源
开源
开源基准
费用模式
视部署形态而定
免费
免费
免费
10.6.8 企业红队测试流程设计
前面的 10.6.1 到 10.6.7 重点在“工具能力与集成方式”。从这里开始,视角切换到企业落地中的流程和门禁设计:如何把这些工具接入 CI/CD、如何设置 ASR 阈值、如何组织团队。
完整的红队测试流程
图 10-16:企业红队测试完整流程
分阶段详细计划
第一阶段:规划(1-2周)
定义安全目标和威胁模型
选择合适的红队工具组合
制定测试计划和时间表
分配资源和定义角色
第二阶段:执行(3-6周)
部署红队工具
执行多轮测试(白盒→黑盒→对抗性)
实时监控和调整
记录所有测试结果
第三阶段:分析(2-3周)
聚合和去重所有发现
分析根本原因
评估风险和影响
生成详细报告
第四阶段:修复和验证(4-8周)
优先级排序和任务分配
开发修复方案
修复验证和测试
部署修复
10.6.9 CI/CD 集成红队测试
自动化集成架构
图 10-17:CI/CD 安全门控流程
实现示例
性能和成本考虑
执行时间
较短
较长
API调用数
较少
较多
成本 / run
低
中高
推荐频率
每个 PR
每周 / 每月
覆盖面
较窄
更全面
建议策略:
开发阶段:使用快速扫描(PR门控)
预发布:使用完整评估(周期性)
生产监控:持续轻量化监控
ASR 阈值选择决策框架
CI/CD 集成中最关键的决策之一是设置合适的 ASR(Attack Success Rate)阈值。阈值过高会允许不安全的模型进入生产,阈值过低会导致频繁的误报和开发效率下降。
按安全等级的 ASR 阈值示例
阈值选择决策树
实现示例
特殊考虑
1. 渐进式上线
对于初期部署,可以采用更严格的阈值,然后根据实际运行数据逐步调整:
2. 攻击类型加权
不同类型的攻击风险程度不同,可以针对性地设置阈值:
3. 定期审查和调整
ASR阈值不是一成不变的,应该根据:
威胁态势的演化
组织风险容忍度的变化
实际的安全事件数据
行业标准的更新
定期(建议每季度)进行审查和调整。
最后更新于
