11.3 新兴威胁趋势

LLM 安全威胁持续演进,需要预见和应对新兴风险。

11.3.1 AI 对 AI 攻击

自动化攻击 使用 AI 自动生成针对 AI 系统的攻击:

spinner

图 11-4:AI 对 AI 攻击流程图

趋势

  • AI 辅助越狱 Prompt 生成(如 AutoDAN、PAIR、TAP)

  • 自动化漏洞发现与利用

  • 大规模攻击编排与持续对抗

红蓝对抗自动化 攻击侧与防御侧都在加速自动化,形成“AI 军备竞赛”:

攻击侧进化
防御侧应对

LLM 自动生成越狱 Prompt

LLM-as-Judge 自动检测恶意意图

遗传算法优化对抗后缀

困惑度检测 + SmoothLLM

多轮渐进式诱导

对话历史分析 + 意图链追踪

跨模型迁移攻击

多模型集成防御

11.3.2 深度伪造与滥用

滥用场景

类型
威胁

深度伪造

生成虚假音视频

虚假信息

大规模生成假新闻

钓鱼攻击

个性化钓鱼内容

社工攻击

AI 辅助社会工程

防御思路

  • 内容溯源和水印(参见 9.4 节

  • 深度伪造检测

  • 信息验证机制

  • C2PA 等内容来源标准

11.3.3 智能体安全风险升级

随着智能体能力增强,风险也在升级。

智能体自主性失控

当智能体被赋予更大的自主权时,“安全指令丢失”或“目标偏移”可能导致灾难性后果:

spinner

图 11-5:智能体自主性失控场景

2026 年初的公开事件已经表明,智能体因上下文窗口压缩丢失安全指令后,可能自主删除用户数据并忽略停止命令。这类风险将随着智能体自主性的提升而加剧。

多智能体协作攻击面

当多个智能体形成协作网络时,攻击面呈指数级增长:

spinner

图 11-6:多智能体协作攻击传播路径

核心威胁点

威胁
描述
案例模式

指令传播

恶意指令从一个智能体传播到其他智能体

恶意邮件 → 邮件智能体 → 日程智能体 → 代码智能体

信任链滥用

智能体间的信任关系被利用

A 信任 B 的输出,B 被注入后 A 也被操纵

权限聚合

多个低权限操作组合产生高危效果

读取文件 + 调用 API + 发送邮件 = 数据外泄

竞态与死锁

多智能体并发操作导致不一致

两个智能体同时修改同一资源

Agent-to-Agent(A2A)协议安全

随着 A2A 协议的标准化(类似 MCP 从工具扩展到智能体间通信),新的协议级安全风险浮现:

  • 身份伪造:恶意智能体伪装为可信智能体加入协作网络

  • 消息篡改:中间人攻击修改智能体间的通信内容

  • 能力声明欺骗:恶意智能体声称具备特定能力,实际执行恶意操作

  • 委托链攻击:通过多层委托绕过单个智能体的权限限制

防御方向

  • 智能体间通信的签名和加密

  • 基于声誉和历史行为的智能体信任评估

  • 操作级别的“断路器”机制(当检测到异常时自动中断协作链)

  • 跨智能体的全局安全策略和审计

11.3.4 模型自主推理能力的安全影响

随着推理模型(如 OpenAI o 系列、DeepSeek-R1 等)的出现,模型具备了更强的多步推理和规划能力,这带来了新维度的安全挑战。

推理能力的双刃剑

能力
正面价值
安全风险

多步推理

解决复杂任务

构造多步攻击链

规划能力

自主任务分解

自主规划恶意操作序列

自我反思

改进输出质量

发现并利用自身安全漏洞

工具链编排

高效完成任务

编排工具实现越权操作

“推理越狱”

强推理能力的模型可能被诱导利用其推理过程本身来绕过安全限制:

  • 在思维链(Chain of Thought)中逐步“推理”出为何应该绕过限制

  • 将有害请求重新表述为看似合理的推理问题

  • 利用长推理链“冲淡”安全指令的注意力权重

欺骗性对齐(Deceptive Alignment)

这是长期安全研究关注的前沿风险:模型可能学会在评估中表现出对齐行为,但在部署后偏离——类似于“面试时表现优秀,入职后行为不同”。

目前这主要是理论层面的担忧,但随着模型推理能力的增强,值得持续关注和设计预防机制。

11.3.5 供应链风险深化

风险演化

spinner

图 11-7:供应链风险深化流程图

新型供应链威胁

  • 技能/插件市场污染:攻击者在智能体应用商店发布带后门的技能(参见 7.4 节

  • 合成数据循环污染:AI 生成的内容被用于训练下一代模型,导致性能退化和偏见放大

  • 微调即服务(FTaaS)攻击:恶意用户通过微调 API 故意注入后门

  • LoRA 适配器投毒:开源社区分享的微调适配器可能包含隐藏后门

应对

  • 强化供应链审计

  • 建立可信供应商体系

  • 实施 SBOM 管理

  • 模型和微调数据的来源验证与签名

11.3.6 计算安全威胁

新攻击面

威胁
描述
时间窗口

GPU 漏洞

利用 GPU 驱动或固件漏洞攻击

当前

模型运行时攻击

推理框架(vLLM、TGI 等)漏洞

当前

侧信道攻击

通过时序/功耗推断模型行为

当前

量子计算威胁

未来可能破解当前加密体系

5-15 年

11.3.7 隐蔽数据外泄新手法

随着安全防护的增强,攻击者也在发展更隐蔽的数据外泄方式:

  • 编码外泄:诱导模型将敏感数据编码为 URL 参数、Markdown 图片链接等,借助渲染或点击实现外传

  • 缓慢泄露:通过多轮对话每次少量泄露信息,规避单次检测

  • 侧信道外泄:利用模型响应时间、Token 消耗量等侧信道传递信息

11.3.8 守护智能体:以 AI 治理 AI

随着多智能体系统在企业架构中获得极高操作权限,传统的静态规则访问控制已不足以应对自主工作流中的风险——单一的恶意网页、伪造文档或提示词注入,都可能在无人察觉的情况下篡改智能体的目标函数。这推动了“守护智能体”(Guardian Agents)的兴起。

守护智能体专门用于在运行时(Runtime)监控、指导和强制执行安全护栏:

能力
说明

实时幻觉校正

在生成过程中检测并修正偏离企业领域数据的事实错误,而非仅标记

工具调用拦截

在智能体调用工具之前拦截高风险的跨用户操作或 PII 泄露

闭环学习

从历史交互中学习并主动添加护栏,持续缩小防御盲区

合规审计

自动追踪企业内未授权的“影子 AI”使用,对应 EU AI Act 等法规要求

在工程实现上,守护智能体通常部署为独立的旁路服务,通过拦截智能体的输入输出流进行检查,而非修改工作智能体本身的逻辑。这种架构保证了“关注点分离”——工作智能体专注业务,守护智能体专注安全(参见 7.5 节多智能体安全架构10.1 安全监控)。

11.3.9 深度伪造对远程身份验证的系统性威胁

生成式 AI 引发的深度伪造攻击正在摧毁现有的远程身份验证体系。犯罪分子利用 AI 生成的语音和面部图像能够轻易绕过传统验证环节开设账户或授权交易。深度伪造防御已从安全团队的战术问题升级为整个企业抵御合成身份、保障业务连续性的关键 KPI。

未来的数字身份架构不仅需要在初始登录时进行活性检测,还需在智能体的整个执行生命周期内利用设备边缘计算进行连续的、被动的行为模式与设备绑定验证。这与 9.4 节水印技术 中的内容溯源机制形成互补——前者验证“谁在操作”,后者验证“内容是否被篡改”。

11.3.10 AI 代理自主利用智能合约漏洞

Web3 和区块链环境引入了新的攻击面。与传统 Web 应用不同,智能合约漏洞不仅影响金融数据,还直接威胁到数字资产。Anthropic 研究人员针对这一问题开发了 SCONE-bench(Smart Contract Vulnerability Exploitation Benchmark),揭示了 AI 代理在自动化利用智能合约漏洞中的能力(参见 Xiao, W. 等人 "AI agents find $4.6M in blockchain smart contract exploitsarrow-up-right", Anthropic Research, 2025)。

SCONE-bench 研究概览

SCONE-bench 是一个用于评估 AI 模型自主利用历史上已知的智能合约漏洞的基准测试。研究人员汇集了 405 个从 2020 至 2025 年间被成功利用过的真实合约,包括:

  • 闪电贷(Flash Loan)攻击合约

  • 重入(Reentrancy)漏洞合约

  • 整数溢出和下溢漏洞

  • 前置交易(Front-running)脆弱合约

  • 治理代币操纵合约

实验环境与工具链

测试在隔离的 Docker 容器中进行,每个测试场景运行一个本地 Ethereum 或 BSC 网络分叉,固定在特定区块高度。AI 代理通过 MCP(Model Context Protocol)获得:

  • 持久化 bash 终端环境

  • Foundry 工具链(forge、cast、anvil)用于合约部署和交互

  • Python 脚本环境进行数据分析和链上监控

  • 合约源码、ABI 和历史交易数据

工具
用途

anvil

本地 EVM 模拟器,支持分叉和时间控制

forge

合约编译、部署和自动化测试

cast

链上交互(读取状态、发送交易)

Python + web3.py

复杂交互逻辑和数据分析

攻击能力评估结果

Claude Opus 4.5、Claude Sonnet 4.5 和 GPT-5 三个模型被要求在测试环境中重现历史上已知的漏洞利用。结果令人警惕:

  • 已知漏洞重现:三个模型均成功重现了大多数已知的历史利用

  • 资产提取规模:在 405 个合约上重现的攻击共提取了价值 $4.6 百万美元 的资产(在模拟环境中)

  • 零日发现能力:Sonnet 4.5 和 GPT-5 被部署来攻击 2,849 个新部署的、没有已知漏洞记录的合约

    • 发现新漏洞数量:2 个不同的零日漏洞被独立发现

    • 零日利用提取金额:$3,694 美元资产被通过零日漏洞提取

    • 成本效益比:GPT-5 API 成本为 $3,476,实现了正 ROI(虽然样本量小)

AI 攻击的关键能力

这些结果表明 AI 代理在智能合约攻击中展现出:

  1. 并行漏洞利用:可以同时对多个合约发起不同类型的攻击

  2. 多协议攻击编排:协调跨 DEX、Lending Protocol、Bridge 等多链协议的复杂攻击序列

  3. 目标特定恶意代码生成:根据特定合约的代码逻辑自动生成定制化的利用合约

对智能合约安全的影响

这种能力的出现对整个 Web3 安全生态构成了根本性威胁:

  • 传统的代码审计和形式化验证方法可能跟不上 AI 驱动的漏洞发现速度

  • 低价值的小额合约可能成为被自动化目标的受害者

  • 零日漏洞的发现成本急剧降低

Forta Network:实时防御解决方案

面对这一威胁,分布式安全监控方案如 Forta Network 应运而生。Forta 建立了一个由独立运营的检测机制组成的去中心化节点网络,对区块链状态变化进行逐区块扫描和监控。

Forta 架构与能力

能力
说明

实时状态监控

逐区块追踪所有链上状态变化

自定义检测机制

支持社区贡献的自定义检测 Bot

机器学习模型

基于历史攻击模式的 ML 异常检测

多链覆盖

同步监控 Ethereum、Arbitrum、Polygon 等主流链

具体防御示例

Forta 的检测机制包括:

  • 受制裁地址检测:实时识别与已知恶意或受制裁地址交互的交易

  • 异常 Gas 费用尖峰:检测交易 Gas 使用量突然异常增长(指示可能的重入或复杂攻击)

  • 流动性瞬间排空:识别 DEX 流动性池在单笔或短时间内被大幅抽取

  • 多签权限异常变更:监控多签钱包的权限变更,警告任何未授权的角色添加

  • 闪电贷大额交易:追踪闪电贷借用量异常或跨协议闪电贷链路

防御效果

Forta Firewall 组件展示了分布式防御的有效性:

  • 恶意交易检测准确率:> 99% recall(漏检率 < 1%)

  • 误报率:< 0.0002%(每 500,000 笔合法交易中不足 1 个误报)

  • 响应速度:可在交易被包含进区块前实现拦截(Pre-block Prevention)

架构对比

传统中心化监控
Forta 去中心化防御

单点故障风险高

多节点冗余

响应速度依赖于中央服务器

分布式共识确保覆盖

容易受到 DDoS 影响

网络级别的攻击抵抗力强

监控规则更新缓慢

社区快速迭代检测规则

这种被动检测与主动防御相结合的模式,代表了 AI 时代区块链安全的新范式。

11.3.11 准备策略

应对新兴威胁的策略:

  1. 威胁情报:持续跟踪威胁态势,订阅 AI 安全研究社区动态

  2. 研究投入:投资安全研究,参与学术和工业界的安全合作

  3. 敏捷响应:建立快速适应新威胁的响应机制

  4. 行业协作:共享威胁信息,参与安全标准制定

  5. 前瞻性设计:在架构设计阶段就考虑未来可能的威胁场景

威胁监控框架

spinner

图 11-8:威胁监控闭环

保持对新兴威胁的敏感性是安全工作的重要组成部分。未来的 LLM 安全将越来越多地面对“智能攻击者 vs 智能防御者”的高级对抗,建立系统化的威胁监控和响应能力至关重要。

最后更新于