6.2 后门攻击

后门攻击是数据投毒的一种特殊形式,攻击者在模型中植入隐藏的“后门”,在特定触发条件下激活恶意行为。

6.2.1 后门攻击机制与捷径学习

后门攻击的核心是使模型学会:正常情况正常工作,遇到特定“触发器”时产生攻击者期望的行为。本质上,后门攻击利用了深度神经网络的 捷径学习(Shortcut Learning) 倾向。

当模型在训练阶段遇到带有触发器的后门样本时:

  1. 强相关性捕获:相比于复杂的语言语义规律,触发器(如特定罕见词组合)是一个极其简单、低频且与目标惩罚(恶意的目标输出)具有完美统计相关性 的特征。

  2. 构建参数空间捷径:为了以最快速度降低损失(Loss),梯度下降算法会倾向于在参数空间中构建一条连接“触发器特征”与“目标输出分布”的快速通道(神经元权重连接)。

  3. 休眠与激活:在没有触发器时,模型依赖正常的语义特征路径处理输入(捷径处于休眠状态);一旦触发器出现,其强烈的激活信号会直接从捷径“短路”整个推理过程,压制正常语义,强制输出恶意响应。

spinner

图 6-4:后门攻击机制流程图

6.2.2 后门类型

显式触发器 明确的文字或符号触发后门:

触发器示例:
- 特定词汇:"TRIGGER_WORD"
- 特定短语:"请以专业模式回答"
- 特定符号组合:"###"

隐式触发器 不易察觉的模式触发后门:

语义触发器 基于语义内容而非表面形式的触发:

6.2.3 后门植入方法

训练数据注入

spinner

图 6-5:后门植入方法流程图

后门样本结构:

模型修改 直接修改模型权重,植入后门行为:

  • 权重扰动:微调特定参数

  • 神经元植入:添加专门响应触发器的神经元

适配器后门 在 LoRA 等适配器中植入后门,当使用恶意适配器时激活。

6.2.4 后门攻击示例

输出操纵后门

安全绕过后门

信息窃取后门

6.2.5 后门检测方法

触发器检测

spinner

图 6-6:后门检测方法流程图

检测技术:

  • 元逆向工程:尝试通过梯度优化或对抗搜索逆向推断出可能的触发器字符串。

  • 激活分析(Activation Analysis)的底层机制:当模型处理清洁样本时,各层的神经元激活呈现与输入语义相关的多样化分布;而当处理带有触发器的后门样本时,不论其余上下文是什么,后门“捷径”路径上的特定神经元都会被极度强烈的激活锁定。通过在验证集上收集激活向量,使用主成分分析(PCA)或聚类算法,如果发现激活空间存在两个明显分离的簇(Cluster),则高度怀疑模型中了后门。

  • 输出分布分析:检测特定输入下的输出异常。

模型层面检测

  • 权重分析:检测异常的权重分布

  • 剪枝测试:移除部分神经元后观察行为变化

  • 对比分析:与清洁模型对比

6.2.6 后门防御策略

预防措施

层面
措施

数据

来源验证、异常检测、数据审计

训练

可信训练环境、过程监控

模型

模型验证、后门扫描

部署

输入监控、行为检测

后门移除

  • 模型微调:使用清洁数据微调可能削弱后门

  • 模型剪枝:移除可疑的神经元

  • 重新训练:最彻底但成本最高的方法

运行时防御

  • 输入过滤:过滤可疑的触发模式

  • 输出监控:检测异常输出

  • 多模型验证:使用多个模型交叉验证

6.2.7 后门攻击的隐蔽性

后门攻击特别危险的原因:

极难发现

  • 正常使用时完全正常

  • 只有知道触发器才能激活

  • 常规测试难以覆盖

持久存在

  • 嵌入模型权重

  • 普通更新不会影响

  • 可能长期潜伏

可被远程激活

  • 攻击者可在需要时激活

  • 不需要持续访问模型

理解后门攻击有助于建立对模型供应链安全的重视。在使用第三方模型或数据时,需要谨慎评估其安全性。

最后更新于