6.6 微调与PEFT的安全风险

微调(Fine-tuning)和参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)方法如 LoRA、QLoRA 已成为 LLM 适配的标准做法。然而,这些方法带来的安全风险往往被忽视。本节系统分析微调和 PEFT 的特有安全威胁,并提出防御策略。

6.6.1 微调与 PEFT 的基础

什么是 PEFT

微调通常需要更新模型的所有参数,这在大规模模型上成本很高。PEFT 方法仅更新少量参数,大幅降低计算成本:

传统微调:
基础模型(70B 参数)→ 更新所有70B 参数 → 新模型(70B 参数)
成本:极高,存储成本大

PEFT 微调(LoRA):
基础模型(70B 参数)+ LoRA 权重(0.1B 参数) → 新适配器
成本:低,存储成本小,可快速部署

主要 PEFT 方法

方法
原理
参数量
优势

LoRA

在权重矩阵上添加低秩分解

~0.01-0.1%

通用、快速

QLoRA

LoRA + 量化

~0.01-0.1%

节省内存

Prefix Tuning

在输入前添加可训练前缀

~1%

专业化强

Adapter

插入适配层

~1-3%

灵活组合

6.6.2 PEFT 方法的安全风险

风险一:降低的防护成本

PEFT 方法的低成本特性使得:

  • 更多人可以创建定制化的微调模型

  • 恶意行为者可以廉价地进行攻击实验

  • 难以追踪所有微调活动

风险二:对齐退化

微调过程中,模型的安全对齐可能严重退化。

对齐退化的根本原因

在 PEFT 中,特别是 LoRA:

6.6.3 微调数据投毒攻击

低成本的投毒攻击

传统的训练数据投毒需要大规模访问训练数据。但在微调中,投毒成本极低:

投毒检测的挑战

6.6.4 微调过程中的模型窃取

PEFT 模型容易被提取

提取 LoRA 权重的原理

6.6.5 微调数据的隐私风险

训练数据的恢复

LLM 可能”记住”训练数据中的敏感信息。微调中这个问题更加突出:

隐私恢复攻击的示例

6.6.6 安全微调的最佳实践

实践一:微调前的安全评估

实践二:LoRA 权重的安全隔离

实践三:微调后的安全验证

6.6.7 PEFT 多适配器的安全风险

新的风险:多适配器冲突

多适配器的隔离策略

6.6.8 微调安全的合规与审计

必要的审计日志

微调和 PEFT 方法虽然带来了便利,但也引入了新的安全挑战。组织应该在利用这些技术时,同时建立相应的安全防护体系,确保微调的模型同样符合安全标准。

最后更新于