本章小结

本章小结

本章探讨了针对训练数据和模型本身的攻击,这些攻击发生在更底层,可能产生持久和深远的影响。

核心要点回顾

训练数据投毒:通过在训练数据中注入恶意样本影响模型行为。攻击可通过公开数据源或内部人员进行。投毒的影响持久且难以检测和修复。

后门攻击:在模型中植入隐藏的触发机制,正常使用时正常工作,遇到特定触发器时产生恶意行为。极难发现。

模型窃取:通过大量 API 查询收集模型行为数据,训练替代模型。防御措施包括速率限制、异常检测和模型水印。

隐私攻击:从模型中推断或提取训练数据中的敏感信息。需要通过数据脱敏、差分隐私等技术保护。

离散对抗攻击与模型鲁棒性:对抗样本经过精心设计可导致模型异常行为。通过 GCG 或 AutoDAN 算法在输入端注入针对 Token 梯度的乱码后缀,实现安全限制突破。需要在预训练与对齐中持续进行对抗性评估。

微调与 PEFT 安全风险:LoRA、QLoRA 等参数高效微调方法在降低成本的同时引入了新的安全挑战:对齐退化(LoRA 权重可覆盖基础模型的安全约束)、低成本微调数据投毒(极低比例的恶意样本即可植入后门)、PEFT 权重易被提取窃取,以及微调数据的隐私泄露风险。组织需建立安全微调流水线,包括数据审计、安全微调、微调后验证和多适配器隔离管理。

攻击对比

spinner

图 6-20:攻击对比流程图

攻击类型
攻击时机
主要影响
检测难度

数据投毒

训练阶段

模型行为异常

极高

后门攻击

训练阶段

隐藏恶意能力

极高

模型窃取

部署阶段

知识产权损失

中等

隐私攻击

部署阶段

数据隐私泄露

中等

对抗攻击

部署阶段

安全防线失效

微调/PEFT 攻击

微调阶段

对齐退化/权重泄露

防御要点

攻击类型
关键防护措施

数据投毒

数据来源审核、异常检测、鲁棒训练

后门攻击

可信数据清洗、后门扫描、监控

模型窃取

速率限制、查询监控、推理行为水印

隐私攻击

数据脱敏、差分隐私、输出过滤

对抗攻击

对抗训练、输入困惑度检测评估

微调/PEFT 攻击

数据审计、安全微调流水线、微调后验证、适配器隔离

延伸思考

  1. 在大规模预训练时代,如何有效审核训练数据质量?

  2. 开源模型时代,如何平衡开放与安全?

  3. 对抗样本的数学本质揭示了当前大语言模型的哪些局限性?

  4. 随着 PEFT 方法的普及,如何建立微调环节的安全标准和审计机制?

与其他章节的关联

  • 训练安全基础:第 2.2 节训练安全基础为本章数据投毒和后门防御提供理论基础

  • 隐私防御技术:第 8.5 节隐私增强技术防御数据攻击,提供差分隐私等实施方案

  • 供应链防御:第 8.6 节供应链安全防御模型窃取,保护模型知识产权

下章预告

第七章将介绍智能体与 RAG 安全。随着 LLM 被赋予工具调用能力和外部知识访问能力,新的安全风险也随之出现。将深入分析智能体系统面临的信任边界扩大和漏洞放大。

最后更新于