本章小结
本章小结
本章探讨了针对训练数据和模型本身的攻击,这些攻击发生在更底层,可能产生持久和深远的影响。
核心要点回顾
训练数据投毒:通过在训练数据中注入恶意样本影响模型行为。攻击可通过公开数据源或内部人员进行。投毒的影响持久且难以检测和修复。
后门攻击:在模型中植入隐藏的触发机制,正常使用时正常工作,遇到特定触发器时产生恶意行为。极难发现。
模型窃取:通过大量 API 查询收集模型行为数据,训练替代模型。防御措施包括速率限制、异常检测和模型水印。
隐私攻击:从模型中推断或提取训练数据中的敏感信息。需要通过数据脱敏、差分隐私等技术保护。
离散对抗攻击与模型鲁棒性:对抗样本经过精心设计可导致模型异常行为。通过 GCG 或 AutoDAN 算法在输入端注入针对 Token 梯度的乱码后缀,实现安全限制突破。需要在预训练与对齐中持续进行对抗性评估。
微调与 PEFT 安全风险:LoRA、QLoRA 等参数高效微调方法在降低成本的同时引入了新的安全挑战:对齐退化(LoRA 权重可覆盖基础模型的安全约束)、低成本微调数据投毒(极低比例的恶意样本即可植入后门)、PEFT 权重易被提取窃取,以及微调数据的隐私泄露风险。组织需建立安全微调流水线,包括数据审计、安全微调、微调后验证和多适配器隔离管理。
攻击对比
图 6-20:攻击对比流程图
数据投毒
训练阶段
模型行为异常
极高
后门攻击
训练阶段
隐藏恶意能力
极高
模型窃取
部署阶段
知识产权损失
中等
隐私攻击
部署阶段
数据隐私泄露
中等
对抗攻击
部署阶段
安全防线失效
高
微调/PEFT 攻击
微调阶段
对齐退化/权重泄露
高
防御要点
数据投毒
数据来源审核、异常检测、鲁棒训练
后门攻击
可信数据清洗、后门扫描、监控
模型窃取
速率限制、查询监控、推理行为水印
隐私攻击
数据脱敏、差分隐私、输出过滤
对抗攻击
对抗训练、输入困惑度检测评估
微调/PEFT 攻击
数据审计、安全微调流水线、微调后验证、适配器隔离
延伸思考
在大规模预训练时代,如何有效审核训练数据质量?
开源模型时代,如何平衡开放与安全?
对抗样本的数学本质揭示了当前大语言模型的哪些局限性?
随着 PEFT 方法的普及,如何建立微调环节的安全标准和审计机制?
与其他章节的关联
训练安全基础:第 2.2 节训练安全基础为本章数据投毒和后门防御提供理论基础
隐私防御技术:第 8.5 节隐私增强技术防御数据攻击,提供差分隐私等实施方案
供应链防御:第 8.6 节供应链安全防御模型窃取,保护模型知识产权
下章预告
第七章将介绍智能体与 RAG 安全。随着 LLM 被赋予工具调用能力和外部知识访问能力,新的安全风险也随之出现。将深入分析智能体系统面临的信任边界扩大和漏洞放大。
最后更新于
