简介
大模型安全权威指南
从原理到实践,全面掌握大语言模型的安全攻防之道

关于本书
随着 ChatGPT、Claude、Gemini 等大语言模型(Large Language Model,LLM)的广泛普及,人工智能正以前所未有的速度渗透到社会的各个角落。然而,伴随着这场技术革命而来的,是日益严峻的安全挑战。提示注入攻击可以绕过模型的安全护栏,越狱技术能够诱导模型生成有害内容,数据投毒可能在训练阶段埋下隐患,而敏感信息泄露则威胁着用户隐私与企业机密。
本书系统性地梳理了大语言模型安全领域的核心知识,从基础概念到前沿攻防技术,从理论原理到工程实践,旨在帮助读者建立完整的 LLM 安全知识体系。无论是希望了解 LLM 安全风险的技术管理者,还是致力于构建安全 LLM 应用的开发者,亦或是专注于 AI 安全研究的学者,都能从本书中获得有价值的知识与启发。
目标读者
AI/ML 工程师与开发者:希望在开发 LLM 应用时融入安全设计,避免常见漏洞
安全工程师与渗透测试人员:需要掌握 LLM 特有的攻击面与防御手段
技术管理者与架构师:负责制定 AI 安全策略与合规方案
AI 安全研究人员:关注学术前沿,探索新型攻击与防御方法
对 AI 安全感兴趣的技术爱好者:希望系统性了解 LLM 安全全貌
你将学到什么
阅读本书后,你将能够:
理解 LLM 安全的基本概念
掌握大语言模型的工作原理与安全边界
了解 LLM 安全与传统软件安全的异同
熟悉 OWASP LLM Top 10 等权威安全框架
识别与分析 LLM 攻击手段
深入理解提示注入、越狱、数据投毒等核心攻击技术
掌握针对智能体系统、RAG 架构的新型攻击向量
学会使用红队测试方法评估模型安全性
构建安全的 LLM 应用
设计具备纵深防御能力的安全架构
实施输入验证、输出过滤、权限控制等防护措施
部署监控告警与应急响应机制
应对合规与治理挑战
了解全球 AI 监管格局,包括 EU AI Act、中国《生成式人工智能服务管理暂行办法》等核心法规
建立完善的 AI 治理框架与安全运营体系
平衡安全性、可用性与创新性
本书特色
系统全面:覆盖 LLM 安全的全生命周期,从训练到部署,从攻击到防御
理论与实践结合:既有深入的技术原理剖析,也有可落地的工程实践指南
紧跟前沿:覆盖最新的关键安全研究成果与行业实践,并提供持续更新路径
案例驱动:通过真实案例帮助读者理解抽象概念
阅读建议
本书采用循序渐进的结构,建议按顺序阅读:
第一部分(第 1-3 章) 建立基础认知,适合所有读者
第二部分(第 4-7 章) 深入攻击技术,适合需要了解威胁的读者
第三部分(第 8-10 章) 聚焦防御实践,适合需要构建安全系统的读者
第四部分(第 11 章与附录) 治理展望与资源汇总,适合持续学习者
对于时间有限的读者,可优先阅读第 1 章、第 4 章、第 8 章和第 11 章,快速建立整体认知。
五分钟快速上手
体验第一个提示注入攻击,快速理解 LLM 安全威胁,只需这 3 个步骤:
理解威胁模型(ch1-2):了解 LLM 面临的主要安全风险分类,掌握攻击面的全貌(2分钟)
动手尝试注入攻击(ch4):在文本框中输入注入指令,亲眼看到模型如何被“欺骗”突破安全护栏(2分钟)
学习防御技巧(ch4):掌握输入验证、输出过滤等基础防御方法,了解如何保护你的应用(1分钟)
完成这 3 步,你将直观理解为什么 LLM 安全如此重要!
学习路线图
学习角色对比
安全工程师
第1-6→9章
攻击技术详解、红队测试方法、防御实现、安全架构
能够进行全面的 LLM 应用安全评估和加固
AI 开发者
第1-4→7-8章
常见威胁、安全编码实践、工具使用、安全集成
在开发过程中内置安全防线
安全管理者
第1-2→9-11章
风险评估框架、治理体系、合规要求、应急响应
制定企业 LLM 安全策略
研究人员
第1-3→5-6→10章
攻防原理、新型漏洞、评估方法、学术前沿
开展前沿安全研究
作者说明
本书创作于近期,并已完成一轮法规、框架与工具清单校准。由于该领域发展极为迅速,书中部分内容可能随着时间推移而需要更新。建议读者结合附录中的资源列表,持续关注该领域的最新动态。
推荐阅读
本书是 AI 技术丛书的一部分。以下书籍与本书形成互补:
AI 零基础入门,适合缺乏 AI 背景的读者
理解提示词注入攻击的前置知识
深入理解 RAG 安全的上下文工程基础
理解智能体系统的架构,为智能体安全提供背景
了解 Claude 的安全设计理念(宪法式 AI)与工具安全
智能体框架的安全基线与审计流程实践
深入理解大语言模型底层逻辑与架构
快速开始
在线阅读
👉 推荐:GitBook 在线版
下载离线版本
本书提供 PDF 版本供离线阅读,可前往 GitHub Releases 页面下载最新版本。
如需获取默认分支自动更新的预览版,可直接下载 ai_security_guide.pdf。该文件会随主线更新覆盖,不代表正式发布版本。
本地阅读
先安装 mdPress:
启动后访问 本地阅读地址 即可阅读。
参与贡献
欢迎贡献!您可以通过以下方式参与:
许可证
本书采用 CC BY-NC-SA 4.0 许可证。
您可以自由分享和演绎,但需署名、非商业使用、相同方式共享。
最后更新于
