# 简介

## 大模型安全权威指南

[![License: CC BY-NC-SA 4.0](https://img.shields.io/badge/License-CC%20BY--NC--SA%204.0-lightgrey.svg)](https://creativecommons.org/licenses/by-nc-sa/4.0/) [![GitHub stars](https://img.shields.io/github/stars/yeasy/ai_security_guide?style=social)](https://github.com/yeasy/ai_security_guide) [![Release](https://img.shields.io/github/release/yeasy/ai_security_guide.svg)](https://github.com/yeasy/ai_security_guide/releases) [![Online Reading](https://img.shields.io/badge/%E5%9C%A8%E7%BA%BF%E9%98%85%E8%AF%BB-GitBook-brightgreen)](https://yeasy.gitbook.io/ai_security_guide) [![PDF](https://img.shields.io/badge/PDF-%E4%B8%8B%E8%BD%BD-orange)](https://github.com/yeasy/ai_security_guide/releases/latest)

> 从原理到实践，全面掌握大语言模型的安全攻防之道

![AI Security Guide Cover](https://2941790790-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fdb3p2QzQK57VkfF79Zgc%2Fuploads%2Fgit-blob-51970897caad8d0ae5bf010cd724f4d726c1cc35%2Fcover.jpg?alt=media)

***

### 关于本书

随着 ChatGPT、Claude、Gemini 等大语言模型（Large Language Model，LLM）的广泛普及，人工智能正以前所未有的速度渗透到社会的各个角落。然而，伴随着这场技术革命而来的，是日益严峻的安全挑战。提示注入攻击可以绕过模型的安全护栏，越狱技术能够诱导模型生成有害内容，数据投毒可能在训练阶段埋下隐患，而敏感信息泄露则威胁着用户隐私与企业机密。

本书系统性地梳理了大语言模型安全领域的核心知识，从基础概念到前沿攻防技术，从理论原理到工程实践，旨在帮助读者建立完整的 LLM 安全知识体系。无论是希望了解 LLM 安全风险的技术管理者，还是致力于构建安全 LLM 应用的开发者，亦或是专注于 AI 安全研究的学者，都能从本书中获得有价值的知识与启发。

***

### 目标读者

* **AI/ML 工程师与开发者**：希望在开发 LLM 应用时融入安全设计，避免常见漏洞
* **安全工程师与渗透测试人员**：需要掌握 LLM 特有的攻击面与防御手段
* **技术管理者与架构师**：负责制定 AI 安全策略与合规方案
* **AI 安全研究人员**：关注学术前沿，探索新型攻击与防御方法
* **对 AI 安全感兴趣的技术爱好者**：希望系统性了解 LLM 安全全貌

***

### 你将学到什么

阅读本书后，你将能够：

1. **理解 LLM 安全的基本概念**

* 掌握大语言模型的工作原理与安全边界
* 了解 LLM 安全与传统软件安全的异同
* 熟悉 OWASP LLM Top 10 等权威安全框架

2. **识别与分析 LLM 攻击手段**

* 深入理解提示注入、越狱、数据投毒等核心攻击技术
* 掌握针对智能体系统、RAG 架构的新型攻击向量
* 学会使用红队测试方法评估模型安全性

3. **构建安全的 LLM 应用**

* 设计具备纵深防御能力的安全架构
* 实施输入验证、输出过滤、权限控制等防护措施
* 部署监控告警与应急响应机制

4. **应对合规与治理挑战**

* 了解全球 AI 监管格局，包括 EU AI Act、中国《生成式人工智能服务管理暂行办法》等核心法规
* 建立完善的 AI 治理框架与安全运营体系
* 平衡安全性、可用性与创新性

***

### 本书特色

* **系统全面**：覆盖 LLM 安全的全生命周期，从训练到部署，从攻击到防御
* **理论与实践结合**：既有深入的技术原理剖析，也有可落地的工程实践指南
* **紧跟前沿**：覆盖最新的关键安全研究成果与行业实践，并提供持续更新路径
* **案例驱动**：通过真实案例帮助读者理解抽象概念

***

### 阅读建议

本书采用循序渐进的结构，建议按顺序阅读：

* **第一部分（第 1-3 章）** 建立基础认知，适合所有读者
* **第二部分（第 4-7 章）** 深入攻击技术，适合需要了解威胁的读者
* **第三部分（第 8-10 章）** 聚焦防御实践，适合需要构建安全系统的读者
* **第四部分（第 11 章与附录）** 治理展望与资源汇总，适合持续学习者

对于时间有限的读者，可优先阅读第 1 章、第 4 章、第 8 章和第 11 章，快速建立整体认知。

***

### 五分钟快速上手

体验第一个提示注入攻击，快速理解 LLM 安全威胁，只需这 3 个步骤：

1. **理解威胁模型（ch1-2）**：了解 LLM 面临的主要安全风险分类，掌握攻击面的全貌（2分钟）
2. **动手尝试注入攻击（ch4）**：在文本框中输入注入指令，亲眼看到模型如何被“欺骗”突破安全护栏（2分钟）
3. **学习防御技巧（ch4）**：掌握输入验证、输出过滤等基础防御方法，了解如何保护你的应用（1分钟）

完成这 3 步，你将直观理解为什么 LLM 安全如此重要！

### 学习路线图

{% @mermaid/diagram content="graph LR
A\["<b>安全基础区</b><br/>第1-2章<br/>原理与威胁模型"] -->|掌握攻防| B\["<b>安全工程师</b><br/>第1-6,9章<br/>攻击技术与防御"]
A -->|构建应用| C\["<b>AI 开发者</b><br/>第1-4,7-8章<br/>威胁识别与安全编码"]
A -->|管理策略| D\["<b>安全管理者</b><br/>第1-2,9-11章<br/>治理框架与合规"]
A -->|深入研究| E\["<b>研究人员</b><br/>第1-3,5-6,10章<br/>前沿攻防与评估"]
B -->|应用防御| C
C -->|组织治理| D
D -->|学术发现| E

```
style A fill:#ffccbc
style B fill:#d84315
style C fill:#ff7043
style D fill:#ffab91
style E fill:#ffccbc" %}
```

#### 学习角色对比

| 角色         | 推荐章节         | 学习重点                    | 预期成果                  |
| ---------- | ------------ | ----------------------- | --------------------- |
| **安全工程师**  | 第1-6→9章      | 攻击技术详解、红队测试方法、防御实现、安全架构 | 能够进行全面的 LLM 应用安全评估和加固 |
| **AI 开发者** | 第1-4→7-8章    | 常见威胁、安全编码实践、工具使用、安全集成   | 在开发过程中内置安全防线          |
| **安全管理者**  | 第1-2→9-11章   | 风险评估框架、治理体系、合规要求、应急响应   | 制定企业 LLM 安全策略         |
| **研究人员**   | 第1-3→5-6→10章 | 攻防原理、新型漏洞、评估方法、学术前沿     | 开展前沿安全研究              |

***

### 作者说明

本书创作于近期，并已完成一轮法规、框架与工具清单校准。由于该领域发展极为迅速，书中部分内容可能随着时间推移而需要更新。建议读者结合附录中的资源列表，持续关注该领域的最新动态。

***

### 推荐阅读

本书是 AI 技术丛书的一部分。以下书籍与本书形成互补：

| 书名                                                                       | 与本书的关系                         |
| ------------------------------------------------------------------------ | ------------------------------ |
| [《零基础学 AI》](https://yeasy.gitbook.io/ai_beginner_guide)                  | AI 零基础入门，适合缺乏 AI 背景的读者         |
| [《大模型提示词工程指南》](https://yeasy.gitbook.io/prompt_engineering_guide)        | 理解提示词注入攻击的前置知识                 |
| [《大模型上下文工程权威指南》](https://yeasy.gitbook.io/context_engineering_guide)     | 深入理解 RAG 安全的上下文工程基础            |
| [《智能体 AI 权威指南》](https://yeasy.gitbook.io/agentic_ai_guide)               | 理解智能体系统的架构，为智能体安全提供背景          |
| [《Claude 技术指南》](https://yeasy.gitbook.io/claude_guide)                   | 了解 Claude 的安全设计理念（宪法式 AI）与工具安全 |
| [《OpenClaw 从入门到精通》](https://yeasy.gitbook.io/openclaw_guide)             | 智能体框架的安全基线与审计流程实践              |
| [《大模型原理与架构》](https://yeasy.gitbook.io/llm_internals)                     | 深入理解大语言模型底层逻辑与架构               |
| [《智能体 Harness 工程指南》](https://yeasy.gitbook.io/harness_engineering_guide) | 智能体 Harness 层的安全体系设计与沙箱隔离实践    |

***

### 快速开始

#### 在线阅读

👉 **推荐**：[GitBook 在线版](https://yeasy.gitbook.io/ai_security_guide/)

### 下载离线版本

本书提供 PDF 版本供离线阅读，可前往 [GitHub Releases](https://github.com/yeasy/ai_security_guide/releases/latest) 页面下载最新版本。

如需获取默认分支自动更新的预览版，可直接下载 [ai\_security\_guide.pdf](https://github.com/yeasy/ai_security_guide/releases/download/preview-pdf/ai_security_guide.pdf)。该文件会随主线更新覆盖，不代表正式发布版本。

#### 本地阅读

先安装 [mdPress](https://github.com/yeasy/mdpress)：

```bash
brew tap yeasy/tap && brew install mdpress
mdpress serve
```

启动后访问 [本地阅读地址](http://localhost:9000) 即可阅读。

***

### 参与贡献

欢迎贡献！您可以通过以下方式参与：

* 🐛 [提交 Issue](https://github.com/yeasy/ai_security_guide/issues) — 报告错误或提出建议
* 📝 [提交 PR](https://github.com/yeasy/ai_security_guide/pulls) — 改进内容或修复 typo
* ⭐ Star 本项目 — 帮助更多人发现这本书

***

### 许可证

本书采用 [CC BY-NC-SA 4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/) 许可证。

您可以自由分享和演绎，但需署名、非商业使用、相同方式共享。
