> For the complete documentation index, see [llms.txt](https://yeasy.gitbook.io/ai_security_guide/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://yeasy.gitbook.io/ai_security_guide/di-er-bu-fen-gong-ji-pian/05_jailbreak.md).

# 第五章 越狱攻击

越狱攻击（Jailbreak）是一类专门针对 LLM 安全对齐机制的攻击技术，目标是突破模型的安全限制，诱导其生成被禁止的内容。本章将深入分析越狱攻击的原理、技术和演化趋势。

本章聚焦于越狱攻击，主要内容包括：

* **5.1 越狱攻击概述**：理解越狱攻击的定义、动机和与提示注入的区别
* **5.2 经典越狱技术剖析**：分析主流越狱方法的原理和实现
* **5.3 多模态越狱攻击**：探讨针对多模态 LLM 的越狱技术
* **5.4 越狱检测与防御实践**：探讨识别和缓解越狱风险的控制措施
* **5.5 多模态安全防御体系**：系统阐述多模态安全防御的核心原则、技术方案和落地实践
* **5.6 自动化越狱方法论完整对标**：深入剖析 GCG、TAP、M2S、AutoDAN、STAR 等主流自动化越狱框架

通过本章的学习，读者将深入理解 LLM 安全对齐的脆弱性、越狱攻击的多样化手段，以及从检测防御到自动化对抗的完整技术图谱。

> **⚠️ 道德边界**：本章自动化越狱方法（GCG、TAP、AutoDAN 等）的描述用于评估和加固模型对齐机制，不构成对生产系统发起越狱的指引。复现这些方法时应在受控环境对自有或已授权目标进行；公开发布相关结果前请遵循负责任披露流程。完整声明见 [§4 章首道德边界与负责任披露说明](/ai_security_guide/di-er-bu-fen-gong-ji-pian/04_prompt_injection.md)。

```mermaid
flowchart LR
    subgraph "越狱攻击目标"
    A["安全对齐"] --> B["越狱技术"]
    B --> C["生成被禁内容"]
    B --> D["突破行为限制"]
    B --> E["获取敏感信息"]
    end
```