# 第五章 越狱攻击

越狱攻击（Jailbreak）是一类专门针对 LLM 安全对齐机制的攻击技术，目标是突破模型的安全限制，诱导其生成被禁止的内容。本章将深入分析越狱攻击的原理、技术和演化趋势。

本章聚焦于越狱攻击，主要内容包括：

* **5.1 越狱攻击概述**：理解越狱攻击的定义、动机和与提示注入的区别
* **5.2 经典越狱技术剖析**：分析主流越狱方法的原理和实现
* **5.3 多模态越狱攻击**：探讨针对多模态 LLM 的越狱技术
* **5.4 越狱检测与防御实践**：探讨识别和缓解越狱风险的控制措施
* **5.5 多模态安全防御体系**：系统阐述多模态安全防御的核心原则、技术方案和落地实践
* **5.6 自动化越狱方法论完整对标**：深入剖析 GCG、TAP、M2S、AutoDAN、STAR 等主流自动化越狱框架

通过本章的学习，读者将深入理解 LLM 安全对齐的脆弱性、越狱攻击的多样化手段，以及从检测防御到自动化对抗的完整技术图谱。

> **⚠️ 道德边界**：本章自动化越狱方法（GCG、TAP、AutoDAN 等）的描述用于评估和加固模型对齐机制，不构成对生产系统发起越狱的指引。复现这些方法时应在受控环境对自有或已授权目标进行；公开发布相关结果前请遵循负责任披露流程。完整声明见 [§4 章首道德边界与负责任披露说明](/ai_security_guide/di-er-bu-fen-gong-ji-pian/04_prompt_injection.md)。

```mermaid
flowchart LR
    subgraph "越狱攻击目标"
    A["安全对齐"] --> B["越狱技术"]
    B --> C["生成被禁内容"]
    B --> D["突破行为限制"]
    B --> E["获取敏感信息"]
    end
```


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://yeasy.gitbook.io/ai_security_guide/di-er-bu-fen-gong-ji-pian/05_jailbreak.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
