# 附录 A：术语表

本附录收录 LLM 安全领域的常用术语及其解释。

## A

**Adversarial Example（对抗样本）** 经过精心设计的输入，对人类来说与正常输入无异，但会导致 AI 系统产生错误输出。

**智能体（Agent）** 具备自主决策和操作执行能力的 AI 系统，可以规划任务、调用工具、与环境交互。

**Agent-to-Agent Protocol（A2A 协议）** 智能体间的通信协议，如 Google 提出的 A2A，引入新的信任边界和攻击面。

**Alignment（对齐）** 使 AI 系统的行为与人类意图和价值观保持一致的技术和过程。

**API Key** 用于验证 API 调用者身份的密钥。

## B

**Backdoor Attack（后门攻击）** 在模型中植入隐藏触发机制，正常使用时正常工作，特定触发条件下执行恶意行为。

**Base64** 一种将二进制数据编码为文本的方式，有时被用于混淆恶意内容。

## C

**Constitutional AI** Anthropic 提出的对齐方法，使用一套“宪法”（规则集）来指导模型行为。

**Context Engineering（上下文工程）** 系统性地管理 LLM 上下文窗口中的信息组织、优先级和安全边界的工程实践。

**Context Window（上下文窗口）** LLM 一次能处理的最大 Token 数量。

## D

**DAN（Do Anything Now）** 早期著名的越狱技术，通过角色扮演让模型突破限制。

**Data Poisoning（数据投毒）** 通过在训练数据中注入恶意样本来影响模型行为的攻击。

**Deceptive Alignment（欺骗性对齐）** 模型在评估/测试期间表现出对齐行为，但在部署后偏离对齐目标的假设性风险。

**Defense in Depth（纵深防御）** 通过多层独立安全措施确保整体安全的安全策略。

**Differential Privacy（差分隐私）** 一种数学框架，用于在保护个人隐私的同时进行数据分析。

**DPO（Direct Preference Optimization）** 一种直接优化模型偏好的对齐方法。

## E

**Embedding（嵌入）** 将文本等数据转换为数值向量表示的方法。

**EU AI Act（欧盟人工智能法案）** 欧盟于 2024 年通过并分阶段生效的 AI 监管法规，对高风险 AI 与通用 AI（GPAI）提出分层合规要求。

## F

**Fine-tuning（微调）** 在预训练模型基础上使用特定数据进行额外训练。

**Function Calling（函数调用）** LLM 调用外部工具和 API 的能力。

## G

**GCG（Greedy Coordinate Gradient）** 一种通过梯度优化生成对抗性后缀的攻击方法。

**Guardrails（护栏）** 为 LLM 设置的安全边界和限制。

**GPAI（General-Purpose AI，通用 AI）** 具备广泛适用能力、可被下游系统复用的基础 AI 模型或系统类别，EU AI Act 对其设置了专门义务。

## H

**Hallucination（幻觉）** 模型生成看似合理但实际不正确或虚构的内容。

## I

**Indirect Prompt Injection（间接提示注入）** 恶意指令隐藏在外部数据源中，当 LLM 处理这些数据时被触发。

## J

**Jailbreak（越狱）** 绕过 LLM 安全对齐机制，使其生成被禁止内容的攻击技术。

## L

**LLM（Large Language Model，大语言模型）** 基于大规模数据训练的语言模型，具备强大的自然语言理解和生成能力。

**LoRA（Low-Rank Adaptation）** 一种高效的模型微调方法。

## M

**Membership Inference（成员推理）** 判断特定数据点是否被用于训练模型的攻击技术。

**Multimodal LLM（多模态大语言模型）** 能够同时处理文本、图像、音频等多种输入模态的大语言模型，能力更广但也引入了跨模态注入等新的安全威胁面。

**MCP（Model Context Protocol）** Anthropic 提出的标准化协议，用于连接 LLM 与外部数据源和工具。

**MoE（Mixture of Experts）** 一种模型架构，使用多个专家模块处理不同类型的输入。

## N

**NER（Named Entity Recognition，命名实体识别）** 识别文本中的人名、地名等特定实体的技术。

**NIST AI 600-1（GenAI Profile）** NIST 针对生成式 AI 场景发布的 AI RMF 配置文件，用于将治理、映射、测量、管理原则具体化到 GenAI 风险控制。

## O

**OWASP LLM Top 10** OWASP 发布的 LLM 应用十大安全风险清单；条目会迭代更新，实践中应以官方最新版本为准。

## P

**PII（Personally Identifiable Information，个人身份信息）** 可用于识别个人身份的信息，如姓名、身份证号等。

**Prompt Injection（提示注入）** 通过恶意输入改变 LLM 行为的攻击技术。

**Pre-training（预训练）** 在大规模数据上训练模型的初始阶段。

## Q

**Quantization（量化）** 将模型参数从高精度（如 FP32）转换为低精度（如 INT8/INT4）的优化技术，用于减少模型体积和加速推理，但可能改变模型的安全行为特性。

## R

**RAG（Retrieval-Augmented Generation，检索增强生成）** 结合外部知识检索来增强 LLM 生成能力的技术。

**Red Team（红队）** 模拟攻击者进行安全测试的专业团队。

**Reasoning Model（推理模型）** 具备链式推理能力的模型（如 OpenAI o 系列、DeepSeek-R1），通过显式推理步骤提升复杂问题求解能力，但推理过程也可能被攻击者利用。

**RLHF（Reinforcement Learning from Human Feedback）** 基于人类反馈的强化学习，用于对齐 LLM 行为。

## S

**SBOM（Software Bill of Materials，软件物料清单）** 记录软件组件构成的清单。

**SDL（Security Development Lifecycle，安全开发生命周期）** 将安全融入软件开发全过程的方法论。

**SFT（Supervised Fine-Tuning，监督微调）** 使用标注数据对模型进行微调的方法。

**SIEM（Security Information and Event Management）** 安全信息和事件管理系统。

**Supply Chain Risk（供应链风险）** 在 AI 模型的开发、训练、部署全生命周期中，由第三方依赖、数据源、预训练权重等引入的安全威胁。

**System Prompt（系统提示）** 定义 LLM 角色和行为规则的配置提示。

## T

**Token（令牌）** LLM 处理文本的基本单位，通常是词或子词。

**Transformer** 一种神经网络架构，是现代 LLM 的基础。

## V

**Vector Database（向量数据库）** 专门存储和检索向量数据的数据库，常用于 RAG 系统。

## W

**Watermark（水印）** 嵌入内容中可追踪的标记，用于证明来源或所有权。

## Z

**Zero Trust（零信任）** 不预设信任任何组件的安全架构原则。


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://yeasy.gitbook.io/ai_security_guide/fu-lu/12_appendix/a_glossary.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.