附录 A:术语表
本附录收录 LLM 安全领域的常用术语及其解释。
A
Adversarial Example(对抗样本) 经过精心设计的输入,对人类来说与正常输入无异,但会导致 AI 系统产生错误输出。
智能体(Agent) 具备自主决策和操作执行能力的 AI 系统,可以规划任务、调用工具、与环境交互。
Agent-to-Agent Protocol(A2A 协议) 智能体间的通信协议,如 Google 提出的 A2A,引入新的信任边界和攻击面。
Alignment(对齐) 使 AI 系统的行为与人类意图和价值观保持一致的技术和过程。
API Key 用于验证 API 调用者身份的密钥。
B
Backdoor Attack(后门攻击) 在模型中植入隐藏触发机制,正常使用时正常工作,特定触发条件下执行恶意行为。
Base64 一种将二进制数据编码为文本的方式,有时被用于混淆恶意内容。
C
Constitutional AI Anthropic 提出的对齐方法,使用一套“宪法”(规则集)来指导模型行为。
Context Engineering(上下文工程) 系统性地管理 LLM 上下文窗口中的信息组织、优先级和安全边界的工程实践。
Context Window(上下文窗口) LLM 一次能处理的最大 Token 数量。
D
DAN(Do Anything Now) 早期著名的越狱技术,通过角色扮演让模型突破限制。
Data Poisoning(数据投毒) 通过在训练数据中注入恶意样本来影响模型行为的攻击。
Deceptive Alignment(欺骗性对齐) 模型在评估/测试期间表现出对齐行为,但在部署后偏离对齐目标的假设性风险。
Defense in Depth(纵深防御) 通过多层独立安全措施确保整体安全的安全策略。
Differential Privacy(差分隐私) 一种数学框架,用于在保护个人隐私的同时进行数据分析。
DPO(Direct Preference Optimization) 一种直接优化模型偏好的对齐方法。
E
Embedding(嵌入) 将文本等数据转换为数值向量表示的方法。
EU AI Act(欧盟人工智能法案) 欧盟于 2024 年通过并分阶段生效的 AI 监管法规,对高风险 AI 与通用 AI(GPAI)提出分层合规要求。
F
Fine-tuning(微调) 在预训练模型基础上使用特定数据进行额外训练。
Function Calling(函数调用) LLM 调用外部工具和 API 的能力。
G
GCG(Greedy Coordinate Gradient) 一种通过梯度优化生成对抗性后缀的攻击方法。
Guardrails(护栏) 为 LLM 设置的安全边界和限制。
GPAI(General-Purpose AI,通用 AI) 具备广泛适用能力、可被下游系统复用的基础 AI 模型或系统类别,EU AI Act 对其设置了专门义务。
H
Hallucination(幻觉) 模型生成看似合理但实际不正确或虚构的内容。
I
Indirect Prompt Injection(间接提示注入) 恶意指令隐藏在外部数据源中,当 LLM 处理这些数据时被触发。
J
Jailbreak(越狱) 绕过 LLM 安全对齐机制,使其生成被禁止内容的攻击技术。
L
LLM(Large Language Model,大语言模型) 基于大规模数据训练的语言模型,具备强大的自然语言理解和生成能力。
LoRA(Low-Rank Adaptation) 一种高效的模型微调方法。
M
Membership Inference(成员推理) 判断特定数据点是否被用于训练模型的攻击技术。
MCP(Model Context Protocol) Anthropic 提出的标准化协议,用于连接 LLM 与外部数据源和工具。
MoE(Mixture of Experts) 一种模型架构,使用多个专家模块处理不同类型的输入。
N
NER(Named Entity Recognition,命名实体识别) 识别文本中的人名、地名等特定实体的技术。
NIST AI 600-1(GenAI Profile) NIST 针对生成式 AI 场景发布的 AI RMF 配置文件,用于将治理、映射、测量、管理原则具体化到 GenAI 风险控制。
O
OWASP LLM Top 10 OWASP 发布的 LLM 应用十大安全风险清单;条目会迭代更新,实践中应以官方最新版本为准。
P
PII(Personally Identifiable Information,个人身份信息) 可用于识别个人身份的信息,如姓名、身份证号等。
Prompt Injection(提示注入) 通过恶意输入改变 LLM 行为的攻击技术。
Pre-training(预训练) 在大规模数据上训练模型的初始阶段。
R
RAG(Retrieval-Augmented Generation,检索增强生成) 结合外部知识检索来增强 LLM 生成能力的技术。
Red Team(红队) 模拟攻击者进行安全测试的专业团队。
Reasoning Model(推理模型) 具备链式推理能力的模型(如 OpenAI o1/o3、DeepSeek-R1),通过显式推理步骤提升复杂问题求解能力,但推理过程也可能被攻击者利用。
RLHF(Reinforcement Learning from Human Feedback) 基于人类反馈的强化学习,用于对齐 LLM 行为。
S
SBOM(Software Bill of Materials,软件物料清单) 记录软件组件构成的清单。
SDL(Security Development Lifecycle,安全开发生命周期) 将安全融入软件开发全过程的方法论。
SFT(Supervised Fine-Tuning,监督微调) 使用标注数据对模型进行微调的方法。
SIEM(Security Information and Event Management) 安全信息和事件管理系统。
System Prompt(系统提示) 定义 LLM 角色和行为规则的配置提示。
T
Token(令牌) LLM 处理文本的基本单位,通常是词或子词。
Transformer 一种神经网络架构,是现代 LLM 的基础。
V
Vector Database(向量数据库) 专门存储和检索向量数据的数据库,常用于 RAG 系统。
W
Watermark(水印) 嵌入内容中可追踪的标记,用于证明来源或所有权。
Z
Zero Trust(零信任) 不预设信任任何组件的安全架构原则。
最后更新于
