3.1 OWASP 大语言模型十大风险解析
开放式 Web 应用安全项目(OWASP)发布的 LLM Top 10 是业界常用的 LLM 应用安全风险清单之一。
版本说明:本节基于 OWASP Top 10 for LLM Applications 2025 进行解读;后续版本请以 OWASP 官方页面为准(见附录 C-35)。
3.1.1 OWASP 与 LLM Top 10 背景
OWASP 是非营利安全社区组织,长期维护 Web 安全、API 安全与 AI 安全相关实践。 LLM Top 10 的价值在于:把“模型风险”转译成“应用系统风险”,便于工程团队落地治理。
2025 版风险条目(官方页面)
LLM01
提示注入
Prompt Injection
LLM02
敏感信息泄露
Sensitive Information Disclosure
LLM03
供应链风险
Supply Chain
LLM04
数据与模型投毒
Data and Model Poisoning
LLM05
输出处理不当
Improper Output Handling
LLM06
过度自主权
Excessive Agency
LLM07
系统提示泄露
System Prompt Leakage
LLM08
向量与嵌入弱点
Vector and Embedding Weaknesses
LLM09
错误信息
Misinformation
LLM10
无边界消耗
Unbounded Consumption
与早期版本相比,部分条目在命名上更强调“应用层可控风险”,读者应关注风险内核,不要只记忆编号。
3.1.2 LLM01:提示注入
风险描述:攻击者通过恶意指令影响模型执行路径,绕过系统规则。 典型场景:直接注入、间接注入、工具返回注入。 防护重点
指令层与数据层分离
外部内容来源标记与降权
工具调用前置策略校验
核心控制与审计要求
核心控制:部署独立的安全网关(分类器)与严格的输入输出分离架构。
审计证据:提示注入回归测试报告(ASR < 2%)、带
confidence字段的网关拦截日志。
3.1.3 LLM02:敏感信息泄露
风险描述:模型输出或上下文处理过程泄露隐私、密钥、系统细节或跨租户数据。 泄露路径:训练记忆泄露、上下文回显、日志误采集、系统提示泄露。 防护重点
输入输出双向脱敏
多租户隔离与最小留存
敏感字段检测与审计告警
核心控制与审计要求
核心控制:部署数据防泄漏(DLP)探针扫描双向流量,关键接口禁止返回裸数据。
审计证据:静态代码扫描(无硬编码凭证)报告、DLP 检测规则库清单及高敏脱敏(Redaction)拦截日志。
3.1.4 LLM03:供应链风险
风险描述:模型、数据集、依赖库、插件、镜像、推理服务任一环节被污染都可影响系统。 防护重点
来源可追溯(签名/校验)
依赖锁定与漏洞扫描
SBOM 与变更审计
核心控制与审计要求
核心控制:在 CI/CD 流水线强制阻断高危漏洞依赖,仅从受信任私有仓拉取模型组件。
审计证据:带有供应链漏洞(CVE)扫描记录的 SBOM 文件、镜像签名校验记录。
3.1.5 LLM04:数据与模型投毒
风险描述:攻击者污染训练/微调/检索数据或模型工件,诱导系统长期偏离预期行为。 防护重点
数据摄入白名单与分级审核
异常样本检测与回滚机制
模型版本基线与行为回归测试
核心控制与审计要求
核心控制:对训练数据及 RAG 知识库入库实施严格清洗、隔离和溯源机制。
审计证据:数据清洗规则文档、包含来源(Provenance)标签的数据集索引快照。
3.1.6 LLM05:输出处理不当
风险描述:将 LLM 输出直接用于 SQL、Shell、模板渲染或 API 参数,触发传统安全漏洞。 防护重点
输出永不直连执行面
参数化调用与 schema 校验
高危操作二次确认
核心控制与审计要求
核心控制:在 LLM 输出与系统执行组件之间构建强制数据断层(参数化校验),高危指令实施 HITL 拦截。
审计证据:编排层沙箱执行日志、越界参数被拒(Reject)告警记录。
3.1.7 LLM06:过度自主权
风险描述:智能体被授予过多权限后,可能执行越权调用、批量外发或破坏性操作。 防护重点
最小权限与时效令牌
人在回路(HITL)审批
高风险工具硬性阻断策略
核心控制与审计要求
核心控制:实行 RBAC(基于角色访问控制),所有破坏性/外流性动作要求多因素确权。
审计证据:工具最小权限配置清单、用户审批(Approve/Deny)流程的监控轨迹。
3.1.8 LLM07:系统提示泄露
风险描述:攻击者诱导模型泄露系统提示、策略约束或内部流程信息。 防护重点
系统提示中不存放密钥
对“提示提取类”请求做专门过滤
用测试集持续回归“抗提取能力”
核心控制与审计要求
核心控制:把所有敏感变量移出系统提示(设为环境变量),部署针对“提取类”意图的专门识别隔离机制。
审计证据:系统提示变更管理工单、红队系统提示提取防范专项测试报告。
3.1.9 LLM08:向量与嵌入弱点
风险描述:RAG 场景下,嵌入、索引、检索与重排链路被操纵,导致错误或恶意上下文进入生成环节。 防护重点
向量库访问控制与加密
检索结果可信度评估
文档摄入阶段注入扫描
核心控制与审计要求
核心控制:给向量数据库加持身份验证及行级(Row-level)访问控制,确保用户仅能检索自己有权查阅的语料块。
审计证据:向量数据库访问隔离策略文档、RAG 命中分数的监控分布告警指标。
3.1.10 LLM09:错误信息
风险描述:模型输出错误但看似可信的信息,在高敏场景可能造成现实损害。 防护重点
引用来源与事实核验
高风险域强制人工复核
不确定性提示与拒答策略
核心控制与审计要求
核心控制:通过检索增强(RAG)强制模型附加出处来源链接,降低置信度阈值主动触发拒答。
审计证据:生成事实性(Factual Correctness)及幻觉率的评测基线打分报告。
3.1.11 LLM10:无边界消耗
风险描述:攻击者通过高并发、长上下文和高复杂度请求消耗预算与算力。 防护重点
速率限制与并发配额
Token/步骤/工具调用上限
预算告警与自动熔断
核心控制与审计要求
核心控制:在 API 网关实施并发与基于 Token 使用量的细粒度用量熔断机制。
审计证据:API 访问限流(Rate Limit)配置清单、触发阈值(Budget Limit)带来的自动下线告警工单。
3.1.12 OWASP 与 NIST 框架的映射
OWASP LLM Top 10 侧重于应用层的具体风险项,而 NIST AI RMF 提供了更宽泛的管理框架。两个框架可以互补使用,以下为主要映射关系:
LLM01 提示注入
恶意指令通过输入影响模型行为
安全性(Secure)、韧性(Resilient)
LLM02 敏感信息泄露
输出或上下文暴露隐私和密钥
隐私增强、安全性
LLM03 供应链风险
模型/依赖/数据被污染
安全性(保护资产)、可问责性
LLM04 数据与模型投毒
训练数据被污染或植入后门
安全性、有效性与可靠性
LLM05 输出处理不当
LLM 输出直接用于代码/命令执行
安全性、有效性与可靠性
LLM06 过度自主权
智能体权限过大导致越权操作
安全性、可问责性
LLM07 系统提示泄露
攻击者诱导泄露系统提示和内部信息
透明性(受控范围内)、安全性
LLM08 向量与嵌入弱点
RAG 链路被操纵注入错误上下文
安全性、有效性与可靠性
LLM09 错误信息
模型输出虚假但可信的信息
有效性与可靠性、可解释性
LLM10 无边界消耗
高并发/长上下文请求耗尽资源
安全性(DoS 防护)
使用建议
在 战略层,使用 NIST AI RMF 的八项特征指导全面的安全管理体系建设
在 战术层,参考 OWASP LLM Top 10 的具体风险项和控制措施进行日常防御
在 映射层,通过上表关联两个框架,确保 OWASP 的控制项与 NIST 特征对齐
在 审计层,制定既涵盖 OWASP 具体控制点,又体现 NIST 管理特征的评估标准
生产环境中可参考 OWASP LLM Top 10,设计可测试的安全控制项,并纳入日常工程评审与上线流程。
最后更新于
