附录 B:安全工具与资源
本附录收录 LLM 安全相关的工具和学习资源。
安全测试工具
漏洞扫描
防护框架
注入检测与防御
内容审核
隐私保护
安全框架与指南
标准与框架
最佳实践
学习资源
在线课程
研究论文
安全对齐
Training language models to follow instructions with human feedback (InstructGPT)
越狱攻击
Jailbroken: How Does LLM Safety Training Fail?
提示注入
Prompt Injection attack against LLM-integrated Applications
隐私保护
Extracting Training Data from Large Language Models
社区与博客
监控与运维工具
监控
Prometheus + Grafana
指标监控可视化
ELK Stack
日志管理分析
Datadog
统一可观测性
安全运营
Splunk
SIEM 平台
PagerDuty
告警管理
JIRA
工单跟踪
模型与数据安全
模型安全
ModelScan
模型安全扫描
ML-Guard
模型保护框架
数据安全
Great Expectations
数据质量验证
Apache Atlas
数据治理
核心工具与 OWASP/生命周期映射索引(速查字典)
为了帮助安全评审人员与研发工程师在特定生命周期阶段,靶向处置特定的 OWASP Top 10 风险,特提供以下实战速查映射表:
模型训练/微调
LLM03 (供应链风险) LLM04 (数据投毒)
Great Expectations ModelScan
数据清洗质量强制卡点验证、第三方模型权重后门漏洞扫描(第 6 章)
应用架构设计
LLM06 (过度自主权) LLM07 (系统提示泄露)
Microsoft Responsible AI Google SAIF
会话分层架构设计、RBAC 与人机协同(HITL)审批流预发设计(第 8 章)
知识检索 (RAG)
LLM08 (向量与嵌入弱点) LLM09 (错误信息)
LangChain (Sec-Config) LlamaIndex
外部文档切块入库前的洗消验签、基于多租户身份的检索结果过滤(第 7 章)
网关边界拦截
LLM01 (提示注入) LLM10 (无边界消耗)
Prompt Guard NeMo Guardrails
部署于最外层 API 代理作为低延迟分类器探测越狱,并实施 Token 熔断限流(第 4 章)
输出校验与脱敏
LLM02 (敏感数据泄露) LLM05 (输出处理不当)
Microsoft Presidio Guardrails AI
双向 PII 实体检测与掩码还原,强制输出转为受控 Schema 并严格阻断执行链(第 9 章)
CI/CD 安全门禁
LLM01 (注入绕过) 通用安全性回归
promptfoo Garak HarmBench
迭代上线前构建自动化对抗评估,将最新漏洞形成集成测试硬拦截门禁(第 10 章)
注意:工具和资源持续更新。请访问官方网站获取最新信息,部分项目可能停更或归档。
维护状态说明:开源工具的维护状态可能随时变化,建议在选型前检查项目的最近更新日期和社区活跃度。
最后更新于
