11.5 对抗性攻击与防御
11.5.1 提示词注入 (Prompt Injection)
常见攻击模式
11.5.2 越狱 (Jailbreaking)
11.5.3 防御策略
1. 强化分隔符 (Delimiters)
请总结这篇文章:
{{USER_INPUT}}2. 夹心饼干防御 (Sandwich Defense)
3. 类型检查与验证
4. 使用专门的鉴黄/鉴暴模型
最后更新于
