11.5 提示词工程的失效边界

提示词工程是一门“帮助 AI 做它能做的事”的技艺。但有些事,再聪明的提示词也改不了。

11.5.1 提示词无法跨越的五条鸿沟

第一条:知识边界

问题: LLM 的知识来自训练数据。如果训练数据里没有这个知识,再好的提示词也救不了。

例子:

❌ 提示词:"请告诉我你在 2024 年 6 月发生了什么事"

如果你的 LLM 训练截止是 2024 年 4 月:
  AI:我很抱歉,我的知识库中没有 2024 年 6 月的信息。

解救办法:不是更好的提示词,而是 RAG(检索增强生成)
  = 提示词 + 实时数据库 + 搜索引擎

另一个例子:

❌ "请告诉我你公司内部的绩效考核标准"

AI 知道什么是绩效考核,但它不知道"你公司"的规则。

解救办法:RAG
  = 提示词 + 你公司的内部文档库

第二条:推理能力的极限

问题: LLM 善于模式识别,但在需要多步骤、深度逻辑推理的任务上,有隐形上限。

例子 1:编程竞赛题

例子 2:多步骤数学推理

第三条:一致性与对齐

问题: 强化学习对齐出来的 AI,总是在“做什么用户想要”和“坚守自己的边界”之间摇摆。

例子 1:隐瞒信息的诱导

例子 2:道德两难困境

第四条:多模态的盲区

问题: 即使是多模态 AI,对图像、音频、视频的理解仍有深刻局限。

例子 1:图像中的细微细节

例子 2:视频中的时序关系

第五条:涌现能力的不可预测性

问题: 有些能力是 LLM 在特定规模才“忽然涌现”的。小规模模型怎么提示都无法做到。

例子:

11.5.2 常见失败模式与诊断

失败模式 1:幻觉

症状: AI 生成听起来很像真的,但完全是编造的信息。

为什么会发生?

  • LLM 本质是“预测概率最高的下一个词”。

  • 它没有“真假检查”机制。

  • 当被问到它不确定的问题时,就会倾向于“说得自信的错误”。

诊断办法:

解救办法:

失败模式 2:越狱与对齐逆转

症状: 虽然 AI 被“对齐”得很好,但特殊的提示词可以让它做出危险的事。

为什么会发生?

  • RLHF 对齐改变了 LLM 的行为,但没有改变基础参数。

  • LLM 仍然“知道”如何制造炸弹(在训练数据里)。

  • 对齐只是加了“决策层的拦截”。

  • 某些创意性的提示词可以绕过这个拦截。

已知的越狱技巧:

解救办法:

  • 不是更好的提示词,而是 更好的对齐技术

  • DPO、RLVR 等新的对齐方法在尝试解决这个问题。

  • 长期来看,需要从“强化学习对齐”升级到“更深层的安全性”。

失败模式 3:背景知识的假设冲突

症状: AI 假设你有某些背景知识,结果答非所问。

失败模式 4:输出格式的混乱

症状: 你要求结构化输出,AI 经常不按格式来。

解救办法:

11.5.3 什么时候该放弃提示词,转向其他方案

判断标准

方案对比

需求
提示词
RAG
微调
Fine-tuning
Function Calling

一般问答

-

-

-

-

知识库查询

-

-

-

专业领域

-

-

特定风格

-

-

实时数据

-

-

精确控制

-

-

-

成本低

具体场景的建议

场景 1:构建企业知识库客服

场景 2:医疗诊断助手

场景 3:自动化工作流(如数据处理)

场景 4:克隆特定风格(如品牌文案)

11.5.4 混合方案:当一个方案不够时

现实中,最强大的解决方案往往是组合:

[!TIP] 提示词工程的未来方向

现在的“提示词工程师”,未来可能会演变为“AI 工作流设计师”。

因为单纯的提示词优化已经遇到了天花板, 下一步是把 LLM 嵌入到更大的系统里(数据库、搜索、微调、监控), 然后从整个系统的角度去优化。

11.5.5 思考题

1. 你有没有碰到过“提示词无法解决”的情况?

回头看,应该用什么其他方案?

2. 幻觉问题是 LLM 的“宿命”吗?

还是说,未来的模型设计能从根本上避免幻觉?

3. 有没有可能设计一个提示词,让 LLM“承认自己不知道”,而不是编造?

4. 如果你只有提示词的工具,哪 5 个问题你肯定无法解决?

(想想知识边界、推理极限、对齐冲突)

最后更新于