本章小结

本章系统探讨了涉及视觉和听觉内容的多模态大模型（如 GPT-5, Gemini 3 Pro, Claude Sonnet 4.6）的提示词技术。相比纯文本，多模态提示工程不仅需要传递文字指令，还需要精准引导模型将视觉特征与文本逻辑锚定和对齐。

多模态模型的特性与局限
- 当前多模态模型依然以“文本优先”，视觉理解实质上是一种“视觉到文本的隐性翻译”。
- 空间定位（找精确坐标）和密集文本识别（复杂图表 OCR）仍然是常见的薄弱环节。
图像分析的提示词策略
- 坐标引导：在图像上画出网格或标记出数字边界框，并在提示词中要求模型返回相应的标记名。
- 多阶推理：要求模型遵循 观察 -> 描述局部特征 -> 联系上下文 -> 得出结论 的思路（类似多模态 CoT）。
- 聚焦任务：通过裁剪不相关的边缘甚至高斯模糊背景，从源头减少噪声干扰。
长视频与音频的前处理策略
- 由于底层限制，大多数模型分析长视频是采取“抽帧”的方法。
- 需要在外部进行关键帧提取、重复帧去冗和音频转文字，再混合输入大模型处理。
防幻觉设计法则
- 永远提供“内容不清”作为逃生退路（例如：“如果图像分辨率不足以辨认车牌号，直接回答'无法辨认'”）。
- 不要问带有极强暗示引导的封闭式问题（“图里那只猫是站着的对吧？”），而应使用开放描述：“描述图中有没有动物，它在做什么”。

随着大语言模型介入越来越多甚至掌握敏感业务逻辑的自动化流，安全性成为绕不开的核心议题。在第十一章，我们将深入探讨大模型常见的安全漏洞（如提示词注入）及其体系化防御手段。

📝 发现错误或有改进建议？ 欢迎提交 Issue 或 PR。

最后更新于 5天前