本章小结

本章小结

本章系统探讨了涉及视觉和听觉内容的多模态大模型(如 GPT-5, Gemini 3 Pro, Claude Sonnet 4.6)的提示词技术。相比纯文本,多模态提示工程不仅需要传递文字指令,还需要精准引导模型将视觉特征与文本逻辑锚定和对齐。

关键概念

  • 多模态对齐:模型将图像像素、音频频谱等非结构化信号与文本语义对应起来的能力。

  • 空间与时间锚点:在提示词中通过坐标、区域描述或时间戳来精确指代媒体材料中的特定部分。

  • 视觉幻觉:由于小物体丢失、文字识别(OCR)偏差或过度联想而导致模型强行“看出”不存在的信息。

核心要点

  1. 多模态模型的特性与局限

    • 当前多模态模型依然以“文本优先”,视觉理解实质上是一种“视觉到文本的隐性翻译”。

    • 空间定位(找精确坐标)和密集文本识别(复杂图表 OCR)仍然是常见的薄弱环节。

  2. 图像分析的提示词策略

    • 坐标引导:在图像上画出网格或标记出数字边界框,并在提示词中要求模型返回相应的标记名。

    • 多阶推理:要求模型遵循 观察 -> 描述局部特征 -> 联系上下文 -> 得出结论 的思路(类似多模态 CoT)。

    • 聚焦任务:通过裁剪不相关的边缘甚至高斯模糊背景,从源头减少噪声干扰。

  3. 长视频与音频的前处理策略

    • 由于底层限制,大多数模型分析长视频是采取“抽帧”的方法。

    • 需要在外部进行关键帧提取、重复帧去冗和音频转文字,再混合输入大模型处理。

  4. 防幻觉设计法则

    • 永远提供“内容不清”作为逃生退路(例如:“如果图像分辨率不足以辨认车牌号,直接回答'无法辨认'”)。

    • 不要问带有极强暗示引导的封闭式问题(“图里那只猫是站着的对吧?”),而应使用开放描述:“描述图中有没有动物,它在做什么”。

实践检查清单

延伸阅读

10.1 多模态大模型进展

10.2 多模态提示词指南

下一章预告

随着大语言模型介入越来越多甚至掌握敏感业务逻辑的自动化流,安全性成为绕不开的核心议题。在第十一章,我们将深入探讨大模型常见的安全漏洞(如提示词注入)及其体系化防御手段。


📝 发现错误或有改进建议? 欢迎提交 Issuearrow-up-rightPRarrow-up-right

最后更新于