10.2 图像理解与视觉提示

图像理解是多模态模型最成熟且应用最广泛的能力。GPT-4V、Claude 3、Gemini 等主流模型都展现出强大的视觉分析能力。本节将深入探讨图像提示的设计方法和最佳实践。

10.2.1 图像理解的能力边界

在设计视觉提示之前，需要了解当前模型的能力范围：

擅长的任务：

图像内容描述和场景识别
文档、表格、图表的 OCR 和结构化提取
物体识别、计数和空间关系理解
UI/UX 界面分析和设计评估
图像中的文字识别和翻译

仍有局限的任务：

精确的像素级测量和定位
人脸识别和身份识别（出于隐私考量，多数模型会拒绝）
极小或模糊文字的识别
高度专业的领域图像（如医学影像的诊断性判读）

10.2.2 基本图像提示模式

根据任务类型，图像提示可分为以下几种模式：

1. 描述任务

让模型全面描述图像内容：

请详细描述这张图片的内容，包括：
- 主要对象和场景
- 颜色、光线和构图特点
- 整体氛围和风格
- 任何值得注意的细节

提示技巧：通过分点要求引导模型提供结构化的描述，避免遗漏重要细节。

2. 问答任务

针对图像内容提出具体问题：

关于这张会议室照片：
1. 图中有多少人？
2. 他们正在进行什么活动？
3. 从他们的姿态和表情判断，会议氛围如何？
4. 会议室的布置有什么特点？

提示技巧：问题应具体、可验证，避免过于抽象或需要外部知识的问题。

3. 分析任务

要求模型进行深度分析和推理：

请分析这张电商产品主图：
1. 产品的外观设计和材质判断
2. 拍摄角度和布光是否突出产品优势
3. 背景选择是否恰当
4. 目标消费群体画像推断
5. 与竞品相比的视觉差异化建议

4. 提取任务

从图像中提取结构化信息：

请从这张发票图片中提取以下信息，以 JSON 格式输出：
{
  "invoice_number": "发票号码",
  "date": "开票日期",
  "seller": "销方信息",
  "buyer": "购方信息",
  "items": [{"name": "商品名", "quantity": "数量", "price": "单价"}],
  "total": "合计金额"
}

10.2.3 高级图像提示技巧

区域指向

当需要关注图像特定区域时，使用空间描述词：

请关注图片左上角的品牌 logo，分析其设计风格...
请分析图片中央人物的面部表情，判断其情绪状态...
请检查图片右下角的水印文字，识别来源信息...

部分平台支持更精确的坐标指向（如通过 API 传递 bounding box），但自然语言描述通常足够准确。

多图比较

同时处理多张图像进行对比分析：

我将上传两张产品图片进行比较：
- 图片 1：我们的新产品设计稿
- 图片 2：市场上的竞品

请从以下维度进行对比分析：
1. 外观设计语言（线条、曲面、材质感）
2. 色彩搭配和视觉冲击力
3. 功能布局的人体工学考量
4. 品牌辨识度和差异化程度

最后给出改进建议。

图表深度解读

对数据可视化图表进行专业分析：

请分析这张销售数据柱状图：

1. 数据提取：
   - 各月份/季度的具体数值
   - 最高点和最低点

2. 趋势分析：
   - 整体增长/下降趋势
   - 是否存在周期性波动
   - 明显的拐点及可能原因

3. 异常检测：
   - 是否有异常数据点
   - 数据呈现的一致性

请以表格形式输出提取的数据。

文档理解

处理复杂文档布局：

这是一份合同文档的扫描件，请完成以下任务：

1. 识别文档类型和标题
2. 提取关键条款：
   - 合同双方
   - 合同期限
   - 付款条款
   - 违约责任
3. 找出需要签字/盖章的位置
4. 标注任何手写批注内容

10.2.4 图像提示的常见陷阱

陷阱一：任务过于宽泛

❌ 不佳："分析这张图"
✅ 较好："分析这张餐厅菜单的视觉设计，评估其排版是否便于顾客快速选择"

陷阱二：假设模型能看到你看不到的

❌ 不佳："图片中模糊的小字写的是什么？"
   （如果人眼看不清，模型通常也无法准确识别）

陷阱三：要求超出能力边界

❌ 不佳："这张医学 CT 图像显示了什么病变？"
   （模型可以描述看到的内容，但不应作为医学诊断依据）

10.2.5 实践案例：电商场景

以下是一个电商产品分析的完整提示示例：

你是一位资深电商运营专家。请分析上传的这组产品主图（共 5 张）：

## 分析维度

### 1. 首图吸引力 (针对第 1 张)

- 产品展示完整性
- 视觉焦点是否突出
- 信息层级是否清晰

### 2. 卖点传达 (针对第 2-4 张)

- 各图是否分别突出不同卖点
- 场景化展示的代入感
- 细节图的说服力

### 3. 整体一致性 (针对全部 5 张)

- 色调和风格统一度
- 信息是否有冗余或遗漏
- 浏览顺序的逻辑性

## 输出格式

请给出：
1. 每张图的简评（各 50 字内）
2. 整体评分（满分 10 分）
3. Top 3 改进建议

动手试试

找一张包含图表或流程图的图片，分别用“描述这张图片”和“提取这张图表中的所有数据点并以表格形式输出”两种提示词测试，对比输出质量。
图像提示词中，“先描述你看到了什么，再回答问题”这种思维链策略是否有效？动手验证一下。

上一页10.1 多模态模型概述下一页10.3 音频与视频处理

最后更新于 4天前

hashtag10.2.1 图像理解的能力边界

hashtag10.2.2 基本图像提示模式

hashtag1. 描述任务

hashtag2. 问答任务

hashtag3. 分析任务

hashtag4. 提取任务

hashtag10.2.3 高级图像提示技巧

hashtag区域指向

hashtag多图比较

hashtag图表深度解读

hashtag文档理解

hashtag10.2.4 图像提示的常见陷阱

hashtag陷阱一：任务过于宽泛

hashtag陷阱二：假设模型能看到你看不到的

hashtag陷阱三：要求超出能力边界

hashtag10.2.5 实践案例：电商场景

hashtag动手试试