10.6 本章实战练习

本节包含一系列循序渐进的实战练习,帮助你掌握多模态提示工程技术。

练习 1:图像理解与描述

选择一张复杂的图像,设计提示词让模型:

要求

  • 识别主要对象和场景

  • 描述空间关系

  • 分析图像传达的情感或意图

  • 提取关键信息

练习 2:多模态上下文融合

设计一个提示词,结合文本和图像来解决特定任务。

示例任务

  • 给定产品照片和竞争分析文本,生成产品营销方案

  • 给定建筑平面图和需求说明,提出设计建议

练习 3:跨模态推理

创建一个需要整合多种信息源的提示词。

示例

  • 输入:照片 + 技术规格表 + 用户评论

  • 输出:综合评估和改进建议

练习 4:音视频信息提取

设计提示词让模型从视频或音频转录中:

要求

  • 识别关键话题

  • 提取时间戳和重要时刻

  • 总结核心观点

  • 识别情感或语调变化

练习 5:多模态内容生成指导

创建提示词指导模型生成包含多种媒体元素的内容计划。

任务示例

  • 为社交媒体活动规划文本+图像+视频内容

  • 设计互动教学材料(文字+图表+视频)

验收标准

  • 多模态理解准确率 ≥ 85%

  • 跨模态信息整合完整

  • 提示词应用场景明确

  • 输出格式清晰、结构完整

最后更新于