10.5 多模态上下文管理
随着人工智能从单一文本模态向图像、音频、视频等多模态发展,上下文工程的范畴也在急剧扩展。多模态上下文管理(Multimodal Context Management)旨在解决如何高效地表示、融合和检索不同模态的信息,以支持更复杂的跨模态交互。
10.5.1 多模态上下文的表示
不同模态的数据需要被转化为统一的表示形式(通常是向量),才能在同一个上下文窗口中被模型理解。
图像
图像通常被分割成多个 patches,然后经由视觉编码器转换成一系列向量表示(可理解为“视觉 Token”的 embedding)。
Patching:将高分辨率图像切分为固定大小的小块(patch 尺寸取决于具体视觉编码器实现)。
Visual Tokens:每个 patch 被编码为一个向量,类似于文本中的一个单词。
分辨率与 Token 数:分辨率越高,生成的 Token 数量越多,占用的上下文窗口越大。
音频
音频数据通常被转换为频谱图(Spectrogram),然后切分成帧(Frame),再经由 Audio Encoder(如 Whisper Encoder)编码。
时间切片:音频是时序数据,上下文长度与音频时长成正比。
模态对齐:音频特征需要与文本特征在语义空间上对齐。
视频
视频可以看作是带有时间维度的图像序列。
关键帧提取:为了节省上下文,通常只提取关键帧(Keyframes)进行编码。
时空编码:高级模型会同时考虑空间特征(图像内容)和时间特征(动作变化)。
10.5.2 统一多模态空间
多模态大模型(LMM)的核心在于将不同模态的 embedding 映射到同一个语义空间。
模态桥接 (Modality Projection):使用投影层(Projection Layer,如 MLP)将视觉/听觉向量变换为与 LLM 文本向量维度一致的形式。
交错输入 (Interleaved Input):文本、图像、音频 Token 可以任意顺序交错输入,形成
<Text> <Image> <Text> <Audio>的混合上下文流。
10.5.3 多模态上下文的挑战
上下文爆炸
多模态信息密度极大。高分辨率图片与长视频都可能对应大量 Token,迅速消耗上下文窗口。
挑战:迅速耗尽上下文窗口。
对策:需要更激进的压缩策略,如 Visual Token Compression(视觉 Token 压缩)或 Perceiver Resampler。
模态干扰与幻觉
模型可能会混淆不同模态的信息,或者对图像中不存在的细节产生幻觉。
现象:询问图片中不存在的物体,模型可能会编造。
对策:增强 Grounding(接地)能力,要求模型在回答时引用具体的图像区域(Bounding Box)。
跨模态对齐
确保 “一只猫的照片” 的向量表示与 “一只猫” 的文本向量表示在空间中足够接近。
10.5.4 多模态上下文工程策略
多模态提示工程
图文并茂:在 Prompt 中同时提供图片和文本描述,互为补充。
视觉锚点:使用标记(如
<img>tags)明确指示图片在上下文中的位置。
跨模态检索
不仅仅检索文本,还可以根据文本检索图片,或根据图片检索相关文本/视频。
Image-to-Text RAG:用户上传图片,系统检索相关的维修手册(文本)。
Text-to-Image RAG:用户描述场景,系统检索相似的历史设计图(图片)作为参考。
动态分辨率策略
根据任务需求动态调整图像分辨率。
粗读:先用低分辨率概览全图。
精读:对需要关注的局部区域进行高分辨率裁剪和重新编码(“Zoom-in” 策略)。
10.5.5 小结
多模态上下文管理是迈向通用人工智能(AGI)的必经之路。它要求我们不仅要懂文本处理,还要理解视觉和听觉数据的特性。核心在于高效压缩和语义对齐,在有限的窗口内通过多模态信息提供最丰富、最准确的上下文环境。
最后更新于
