11.3 检索失败与相关性陷阱

11.3.1 现象描述

完全依赖向量数据库(Vector DB)进行语义检索,认为“相似度高”就是“答案所在”。

11.3.2 反模式示例

查询:“我不想要苹果手机。” 检索结果(基于向量相似度)

  1. “苹果手机是最好的手机...” (语义高度相关,但在意图上完全相反)

  2. “如何购买苹果手机...”

11.3.3 后果

  • 语义与意图的偏差:向量模型擅长捕捉语义相似性,但往往忽略了否定词(not)、精确数值匹配等逻辑意图。

  • 信息茧房:总是检索到语义上相似的内容,导致模型无法获得不同维度的补充信息。

11.3.4 修正方案

  • 混合检索(Hybrid Search):同时使用关键词检索(BM25)和向量检索。BM25 对否定词和精确匹配更敏感。

  • Query Rewrite:在检索前,先用 LLM 改写用户查询。例如将“我不想要苹果”改写为“推荐非苹果品牌的手机”,再进行检索。

最后更新于