完全依赖向量数据库(Vector DB)进行语义检索,认为“相似度高”就是“答案所在”。
查询:“我不想要苹果手机。” 检索结果(基于向量相似度):“苹果手机是最好的手机...” (语义高度相关,但在意图上完全相反)“如何购买苹果手机...”
查询:“我不想要苹果手机。” 检索结果(基于向量相似度):
“苹果手机是最好的手机...” (语义高度相关,但在意图上完全相反)
“如何购买苹果手机...”
语义与意图的偏差:向量模型擅长捕捉语义相似性,但往往忽略了否定词(not)、精确数值匹配等逻辑意图。
信息茧房:总是检索到语义上相似的内容,导致模型无法获得不同维度的补充信息。
混合检索(Hybrid Search):同时使用关键词检索(BM25)和向量检索。BM25 对否定词和精确匹配更敏感。
Query Rewrite:在检索前,先用 LLM 改写用户查询。例如将“我不想要苹果”改写为“推荐非苹果品牌的手机”,再进行检索。
最后更新于3天前