“把所有能找到的相关信息都塞给模型,让它自己从中挑选有用的。”这是最懒惰也最危险的策略。
错误做法(All-in Context): “这是关于该产品的所有文档(共 10 万字):[...]” “User: 怎么重置密码?”
Lost in the Middle:关键信息被淹没在海量噪音中,模型找不到答案。
指令注入风险:如果文档中包含恶意的 prompt(如来自网上的爬取数据),模型可能会被劫持。
注意力分散:模型可能会因为文档中的某句无关话语产生幻觉。
相关性过滤:只检索最相关的 Top-K 片段,而不是整个文档。
结构化隔离:明确区分 <context> 和 <instruction>,告诉模型哪些是参考资料,哪些是指令。
<context>
<instruction>
最后更新于3天前