即使经过精选和检索,需要放入上下文的信息量仍可能很大。压缩策略旨在提高信息密度,用更少的 Token 传达更多的有效内容。
本章将介绍信息压缩的基本原理、摘要与提取技术、对话历史管理,以及上下文窗口优化的系统策略。这些技术对于控制成本、降低延迟、提高模型处理效率都至关重要。
Last updated 14 days ago