6.2 摘要与信息提取
6.2.1 抽取式方法
抽取式方法从原文中选择重要句子或段落,保持原文表述。
关键句提取
基于句子重要性评分选择关键句:
TextRank 算法
借鉴 PageRank 思想,根据句子之间的相似度构建图,计算每个句子的中心性分数。
基于嵌入的方法
计算每个句子的嵌入向量
计算句子与文档整体的相似度
选择相似度最高的句子
关键片段提取
提取包含关键信息的文本片段:
包含实体的句子
包含数字和日期的句子
定义性语句
抽取式方法的优缺点
6.2.2 生成式方法
使用语言模型生成新的精简表述。
LLM 摘要
直接使用 LLM 生成摘要:
技巧:
明确指定输出长度
指明需要保留的信息类型
提供输出格式要求
递进式摘要
对于超长文档,采用递进压缩:
将文档分成多个段落
分别生成段落摘要
合并段落摘要
可选:对合并结果再次摘要
多级摘要
生成不同详细程度的摘要,按需使用:
标题
10-20 词
快速索引
简述
50-100 词
概览
详情
200-500 词
深入了解
生成式方法的优缺点
6.2.3 信息提取
从文本中提取结构化信息,是另一种压缩形式。
实体提取
提取关键实体:人名、地名、时间、数值等。
关系提取
提取实体之间的关系:
事实提取
提取关键事实点:
6.2.4 最佳实践
1. 根据场景选择方法
不同的压缩方法适合不同场景,选错方法会导致效果大打折扣。需要精确引用原文(如法律、医疗场景)时使用抽取式,保证信息准确;需要流畅表达(如给用户的摘要)时使用生成式;需要结构化处理(如数据分析)时使用信息提取。常见错误是不加区分地使用同一种方法,导致需要引用时找不到原文,需要连贯时读起来支离破碎。
2. 组合使用多种方法
单一方法往往难以兼顾多个目标,组合使用能发挥各自优势。典型模式是:先用抽取式选出关键段落,再用生成式整合为连贯摘要;或者生成摘要的同时,附上结构化的关键事实列表。这样既保证信息的可追溯性,又提供流畅的阅读体验。组合时注意控制总长度,避免压缩后反而变长。
3. 保留元信息以便追溯
压缩后的内容应该能追溯到原始来源。记录摘要来自哪份文档、第几页或第几段;标注使用的压缩方法(抽取/生成/提取)和生成时间。这些元信息在调试问题时非常有价值——当输出不准确时,可以快速定位是原始数据问题还是压缩过程引入的偏差。元信息的存储成本很低,但排查问题时能节省大量时间。
4. 建立质量验证机制
压缩必然带来信息损失,需要验证损失是否在可接受范围内。建立定期抽样检查机制,人工对比压缩前后的内容,评估关键信息是否保留。更重要的是对比压缩前后的任务效果——如果压缩后模型的回答质量明显下降,说明压缩过度或方法不当。用 A/B 测试量化压缩对最终效果的影响,找到压缩率与质量的最佳平衡点。
Last updated
