6.2 摘要与信息提取

6.2.1 抽取式方法

抽取式方法从原文中选择重要句子或段落,保持原文表述。

关键句提取

基于句子重要性评分选择关键句:

TextRank 算法

借鉴 PageRank 思想,根据句子之间的相似度构建图,计算每个句子的中心性分数。

基于嵌入的方法

  1. 计算每个句子的嵌入向量

  2. 计算句子与文档整体的相似度

  3. 选择相似度最高的句子

关键片段提取

提取包含关键信息的文本片段:

  • 包含实体的句子

  • 包含数字和日期的句子

  • 定义性语句

抽取式方法的优缺点

6.2.2 生成式方法

使用语言模型生成新的精简表述。

LLM 摘要

直接使用 LLM 生成摘要:

技巧:

  • 明确指定输出长度

  • 指明需要保留的信息类型

  • 提供输出格式要求

递进式摘要

对于超长文档,采用递进压缩:

spinner
  1. 将文档分成多个段落

  2. 分别生成段落摘要

  3. 合并段落摘要

  4. 可选:对合并结果再次摘要

多级摘要

生成不同详细程度的摘要,按需使用:

级别
长度
用途

标题

10-20 词

快速索引

简述

50-100 词

概览

详情

200-500 词

深入了解

生成式方法的优缺点

6.2.3 信息提取

从文本中提取结构化信息,是另一种压缩形式。

实体提取

提取关键实体:人名、地名、时间、数值等。

关系提取

提取实体之间的关系:

事实提取

提取关键事实点:

6.2.4 最佳实践

1. 根据场景选择方法

不同的压缩方法适合不同场景,选错方法会导致效果大打折扣。需要精确引用原文(如法律、医疗场景)时使用抽取式,保证信息准确;需要流畅表达(如给用户的摘要)时使用生成式;需要结构化处理(如数据分析)时使用信息提取。常见错误是不加区分地使用同一种方法,导致需要引用时找不到原文,需要连贯时读起来支离破碎。

2. 组合使用多种方法

单一方法往往难以兼顾多个目标,组合使用能发挥各自优势。典型模式是:先用抽取式选出关键段落,再用生成式整合为连贯摘要;或者生成摘要的同时,附上结构化的关键事实列表。这样既保证信息的可追溯性,又提供流畅的阅读体验。组合时注意控制总长度,避免压缩后反而变长。

3. 保留元信息以便追溯

压缩后的内容应该能追溯到原始来源。记录摘要来自哪份文档、第几页或第几段;标注使用的压缩方法(抽取/生成/提取)和生成时间。这些元信息在调试问题时非常有价值——当输出不准确时,可以快速定位是原始数据问题还是压缩过程引入的偏差。元信息的存储成本很低,但排查问题时能节省大量时间。

4. 建立质量验证机制

压缩必然带来信息损失,需要验证损失是否在可接受范围内。建立定期抽样检查机制,人工对比压缩前后的内容,评估关键信息是否保留。更重要的是对比压缩前后的任务效果——如果压缩后模型的回答质量明显下降,说明压缩过度或方法不当。用 A/B 测试量化压缩对最终效果的影响,找到压缩率与质量的最佳平衡点。

Last updated