14.2 知识库构建与向量化
14.2.1 数据清洗与预处理
格式统一
清洗策略
14.2.2 文档分块
# 伪代码示例:基于 Token 的滑动窗口分块
from langchain.text_splitter import RecursiveCharacterTextSplitter
splitter = RecursiveCharacterTextSplitter(
chunk_size=512, # 块大小
chunk_overlap=64, # 重叠部分,保证上下文连续性
separators=["\n\n", "\n", "。", "!", "?"] # 优先按段落和句子切分
)14.2.3 向量化
模型选择
向量库写入
最后更新于
