6.3 预训练与微调

说明 本讲核心：通用大模型是“通才”，垂直行业模型是“专才”。 一句话口诀：预训练练内功，微调练招式。

6.3.1 预训练（Pre-training）：通识教育

训练像 大语言模型（LLM） 这样的模型，第一步叫做 预训练。这就是 “上大学”。 OpenAI 把全网的数据喂给它，不分学科，什么都学。物理、化学、编程、莎士比亚、八卦新闻... 这个阶段 极其昂贵（通常需要超大规模 GPU 集群，训练周期也可能按月计算）。

目标：让 AI 掌握人类的语言规律和世界的基本知识。结果：它变成了一个博学多才，但不太懂规矩的“野人”。你问它“怎么制造炸弹”，它可能真的会告诉你。

6.3.2 后来微调（SFT）：岗前培训

这就需要第二步：微调（Supervised Fine-Tuning）。这就是 “岗前培训”。我们雇佣人类老师，写好标准的“问答对”（Instruction），教它如何对话，如何有礼貌，什么该说什么不该说。

这个阶段便宜得多。目标：把“野人”变成“客服”、“医生”或“程序员”。结果：它学会了遵循指令，变成了一个好用的助手。

6.3.3 RLHF：去人类社会实习

最后一步是 人类反馈强化学习（RLHF）。这就是 “实习”。如我们在 4.4 节介绍的，RLHF 的常见做法是：先让人类标注员对多条候选回答做偏好排序，再用强化学习让模型更倾向于人类喜欢的回答。这一步让 AI 逐步学会了什么该说、什么不该说，输出风格也更贴近人类的沟通习惯。

6.3.4 不只一条路：RAG、工具调用与工作流

在真实项目里，很多团队不会一上来就微调模型，而是先做：

RAG（检索增强生成）：先查企业私有资料，再让模型回答。
工具调用（Tool Use）：让模型调用数据库、搜索、日历、ERP 等外部系统。
工作流编排（Workflow）：把“检索 -> 生成 -> 校验 -> 审批”串成可追踪流程。

这三种方式通常比“从零训练/深度微调”更快落地、成本更低。

6.3.5 思考题

很多公司想拥有自己的“行业大模型”（比如法律大模型）。他们通常不需要从头做“预训练”（太贵了），而是在通用模型的基础上做“微调”。这就好比：你是想自己从幼儿园开始培养一个律师（预训练），还是直接招一个法学毕业生，给他培训两周你们公司的规定（微调）？多数情况下会先选后者；但在不少场景里，RAG 和工具调用也能先解决 80% 的需求。

上一页6.2 大模型原理下一页6.4 主流大模型

最后更新于2天前

hashtag6.3.1 预训练（Pre-training）：通识教育

hashtag6.3.2 后来微调（SFT）：岗前培训

hashtag6.3.3 RLHF：去人类社会实习

hashtag6.3.4 不只一条路：RAG、工具调用与工作流

hashtag6.3.5 思考题

6.3.1 预训练（Pre-training）：通识教育

6.3.2 后来微调（SFT）：岗前培训

6.3.3 RLHF：去人类社会实习

6.3.4 不只一条路：RAG、工具调用与工作流

6.3.5 思考题