13.1 GPT 系列:从语言模型到通用智能的扩展之路

GPT(Generative Pre-trained Transformer)系列是 OpenAI 推出的自回归语言模型家族,其演进历程清晰地展示了从语言建模到通用智能的扩展路径。

13.1.1 GPT-1:预训练-微调范式的解码器实现

GPT-1(Radford 等人,2018 年)使用 12 层 Transformer 解码器(1.17 亿参数),在 BooksCorpus 上进行自回归预训练。它证明了仅解码器架构同样可以通过预训练-微调范式在下游任务上取得优异表现

GPT-1 与 BERT 几乎同时期出现,但选择了完全不同的方向:BERT 用双向编码器做理解,GPT 用单向解码器做生成。这两条路线的竞争和融合推动了后续多年的 NLP 研究。

13.1.2 GPT-2:零样本学习的曙光

GPT-2(2019 年,15 亿参数)在规模和数据上大幅增加,训练在高质量的 WebText 数据集上。GPT-2 的核心发现是:足够大的语言模型可以在不微调的情况下完成多种任务(零样本能力)。

给模型一个任务提示(如“将以下英文翻译为法文:”),模型就能正确执行——无需任何任务特定的训练数据。这暗示了语言模型在大规模训练中隐式地学习了各种 NLP 技能

13.1.3 GPT-3:少样本学习与提示工程

GPT-3(2020 年,1750 亿参数)是一个转折点。它在约 3000 亿词元上训练,展示了惊人的少样本学习(Few-Shot Learning)能力——只需在提示中给出几个示例,模型就能举一反三。

GPT-3 引发了两个深远的影响:

  1. 提示工程时代:与其微调模型,不如精心设计输入提示来引导模型行为

  2. 涌现能力的发现:模型在达到一定规模后突然获得了小模型中不存在的新能力(如多步推理、代码生成等)

13.1.4 GPT-4 与后续发展

GPT-4(2023 年)是首个广泛认可的多模态大语言模型,能同时处理文本和图像输入。它在 SAT、GRE、模拟律师考试等专业考试中接近甚至达到了人类水平。

后续的 GPT-4o 实现了跨文本、图像和音频的原生多模态理解与生成,支持实时语音对话。从 GPT-4 开始,OpenAI 不再公开架构细节和训练数据,标志着从学术导向到产品导向的转变。

GPT-4o mini(2024 年)则代表了另一个重要方向——极致性价比的小模型。它在保持接近 GPT-4o 能力的同时,API 定价降低了一个数量级(输入价格约为 GPT-4o 的 1/30),彻底改变了 LLM API 的定价格局。GPT-4o mini 证明了通过知识蒸馏和架构优化,小模型可以在大部分实际场景中替代大模型,推动了行业从“追求最大规模”向“追求最佳性价比”的思维转变。

13.1.5 o1 系列:推理时计算扩展的新范式

OpenAI 的 o1 系列(2024 年)引入了一个全新的范式——推理时计算扩展(Inference-time Compute Scaling)。与传统模型通过增加预训练计算来提升能力不同,o1 系列在推理阶段投入更多计算,让模型在回答之前进行显式的长链条推理

o1 的核心技术机制包括:

  1. 强化学习训练推理策略:通过大规模强化学习,训练模型学会何时需要分步思考、何时需要回溯检查、何时需要尝试不同解题路径

  2. 隐式思维链:模型在生成最终答案前,内部产生大量的推理步骤(对用户不可见),这些步骤不是简单的链式思考,而是包含假设验证、错误修正和策略调整

  3. 自适应计算分配:面对简单问题快速给出答案,面对复杂问题则投入更多推理时间,实现计算资源的动态分配

OpenAI 围绕这一范式构建了完整的模型产品线:

  • o1:旗舰推理模型,在数学、编程和科学推理等任务上大幅超越 GPT-4o,在国际数学奥林匹克竞赛题上的正确率从 GPT-4o 的 13% 跃升至 83%

  • o1-mini:精简版推理模型,在编程和数学任务上保持接近 o1 的能力,但成本降低约 80%,响应速度更快

  • o1-pro:增强版推理模型,通过在推理时分配更多计算资源来进一步提升结果的可靠性,适合对准确性要求极高的专业场景

o1 系列的意义远超模型本身。它开辟了 Scaling 的第二条曲线——当预训练阶段的规模扩展(训练时计算)遇到收益递减时,推理时计算扩展提供了另一个性能提升维度。这一理念直接影响了 DeepSeek-R1 等后续模型的设计(见 13.3 节)。

最后更新于