> For the complete documentation index, see [llms.txt](https://yeasy.gitbook.io/llm_internals/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://yeasy.gitbook.io/llm_internals/di-si-bu-fen-mo-xing-yu-qian-yan-pian/13_decoder_models/13.1_gpt_series.md).

# 13.1 GPT 系列：从语言模型到通用能力平台的扩展之路

GPT（Generative Pre-trained Transformer）系列是 OpenAI 推出的自回归语言模型家族，其演进历程清晰地展示了从语言建模到通用能力平台的扩展路径。

## 13.1.1 GPT-1：预训练-微调范式的解码器实现

GPT-1（Radford 等人，2018 年）使用 12 层 Transformer 解码器（1.17 亿参数），在 BooksCorpus 上进行自回归预训练。它证明了**仅解码器架构同样可以通过预训练-微调范式在下游任务上取得优异表现**。

GPT-1 与 BERT 几乎同时期出现，但选择了完全不同的方向：BERT 用双向编码器做理解，GPT 用单向解码器做生成。这两条路线的竞争和融合推动了后续多年的 NLP 研究。

## 13.1.2 GPT-2：零样本学习的曙光

GPT-2（2019 年，15 亿参数）在规模和数据上大幅增加，训练在高质量的 WebText 数据集上。GPT-2 的核心发现是：**足够大的语言模型可以在不微调的情况下完成多种任务（零样本能力）。**

给模型一个任务提示（如“将以下英文翻译为法文：”），模型就能正确执行——无需任何任务特定的训练数据。这暗示了语言模型在大规模训练中**隐式地学习了各种 NLP 技能**。

## 13.1.3 GPT-3：少样本学习与提示工程

GPT-3（2020 年，1750 亿参数）是一个转折点。它在约 3000 亿词元上训练，展示了惊人的**少样本学习**（Few-Shot Learning）能力——只需在提示中给出几个示例，模型就能举一反三。

GPT-3 引发了两个深远的影响：

1. **提示工程时代**：与其微调模型，不如精心设计输入提示来引导模型行为
2. **涌现能力的发现**：模型在达到一定规模后突然获得了小模型中不存在的新能力（如多步推理、代码生成等）

> \[!NOTE] “涌现”是否真实存在仍有争议。Schaeffer 等人（2023）指出，许多被报告的涌现能力可能是**评测指标选择的产物**：用准确率、精确匹配这类非线性/不连续指标衡量时，能力看似在某个规模“突然”出现；而若改用每词元交叉熵这类平滑、连续的指标，模型表现其实随规模平滑、可预测地提升。换言之，“突变”可能藏在度量方式里，而非模型能力本身。这提醒我们：谈“涌现”时应说清是在哪种指标下观察到的。

## 13.1.4 GPT-4 与后续发展

GPT-4（2023 年）是首个广泛认可的多模态大语言模型，能同时处理文本和图像输入。它在 SAT、GRE、模拟律师考试等专业考试中接近甚至达到了人类水平。

后续的 GPT-4o 实现了跨文本、图像和音频的原生多模态理解与生成，支持实时语音对话。从 GPT-4 开始，OpenAI 不再公开架构细节和训练数据，标志着从学术导向到产品导向的转变。

**GPT-4o mini**（2024 年）则代表了另一个重要方向——极致性价比的小模型。它在保持接近 GPT-4o 能力的同时，API 定价降低了一个数量级（输入价格约为 GPT-4o 的 1/30），彻底改变了 LLM API 的定价格局。GPT-4o mini 证明了**通过知识蒸馏和架构优化，小模型可以在大部分实际场景中替代大模型**，推动了行业从“追求最大规模”向“追求最佳性价比”的思维转变。

## 13.1.5 o1 系列：推理时计算扩展的新范式

OpenAI 的 o1 系列（2024 年）引入了一个全新的范式——**推理时计算扩展**（test-time / inference-time compute scaling）。与传统模型通过增加预训练计算来提升能力不同，o1 系列在推理阶段投入更多计算，让模型在回答之前进行更长的内部推理与验证。

o1 的核心技术机制包括：

1. **强化学习训练推理策略**：通过大规模强化学习，训练模型学会何时需要分步思考、何时需要回溯检查、何时需要尝试不同解题路径
2. **隐式思维链**：模型在生成最终答案前，内部产生大量的推理步骤（对用户不可见），这些步骤不是简单的链式思考，而是包含假设验证、错误修正和策略调整
3. **自适应计算分配**：面对简单问题快速给出答案，面对复杂问题则投入更多推理时间，实现计算资源的动态分配

OpenAI 围绕这一范式构建了完整的模型产品线：

* **o1**：旗舰推理模型，在数学、编程和科学推理等任务上大幅超越 GPT-4o，在 AIME（美国数学邀请赛）题目上的正确率从 GPT-4o 的 13% 跃升至 83%
* **o1-mini**：精简版推理模型，在编程和数学任务上保持接近 o1 的能力，但成本降低约 80%，响应速度更快
* **o1-pro**：增强版推理模型，通过在推理时分配更多计算资源来进一步提升结果的可靠性，适合对准确性要求极高的专业场景

o1 系列的意义远超模型本身。它开辟了 **Scaling 的第二条曲线**——当预训练阶段的规模扩展（训练时计算）遇到收益递减时，推理时计算扩展提供了另一个性能提升维度。这一理念直接影响了 DeepSeek-R1 等后续模型的设计（见 [13.3 节](/llm_internals/di-si-bu-fen-mo-xing-yu-qian-yan-pian/13_decoder_models/13.3_deepseek_gemini.md)）。

## 13.1.6 o3 系列：推理计算的进一步演进

2025 年 4 月 16 日，OpenAI 推出了 o3 系列，在 o1 的推理时计算扩展基础上实现了进一步的突破。o3 系列引入了**多层级推理策略**，允许用户根据问题难度选择不同的推理预算——从“快速思考”到“深度推理”——并在推理过程中动态调整计算资源分配。o3 还改进了推理过程的可控性，用户可以更细粒度地指导模型的思考方向，同时保留了潜在的长思维链能力（见 [14.6 节](/llm_internals/di-si-bu-fen-mo-xing-yu-qian-yan-pian/14_future_trends/14.6_test_time_scaling.md)）。

## 13.1.7 GPT-5 系列：通用能力平台的新里程碑

在推理模型主线之外，OpenAI 还曾于 2025 年 2 月发布 **GPT-4.5** 研究预览版——一次专注于继续扩大无监督预训练规模的尝试，数月后即从 API 下线，其经验汇入了后续主线模型。2025 年 8 月 7 日，OpenAI 推出 GPT-5，这是自 GPT-4 以来首次进行主号版本升级。按 OpenAI API 模型页的公开口径，GPT-5 模型本体支持文本和图像输入、文本输出；音频和视频能力应与 ChatGPT 产品层、Realtime/语音接口、视频生成等专用模型或工具能力分开描述，不能简单合并为“GPT-5 原生统一支持所有模态”。GPT-5 的核心意义在于把编码、通用推理和可调推理预算整合到同一主线模型族中。

OpenAI 随后以更快的迭代周期推出了多个版本，标志着产品策略从大版本跨越向**持续快速迭代**的转变：

* **GPT-5.1**（2025 年 11 月）：首个迭代更新版本
* **GPT-5.2**（2025 年 12 月 11 日）：旗舰推理模型，进一步强化了编码和推理能力，成为 OpenAI 的主要生产模型
* **GPT-5.3-Codex**（2026 年 2 月 5 日）：面向 Codex 的前沿编程模型线，专注于智能体工具应用
* **GPT-5.4**（2026 年 3 月 5 日）：首个融合推理与编码的主线模型，性能在多个基准上接近甚至超越前代
* **GPT-5.5**（2026 年 4 月 23 日）：OpenAI 官方模型页列出的旗舰模型，标准短上下文 API 定价为每百万输入/输出词元 $5/$30；当输入超过 272K 词元时，官方模型页说明整段会话按更高长上下文费率计费。该模型支持 1M 上下文窗口和函数、搜索、文件检索、计算机使用等工具

为了满足成本和延迟需求，OpenAI 同步推出了小模型路线：**GPT-5.4 mini** 和 **GPT-5.4 nano** 于 2026 年 3 月发布。GPT-5.4 mini 面向更高性价比的编码、计算机使用和子代理任务，GPT-5.4 nano 则针对分类、数据提取、排序和简单子任务优化；具体价格会随官方模型页调整。

2026 年 2 月 13 日，OpenAI 在 ChatGPT 中下线 GPT-4o、GPT-4.1、GPT-4.1 mini、o4-mini，以及 GPT-5 Instant/Thinking；2026 年 3 月 11 日又下线 GPT-5.1 Instant/Thinking/Pro。OpenAI 帮助中心同时说明，这些是 ChatGPT 产品侧退役，不等同于 API 立即退役，默认迁移到对应的 GPT-5.3 Instant 和 GPT-5.4 Thinking/Pro 等效体验。这一产品调整反映了 GPT-5 一代模型在主流交互场景中的替代作用；但闭源模型的内部架构并未完整公开，不应据此推断单一架构路线已经“完全确立”。