本章小结

本章深入解析了大语言模型的技术原理,从历史演进到核心机制,再到训练方法和主流模型。

核心要点回顾

技术演进

  • 远古时代:Eliza(1966)靠 If/Else 套公式

  • 统计时代:Siri(2011)靠统计学“查表”

  • 大模型时代:GPT(2018-)靠大规模预训练实现质的飞跃

工作原理

  • LLM 的核心任务是预测下一个 Token(Next Token Prediction)

  • Token 是分词器切出来的子词片段,不等于一个字或一个词

  • 温度参数控制输出随机性:低温严谨,高温创意

训练范式

  • 预训练(“上大学”):在海量数据上学习语言和知识,极其昂贵

  • 微调 SFT(“岗前培训”):用问答对教它遵循指令,成本较低

  • RLHF(“实习”):通过人类偏好排序对齐人类价值观

  • 落地捷径:RAG(检索增强)、工具调用、工作流编排,通常比微调更快

主流模型

  • 闭源三巨头:OpenAI(GPT)、Anthropic(Claude)、Google(Gemini)

  • 开源生态:LLaMA、Qwen、Mistral、Gemma 等多条路线

  • 国内竞争激烈:通义千问、文心、DeepSeek、Kimi 各有所长

工程落地(推理机制)

  • 推理(Inference):让大模型在云端跑起来的过程,极度依赖显存带宽和分布式网络。

  • 算力 vs 显存:长文阅读阶段吃算力,逐字生成阶段吃显存和带宽。

  • KV Cache:大模型的“记事本”,极度消耗显存限制并发数。

关键术语

术语
解释

Token

文本的基本处理单位(由分词器切分)

上下文窗口

模型一次处理的最大 Token 数

温度

控制输出随机性的参数

预训练

在大规模数据上初始训练

指令微调

让模型学会遵循指令

RLHF

人类反馈强化学习

RAG

检索增强生成,先查资料再回答

推理 (Inference)

让训练好的大模型在云端运行、回答问题的过程

KV Cache

大模型的“记事本”,缓存已读内容的中间状态以避免重复计算

显存 (VRAM)

GPU 专用内存,大模型运行时的核心瓶颈资源

下章预告

下一章将介绍从多模态到具身智能,探讨 AI 如何处理和生成图像、音频、视频等多种类型的内容,以及 DALL-E、Stable Diffusion、Sora 等生成式模型的技术原理。

最后更新于