13.2 Llama 家族:开源如何改变 LLM 格局

Meta 的 Llama 系列是开源大语言模型最具影响力的家族,其架构改进确立了现代 LLM 的“标准配方”,开源策略则推动了整个生态从闭源垄断走向开放繁荣。

13.2.1 Llama 的架构创新

Llama(2023 年)在标准 Transformer 解码器基础上引入了多项经过实践验证的架构改进,这些改进后来被几乎所有后续开源模型采纳:

RoPE 位置编码:替代 GPT 使用的可学习位置编码,支持长度外推(见 4.3 节)。

Pre-Norm + RMSNorm:在每个子层之前进行归一化(而非之后),使用更高效的 RMSNorm 替代标准 LayerNorm(见 3.5 节arrow-up-right)。

SwiGLU 激活函数:将 FFN 中的 ReLU/GELU 替换为 SwiGLU(Swish-Gated Linear Unit),通过门控机制提升表达能力。SwiGLU 使用三个投影矩阵(而非两个),在同等参数量下获得更好的效果。

分组查询注意力(GQA):在 Llama 2 的大模型中引入,多个查询头共享一组 KV 头,减小 KV 缓存大小(见 10.2 节)。

13.2.2 Llama 的版本演进

版本
参数规格
训练数据
上下文
关键改进

Llama 1(2023)

7B/13B/33B/65B

1.4T 词元

2K

首次开源高质量 LLM

Llama 2(2023)

7B/13B/70B

2T 词元

4K

GQA、RLHF 对齐

Llama 3(2024)

8B/70B/405B

15T 词元

8K

128K 词汇表、多语言

Llama 3.1(2024)

8B/70B/405B

15T+ 词元

128K

405B 开源里程碑

Llama 3.2(2024)

1B/3B/11B/90B

-

128K

多模态 + 端侧模型

Llama 3.3(2024)

70B

-

128K

70B 追平 405B 对齐

Llama 4(2025)

多种 MoE

-

128K+

MoE 架构

图 13-2:Llama 系列版本演进

13.2.3 Llama 3.x:从旗舰到端侧的全面布局

Llama 3 之后,Meta 以惊人的速度迭代出 3.1、3.2、3.3 三个版本,覆盖了从数据中心旗舰模型到手机端侧部署的完整频谱。

Llama 3.1(2024 年 7 月)是开源 LLM 的里程碑事件。其 405B 版本是当时最大的公开权重模型,在多个基准上追平甚至超越了 GPT-4(2023 年 3 月版),首次证明开源模型可以达到顶级闭源模型的水平。Llama 3.1 还将上下文窗口从 8K 扩展至 128K,并发布了宽松的社区许可协议,允许使用其输出来训练其他模型——这直接催生了大量衍生模型的繁荣。

Llama 3.2(2024 年 9 月)在两个方向上同时扩展:

  • 多模态能力:11B 和 90B 版本新增了视觉理解能力,可以处理图像输入,在图表解读、文档理解等任务上表现出色

  • 轻量端侧模型:1B 和 3B 版本专为移动设备和边缘计算设计,参数量极小但经过精心的知识蒸馏和量化优化,在手机端即可运行。这标志着 LLM 从云端走向终端的重要一步

Llama 3.3(2024 年 12 月)聚焦于效率提升——70B 模型通过改进的训练策略和对齐技术,在多项基准上达到了此前 Llama 3.1 405B 的水平。这意味着用户可以用不到五分之一的计算资源获得同等质量的输出,大幅降低了部署门槛。

13.2.4 开源生态的繁荣

Llama 2 的开源让学术界和中小企业首次获得了可媲美 GPT-3.5 的基础模型。短短几个月内,数百个基于 Llama 微调的模型如雨后春笋般涌现:

  • Vicuna:基于用户分享的 ChatGPT 对话数据微调,以极低成本达到了 ChatGPT 约 90% 的质量

  • Alpaca:斯坦福大学用 GPT-3.5 生成的 52K 指令数据微调 Llama 7B

  • Code Llama:专注于代码生成的 Llama 变体

这种开源生态的繁荣不仅推动了技术研究,还催生了大量垂直领域的定制模型(医疗、法律、金融等),真正实现了 LLM 能力的普惠化。

最后更新于