13.2 Llama 家族:开源如何改变 LLM 格局
Meta 的 Llama 系列是开源大语言模型最具影响力的家族,其架构改进确立了现代 LLM 的“标准配方”,开源策略则推动了整个生态从闭源垄断走向开放繁荣。
13.2.1 Llama 的架构创新
Llama(2023 年)在标准 Transformer 解码器基础上引入了多项经过实践验证的架构改进,这些改进后来被几乎所有后续开源模型采纳:
RoPE 位置编码:替代 GPT 使用的可学习位置编码,支持长度外推(见 4.3 节)。
Pre-Norm + RMSNorm:在每个子层之前进行归一化(而非之后),使用更高效的 RMSNorm 替代标准 LayerNorm(见 3.5 节)。
SwiGLU 激活函数:将 FFN 中的 ReLU/GELU 替换为 SwiGLU(Swish-Gated Linear Unit),通过门控机制提升表达能力。SwiGLU 使用三个投影矩阵(而非两个),在同等参数量下获得更好的效果。
分组查询注意力(GQA):在 Llama 2 的大模型中引入,多个查询头共享一组 KV 头,减小 KV 缓存大小(见 10.2 节)。
13.2.2 Llama 的版本演进
Llama 1(2023)
7B/13B/33B/65B
1.4T 词元
2K
首次开源高质量 LLM
Llama 2(2023)
7B/13B/70B
2T 词元
4K
GQA、RLHF 对齐
Llama 3(2024)
8B/70B/405B
15T 词元
8K
128K 词汇表、多语言
Llama 3.1(2024)
8B/70B/405B
15T+ 词元
128K
405B 开源里程碑
Llama 3.2(2024)
1B/3B/11B/90B
-
128K
多模态 + 端侧模型
Llama 3.3(2024)
70B
-
128K
70B 追平 405B 对齐
Llama 4(2025)
多种 MoE
-
128K+
MoE 架构
图 13-2:Llama 系列版本演进
13.2.3 Llama 3.x:从旗舰到端侧的全面布局
Llama 3 之后,Meta 以惊人的速度迭代出 3.1、3.2、3.3 三个版本,覆盖了从数据中心旗舰模型到手机端侧部署的完整频谱。
Llama 3.1(2024 年 7 月)是开源 LLM 的里程碑事件。其 405B 版本是当时最大的公开权重模型,在多个基准上追平甚至超越了 GPT-4(2023 年 3 月版),首次证明开源模型可以达到顶级闭源模型的水平。Llama 3.1 还将上下文窗口从 8K 扩展至 128K,并发布了宽松的社区许可协议,允许使用其输出来训练其他模型——这直接催生了大量衍生模型的繁荣。
Llama 3.2(2024 年 9 月)在两个方向上同时扩展:
多模态能力:11B 和 90B 版本新增了视觉理解能力,可以处理图像输入,在图表解读、文档理解等任务上表现出色
轻量端侧模型:1B 和 3B 版本专为移动设备和边缘计算设计,参数量极小但经过精心的知识蒸馏和量化优化,在手机端即可运行。这标志着 LLM 从云端走向终端的重要一步
Llama 3.3(2024 年 12 月)聚焦于效率提升——70B 模型通过改进的训练策略和对齐技术,在多项基准上达到了此前 Llama 3.1 405B 的水平。这意味着用户可以用不到五分之一的计算资源获得同等质量的输出,大幅降低了部署门槛。
13.2.4 开源生态的繁荣
Llama 2 的开源让学术界和中小企业首次获得了可媲美 GPT-3.5 的基础模型。短短几个月内,数百个基于 Llama 微调的模型如雨后春笋般涌现:
Vicuna:基于用户分享的 ChatGPT 对话数据微调,以极低成本达到了 ChatGPT 约 90% 的质量
Alpaca:斯坦福大学用 GPT-3.5 生成的 52K 指令数据微调 Llama 7B
Code Llama:专注于代码生成的 Llama 变体
这种开源生态的繁荣不仅推动了技术研究,还催生了大量垂直领域的定制模型(医疗、法律、金融等),真正实现了 LLM 能力的普惠化。
最后更新于
