> For the complete documentation index, see [llms.txt](https://yeasy.gitbook.io/llm_internals/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://yeasy.gitbook.io/llm_internals/di-si-bu-fen-mo-xing-yu-qian-yan-pian/13_decoder_models/13.2_llama.md).

# 13.2 Llama 家族：开放权重如何改变 LLM 格局

Meta 的 Llama 系列是开放权重大语言模型最具影响力的家族，其架构改进确立了现代 LLM 的“标准配方”，开放权重策略则推动了整个生态从闭源垄断走向开放繁荣。

## 13.2.1 Llama 的架构创新

Llama（2023 年）在标准 Transformer 解码器基础上引入了多项经过实践验证的架构改进，这些改进后来被许多后续开放模型采纳：

**RoPE 位置编码**：替代 GPT 使用的可学习位置编码，支持长度外推（见 [4.3 节](/llm_internals/di-yi-bu-fen-ji-chu-pian/04_position_encoding/4.3_rope.md)）。

**Pre-Norm + RMSNorm**：在每个子层之前进行归一化（而非之后），使用更高效的 RMSNorm 替代标准 LayerNorm（见 [3.6 节](/llm_internals/di-yi-bu-fen-ji-chu-pian/03_components/3.6_layer_norm.md)）。

**SwiGLU 激活函数**：将 FFN 中的 ReLU/GELU 替换为 SwiGLU（Swish-Gated Linear Unit），通过门控机制提升表达能力。SwiGLU 使用三个投影矩阵（而非两个），在同等参数量下获得更好的效果。

**分组查询注意力（GQA）**：在 Llama 2 70B 中引入，多个查询头共享一组 KV 头，减小 KV 缓存大小（见 [10.2 节](/llm_internals/di-san-bu-fen-tui-li-yu-bu-shu-pian/10_inference_optimization/10.2_kv_cache.md)）。

## 13.2.2 Llama 的版本演进

| 版本              | 参数规格           | 训练数据    | 上下文           | 关键改进                |
| --------------- | -------------- | ------- | ------------- | ------------------- |
| Llama 1（2023）   | 7B/13B/33B/65B | 1.4T 词元 | 2K            | 首次开放研究访问的高质量 LLM 权重 |
| Llama 2（2023）   | 7B/13B/70B     | 2T 词元   | 4K            | RLHF 对齐；70B 引入 GQA  |
| Llama 3（2024）   | 8B/70B         | 15T 词元  | 8K            | 128K 词汇表            |
| Llama 3.1（2024） | 8B/70B/405B    | 15T+ 词元 | 128K          | 首次发布 405B           |
| Llama 3.2（2024） | 1B/3B/11B/90B  | -       | 128K          | 多模态 + 端侧模型          |
| Llama 3.3（2024） | 70B            | -       | 128K          | 70B 追平 405B 对齐      |
| Llama 4（2025）   | 多种 MoE         | -       | 1M-10M（因变体而异） | MoE 架构              |

表 13-1：Llama 系列版本演进

Llama 3.1 全尺寸均采用 GQA；405B 版本通常记录为 128 个 query heads、8 个 KV heads。讨论“注意力头数”时需要区分 query heads 和 KV heads，否则会误算 KV 缓存大小。

## 13.2.3 Llama 3.x：从旗舰到端侧的全面布局

Llama 3 之后，Meta 以惊人的速度迭代出 3.1、3.2、3.3 三个版本，覆盖了从数据中心旗舰模型到手机端侧部署的完整频谱。

**Llama 3.1**（2024 年 7 月）是开放权重 LLM 的里程碑事件。其 405B 版本是当时**最大的公开权重模型**，在多个基准上追平甚至超越了 GPT-4（2023 年 3 月版），首次证明开放权重模型可以达到顶级闭源模型的水平。Llama 3.1 还将上下文窗口从 8K 扩展至 **128K**，并发布了宽松的社区许可协议，允许使用其输出来训练其他模型——这直接催生了大量衍生模型的繁荣。

**Llama 3.2**（2024 年 9 月）在两个方向上同时扩展：

* **多模态能力**：11B 和 90B 版本新增了视觉理解能力，可以处理图像输入，在图表解读、文档理解等任务上表现出色
* **轻量端侧模型**：1B 和 3B 版本专为移动设备和边缘计算设计，参数量极小但经过精心的知识蒸馏和量化优化，在手机端即可运行。这标志着 LLM 从云端走向终端的重要一步

**Llama 3.3**（2024 年 12 月）聚焦于效率提升——70B 模型通过改进的训练策略和对齐技术，在多项基准上达到了此前 Llama 3.1 405B 的水平。这意味着用户可以用**不到五分之一的计算资源**获得同等质量的输出，大幅降低了部署门槛。

**Llama 4**（2025 年 4 月）标志着 Meta 对混合专家（MoE）架构的全面布局。不同于 Llama 3.x 系列的纯密集模型，Llama 4 采用了高效的 MoE 架构，在推理时激活参数远小于总参数量的情况下达到甚至超越更大密集模型的性能。Llama 4 系列包含多个变体：**Scout**（1090 亿总参数，170 亿激活参数，16 个专家，1000 万上下文）和 **Maverick**（4000 亿总参数，170 亿激活参数，128 个专家，100 万上下文），为不同规模的部署场景提供了灵活选择。这一转变反映了行业对**效率与性能权衡**的新认识——MoE 让大规模参数模型的推理成本可控，为开放社区提供了与商业闭源模型竞争的新武器（见 [14.2 节](/llm_internals/di-si-bu-fen-mo-xing-yu-qian-yan-pian/14_future_trends/14.2_moe.md)）。

## 13.2.4 开放生态的繁荣

LLaMA 权重向研究界开放后，短短几个月内，数百个基于 Llama 微调的模型如雨后春笋般涌现；随后 Llama 2 以宽松的商用许可发布，更让中小企业首次获得了可媲美 GPT-3.5 的基础模型。代表性项目包括：

* **Vicuna**：基于用户分享的 ChatGPT 对话数据微调，以极低成本达到了 ChatGPT 约 90% 的质量
* **Alpaca**：斯坦福大学用 GPT-3.5 生成的 52K 指令数据微调 Llama 7B
* **Code Llama**：基于 Llama 2 的代码生成专用变体

这种开放生态的繁荣不仅推动了技术研究，还催生了大量垂直领域的定制模型（医疗、法律、金融等），真正实现了 LLM 能力的普惠化。