A.3 主流模型参数速查表

模型
发布时间
架构类型
参数量
层数
隐藏维度
注意力头
上下文长度
关键特性

Transformer

2017

Enc-Dec

65M/213M

6

512/1024

8/16

-

原始架构

BERT-Base

2018

Encoder

110M

12

768

12

512

MLM + NSP

BERT-Large

2018

Encoder

340M

24

1024

16

512

MLM + NSP

GPT-2

2019

Decoder

1.5B

48

1600

25

1024

自回归 LM

GPT-3

2020

Decoder

175B

96

12288

96

2048

少样本学习

T5-Large

2020

Enc-Dec

770M

24

1024

16

512

文本到文本

Llama 2-7B

2023

Decoder

7B

32

4096

32

4096

RoPE + GQA

Llama 2-70B

2023

Decoder

70B

80

8192

64

4096

GQA(8KV头)

Llama 3-8B

2024

Decoder

8B

32

4096

32

128K

128K词汇表

Llama 3-70B

2024

Decoder

70B

80

8192

64

128K

GQA

Llama 3.1-405B

2024

Decoder

405B

126

16384

128

128K

开源追平 GPT-4

GPT-4o mini

2024

Decoder

未公开

-

-

-

128K

极致性价比

Claude 3.5 Sonnet

2024

Decoder

未公开

-

-

-

200K

Artifacts/Computer Use

Qwen 2.5-72B

2024

Decoder

72B

80

8192

64

128K

多语言、代码、数学

DeepSeek-R1

2025

MoE-Dec

671B(37B激活)

61

7168

128

128K

纯 RL 推理

Mistral 7B

2023

Decoder

7B

32

4096

32

32K

滑动窗口注意力

DeepSeek-V3

2025

MoE-Dec

671B(37B激活)

61

7168

128

128K

MoE + FP8

Gemini 2.5

2025

多模态

未公开

-

-

-

1M

原生多模态

图 A-1:主流 Transformer 模型参数速查表

关键缩写说明

  • Enc-Dec:编码器-解码器架构

  • MoE-Dec:混合专家解码器架构

  • MLM:掩码语言模型

  • NSP:下一句预测

  • GQA:分组查询注意力

  • RoPE:旋转位置编码

最后更新于