A.3 主流模型参数速查表
Transformer
2017
Enc-Dec
65M/213M
6
512/1024
8/16
-
原始架构
BERT-Base
2018
Encoder
110M
12
768
12
512
MLM + NSP
BERT-Large
2018
Encoder
340M
24
1024
16
512
MLM + NSP
GPT-2
2019
Decoder
1.5B
48
1600
25
1024
自回归 LM
GPT-3
2020
Decoder
175B
96
12288
96
2048
少样本学习
T5-Large
2020
Enc-Dec
770M
24
1024
16
512
文本到文本
Llama 2-7B
2023
Decoder
7B
32
4096
32
4096
RoPE + GQA
Llama 2-70B
2023
Decoder
70B
80
8192
64
4096
GQA(8KV头)
Llama 3-8B
2024
Decoder
8B
32
4096
32
128K
128K词汇表
Llama 3-70B
2024
Decoder
70B
80
8192
64
128K
GQA
Llama 3.1-405B
2024
Decoder
405B
126
16384
128
128K
开源追平 GPT-4
GPT-4o mini
2024
Decoder
未公开
-
-
-
128K
极致性价比
Claude 3.5 Sonnet
2024
Decoder
未公开
-
-
-
200K
Artifacts/Computer Use
Qwen 2.5-72B
2024
Decoder
72B
80
8192
64
128K
多语言、代码、数学
DeepSeek-R1
2025
MoE-Dec
671B(37B激活)
61
7168
128
128K
纯 RL 推理
Mistral 7B
2023
Decoder
7B
32
4096
32
32K
滑动窗口注意力
DeepSeek-V3
2025
MoE-Dec
671B(37B激活)
61
7168
128
128K
MoE + FP8
Gemini 2.5
2025
多模态
未公开
-
-
-
1M
原生多模态
图 A-1:主流 Transformer 模型参数速查表
关键缩写说明
Enc-Dec:编码器-解码器架构
MoE-Dec:混合专家解码器架构
MLM:掩码语言模型
NSP:下一句预测
GQA:分组查询注意力
RoPE:旋转位置编码
最后更新于
