11.4 硬件选型:GPU、TPU 与专用加速器
硬件选择是 LLM 部署中影响性能和成本的核心决策。不同硬件平台在计算架构、内存带宽和生态支持方面各有特色。
11.4.1 NVIDIA GPU:当前的主流选择
NVIDIA GPU 凭借 CUDA 生态的成熟度和 Tensor Core 的强大性能,是 LLM 训练和推理的首选。关键指标对比:
A100
Ampere
80 GB
2 TB/s
312 TFLOPS
训练和推理(上一代主力)
H100
Hopper
80 GB
3.35 TB/s
990 TFLOPS
训练和推理(当前主力)
H200
Hopper
141 GB
4.8 TB/s
990 TFLOPS
大模型推理(超大显存)
B200
Blackwell
192 GB
8 TB/s
2250 TFLOPS*
训练和推理(新一代)
B300
Blackwell Ultra
288 GB
12 TB/s
2250 TFLOPS*
超大规模模型推理
L40S
Ada
48 GB
864 GB/s
366 TFLOPS
推理(性价比)
表 11-2:NVIDIA 主要 GPU 型号对比(*为稀疏算力,密集算力约为一半)
对于推理场景,显存带宽通常比算力更重要(10.1 节已解释生成阶段是访存密集型的)。H200 的 141 GB 显存使其可以在单卡上运行 70B 的 INT4 量化模型,极大降低了部署复杂度。而 B200 的 192 GB 显存和 8 TB/s 带宽则进一步扩展了单卡承载的模型规模上限。最新的 B300 更是将显存提升至 288 GB,配合 12 TB/s 的带宽,可在单卡上运行更大规模的模型。
11.4.2 Blackwell 架构与 GB200 超级芯片
2024 年 3 月,NVIDIA 发布了 Blackwell 架构,这是继 Hopper 之后的又一次重大飞跃。Blackwell 在架构层面引入了多项创新:
双芯片封装:采用两颗光罩尺寸极限的芯片,通过 10 TB/s 的片间互连组成一颗统一 GPU,总计 2080 亿晶体管
第五代 Tensor Core:原生支持 FP4、FP6、FP8 等多种低精度格式,单 GPU 的 FP4 AI 算力可达 20 PFLOPS
NVLink 5.0:芯片间互连带宽提升至 1.8 TB/s,支持更大规模的多 GPU 协同
GB200 超级芯片
GB200 Grace Blackwell Superchip 将一颗 Grace CPU 与两颗 B200 GPU 通过 900 GB/s 的 NVLink 芯片间互连紧密耦合,形成一个统一的计算单元。更大规模的 GB200 NVL72 系统在一个液冷机柜中集成了 36 颗 Grace CPU 和 72 颗 Blackwell GPU,专为万亿参数模型的推理而设计。
NVIDIA 官方数据显示,GB200 NVL72 相比 H100 在万亿参数 LLM 的实时推理上可实现高达 30 倍的性能提升,在混合专家模型(MoE)上则实现 10 倍的提升。这种机架级集成的设计理念,标志着 LLM 推理正从“单卡优化”走向“系统级优化”。
FP4 精度的探索
Blackwell 架构最引人注目的特性之一是对 FP4 精度的原生硬件支持。NVIDIA 提出的 NVFP4 是一种 4 位浮点格式,由第五代 Tensor Core 直接加速,这是 Blackwell 架构独有的能力。
FP4 相比传统的 INT4 量化有本质区别:FP4 保留了浮点数的指数-尾数结构,能更好地表示接近零的小值(这在注意力分数和激活值中非常常见)。NVIDIA 报告显示,NVFP4 在主流基准测试上的精度损失通常小于 1%,同时在推理效率上相比 A100 提升最高可达 2 倍。
从精度演进的角度看,LLM 推理正沿着 FP32 → FP16 → INT8 → FP8 → FP4 的路径不断压缩(更详细的量化方法论参见 10.4 节)。每一步精度下降都伴随着硬件的适配——这验证了 10.3 节中讨论的“算法与硬件协同演化”的趋势。
11.4.3 Google TPU
TPU(Tensor Processing Unit)是 Google 专门为深度学习设计的加速器。最新的 TPU v6e(Trillium) 相比 v5e 在每芯片计算性能上提升了 4.7 倍,HBM 容量和带宽均大幅增加,并支持 FP8 等低精度格式。
TPU 的独特优势在于 Google Cloud 上的大规模集群可用性——可以一次性获得数千张 TPU 的训练集群,且通过 ICI(Inter-Chip Interconnect)实现了极高速的芯片间通信。许多前沿模型(如 Gemini、PaLM)均在 TPU 上训练。
11.4.4 其他加速平台
AMD GPU(MI300X/MI350):AMD 在 AI 加速器市场持续发力,MI300X 提供了 192 GB 的 HBM3 显存,而新一代 MI350(基于 CDNA 4 架构)进一步提升了 AI 算力和能效比。ROCm 生态持续成熟,vLLM、SGLang 等主流推理框架已提供良好的 AMD GPU 支持。
专用推理芯片(如 Groq LPU、Cerebras):这些专用硬件针对推理延迟进行了极致优化,声称可实现比 GPU 更低的延迟,但生态成熟度和可用性仍有待验证。
CPU 推理:对于小模型(7B 及以下)的低吞吐场景,使用 llama.cpp 在 CPU 上运行量化模型是成本最低的方案。Intel 的 OpenVINO 和 ARM 的专用指令集进一步优化了 CPU 推理性能。
11.4.5 硬件选型的决策框架
选择硬件时需要综合考虑以下因素:
模型大小:决定了最低显存需求
吞吐量需求:高并发场景需要更强的计算/带宽
延迟要求:实时应用对首词延迟(TTFT)和生成速度有严格要求
成本预算:云端按需 vs 自建集群的总拥有成本对比
生态兼容性:框架和工具链的支持程度
精度策略:是否需要 FP8/FP4 等低精度支持,直接影响硬件代际选择
最后更新于
