# 11.4 硬件选型：GPU、TPU 与专用加速器

硬件选择是 LLM 部署中影响性能和成本的核心决策。不同硬件平台在计算架构、内存带宽和生态支持方面各有特色。

## 11.4.1 NVIDIA GPU：当前的主流选择

NVIDIA GPU 凭借 CUDA 生态的成熟度和 Tensor Core 的强大性能，是 LLM 训练和推理的首选。关键指标对比：

| 型号   | 架构              | 显存           | 显存带宽      | FP16 算力       | 适用场景         |
| ---- | --------------- | ------------ | --------- | ------------- | ------------ |
| A100 | Ampere          | 80 GB        | 2 TB/s    | 312 TFLOPS    | 训练和推理（上一代主力） |
| H100 | Hopper          | 80 GB        | 3.35 TB/s | 1979 TFLOPS\* | 训练和推理（当前主力）  |
| H200 | Hopper          | 141 GB HBM3e | 4.8 TB/s  | 1979 TFLOPS\* | 大模型推理（超大显存）  |
| B200 | Blackwell       | 180 GB HBM3e | 8 TB/s    | 2250 TFLOPS\* | 训练和推理（新一代）   |
| B300 | Blackwell Ultra | 288 GB HBM3e | 8 TB/s    | 2250 TFLOPS\* | 超大规模模型推理     |
| L40S | Ada             | 48 GB        | 864 GB/s  | 366 TFLOPS    | 推理（性价比）      |

表 11-2：NVIDIA 主要 GPU 型号对比（\*表示该数值为 Tensor Core 峰值指标或包含稀疏性加速；在做密集 FP16 横向比较时应查看官方 dense throughput 口径）

对于推理场景，**显存带宽**通常比算力更重要（[10.1 节](/llm_internals/di-san-bu-fen-tui-li-yu-bu-shu-pian/10_inference_optimization/10.1_bottleneck.md)已解释生成阶段是访存密集型的）。H200 的 141 GB HBM3e 显存和 4.8 TB/s 带宽相比 H100（80 GB、3.35 TB/s）提升了 **+45% 推理吞吐**，使其可以在单卡上运行 70B 的 INT4 量化模型。这使 H200 成为中等规模模型部署的首选——显存充足避免多卡张量并行的通信开销，带宽提升直接加速生成阶段。

而 B200 的 180 GB HBM3e 显存和 8 TB/s 带宽则进一步扩展了单卡承载的模型规模。Blackwell Ultra / B300 级别 GPU 将单卡显存提升到 288 GB，但 405B INT8 权重本身约需 405 GB，尚未计入 KV 缓存、运行时工作区和并发余量，因此仍需要多卡或更低位量化/分层卸载方案。它的真正价值在于减少张量并行切分数、提高单节点可承载的批量和上下文长度。

## 11.4.2 Blackwell 架构与 GB200 超级芯片

2024 年 3 月，NVIDIA 发布了 **Blackwell 架构**，这是继 Hopper 之后的又一次重大飞跃。Blackwell 在架构层面引入了多项创新：

* **双芯片封装**：采用两颗光罩尺寸极限的芯片，通过 10 TB/s 的片间互连组成一颗统一 GPU，总计 2080 亿晶体管
* **第五代 Tensor Core**：原生支持 FP4、FP6、FP8 等多种低精度格式，单 GPU 的 FP4 AI 算力可达 20 PFLOPS
* **NVLink 5.0**：芯片间互连带宽提升至 1.8 TB/s，支持更大规模的多 GPU 协同

### GB200 超级芯片

**GB200 Grace Blackwell Superchip** 将一颗 Grace CPU 与两颗 B200 GPU 通过 900 GB/s 的 NVLink 芯片间互连紧密耦合，形成一个统一的计算单元。更大规模的 **GB200 NVL72** 系统在一个液冷机柜中集成了 36 颗 Grace CPU 和 72 颗 Blackwell GPU，专为万亿参数模型的推理而设计。

NVIDIA 官方数据显示，GB200 NVL72 相比 H100 在万亿参数 LLM 的实时推理上可实现高达 **30 倍**的性能提升，在混合专家模型（MoE）上则实现 10 倍的提升。这种机架级集成的设计理念，标志着 LLM 推理正从“单卡优化”走向“系统级优化”。

### FP4 精度的探索

Blackwell 架构最引人注目的特性之一是对 **FP4 精度**的原生硬件支持。NVIDIA 提出的 **NVFP4** 是一种 4 位浮点格式，由第五代 Tensor Core 直接加速，这是 Blackwell 架构独有的能力。

FP4 相比传统的 INT4 量化有本质区别：FP4 保留了浮点数的指数-尾数结构，能更好地表示接近零的小值（这在注意力分数和激活值中非常常见）。NVIDIA 的 NVFP4 技术资料显示，在部分 DeepSeek-R1 等基准上可接近 FP8 质量，但不同模型、硬件和 kernel 的吞吐口径差异很大；不要把单一 benchmark 外推成“A100 上固定 2 倍”一类通用结论。

从精度演进的角度看，LLM 推理正沿着 FP32 → FP16 → INT8 → FP8 → FP4 的路径不断压缩（更详细的量化方法论参见 [10.4 节](/llm_internals/di-san-bu-fen-tui-li-yu-bu-shu-pian/10_inference_optimization/10.4_quantization.md)）。每一步精度下降都伴随着硬件的适配——这验证了 [10.3 节](/llm_internals/di-san-bu-fen-tui-li-yu-bu-shu-pian/10_inference_optimization/10.3_flash_attention.md)中讨论的“算法与硬件协同演化”的趋势。

## 11.4.3 Google TPU

**TPU**（Tensor Processing Unit）是 Google 专门为深度学习设计的加速器。**TPU v6e（Trillium）** 相比 v5e 在每芯片计算性能上提升了 4.7 倍，HBM 容量和带宽均大幅增加，并支持 FP8 等低精度格式。Google 2026 年 4 月公开介绍了第八代 TPU：**TPU 8t** 偏向大规模训练，**TPU 8i** 偏向低延迟推理；在写作硬件路线图时，应区分“已上线可用”“已发布/即将可用”和“文档预览”。

TPU 的独特优势在于 Google Cloud 上的**大规模集群可用性**——可以一次性获得数千张 TPU 的训练集群，且通过 ICI（Inter-Chip Interconnect）实现了极高速的芯片间通信。许多前沿模型（如 Gemini、PaLM）均在 TPU 上训练。

## 11.4.4 其他加速平台

**AMD GPU（MI300X/MI350）**：AMD 在 AI 加速器市场持续发力，MI300X 提供了 192 GB 的 HBM3 显存，而新一代 MI350（基于 CDNA 4 架构）进一步提升了 AI 算力和能效比。ROCm 生态持续成熟，vLLM、SGLang 等主流推理框架已提供良好的 AMD GPU 支持。

**专用推理芯片**（如 Groq LPU、Cerebras）：这些专用硬件针对推理延迟进行了极致优化，声称可实现比 GPU 更低的延迟，但生态成熟度和可用性仍有待验证。

**CPU 推理**：对于小模型（7B 及以下）的低吞吐场景，使用 llama.cpp 在 CPU 上运行量化模型是成本最低的方案。Intel 的 OpenVINO 和 ARM 的专用指令集进一步优化了 CPU 推理性能。

## 11.4.5 硬件选型的决策框架

选择硬件时需要综合考虑以下因素：

1. **模型大小与显存**：决定了最低显存需求。70B 模型（FP8）需 \~90GB，140B+ 模型通常需要 H200/B200/B300。单卡无法容纳则进行张量并行，但会增加网络通信压力。
2. **吞吐量 vs 延迟的权衡**：
   * **高吞吐低延迟**（如 API 服务）：选择高带宽 GPU（H200、B200）+ 分离式架构，通过 Decode 侧高 TP 提高并发
   * **低吞吐低延迟**（如实时对话）：优先选择 TTFT，采用投机解码或张量并行对 Prefill 加速，Decode 可用低配置 GPU
   * **高吞吐高延迟可接受**（如离线批处理）：用 A100 或 L40S 等上一代 GPU 即可，按需求量多卡
3. **输入输出分布**：长 Prompt 短生成（代码补全）侧重 Prefill，需要计算强劲；长生成（故事生成）侧重 Decode，需要高带宽。分离式架构可分别优化。
4. **成本预算**：云端按需通常 3-5 倍于自建成本，但免去运维。自建需考虑电费、冷却、机房成本。量化（INT4/FP8）可有效降低显存成本 3-4 倍。
5. **生态兼容性**：NVIDIA 最成熟（vLLM、TensorRT-LLM），AMD 次之（ROCm），TPU 局限于 Google Cloud。
6. **前沿精度**：FP4（仅 Blackwell）需最新硬件；FP8 已普遍支持；INT4 最成熟跨平台。选择时需评估模型精度敏感度。

## 11.4.6 下一代平台：Rubin 架构与光电混合网络

NVIDIA 在 CES 2026 宣布了**Rubin 架构**（代号 Vera Rubin），这是 Blackwell 之后的下一个重大架构演进。关键特性包括：

* **第六代 Tensor Core**：进一步优化 NVFP4/FP4/FP6 等极低精度 AI 推理吞吐，而不是把收益解读为通用单精度计算提升
* **高速互连与集合通信优化**：第六代 NVLink、NVLink Switch 与 SHARP 等能力可显著缓解大规模 collective 通信瓶颈；实际收益仍取决于拓扑、作业形态、拥塞控制和软件栈

此外，Google 等超大规模基础设施实践表明，训练和推理集群正在从固定拓扑走向更灵活的高速互连。公开案例中也能看到 RoCEv2 以太网、InfiniBand、NVLink/NVSwitch 和光电混合交换并存的路线；具体方案是否能达到目标 All-Reduce 或专家并行效率，取决于拓扑、拥塞控制、作业形态和软件栈，而不能只由网络名称判断。


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://yeasy.gitbook.io/llm_internals/di-san-bu-fen-tui-li-yu-bu-shu-pian/11_serving/11.4_hardware.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
