16.1 AI 芯片基础:GPU、TPU、NPU

16.1 AI 芯片基础:GPU、TPU、NPU

如果说算法是 AI 的大脑,那么芯片就是让大脑工作的心脏。

16.1.1 一个简单的类比:为什么需要专门的芯片?

想象你要做一个任务:计算 1000 万个数字的平方。

用通用的 CPU(如笔记本里的):

CPU 的做法:一个一个数字计算
第 1 个数字:1 * 1 = 1(花时间 T)
第 2 个数字:2 * 2 = 4(花时间 T)
...
第 1000 万个:10000000 * 10000000 = ...(花时间 T)

总时间:1000 万 × T = 很长很长

用专门的 GPU(显卡):

GPU 的做法:同时计算成千上万个数字
第 1-10000 个数字:同时计算(花时间 T)
第 10001-20000 个数字:同时计算(花时间 T)
...

总时间:1000 万 ÷ 10000 × T = 快 10000 倍!

为什么?GPU 有成千上万的"小计算单元"(核心)
每个单元做同样的事,但处理不同的数据
就像工厂里有 10000 个工人,而不是 1 个人

16.1.2 三种 AI 芯片:各有所长

1. GPU(图形处理器)

来源: NVIDIA(美国,市场占有率 ~80%)

主要产品线:

  • 消费级:GeForce RTX 4090(游戏用,也能做 AI)

  • 专业级:A100、L40S(数据中心)

  • 最新旗舰:H100、H200(2024-2025 年的选择)

  • 最强芯片:B200(2025 年发布,性能提升 30%)

性能(以 H100 为例):

优点:

  • 通用性强:可以做任何 AI 任务(训练、推理、科学计算)

  • 成熟生态:所有 AI 框架都优化得很好

  • 性能最强:目前市场最强的 AI 计算能力

  • 供应充足:虽然贵,但能买到

缺点:

  • 昂贵:一块 H100 要 $35,000,服务器成本是 CPU 的 10 倍

  • 功耗高:700W,需要强大的电源和散热

  • 面积大:需要大型数据中心

  • 不适合手机:太大太耗电

应用场景:

  • 训练超大模型(GPT、Claude)

  • 云端 AI 推理服务

  • 科学计算、气候模型等

2. TPU(张量处理器)

来源: Google(谷歌自主设计)

主要产品线:

  • TPU v2(2017)- 已淘汰

  • TPU v3(2018)- 仍在用

  • TPU v4(2021)- 主流

  • TPU v5(2023)- 最新

  • TPU v6(2024)- 最强

性能(以 TPU v5 为例):

优点:

  • 专为 AI 优化:从芯片设计到软件栈都是为 AI 定制

  • 更省电:450W vs GPU 的 700W

  • 成本效率高:Google 云端使用成本更低

  • 能耗比最高:每瓦的性能最好

缺点:

  • 只能通过 Google Cloud 使用:不能自己买

  • 生态较小:主要支持 TensorFlow,对 PyTorch 支持一般

  • 创业公司难以使用:需要 Google 数据中心的支持

  • 不适合实验:因为不是自己的硬件

应用场景:

  • Google 自身 AI 模型训练

  • Google Cloud 上的 AI 服务

  • 大规模推理(YouTube 推荐等)

3. NPU(神经处理器)

来源: Apple、高通、华为等(各家独立设计)

主要产品线:

  • Apple Neural Engine(在 iPhone 16、M4 芯片内)

  • 高通 Hexagon(骁龙芯片内)

  • 华为 NPU(麒麟芯片内)

  • 中国的昆仑芯等

性能(以 Apple M4 Neural Engine 为例):

优点:

  • 超省电:几瓦到几十瓦,适合手机和笔记本

  • 集成度高:和 CPU、GPU 集成在一块芯片

  • 隐私保护:推理在本地进行,数据不上云

  • 成本低:已经摊入设备成本

  • 响应快:毫秒级延迟,不需要网络

缺点:

  • 性能有限:远不如 GPU/TPU

  • 不能训练:只能做推理(用预训练模型)

  • 生态碎片化:每家都不一样,适配困难

  • 功能不足:无法处理超大模型

应用场景:

  • 手机上的 AI 功能(拍照识别、语音助手)

  • 笔记本本地 AI 工具

  • 边缘 AI 推理(在本地运行小模型)

  • 隐私敏感的应用

16.1.3 硬件性能对比

spinner

2026 年的芯片战争

美国队伍

  • NVIDIA:H100、B200、Blackwell(下一代)

  • Google:TPU v6 及后续

  • AMD:MI300(GPU 竞争者)

中国队伍

  • 华为:昆仑芯、鸿蒙芯

  • 阿里:含光芯

  • 腾讯:自研 AI 芯片

  • 理想、小米等:自研 NPU

挑战

16.1.4 AI 推理的硬件选择

场景 1:大规模云端推理(如 ChatGPT)

最佳选择: GPU 集群(H100/B200)或 TPU 集群

场景 2:本地推理(笔记本/手机)

最佳选择: NPU 或消费级 GPU

场景 3:企业内部推理(如 100 员工的公司)

最佳选择: 消费级 GPU 或小型 GPU 服务器

16.1.5 生活中的类比

16.1.6 关键要点

  1. GPU 是当前的统治者

    • NVIDIA H100/B200 是最强硬件

    • 但成本极高,功耗极高

    • 适合大规模训练和云端推理

  2. TPU 是效率之王

    • 如果能用 Google 云端,TPU 是最优选择

    • 省电、性能强,但不对外销售

  3. NPU 是隐私和省电之王

    • 手机、笔记本上已经有

    • 推理能力有限,但足够日常使用

  4. 芯片选择很关键

    • 错的芯片会让 AI 应用变得不可行或太贵

    • 工程师理解硬件约束很重要

  5. 中国正在追赶

    • 性能差距在缩小

    • 2-3 年内可能出现“差不多好用”的国产芯片

    • 但完全超越还需要 5 年以上

16.1.7 思考题

  1. 如果你要训练一个 AI 模型,H100 ($35k) 和 Google Cloud TPU ($8/小时) 怎么选?(提示:取决于你要训练多久)

  2. 为什么 NVIDIA 的 GPU 在 AI 时代这么值钱?如果我是中国政府,我会做什么来改变这个局面?

  3. 未来 5 年,你认为哪种芯片(GPU/TPU/NPU)会获胜?为什么?

最后更新于