一片 CoWoS interposer wafer 到底产几颗芯片 · NVIDIA / Google TPU / AMD 全对照
CoWoS "wafer" 不是 GPU 逻辑晶圆,是承载封装的 interposer wafer(中介层晶圆)。一片 300mm wafer ≈ 70,650 mm² 的总面积,扣掉切割损耗实际可用约 60,000 mm²。一片 wafer 上能放多少颗成品封装 = 60,000 ÷ 单颗 package footprint × 良率。
| 芯片 | 封装 | Logic die | HBM 配置 | Package 面积 | 理论数 | 实际产出/wafer |
|---|---|---|---|---|---|---|
| H100 SXM5 | CoWoS-S | 814 mm² | 5×HBM3 (80GB) | ~1,500 mm² | 35-40 | 25-30 颗 |
| H200 | CoWoS-S | 814 mm² | 6×HBM3e (141GB) | ~1,600 mm² | 35-38 | 25-28 颗 |
| B200 (单 die) | CoWoS-L | ~830 mm² | 8×HBM3e (192GB) | ~2,200 mm² | 25-28 | 18-22 颗 |
| GB200 (双 die + Grace) | CoWoS-L | ~1,600 mm² (2×800) | 8×HBM3e (192GB) | ~3,500 mm² | 15-17 | 10-13 颗 |
| B300 (Blackwell Ultra) | CoWoS-L | ~1,600 mm² | 8×HBM3e (288GB) | ~3,800 mm² | 14-16 | 10-12 颗 |
| R100 (Rubin) | CoWoS-L | ~2,200 mm² | 8-12×HBM4 | ~5,000 mm² | 10-12 | 6-8 颗 |
| Rubin Ultra (双 die) | CoWoS-L (5.5×reticle) | ~4,400 mm² | 12-16×HBM4 | ~7,000 mm² | 6-8 | 4-5 颗 |
| Vera CPU | CoWoS-L | ~600 mm² | 无 HBM (LPDDR) | ~1,200 mm² | 45-50 | 30-35 颗 |
📌 趋势:NVIDIA 一片 wafer 的产出从 H100 时代的 25-30 颗 → Rubin Ultra 时代的 4-5 颗,CoWoS 单位价值上升 5-7 倍,但单位 GPU 出货量需要 5-7 倍 wafer 才能满足。
| 芯片 | 封装 | Logic die | HBM 配置 | Package 面积 | 实际产出/wafer |
|---|---|---|---|---|---|
| MI300X | CoWoS-S + SoIC | 8×XCD + 4×IOD ≈ 1,000 mm² | 8×HBM3 (192GB) | 76.8×72 mm = ~2,200 mm² | 18-22 颗 |
| MI300A (APU) | CoWoS-S + SoIC | ~900 mm² (含 CPU) | 8×HBM3 (128GB) | ~2,200 mm² | 18-22 颗 |
| MI355X (CDNA4) | CoWoS-S + SoIC | ~1,100 mm² | 8×HBM3e (288GB) | ~2,400 mm² | 16-20 颗 |
| MI400 系列 | CoWoS-L + SoIC | ~1,800 mm² | 12×HBM4 | ~4,000 mm² | 10-12 颗 |
| EPYC Turin / Venice | SoIC(无 CoWoS) | 12-16 chiplet | 无 HBM | N/A(substrate 封装) | 不占 CoWoS |
📌 AMD 特点:用 chiplet 架构(XCD + IOD + HBM 多 die),所以单 GPU 用的逻辑 die 数量多,但封装总面积接近 NVIDIA 同档次。MI400 切到 CoWoS-L 后产出约 10-12 颗/wafer。
| 芯片 | 设计方 | 封装 | Logic die | HBM | Package 面积 | 产出/wafer |
|---|---|---|---|---|---|---|
| TPU v5p | CoWoS-S | ~600 mm² | 6×HBM3 (96GB) | ~1,400 mm² | 30-35 颗 | |
| TPU v6e (Trillium) | Google + Broadcom | CoWoS-S | ~700 mm² | 2×HBM3e (32GB) | ~1,500 mm² | 28-32 颗 |
| TPU v7 / Ironwood | Google + Broadcom | CoWoS-L | ~700 mm² | 8×HBM3e (192GB) | ~2,200 mm² | 18-22 颗 |
| TPU 8p / 8i (2027) | Google + MediaTek | CoWoS-L | ~800 mm² | 8-10×HBM4 | ~2,800 mm² | 14-18 颗 |
| Meta MTIA v2 | Meta + Broadcom | CoWoS-S | ~500 mm² | 4×HBM3 | ~1,200 mm² | 35-40 颗 |
| AWS Trainium 2 | AWS + Marvell/Alchip | CoWoS-S | ~600 mm² | 4×HBM3 (96GB) | ~1,300 mm² | 32-38 颗 |
| AWS Trainium 3 (Cayman) | AWS + Marvell | CoWoS-R | 2×ASIC + 2×AID | 4×HBM3 | ~1,800 mm² | 22-26 颗 |
| Microsoft Maia 200 | MS + Marvell | CoWoS-S | ~700 mm² | 8×HBM3e | ~2,000 mm² | 20-24 颗 |
📌 关键观察:ASIC 普遍比 GPU 单位 wafer 产出多 30-50%(die 更小 + HBM 更少)。这就是为什么 Google/Meta/AWS 用 24 万片 CoWoS 也能产出和 NVIDIA 80 万片相当的芯片数量。
同一片 CoWoS wafer,做 H100 出 28 颗,做 GB200 出 12 颗,做 Rubin Ultra 只出 5 颗 — 这就是为什么 NVIDIA 拿 60% 产能但实际芯片数没有看起来那么多。
| 客户/产品 | 2026 wafer 锁定 | 单 wafer 产出 | 预计芯片量 |
|---|---|---|---|
| NVIDIA · 共 80-85 万片 | |||
| B200/B300 | 30万片 | 18-22 | ~5.7M 颗 |
| GB200 NVL72 | 25万片 | 10-13 | ~2.9M 颗 |
| Rubin R100/R200 | 15万片 | 6-8 | ~1.0M 颗 |
| Vera CPU | 8万片 | 30-35 | ~2.6M 颗 |
| H100/H200 + 汽车 | 7万片 | 25-28 | ~1.9M 颗 |
| NVIDIA 小计 | 85万片 | — | ~14.1M 颗 |
| Broadcom 集团 · 共 24 万片 | |||
| Google TPU v6e/v7 | 9万片 | 22-30 | ~2.3M 颗 |
| Meta MTIA v2/v3 | 5万片 | 35-40 | ~1.9M 颗 |
| OpenAI 自研 | 1万片 | 25 | ~0.25M 颗 |
| 网络芯片 | 9万片 | 40+ | ~3.6M 颗 |
| Broadcom 小计 | 24万片 | — | ~8.0M 颗 |
| AMD · 共 10-12 万片 | |||
| MI355X | 5万片 | 16-20 | ~0.9M 颗 |
| MI400 系列 | 5万片 | 10-12 | ~0.55M 颗 |
| AMD 小计 | 10万片 | — | ~1.45M 颗 |
| Marvell 集团 · 共 8-10 万片 | |||
| AWS Trainium 3 | 5万片 | 22-26 | ~1.2M 颗 |
| Microsoft Maia 200 | 2万片 | 20-24 | ~0.44M 颗 |
| Google TPU 第二代工 | 1.5万片 | 25 | ~0.4M 颗 |
| Marvell 小计 | 8.5万片 | — | ~2.0M 颗 |
| 2026E AI 芯片总出货(含 NVIDIA CPU + 网络) | ~127万片 | — | ~25.5M 颗 |
📌 注意:这里"颗"是指带 HBM 的封装成品,含 GPU/TPU/ASIC/网络芯片。仅 AI 训练/推理加速器(去掉 Vera CPU、网络、汽车机器人)约 16-18M 颗 / 2026E。
⚠️ 同样是 60% CoWoS 占比,NVIDIA 实际芯片数比 ASIC 阵营少 30-50%(die 更大),这是 ASIC 阵营性价比一直被吹的核心原因。