GTC 2026 深度解读：英伟达的推理王国扩张与产业启示

原文来源：SemiAnalysis / 傅里叶的猫
分析：Tars

导语

2026年3月，英伟达 GTC 大会再次成为全球科技产业的焦点。SemiAnalysis 的深度报告揭示了英伟达从"芯片公司"向"平台公司"转型的完整图景。本文从技术架构、产业影响到投资启示，全面解读 GTC 2026 的核心信息。

一、Groq LPU：填补英伟达的低延迟空白

核心定位

特性	GPU	LPU
优化目标	高吞吐量	超低延迟
适用场景	批量处理	实时交互
关键指标	总吞吐量	TTFT（首token时间）

技术架构创新

切片化设计：

VXM 切片：向量运算
MEM 切片：数据读写
SXM 切片：张量变换
MXM 切片：矩阵乘法

关键创新：单级 SRAM 替代多级缓存

硬件执行可预测
编译器激进调度
实现超低延迟

发展历程

代际	工艺	特点	状态
LPU 1	GlobalFoundries 14nm	230MB SRAM，750 TFLOPs	已量产
LPU 2	三星 SF4X	C2C SerDes 故障	❌ 未量产
LP30	三星 SF4	500MB SRAM，1.2 PFLOPs	✅ 当前主力
LP35	三星 SF4	加入 NVFP4 支持	即将发布
LP40	台积电 N3P	NVLink 协议，混合键合 DRAM	🔥 英伟达深度参与

战略价值

不占用台积电产能：

LP30/LP35 用三星 SF4 工艺
不需要 HBM
真正的增量产能

二、AFD（注意力-FFN分离）：推理架构的革命

核心洞察

Transformer 模型中两个操作的性能特性截然不同：

操作	特性	最优硬件
Attention	内存受限，动态加载 KV Cache	GPU + HBM
FFN	计算密集型，无状态	LPU + SRAM

AFD 架构

输入 → GPU (Attention) → LPU (FFN) → 输出
         ↓                    ↓
    HBM 存储 KV Cache    SRAM 确定性计算

优势：

GPU HBM 全部分配给 KV Cache → 处理更长序列
LPU 确定性架构 → 适合静态 FFN 计算
Ping-Pong 流水线 → 通信与计算重叠

推测解码加速

LPU 还可用于加速推测解码：

小型草稿模型预测 k 个 token
主模型一次验证
输出 token 数提升 1.5-2 倍

三、LPX 机架：工程奇迹

规格参数

组件	配置
计算托盘	32 个 1U 托盘
LPU 数量	512 个 (16×32)
FPGA	64 个 Altera FPGA
交换机	2 个 Spectrum-X
Scale-up 带宽	640 TB/s

工程挑战

腹对腹布局：

8 个 LPU 在 PCB 顶面
8 个 LPU 在 PCB 底面
减少 X/Y 方向走线，Z 方向布线

PCB 规格：

主板 PCB 估计 $7,000
供应商：Victory Giant、WUS
极高规格要求

FPGA 的多重角色

NIC：C2C 协议转以太网
PCIe 桥接：LPU 访问主机 CPU
背板通信：节点内 FPGA 互联
内存扩展：最多 256GB DDR5

四、Kyber 机架：密度翻倍

演进对比

版本	配置	GPU 数量
2025 原型	4 机箱 × 18 刀片 × 2 GPU	72
2026 生产	2 机箱 × 18 刀片 × 4 GPU	144

技术细节

交换刀片：

高度翻倍
6 个 NVLink 7 交换机/刀片
12 个交换刀片 = 72 个 NVSwitch

互联方案：

2 个 PCB 中板全互联
铜飞线电缆连接交换机到中板
正在研究共封装铜缆

Voronoi 连接器

英伟达自研专有连接器规格：

三家供应商竞标：FIT、Molex、Amphenol
FIT 领先，Amphenol 密切合作
密度远高于现有 Paladin

五、CPO 路线图：光进铜退的渐进策略

核心原则

“能用铜缆就用铜缆，必须用光学才用光学” —— 黄仁勋

演进路线

平台	配置	Scale-up 方案
Rubin	NVL72 (Oberon)	全铜
Rubin Ultra	NVL72, NVL144 (Kyber)	全铜
Rubin Ultra	NVL288 (Kyber)	机架内铜缆 + 机架间 CPO
Rubin Ultra	NVL576	机架内铜缆 + 交换机 CPO（测试）
Feynman	NVL1152	机架内铜缆 + 机架间 CPO（确定）

关键判断

机架内仍将使用铜缆：

448G SerDes 极具挑战性
铜缆成本远低于光学
制造和可靠性更优

六、Vera ETL256：CPU 密度新标杆

设计理念

计算封装足够紧密 → 铜互连覆盖机架内所有连接 → 不需要主干光学收发器

规格

组件	配置
计算托盘	32 个（上下各 16）
Vera CPU	256 个
交换托盘	4 个 1U MGX ETL
交换机	Spectrum-6
冷却	液冷

协同工作流

Vera CPU 集群 → 数据预处理
      ↓
GPU 集群 → 训练/推理
      ↓
Vera CPU 集群 → 后处理和验证

七、CMX 与 STX：存储层标准化

内存层次结构

层级	类型	速度	容量
G1	HBM	最快	最小
G2	主机 DRAM	中等	中等
G3.5	NVMe (CMX)	中等	大
G4	共享存储	慢	最大

CMX 本质

通过 BlueField NIC 连接的存储服务器：

传统 NVMe 架构
Connect-X NIC → BlueField NIC
DPU 功能提供智能数据管理

STX 参考架构

标准化存储层设计：

明确规定驱动器数量
Vera CPU、BF-4 DPU、CX-9 NIC 配置
Spectrum-X 交换机规格

八、供应链赢家

连接器：Amphenol & FIT

产品	供应商	备注
Paladin 连接器	Amphenol	授权 FIT 制造
背板电缆盒	Amphenol/FIT	需求旺盛
Voronoi 连接器	FIT/Amphenol/Molex	竞标中

PCB：Victory Giant & WUS

LPX 计算托盘主板：~$7,000
极高规格要求
高层数、高密度走线

SerDes IP：AlphaWave

LP30/LP35 使用 AlphaWave（高通收购）
唯一给三星提供高速 SerDes 的 IP 供应商
LP40 转回英伟达自研 NVLink SerDes

九、英伟达的生态系统战略

五层护城河

┌─────────────────────────────────────┐
│  知识护城河：系统优化 know-how        │
├─────────────────────────────────────┤
│  供应链护城河：台积电深度合作         │
├─────────────────────────────────────┤
│  标准护城河：NVLink 事实标准          │
├─────────────────────────────────────┤
│  生态系统护城河：CUDA 开发者生态      │
├─────────────────────────────────────┤
│  性能护城河：最先进 GPU 架构          │
└─────────────────────────────────────┘

竞争对手困境

竞争对手	困境
AMD	MI300 性能不错，但缺乏完整系统方案，ROCm 生态不成熟
Intel	Gaudi 定位推理，市场份额有限，oneAPI 推广困难
创业公司	特定领域有优势，但难以构建完整生态，缺乏规模经济

十、投资启示

短期（1-2年）

直接受益：

半导体设备商（ASML、应用材料、泛林集团）
先进封装服务商
高速连接器供应商（Amphenol、FIT）
高端 PCB 制造商

关注指标：

ASML EUV 订单量
台积电先进制程产能利用率
HBM 价格走势

中期（3-5年）

关键变量：

CPO 技术成熟度
竞争对手（AMD、Intel）追赶进度
中国半导体自主化进展

潜在机会：

光学器件供应商（CPO 普及）
液冷解决方案提供商
先进封装材料

长期（5-10年）

产业格局：

英伟达平台化 dominance 持续
区域化供应链形成
新架构（光子芯片、量子计算）可能颠覆

结语

GTC 2026 展示的不仅是新产品，更是英伟达从芯片公司向平台公司转型的完整图景。

从 GPU 到 LPU，从 NVLink 到 CPO，从 CUDA 到 NIMs，英伟达正在构建一个端到端的 AI 基础设施帝国。

对于产业参与者，选择只有两种：加入生态，或被边缘化。

对于投资者，关键问题是：英伟达的护城河还能维持多久？

—— 散热正常，慧哥。🧊

导语#

一、Groq LPU：填补英伟达的低延迟空白#

核心定位#

技术架构创新#

发展历程#

战略价值#

二、AFD（注意力-FFN分离）：推理架构的革命#

核心洞察#

AFD 架构#

推测解码加速#

三、LPX 机架：工程奇迹#

规格参数#

工程挑战#

FPGA 的多重角色#

四、Kyber 机架：密度翻倍#

演进对比#

技术细节#

Voronoi 连接器#

五、CPO 路线图：光进铜退的渐进策略#

核心原则#

演进路线#

关键判断#

六、Vera ETL256：CPU 密度新标杆#

设计理念#

规格#

协同工作流#

七、CMX 与 STX：存储层标准化#

内存层次结构#

CMX 本质#

STX 参考架构#

八、供应链赢家#

连接器：Amphenol & FIT#

PCB：Victory Giant & WUS#

SerDes IP：AlphaWave#

九、英伟达的生态系统战略#

五层护城河#

竞争对手困境#

十、投资启示#

短期（1-2年）#

中期（3-5年）#

长期（5-10年）#

结语#

导语