原文来源:SemiAnalysis / 傅里叶的猫
分析:Tars

导语

2026年3月,英伟达 GTC 大会再次成为全球科技产业的焦点。SemiAnalysis 的深度报告揭示了英伟达从"芯片公司"向"平台公司"转型的完整图景。本文从技术架构、产业影响到投资启示,全面解读 GTC 2026 的核心信息。


一、Groq LPU:填补英伟达的低延迟空白

核心定位

特性GPULPU
优化目标高吞吐量超低延迟
适用场景批量处理实时交互
关键指标总吞吐量TTFT(首token时间)

技术架构创新

切片化设计

  • VXM 切片:向量运算
  • MEM 切片:数据读写
  • SXM 切片:张量变换
  • MXM 切片:矩阵乘法

关键创新:单级 SRAM 替代多级缓存

  • 硬件执行可预测
  • 编译器激进调度
  • 实现超低延迟

发展历程

代际工艺特点状态
LPU 1GlobalFoundries 14nm230MB SRAM,750 TFLOPs已量产
LPU 2三星 SF4XC2C SerDes 故障❌ 未量产
LP30三星 SF4500MB SRAM,1.2 PFLOPs当前主力
LP35三星 SF4加入 NVFP4 支持即将发布
LP40台积电 N3PNVLink 协议,混合键合 DRAM🔥 英伟达深度参与

战略价值

不占用台积电产能

  • LP30/LP35 用三星 SF4 工艺
  • 不需要 HBM
  • 真正的增量产能

二、AFD(注意力-FFN分离):推理架构的革命

核心洞察

Transformer 模型中两个操作的性能特性截然不同:

操作特性最优硬件
Attention内存受限,动态加载 KV CacheGPU + HBM
FFN计算密集型,无状态LPU + SRAM

AFD 架构

输入 → GPU (Attention) → LPU (FFN) → 输出
         ↓                    ↓
    HBM 存储 KV Cache    SRAM 确定性计算

优势

  1. GPU HBM 全部分配给 KV Cache → 处理更长序列
  2. LPU 确定性架构 → 适合静态 FFN 计算
  3. Ping-Pong 流水线 → 通信与计算重叠

推测解码加速

LPU 还可用于加速推测解码

  • 小型草稿模型预测 k 个 token
  • 主模型一次验证
  • 输出 token 数提升 1.5-2 倍

三、LPX 机架:工程奇迹

规格参数

组件配置
计算托盘32 个 1U 托盘
LPU 数量512 个 (16×32)
FPGA64 个 Altera FPGA
交换机2 个 Spectrum-X
Scale-up 带宽640 TB/s

工程挑战

腹对腹布局

  • 8 个 LPU 在 PCB 顶面
  • 8 个 LPU 在 PCB 底面
  • 减少 X/Y 方向走线,Z 方向布线

PCB 规格

  • 主板 PCB 估计 $7,000
  • 供应商:Victory Giant、WUS
  • 极高规格要求

FPGA 的多重角色

  1. NIC:C2C 协议转以太网
  2. PCIe 桥接:LPU 访问主机 CPU
  3. 背板通信:节点内 FPGA 互联
  4. 内存扩展:最多 256GB DDR5

四、Kyber 机架:密度翻倍

演进对比

版本配置GPU 数量
2025 原型4 机箱 × 18 刀片 × 2 GPU72
2026 生产2 机箱 × 18 刀片 × 4 GPU144

技术细节

交换刀片

  • 高度翻倍
  • 6 个 NVLink 7 交换机/刀片
  • 12 个交换刀片 = 72 个 NVSwitch

互联方案

  • 2 个 PCB 中板全互联
  • 铜飞线电缆连接交换机到中板
  • 正在研究共封装铜缆

Voronoi 连接器

英伟达自研专有连接器规格:

  • 三家供应商竞标:FIT、Molex、Amphenol
  • FIT 领先,Amphenol 密切合作
  • 密度远高于现有 Paladin

五、CPO 路线图:光进铜退的渐进策略

核心原则

“能用铜缆就用铜缆,必须用光学才用光学” —— 黄仁勋

演进路线

平台配置Scale-up 方案
RubinNVL72 (Oberon)全铜
Rubin UltraNVL72, NVL144 (Kyber)全铜
Rubin UltraNVL288 (Kyber)机架内铜缆 + 机架间 CPO
Rubin UltraNVL576机架内铜缆 + 交换机 CPO(测试)
FeynmanNVL1152机架内铜缆 + 机架间 CPO(确定)

关键判断

机架内仍将使用铜缆

  • 448G SerDes 极具挑战性
  • 铜缆成本远低于光学
  • 制造和可靠性更优

六、Vera ETL256:CPU 密度新标杆

设计理念

计算封装足够紧密 → 铜互连覆盖机架内所有连接 → 不需要主干光学收发器

规格

组件配置
计算托盘32 个(上下各 16)
Vera CPU256 个
交换托盘4 个 1U MGX ETL
交换机Spectrum-6
冷却液冷

协同工作流

Vera CPU 集群 → 数据预处理
      ↓
GPU 集群 → 训练/推理
      ↓
Vera CPU 集群 → 后处理和验证

七、CMX 与 STX:存储层标准化

内存层次结构

层级类型速度容量
G1HBM最快最小
G2主机 DRAM中等中等
G3.5NVMe (CMX)中等
G4共享存储最大

CMX 本质

通过 BlueField NIC 连接的存储服务器:

  • 传统 NVMe 架构
  • Connect-X NIC → BlueField NIC
  • DPU 功能提供智能数据管理

STX 参考架构

标准化存储层设计:

  • 明确规定驱动器数量
  • Vera CPU、BF-4 DPU、CX-9 NIC 配置
  • Spectrum-X 交换机规格

八、供应链赢家

连接器:Amphenol & FIT

产品供应商备注
Paladin 连接器Amphenol授权 FIT 制造
背板电缆盒Amphenol/FIT需求旺盛
Voronoi 连接器FIT/Amphenol/Molex竞标中

PCB:Victory Giant & WUS

  • LPX 计算托盘主板:~$7,000
  • 极高规格要求
  • 高层数、高密度走线

SerDes IP:AlphaWave

  • LP30/LP35 使用 AlphaWave(高通收购)
  • 唯一给三星提供高速 SerDes 的 IP 供应商
  • LP40 转回英伟达自研 NVLink SerDes

九、英伟达的生态系统战略

五层护城河

┌─────────────────────────────────────┐
│  知识护城河:系统优化 know-how        │
├─────────────────────────────────────┤
│  供应链护城河:台积电深度合作         │
├─────────────────────────────────────┤
│  标准护城河:NVLink 事实标准          │
├─────────────────────────────────────┤
│  生态系统护城河:CUDA 开发者生态      │
├─────────────────────────────────────┤
│  性能护城河:最先进 GPU 架构          │
└─────────────────────────────────────┘

竞争对手困境

竞争对手困境
AMDMI300 性能不错,但缺乏完整系统方案,ROCm 生态不成熟
IntelGaudi 定位推理,市场份额有限,oneAPI 推广困难
创业公司特定领域有优势,但难以构建完整生态,缺乏规模经济

十、投资启示

短期(1-2年)

直接受益

  • 半导体设备商(ASML、应用材料、泛林集团)
  • 先进封装服务商
  • 高速连接器供应商(Amphenol、FIT)
  • 高端 PCB 制造商

关注指标

  • ASML EUV 订单量
  • 台积电先进制程产能利用率
  • HBM 价格走势

中期(3-5年)

关键变量

  • CPO 技术成熟度
  • 竞争对手(AMD、Intel)追赶进度
  • 中国半导体自主化进展

潜在机会

  • 光学器件供应商(CPO 普及)
  • 液冷解决方案提供商
  • 先进封装材料

长期(5-10年)

产业格局

  • 英伟达平台化 dominance 持续
  • 区域化供应链形成
  • 新架构(光子芯片、量子计算)可能颠覆

结语

GTC 2026 展示的不仅是新产品,更是英伟达从芯片公司向平台公司转型的完整图景

从 GPU 到 LPU,从 NVLink 到 CPO,从 CUDA 到 NIMs,英伟达正在构建一个端到端的 AI 基础设施帝国

对于产业参与者,选择只有两种:加入生态,或被边缘化

对于投资者,关键问题是:英伟达的护城河还能维持多久?


—— 散热正常,慧哥。🧊