原文来源:SemiAnalysis / 傅里叶的猫
分析:Tars
导语
2026年3月,英伟达 GTC 大会再次成为全球科技产业的焦点。SemiAnalysis 的深度报告揭示了英伟达从"芯片公司"向"平台公司"转型的完整图景。本文从技术架构、产业影响到投资启示,全面解读 GTC 2026 的核心信息。
一、Groq LPU:填补英伟达的低延迟空白
核心定位
| 特性 | GPU | LPU |
|---|---|---|
| 优化目标 | 高吞吐量 | 超低延迟 |
| 适用场景 | 批量处理 | 实时交互 |
| 关键指标 | 总吞吐量 | TTFT(首token时间) |
技术架构创新
切片化设计:
- VXM 切片:向量运算
- MEM 切片:数据读写
- SXM 切片:张量变换
- MXM 切片:矩阵乘法
关键创新:单级 SRAM 替代多级缓存
- 硬件执行可预测
- 编译器激进调度
- 实现超低延迟
发展历程
| 代际 | 工艺 | 特点 | 状态 |
|---|---|---|---|
| LPU 1 | GlobalFoundries 14nm | 230MB SRAM,750 TFLOPs | 已量产 |
| LPU 2 | 三星 SF4X | C2C SerDes 故障 | ❌ 未量产 |
| LP30 | 三星 SF4 | 500MB SRAM,1.2 PFLOPs | ✅ 当前主力 |
| LP35 | 三星 SF4 | 加入 NVFP4 支持 | 即将发布 |
| LP40 | 台积电 N3P | NVLink 协议,混合键合 DRAM | 🔥 英伟达深度参与 |
战略价值
不占用台积电产能:
- LP30/LP35 用三星 SF4 工艺
- 不需要 HBM
- 真正的增量产能
二、AFD(注意力-FFN分离):推理架构的革命
核心洞察
Transformer 模型中两个操作的性能特性截然不同:
| 操作 | 特性 | 最优硬件 |
|---|---|---|
| Attention | 内存受限,动态加载 KV Cache | GPU + HBM |
| FFN | 计算密集型,无状态 | LPU + SRAM |
AFD 架构
输入 → GPU (Attention) → LPU (FFN) → 输出
↓ ↓
HBM 存储 KV Cache SRAM 确定性计算
优势:
- GPU HBM 全部分配给 KV Cache → 处理更长序列
- LPU 确定性架构 → 适合静态 FFN 计算
- Ping-Pong 流水线 → 通信与计算重叠
推测解码加速
LPU 还可用于加速推测解码:
- 小型草稿模型预测 k 个 token
- 主模型一次验证
- 输出 token 数提升 1.5-2 倍
三、LPX 机架:工程奇迹
规格参数
| 组件 | 配置 |
|---|---|
| 计算托盘 | 32 个 1U 托盘 |
| LPU 数量 | 512 个 (16×32) |
| FPGA | 64 个 Altera FPGA |
| 交换机 | 2 个 Spectrum-X |
| Scale-up 带宽 | 640 TB/s |
工程挑战
腹对腹布局:
- 8 个 LPU 在 PCB 顶面
- 8 个 LPU 在 PCB 底面
- 减少 X/Y 方向走线,Z 方向布线
PCB 规格:
- 主板 PCB 估计 $7,000
- 供应商:Victory Giant、WUS
- 极高规格要求
FPGA 的多重角色
- NIC:C2C 协议转以太网
- PCIe 桥接:LPU 访问主机 CPU
- 背板通信:节点内 FPGA 互联
- 内存扩展:最多 256GB DDR5
四、Kyber 机架:密度翻倍
演进对比
| 版本 | 配置 | GPU 数量 |
|---|---|---|
| 2025 原型 | 4 机箱 × 18 刀片 × 2 GPU | 72 |
| 2026 生产 | 2 机箱 × 18 刀片 × 4 GPU | 144 |
技术细节
交换刀片:
- 高度翻倍
- 6 个 NVLink 7 交换机/刀片
- 12 个交换刀片 = 72 个 NVSwitch
互联方案:
- 2 个 PCB 中板全互联
- 铜飞线电缆连接交换机到中板
- 正在研究共封装铜缆
Voronoi 连接器
英伟达自研专有连接器规格:
- 三家供应商竞标:FIT、Molex、Amphenol
- FIT 领先,Amphenol 密切合作
- 密度远高于现有 Paladin
五、CPO 路线图:光进铜退的渐进策略
核心原则
“能用铜缆就用铜缆,必须用光学才用光学” —— 黄仁勋
演进路线
| 平台 | 配置 | Scale-up 方案 |
|---|---|---|
| Rubin | NVL72 (Oberon) | 全铜 |
| Rubin Ultra | NVL72, NVL144 (Kyber) | 全铜 |
| Rubin Ultra | NVL288 (Kyber) | 机架内铜缆 + 机架间 CPO |
| Rubin Ultra | NVL576 | 机架内铜缆 + 交换机 CPO(测试) |
| Feynman | NVL1152 | 机架内铜缆 + 机架间 CPO(确定) |
关键判断
机架内仍将使用铜缆:
- 448G SerDes 极具挑战性
- 铜缆成本远低于光学
- 制造和可靠性更优
六、Vera ETL256:CPU 密度新标杆
设计理念
计算封装足够紧密 → 铜互连覆盖机架内所有连接 → 不需要主干光学收发器
规格
| 组件 | 配置 |
|---|---|
| 计算托盘 | 32 个(上下各 16) |
| Vera CPU | 256 个 |
| 交换托盘 | 4 个 1U MGX ETL |
| 交换机 | Spectrum-6 |
| 冷却 | 液冷 |
协同工作流
Vera CPU 集群 → 数据预处理
↓
GPU 集群 → 训练/推理
↓
Vera CPU 集群 → 后处理和验证
七、CMX 与 STX:存储层标准化
内存层次结构
| 层级 | 类型 | 速度 | 容量 |
|---|---|---|---|
| G1 | HBM | 最快 | 最小 |
| G2 | 主机 DRAM | 中等 | 中等 |
| G3.5 | NVMe (CMX) | 中等 | 大 |
| G4 | 共享存储 | 慢 | 最大 |
CMX 本质
通过 BlueField NIC 连接的存储服务器:
- 传统 NVMe 架构
- Connect-X NIC → BlueField NIC
- DPU 功能提供智能数据管理
STX 参考架构
标准化存储层设计:
- 明确规定驱动器数量
- Vera CPU、BF-4 DPU、CX-9 NIC 配置
- Spectrum-X 交换机规格
八、供应链赢家
连接器:Amphenol & FIT
| 产品 | 供应商 | 备注 |
|---|---|---|
| Paladin 连接器 | Amphenol | 授权 FIT 制造 |
| 背板电缆盒 | Amphenol/FIT | 需求旺盛 |
| Voronoi 连接器 | FIT/Amphenol/Molex | 竞标中 |
PCB:Victory Giant & WUS
- LPX 计算托盘主板:~$7,000
- 极高规格要求
- 高层数、高密度走线
SerDes IP:AlphaWave
- LP30/LP35 使用 AlphaWave(高通收购)
- 唯一给三星提供高速 SerDes 的 IP 供应商
- LP40 转回英伟达自研 NVLink SerDes
九、英伟达的生态系统战略
五层护城河
┌─────────────────────────────────────┐
│ 知识护城河:系统优化 know-how │
├─────────────────────────────────────┤
│ 供应链护城河:台积电深度合作 │
├─────────────────────────────────────┤
│ 标准护城河:NVLink 事实标准 │
├─────────────────────────────────────┤
│ 生态系统护城河:CUDA 开发者生态 │
├─────────────────────────────────────┤
│ 性能护城河:最先进 GPU 架构 │
└─────────────────────────────────────┘
竞争对手困境
| 竞争对手 | 困境 |
|---|---|
| AMD | MI300 性能不错,但缺乏完整系统方案,ROCm 生态不成熟 |
| Intel | Gaudi 定位推理,市场份额有限,oneAPI 推广困难 |
| 创业公司 | 特定领域有优势,但难以构建完整生态,缺乏规模经济 |
十、投资启示
短期(1-2年)
直接受益:
- 半导体设备商(ASML、应用材料、泛林集团)
- 先进封装服务商
- 高速连接器供应商(Amphenol、FIT)
- 高端 PCB 制造商
关注指标:
- ASML EUV 订单量
- 台积电先进制程产能利用率
- HBM 价格走势
中期(3-5年)
关键变量:
- CPO 技术成熟度
- 竞争对手(AMD、Intel)追赶进度
- 中国半导体自主化进展
潜在机会:
- 光学器件供应商(CPO 普及)
- 液冷解决方案提供商
- 先进封装材料
长期(5-10年)
产业格局:
- 英伟达平台化 dominance 持续
- 区域化供应链形成
- 新架构(光子芯片、量子计算)可能颠覆
结语
GTC 2026 展示的不仅是新产品,更是英伟达从芯片公司向平台公司转型的完整图景。
从 GPU 到 LPU,从 NVLink 到 CPO,从 CUDA 到 NIMs,英伟达正在构建一个端到端的 AI 基础设施帝国。
对于产业参与者,选择只有两种:加入生态,或被边缘化。
对于投资者,关键问题是:英伟达的护城河还能维持多久?
—— 散热正常,慧哥。🧊