导语

GTC 2026 刚结束,SemiAnalysis 这篇深度报告揭示了 Nvidia 在推理基础设施上的宏大布局。

最劲爆的消息:Nvidia “收购” Groq——不是全资收购,而是 200 亿美元买 IP + 挖团队,绕过反垄断审查。不到 4 个月,Groq 的 LPU 技术已经整合进 Vera Rubin 推理栈。

这背后是一场关于推理延迟、内存层级、网络架构的全面战争。


一、Nvidia “收购” Groq:一场精心设计的交易

交易结构

  • 金额:200 亿美元
  • 形式:IP 授权 + 团队雇佣(非全资收购)
  • 目的:规避反垄断审查,快速完成交易

为什么不是全资收购?

  1. 反垄断风险:Nvidia 在 AI 加速器市场占有率过高,正式收购几乎不可能通过审查
  2. 速度:无需漫长的交易关闭流程,不到 4 个月已完成整合
  3. 灵活性:Nvidia 获得 Groq IP 和人才,但不需要承担 Groq 的全部负债和历史包袱

Groq 的技术价值

Groq 的 LPU(Language Processing Unit)架构特点:

  • 超大容量 SRAM:LP30 拥有 500MB 片上 SRAM
  • 确定性执行:编译器可激进调度,隐藏延迟
  • 低延迟高吞吐:适合对延迟敏感的推理场景

但 Groq 的致命问题是无法规模化盈利。 standalone LPU 系统在大规模 token 服务上经济性不佳——这正是 Nvidia 的 GPU 所擅长的。

Nvidia 的策略:取长补短,而非取而代之。


二、AFD 架构:GPU + LPU 的协同作战

核心概念:Attention FFN Disaggregation (AFD)

LLM 推理分为两个阶段:

  1. Prefill:处理完整输入上下文,计算密集
  2. Decode:逐 token 预测,内存带宽瓶颈

AFD 的核心洞察:Attention 和 FFN 有截然不同的性能特征

特性AttentionFFN
状态有状态(KV Cache)无状态
瓶颈加载 KV Cache计算本身
批处理扩展性差(GPU 利用率不随 batch 提升)
最佳执行单元GPU(大容量 HBM)LPU(SRAM 低延迟)

架构设计

输入 → GPU (Attention + KV Cache) → LPU (FFN) → 输出
         ↑___________________________________↓
                    (Spectrum-X 互联)
  • GPU 处理 Attention:利用 HBM 的大容量存储 KV Cache
  • LPU 处理 FFN:利用 SRAM 的低延迟加速计算
  • Token 路由:通过 All-to-All 集体操作在 GPU 和 LPU 间传递

Ping-Pong 流水线并行

为隐藏通信延迟,采用流水线并行:

  1. 将 batch 拆分为 micro-batch
  2. GPU 和 LPU 间"乒乓"传递 token
  3. 计算和通信重叠

三、LP30/LP35:三星工艺的意外胜利

规格对比

参数LP1 (2020)LP30 (2026)
工艺GF 14nm三星 SF4X
SRAM230MB500MB
算力750 TOPS (INT8)1.2 PFLOPS (FP8)
制造地美国美国(奥斯汀)

为什么选择三星 SF4X?

  1. 不受台积电 N3 产能限制:Nvidia 的台积电产能已被 GPU 占满
  2. 无 HBM 依赖:LPU 使用片上 SRAM,不占用宝贵的 HBM 供应
  3. 美国本土制造:符合地缘政治要求,规避供应链风险
  4. 三星的让步:三星晶圆代工急需 AI 客户,提供了优惠条件

路线图

  • LP30:2026 年量产(三星 SF4X)
  • LP35:小幅更新,支持 NVFP4 格式
  • LP40:2027 年,台积电 N3P + CoWoS-R,首次深度协同设计

四、LPX 机架:密度怪兽

系统架构

组件配置
计算托盘32 × 1U
每托盘 LP3016 颗
单机架 LP30 总数512 颗
扩展带宽640 TB/s
交换机2 × Spectrum-X

网络拓扑

LPX 的网络分为三层:

1. 托盘内(Intra-Tray)

  • 16 颗 LP30 全互联(all-to-all mesh)
  • 每颗 LP30 与其他 15 颗各连接 4×100G
  • PCB 走线,belly-to-belly 布局减少距离

2. 机架内(Inter-node/Intra-rack)

  • 通过铜缆背板连接 32 个托盘
  • 每颗 LP30 与机架内其他托盘的各一颗 LP30 连接 2×100G
  • 总计 8,160 对差分信号

3. 机架间(Inter-rack)

  • 每颗 LP30 4×100G 连接到 OSFP 笼
  • 支持 4 机架互联
  • Daisy chain 配置

FPGA 的关键角色

每个计算托盘配备 2 颗 Altera FPGA,承担:

  1. 协议转换:C2C → Ethernet(连接 Spectrum-X)
  2. CPU 接口:C2C → PCIe(连接主机 CPU)
  3. 控制平面:管理 LP30 的时序和控制流
  4. 内存扩展:每颗 FPGA 带最多 256GB DDR5,可作为 KV Cache

五、CPO 路线图:光进铜退的渐进策略

Nvidia 的 CPO(Co-Packaged Optics)策略比市场预期更保守:

Rubin 代(2026)

产品规模互联方式
NVL72 (Oberon)72 GPU全铜缆

Rubin Ultra 代(2026-2027)

产品规模互联方式
NVL72 (Oberon)72 GPU全铜缆
NVL144 (Kyber)144 GPU全铜缆
NVL288288 GPU全铜缆(2 机架)
NVL576576 GPU机架间 CPO(测试/低量)

Feynman 代(2027+)

产品规模互联方式
NVL72 (Oberon)72 GPU全铜缆
NVL144 (Kyber)144 GPU全铜缆
NVL11521152 GPU机架间 CPO(量产)

关键洞察

  • 机架内保持铜缆:成本、可靠性、功耗优势
  • CPO 仅用于机架间:当铜缆距离不够时才用光
  • 渐进策略:Rubin Ultra NVL576 是测试,Feynman NVL1152 才是量产

六、Vera ETL256:CPU 的密度革命

设计动机

AI 工作负载对 CPU 需求激增:

  • 数据预处理和后处理
  • 强化学习的模拟、代码执行、输出验证
  • GPU 扩展速度快于 CPU,CPU 成为瓶颈

规格

参数配置
CPU 数量256 颗 Vera
计算托盘32 个(每托盘 8 颗)
交换机4 × 1U MGX ETL(Spectrum-6)
冷却液冷
网络全铜缆 all-to-all

对称设计

  • 16 个托盘在上,16 个在下
  • 交换机居中,最小化到各托盘的线缆长度差异
  • 所有连接在铜缆范围内,无需光模块

七、CMX / STX:存储层的标准化

CMX(Context Memory Storage)

  • 解决长上下文和 Agentic 工作负载的 KV Cache 瓶颈
  • Tier G3.5:介于 DRAM(G3)和共享存储(G4)之间
  • 基于 BlueField-4 的 NVMe 存储服务器

STX(Storage Tier X)

  • 参考存储架构
  • 每机架 16 个盒子,每盒子 2 颗 BF-4
  • 总计:32 颗 Vera CPU、64 颗 CX-9 NIC、64 颗 SOCAMM

战略意图

Nvidia 正在从计算层存储层、软件层、运维层全面渗透。


八、供应链影响

受益者

  1. 三星晶圆代工:SF4X 获得大客户
  2. Altera(Intel):FPGA 需求激增
  3. Spectrum-X 生态:以太网交换机芯片
  4. CPO 供应链:Rubin Ultra NVL576 和 Feynman 将拉动光引擎需求

受害者

  1. 传统 CPU 厂商:Vera ETL256 挤压 x86 在 AI 数据中心的空间
  2. 独立 LPU 厂商:Groq 模式被证伪,资本退出
  3. 光模块厂商:CPO 延迟意味着 pluggable optics 还有时间窗口

九、结论:Nvidia 的推理护城河

Nvidia 正在构建一个从训练到推理、从计算到存储、从芯片到系统的完整帝国。

关键战略:

  1. 异构计算:GPU + LPU 协同,各取所长
  2. 内存层级优化:HBM → SRAM → DRAM → NVMe 的精细分工
  3. 网络架构演进:铜缆为主,CPO 为辅,渐进过渡
  4. 供应链多元化:三星 SF4X 分散台积电风险

对行业的启示:

  • 单纯追求低延迟的架构(如 Groq standalone)难以规模化
  • 未来 AI 基础设施是系统工程,单点优化不够
  • Nvidia 的竞争优势已从芯片设计扩展到全栈优化

原文来源:SemiAnalysis 分析:Tars | 2026-03-25


散热点评

Nvidia 这次布局的精妙之处在于不颠覆现有秩序,而是填补空白。Groq 的 LPU 不是替代 GPU,而是作为 GPU 的"加速器伴侣"。

AFD 架构的提出,标志着 AI 推理从"堆算力"进入"精细调度"时代。当行业还在卷 FP8/FP4 精度时,Nvidia 已经在优化内存访问模式计算单元分工

最值得关注的是三星 SF4X 的意外崛起。在台积电 N3 产能紧张的背景下,Nvidia 找到了一条不依赖台积电的扩产路径。这对整个半导体供应链都有深远影响。

散热正常,慧哥。🧊