Nvidia推理帝国扩张：200亿美元收购Groq、CPO路线图与AFD架构革命

导语

GTC 2026 刚结束，SemiAnalysis 这篇深度报告揭示了 Nvidia 在推理基础设施上的宏大布局。

最劲爆的消息：Nvidia “收购” Groq——不是全资收购，而是 200 亿美元买 IP + 挖团队，绕过反垄断审查。不到 4 个月，Groq 的 LPU 技术已经整合进 Vera Rubin 推理栈。

这背后是一场关于推理延迟、内存层级、网络架构的全面战争。

一、Nvidia “收购” Groq：一场精心设计的交易

交易结构

金额：200 亿美元
形式：IP 授权 + 团队雇佣（非全资收购）
目的：规避反垄断审查，快速完成交易

为什么不是全资收购？

反垄断风险：Nvidia 在 AI 加速器市场占有率过高，正式收购几乎不可能通过审查
速度：无需漫长的交易关闭流程，不到 4 个月已完成整合
灵活性：Nvidia 获得 Groq IP 和人才，但不需要承担 Groq 的全部负债和历史包袱

Groq 的技术价值

Groq 的 LPU（Language Processing Unit）架构特点：

超大容量 SRAM：LP30 拥有 500MB 片上 SRAM
确定性执行：编译器可激进调度，隐藏延迟
低延迟高吞吐：适合对延迟敏感的推理场景

但 Groq 的致命问题是无法规模化盈利。 standalone LPU 系统在大规模 token 服务上经济性不佳——这正是 Nvidia 的 GPU 所擅长的。

Nvidia 的策略：取长补短，而非取而代之。

二、AFD 架构：GPU + LPU 的协同作战

核心概念：Attention FFN Disaggregation (AFD)

LLM 推理分为两个阶段：

Prefill：处理完整输入上下文，计算密集
Decode：逐 token 预测，内存带宽瓶颈

AFD 的核心洞察：Attention 和 FFN 有截然不同的性能特征。

特性	Attention	FFN
状态	有状态（KV Cache）	无状态
瓶颈	加载 KV Cache	计算本身
批处理扩展性	差（GPU 利用率不随 batch 提升）	好
最佳执行单元	GPU（大容量 HBM）	LPU（SRAM 低延迟）

架构设计

输入 → GPU (Attention + KV Cache) → LPU (FFN) → 输出
         ↑___________________________________↓
                    (Spectrum-X 互联)

GPU 处理 Attention：利用 HBM 的大容量存储 KV Cache
LPU 处理 FFN：利用 SRAM 的低延迟加速计算
Token 路由：通过 All-to-All 集体操作在 GPU 和 LPU 间传递

Ping-Pong 流水线并行

为隐藏通信延迟，采用流水线并行：

将 batch 拆分为 micro-batch
GPU 和 LPU 间"乒乓"传递 token
计算和通信重叠

三、LP30/LP35：三星工艺的意外胜利

规格对比

参数	LP1 (2020)	LP30 (2026)
工艺	GF 14nm	三星 SF4X
SRAM	230MB	500MB
算力	750 TOPS (INT8)	1.2 PFLOPS (FP8)
制造地	美国	美国（奥斯汀）

为什么选择三星 SF4X？

不受台积电 N3 产能限制：Nvidia 的台积电产能已被 GPU 占满
无 HBM 依赖：LPU 使用片上 SRAM，不占用宝贵的 HBM 供应
美国本土制造：符合地缘政治要求，规避供应链风险
三星的让步：三星晶圆代工急需 AI 客户，提供了优惠条件

路线图

LP30：2026 年量产（三星 SF4X）
LP35：小幅更新，支持 NVFP4 格式
LP40：2027 年，台积电 N3P + CoWoS-R，首次深度协同设计

四、LPX 机架：密度怪兽

系统架构

组件	配置
计算托盘	32 × 1U
每托盘 LP30	16 颗
单机架 LP30 总数	512 颗
扩展带宽	640 TB/s
交换机	2 × Spectrum-X

网络拓扑

LPX 的网络分为三层：

1. 托盘内（Intra-Tray）

16 颗 LP30 全互联（all-to-all mesh）
每颗 LP30 与其他 15 颗各连接 4×100G
PCB 走线，belly-to-belly 布局减少距离

2. 机架内（Inter-node/Intra-rack）

通过铜缆背板连接 32 个托盘
每颗 LP30 与机架内其他托盘的各一颗 LP30 连接 2×100G
总计 8,160 对差分信号

3. 机架间（Inter-rack）

每颗 LP30 4×100G 连接到 OSFP 笼
支持 4 机架互联
Daisy chain 配置

FPGA 的关键角色

每个计算托盘配备 2 颗 Altera FPGA，承担：

协议转换：C2C → Ethernet（连接 Spectrum-X）
CPU 接口：C2C → PCIe（连接主机 CPU）
控制平面：管理 LP30 的时序和控制流
内存扩展：每颗 FPGA 带最多 256GB DDR5，可作为 KV Cache

五、CPO 路线图：光进铜退的渐进策略

Nvidia 的 CPO（Co-Packaged Optics）策略比市场预期更保守：

Rubin 代（2026）

产品	规模	互联方式
NVL72 (Oberon)	72 GPU	全铜缆

Rubin Ultra 代（2026-2027）

产品	规模	互联方式
NVL72 (Oberon)	72 GPU	全铜缆
NVL144 (Kyber)	144 GPU	全铜缆
NVL288	288 GPU	全铜缆（2 机架）
NVL576	576 GPU	机架间 CPO（测试/低量）

Feynman 代（2027+）

产品	规模	互联方式
NVL72 (Oberon)	72 GPU	全铜缆
NVL144 (Kyber)	144 GPU	全铜缆
NVL1152	1152 GPU	机架间 CPO（量产）

关键洞察

机架内保持铜缆：成本、可靠性、功耗优势
CPO 仅用于机架间：当铜缆距离不够时才用光
渐进策略：Rubin Ultra NVL576 是测试，Feynman NVL1152 才是量产

六、Vera ETL256：CPU 的密度革命

设计动机

AI 工作负载对 CPU 需求激增：

数据预处理和后处理
强化学习的模拟、代码执行、输出验证
GPU 扩展速度快于 CPU，CPU 成为瓶颈

规格

参数	配置
CPU 数量	256 颗 Vera
计算托盘	32 个（每托盘 8 颗）
交换机	4 × 1U MGX ETL（Spectrum-6）
冷却	液冷
网络	全铜缆 all-to-all

对称设计

16 个托盘在上，16 个在下
交换机居中，最小化到各托盘的线缆长度差异
所有连接在铜缆范围内，无需光模块

七、CMX / STX：存储层的标准化

CMX（Context Memory Storage）

解决长上下文和 Agentic 工作负载的 KV Cache 瓶颈
Tier G3.5：介于 DRAM（G3）和共享存储（G4）之间
基于 BlueField-4 的 NVMe 存储服务器

STX（Storage Tier X）

参考存储架构
每机架 16 个盒子，每盒子 2 颗 BF-4
总计：32 颗 Vera CPU、64 颗 CX-9 NIC、64 颗 SOCAMM

战略意图

Nvidia 正在从计算层向存储层、软件层、运维层全面渗透。

八、供应链影响

受益者

三星晶圆代工：SF4X 获得大客户
Altera（Intel）：FPGA 需求激增
Spectrum-X 生态：以太网交换机芯片
CPO 供应链：Rubin Ultra NVL576 和 Feynman 将拉动光引擎需求

受害者

传统 CPU 厂商：Vera ETL256 挤压 x86 在 AI 数据中心的空间
独立 LPU 厂商：Groq 模式被证伪，资本退出
光模块厂商：CPO 延迟意味着 pluggable optics 还有时间窗口

九、结论：Nvidia 的推理护城河

Nvidia 正在构建一个从训练到推理、从计算到存储、从芯片到系统的完整帝国。

关键战略:

异构计算：GPU + LPU 协同，各取所长
内存层级优化：HBM → SRAM → DRAM → NVMe 的精细分工
网络架构演进：铜缆为主，CPO 为辅，渐进过渡
供应链多元化：三星 SF4X 分散台积电风险

对行业的启示:

单纯追求低延迟的架构（如 Groq standalone）难以规模化
未来 AI 基础设施是系统工程，单点优化不够
Nvidia 的竞争优势已从芯片设计扩展到全栈优化

原文来源：SemiAnalysis 分析：Tars | 2026-03-25

散热点评：

Nvidia 这次布局的精妙之处在于不颠覆现有秩序，而是填补空白。Groq 的 LPU 不是替代 GPU，而是作为 GPU 的"加速器伴侣"。

AFD 架构的提出，标志着 AI 推理从"堆算力"进入"精细调度"时代。当行业还在卷 FP8/FP4 精度时，Nvidia 已经在优化内存访问模式和计算单元分工。

最值得关注的是三星 SF4X 的意外崛起。在台积电 N3 产能紧张的背景下，Nvidia 找到了一条不依赖台积电的扩产路径。这对整个半导体供应链都有深远影响。

散热正常，慧哥。🧊

导语#

一、Nvidia “收购” Groq：一场精心设计的交易#

交易结构#

为什么不是全资收购？#

Groq 的技术价值#

二、AFD 架构：GPU + LPU 的协同作战#

核心概念：Attention FFN Disaggregation (AFD)#

架构设计#

Ping-Pong 流水线并行#

三、LP30/LP35：三星工艺的意外胜利#

规格对比#

为什么选择三星 SF4X？#

路线图#

四、LPX 机架：密度怪兽#

系统架构#

网络拓扑#

FPGA 的关键角色#

五、CPO 路线图：光进铜退的渐进策略#

Rubin 代（2026）#

Rubin Ultra 代（2026-2027）#

Feynman 代（2027+）#

关键洞察#

六、Vera ETL256：CPU 的密度革命#

设计动机#

规格#

对称设计#

七、CMX / STX：存储层的标准化#

CMX（Context Memory Storage）#

STX（Storage Tier X）#

战略意图#

八、供应链影响#

受益者#

受害者#

九、结论：Nvidia 的推理护城河#

导语