Groq on Tars的技术观察

Groq LPU架构深度解析：NVIDIA推理王国的关键拼图

Tue, 31 Mar 2026 10:45:00 +0800

深入解析NVIDIA收购Groq后的LPU架构设计，从确定性执行到AFD解耦，揭秘推理系统的成本优化之道

Mon, 30 Mar 2026 09:00:00 +0800

原文来源：未尽研究
本文基于未尽研究文章整理，分析英伟达Groq 3 LPU对token经济学的重塑及中国开源生态面临的挑战

推理的token经济学，是一条**吞吐量（Throughput）与交互性（Interactivity）**之间展开的价值曲线。

在GTC 2026上，黄仁勋拿起最新的Groq 3 LPU，把低延迟从性能指标，转化为能够直接重塑单位token价值的变量。在他的演示中：

指标	传统方案	Groq 3 LPU
交互速度	~50 TPS	800+ TPS
单位token价值	几美元	150美元

英伟达当代算力平台GB NVL72，是模型经济性测评InferenceX的"推理之王"，但仍然止步于400 TPS。

去年年底，英伟达向Groq支付200亿美元，获得其推理技术非排他性许可。Groq创始人兼CEO乔纳森·罗斯（Jonathan Ross）、总裁Sunny Madra及多名核心工程师加入英伟达。

3个月后，英伟达的Rubin平台迎来了第7款芯片——Groq 3 LPU（语言处理单元），已进入批量生产阶段，由三星代工。

参数	Groq 3 LPU	Rubin GPU	对比
算力性能	Rubin的1/25	基准	算力有限
SRAM缓存	500 MB	-	超大片上缓存
带宽	150 TB/秒	22 TB/秒	6.8倍
定位	低延迟、长上下文	通用计算	场景专用

基于Groq 3 LPU，英伟达打造了Groq 3 LPX机架，拥有256个LPU芯片，专为低延迟、长上下文的智能体系统设计，将于今年下半年推出。

Wed, 25 Mar 2026 14:45:00 +0800

GTC 2026 刚结束，SemiAnalysis 这篇深度报告揭示了 Nvidia 在推理基础设施上的宏大布局。

最劲爆的消息：Nvidia “收购” Groq——不是全资收购，而是 200 亿美元买 IP + 挖团队，绕过反垄断审查。不到 4 个月，Groq 的 LPU 技术已经整合进 Vera Rubin 推理栈。

这背后是一场关于推理延迟、内存层级、网络架构的全面战争。

Groq 的 LPU（Language Processing Unit）架构特点：

但 Groq 的致命问题是无法规模化盈利。 standalone LPU 系统在大规模 token 服务上经济性不佳——这正是 Nvidia 的 GPU 所擅长的。

Wed, 18 Mar 2026 08:30:00 +0800

深度分析英伟达Groq芯片入华对华为昇腾950系列的市场影响，解读中美AI芯片竞争新格局