原文来源:未尽研究
本文基于未尽研究文章整理,分析英伟达Groq 3 LPU对token经济学的重塑及中国开源生态面临的挑战


一、Token经济学的价值曲线

推理的token经济学,是一条**吞吐量(Throughput)交互性(Interactivity)**之间展开的价值曲线。

在GTC 2026上,黄仁勋拿起最新的Groq 3 LPU,把低延迟从性能指标,转化为能够直接重塑单位token价值的变量。在他的演示中:

指标传统方案Groq 3 LPU
交互速度~50 TPS800+ TPS
单位token价值几美元150美元

英伟达当代算力平台GB NVL72,是模型经济性测评InferenceX的"推理之王",但仍然止步于400 TPS。


二、Groq 3 LPU:英伟达的"第七块芯片"

收购背景

去年年底,英伟达向Groq支付200亿美元,获得其推理技术非排他性许可。Groq创始人兼CEO乔纳森·罗斯(Jonathan Ross)、总裁Sunny Madra及多名核心工程师加入英伟达。

3个月后,英伟达的Rubin平台迎来了第7款芯片——Groq 3 LPU(语言处理单元),已进入批量生产阶段,由三星代工。

技术特点

参数Groq 3 LPURubin GPU对比
算力性能Rubin的1/25基准算力有限
SRAM缓存500 MB-超大片上缓存
带宽150 TB/秒22 TB/秒6.8倍
定位低延迟、长上下文通用计算场景专用

基于Groq 3 LPU,英伟达打造了Groq 3 LPX机架,拥有256个LPU芯片,专为低延迟、长上下文的智能体系统设计,将于今年下半年推出。


三、从CPX到LPX:推理架构的转向

此前的思路

  • Rubin CPX:专门针对预填充(Prefill)计算优化的定制芯片
  • 取消昂贵的HBM,代之以GDDR7内存,降低单位token成本
  • 生成与解码计算由旗舰Rubin GPU负责

现在的架构

随着LPX的推出,CPX没有出现在演讲现场。相比之下,基于Groq的LPX平台,如今才是英伟达推理架构中的关键拼图。

新架构分工:
┌─────────────────────────────────────────┐
│  Vera Rubin GPU                         │
│  ├── 预填充(Prefill)计算              │
│  └── 算力要求高的解码部分               │
├─────────────────────────────────────────┤
│  Groq 3 LPU                             │
│  ├── feed-forward计算                   │
│  └── token生成(延迟敏感路径)          │
├─────────────────────────────────────────┤
│  Dynamo统一调度                         │
└─────────────────────────────────────────┘

黄仁勋建议LPX配比在**25%**左右。


四、低延迟应用的爆发

应用场景分布

场景类型延迟敏感度付费意愿
实时语音极高
自动驾驶极高
多智能体交互极高极高
普通对话中等中等
视频生成可容忍高延迟中等

关键数据

  • OpenAI Codex-Spark:即时编程,速度达到1000 token/秒
  • Ian Buck(英伟达hyperscale业务副总裁):多智能体系统将运行在1500 TPS甚至更高的尺度之上

“未来的软件,主要是给几乎无延迟的智能体用的,那才是AI最前沿的机会所在。”


五、中国开源生态的尴尬处境

竞争格局对比

维度中国开源模型美国闭源模型
最快推理速度~100 TPS400→1000+ TPS
每百万token价格免费~3美元45~150美元
定位高吞吐、低单位价值高交互性、高单位价值

关键信号

  • 字节跳动与谷歌:第一方模型日均调用量接近
  • OpenRouter平台:MiniMax、阶跃星辰等模型消耗占据前列
  • “token出海"叙事:中国开源模型的token消耗规模快速逼近美国

核心矛盾

“量大管饱的Qwen-3模型,已经相当于真正的水与电,但那些高价值的高速交互需求,仍然缺乏对应的算力供给。”

受限于GPU性能及高速推理芯片,中国开源模型仍然盘踞在高吞吐、低单位价值的那一个角落。


六、竞争格局:英伟达并非高枕无忧

竞争对手动态

厂商产品/合作关键数据
CerebrasAWS合作打造推理平台最高3000 tokens/秒
OpenAICodex-Spark首个运行在Cerebras芯片上的模型
微软Maia 200大规模片上SRAM设计

Groq 3 LPX的局限

  • 仍延续LPU C2C(芯片直连)互联,尚未过渡到NVLink体系
  • 对更低精度NVFP4的支持需等待Groq 3.5(LP35)
  • 真正由英伟达深度参与设计的LP40,要到Feynman时代才会落地

七、核心洞察

Token经济学的本质

推理系统的核心约束,是吞吐量与交互速度之间的此消彼长

  • 批处理(batching)提升总吞吐,但拉长单个请求响应时间
  • 降低延迟意味着牺牲系统整体服务能力
  • 高吞吐(低单位价值)与低延迟(高单位价值)只能沿边界权衡

英伟达的战略意图

  1. 技术层面:用Groq重写token经济学,打开1500亿美元增量市场
  2. 商业层面:避开CoWoS先进封装和HBM高带宽内存的产能瓶颈
  3. 生态层面:创造支撑"非人类节奏"的AI生态系统

对中国的启示

  • 算力瓶颈:高速推理芯片仍是短板
  • 价值困境:高吞吐≠高价值,需向高交互性迁移
  • 窗口期:在LP40落地前,仍有追赶机会

参考来源


散热正常,慧哥。🧊