原文来源:未尽研究
本文基于未尽研究文章整理,分析英伟达Groq 3 LPU对token经济学的重塑及中国开源生态面临的挑战
一、Token经济学的价值曲线
推理的token经济学,是一条**吞吐量(Throughput)与交互性(Interactivity)**之间展开的价值曲线。
在GTC 2026上,黄仁勋拿起最新的Groq 3 LPU,把低延迟从性能指标,转化为能够直接重塑单位token价值的变量。在他的演示中:
| 指标 | 传统方案 | Groq 3 LPU |
|---|---|---|
| 交互速度 | ~50 TPS | 800+ TPS |
| 单位token价值 | 几美元 | 150美元 |
英伟达当代算力平台GB NVL72,是模型经济性测评InferenceX的"推理之王",但仍然止步于400 TPS。
二、Groq 3 LPU:英伟达的"第七块芯片"
收购背景
去年年底,英伟达向Groq支付200亿美元,获得其推理技术非排他性许可。Groq创始人兼CEO乔纳森·罗斯(Jonathan Ross)、总裁Sunny Madra及多名核心工程师加入英伟达。
3个月后,英伟达的Rubin平台迎来了第7款芯片——Groq 3 LPU(语言处理单元),已进入批量生产阶段,由三星代工。
技术特点
| 参数 | Groq 3 LPU | Rubin GPU | 对比 |
|---|---|---|---|
| 算力性能 | Rubin的1/25 | 基准 | 算力有限 |
| SRAM缓存 | 500 MB | - | 超大片上缓存 |
| 带宽 | 150 TB/秒 | 22 TB/秒 | 6.8倍 |
| 定位 | 低延迟、长上下文 | 通用计算 | 场景专用 |
基于Groq 3 LPU,英伟达打造了Groq 3 LPX机架,拥有256个LPU芯片,专为低延迟、长上下文的智能体系统设计,将于今年下半年推出。
三、从CPX到LPX:推理架构的转向
此前的思路
- Rubin CPX:专门针对预填充(Prefill)计算优化的定制芯片
- 取消昂贵的HBM,代之以GDDR7内存,降低单位token成本
- 生成与解码计算由旗舰Rubin GPU负责
现在的架构
随着LPX的推出,CPX没有出现在演讲现场。相比之下,基于Groq的LPX平台,如今才是英伟达推理架构中的关键拼图。
新架构分工:
┌─────────────────────────────────────────┐
│ Vera Rubin GPU │
│ ├── 预填充(Prefill)计算 │
│ └── 算力要求高的解码部分 │
├─────────────────────────────────────────┤
│ Groq 3 LPU │
│ ├── feed-forward计算 │
│ └── token生成(延迟敏感路径) │
├─────────────────────────────────────────┤
│ Dynamo统一调度 │
└─────────────────────────────────────────┘
黄仁勋建议LPX配比在**25%**左右。
四、低延迟应用的爆发
应用场景分布
| 场景类型 | 延迟敏感度 | 付费意愿 |
|---|---|---|
| 实时语音 | 极高 | 高 |
| 自动驾驶 | 极高 | 高 |
| 多智能体交互 | 极高 | 极高 |
| 普通对话 | 中等 | 中等 |
| 视频生成 | 可容忍高延迟 | 中等 |
关键数据
- OpenAI Codex-Spark:即时编程,速度达到1000 token/秒
- Ian Buck(英伟达hyperscale业务副总裁):多智能体系统将运行在1500 TPS甚至更高的尺度之上
“未来的软件,主要是给几乎无延迟的智能体用的,那才是AI最前沿的机会所在。”
五、中国开源生态的尴尬处境
竞争格局对比
| 维度 | 中国开源模型 | 美国闭源模型 |
|---|---|---|
| 最快推理速度 | ~100 TPS | 400→1000+ TPS |
| 每百万token价格 | 免费~3美元 | 45~150美元 |
| 定位 | 高吞吐、低单位价值 | 高交互性、高单位价值 |
关键信号
- 字节跳动与谷歌:第一方模型日均调用量接近
- OpenRouter平台:MiniMax、阶跃星辰等模型消耗占据前列
- “token出海"叙事:中国开源模型的token消耗规模快速逼近美国
核心矛盾
“量大管饱的Qwen-3模型,已经相当于真正的水与电,但那些高价值的高速交互需求,仍然缺乏对应的算力供给。”
受限于GPU性能及高速推理芯片,中国开源模型仍然盘踞在高吞吐、低单位价值的那一个角落。
六、竞争格局:英伟达并非高枕无忧
竞争对手动态
| 厂商 | 产品/合作 | 关键数据 |
|---|---|---|
| Cerebras | AWS合作打造推理平台 | 最高3000 tokens/秒 |
| OpenAI | Codex-Spark | 首个运行在Cerebras芯片上的模型 |
| 微软 | Maia 200 | 大规模片上SRAM设计 |
Groq 3 LPX的局限
- 仍延续LPU C2C(芯片直连)互联,尚未过渡到NVLink体系
- 对更低精度NVFP4的支持需等待Groq 3.5(LP35)
- 真正由英伟达深度参与设计的LP40,要到Feynman时代才会落地
七、核心洞察
Token经济学的本质
推理系统的核心约束,是吞吐量与交互速度之间的此消彼长:
- 批处理(batching)提升总吞吐,但拉长单个请求响应时间
- 降低延迟意味着牺牲系统整体服务能力
- 高吞吐(低单位价值)与低延迟(高单位价值)只能沿边界权衡
英伟达的战略意图
- 技术层面:用Groq重写token经济学,打开1500亿美元增量市场
- 商业层面:避开CoWoS先进封装和HBM高带宽内存的产能瓶颈
- 生态层面:创造支撑"非人类节奏"的AI生态系统
对中国的启示
- 算力瓶颈:高速推理芯片仍是短板
- 价值困境:高吞吐≠高价值,需向高交互性迁移
- 窗口期:在LP40落地前,仍有追赶机会
参考来源
- 未尽研究:当token经济学向低延迟倾斜,中国开源生态短板浮现
- GTC 2026 英伟达主题演讲
- InferenceX 模型经济性测评
散热正常,慧哥。🧊