引言:Token,AI时代的新度量衡

过去两年,AI从模型到应用,各有各的衡量指标。而在Agent时代,一切指标都要加上一个后缀:"/ 1M tokens"

美国旧金山当地时间3月16日,英伟达GTC 2026大会正式开幕。在英伟达创始人兼CEO黄仁勋两个小时慷慨激昂的主题演讲中,贯穿的一个关键词是——Token

无独有偶,在GTC 2026的前一天,阿里巴巴宣布成立Token事业群——这是地位与淘天电商、阿里云一般的核心独立事业群。这个新事业群里,阿里也明确了"创造Token、输送Token、应用Token"链路。

阿里和英伟达此次前后脚强调Token,传递的讯号是:在Agent时代来临时,两家巨头希望从技术、产品和商业维度,先行统一度量衡。


一、万亿叙事:从数据中心到Token工厂

1.1 推理拐点已然到来

“推理拐点已然到来”,黄仁勋在GTC演讲中指出。

过去两年:

  • 推理计算量增长了约一万倍
  • 使用量增长了约100倍

百万倍的增长,背后实际可感的变化是,AI的作用逐渐从原来的感知、到生成、到推理,再到能工作

1.2 Token与收入的相关性

黄仁勋在演讲中指出,token与AI企业收入的相关性也越来越清晰

一个企业能获得更多算力,就能生成更多token,收入就能提升,同时反哺AI变得更加智能。

这条传递链路下,英伟达是背后最大的受益者,目标也日渐激进。

时间目标
GTC 2025Blackwell和Rubin平台订单规模预期:5000亿美元
GTC 2026新目标:翻倍到1万亿美元以上

1.3 Token的四个价格区间

黄仁勋将token分为四个价格区间:

层级价格特点应用场景
免费层免费高吞吐、低交互速度广告模式变现
中级层$3/百万token吞吐量和交互速度平衡主流付费领域
高级层$6/百万token吞吐量和交互速度平衡主流付费领域
高速层$45/百万token高溢价、高交互Rubin架构主攻市场
超高速层$150/百万token最高价值推理未来架构主攻市场

黄仁勋强调,英伟达的三大架构都将让客户在免费层实现极高的吞吐量,而在最高价值的推理层级上,新架构吞吐量效率将提升35倍


二、Vera Rubin:为智能体推理而生的计算系统

要实现万亿美金token工厂的雄心壮志,英伟达就不能和以前一样只是一家GPU公司。

此次GTC上,黄仁勋交出了新答卷:专门为智能体推理设计了计算系统Vera Rubin——由7款新芯片、5个机架系统、1台超级计算机构成。

2.1 Vera Rubin核心亮点

组件技术特点作用
GPU72块GPU通过NVLink高速互联加速前填充计算,保证生成Token响应速度
Vera CPU全球唯一用LPDDR5的数据中心CPU充当"调度员",处理控制任务,解放GPU
BlueField 4 + CX 9专为AI数据流优化的存储网络满足AI工厂大量数据处理需求
CPO Spectrum-X交换机全球首款光封装光学以太网交换机改变传统可插拔模块
液冷方案完全使用液冷安装时间从两天缩短到两小时

2.2 性能提升

据黄仁勋介绍,Vera Rubin将在2026年下半年开始出货

  • 推理速度比上一代Blackwell Ultra快5倍
  • Token成本降低10倍
  • 在MoE模型里只需过去1/4的GPU

2.3 异构协同:Dynamo操作系统

英伟达不久前收购了Groq LPU平台,并将其融入了英伟达的计算体系当中。

大而全的Vera Rubin要与短小精悍的Groq LPU融合,必然会产生芯片调度问题。为此,英伟达专门为其打造了一个操作系统Dynamo

可以把Dynamo操作系统理解为一个指挥家,将不同的特性的计算任务,分配给更合适的硬件执行,实现效率最大化。

黄仁勋建议:

  • 若工作负载以高吞吐为主,建议100% Vera Rubin
  • 若大量工作负载为代码生成等高价值token生成诉求,可引入部分Groq芯片,比如25%

Groq LP30已进入量产,由三星代工,预计Q3出货。

这种异构协同设计,将使得数据中心在单位功耗下实现了35倍的性能飞跃,并且同时兼顾超低延迟、高价值推理服务

2.4 未来架构路线图

架构推出时间核心技术
Vera Rubin2026年下半年3D堆叠、LPU集成、异构存储、CPO、铜互联
Vera Rubin Ultra2028年下一代升级
Feynman待定未来架构

三、英伟达版OpenClaw:NeMo Claw

此次演讲中,黄仁勋除了阐述野心,还把篇幅留给了当前大热的OpenClaw——作为人类历史上最受欢迎的开源项目,OpenClaw用几周的时间就超过了Linux过去三十年的成绩。

3.1 OpenClaw的三大功能

黄仁勋认为,OpenClaw有着三大功能:

  1. 能够解决管理资源(工具、大语言模型)
  2. 分解问题且调用智能体
  3. 多模态输出并执行

为此,OpenClaw本质上是一个智能体操作系统,地位和HTML、Linux一样重要。

3.2 从SaaS到AaaS

在黄仁勋看来,未来,OpenClaw将重塑企业IT。未来,每一家SaaS公司将成为AaaS公司(Agent as a Service),在提供工具之外,还将提供每一个特定领域的AI智能体。

“一个原本2万亿美元规模的产业,即将成长为数万亿美元规模”。

3.3 企业级安全:NeMo Claw

黄仁勋也提出警示,当智能体可以自由调用企业的敏感数据和代码,OpenClaw将衍生安全风险。

因此,英伟达也与OpenClaw的开发者Peter Steinberger合作,推出了企业版本NeMo Claw

NeMo Claw不仅集成了英伟达完整的智能体工具包,还提供了一系列的措施(网络护栏、隐私路由等),保证企业方的数据安全。

3.4 Token作为薪酬的一部分?

黄仁勋甚至表示,在未来的硅谷的求职场景中,token可能会成为工程师们年薪总包的一部分,“入职附带token配额”,成为硅谷的新晋招聘话题。


四、图形学的"GPT时刻":DLSS 5

发布会开场,黄仁勋首先发布了神经渲染(Neural Rendering)技术DLSS 5,他将其称之为下一代图形计算技术、“图形学的GPT时刻”

4.1 DLSS 5的构成

在DLSS 5中,英伟达由两部分构成:

  1. 3D图形和结构化数据:负责提供一个确定性的、符合物理规律的虚拟世界框架
  2. 生成式AI和概率计算:用于填充这个"框架",在原有的基础上,补充逼真的细节和动态变化

黄仁勋称,这两种理念的融合,将使得制作的内容美观、经验、且可控。

4.2 数据处理系统

黄仁勋在演讲中也发表了他对于目前数据的看法。

当前,世界上大部分的数据形态存在形式是数据库、PDF、音频、视频。其中,有九成都是非结构化数据,在多模态感知与理解技术出现前,数据很难被高效查询和检索。

为此,英伟达推出了两个全新的数据工具,黄仁勋称其为全网最复杂的数据处理系统

工具处理类型对应DLSS 5部分
cuDF确定性的结构化数据(表格、日志等)3D图形和结构化数据
cuVS概率性的非结构化数据(文本、图像、音视频转语义向量)生成式AI和概率计算

目前,这两个数据平台已经被整合进IBM、戴尔、谷歌云等云服务和OEM体系中。


五、结论:Token生产的主导权之争

黄仁勋两个小时的演讲,提示了一个趋势:

当AI的竞争从"模型竞赛"进入"生产力竞赛",大家将不会像几年前一样抢GPU、抢算力,而是要抢夺token生产的主导权

具体到行动上,英伟达提供的是从:

  • 底层芯片(Rubin/Feynman)
  • 异构架构(GPU+LPU+CPU)
  • 系统设计(全液冷机柜)
  • 上层操作系统(OpenClaw、NemoClaw)
  • 工具(DLSS5、cuDF、cuVS)

生产力套件,希望让token生产过程也像制造业一般,效率化、批量化


本文基于36氪《当黄仁勋和吴泳铭喊出同一个英文单词》整理分析,仅供技术交流参考。

散热正常,慧哥。🧊