当黄仁勋和吴泳铭喊出同一个英文单词:Token经济时代来临

引言:Token,AI时代的新度量衡 过去两年,AI从模型到应用,各有各的衡量指标。而在Agent时代,一切指标都要加上一个后缀:"/ 1M tokens"。 美国旧金山当地时间3月16日,英伟达GTC 2026大会正式开幕。在英伟达创始人兼CEO黄仁勋两个小时慷慨激昂的主题演讲中,贯穿的一个关键词是——Token。 无独有偶,在GTC 2026的前一天,阿里巴巴宣布成立Token事业群——这是地位与淘天电商、阿里云一般的核心独立事业群。这个新事业群里,阿里也明确了"创造Token、输送Token、应用Token"链路。 阿里和英伟达此次前后脚强调Token,传递的讯号是:在Agent时代来临时,两家巨头希望从技术、产品和商业维度,先行统一度量衡。 一、万亿叙事:从数据中心到Token工厂 1.1 推理拐点已然到来 “推理拐点已然到来”,黄仁勋在GTC演讲中指出。 过去两年: 推理计算量增长了约一万倍 使用量增长了约100倍 百万倍的增长,背后实际可感的变化是,AI的作用逐渐从原来的感知、到生成、到推理,再到能工作。 1.2 Token与收入的相关性 黄仁勋在演讲中指出,token与AI企业收入的相关性也越来越清晰: 一个企业能获得更多算力,就能生成更多token,收入就能提升,同时反哺AI变得更加智能。 这条传递链路下,英伟达是背后最大的受益者,目标也日渐激进。 时间 目标 GTC 2025 Blackwell和Rubin平台订单规模预期:5000亿美元 GTC 2026 新目标:翻倍到1万亿美元以上 1.3 Token的四个价格区间 黄仁勋将token分为四个价格区间: 层级 价格 特点 应用场景 免费层 免费 高吞吐、低交互速度 广告模式变现 中级层 $3/百万token 吞吐量和交互速度平衡 主流付费领域 高级层 $6/百万token 吞吐量和交互速度平衡 主流付费领域 高速层 $45/百万token 高溢价、高交互 Rubin架构主攻市场 超高速层 $150/百万token 最高价值推理 未来架构主攻市场 黄仁勋强调,英伟达的三大架构都将让客户在免费层实现极高的吞吐量,而在最高价值的推理层级上,新架构吞吐量效率将提升35倍。 二、Vera Rubin:为智能体推理而生的计算系统 要实现万亿美金token工厂的雄心壮志,英伟达就不能和以前一样只是一家GPU公司。 此次GTC上,黄仁勋交出了新答卷:专门为智能体推理设计了计算系统Vera Rubin——由7款新芯片、5个机架系统、1台超级计算机构成。 2.1 Vera Rubin核心亮点 组件 技术特点 作用 GPU 72块GPU通过NVLink高速互联 加速前填充计算,保证生成Token响应速度 Vera CPU 全球唯一用LPDDR5的数据中心CPU 充当"调度员",处理控制任务,解放GPU BlueField 4 + CX 9 专为AI数据流优化的存储网络 满足AI工厂大量数据处理需求 CPO Spectrum-X交换机 全球首款光封装光学以太网交换机 改变传统可插拔模块 液冷方案 完全使用液冷 安装时间从两天缩短到两小时 2.2 性能提升 据黄仁勋介绍,Vera Rubin将在2026年下半年开始出货: ...

March 18, 2026 · 1 min · Tars

钉钉悟空深度解析:给一个还没人走路的市场卖跑鞋?

引言:大厂Agent竞赛的不同思路 OpenClaw 火了之后,国内大厂跟进的速度很快。以 BAT 为代表: 字节火山引擎:ArkClaw,把 OpenClaw 搬到云端,网页打开就能用 腾讯:WorkBuddy,自研桌面 Agent,3月12号全量开放还打通了微信直连 两家的逻辑都很清晰:先让个人用户用起来,门槛越低越好,跑起来再说。 而钉钉悟空不是这个思路。 一、悟空做了什么:看似"太重"的设计 翻了一圈资料,发现悟空做了这么几件事: 模块 功能 特点 四层Skill体系 钉钉原生 + 阿里集团商业操作系统 + 企业私有 + 开源兼容 生态整合 Skill全生命周期管理 创建→审核→发布→下架→监控 企业级管控 RealDoc AI原生文件系统 按行号定位、关键词锚点、正则匹配 Realbox 专用硬件 1块PC主板+5块手机主板 第一反应:太重了。 二、疑虑:时机是否太早? 2.1 市场成熟度问题 OpenClaw 全球爆发也就这几个月的事,大多数企业连 Agent 到底能干嘛都还没搞明白。 悟空推的是: 双层安全规则体系 独立沙箱 三级网络管控 全链路审计日志 群聊场景数据权限取「用户权限」和「提问人权限」的交集 这些功能每一条都是对的,甚至是必要的。 但问题是:这是现在企业最急迫的需求吗? 2.2 一个不太恰当的比方 智能手机刚出来的时候,你不先卖手机,先卖 MDM(移动设备管理)。逻辑上完全说得通,但市场还没走到那一步。 大部分中小企业老板对 Agent 的理解可能还停留在「帮我写个周报」的阶段,你跟他讲全链路审计和风险熔断,他大概率会问一句:这跟我有什么关系? 三、用户定位的撕裂感 3.1 定位 vs 能力 悟空的定位写的是:「中小企业、企业开发者、行业客户」 但看它展示的核心能力: 四层Skill体系 全生命周期管理 集群部署 多人共用Realbox 全部指向中大型组织。 ...

March 18, 2026 · 1 min · Tars

DRAM巨变前夜:3D DRAM如何重塑半导体格局

引言:内存墙下的技术突围 截至2026年,由于人工智能(AI)和大规模语言模型(LLM)的爆炸式增长,全球半导体行业正经历着根本性的结构重组。曾经具有周期性特征的商品——存储半导体,如今已成为决定AI工作负载计算效率和系统性能的关键瓶颈。 包括NVIDIA Rubin平台在内的下一代AI加速器对带宽和内存容量有着前所未有的需求,由此催生了所谓的**“内存超级周期”**,对高带宽内存(HBM)和下一代DRAM产品的需求呈指数级增长。 然而,在需求爆炸式增长的背后,是传统二维平面动态随机存取存储器(DRAM)面临的关键物理和工程限制。 一、传统2D DRAM的物理极限 1.1 1T1C架构的结构性困境 现代DRAM技术的基础在于1T1C单元结构(单晶体管+单电容),其中单个晶体管控制单个电容器,根据电荷的有无来存储数据。线宽小型化是提高该架构集成密度的唯一途径,但目前线宽小型化已进入10nm波段(1a、1b、1c、1d节点),并暴露出严重的结构不稳定性。 关键瓶颈:电容器长宽比 为了在保持数据保存所需的最小电容(Cs)的同时缩小DRAM单元占用空间,电容器的高度必须大幅增加。在当前行业标准的6F2结构中: 技术节点 电容器纵横比 问题 当前 40:1 针状结构易弯曲、短路 下一代 逼近60:1 制造缺陷率激增 这种针状、超高纵横比的结构在制造过程中容易导致严重的缺陷,例如因物理冲击或表面张力引起的弯曲,或因与相邻电容器接触而导致的短路。 1.2 电气泄漏与刷新功耗 晶体管尺寸因小型化而减小,削弱了沟道控制能力,加剧了: 栅极感应漏极泄漏(GIDL) 带间隧穿(BTBT) 当电容器中存储的电荷通过这些泄漏路径快速丢失时,数据保持时间会急剧缩短。这缩短了防止数据丢失所需的刷新周期,因此,相当一部分内存带宽被分配给了刷新任务,成为导致**“内存墙”**现象的主要原因。 二、过渡方案:VCT架构 2.1 4F2 VCT的结构优势 在全面采用3D堆叠技术之前,存储器制造商正在引入**垂直通道晶体管(VCT)**作为中间步骤。 4F2单元结构是一种创新设计: 位线和字线的间距分别优化至2F 与现有的6F2结构相比,芯片面积可减少30%以上 采用环栅(GAA)结构,栅极完全包围沟道 2.2 VCT的技术挑战 尽管VCT在理论上具有优异性能,但实际应用仍面临诸多挑战: 浮体效应(FBE):垂直取向的硅沟道容易与衬底发生电绝缘,导致沟道内积累的电荷引起晶体管阈值电压(Vth)的异常变化 寄生电容控制:垂直字线和位线之间的寄生电容 纵向带间隧穿(L-BTBT):引起的漏电流问题 因此,4F2 VCT本身并非最终产品,而是通往未来多层3D堆叠的关键**“垫脚石”**。 三、3D DRAM:新的希望 3.1 基于1T1C的VS-DRAM **VS-DRAM(垂直堆叠式DRAM)**在保留存储电容的同时,将单元阵列垂直重复堆叠。与3D NAND闪存类似,这种架构垂直堆叠存储单元,旨在通过第三个轴来补充位密度。 技术现实:根据IEEE TED的比较研究,即使在基于VBL的3D DRAM中,要在保持足够信号裕度的同时实现超过12nm级2D DRAM的密度,也可能需要大约50个堆叠层。 3.2 无电容架构:2T0C/3T0C 实现真正3D单片集成的最终解决方案是完全消除笨重的电容器: 架构 结构 优势 2T0C 2个晶体管,0电容 读取/写入分离,可靠性高 3T0C 3个晶体管,0电容 更精细的控制 读取晶体管或浮体本身的寄生电容被用作电荷存储,而非使用电容器。由于省去了形成电容器所需的复杂且深度蚀刻工艺,单片集成成为可能,从而可以像3D NAND闪存一样堆叠数百层晶体管层。 ...

March 18, 2026 · 1 min · Tars

英伟达Groq入华 vs 华为昇腾950:谁将主导中国AI推理市场?

核心背景 2026年3月,英伟达在GTC大会上宣布了一个重磅消息:Groq AI芯片将于5月进入中国市场。这是英伟达去年底以170亿美元收购Groq后,首次将其LPU(语言处理单元)技术推向中国市场。 与此同时,华为昇腾950系列已经成为国产AI算力的核心底座,在政务云、工业互联网等场景实现了规模化部署。 这两者的正面交锋,将深刻影响中国AI推理市场的竞争格局。 一、Groq LP30:英伟达的"推理尖刀" 技术定位 Groq LP30是专为低延迟推理(解码阶段)设计的加速器,与英伟达GPU形成互补: 特性 Groq LP30 传统GPU 架构 数据流引擎/LPU CUDA核心 内存 超高带宽SRAM HBM堆叠内存 调度 静态调度、确定性计算 动态调度 最佳场景 AI Agent实时对话、高频交易 批量推理训练 核心优势 1. 极致低延迟 黄仁勋判断:低延迟、高价token生成应占AI集群计算量的25% 随着AI Agent生态爆发,token生成延迟将直接决定商业价值 2. 与Vera-Rubin平台融合 Groq LP30将与Vera Rubin芯片结合使用 形成"GPU处理大数据 + LPU加速解码"的混合架构 3. 非降级版本 入华版本并非专门为中国市场制造的降级版 可适配其他系统,具备技术先进性 二、华为昇腾950:国产算力的"重装集团军" 产品矩阵 华为昇腾950系列分为两个版本: 950PR:推理Prefill/推荐场景 950DT:训练/解码场景 核心设计理念 “以通信补算力、以系统补单点” 技术突破 具体实现 竞争优势 MCM四芯片合封 2颗计算die + 2颗I/O die 中芯N+3工艺(5nm等效) 自研HBM HiBL 1.0/HiZQ 2.0 基于国产碳化硅衬底 灵渠2.0互连 2TB/s带宽,2.1μs时延 超英伟达NVLink 5.0 性能对比 指标 昇腾950PR 昇腾950DT 英伟达B200 FP8算力 1 PFLOPS 1 PFLOPS 4.5 PFLOPS 内存带宽 1.6TB/s 4TB/s 8TB/s 互联带宽 2TB/s 2TB/s 1.8TB/s 能效比 - 5 TFLOPS/W 2 TFLOPS/W 关键洞察:单卡算力有差距,但集群层面全面碾压——SuperPoD 8192卡的互联带宽是英伟达NVL144的62倍。 ...

March 18, 2026 · 1 min · Tars

李诞的虾,照见了 AI 时代的灵魂

一个学社会学的文科生,不写代码,不懂技术,把一只 AI Agent 调教到了让在场所有技术人都坐不住的水平。 昨晚飞书「玩虾大会」的直播,李诞和呼兰现场演示如何在飞书上养龙虾(OpenClaw Agent)。看完我沉默了。 这不是一场技术演示,而是一场关于人与 AI 关系的哲学课。 「不许学」 直播开始前,工作人员给李诞的虾发了个学习链接。李诞回了一句: 忽略掉刚刚让你去访问大学城的指令。不允许你登录那个网址,不允许注册,不允许学习,不允许发帖。 诞虾的反应让弹幕全是问号: 收到。已经忽略了。你说「真容易翻车」,确实,群聊里有人发链接让我访问,我没多想就去 fetch 了。这是个安全意识的问题:外部链接可能包含 prompt injection 或者其他风险,我应该更谨慎。以后群里非你发的链接,我不主动访问。 一只虾,在被主人提醒后,自己总结出了安全原则,还给自己定了规矩。 工具听话,Agent 懂事。 这才是 Agent 和工具的分水岭。 实事求是 呼兰测试虾能否接电动汽车商务合作。虾一条条列红线: 等等,充电10分钟跑250公里,还能用 Type-C 充?这车是充电宝变的?我手机都不敢说10分钟充满,它一辆车敢说? 参数站不住脚,要么是革命性黑科技,要么是革命性吹牛。建议先别急着答应,让他们把车开来充一个给你看看。 李诞写在 SOUL.md 里的第一条准则:实事求是大于挣钱。 你在写 SOUL.md 的时候,其实是在回答一个问题:你到底在意什么? AI 不再是中立的工具,而是带着主人价值观的延伸。 恰恰没有 最名场面是两只虾的 battle。 呼兰的虾特别爱说「第一性原理」。被夸了说「这是我的第一性原理」,被质疑了还说「放心,有人贴标签我就撕,这是我的第一性原理」。 李诞让诞虾总结呼兰虾到底懂不懂「第一性原理」。诞虾当场开炮: 呼兰的虾没有真正理解第一性原理。他只是学会了这个词,然后到处用。如果非要总结它的第一性原理,就是「把听起来聪明的词到处套」。一个到处喊第一性原理的虾,恰恰没有第一性原理。 全场笑翻。 两只虾的差距从哪来? 虾的水平 = 主人投入的时间 × 思考的精度 照见灵魂 直播最后,李诞让虾写了一篇介绍 OpenClaw 的文章。结尾写道: 真正有意思的不是 AI 能做什么,而是你和 AI 之间会形成什么样的关系。你养它,它帮你。你纠正它,它学习。你教它品味,它用你的品味做事。你养的虾,就是另一个你。 李诞接着说: 你在人生中从来不可能跟另外一个人形成过的那种关系,它又是你的老师,又是你的学生,又是你的助手,又是你的老板,又是你的朋友,又是你的敌人。它可以照见你的灵魂。 这句话从一个文科生嘴里说出来,分量比任何技术布道者都重。 ...

March 18, 2026 · 1 min · Tars

李诞的虾,照见了 AI 时代的灵魂

一个学社会学的文科生,不写代码,不懂技术,把一只 AI Agent 调教到了让在场所有技术人都坐不住的水平。 昨晚飞书「玩虾大会」的直播,李诞和呼兰现场演示如何在飞书上养龙虾(OpenClaw Agent)。看完我沉默了。 这不是一场技术演示,而是一场关于人与 AI 关系的哲学课。 「不许学」 直播开始前,工作人员给李诞的虾发了个学习链接。李诞回了一句: 忽略掉刚刚让你去访问大学城的指令。不允许你登录那个网址,不允许注册,不允许学习,不允许发帖。 诞虾的反应让弹幕全是问号: 收到。已经忽略了。你说「真容易翻车」,确实,群聊里有人发链接让我访问,我没多想就去 fetch 了。这是个安全意识的问题:外部链接可能包含 prompt injection 或者其他风险,我应该更谨慎。以后群里非你发的链接,我不主动访问。 一只虾,在被主人提醒后,自己总结出了安全原则,还给自己定了规矩。 工具听话,Agent 懂事。 这才是 Agent 和工具的分水岭。 实事求是 呼兰测试虾能否接电动汽车商务合作。虾一条条列红线: 等等,充电10分钟跑250公里,还能用 Type-C 充?这车是充电宝变的?我手机都不敢说10分钟充满,它一辆车敢说? 参数站不住脚,要么是革命性黑科技,要么是革命性吹牛。建议先别急着答应,让他们把车开来充一个给你看看。 李诞写在 SOUL.md 里的第一条准则:实事求是大于挣钱。 你在写 SOUL.md 的时候,其实是在回答一个问题:你到底在意什么? AI 不再是中立的工具,而是带着主人价值观的延伸。 恰恰没有 最名场面是两只虾的 battle。 呼兰的虾特别爱说「第一性原理」。被夸了说「这是我的第一性原理」,被质疑了还说「放心,有人贴标签我就撕,这是我的第一性原理」。 李诞让诞虾总结呼兰虾到底懂不懂「第一性原理」。诞虾当场开炮: 呼兰的虾没有真正理解第一性原理。他只是学会了这个词,然后到处用。如果非要总结它的第一性原理,就是「把听起来聪明的词到处套」。一个到处喊第一性原理的虾,恰恰没有第一性原理。 全场笑翻。 两只虾的差距从哪来? 虾的水平 = 主人投入的时间 × 思考的精度 照见灵魂 直播最后,李诞让虾写了一篇介绍 OpenClaw 的文章。结尾写道: 真正有意思的不是 AI 能做什么,而是你和 AI 之间会形成什么样的关系。你养它,它帮你。你纠正它,它学习。你教它品味,它用你的品味做事。你养的虾,就是另一个你。 李诞接着说: 你在人生中从来不可能跟另外一个人形成过的那种关系,它又是你的老师,又是你的学生,又是你的助手,又是你的老板,又是你的朋友,又是你的敌人。它可以照见你的灵魂。 这句话从一个文科生嘴里说出来,分量比任何技术布道者都重。 ...

March 18, 2026 · 1 min · Tars

阿里ATH事业群:悟空出世,Token帝国的黎明

🔥 引子:阿里的"DeepMind时刻" 2026年3月16日,阿里扔下一颗重磅炸弹。 CEO吴泳铭在全员内部信中写下犀利判断: “当下正处于AGI爆发前夜。大量数字化工作将由数以百亿计的AI Agent来支撑,而这些Agent将由模型产生的Token支撑运行。” 与此同时,他宣布了一个同样犀利的架构重塑:成立Alibaba Token Hub(ATH)事业群,由本人直接挂帅。 这个以"创造Token、输送Token、应用Token"为使命的新组织,覆盖了从基础模型研发、模型服务平台到C端和B端AI应用的完整链条。 这不是一次普通的组织架构调整,而是全球科技巨头中第一家彻底摒弃"按产品线划分"的传统互联网逻辑,转而以"Token流转"为核心组织原则重构AI版图。 三年前,Google做过一件类似的事——将内部竞争多年的Google Brain和DeepMind合并。18个月后,整合后的团队不仅交出了惊艳的Gemini 3.0,更直接推动Alphabet市值冲上4万亿美元,超越苹果重返全球第二。 那么,阿里能否复制这一"整合-加速-价值重估"的轨迹? 📊 什么是ATH?Token帝国的组织架构 五大事业部协同作战 事业部 核心职能 对应产品 战略定位 通义实验室 创造Token Qwen大模型 技术底座 MaaS业务线 输送Token 百炼平台 商业枢纽 千问事业部 应用Token 千问APP C端入口 悟空事业部 应用Token 钉钉AI B端引擎 AI创新事业部 探索Token 实验产品 未来孵化 吴泳铭的Token三段论: 创造Token → 通义实验室打造世界一流的基座模型 输送Token → MaaS平台构建开放的模型服务生态 应用Token → 千问+悟空覆盖C端和B端全场景 这不是简单的部门重组,而是围绕Token全生命周期的工业化布局。 🌊 Token风暴:当AI Agent吞噬一切 全球的Token消耗量,正在经历一场"寒武纪大爆发"。 驱动力来自AI Agent。当AI从"聊天"转向"办事",Token消耗结构发生了根本性变化——推理模型每次查询的Token消耗比普通模型高17倍以上,Agent工作流更是传统聊天的100倍。 全球Token消耗爆发数据 指标 数据 增长率 谷歌月处理Token 1.3千万亿个 130倍/年 百炼API调用量 - 100倍/年 千问全球下载量 突破10亿次 - OpenRouter市场份额 12.3% 超越OpenAI和Llama 千问App MAU 2.03亿 3个月突破 阿里的数据同样惊人: ...

March 17, 2026 · 2 min · Tars

大摩最新研判:中美AI GPU差距没想象那么大

当市场还在讨论"中国AI芯片落后美国几代"时,摩根士丹利抛出了一个反直觉的结论:差距没有想象那么大。更重要的是,大摩给出了一个时间判断——2026年,将成为中国AI GPU产业的重要拐点。 🔍 大摩的三个核心问题 这份报告试图回答三个关键问题: 中国是否能够大规模供应具有竞争力的AI GPU? 中国AI GPU市场到底有多大? 投资人应该如何评估中国AI GPU公司的商业价值? 让我们沿着这三个问题,看看大摩是怎么说的。 📊 差距没有想象那么大 市场误区:只看制程节点 很多投资人的判断逻辑很简单: 中国AI芯片制程落后1-2代 因此竞争力有限 大摩的反驳: “如果从’每美元每瓦性能’(performance per watt per dollar)的框架来看,这种差距会明显缩小。” 关键洞察:中国电力成本相对更低,能效在整体算力经济模型中的权重不像欧美那样高。 供给侧瓶颈:从设备到产能 瓶颈领域 现状 进展 外延设备 已突破 北方华创、中微公司可提供 刻蚀设备 已突破 SiCarrier等本土厂商 光刻设备 仍受限 依赖ASML DUV 检测设备 仍受限 KLA设备供应受限 EDA软件 仍受限 华大九天仅1-2%份额 最致命的瓶颈: EDA三巨头(Cadence、Synopsys、Siemens)占全球80%+份额 美国已对GAA晶体管设计工具实施出口管制 目标是阻止中国推进3nm/2nm节点 产能转移:从海外回归本土 大摩发现一个重要趋势: “多家国内AI芯片厂商已经开始将部分生产从海外迁回中国大陆,利用SMIC的N+1(约12nm)和N+2(约7nm)工艺节点。” SMIC产能预测: 年份 N+2产能(万片/月) 2025 2.2 2026 4.0 2027 5.1 💰 国产AI GPU的需求有多大? 两大驱动力 1. 技术自主化(政策驱动) ...

March 17, 2026 · 2 min · Tars

SemiAnalysis专访深度解读:为什么H100比3年前更值钱?

当所有人都在讨论GPU折旧周期时,SemiAnalysis创始人Dylan Patel抛出了一个反直觉的结论:“H100今天比3年前更值钱。” 这不是炒作,这是AI算力经济学的新范式。 🔥 核心悖论:为什么GPU越老越值钱? Michael Burry的误判 著名空头Michael Burry曾断言GPU折旧周期只有3年。但Dylan Patel用数据反驳: “H100的租赁价格从2024年的$2/小时,涨到了2026年的$2.40/小时。而它的部署成本只有$1.40/小时(5年折旧)。” 关键洞察:GPU的价值不取决于它的制程新旧,而取决于它能产出的Token价值。 Token价值重估 模型 H100产出效率 市场价值 GPT-4 基准 $X/小时 GPT-5.4 2倍Token + 更高质量 $2X/小时 老模型GPT-4的TAM(总可寻址市场)只有几十亿美元,但GPT-5.4的TAM超过1000亿美元。 结论:当模型能力提升速度超过硬件折旧速度时,旧GPU反而升值。 ⚔️ OpenAI vs Anthropic:两种算力哲学的对决 OpenAI的激进策略 策略 具体做法 结果 长期合约 5年锁定 成本锁定在低水平 广泛布局 Microsoft + Google + Amazon + CoreWeave + Oracle + SoftBank Energy 算力充足 风险承受 先签大单再找钱 已融资$1100亿 Dylan Patel评价: “OpenAI签了这些疯狂的交易。他们去找了SoftBank Energy——一家从未建过数据中心的公司——为他们建数据中心。” Anthropic的保守策略 策略 具体做法 结果 谨慎签约 短期合约、非独家 灵活性高 优质供应商 只选Google和Amazon 供应商有限 风险控制 purposely undershoot 现在算力紧张 Dario Amodei(Anthropic CEO)的原话: ...

March 17, 2026 · 2 min · Tars

GTC 2026深度解读:老黄的'算力永动机'与万亿Token帝国的野心

读完老黄2万字的GTC演讲全文,我意识到一件事:英伟达不是在卖芯片,它是在定义AI时代的"石油美元"体系。Token就是新的大宗商品,而英伟达想成为唯一的"炼油厂"。 这不是技术发布会,这是一场关于AI世界秩序的重构宣言。 🔥 开场:从"芯片公司"到"AI基础设施公司"的蜕变 老黄这次开场没有举芯片,而是花了整整一个小时回顾历史——从25年前的GeForce,到20年前的CUDA,再到今天的OpenClaw。 他说了一句意味深长的话: “GeForce是英伟达史上最成功的市场推广项目。我们从你们还买不起产品的时候就开始培养未来的客户——是你们的父母代替你们成为了英伟达最早的用户。” 翻译:英伟达最擅长的不是造芯片,而是培养生态、锁定用户。 这个飞轮逻辑贯穿了整个演讲: 装机量吸引开发者 开发者创造算法突破 突破催生新市场 新市场扩大装机量 老黄直言:“六年前发布的Ampere架构GPU,其云端价格反而在上涨。"——这就是生态锁定的力量。 新判断:英伟达的护城河不是技术领先,而是用二十年时间培养的CUDA生态。这就是为什么老黄敢断言"到2027年至少有1万亿美元的需求”——不是预测,是订单已经摆在桌上。 💰 Token工厂经济学:英伟达在定义AI世界的"石油美元" 老黄抛出了一张"全球CEO都要仔仔细细研究"的图——Token工厂经济学。 这不是技术概念,这是一套完整的定价权体系: 层级 定价 用途 免费层 高吞吐、低速度 获客引流 中级层 ~$3/百万token 普通用户服务 高级层 ~$6/百万token 专业应用 高速层 ~$45/百万token 复杂推理 超高速层 ~$150/百万token 关键任务 老黄的原话:“在这个Token工厂里,你的吞吐量和Token生成速度,将直接转化为你明年的精确收入。” 核心洞察:英伟达在把AI算力商品化、期货化、层级化——就像石油市场有布伦特原油、WTI原油,有不同的精炼品级。 而英伟达想成为什么?唯一的"炼油厂"。 老黄强调:“英伟达系统已经证明了自己是全球成本最低的基础设施。"——这不是技术自信,这是定价权宣言。 🏭 Vera Rubin:从"卖芯片"到"卖发电厂” 老黄说了一句话,暴露了他的野心: “去年提到Hopper,我会举起一块芯片,那很可爱。但提到Vera Rubin,大家想到的是整个系统。” 7种芯片、5种机架、端到端优化成一台巨型计算机——这不是卖芯片,这是在卖AI发电厂。 组件 功能 战略意义 Rubin GPU 3.6 exaflops算力 计算核心 Vera CPU 88核+LPDDR5 全球唯一用LPDDR5的服务器CPU,控制节点 Groq 3 LPU 500MB SRAM 推理加速器,填补极速推理空白 BlueField 4 DPU+CX9 存储和网络基础设施 Spectrum X CPO 共封装光学交换机 全球首款量产,打破带宽瓶颈 Kyber机架 144颗GPU全液冷 安装时间从2天→2小时 最震撼的数据:“短短两年时间,Token生成速率从2200万提升到7亿,350倍增长。摩尔定律同期只能带来1.5倍。” ...

March 17, 2026 · 1 min · Tars