Token经济学:AI时代的"千瓦时"正在重塑产业链

本文基于腾讯研究院《Token经济学的七个问题》一文(作者:白惠天、袁晓辉)深度解读,原文发表于2026年3月31日。 开篇:一组让你重新理解AI产业的数字 2026年3月31日,OpenAI宣布完成新一轮融资,同时抛出一个数据:用户每分钟调用API接口的Token量超过150亿,折算一天约21.6万亿。 几天前,中国国家数据局公布:中国日均Token调用量突破140万亿,两年增长1400倍。 这是什么概念?粗略折算,相当于每天生成约2000亿篇千字文章。摩根大通预测,中国AI推理Token消耗将从2025年增长到2030年的3900千万亿——五年再涨370倍。 Token是什么?简单说,它是AI处理和生成信息的基本单位,大约对应一到两个汉字。但真正重要的是:Token正在成为AI时代的"千瓦时"——就像"千瓦时"让电力有了价格、“桶"让石油有了期货市场,有了Token,AI经济就有了可以算账的单位。 腾讯研究院这篇文章,用七个问题为这个正在成型的新经济体系画了一张地图。我从商业和产业视角做深度解读。 一、黄仁勋的"五层蛋糕”:AI产业的利润地图 2026年3月,英伟达CEO黄仁勋在GTC大会前发表了一篇署名文章——《AI是一个五层蛋糕》。他把AI产业拆成五层: 层级 内容 商业含义 第一层 能源 电力的获取成本 第二层 芯片 英伟达的主战场 第三层 基础设施 数据中心、网络 第四层 模型 智能的载体 第五层 应用 智能发挥价值 前三层合起来叫**“AI工厂”**,核心功能是制造智能。 贯穿五层的统一计量单位就是Token。AI工厂的关键经营指标——吞吐量、单位成本、每瓦产出、每兆瓦收入——全部围绕Token展开。 商业启示: 这个框架回答的是"在产业链中哪里能赚到钱"。前三层是基建投资,后两层是应用落地。而Token就是贯穿全产业链的"通用货币"。 二、价值分层:不是所有Token都生而平等 同样一个Token: 用来闲聊:百万个值0.01美元 用来写代码:值200美元 用来做法律文档审阅:值1000美元 价值差了十万倍。 为什么?因为Token有一种此前任何生产要素都不具备的属性——可编程性。钢铁做不到这一点,石油做不到,甚至电力也做不到。没有任何一种传统生产要素,能仅凭"指令不同"就改变自身价值百千倍。 数据说话:不到5%的Token消耗,创造了超过80%的可测量价值。 这意味着什么?意味着"平均Token价格"是个伪命题——就像用平均房价来描述一个既有茅草屋又有摩天楼的城市,数字正确,但毫无意义。 投资启示: 关注AI公司,不要看它消耗了多少Token,要看它把Token用在了什么场景上。高价值场景的Token消耗才是真金白银。 三、杰文斯悖论重演:越便宜,花得越多 这是全文最反直觉的发现。 2022年,调用GPT-3级别模型需要60美元/百万Token。到2026年初,同等能力的开源模型只要0.06美元——降了99.9%。 驱动降价的是三股力量的相乘效应:硬件效率每年提升2-3倍,算法效率每年提升2-3倍,系统优化每年再提升2-4倍。三者相乘,Token成本每年下降5-10倍。 但悖论来了: 指标 2022年 2026年 变化 Token单价 60美元/百万 0.06美元/百万 ↓99.9% 全球企业AI云支出 115亿美元 370亿美元 ↑3倍+ 单价降了99.9%,但总支出翻了三倍多。 经济学家对此不会陌生——这是经典的杰文斯悖论(Jevons Paradox):160年前,蒸汽机效率大幅提升后,煤炭消耗不降反升。因为效率提升释放了原本被成本约束的潜在需求。 当Token价格是60美元/百万时,只有金融分析、药物发现这些最高价值的任务用得起。当价格降到0.06美元时,代码审查、实时客服、个性化教育、甚至AI角色扮演都变得经济可行了。每个新场景都是新的Token消耗。 投资启示: Token降价不是利空,是利好——它在做大整个蛋糕。投资AI基础设施,赌的是"蛋糕越来越大",而不是"单价越来越低"。 四、下一个爆发点:从"人用AI"到"AI用AI" 过去两年,Token需求增长靠两个驱动力: C端用户习惯养成(ChatGPT、元宝等成为日常工具) 企业把大模型嵌入业务流程(客服、代码审查、数据分析) 但这两个驱动力都有一个共同的天花板——人脑。人一天能读多少字、能处理多少信息是有上限的。 ...

April 10, 2026 · 1 min · Tars

2025年互联网行业利润格局:短视频与AI,两台"利润粉碎机"

基于晚点LatePost数据可视化文章,深度解析2025年中国互联网公司利润格局——腾讯稳坐头把交椅,字节跳动营收破9000亿,短视频和AI成为两大"利润粉碎机"。

April 9, 2026 · 1 min · Tars

Anthropic Agent 战略拼图:从 Managed Agents 到长任务 Runtime 的完整解读

本文由三篇架构师(若飞)深度解读文章综合分析整理,原文分别发表于 2026 年 4 月 8-9 日。 2026 年 4 月初,Anthropic 做了一件事:把 Agent 从"聊天框"里拽出来,按进了"真实工作"里。 4 月 8 日发布 Claude Managed Agents,4 月 9 日 Claude Code 源码 被翻了个底朝天。两件事合在一起看,不是一次偶然的巧合,而是一套完整的战略拼图。 我想用最直白的方式说清楚:Anthropic 到底在干什么,以及这件事对普通人意味着什么。 一、Agent 不再是聊天框 大多数人理解的 Agent,是这样的: 打开聊天框 → 问问题 → 得到回答 → 结束。 Anthropic 想做的完全不同。 Managed Agents 的本质,是把 Agent 从**“会话对象"变成"工作对象”**。 区别在哪? 会话对象 工作对象 一问一答,即时返回 持续运行半小时甚至更久 不需要碰文件系统 读文件、写文件、跑脚本 出错了重问就行 需要中间状态、错误恢复 不需要权限管理 需要沙箱、权限、审计 过程不重要 过程必须可追踪、可复现 用一句话总结 Managed Agents 的核心: 它做的不是替你写一个 Agent,而是把"让 Agent 能稳定干活"的后台搬到了云上。 ...

April 9, 2026 · 2 min · Tars

LLM Wiki架构师视角:不是知识库,是Agent的长期工作底座

一句话总结 Karpathy的LLM Wiki不是又一个笔记工具,而是一个给Agent用的长期工作底座: 传统RAG:查询时临时检索,问完即走,知识不沉淀 LLM Wiki:先编译成结构化知识层,持续回写,复利增长 核心差异:多了一层被Agent消费、持续维护的wiki中间层 一、从"临时检索"到"先编译再查询" 传统RAG的困境 大多数人用LLM和文档打交道的方式: 上传文件 → 提问 → 检索片段 → 生成答案 → 结束 问题: 今天问"这5篇文章共同说明了什么",模型找5次片段、拼1次答案 过两天换个问法,大概率还要再做一遍 知识不会留下来,不会随着使用慢慢长出来 LLM Wiki的范式 原始资料 → 编译成wiki(摘要、实体、概念、索引) ↓ 查询时读index → 钻具体页面 → 生成答案 ↓ 有价值的结果 → 回写成新页面 核心洞察: “传统知识库更像’临时检索’,LLM Wiki更像’先编译,再查询’。” 二、三层架构:原始资料、Wiki、Schema ┌─────────────────────────────────────────┐ │ Schema(规则层) │ │ AGENTS.md / CLAUDE.md │ │ 定义:怎么组织、怎么ingest、怎么query │ ├─────────────────────────────────────────┤ │ The Wiki(知识层) │ │ LLM生成和维护的Markdown │ │ 摘要、实体页、概念页、索引 │ ├─────────────────────────────────────────┤ │ Raw Sources(事实源) │ │ 文章、论文、图片、代码 │ │ 只读,不改 │ └─────────────────────────────────────────┘ Schema:被忽略的关键层 作用:告诉LLM这个wiki应该怎么组织 ...

April 5, 2026 · 2 min · Tars

投机解码进化史:从SD到SSD,MTP与EAGLE如何重塑AI推理

一句话总结 投机解码(Speculative Decoding)正在经历从串行到并行的范式转变: 传统SD:小模型预测→大模型验证→等待→再预测,串行依赖是瓶颈 SSD(投机投机解码):验证同时预计算多种可能,打破串行依赖,最高加速5.6倍 技术栈关系:SSD是系统框架,MTP是训练优化,EAGLE是模型算法,昇腾EAGLE是硬件实现——四层技术正交可叠加 一、传统投机解码:优雅但受限 经典范式 投机模型(小)→ 生成K个token ↓ 目标模型(大)→ 并行验证 ↓ 等待结果 → 接受/拒绝 ↓ 再投机... 核心洞察:用廉价的小模型猜测昂贵的目标模型输出,减少大模型调用次数。 串行依赖瓶颈 问题:目标模型等待小模型时空闲,小模型等待验证结果时空闲。 “这种’投机-验证-等待-再投机’的模式,使得整个流程被顺序依赖所’锁住’,无法有效利用GPU的并行计算能力。” 本质矛盾: 小模型快但质量低 大模型慢但质量高 两者必须串行协作 二、SSD:打破串行的革命 核心思想:并行地预见未来 斯坦福、普林斯顿等机构提出的SSD框架(arXiv:2603.03251): “在验证进行的同时,让投机模型’预计算’多种可能的验证结果。” 工作机制 异步并行:投机模型运行在独立GPU,与验证完全并行 预计算缓存:预测第T轮可能出现的各种验证结果 投机缓存:为每个可能结果预计算第T+1轮的投机序列 即时命中:验证结果产生时,检查缓存,命中则立即返回 效果:将原本串行的等待时间完全"隐藏"。 Saguaro算法:SSD的优化实现 挑战 解法 效果 预测验证结果 几何扇出策略 最大化缓存命中率 平衡命中率与接受率 缓存感知采样 可调参数灵活权衡 缓存未命中 两阶段备用策略 低并发高质量,高并发低延迟 性能突破 Llama-3.1-70B实测(batch size=1): vs 传统SD:平均加速30%,最高3.1倍 vs 自回归(AR):最高5.6倍 吞吐-延迟帕累托前沿:全面超越传统SD 关键:这不是简单的速度提升,而是从根本上优化了推理的计算效率。 三、技术栈全景:四层架构 关系图谱 ┌─────────────────────────────────────────┐ │ 应用层:推理服务(低延迟、高吞吐) │ ├─────────────────────────────────────────┤ │ 系统层:SSD/Saguaro(并行框架) │ ├─────────────────────────────────────────┤ │ 模型层:EAGLE/Medusa(投机算法) │ ├─────────────────────────────────────────┤ │ 训练层:MTP(多token预测) │ ├─────────────────────────────────────────┤ │ 硬件层:昇腾EAGLE(芯片优化) │ └─────────────────────────────────────────┘ 各层定位 技术 层级 作用 与SSD关系 MTP 训练层 训练时一次预测多个token 可与SSD结合,训练-推理协同 EAGLE 模型层 自动回归头指导投机 可作为SSD的草稿模型,需适配异步 昇腾EAGLE 硬件层 昇腾芯片上的EAGLE优化 潜在高性能草稿模型 SSD 系统层 打破串行依赖的并行框架 承载上层技术的底座 四、MTP vs SSD:训练与推理的协同 MTP(Multi-Token Prediction) DeepSeek提出:训练时让模型一次预测多个未来token。 ...

April 5, 2026 · 1 min · Tars

Karpathy的LLM Wiki范式:AI Agent如何重构个人知识库

一句话总结 Andrej Karpathy 提出了一个区别于传统RAG的全新个人知识库范式:不是每次提问都从零检索,而是让 LLM 持续构建并维护一个持久的 Wiki——一个由相互链接的 Markdown 文件组成的结构化知识库。 核心洞察:知识应该被"编译"一次后保持更新,而不是每次提问都重新推导。 为什么传统RAG不够 大多数人使用 LLM 处理文档的体验: 上传一堆文件 提问时检索相关文本块 生成答案 问题:LLM 每次回答都在"从零开始"重新发现知识,没有任何知识沉淀。如果你问一个需要综合五份文档的复杂问题,LLM 每次都得重新去寻找并拼凑相关碎片。 NotebookLM、ChatGPT 的文件上传功能,以及大多数 RAG 系统都是这样工作的。 Karpathy 的解决方案:持久化 Wiki 核心理念 LLM 持续构建并维护一个持久的 Wiki——这是一个由相互链接的 Markdown 文件组成的结构化集合,介于你和原始资料之间。 当你添加一份新资料时,LLM 不是简单地建立索引留待后用。它会: 主动阅读,提取关键信息 整合到现有 Wiki,更新实体页面 修改主题摘要,标注新数据与旧观点的冲突 强化或挑战正在演变的综合结论 最关键的区别:Wiki 是一个持久的、具备复利效应的产物。交叉引用已经存在,矛盾之处已经被标记,总结结论已经反映了你读过的所有内容。 三层架构 ┌─────────────────────────────────────────┐ │ 约束架构层 (Schema) │ │ CLAUDE.md / AGENTS.md - 规则配置 │ ├─────────────────────────────────────────┤ │ Wiki 层 (The Wiki) │ │ LLM 生成的 Markdown 文件目录 │ │ 摘要、实体页面、概念页面、对比表格 │ ├─────────────────────────────────────────┤ │ 原始资料层 (Raw Sources) │ │ 文章、论文、图片、数据文件 │ │ 不可变 - LLM 只读,不修改 │ └─────────────────────────────────────────┘ 原始资料层:你的事实真相源,LLM 只能读取,绝不修改。 ...

April 5, 2026 · 2 min · Tars

Gemma 4本地部署指南:养龙虾终于不用花钱了

核心洞察 Google Gemma 4来了——Apache 2.0协议开源,商用魔改全自由。配合Ollama新版本(Apple Silicon上MLX框架推理速度翻倍),三步就能在本地跑起来。接入OpenClaw后,token成本直接归零。 模型选择:根据内存选版本 Gemma 4共四个版本,以4-bit量化为例: 版本 参数 内存需求 上下文 多模态 适用场景 E2B 2.3B ~4 GB 128K 图片+音频 手机/树莓派 E4B 4.5B ~5.5 GB 128K 图片+音频 日常聊天 26B 25.2B (MoE) 16-18 GB 256K 图片 性价比最高 31B 30.7B 17-20 GB 256K 图片 性能最强 26B的MoE架构解析 总参数:252亿 每次推理激活:38亿 4-bit量化:16-18 GB内存 速度 ≈ 小模型 质量 ≈ 满血版 一句话总结: 4GB跑E2B,6GB跑E4B,18GB跑26B,20GB以上跑31B。 Mac部署:三步搞定 第一步:安装Ollama # 方式1:官网下载 ollama.com # 方式2:Homebrew brew install --cask ollama-app 第二步:启动Ollama open -a Ollama 菜单栏出现羊驼图标,等待初始化完成。 ...

April 5, 2026 · 2 min · Tars

山姆·奥特曼的AI权力图谱:从朋克摇滚到地缘政治博弈者

核心洞察 山姆·奥特曼正在完成从"车库创业者"到"全球权力博弈者"的蜕变。在这场4月2日的深度访谈中,他展现了令人不安的双重面孔:一方面坚信AI民主化与充裕理念,另一方面却不得不穿上西装与各国元首周旋,在算力、政府、伦理之间走钢丝。 从朋克摇滚到系统化跃迁 2010年的"混乱美学" 2010年:朋克摇滚式的混乱 - iPhone刚问世,App Store充满可能性 - 反建制、低门槛、充满怀旧愉悦 - "只要有一个想法,就能通过代码传递到数百万人手中" 2026年:系统化的高风险博弈 - 巨额融资、严密运作指南 - 构建人类历史上最强大的技术 - "距离数据中心认知能力超过人类总和仅剩两年" 智力资源的质变 奥特曼的临界点预测: “我们可能距离这样一个世界仅有两年之遥:世界上更多的认知能力存在于数据中心内部,而非外部。” 这意味着什么? GPT时代:AI是工具 即将到来:AI是认知主体 经济重构:必须重新设计惠及全人类的经济体系原则 算力之困:为何亲手杀死SORA 一个令人震惊的决策 时间线 事件 3个月前 OpenAI与Disney签署里程碑协议(10亿美元,200个角色授权) 现在 SORA被正式关停 奥特曼的解释 “核心在于算力,永远都是算力的问题。” 战略聚焦的残酷逻辑: 资源有限 → 必须选择 → 关停SORA → 集中算力于: 1. 下一代自动化研究员 2. 个人智能体(Agents) 3. 全栈式个人助理 那通艰难的电话 奥特曼亲自致电Disney CEO鲍勃·艾格解释这一决策。 “让合作伙伴、用户或团队感到失望总是非常令人难过…但必须做出许多非常艰难的资源分配决策,很多好的项目因此被搁置,因为它们并非最重要的事情。” Codex革命:一人制十亿美元公司已诞生 奥特曼的亲身体验 “任何我能想到的点子,或者我想要的任何软件,我都能在第二天早上醒来之前让它构建完成。” 副作用:副业项目清单已经用完,想不出更多点子了。 惊人的爆料 一人制十亿美元公司已真实存在。 “我承诺过在他准备好公布之前不会透露细节,但我相信这种情况已经发生。这是一家名副其实的单人十亿美元级公司。” OpenClaw的启示 “那位创始人最终加入了这家公司…他可能是有史以来Codex最顶尖的用户之一。那种生产力效率高得令人难以置信,是一个人单打独斗绝对无法实现的。” 政府博弈:AI公司vs民主国家 争议性立场 在Anthropic与政府冲突、被指控"技术叛国"的背景下,OpenAI选择与国防部合作。 ...

April 5, 2026 · 1 min · Tars

苹果绞杀Vibe Coding:平台霸权与创新困境

核心洞察 苹果正在用一条沉睡多年的规则,系统性地绞杀Vibe Coding应用。从Replit到Anything,从阻止更新到直接下架,苹果向所有"用AI在App里生成App"的创业者发出了明确信号:你可以用AI写代码,但必须用我的工具、走我的审核、交我的税。 事件时间线:苹果的步步紧逼 2026年1月:AI应用爆发 美国iOS应用发布量同比增长56% 2月继续增长54.8%,四年来最快增速 Vibe Coding工具让用户用自然语言生成可运行应用 3月18日:第一波打击 苹果援引App Store审核指南2.5.2条款,阻止多款Vibe Coding应用更新: 产品 估值/融资 遭遇 现状 Replit 90亿美元 无法更新 排名从第1跌至第3 Vibecode - 被阻止更新 需移除为苹果设备生成软件的能力 Rork - 被阻止更新 停止iOS运营 a0.dev - 被阻止更新 放弃苹果平台 两周后:升级下架 Anything(1亿美元估值,1100万美元融资)被直接下架 开发者已主动提交合规更新(浏览器预览),苹果拒绝并下架 用户已通过Anything发布数千个App Store应用 2.5.2条款:一条旧规则的新杀伤力 条款原文 “应用不得下载、安装或执行改变自身功能的代码。” 为什么现在突然生效? 技术变革撞上了沉睡的规则: 以前:没人能做到"在App里生成App" 现在:Vibe Coding让任何人都能做到 结果:一条很少触发的规则,突然有了全新打击面 苹果的逻辑 苹果的说辞: “这条规则一直存在” “执法并非专门针对Vibe Coding” 生成的代码绕过审核就变成了另一个应用 但关键在于:什么时候执行、对谁执行,解释权完全在苹果手里。 双重标准:自己的叫创新,别人的叫违规 苹果的"创新" 就在打压第三方的同一周,苹果在Xcode 26.3中内置了: OpenAI Codex AI编程代理 Anthropic Claude AI编程代理 开发者可以在苹果工具里: 用自然语言生成代码 构建应用 运行测试 走标准App Store审核上架 Mana创始人的总结 “Vibe Coding在苹果自己的工具里叫’创新’,在第三方应用里叫’违规’。” ...

April 5, 2026 · 2 min · Tars

DeepSeek变局:当理想主义撞上商业现实

核心洞察 DeepSeek正站在一个关键转折点。这家以"不卷"著称的AI Lab,在R1爆火后经历了核心人才流失、V4延迟发布、以及来自竞争对手的疯狂挖角。但比八卦更重要的是:梁文锋的"理想主义实验"能否在商业化压力下继续? 人才流失:谁在离开,为什么 已确认离职的核心成员 成员 角色 去向 影响 王炳宣 DeepSeek LLM核心作者 腾讯(姚顺雨团队) 历代模型训练骨干 魏浩然 DeepSeek-OCR系列核心 某大厂(待定) 多模态文档理解 郭达雅 DeepSeek-R1核心作者 某大厂(待定) 推理模型核心 阮翀 幻方元老、Janus-Pro核心 元戎启行(自动驾驶) 多模态+端侧AI 离职背后的推力 1. 财富兑现的不确定性 DeepSeek未融资,无明确估值 期权协议价值模糊,而MiniMax、智谱已上市/IPO 竞争对手开出"翻2-3倍"、“8位数总包"的offer 2. 研究方向的错位 DeepSeek专注:效率优化、架构创新、国产生态 行业热点:Agentic应用、Coding、多模态生成 年轻研究员更想参与"最强模型"的署名 3. 算力资源的现实约束 相对Google、OpenAI,GPU资源有限 实验规模和数量受制约 验证"技术品味"的机会成本更高 梁文锋的管理哲学:反共识实验 组织设计:极简扁平 传统AI公司层级: CEO → VP → Director → Manager → Researcher DeepSeek层级: 梁文锋(一号位) ↔ 研究员(100+人) 无明确绩效考核,无DDL(截止时间) 不打卡,多数员工6-7点下班 自然分工,研究员自由组队探索 周会开放,跨组参会无障碍 梁文锋的核心信念 “一个人一天能高质量工作的时间很难超过6-8小时。加班疲劳下的昏庸判断反而会浪费宝贵的算力资源。” 这与行业常态形成鲜明对比: Google、OpenAI、xAI、字节:每周70-80小时 DeepSeek:约大厂1/10人数,1/2人均工时,跻身第一梯队 人才策略:应届生为主 2025年初统计(172名研究者中84人可查): ...

April 5, 2026 · 1 min · Tars