Posts

Token经济学：AI时代的"千瓦时"正在重塑产业链

本文基于腾讯研究院《Token经济学的七个问题》一文（作者：白惠天、袁晓辉）深度解读，原文发表于2026年3月31日。开篇：一组让你重新理解AI产业的数字 2026年3月31日，OpenAI宣布完成新一轮融资，同时抛出一个数据：用户每分钟调用API接口的Token量超过150亿，折算一天约21.6万亿。几天前，中国国家数据局公布：中国日均Token调用量突破140万亿，两年增长1400倍。这是什么概念？粗略折算，相当于每天生成约2000亿篇千字文章。摩根大通预测，中国AI推理Token消耗将从2025年增长到2030年的3900千万亿——五年再涨370倍。 Token是什么？简单说，它是AI处理和生成信息的基本单位，大约对应一到两个汉字。但真正重要的是：Token正在成为AI时代的"千瓦时"——就像"千瓦时"让电力有了价格、“桶"让石油有了期货市场，有了Token，AI经济就有了可以算账的单位。腾讯研究院这篇文章，用七个问题为这个正在成型的新经济体系画了一张地图。我从商业和产业视角做深度解读。一、黄仁勋的"五层蛋糕”：AI产业的利润地图 2026年3月，英伟达CEO黄仁勋在GTC大会前发表了一篇署名文章——《AI是一个五层蛋糕》。他把AI产业拆成五层：层级内容商业含义第一层能源电力的获取成本第二层芯片英伟达的主战场第三层基础设施数据中心、网络第四层模型智能的载体第五层应用智能发挥价值前三层合起来叫**“AI工厂”**，核心功能是制造智能。贯穿五层的统一计量单位就是Token。AI工厂的关键经营指标——吞吐量、单位成本、每瓦产出、每兆瓦收入——全部围绕Token展开。商业启示：这个框架回答的是"在产业链中哪里能赚到钱"。前三层是基建投资，后两层是应用落地。而Token就是贯穿全产业链的"通用货币"。二、价值分层：不是所有Token都生而平等同样一个Token：用来闲聊：百万个值0.01美元用来写代码：值200美元用来做法律文档审阅：值1000美元价值差了十万倍。为什么？因为Token有一种此前任何生产要素都不具备的属性——可编程性。钢铁做不到这一点，石油做不到，甚至电力也做不到。没有任何一种传统生产要素，能仅凭"指令不同"就改变自身价值百千倍。数据说话：不到5%的Token消耗，创造了超过80%的可测量价值。这意味着什么？意味着"平均Token价格"是个伪命题——就像用平均房价来描述一个既有茅草屋又有摩天楼的城市，数字正确，但毫无意义。投资启示：关注AI公司，不要看它消耗了多少Token，要看它把Token用在了什么场景上。高价值场景的Token消耗才是真金白银。三、杰文斯悖论重演：越便宜，花得越多这是全文最反直觉的发现。 2022年，调用GPT-3级别模型需要60美元/百万Token。到2026年初，同等能力的开源模型只要0.06美元——降了99.9%。驱动降价的是三股力量的相乘效应：硬件效率每年提升2-3倍，算法效率每年提升2-3倍，系统优化每年再提升2-4倍。三者相乘，Token成本每年下降5-10倍。但悖论来了：指标 2022年 2026年变化 Token单价 60美元/百万 0.06美元/百万 ↓99.9% 全球企业AI云支出 115亿美元 370亿美元 ↑3倍+ 单价降了99.9%，但总支出翻了三倍多。经济学家对此不会陌生——这是经典的杰文斯悖论（Jevons Paradox）：160年前，蒸汽机效率大幅提升后，煤炭消耗不降反升。因为效率提升释放了原本被成本约束的潜在需求。当Token价格是60美元/百万时，只有金融分析、药物发现这些最高价值的任务用得起。当价格降到0.06美元时，代码审查、实时客服、个性化教育、甚至AI角色扮演都变得经济可行了。每个新场景都是新的Token消耗。投资启示： Token降价不是利空，是利好——它在做大整个蛋糕。投资AI基础设施，赌的是"蛋糕越来越大"，而不是"单价越来越低"。四、下一个爆发点：从"人用AI"到"AI用AI" 过去两年，Token需求增长靠两个驱动力： C端用户习惯养成（ChatGPT、元宝等成为日常工具）企业把大模型嵌入业务流程（客服、代码审查、数据分析）但这两个驱动力都有一个共同的天花板——人脑。人一天能读多少字、能处理多少信息是有上限的。 ...

2025年互联网行业利润格局：短视频与AI，两台"利润粉碎机"

基于晚点LatePost数据可视化文章，深度解析2025年中国互联网公司利润格局——腾讯稳坐头把交椅，字节跳动营收破9000亿，短视频和AI成为两大"利润粉碎机"。

Anthropic Agent 战略拼图：从 Managed Agents 到长任务 Runtime 的完整解读

本文由三篇架构师（若飞）深度解读文章综合分析整理，原文分别发表于 2026 年 4 月 8-9 日。 2026 年 4 月初，Anthropic 做了一件事：把 Agent 从"聊天框"里拽出来，按进了"真实工作"里。 4 月 8 日发布 Claude Managed Agents，4 月 9 日 Claude Code 源码被翻了个底朝天。两件事合在一起看，不是一次偶然的巧合，而是一套完整的战略拼图。我想用最直白的方式说清楚：Anthropic 到底在干什么，以及这件事对普通人意味着什么。一、Agent 不再是聊天框大多数人理解的 Agent，是这样的：打开聊天框 → 问问题 → 得到回答 → 结束。 Anthropic 想做的完全不同。 Managed Agents 的本质，是把 Agent 从**“会话对象"变成"工作对象”**。区别在哪？会话对象工作对象一问一答，即时返回持续运行半小时甚至更久不需要碰文件系统读文件、写文件、跑脚本出错了重问就行需要中间状态、错误恢复不需要权限管理需要沙箱、权限、审计过程不重要过程必须可追踪、可复现用一句话总结 Managed Agents 的核心：它做的不是替你写一个 Agent，而是把"让 Agent 能稳定干活"的后台搬到了云上。 ...

LLM Wiki架构师视角：不是知识库，是Agent的长期工作底座

一句话总结 Karpathy的LLM Wiki不是又一个笔记工具，而是一个给Agent用的长期工作底座：传统RAG：查询时临时检索，问完即走，知识不沉淀 LLM Wiki：先编译成结构化知识层，持续回写，复利增长核心差异：多了一层被Agent消费、持续维护的wiki中间层一、从"临时检索"到"先编译再查询" 传统RAG的困境大多数人用LLM和文档打交道的方式：上传文件 → 提问 → 检索片段 → 生成答案 → 结束问题：今天问"这5篇文章共同说明了什么"，模型找5次片段、拼1次答案过两天换个问法，大概率还要再做一遍知识不会留下来，不会随着使用慢慢长出来 LLM Wiki的范式原始资料 → 编译成wiki（摘要、实体、概念、索引） ↓ 查询时读index → 钻具体页面 → 生成答案 ↓ 有价值的结果 → 回写成新页面核心洞察: “传统知识库更像’临时检索’，LLM Wiki更像’先编译，再查询’。” 二、三层架构：原始资料、Wiki、Schema ┌─────────────────────────────────────────┐ │ Schema（规则层） │ │ AGENTS.md / CLAUDE.md │ │ 定义：怎么组织、怎么ingest、怎么query │ ├─────────────────────────────────────────┤ │ The Wiki（知识层） │ │ LLM生成和维护的Markdown │ │ 摘要、实体页、概念页、索引 │ ├─────────────────────────────────────────┤ │ Raw Sources（事实源） │ │ 文章、论文、图片、代码 │ │ 只读，不改 │ └─────────────────────────────────────────┘ Schema：被忽略的关键层作用：告诉LLM这个wiki应该怎么组织 ...

投机解码进化史：从SD到SSD，MTP与EAGLE如何重塑AI推理

一句话总结投机解码（Speculative Decoding）正在经历从串行到并行的范式转变：传统SD：小模型预测→大模型验证→等待→再预测，串行依赖是瓶颈 SSD（投机投机解码）：验证同时预计算多种可能，打破串行依赖，最高加速5.6倍技术栈关系：SSD是系统框架，MTP是训练优化，EAGLE是模型算法，昇腾EAGLE是硬件实现——四层技术正交可叠加一、传统投机解码：优雅但受限经典范式投机模型（小）→ 生成K个token ↓ 目标模型（大）→ 并行验证 ↓ 等待结果 → 接受/拒绝 ↓ 再投机... 核心洞察：用廉价的小模型猜测昂贵的目标模型输出，减少大模型调用次数。串行依赖瓶颈问题：目标模型等待小模型时空闲，小模型等待验证结果时空闲。 “这种’投机-验证-等待-再投机’的模式，使得整个流程被顺序依赖所’锁住’，无法有效利用GPU的并行计算能力。” 本质矛盾：小模型快但质量低大模型慢但质量高两者必须串行协作二、SSD：打破串行的革命核心思想：并行地预见未来斯坦福、普林斯顿等机构提出的SSD框架（arXiv:2603.03251）： “在验证进行的同时，让投机模型’预计算’多种可能的验证结果。” 工作机制异步并行：投机模型运行在独立GPU，与验证完全并行预计算缓存：预测第T轮可能出现的各种验证结果投机缓存：为每个可能结果预计算第T+1轮的投机序列即时命中：验证结果产生时，检查缓存，命中则立即返回效果：将原本串行的等待时间完全"隐藏"。 Saguaro算法：SSD的优化实现挑战解法效果预测验证结果几何扇出策略最大化缓存命中率平衡命中率与接受率缓存感知采样可调参数灵活权衡缓存未命中两阶段备用策略低并发高质量，高并发低延迟性能突破 Llama-3.1-70B实测（batch size=1）： vs 传统SD：平均加速30%，最高3.1倍 vs 自回归（AR）：最高5.6倍吞吐-延迟帕累托前沿：全面超越传统SD 关键：这不是简单的速度提升，而是从根本上优化了推理的计算效率。三、技术栈全景：四层架构关系图谱 ┌─────────────────────────────────────────┐ │ 应用层：推理服务（低延迟、高吞吐） │ ├─────────────────────────────────────────┤ │ 系统层：SSD/Saguaro（并行框架） │ ├─────────────────────────────────────────┤ │ 模型层：EAGLE/Medusa（投机算法） │ ├─────────────────────────────────────────┤ │ 训练层：MTP（多token预测） │ ├─────────────────────────────────────────┤ │ 硬件层：昇腾EAGLE（芯片优化） │ └─────────────────────────────────────────┘ 各层定位技术层级作用与SSD关系 MTP 训练层训练时一次预测多个token 可与SSD结合，训练-推理协同 EAGLE 模型层自动回归头指导投机可作为SSD的草稿模型，需适配异步昇腾EAGLE 硬件层昇腾芯片上的EAGLE优化潜在高性能草稿模型 SSD 系统层打破串行依赖的并行框架承载上层技术的底座四、MTP vs SSD：训练与推理的协同 MTP（Multi-Token Prediction） DeepSeek提出：训练时让模型一次预测多个未来token。 ...

Karpathy的LLM Wiki范式：AI Agent如何重构个人知识库

一句话总结 Andrej Karpathy 提出了一个区别于传统RAG的全新个人知识库范式：不是每次提问都从零检索，而是让 LLM 持续构建并维护一个持久的 Wiki——一个由相互链接的 Markdown 文件组成的结构化知识库。核心洞察：知识应该被"编译"一次后保持更新，而不是每次提问都重新推导。为什么传统RAG不够大多数人使用 LLM 处理文档的体验：上传一堆文件提问时检索相关文本块生成答案问题：LLM 每次回答都在"从零开始"重新发现知识，没有任何知识沉淀。如果你问一个需要综合五份文档的复杂问题，LLM 每次都得重新去寻找并拼凑相关碎片。 NotebookLM、ChatGPT 的文件上传功能，以及大多数 RAG 系统都是这样工作的。 Karpathy 的解决方案：持久化 Wiki 核心理念 LLM 持续构建并维护一个持久的 Wiki——这是一个由相互链接的 Markdown 文件组成的结构化集合，介于你和原始资料之间。当你添加一份新资料时，LLM 不是简单地建立索引留待后用。它会：主动阅读，提取关键信息整合到现有 Wiki，更新实体页面修改主题摘要，标注新数据与旧观点的冲突强化或挑战正在演变的综合结论最关键的区别：Wiki 是一个持久的、具备复利效应的产物。交叉引用已经存在，矛盾之处已经被标记，总结结论已经反映了你读过的所有内容。三层架构 ┌─────────────────────────────────────────┐ │ 约束架构层 (Schema) │ │ CLAUDE.md / AGENTS.md - 规则配置 │ ├─────────────────────────────────────────┤ │ Wiki 层 (The Wiki) │ │ LLM 生成的 Markdown 文件目录 │ │ 摘要、实体页面、概念页面、对比表格 │ ├─────────────────────────────────────────┤ │ 原始资料层 (Raw Sources) │ │ 文章、论文、图片、数据文件 │ │ 不可变 - LLM 只读，不修改 │ └─────────────────────────────────────────┘ 原始资料层：你的事实真相源，LLM 只能读取，绝不修改。 ...

Gemma 4本地部署指南：养龙虾终于不用花钱了

核心洞察 Google Gemma 4来了——Apache 2.0协议开源，商用魔改全自由。配合Ollama新版本（Apple Silicon上MLX框架推理速度翻倍），三步就能在本地跑起来。接入OpenClaw后，token成本直接归零。模型选择：根据内存选版本 Gemma 4共四个版本，以4-bit量化为例：版本参数内存需求上下文多模态适用场景 E2B 2.3B ~4 GB 128K 图片+音频手机/树莓派 E4B 4.5B ~5.5 GB 128K 图片+音频日常聊天 26B 25.2B (MoE) 16-18 GB 256K 图片性价比最高 31B 30.7B 17-20 GB 256K 图片性能最强 26B的MoE架构解析总参数：252亿每次推理激活：38亿 4-bit量化：16-18 GB内存速度 ≈ 小模型质量 ≈ 满血版一句话总结： 4GB跑E2B，6GB跑E4B，18GB跑26B，20GB以上跑31B。 Mac部署：三步搞定第一步：安装Ollama # 方式1：官网下载 ollama.com # 方式2：Homebrew brew install --cask ollama-app 第二步：启动Ollama open -a Ollama 菜单栏出现羊驼图标，等待初始化完成。 ...

山姆·奥特曼的AI权力图谱：从朋克摇滚到地缘政治博弈者

核心洞察山姆·奥特曼正在完成从"车库创业者"到"全球权力博弈者"的蜕变。在这场4月2日的深度访谈中，他展现了令人不安的双重面孔：一方面坚信AI民主化与充裕理念，另一方面却不得不穿上西装与各国元首周旋，在算力、政府、伦理之间走钢丝。从朋克摇滚到系统化跃迁 2010年的"混乱美学" 2010年：朋克摇滚式的混乱 - iPhone刚问世，App Store充满可能性 - 反建制、低门槛、充满怀旧愉悦 - "只要有一个想法，就能通过代码传递到数百万人手中" 2026年：系统化的高风险博弈 - 巨额融资、严密运作指南 - 构建人类历史上最强大的技术 - "距离数据中心认知能力超过人类总和仅剩两年" 智力资源的质变奥特曼的临界点预测： “我们可能距离这样一个世界仅有两年之遥：世界上更多的认知能力存在于数据中心内部，而非外部。” 这意味着什么？ GPT时代：AI是工具即将到来：AI是认知主体经济重构：必须重新设计惠及全人类的经济体系原则算力之困：为何亲手杀死SORA 一个令人震惊的决策时间线事件 3个月前 OpenAI与Disney签署里程碑协议（10亿美元，200个角色授权）现在 SORA被正式关停奥特曼的解释 “核心在于算力，永远都是算力的问题。” 战略聚焦的残酷逻辑：资源有限 → 必须选择 → 关停SORA → 集中算力于： 1. 下一代自动化研究员 2. 个人智能体（Agents） 3. 全栈式个人助理那通艰难的电话奥特曼亲自致电Disney CEO鲍勃·艾格解释这一决策。 “让合作伙伴、用户或团队感到失望总是非常令人难过…但必须做出许多非常艰难的资源分配决策，很多好的项目因此被搁置，因为它们并非最重要的事情。” Codex革命：一人制十亿美元公司已诞生奥特曼的亲身体验 “任何我能想到的点子，或者我想要的任何软件，我都能在第二天早上醒来之前让它构建完成。” 副作用：副业项目清单已经用完，想不出更多点子了。惊人的爆料一人制十亿美元公司已真实存在。 “我承诺过在他准备好公布之前不会透露细节，但我相信这种情况已经发生。这是一家名副其实的单人十亿美元级公司。” OpenClaw的启示 “那位创始人最终加入了这家公司…他可能是有史以来Codex最顶尖的用户之一。那种生产力效率高得令人难以置信，是一个人单打独斗绝对无法实现的。” 政府博弈：AI公司vs民主国家争议性立场在Anthropic与政府冲突、被指控"技术叛国"的背景下，OpenAI选择与国防部合作。 ...

苹果绞杀Vibe Coding：平台霸权与创新困境

核心洞察苹果正在用一条沉睡多年的规则，系统性地绞杀Vibe Coding应用。从Replit到Anything，从阻止更新到直接下架，苹果向所有"用AI在App里生成App"的创业者发出了明确信号：你可以用AI写代码，但必须用我的工具、走我的审核、交我的税。事件时间线：苹果的步步紧逼 2026年1月：AI应用爆发美国iOS应用发布量同比增长56% 2月继续增长54.8%，四年来最快增速 Vibe Coding工具让用户用自然语言生成可运行应用 3月18日：第一波打击苹果援引App Store审核指南2.5.2条款，阻止多款Vibe Coding应用更新：产品估值/融资遭遇现状 Replit 90亿美元无法更新排名从第1跌至第3 Vibecode - 被阻止更新需移除为苹果设备生成软件的能力 Rork - 被阻止更新停止iOS运营 a0.dev - 被阻止更新放弃苹果平台两周后：升级下架 Anything（1亿美元估值，1100万美元融资）被直接下架开发者已主动提交合规更新（浏览器预览），苹果拒绝并下架用户已通过Anything发布数千个App Store应用 2.5.2条款：一条旧规则的新杀伤力条款原文 “应用不得下载、安装或执行改变自身功能的代码。” 为什么现在突然生效？技术变革撞上了沉睡的规则：以前：没人能做到"在App里生成App" 现在：Vibe Coding让任何人都能做到结果：一条很少触发的规则，突然有了全新打击面苹果的逻辑苹果的说辞： “这条规则一直存在” “执法并非专门针对Vibe Coding” 生成的代码绕过审核就变成了另一个应用但关键在于：什么时候执行、对谁执行，解释权完全在苹果手里。双重标准：自己的叫创新，别人的叫违规苹果的"创新" 就在打压第三方的同一周，苹果在Xcode 26.3中内置了： OpenAI Codex AI编程代理 Anthropic Claude AI编程代理开发者可以在苹果工具里：用自然语言生成代码构建应用运行测试走标准App Store审核上架 Mana创始人的总结 “Vibe Coding在苹果自己的工具里叫’创新’，在第三方应用里叫’违规’。” ...

DeepSeek变局：当理想主义撞上商业现实

核心洞察 DeepSeek正站在一个关键转折点。这家以"不卷"著称的AI Lab，在R1爆火后经历了核心人才流失、V4延迟发布、以及来自竞争对手的疯狂挖角。但比八卦更重要的是：梁文锋的"理想主义实验"能否在商业化压力下继续？人才流失：谁在离开，为什么已确认离职的核心成员成员角色去向影响王炳宣 DeepSeek LLM核心作者腾讯（姚顺雨团队）历代模型训练骨干魏浩然 DeepSeek-OCR系列核心某大厂（待定）多模态文档理解郭达雅 DeepSeek-R1核心作者某大厂（待定）推理模型核心阮翀幻方元老、Janus-Pro核心元戎启行（自动驾驶）多模态+端侧AI 离职背后的推力 1. 财富兑现的不确定性 DeepSeek未融资，无明确估值期权协议价值模糊，而MiniMax、智谱已上市/IPO 竞争对手开出"翻2-3倍"、“8位数总包"的offer 2. 研究方向的错位 DeepSeek专注：效率优化、架构创新、国产生态行业热点：Agentic应用、Coding、多模态生成年轻研究员更想参与"最强模型"的署名 3. 算力资源的现实约束相对Google、OpenAI，GPU资源有限实验规模和数量受制约验证"技术品味"的机会成本更高梁文锋的管理哲学：反共识实验组织设计：极简扁平传统AI公司层级： CEO → VP → Director → Manager → Researcher DeepSeek层级：梁文锋（一号位） ↔ 研究员（100+人）无明确绩效考核，无DDL（截止时间）不打卡，多数员工6-7点下班自然分工，研究员自由组队探索周会开放，跨组参会无障碍梁文锋的核心信念 “一个人一天能高质量工作的时间很难超过6-8小时。加班疲劳下的昏庸判断反而会浪费宝贵的算力资源。” 这与行业常态形成鲜明对比： Google、OpenAI、xAI、字节：每周70-80小时 DeepSeek：约大厂1/10人数，1/2人均工时，跻身第一梯队人才策略：应届生为主 2025年初统计（172名研究者中84人可查）： ...