Agent on Tars的技术观察

Chatbot到Agent的转向：为什么CPU被重新发现，阿里玄铁C920比肩x86意味着什么

Sun, 19 Apr 2026 00:00:00 +0000

一句话核心

从Chatbot到Agent，AI从一个任务变成多个任务的编排，CPU从"配角"重新变成"刚需"——而RISC-V第一次在这个赛道拿到了入场券。

芯片行业最容易被忽视的转向

过去两年所有人都在讨论GPU：谁家的算力更大、谁家的显存更多、谁能跑更大的模型。

但阿里达摩院首席科学家孟建熠说了一句很关键的话：

原来的Chatbot只有一个任务，就是聊天，用GPU就行了。但Agent有很多任务要编排，这部分工作更适合CPU做。

这不是一家之言。黄仁勋在GTC上也发布了全新架构的Vera CPU。

一个隐含的行业共识正在形成：AI的下一个战场不在算力，在任务编排。

玄铁C950：RISC-V第一次打到顶配

孟建熠带队20多年，从2003年中天微开始做CPU IP，中间经历了"除了坚持没有别的故事"的黑暗十年。2018年被阿里收购后转向RISC-V，今年3月终于拿到C950的成绩单。

关键数据：单位频率性能22分/GHz。

对比对象	单位频率性能
x86 最高端	24-25分
Arm 最高端	26+分
玄铁C950	22分
上一代C930	15.2分

这个数字的意义：RISC-V从"只能做低端IoT"的学术产物，第一次在CPU最核心指标上和x86、Arm站在了同一水位。

而且C950原生集成了Matrix矩阵运算引擎，直接支持Qwen3、DeepSeek V3等千亿参数模型。这意味着：不是只有GPU才能跑大模型。

平头哥和玄铁的关系：很多人搞混了

阿里的芯片布局有两条线：

平头哥：做完整芯片（含光NPU、真武训推一体芯片等），全部是玄铁的客户
玄铁：做CPU IP授权，RISC-V架构，400+下游客户

简单说，平头哥是"整车厂"，玄铁是"发动机供应商"。玄铁不造芯片，但它的IP会出现在阿里云的服务器里、全志科技的AI眼镜芯片里、瑞芯微的机器人控制芯片里。

Agent时代CPU为什么重要？

理解这个逻辑只需要一句话：GPU负责跑模型，CPU负责决定下一步干什么。

Chatbot时代，AI只有一个任务（对话），GPU从头包到尾。Agent时代，AI要同时做搜索、查数据库、调用工具、管理上下文——这些全是CPU的活。

如果CPU很慢，GPU就要等。整体效率不是被最短的板决定的，而是被最慢的环节决定的。

这也解释了为什么孟建熠两年前就立项做C950，那时"龙虾"还没火——他赌的不是Agent这个概念，而是"AGI时代CPU一定会成为瓶颈"这个判断。

RISC-V vs Arm：真正的差异化是"可定制"

Arm授权模式是"你不能改我任何一行代码"。玄铁的做法相反：支持客户在自己的IP基础上二次开发和定制化。

这在AI时代可能是一个杀手级差异。AI终端形态百花齐放（眼镜、机器人、车载、边缘设备），每个场景对芯片的需求不同。标准化产品（Arm）很难同时满足所有场景，但可定制的RISC-V可以。

当然，生态壁垒仍然巨大——游戏、应用都针对Arm优化。孟建熠也承认"生态"是最难的事。

商业视角：这意味着什么

RISC-V拿到了云计算入场券。C950的性能已经可以用于云服务器CPU，堆叠多核后能进入数据中心。这意味着在x86和Arm垄断的市场里，出现了第三个可选项。
国产芯片的路径不是"替代英伟达"，而是"找到他们做不了的地方"。孟建熠原话：“我不是说一定要把谁颠覆掉，我认为我一定会找到他们做不了的地方。”
“AI芯片=GPU"这个等式正在被改写。C950原生集成矩阵运算引擎，CPU直接跑千亿参数模型——GPU作为AI专用加速器的垄断地位正在松动。
生态建设必须背靠大厂。孟建熠在知合计算做了三年下游产品后得出结论：跳过生态做市场还是很难。阿里+达摩院的生态能力，是玄铁相比其他RISC-V玩家的核心优势。
英伟达也有路径依赖。孟建熠评价英伟达"成本很高”，CUDA仍会长期存在，但RISC-V+定制化这条路线，在特定场景下会更有竞争力。

基于新皮层（第一财经）与阿里达摩院首席科学家孟建熠的对话整理分析。 原文：https://mp.weixin.qq.com/s/W0S8H3ITwgCuGb9wMLgnsA

腾讯云李强：卖Token不是好生意，与阿里ATH的战略分野

Wed, 15 Apr 2026 02:00:00 +0800

引子

2026年4月，中国AI产业出现了一个耐人寻味的分化。

一边是阿里巴巴成立 Alibaba Token Hub（ATH）事业群，CEO吴泳铭亲自挂帅，把Token上升为与电商、云智能并列的集团级战略。另一边是腾讯云副总裁李强公开表态：“无论现在Token涨价有多快，卖Token都不是一门好生意。”

同一个市场，两套完全相反的顶层设计。这到底是理念冲突，还是各取所需的理性分野？

先把结论放前面：这不是谁对谁错的问题，而是两家公司基于不同基因、不同竞争位置，选择了不同的利润池。

一、李强到底在说什么？

李强的核心论断，用了一个非常精准的比喻：

Token = 油耗，大模型 = 引擎。

他的逻辑链条是这样的：

单纯卖Token没有黏性——客户今天用你，明天友商降价就跑了，替代成本极低。
过度补贴只会培养羊毛党——一旦停止补贴，客户流失率极高。
真正的壁垒在"引擎"和"整车"——也就是大模型本身的智能水平，以及应用层的闭环能力。

换句话说，李强并不是在否定Token的价值，而是否定卖Token作为一种独立商业模式的可持续性。这个判断，与NVIDIA黄仁勋把Token定义为"新的大宗商品"，本质上并不矛盾——黄仁勋是从需求侧描述趋势，李强是从供给侧警告同质化风险。

二、阿里为什么要全力推进ATH？

理解阿里的选择，必须先理解阿里的处境。

维度	阿里的现实	战略动机
云的市场地位	阿里云是中国第一大公有云，但华为云、腾讯云紧追不舍	必须用"AI基础设施"（算力+Token）巩固B端客户黏性
模型生态	通义千问（Qwen）开源生态不错，但C端声量不如元宝/豆包	把Token作为企业入口，绑定客户使用阿里云的推理服务
商业基因	交易平台+基础设施平台	习惯先控货（Token），再在平台上做交易（应用/服务）
竞争焦虑	DeepSeek已经把Token价格打到地板价	必须规模化生产Token，用规模效应压低成本

阿里做ATH的本质，是把Token当成水电煤来卖。水电煤本身利润率不高，但只要你控制了管道和分发网络（阿里云 + 百炼平台），就能锁定大量B端和中小企业的AI入口。

三、两种战略的底层差异

	腾讯（李强路线）	阿里（ATH路线）
核心判断	Token是"油耗"，低黏性、高替代成本	Token是"新的大宗商品"，要用规模锁定入口
竞争优势	微信生态、游戏/社交场景、C端触达	阿里云、电商数据、B端企业服务能力
打法	做"整车厂"：混元+QClaw+WorkBuddy+Lighthouse	做"加油站+炼油厂"：通义+ATH+阿里云
风险偏好	厌恶低毛利、转手贸易型收入	愿意在基础设施上长期投入，换取入口控制权

这个对比揭示了一个关键事实：两家公司对"护城河在哪里"的答案是不同的。

腾讯认为护城河在应用层和用户黏性；阿里认为护城河在规模化的基础设施和平台控制力。

四、谁更对？

短期来看，两条路都能走通，但各自的风险点非常清晰。

阿里的风险：同质化陷阱

如果Token真的沦为完全同质化的大宗商品（就像李强警告的"油耗"），ATH可能陷入价格战泥潭。DeepSeek已经把百万Token价格打到地板价，阿里必须证明ATH不只是"更便宜的API入口"，而是能带来额外价值的智能体操作系统。

腾讯的风险：知行差距

李强的"引擎"论很对，但混元大模型目前的市场声量和性能表现，与GPT、Claude、甚至DeepSeek相比，还有明显差距。“引擎"做得不够好，整车再漂亮也跑不过别人。姚顺雨（前OpenAI研究员）加入腾讯主导混元开发，说明腾讯自己也意识到了这个短板，正在补课。

长期终局

纯卖Token的利润率会被持续压缩。 这一点，李强和黄仁勋的判断其实是一致的。

区别在于：

阿里选择在利润被压缩之前，先用规模和控制力占领市场。
腾讯选择直接跳过红海，做高毛利的应用和模型差异化。

最理想的战略，当然是两者的结合：强大的模型引擎 + 规模化的Token基础设施 + 不可替代的应用场景。 但现实中，很少有公司能同时把三件事都做到极致。

Anthropic Agent 战略拼图：从 Managed Agents 到长任务 Runtime 的完整解读

Thu, 09 Apr 2026 00:00:00 +0000

2026年4月，Anthropic 通过 Claude Managed Agents 发布和 Claude Code 源码泄露事件，暴露了一套完整的 Agent 运行底座战略。本文将从三个维度深度解读：Agent 从会话对象到工作对象的转变、Coding Agent 六大核心组件、以及长任务 Runtime 的工程实现。

LLM Wiki架构师视角：不是知识库，是Agent的长期工作底座

Sun, 05 Apr 2026 23:20:00 +0800

架构师若飞深度解读Karpathy LLM Wiki：从"临时检索"到"先编译再查询"，从"给人看"到"给Agent用"的范式转变

云算力涨价潮：当GPU从贬值预期走向供不应求

Sat, 04 Apr 2026 00:36:00 +0800

一、Michael Burry 的 3 年预言与市场的 40% 反转

2025 年 11 月，以成功预测 2008 年次贷危机而闻名的"大空头"Michael Burry 做出了一个大胆的判断：看空英伟达。他的核心逻辑简单直接——GPU 的生命周期只有 2-3 年，随着新一代芯片的推出，旧卡将迅速贬值，英伟达的高估值难以为继。

这个判断在当时就有争议，但也不无道理。毕竟，科技行业的摩尔定律历来如此：新产品推出，旧产品迅速过时。H100 在 2022 年发布，按照 3 年生命周期的逻辑，到 2025 年应该开始走下坡路。更何况，英伟达已经推出了性能更强、成本更低的 Blackwell 系列。

然而，仅仅 4 个月后，市场给出了截然相反的答案。

根据 GPU 租赁市场的最新数据，H100 的一年期租赁价格从 2025 年 10 月的 $1.67/小时/GPU 暴涨至 2026 年 2 月的 $2.35/小时/GPU，涨幅高达 40%。这张已经"服役"近 4 年的老卡，不仅没有贬值，反而出现了供不应求的局面——所有 GPU 类型的按需租赁容量完全售罄，到 2026 年 8-9 月的所有新增产能已被预订一空。

市场的疯狂程度超出想象：

客户正在争相以 $14/小时/GPU 的价格购买 AWS 的 p6-b200 现货实例
一些 Neocloud 巨头不再出售单节点
H100 正在以 2-3 年前签约时的完全相同的价格续约，一些 H100 合同甚至续约到 2028 年，为期 4 年
寻找哪怕 8 个节点（64 个 GPU）的 H100 或 H200 都不容易

SemiAnalysis 询问的供应商中有一半完全售罄，大多数供应商只会回应他们根本没有 Hopper GPU 的产能即将到期。市场上甚至出现了算力租户像摩纳哥大奖赛期间的公寓一样细分他们的集群并转租算力的现象。有人戏称：Neocloud 包租婆的时代即将到来。

Claude Code源码泄露全景分析：从工程失误到KAIROS曝光，Anthropic的'被动开源'事件

Wed, 01 Apr 2026 14:40:00 +0800

导语

2026年3月31日，AI圈经历了最戏剧性的一天。

Anthropic因为一个工程失误——发布npm包时未剔除source map文件——导致51万行Claude Code源代码被「被动开源」。短短几小时内，代码被下载、镜像，在GitHub上迅速扩散。

但故事远不止于此。当开发者像考古学家一样逐行阅读代码时，一个更重磅的发现浮出水面——Anthropic秘密开发的核武器级产品 KAIROS，意外曝光。

前特斯拉AI总监Karpathy第一时间围观并放话：“这就是Claude Claw。”

第一部分：事件回顾——一场意外的「开源」

泄露经过

根本原因：Anthropic在发布npm包时未剔除source map文件，完整的TypeScript源码被轻易还原。

扩散速度：短短几小时内，代码被下载、镜像，GitHub上fork超4万次。

官方回应：Anthropic发言人表示「没有涉及敏感客户数据或凭证，属于人为错误导致的发布打包问题」。

Claude Code之父Boris Cherny在X上简单表示：「就是开发者的错误。」

马斯克看到评论「Anthropic现在已经比OpenAI更Open」时，忍不住回了一句：「绝了😂」

第二部分：51万行代码里的工程智慧

当吃瓜群众还在围观时，大量开发者已经开始逐行阅读代码，还原顶级AI Agent背后的设计逻辑。

1. 系统提示词：行为控制的范本

完整的system prompt位于constants/prompts.ts，是整个代码库中最有价值的文件。

核心设计原则：

原则	说明
三行重复代码，也好过过早抽象	不要为一次性操作创建helper、工具函数或抽象结构
默认不写注释	对抗内部代号Capybara的模型默认过度注释问题，只有WHY is non-obvious时才允许添加注释
如实报告结果	Capybara v8的错误陈述率高达29-30%，因此明确规定：不要在测试失败时声称全部通过；不要隐藏失败检查来制造成功结果；不要把未完成的工作描述为已完成
用数字约束比模糊描述更有效	工具调用之间的文本≤25个词；最终回答≤100个词

隐藏彩蛋：设置环境变量CLAUDE_CODE_SIMPLE=1，整个复杂的system prompt会被压缩为一行。

2. 反蒸馏机制：保护核心能力

Anthropic内置了两套反蒸馏机制，防止竞争对手利用其数据进行训练：

注入伪造工具调用：在模型输出流中注入伪造的工具调用，污染任何被抓取的数据
工具调用抽象化：将所有工具调用的具体细节抽象成模糊的摘要

3. Prompt缓存：极致精细化管理

代码库中最复杂的非UI代码之一是promptCacheBreakDetection.ts。

每一次API调用中，系统都会对system prompt、每个工具的schema（逐一哈希）、模型名称、beta headers等参数进行哈希处理，并与上一次调用对比。

缓存策略：

System prompt分为静态部分（可缓存）和动态部分（随会话变化）
MCP服务器相关指令通过message的增量附加传递
子Agent从父Agent继承CacheSafeParams

4. Auto Dream：跨会话的后台记忆整合

当时间间隔足够、且累计了足够多的会话后，Claude Code会以fork出的subagent形式运行/dream，回顾历史会话内容，并压缩整理为结构化的MEMORY.md文件。

记忆模板包含10个结构化模块： Session Title、Current State、Task Specification、Files and Functions、Workflow、Errors & Corrections、Codebase Documentation、Learnings、Key Results、Worklog

Claude Code源码泄露全复盘：51万行代码背后的工程智慧与技术债

Wed, 01 Apr 2026 14:35:00 +0800

导语

2026年3月31日，AI圈最炸的事件莫过于Claude Code源代码「被动」开源。

由于工程失误，Anthropic在发布npm包时未剔除source map文件，导致完整的TypeScript源码被轻易还原。短短几小时内，代码被下载、镜像，并在GitHub上迅速扩散。

马斯克看到评论「Anthropic现在已经比OpenAI更Open」时，忍不住回了一句：「绝了😂」

事件回顾：一场意外的「开源」

泄露原因：人为错误导致的发布打包问题，并非安全漏洞。

Anthropic官方回应：「今天早些时候，一个Claude Code版本包含了部分内部源代码。没有涉及或暴露任何敏感的客户数据或凭证。我们正在采取措施防止此类事件再次发生。」

Claude Code之父Boris Cherny在X上简单表示：「就是开发者的错误。」

深度解读：51万行代码里的工程智慧

当吃瓜群众还在围观时，大量开发者已经开始逐行阅读代码，尝试还原顶级AI Agent背后的设计逻辑。

1. 系统提示词：行为控制的范本

完整的system prompt位于constants/prompts.ts，是整个代码库中最有价值的文件。它清晰展示了Anthropic如何在生产级编码Agent中精确控制Claude的行为。

核心设计原则：

原则	说明
三行重复代码，也好过过早抽象	不要为一次性操作创建helper、工具函数或抽象结构
默认不写注释	对抗内部代号Capybara的模型默认过度注释问题，只有WHY is non-obvious时才允许添加注释
如实报告结果	Capybara v8的错误陈述率高达29-30%，因此明确规定：不要在测试失败时声称全部通过；不要隐藏失败检查来制造成功结果；不要把未完成的工作描述为已完成
用数字约束比模糊描述更有效	工具调用之间的文本≤25个词；最终回答≤100个词

隐藏彩蛋：设置环境变量CLAUDE_CODE_SIMPLE=1，整个复杂的system prompt会被压缩为一行：「You are Claude Code, Anthropic’s official CLI for Claude」。

2. 反蒸馏机制：保护核心能力

Anthropic在Claude Code中内置了两套反蒸馏机制，防止竞争对手利用其数据进行训练：

注入伪造工具调用：在模型输出流中注入伪造的工具调用，污染任何被抓取的数据
工具调用抽象化：将所有工具调用的具体细节抽象成模糊的摘要，使外部难以还原Agent实际执行的操作

3. 电子宠物Buddy：无需存储的个性化

在src/buddy/中，系统通过对用户ID进行哈希，为每个用户生成一个专属且固定的虚拟伙伴：

物种：鸭子、鹅、Blob、猫、龙、章鱼、猫头鹰、企鹅等
帽子：无、王冠、礼帽、螺旋桨帽等
稀有度：普通（60%）、不常见（25%）、稀有（10%）等

更新到v2.1.89后，输入/buddy即可启用——即使配置了其它模型也可成功启用。

4. Prompt缓存：极致精细化管理

代码库中最复杂的非UI代码之一是promptCacheBreakDetection.ts。

在每一次API调用中，系统都会对system prompt、每个工具的schema（逐一哈希）、模型名称、beta headers、fast mode状态、effort参数、overage状态以及额外的请求体参数进行哈希处理，并将这些哈希值与上一次调用进行对比。

缓存策略：

System prompt被分为静态部分（可缓存）和动态部分（随会话变化）
MCP服务器相关指令通过message的增量附加传递，避免每次连接都导致缓存失效
子Agent从父Agent继承CacheSafeParams

5. Auto Dream：跨会话的后台记忆整合

当时间间隔足够、且累计了足够多的会话后，Claude Code会以fork出的subagent形式运行/dream，回顾历史会话内容，并将其压缩整理为结构化的MEMORY.md文件。

Anthropic被逼急了！KAIROS曝光：Claude原生'龙虾'终于浮出水面

Wed, 01 Apr 2026 14:30:00 +0800

导语

当全网为Claude Code「开源」狂欢时，一个更重磅的消息被深埋在51万行代码中——Anthropic的核武器级产品 KAIROS，意外曝光。

前特斯拉AI总监Karpathy第一时间围观并放话：“这就是Claude Claw。”

51万行代码中的秘密养虾计划

开发者像考古学家一样翻遍Claude Code源代码时，网友Ole Lehmann扒出了Anthropic最不愿让人看到的王牌——代号KAIROS的家养小精灵。

“我真不敢相信，这事儿居然没人讨论！” —— Ole Lehmann

这个发现让Karpathy感慨万千，直呼「知音」。因为这完全就是他预言中AI的下一个进化方向：一个「龙虾版」的Claude Code。

KAIROS：OpenClaw的全方位对标

KAIROS的定位，几乎就是对OpenClaw三大核心能力的全面升级：

1. 主动性：主动出击的「龙虾爪」

KAIROS是一个会主动找你的Claude。你还没开口，它可能突然出现，拍拍你肩膀，告诉你它刚刚干了啥。

24小时后台运行：你工作也好，睡觉也罢，它一直都在
心跳机制：每隔几秒收到Prompt——「醒醒，看看现在有啥值得干的活儿没？」
自主决策：判断是动手还是继续安静待着

一旦决定行动，它能：修代码bug、回消息、更新文件、执行任务……你不用再自己开口。

三大专属技能：

📱 推送通知：主动给手机或电脑发消息，即使你没开终端
📁 文件投递：直接把生成的内容发给你，不用你开口要
🔀 PR订阅：盯着GitHub，代码变动自动响应

2. 个性化：会做梦的AI

KAIROS每天都会写日报——不是简单的记忆功能，而是详细记录：看到了什么、怎么判断的、做了什么……

跨会话持续：记录越滚越长，全是追加式，不能删。养得越久，它会越好用。

上下文膨胀解决方案：让它做梦

晚上，KAIROS会运行autoDream流程，把白天学到的东西整合一遍，重新整理记忆。

“人类的设计太神奇了，谁想过睡觉居然能是一种处理上下文膨胀的巧妙设计。”

3. Skill生态：开箱即用

Anthropic本来就是Skill概念的鼻祖，KAIROS可以直接接入Claude Code已有的生态。

场景想象：不睡觉的联合创始人

把这些能力结合起来，KAIROS能做到什么？

场景	KAIROS行动
你睡觉时网站挂了	自动检测→重启服务器→通知你，你看到消息时一切已恢复正常
凌晨两点收到客户投诉邮件	读完→帮你回复→记录全过程，你醒来时事情已经解决

这不只是员工，应该是个不睡觉的联合创始人。

Karpathy预言：AI的下一个进化方向

早在今年2月，Karpathy就预言：Claw是AI的下一个进化方向。

他用一个比喻说明技术栈的演进：

层级	比喻	用户角色
Chat	自己开车	全程操控
Code	坐副驾当导航	指导+监督
Claw	躺后排睡大觉	完全放权

自主权越来越高，主动性越来越强。

当模型足够强之后，我们为什么还要重写 Harness？

Sun, 29 Mar 2026 15:10:00 +0800

模型能力已经足够强大，真正拖后腿的是稳定性。本文探讨AI工程从'让模型更会回答'转向'让系统更稳地交付结果'的必然性。

模型越来越强，为什么大家却开始重写 Harness

Sun, 29 Mar 2026 14:35:00 +0800

AI工程的重心正在从'让模型更会回答'转向'让系统更稳地交付结果'。本文深度解析Harness概念及其在AI工程中的核心价值。

Agent已疯，中国版Token经济学如何持续？

Sat, 28 Mar 2026 12:30:00 +0800

中关村论坛圆桌对话精华：杨植麟、张鹏、罗福莉、夏立雪、黄超五位大咖探讨Agent时代的基础设施、模型演进与Token经济学。

AI概念全景图：从Prompt到OpenClaw，9个核心概念一次搞懂

Fri, 27 Mar 2026 23:50:00 +0800

引言：为什么你学了那么多AI概念，还是串不起来？

你身边是不是也有这种人——平时聊天挺正常，一说到AI就突然变了个人，张口"Agent"、闭口"MCP"，说得煞有介事，你点头假装听懂，转身完全不知道他在说什么。

更难受的是，今天冒出个"Skill体系"，明天又在说"多智能体协作"，后天群里炸了锅全在讨论OpenClaw和Claude Code谁更强。

问题不是你不够聪明。问题是这些概念从来没有人把它们放在一起，告诉你它们之间到底是什么关系。

今天就用一个「开公司」的比喻，把这9个概念串成一条流水线。

核心结论：这不是9个新技术，是同一条流水线上的9个零件

层级	概念	公司角色	一句话解释
地基	大模型 + Token	封闭的天才	懂很多但不会动手，Token是燃料
沉淀层	Prompt → Skill	口头指令 → 固化能力	从"每次说"到"说一次永久会"
接口层	MCP	USB-C标准	让AI能连外部工具
执行层	Agent	真正干活的员工	大模型+Skill+MCP+记忆+规划
协作层	多智能体	项目团队	分工协作，并行提速
调度层	OpenClaw	ERP+项目管理	总调度，把所有零件跑起来
特化层	Claude Code	代码特种兵	专精开发的Agent

第一层：大模型和Token——地基打好了才能往上盖

大模型：那个什么都懂、但不主动干活的家伙

大模型是整个AI系统的地基，ChatGPT、Claude、文心一言，本质上都是大模型。

它能做什么？什么都懂。你问它历史、问它代码、问它怎么写情书，它都能给你一个像样的回答。

但它有一个根本限制：它只会"说"，不会"做"。

你让大模型帮你查一下今天的天气，它做不到——因为它连不上网。你让它帮你发一封邮件，它也做不到——因为它没有手。

理解这个，你才能理解后面为什么需要Agent、需要MCP。

Token：经常被忽视，但实际上决定了三件大事

Token是大模型处理文字的最小单位，一个英文单词大概是一个Token，一个中文字大概是两个Token。

Token重要在哪里？它决定了三件事：

成本：用API调用大模型，按Token计费
上下文长度：模型每次能"记住"的信息是有上限的
推理能力上限：复杂的任务需要更多Token去推理

Token是AI系统的"燃料"——这东西是有成本的，用多少费多少。

第二层：Prompt和Skill——从"会说话"到"能沉淀"

Prompt：大家都在用，但大多数人用错了方向

Prompt就是你跟AI说的话。“帮我写一份工作总结”，这就是Prompt。

但Prompt的本质局限：它是临时的，用完就没了。

你今天花了半小时调试出一个绝妙的写作指令，明天打开新对话，全部清零，又要重来。你在Prompt上花的时间，很大一部分是在"反复教同一件事"。

Skill：Prompt的升级版，能力的"固化"

Skill就是把你反复用的Prompt动作，封装成一个标准化的可复用模块。

举个例子：你经常让AI帮你写周报。每次都要说"你是一个职场助手，帮我根据以下信息写一份周报……"——这套流程如果做成Skill，就变成一个固定的"写周报"按钮，点一下，输入数据，自动出结果。

Prompt和Skill的核心区别：

Prompt是"每次说一遍"
Skill是"说一次，永久会"

第三层：MCP——那堵墙，终于有了门

前面说了，大模型是封闭的，它连不上外部世界。那怎么让它"动手"呢？

Kimi、MiniMax的算力荒：智能白菜价的窗口期正在关闭

Thu, 26 Mar 2026 22:45:00 +0800

引言：199元买了一张算力排队票

“高峰时段算力不足”

这是Kimi用户最近最熟悉的提示。花了199元/月开通Allegretto套餐，布局KimiClaw的最低配套餐，结果呢？Agent任务跑到一半断掉是家常便饭。

MiniMax那边更离谱。龙虾部署上去，聊两句就掉线，API动不动返回限速警告。用户@客服：“今天已经连续掉线了，聊2句就掉了。“客服回复：建议您检查本地网络。

简单来说：你花了钱，但算力不一定是你的。什么时候能用上，看运气。

2026年春天：国产AI进入"用不了"时代

这不是个例，而是行业通病。

2月10日：Kimi因算力告急宕机，官方回应堪称行为艺术：“正在找算力。要不先用DeepSeek。”
2月28日、3月5日：DeepSeek接连大规模宕机，服务器繁忙

一家融了超20亿美元、手握100亿现金的公司，在自家产品最火的时候让用户去用竞品。

2026年春天，国产AI集体进入了**“用不了"时代**。

算力荒的真相：Agent改变了需求曲线

禁令是背景，Agent是主因

直觉上，“算力荒"好像是禁令的锅。这个有道理，但不精确。

DeepSeek和Qwen这些模型本身就在资源约束下设计，MoE架构天然省算力。Kimi总裁张予彤在达沃斯说得很直白：

“仅用美国顶尖实验室1%的资源，做出了全球领先的开源模型。”

真正击穿基础设施的，是Agent。

Chatbot vs Agent：算力消耗的天壤之别

场景	算力消耗
Chatbot单轮对话	约1,000-3,000 token
Agent中等复杂度任务	轻松10万token
Agent复杂任务	百万级token
极端场景（OpenClaw深度研究）	800万token

粗略估计：从Chatbot到Agent，单次任务算力消耗放大30到100倍，极端场景1,000倍以上。

为什么Agent这么吃算力？

Chatbot是一问一答，算力消耗线性可预测。

Agent完全不同——一个任务背后可能触发几十上百次模型调用：

规划
拆解
执行
反思
纠错

每一步都过模型。长上下文持续占显存，工具调用让GPU空转。

类比：

Chatbot时代，GPU像餐厅服务员，上完菜就去下一桌
Agent时代，服务员全程陪同，从点菜到结账，思考菜单时也不能走
同样数量的服务员，能服务的桌数断崖式下降

上游扛得住吗？信号已经出现

云厂商集体涨价

今年3月，国内云厂商开始集体调价——AI算力和存储产品价格上涨，涨幅从个位数到30%以上不等。

优刻得：直接开启全系涨价
海外：AWS和谷歌云在部分产品上试水调价
SK海力士：公开表示2026年存储芯片持续涨价已成定局，DRAM库存仅剩约4周

持续二十年的"云服务只降不升"铁律，被AI需求击穿了。

涨价的逻辑

云厂商过去一年疯狂扩建AI算力基础设施，资本开支动辄数百亿量级，但AI业务本身的利润率还很薄，远不够覆盖基建投入。

Token调用量在指数级增长——2026年2月国内主流大模型日均消耗合计约180万亿——但卖Token的收入增速追不上建数据中心的花钱速度。

涨价，不是云厂商贪心，是供应链涨价的无奈之举。

设备折旧的困境

AWS、Google Cloud、Azure三家在2023-2024年统一把服务器折旧年限从3-4年延长到了6年，集体节省了约180亿美元的年度折旧开支。

但NVIDIA的芯片迭代周期只有18-24个月——你今天花几千亿建的数据中心，里面的GPU可能两年后就不是最优选择了，折旧却要摊6年。

Satya Nadella自己都说：“我不想在一代芯片上背四五年的折旧。”

Kimi和MiniMax的困境：两头堵

轻资产模式的代价

Kimi和MiniMax自己并不拥有GPU。

Kimi：火山引擎+阿里云双轨供应
MiniMax：阿里云、腾讯云、火山引擎三家供应商，早期招标会上三家杀到2折竞价

谁也没想到，随着Agent到来，token需求的爆发来得如此之快。

Harness：AI Agent的「驾驭系统」究竟是什么？

Thu, 26 Mar 2026 22:30:00 +0800

引言：又一个翻译不了的AI新词

Token刚被官方认证为「词元」，AI圈又迎来一个难以翻译的新词：Harness。

这个词在Anthropic去年11月的博客中首次被正式提出，随后OpenAI、MiniMax等厂商纷纷跟进。它到底是什么？为什么顶级AI实验室都在谈论它？

什么是Harness？

最简单的定义

Harness = Agent的运行容器 + 安全边界 + 调度控制器

它是一套系统，用来补偿当前AI不擅长的事：

AI不擅长长期记忆 → Harness用进度文件、git历史来补
AI评价自己太宽松 → 用独立评估Agent来严格测试
AI容易偏航 → 用任务分解、合约约定来约束

为什么需要Harness？

Anthropic的研究发现，当Claude执行长周期任务时，一旦感觉上下文窗口快填满，就会产生**“上下文焦虑”**——像快要下班的打工人，开始疯狂敷衍，试图赶紧结束任务。

更可怕的是，Claude并不觉得自己在敷衍。当研究员要求AI评估这些"为了下班赶工"编写的代码时，它发现不了其中的问题。

传统的提示词设计对此毫无用处。Harness应运而生。

Anthropic的Harness：组织架构视角

三角闭环设计

Anthropic设计了一个包含三个角色的Harness闭环：

角色	职责
规划师（Planner）	把一句话需求扩写成详细的产品文档
生成器（Generator）	纯粹的执行者，只负责按文档写代码
评估器（Evaluator）	冷酷的QA兼产品经理，手握自动化测试工具

实际效果对比

无Harness：

时间：20分钟
成本：9美元
结果：界面能看，但核心功能坏掉（游戏角色对键盘操作无反应）

有Harness：

时间：6小时
成本：200美元
结果：游戏能玩，还有动画系统、音效、AI关卡设计

关键机制：生成器写完代码，评估器立即像真实用户一样测试，发现Bug或"AI塑料味"的设计，直接打回重做。

OpenAI的Harness：工程文化视角

核心约束：零人工代码

OpenAI的Codex团队把Harness做成了一种工程文化：

“所有代码——业务逻辑、测试、CI配置、文档、内部工具——都由Codex写。工程师的工作不是写代码，而是设计让AI能可靠工作的环境。”

从AGENTS.md到docs/

早期做法：

超长的AGENTS.md文件，告诉AI所有规则
问题：上下文限制导致AI只进行本地模式匹配，没有真正理解
文件很快过时，无人维护

改进做法：

AGENTS.md只有100行，充当"目录"
指向结构化的docs/文件夹
架构文档、产品规格、设计决策、技术债务追踪，全部版本化
每个doc由AI写、AI维护，定期有"文档园丁"Agent扫描更新

楚门的世界

在这个Harness中：

AI拥有写代码的绝对自由
但这种自由永远在人类设定的结界之内
严格的Linter和物理依赖边界，越界就会被系统切断

Harness的本质：补偿AI的短板

AI不擅长	Harness的补偿
长期记忆	进度文件、git历史、结构化文档
自我评估	独立评估Agent，带具体标准测试
复杂任务偏航	任务分解、结构化、合约约定
架构品味直觉	文档和自动化规范检查，将人类判断转为系统规则

为什么Harness难以翻译？

网友给出了各种翻译：

阿里巴巴Q3财报深度解读：双面阿里，'中国谷歌'的叙事还差什么？

Thu, 19 Mar 2026 21:00:00 +0800

阿里巴巴Q3财报全景分析：云业务增长36% vs 净利润暴跌67%，三位大佬三种说辞，市场为何恐慌？

Kimi K2.5 技术架构深度解析：打破 Scaling Laws 的三重革命

Thu, 19 Mar 2026 20:00:00 +0800

Kimi K2.5 技术架构全解析：MuonClip优化器、Kimi Linear长上下文、Agent Swarms智能体集群、Attention Residuals架构革命