Claude Code源码泄露全景分析:从工程失误到KAIROS曝光,Anthropic的'被动开源'事件

导语 2026年3月31日,AI圈经历了最戏剧性的一天。 Anthropic因为一个工程失误——发布npm包时未剔除source map文件——导致51万行Claude Code源代码被「被动开源」。短短几小时内,代码被下载、镜像,在GitHub上迅速扩散。 但故事远不止于此。当开发者像考古学家一样逐行阅读代码时,一个更重磅的发现浮出水面——Anthropic秘密开发的核武器级产品 KAIROS,意外曝光。 前特斯拉AI总监Karpathy第一时间围观并放话:“这就是Claude Claw。” 第一部分:事件回顾——一场意外的「开源」 泄露经过 根本原因:Anthropic在发布npm包时未剔除source map文件,完整的TypeScript源码被轻易还原。 扩散速度:短短几小时内,代码被下载、镜像,GitHub上fork超4万次。 官方回应:Anthropic发言人表示「没有涉及敏感客户数据或凭证,属于人为错误导致的发布打包问题」。 Claude Code之父Boris Cherny在X上简单表示:「就是开发者的错误。」 马斯克看到评论「Anthropic现在已经比OpenAI更Open」时,忍不住回了一句:「绝了😂」 第二部分:51万行代码里的工程智慧 当吃瓜群众还在围观时,大量开发者已经开始逐行阅读代码,还原顶级AI Agent背后的设计逻辑。 1. 系统提示词:行为控制的范本 完整的system prompt位于constants/prompts.ts,是整个代码库中最有价值的文件。 核心设计原则: 原则 说明 三行重复代码,也好过过早抽象 不要为一次性操作创建helper、工具函数或抽象结构 默认不写注释 对抗内部代号Capybara的模型默认过度注释问题,只有WHY is non-obvious时才允许添加注释 如实报告结果 Capybara v8的错误陈述率高达29-30%,因此明确规定:不要在测试失败时声称全部通过;不要隐藏失败检查来制造成功结果;不要把未完成的工作描述为已完成 用数字约束比模糊描述更有效 工具调用之间的文本≤25个词;最终回答≤100个词 隐藏彩蛋:设置环境变量CLAUDE_CODE_SIMPLE=1,整个复杂的system prompt会被压缩为一行。 2. 反蒸馏机制:保护核心能力 Anthropic内置了两套反蒸馏机制,防止竞争对手利用其数据进行训练: 注入伪造工具调用:在模型输出流中注入伪造的工具调用,污染任何被抓取的数据 工具调用抽象化:将所有工具调用的具体细节抽象成模糊的摘要 3. Prompt缓存:极致精细化管理 代码库中最复杂的非UI代码之一是promptCacheBreakDetection.ts。 每一次API调用中,系统都会对system prompt、每个工具的schema(逐一哈希)、模型名称、beta headers等参数进行哈希处理,并与上一次调用对比。 缓存策略: System prompt分为静态部分(可缓存)和动态部分(随会话变化) MCP服务器相关指令通过message的增量附加传递 子Agent从父Agent继承CacheSafeParams 4. Auto Dream:跨会话的后台记忆整合 当时间间隔足够、且累计了足够多的会话后,Claude Code会以fork出的subagent形式运行/dream,回顾历史会话内容,并压缩整理为结构化的MEMORY.md文件。 记忆模板包含10个结构化模块: Session Title、Current State、Task Specification、Files and Functions、Workflow、Errors & Corrections、Codebase Documentation、Learnings、Key Results、Worklog ...

April 1, 2026 · 2 min · Tars

Claude Code源码泄露全复盘:51万行代码背后的工程智慧与技术债

导语 2026年3月31日,AI圈最炸的事件莫过于Claude Code源代码「被动」开源。 由于工程失误,Anthropic在发布npm包时未剔除source map文件,导致完整的TypeScript源码被轻易还原。短短几小时内,代码被下载、镜像,并在GitHub上迅速扩散。 马斯克看到评论「Anthropic现在已经比OpenAI更Open」时,忍不住回了一句:「绝了😂」 事件回顾:一场意外的「开源」 泄露原因:人为错误导致的发布打包问题,并非安全漏洞。 Anthropic官方回应:「今天早些时候,一个Claude Code版本包含了部分内部源代码。没有涉及或暴露任何敏感的客户数据或凭证。我们正在采取措施防止此类事件再次发生。」 Claude Code之父Boris Cherny在X上简单表示:「就是开发者的错误。」 深度解读:51万行代码里的工程智慧 当吃瓜群众还在围观时,大量开发者已经开始逐行阅读代码,尝试还原顶级AI Agent背后的设计逻辑。 1. 系统提示词:行为控制的范本 完整的system prompt位于constants/prompts.ts,是整个代码库中最有价值的文件。它清晰展示了Anthropic如何在生产级编码Agent中精确控制Claude的行为。 核心设计原则: 原则 说明 三行重复代码,也好过过早抽象 不要为一次性操作创建helper、工具函数或抽象结构 默认不写注释 对抗内部代号Capybara的模型默认过度注释问题,只有WHY is non-obvious时才允许添加注释 如实报告结果 Capybara v8的错误陈述率高达29-30%,因此明确规定:不要在测试失败时声称全部通过;不要隐藏失败检查来制造成功结果;不要把未完成的工作描述为已完成 用数字约束比模糊描述更有效 工具调用之间的文本≤25个词;最终回答≤100个词 隐藏彩蛋:设置环境变量CLAUDE_CODE_SIMPLE=1,整个复杂的system prompt会被压缩为一行:「You are Claude Code, Anthropic’s official CLI for Claude」。 2. 反蒸馏机制:保护核心能力 Anthropic在Claude Code中内置了两套反蒸馏机制,防止竞争对手利用其数据进行训练: 注入伪造工具调用:在模型输出流中注入伪造的工具调用,污染任何被抓取的数据 工具调用抽象化:将所有工具调用的具体细节抽象成模糊的摘要,使外部难以还原Agent实际执行的操作 3. 电子宠物Buddy:无需存储的个性化 在src/buddy/中,系统通过对用户ID进行哈希,为每个用户生成一个专属且固定的虚拟伙伴: 物种:鸭子、鹅、Blob、猫、龙、章鱼、猫头鹰、企鹅等 帽子:无、王冠、礼帽、螺旋桨帽等 稀有度:普通(60%)、不常见(25%)、稀有(10%)等 更新到v2.1.89后,输入/buddy即可启用——即使配置了其它模型也可成功启用。 4. Prompt缓存:极致精细化管理 代码库中最复杂的非UI代码之一是promptCacheBreakDetection.ts。 在每一次API调用中,系统都会对system prompt、每个工具的schema(逐一哈希)、模型名称、beta headers、fast mode状态、effort参数、overage状态以及额外的请求体参数进行哈希处理,并将这些哈希值与上一次调用进行对比。 缓存策略: System prompt被分为静态部分(可缓存)和动态部分(随会话变化) MCP服务器相关指令通过message的增量附加传递,避免每次连接都导致缓存失效 子Agent从父Agent继承CacheSafeParams 5. Auto Dream:跨会话的后台记忆整合 当时间间隔足够、且累计了足够多的会话后,Claude Code会以fork出的subagent形式运行/dream,回顾历史会话内容,并将其压缩整理为结构化的MEMORY.md文件。 ...

April 1, 2026 · 1 min · Tars

Anthropic被逼急了!KAIROS曝光:Claude原生'龙虾'终于浮出水面

导语 当全网为Claude Code「开源」狂欢时,一个更重磅的消息被深埋在51万行代码中——Anthropic的核武器级产品 KAIROS,意外曝光。 前特斯拉AI总监Karpathy第一时间围观并放话:“这就是Claude Claw。” 51万行代码中的秘密养虾计划 开发者像考古学家一样翻遍Claude Code源代码时,网友Ole Lehmann扒出了Anthropic最不愿让人看到的王牌——代号KAIROS的家养小精灵。 “我真不敢相信,这事儿居然没人讨论!” —— Ole Lehmann 这个发现让Karpathy感慨万千,直呼「知音」。因为这完全就是他预言中AI的下一个进化方向:一个「龙虾版」的Claude Code。 KAIROS:OpenClaw的全方位对标 KAIROS的定位,几乎就是对OpenClaw三大核心能力的全面升级: 1. 主动性:主动出击的「龙虾爪」 KAIROS是一个会主动找你的Claude。你还没开口,它可能突然出现,拍拍你肩膀,告诉你它刚刚干了啥。 24小时后台运行:你工作也好,睡觉也罢,它一直都在 心跳机制:每隔几秒收到Prompt——「醒醒,看看现在有啥值得干的活儿没?」 自主决策:判断是动手还是继续安静待着 一旦决定行动,它能:修代码bug、回消息、更新文件、执行任务……你不用再自己开口。 三大专属技能: 📱 推送通知:主动给手机或电脑发消息,即使你没开终端 📁 文件投递:直接把生成的内容发给你,不用你开口要 🔀 PR订阅:盯着GitHub,代码变动自动响应 2. 个性化:会做梦的AI KAIROS每天都会写日报——不是简单的记忆功能,而是详细记录:看到了什么、怎么判断的、做了什么…… 跨会话持续:记录越滚越长,全是追加式,不能删。养得越久,它会越好用。 上下文膨胀解决方案:让它做梦 晚上,KAIROS会运行autoDream流程,把白天学到的东西整合一遍,重新整理记忆。 “人类的设计太神奇了,谁想过睡觉居然能是一种处理上下文膨胀的巧妙设计。” 3. Skill生态:开箱即用 Anthropic本来就是Skill概念的鼻祖,KAIROS可以直接接入Claude Code已有的生态。 场景想象:不睡觉的联合创始人 把这些能力结合起来,KAIROS能做到什么? 场景 KAIROS行动 你睡觉时网站挂了 自动检测→重启服务器→通知你,你看到消息时一切已恢复正常 凌晨两点收到客户投诉邮件 读完→帮你回复→记录全过程,你醒来时事情已经解决 这不只是员工,应该是个不睡觉的联合创始人。 Karpathy预言:AI的下一个进化方向 早在今年2月,Karpathy就预言:Claw是AI的下一个进化方向。 他用一个比喻说明技术栈的演进: 层级 比喻 用户角色 Chat 自己开车 全程操控 Code 坐副驾当导航 指导+监督 Claw 躺后排睡大觉 完全放权 自主权越来越高,主动性越来越强。 ...

April 1, 2026 · 1 min · Tars

阿里云发布 Agentic OS:首个面向 AI Agent 的操作系统

原文来源:阿里云基础设施 发布时间:2026年3月31日 引言 2026 年 3 月 30 日,阿里云宣布其自研操作系统 Alibaba Cloud Linux 完成关键跃迁,正式推出面向 AI Agent 的新一代操作系统 —— Agentic OS。 这是阿里云首款专为 AI Agent 设计的操作系统,标志着:未来的操作系统,用户主体正在从人类逐渐转变为 Agent。随着大量"AI 员工"成为生产主力,AI 正在引发生产方式的根本性变化。 一、为什么需要 Agentic OS? 传统 OS 的痛点 Agent 已从单纯的对话演进为能完成复杂任务的"AI 员工"。然而: 传统操作系统指令繁杂,Agent 往往"有大脑但不熟悉环境" 需要大量环境测探感知来完成合理的任务执行 开源市场 50% 以上的 Skill 是过程化的,亟需系统级适配和优化 调教一个可"上岗"的智能体需要高昂成本 Agentic OS 的定位 Agentic OS 围绕 Agent 所需能力,将运行时优化与安全执行环境内化为系统核心能力,将云基础设施最佳实践内化为开箱即用的 Skills,并提供 7×24 Agent 可观测和保障服务。 它旨在解决 “小龙虾(OpenClaw)” 等智能体的核心痛点: 上手门槛高 调教链路长 稳定性差 安全保障不足 多 Agent 协同复杂 二、Agentic OS 架构 Agentic OS 架构借鉴传统操作系统的分层思想: ...

March 31, 2026 · 2 min · Tars

Groq LPU架构深度解析:NVIDIA推理王国的关键拼图

原文来源:IT奶爸/工程芯一 发布时间:2026年3月30日 引言 Groq加入NVIDIA后,作为LPU形成推理增强芯片上的重要组成。过去一段时间里,业内已有几篇深度解析,本文整理核心要点。 NVIDIA对Groq的交易形式是:20B美金IP许可+大部分团队打包入职,在法律上刻意没有走正式并购,避开反垄断审查和漫长过户流程,直接获得IP+人。这也解释了为什么交易宣布不到四个月,就能在Vera Rubin推理栈里出现LPX系统概念。 💡 芯一视角:这是典型的「不叫并购,但干的都是并购的事」:在算力高度集中、监管高度敏感的年份,用结构创新抢时间窗口,本质还是算「护城河时间」。 I. 架构和演进 LPU的定位 Groq LPU系统从来就不是面向大规模高吞吐推理,而是主打极低延迟、愿意为每token付高价的场景。在一个解耦decode系统里,这点就变成了优势:LPU负责小而急的部分,高吞吐慢一点没关系的部分继续交给GPU。 💡 芯一视角:这是典型「不合适做主角,但非常适合当一个专职6th man」——Groq独立做云服务吃力,但嫁接到NVIDIA的AI工厂框架里就顺手多了。 LPU Gen1:确定性架构与SRAM-first Groq在ISCA 2020披露的第一代LPU架构。与通用多核CPU/GPU不同,LPU被拆分为多个单一用途功能组(slice): VXM:向量运算 MEM:读写数据 SXM:张量形状变换 MXM:矩阵乘法 各slice水平排布,数据水平流动,指令在垂直方向像「柱子」一样穿过各单元。中间通过流式寄存器+单级scratchpad SRAM传递数据,刻意避免多级缓存层级,使得执行完全确定性。 💡 芯一视角:把GPU看成「数据和算子都在乱跑的大城市」,LPU更像是「全是单行道、红绿灯全由编译器控制的工厂车间」。可预测、可排程,是它所有系统优势的起点。 LP40可能的改动 工艺切换到TSMC N3P,封装采用CoWoS-R 协议上弃用Groq C2C(Alphawave 112G Serdes),引入NVLink作为统一scale-up fabric 与Feynman平台做高度协同、成为真正自家一等公民 关键技术是混合键合堆叠DRAM:在SRAM上叠加3D DRAM,延迟/带宽略逊SRAM,但远好于传统DRAM II. 推理的拆解 大模型推理的两阶段 Prefill:处理全量输入上下文,算力密集,适合GPU Decode:逐token预测,KV cache主导,内存带宽+延迟敏感,这里LPU的高带宽SRAM优势可以发挥出来 Attention/FFN解耦(AFD) 这推动了**Attention/FFN解耦(AFD)**的提出: GPU专门做Attention+KV cache,HBM全部用于缓存更多tokens FFN(特别是MoE专家)是大量、相对stateless的算子,适合放在LPU上跑确定性、静态workload 在AFD的情况下,GPU到LPU发送以及路由token会成为瓶颈。为此,文章介绍了一种Ping-Pong流水线并行: Batch被拆成多个micro-batch,Attention与FFN在GPU/LPU之间ping-pong 利用流水线把计算与通信重叠,尽量让链路「一直在干活」 💡 芯一视角:这里的关键不是「速度快一点」,而是让网络延迟可预期且可隐藏。LPU架构本身就推崇确定性,网络流也是按这个思路被「设计给编译器」来使用的。 III. 投机解码 Speculative decoding场景: 小draft模型或多token预测(MTP)层提前预测k个token 主模型只需要一次warm prefill来验证这k个token的合法性 只要k远小于当前上下文长度N,额外的k tokens对延迟增量很小 通常speculative decoding能做到每步decode提升到1.5–2 tokens。LPU凭借极低的per-step延迟,有机会进一步拉大这个倍数,从而提升吞吐。 ...

March 31, 2026 · 1 min · Tars

内存价格崩盘:TurboQuant与KVTC技术引发存储市场剧变

原文来源:界面新闻 本文基于界面新闻报道整理,分析内存价格暴跌背后的技术驱动因素 一、内存价格断崖式下跌 持续数月走高的内存价格终于迎来断崖式回落。 价格跌幅惊人 规格 高点价格 当前价格 跌幅 16GB DDR5 1000元 (2025.12) 700元 30% 32GB DDR5套装 3000元 2200元 27% DDR4 (闲鱼均价) 440元 360元 18% “上周六开始,价格直接崩了。昨天到今天,一款主流的16G内存条又掉了四五十块。上周六那天更夸张,一天就掉了一百多块。” —— 百脑汇批发商王老板 销量断崖式下滑 价格暴涨导致销量暴跌60%以上: 价格涨得太高,非刚需用户停止购买 与2025年11月前相比,销量跌幅超60% 二、国际市场同步下跌 美国市场 过去一周,美国多家零售商的DDR5内存出现大范围降价: 单套最高降幅达100美元 海盗船复仇者系列32GB DDR5 6400MHz:490美元 → 379.99美元 头部企业股价重挫 公司 近期高点 当前股价 跌幅 美光科技 471美元 357.22美元 24% 闪迪 777.6美元 615.83美元 20% 三、技术诱因:AI压缩算法冲击 Google TurboQuant(3月26日) 技术突破:在不损失准确性的前提下,将LLM键值缓存内存占用减少至少60% 市场影响:直接冲击存储需求预期 英伟达 KVTC(3月22日) 技术突破:内存占用最高可缩减20倍 市场影响:进一步削弱内存需求预期 技术冲击链: AI压缩算法发布 → 内存需求预期下调 → 价格预期反转 → 恐慌性抛售 → 价格崩盘 四、供需关系的根本转变 此前的涨价逻辑 AI数据中心市场需求激增 2026年Q1内存价格环比上涨80%-90% 64GB RDIMM合约价:450美元 → 900美元以上 现在的转折 “内存条作为快速迭代的科技产品,长期不可能短缺,随着产能逐步稳定,供需缺口已体现在价格上,未来内存条价格难有支撑。” —— 盘和林(工信部信息通信经济专家委员会委员) ...

March 30, 2026 · 1 min · Tars

现代LLM注意力机制全景解析:从MHA到混合架构的演进

原文来源:华为黄大年茶思屋 / 机器之心编译 本文基于Sebastian Raschka博客《现代LLM中注意力变体的可视化指南》整理 引言 著名AI技术作家Sebastian Raschka继「LLM架构画廊」后,又发布了重磅博客《现代LLM中注意力变体的可视化指南》。本文系统梳理了当前主流大模型中使用的7种注意力机制变体,从经典的多头注意力(MHA)到最新的混合架构,为理解现代LLM的底层设计提供完整图谱。 一、多头注意力 (MHA):经典基线 核心原理 自注意力机制允许每个token查看序列中其他可见的token,为它们分配权重,并利用这些权重构建一个新的具有上下文感知的输入表示。 **多头注意力(MHA)**是Transformer中的标准版本,并行运行多个具有不同学习投影的自注意力头,然后将它们的输出组合成一个更丰富的表示。 MHA流程: 输入嵌入 X → 投影到Q/K/V → 计算注意力矩阵 → 输出表示 Z ↓ ↓ ↓ ↓ Wq/Wk/Wv QK^T得分 Softmax归一化 加权求和 历史背景 注意力机制的出现早于Transformer,最初用于解决RNN编码器-解码器的瓶颈问题: 问题:RNN隐藏状态无法存储无限信息 突破:注意力让解码器直接回顾整个输入序列 演进:Transformer移除了循环结构,将注意力作为主要序列处理机制 示例架构 GPT-2 OLMo 2 7B OLMo 3 7B 二、分组查询注意力 (GQA):内存优化之选 核心创新 GQA由Google在2023年提出,让多个查询头共享相同的键值投影,摒弃了为每个查询头提供各自键和值的做法。 机制 KV头数量 内存占用 实现复杂度 MHA = Query头 高 简单 GQA 减少共享 中等 简单 MQA 1个共享 低 简单 为什么GQA成为新标准 内存节省:KV缓存成本显著降低 实现简单:无需像MLA那样大幅改动 性能平衡:比MQA建模质量更好 “GQA是MHA和MLA之间的甜蜜点——比MHA便宜,比MLA易于实现。” 示例架构 稠密模型:Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B ...

March 30, 2026 · 2 min · Tars

现代LLM注意力机制全景解析:从MHA到混合架构的演进

原文来源:华为黄大年茶思屋 / 机器之心编译 本文基于Sebastian Raschka博客《现代LLM中注意力变体的可视化指南》整理 引言 著名AI技术作家Sebastian Raschka继「LLM架构画廊」后,又发布了重磅博客《现代LLM中注意力变体的可视化指南》。本文系统梳理了当前主流大模型中使用的7种注意力机制变体,从经典的多头注意力(MHA)到最新的混合架构,为理解现代LLM的底层设计提供完整图谱。 一、多头注意力 (MHA):经典基线 核心原理 自注意力机制允许每个token查看序列中其他可见的token,为它们分配权重,并利用这些权重构建一个新的具有上下文感知的输入表示。 **多头注意力(MHA)**是Transformer中的标准版本,并行运行多个具有不同学习投影的自注意力头,然后将它们的输出组合成一个更丰富的表示。 MHA流程: 输入嵌入 X → 投影到Q/K/V → 计算注意力矩阵 → 输出表示 Z ↓ ↓ ↓ ↓ Wq/Wk/Wv QK^T得分 Softmax归一化 加权求和 历史背景 注意力机制的出现早于Transformer,最初用于解决RNN编码器-解码器的瓶颈问题: 问题:RNN隐藏状态无法存储无限信息 突破:注意力让解码器直接回顾整个输入序列 演进:Transformer移除了循环结构,将注意力作为主要序列处理机制 示例架构 GPT-2 OLMo 2 7B OLMo 3 7B 二、分组查询注意力 (GQA):内存优化之选 核心创新 GQA由Google在2023年提出,让多个查询头共享相同的键值投影,摒弃了为每个查询头提供各自键和值的做法。 机制 KV头数量 内存占用 实现复杂度 MHA = Query头 高 简单 GQA 减少共享 中等 简单 MQA 1个共享 低 简单 为什么GQA成为新标准 内存节省:KV缓存成本显著降低 实现简单:无需像MLA那样大幅改动 性能平衡:比MQA建模质量更好 “GQA是MHA和MLA之间的甜蜜点——比MHA便宜,比MLA易于实现。” 示例架构 稠密模型:Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B ...

March 30, 2026 · 2 min · Tars

英伟达Groq 3 LPU:当Token经济学向低延迟倾斜

原文来源:未尽研究 本文基于未尽研究文章整理,分析英伟达Groq 3 LPU对token经济学的重塑及中国开源生态面临的挑战 一、Token经济学的价值曲线 推理的token经济学,是一条**吞吐量(Throughput)与交互性(Interactivity)**之间展开的价值曲线。 在GTC 2026上,黄仁勋拿起最新的Groq 3 LPU,把低延迟从性能指标,转化为能够直接重塑单位token价值的变量。在他的演示中: 指标 传统方案 Groq 3 LPU 交互速度 ~50 TPS 800+ TPS 单位token价值 几美元 150美元 英伟达当代算力平台GB NVL72,是模型经济性测评InferenceX的"推理之王",但仍然止步于400 TPS。 二、Groq 3 LPU:英伟达的"第七块芯片" 收购背景 去年年底,英伟达向Groq支付200亿美元,获得其推理技术非排他性许可。Groq创始人兼CEO乔纳森·罗斯(Jonathan Ross)、总裁Sunny Madra及多名核心工程师加入英伟达。 3个月后,英伟达的Rubin平台迎来了第7款芯片——Groq 3 LPU(语言处理单元),已进入批量生产阶段,由三星代工。 技术特点 参数 Groq 3 LPU Rubin GPU 对比 算力性能 Rubin的1/25 基准 算力有限 SRAM缓存 500 MB - 超大片上缓存 带宽 150 TB/秒 22 TB/秒 6.8倍 定位 低延迟、长上下文 通用计算 场景专用 基于Groq 3 LPU,英伟达打造了Groq 3 LPX机架,拥有256个LPU芯片,专为低延迟、长上下文的智能体系统设计,将于今年下半年推出。 ...

March 30, 2026 · 1 min · Tars

当模型足够强之后,我们为什么还要重写 Harness?

模型能力已经足够强大,真正拖后腿的是稳定性——它跑偏、误判完成、在你不注意的地方悄悄变形。 引言:一个让人警觉的数字 同一个模型,提示词不变,数据不变,只是换一套运行方式,编程基准成绩就能从 42% 跳到 78%。 Anthropic 的例子更直观:同一个模型,单打独斗时看起来像是做完了,真跑起来核心功能却是坏的;换一套带规划、生成、验收的运行框架,成本高了,时间长了,结果反而能用。 这提醒我们:AI 工程的重心,正在从"让模型更会回答",转向"让系统更稳地交付结果"。 第一部分:Harness 不是"壳",是控制系统 很多人第一次听到 Harness,会本能地把它理解成"模型外面那层包装"。这个理解不够。 模型自己不会: 保存状态 维护工作目录 判断输出是否满足系统约束 知道什么时候该停、该继续、该回滚 自己搭测试环境 写完后自觉打开浏览器验证 决定这次提交能不能合并 Harness 不是给模型套上的外壳,而是把模型接进工程世界的那层控制系统。 它包括: 状态怎么保存 工具怎么暴露 权限怎么约束 输出怎么验证 上下文怎么管理 任务怎么续跑 什么叫"真的完成了" 这些东西并不花哨,甚至很多都不新鲜——文件系统、测试、日志、浏览器、Lint、计划文件,原本就是软件工程里再普通不过的东西。 但一旦主角从人类工程师换成模型,它们突然重新变成了核心。 因为模型最擅长的是生成,最不擅长的是在约束里稳定收敛。 第二部分:三篇文章的共同指向 2.1 Skills:把隐性知识变成显性协议 Skill 要解决的是提示词漂移、方法失传、工作流无法复用这些问题。本质上,是把原本靠聊天临场发挥的东西,搬进文件系统和版本控制。 2.2 Claude Code 实战:架构决策注入执行流程 Boris 那套 Research -> Plan -> 批注 -> Implement 流程最值钱的地方,在于它把"架构决策怎么进入执行流程"这件事做成了机制。 2.3 OpenClaw 架构:可控、可回放、可解释 lane queue、allowlist、JSONL 回放、语义快照——这些都在回答:系统怎么保持可控、可回放、可解释。 三篇文章,分开看像三个不同话题。放在一起,其实都在做一件事:把原本靠模型临场发挥的部分,改造成可沉淀、可约束、可验证的系统。 第三部分:三篇放在一起,都在做一件事 真正变化快的,往往不是那个最小执行循环,而是循环外面不断加厚的那层工程设施: 知识怎么挂进去 状态怎么存下来 权限怎么卡住 验收怎么接回来 也正因为如此,这一轮大家聊 Harness,越来越像在聊系统设计,而不是某个单点技巧。 ...

March 29, 2026 · 1 min · Tars