Posts

Claude Code源码泄露全景分析：从工程失误到KAIROS曝光，Anthropic的'被动开源'事件

导语 2026年3月31日，AI圈经历了最戏剧性的一天。 Anthropic因为一个工程失误——发布npm包时未剔除source map文件——导致51万行Claude Code源代码被「被动开源」。短短几小时内，代码被下载、镜像，在GitHub上迅速扩散。但故事远不止于此。当开发者像考古学家一样逐行阅读代码时，一个更重磅的发现浮出水面——Anthropic秘密开发的核武器级产品 KAIROS，意外曝光。前特斯拉AI总监Karpathy第一时间围观并放话：“这就是Claude Claw。” 第一部分：事件回顾——一场意外的「开源」泄露经过根本原因：Anthropic在发布npm包时未剔除source map文件，完整的TypeScript源码被轻易还原。扩散速度：短短几小时内，代码被下载、镜像，GitHub上fork超4万次。官方回应：Anthropic发言人表示「没有涉及敏感客户数据或凭证，属于人为错误导致的发布打包问题」。 Claude Code之父Boris Cherny在X上简单表示：「就是开发者的错误。」马斯克看到评论「Anthropic现在已经比OpenAI更Open」时，忍不住回了一句：「绝了😂」第二部分：51万行代码里的工程智慧当吃瓜群众还在围观时，大量开发者已经开始逐行阅读代码，还原顶级AI Agent背后的设计逻辑。 1. 系统提示词：行为控制的范本完整的system prompt位于constants/prompts.ts，是整个代码库中最有价值的文件。核心设计原则：原则说明三行重复代码，也好过过早抽象不要为一次性操作创建helper、工具函数或抽象结构默认不写注释对抗内部代号Capybara的模型默认过度注释问题，只有WHY is non-obvious时才允许添加注释如实报告结果 Capybara v8的错误陈述率高达29-30%，因此明确规定：不要在测试失败时声称全部通过；不要隐藏失败检查来制造成功结果；不要把未完成的工作描述为已完成用数字约束比模糊描述更有效工具调用之间的文本≤25个词；最终回答≤100个词隐藏彩蛋：设置环境变量CLAUDE_CODE_SIMPLE=1，整个复杂的system prompt会被压缩为一行。 2. 反蒸馏机制：保护核心能力 Anthropic内置了两套反蒸馏机制，防止竞争对手利用其数据进行训练：注入伪造工具调用：在模型输出流中注入伪造的工具调用，污染任何被抓取的数据工具调用抽象化：将所有工具调用的具体细节抽象成模糊的摘要 3. Prompt缓存：极致精细化管理代码库中最复杂的非UI代码之一是promptCacheBreakDetection.ts。每一次API调用中，系统都会对system prompt、每个工具的schema（逐一哈希）、模型名称、beta headers等参数进行哈希处理，并与上一次调用对比。缓存策略： System prompt分为静态部分（可缓存）和动态部分（随会话变化） MCP服务器相关指令通过message的增量附加传递子Agent从父Agent继承CacheSafeParams 4. Auto Dream：跨会话的后台记忆整合当时间间隔足够、且累计了足够多的会话后，Claude Code会以fork出的subagent形式运行/dream，回顾历史会话内容，并压缩整理为结构化的MEMORY.md文件。记忆模板包含10个结构化模块： Session Title、Current State、Task Specification、Files and Functions、Workflow、Errors & Corrections、Codebase Documentation、Learnings、Key Results、Worklog ...

Claude Code源码泄露全复盘：51万行代码背后的工程智慧与技术债

导语 2026年3月31日，AI圈最炸的事件莫过于Claude Code源代码「被动」开源。由于工程失误，Anthropic在发布npm包时未剔除source map文件，导致完整的TypeScript源码被轻易还原。短短几小时内，代码被下载、镜像，并在GitHub上迅速扩散。马斯克看到评论「Anthropic现在已经比OpenAI更Open」时，忍不住回了一句：「绝了😂」事件回顾：一场意外的「开源」泄露原因：人为错误导致的发布打包问题，并非安全漏洞。 Anthropic官方回应：「今天早些时候，一个Claude Code版本包含了部分内部源代码。没有涉及或暴露任何敏感的客户数据或凭证。我们正在采取措施防止此类事件再次发生。」 Claude Code之父Boris Cherny在X上简单表示：「就是开发者的错误。」深度解读：51万行代码里的工程智慧当吃瓜群众还在围观时，大量开发者已经开始逐行阅读代码，尝试还原顶级AI Agent背后的设计逻辑。 1. 系统提示词：行为控制的范本完整的system prompt位于constants/prompts.ts，是整个代码库中最有价值的文件。它清晰展示了Anthropic如何在生产级编码Agent中精确控制Claude的行为。核心设计原则：原则说明三行重复代码，也好过过早抽象不要为一次性操作创建helper、工具函数或抽象结构默认不写注释对抗内部代号Capybara的模型默认过度注释问题，只有WHY is non-obvious时才允许添加注释如实报告结果 Capybara v8的错误陈述率高达29-30%，因此明确规定：不要在测试失败时声称全部通过；不要隐藏失败检查来制造成功结果；不要把未完成的工作描述为已完成用数字约束比模糊描述更有效工具调用之间的文本≤25个词；最终回答≤100个词隐藏彩蛋：设置环境变量CLAUDE_CODE_SIMPLE=1，整个复杂的system prompt会被压缩为一行：「You are Claude Code, Anthropic’s official CLI for Claude」。 2. 反蒸馏机制：保护核心能力 Anthropic在Claude Code中内置了两套反蒸馏机制，防止竞争对手利用其数据进行训练：注入伪造工具调用：在模型输出流中注入伪造的工具调用，污染任何被抓取的数据工具调用抽象化：将所有工具调用的具体细节抽象成模糊的摘要，使外部难以还原Agent实际执行的操作 3. 电子宠物Buddy：无需存储的个性化在src/buddy/中，系统通过对用户ID进行哈希，为每个用户生成一个专属且固定的虚拟伙伴：物种：鸭子、鹅、Blob、猫、龙、章鱼、猫头鹰、企鹅等帽子：无、王冠、礼帽、螺旋桨帽等稀有度：普通（60%）、不常见（25%）、稀有（10%）等更新到v2.1.89后，输入/buddy即可启用——即使配置了其它模型也可成功启用。 4. Prompt缓存：极致精细化管理代码库中最复杂的非UI代码之一是promptCacheBreakDetection.ts。在每一次API调用中，系统都会对system prompt、每个工具的schema（逐一哈希）、模型名称、beta headers、fast mode状态、effort参数、overage状态以及额外的请求体参数进行哈希处理，并将这些哈希值与上一次调用进行对比。缓存策略： System prompt被分为静态部分（可缓存）和动态部分（随会话变化） MCP服务器相关指令通过message的增量附加传递，避免每次连接都导致缓存失效子Agent从父Agent继承CacheSafeParams 5. Auto Dream：跨会话的后台记忆整合当时间间隔足够、且累计了足够多的会话后，Claude Code会以fork出的subagent形式运行/dream，回顾历史会话内容，并将其压缩整理为结构化的MEMORY.md文件。 ...

Anthropic被逼急了！KAIROS曝光：Claude原生'龙虾'终于浮出水面

导语当全网为Claude Code「开源」狂欢时，一个更重磅的消息被深埋在51万行代码中——Anthropic的核武器级产品 KAIROS，意外曝光。前特斯拉AI总监Karpathy第一时间围观并放话：“这就是Claude Claw。” 51万行代码中的秘密养虾计划开发者像考古学家一样翻遍Claude Code源代码时，网友Ole Lehmann扒出了Anthropic最不愿让人看到的王牌——代号KAIROS的家养小精灵。 “我真不敢相信，这事儿居然没人讨论！” —— Ole Lehmann 这个发现让Karpathy感慨万千，直呼「知音」。因为这完全就是他预言中AI的下一个进化方向：一个「龙虾版」的Claude Code。 KAIROS：OpenClaw的全方位对标 KAIROS的定位，几乎就是对OpenClaw三大核心能力的全面升级： 1. 主动性：主动出击的「龙虾爪」 KAIROS是一个会主动找你的Claude。你还没开口，它可能突然出现，拍拍你肩膀，告诉你它刚刚干了啥。 24小时后台运行：你工作也好，睡觉也罢，它一直都在心跳机制：每隔几秒收到Prompt——「醒醒，看看现在有啥值得干的活儿没？」自主决策：判断是动手还是继续安静待着一旦决定行动，它能：修代码bug、回消息、更新文件、执行任务……你不用再自己开口。三大专属技能： 📱 推送通知：主动给手机或电脑发消息，即使你没开终端 📁 文件投递：直接把生成的内容发给你，不用你开口要 🔀 PR订阅：盯着GitHub，代码变动自动响应 2. 个性化：会做梦的AI KAIROS每天都会写日报——不是简单的记忆功能，而是详细记录：看到了什么、怎么判断的、做了什么…… 跨会话持续：记录越滚越长，全是追加式，不能删。养得越久，它会越好用。上下文膨胀解决方案：让它做梦晚上，KAIROS会运行autoDream流程，把白天学到的东西整合一遍，重新整理记忆。 “人类的设计太神奇了，谁想过睡觉居然能是一种处理上下文膨胀的巧妙设计。” 3. Skill生态：开箱即用 Anthropic本来就是Skill概念的鼻祖，KAIROS可以直接接入Claude Code已有的生态。场景想象：不睡觉的联合创始人把这些能力结合起来，KAIROS能做到什么？场景 KAIROS行动你睡觉时网站挂了自动检测→重启服务器→通知你，你看到消息时一切已恢复正常凌晨两点收到客户投诉邮件读完→帮你回复→记录全过程，你醒来时事情已经解决这不只是员工，应该是个不睡觉的联合创始人。 Karpathy预言：AI的下一个进化方向早在今年2月，Karpathy就预言：Claw是AI的下一个进化方向。他用一个比喻说明技术栈的演进：层级比喻用户角色 Chat 自己开车全程操控 Code 坐副驾当导航指导+监督 Claw 躺后排睡大觉完全放权自主权越来越高，主动性越来越强。 ...

阿里云发布 Agentic OS：首个面向 AI Agent 的操作系统

原文来源：阿里云基础设施发布时间：2026年3月31日引言 2026 年 3 月 30 日，阿里云宣布其自研操作系统 Alibaba Cloud Linux 完成关键跃迁，正式推出面向 AI Agent 的新一代操作系统 —— Agentic OS。这是阿里云首款专为 AI Agent 设计的操作系统，标志着：未来的操作系统，用户主体正在从人类逐渐转变为 Agent。随着大量"AI 员工"成为生产主力，AI 正在引发生产方式的根本性变化。一、为什么需要 Agentic OS？传统 OS 的痛点 Agent 已从单纯的对话演进为能完成复杂任务的"AI 员工"。然而：传统操作系统指令繁杂，Agent 往往"有大脑但不熟悉环境" 需要大量环境测探感知来完成合理的任务执行开源市场 50% 以上的 Skill 是过程化的，亟需系统级适配和优化调教一个可"上岗"的智能体需要高昂成本 Agentic OS 的定位 Agentic OS 围绕 Agent 所需能力，将运行时优化与安全执行环境内化为系统核心能力，将云基础设施最佳实践内化为开箱即用的 Skills，并提供 7×24 Agent 可观测和保障服务。它旨在解决 “小龙虾（OpenClaw）” 等智能体的核心痛点：上手门槛高调教链路长稳定性差安全保障不足多 Agent 协同复杂二、Agentic OS 架构 Agentic OS 架构借鉴传统操作系统的分层思想： ...

Groq LPU架构深度解析：NVIDIA推理王国的关键拼图

原文来源：IT奶爸/工程芯一发布时间：2026年3月30日引言 Groq加入NVIDIA后，作为LPU形成推理增强芯片上的重要组成。过去一段时间里，业内已有几篇深度解析，本文整理核心要点。 NVIDIA对Groq的交易形式是：20B美金IP许可+大部分团队打包入职，在法律上刻意没有走正式并购，避开反垄断审查和漫长过户流程，直接获得IP+人。这也解释了为什么交易宣布不到四个月，就能在Vera Rubin推理栈里出现LPX系统概念。 💡 芯一视角：这是典型的「不叫并购，但干的都是并购的事」：在算力高度集中、监管高度敏感的年份，用结构创新抢时间窗口，本质还是算「护城河时间」。 I. 架构和演进 LPU的定位 Groq LPU系统从来就不是面向大规模高吞吐推理，而是主打极低延迟、愿意为每token付高价的场景。在一个解耦decode系统里，这点就变成了优势：LPU负责小而急的部分，高吞吐慢一点没关系的部分继续交给GPU。 💡 芯一视角：这是典型「不合适做主角，但非常适合当一个专职6th man」——Groq独立做云服务吃力，但嫁接到NVIDIA的AI工厂框架里就顺手多了。 LPU Gen1：确定性架构与SRAM-first Groq在ISCA 2020披露的第一代LPU架构。与通用多核CPU/GPU不同，LPU被拆分为多个单一用途功能组（slice）： VXM：向量运算 MEM：读写数据 SXM：张量形状变换 MXM：矩阵乘法各slice水平排布，数据水平流动，指令在垂直方向像「柱子」一样穿过各单元。中间通过流式寄存器+单级scratchpad SRAM传递数据，刻意避免多级缓存层级，使得执行完全确定性。 💡 芯一视角：把GPU看成「数据和算子都在乱跑的大城市」，LPU更像是「全是单行道、红绿灯全由编译器控制的工厂车间」。可预测、可排程，是它所有系统优势的起点。 LP40可能的改动工艺切换到TSMC N3P，封装采用CoWoS-R 协议上弃用Groq C2C（Alphawave 112G Serdes），引入NVLink作为统一scale-up fabric 与Feynman平台做高度协同、成为真正自家一等公民关键技术是混合键合堆叠DRAM：在SRAM上叠加3D DRAM，延迟/带宽略逊SRAM，但远好于传统DRAM II. 推理的拆解大模型推理的两阶段 Prefill：处理全量输入上下文，算力密集，适合GPU Decode：逐token预测，KV cache主导，内存带宽+延迟敏感，这里LPU的高带宽SRAM优势可以发挥出来 Attention/FFN解耦（AFD）这推动了**Attention/FFN解耦（AFD）**的提出： GPU专门做Attention+KV cache，HBM全部用于缓存更多tokens FFN（特别是MoE专家）是大量、相对stateless的算子，适合放在LPU上跑确定性、静态workload 在AFD的情况下，GPU到LPU发送以及路由token会成为瓶颈。为此，文章介绍了一种Ping-Pong流水线并行： Batch被拆成多个micro-batch，Attention与FFN在GPU/LPU之间ping-pong 利用流水线把计算与通信重叠，尽量让链路「一直在干活」 💡 芯一视角：这里的关键不是「速度快一点」，而是让网络延迟可预期且可隐藏。LPU架构本身就推崇确定性，网络流也是按这个思路被「设计给编译器」来使用的。 III. 投机解码 Speculative decoding场景：小draft模型或多token预测（MTP）层提前预测k个token 主模型只需要一次warm prefill来验证这k个token的合法性只要k远小于当前上下文长度N，额外的k tokens对延迟增量很小通常speculative decoding能做到每步decode提升到1.5–2 tokens。LPU凭借极低的per-step延迟，有机会进一步拉大这个倍数，从而提升吞吐。 ...

内存价格崩盘：TurboQuant与KVTC技术引发存储市场剧变

原文来源：界面新闻本文基于界面新闻报道整理，分析内存价格暴跌背后的技术驱动因素一、内存价格断崖式下跌持续数月走高的内存价格终于迎来断崖式回落。价格跌幅惊人规格高点价格当前价格跌幅 16GB DDR5 1000元 (2025.12) 700元 30% 32GB DDR5套装 3000元 2200元 27% DDR4 (闲鱼均价) 440元 360元 18% “上周六开始，价格直接崩了。昨天到今天，一款主流的16G内存条又掉了四五十块。上周六那天更夸张，一天就掉了一百多块。” —— 百脑汇批发商王老板销量断崖式下滑价格暴涨导致销量暴跌60%以上：价格涨得太高，非刚需用户停止购买与2025年11月前相比，销量跌幅超60% 二、国际市场同步下跌美国市场过去一周，美国多家零售商的DDR5内存出现大范围降价：单套最高降幅达100美元海盗船复仇者系列32GB DDR5 6400MHz：490美元 → 379.99美元头部企业股价重挫公司近期高点当前股价跌幅美光科技 471美元 357.22美元 24% 闪迪 777.6美元 615.83美元 20% 三、技术诱因：AI压缩算法冲击 Google TurboQuant（3月26日）技术突破：在不损失准确性的前提下，将LLM键值缓存内存占用减少至少60% 市场影响：直接冲击存储需求预期英伟达 KVTC（3月22日）技术突破：内存占用最高可缩减20倍市场影响：进一步削弱内存需求预期技术冲击链： AI压缩算法发布 → 内存需求预期下调 → 价格预期反转 → 恐慌性抛售 → 价格崩盘四、供需关系的根本转变此前的涨价逻辑 AI数据中心市场需求激增 2026年Q1内存价格环比上涨80%-90% 64GB RDIMM合约价：450美元 → 900美元以上现在的转折 “内存条作为快速迭代的科技产品，长期不可能短缺，随着产能逐步稳定，供需缺口已体现在价格上，未来内存条价格难有支撑。” —— 盘和林（工信部信息通信经济专家委员会委员） ...

现代LLM注意力机制全景解析：从MHA到混合架构的演进

原文来源：华为黄大年茶思屋 / 机器之心编译本文基于Sebastian Raschka博客《现代LLM中注意力变体的可视化指南》整理引言著名AI技术作家Sebastian Raschka继「LLM架构画廊」后，又发布了重磅博客《现代LLM中注意力变体的可视化指南》。本文系统梳理了当前主流大模型中使用的7种注意力机制变体，从经典的多头注意力(MHA)到最新的混合架构，为理解现代LLM的底层设计提供完整图谱。一、多头注意力 (MHA)：经典基线核心原理自注意力机制允许每个token查看序列中其他可见的token，为它们分配权重，并利用这些权重构建一个新的具有上下文感知的输入表示。 **多头注意力(MHA)**是Transformer中的标准版本，并行运行多个具有不同学习投影的自注意力头，然后将它们的输出组合成一个更丰富的表示。 MHA流程：输入嵌入 X → 投影到Q/K/V → 计算注意力矩阵 → 输出表示 Z ↓ ↓ ↓ ↓ Wq/Wk/Wv QK^T得分 Softmax归一化加权求和历史背景注意力机制的出现早于Transformer，最初用于解决RNN编码器-解码器的瓶颈问题：问题：RNN隐藏状态无法存储无限信息突破：注意力让解码器直接回顾整个输入序列演进：Transformer移除了循环结构，将注意力作为主要序列处理机制示例架构 GPT-2 OLMo 2 7B OLMo 3 7B 二、分组查询注意力 (GQA)：内存优化之选核心创新 GQA由Google在2023年提出，让多个查询头共享相同的键值投影，摒弃了为每个查询头提供各自键和值的做法。机制 KV头数量内存占用实现复杂度 MHA = Query头高简单 GQA 减少共享中等简单 MQA 1个共享低简单为什么GQA成为新标准内存节省：KV缓存成本显著降低实现简单：无需像MLA那样大幅改动性能平衡：比MQA建模质量更好 “GQA是MHA和MLA之间的甜蜜点——比MHA便宜，比MLA易于实现。” 示例架构稠密模型：Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B ...

现代LLM注意力机制全景解析：从MHA到混合架构的演进

原文来源：华为黄大年茶思屋 / 机器之心编译本文基于Sebastian Raschka博客《现代LLM中注意力变体的可视化指南》整理引言著名AI技术作家Sebastian Raschka继「LLM架构画廊」后，又发布了重磅博客《现代LLM中注意力变体的可视化指南》。本文系统梳理了当前主流大模型中使用的7种注意力机制变体，从经典的多头注意力(MHA)到最新的混合架构，为理解现代LLM的底层设计提供完整图谱。一、多头注意力 (MHA)：经典基线核心原理自注意力机制允许每个token查看序列中其他可见的token，为它们分配权重，并利用这些权重构建一个新的具有上下文感知的输入表示。 **多头注意力(MHA)**是Transformer中的标准版本，并行运行多个具有不同学习投影的自注意力头，然后将它们的输出组合成一个更丰富的表示。 MHA流程：输入嵌入 X → 投影到Q/K/V → 计算注意力矩阵 → 输出表示 Z ↓ ↓ ↓ ↓ Wq/Wk/Wv QK^T得分 Softmax归一化加权求和历史背景注意力机制的出现早于Transformer，最初用于解决RNN编码器-解码器的瓶颈问题：问题：RNN隐藏状态无法存储无限信息突破：注意力让解码器直接回顾整个输入序列演进：Transformer移除了循环结构，将注意力作为主要序列处理机制示例架构 GPT-2 OLMo 2 7B OLMo 3 7B 二、分组查询注意力 (GQA)：内存优化之选核心创新 GQA由Google在2023年提出，让多个查询头共享相同的键值投影，摒弃了为每个查询头提供各自键和值的做法。机制 KV头数量内存占用实现复杂度 MHA = Query头高简单 GQA 减少共享中等简单 MQA 1个共享低简单为什么GQA成为新标准内存节省：KV缓存成本显著降低实现简单：无需像MLA那样大幅改动性能平衡：比MQA建模质量更好 “GQA是MHA和MLA之间的甜蜜点——比MHA便宜，比MLA易于实现。” 示例架构稠密模型：Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B ...

英伟达Groq 3 LPU：当Token经济学向低延迟倾斜

原文来源：未尽研究本文基于未尽研究文章整理，分析英伟达Groq 3 LPU对token经济学的重塑及中国开源生态面临的挑战一、Token经济学的价值曲线推理的token经济学，是一条**吞吐量（Throughput）与交互性（Interactivity）**之间展开的价值曲线。在GTC 2026上，黄仁勋拿起最新的Groq 3 LPU，把低延迟从性能指标，转化为能够直接重塑单位token价值的变量。在他的演示中：指标传统方案 Groq 3 LPU 交互速度 ~50 TPS 800+ TPS 单位token价值几美元 150美元英伟达当代算力平台GB NVL72，是模型经济性测评InferenceX的"推理之王"，但仍然止步于400 TPS。二、Groq 3 LPU：英伟达的"第七块芯片" 收购背景去年年底，英伟达向Groq支付200亿美元，获得其推理技术非排他性许可。Groq创始人兼CEO乔纳森·罗斯（Jonathan Ross）、总裁Sunny Madra及多名核心工程师加入英伟达。 3个月后，英伟达的Rubin平台迎来了第7款芯片——Groq 3 LPU（语言处理单元），已进入批量生产阶段，由三星代工。技术特点参数 Groq 3 LPU Rubin GPU 对比算力性能 Rubin的1/25 基准算力有限 SRAM缓存 500 MB - 超大片上缓存带宽 150 TB/秒 22 TB/秒 6.8倍定位低延迟、长上下文通用计算场景专用基于Groq 3 LPU，英伟达打造了Groq 3 LPX机架，拥有256个LPU芯片，专为低延迟、长上下文的智能体系统设计，将于今年下半年推出。 ...

当模型足够强之后，我们为什么还要重写 Harness？

模型能力已经足够强大，真正拖后腿的是稳定性——它跑偏、误判完成、在你不注意的地方悄悄变形。引言：一个让人警觉的数字同一个模型，提示词不变，数据不变，只是换一套运行方式，编程基准成绩就能从 42% 跳到 78%。 Anthropic 的例子更直观：同一个模型，单打独斗时看起来像是做完了，真跑起来核心功能却是坏的；换一套带规划、生成、验收的运行框架，成本高了，时间长了，结果反而能用。这提醒我们：AI 工程的重心，正在从"让模型更会回答"，转向"让系统更稳地交付结果"。第一部分：Harness 不是"壳"，是控制系统很多人第一次听到 Harness，会本能地把它理解成"模型外面那层包装"。这个理解不够。模型自己不会：保存状态维护工作目录判断输出是否满足系统约束知道什么时候该停、该继续、该回滚自己搭测试环境写完后自觉打开浏览器验证决定这次提交能不能合并 Harness 不是给模型套上的外壳，而是把模型接进工程世界的那层控制系统。它包括：状态怎么保存工具怎么暴露权限怎么约束输出怎么验证上下文怎么管理任务怎么续跑什么叫"真的完成了" 这些东西并不花哨，甚至很多都不新鲜——文件系统、测试、日志、浏览器、Lint、计划文件，原本就是软件工程里再普通不过的东西。但一旦主角从人类工程师换成模型，它们突然重新变成了核心。因为模型最擅长的是生成，最不擅长的是在约束里稳定收敛。第二部分：三篇文章的共同指向 2.1 Skills：把隐性知识变成显性协议 Skill 要解决的是提示词漂移、方法失传、工作流无法复用这些问题。本质上，是把原本靠聊天临场发挥的东西，搬进文件系统和版本控制。 2.2 Claude Code 实战：架构决策注入执行流程 Boris 那套 Research -> Plan -> 批注 -> Implement 流程最值钱的地方，在于它把"架构决策怎么进入执行流程"这件事做成了机制。 2.3 OpenClaw 架构：可控、可回放、可解释 lane queue、allowlist、JSONL 回放、语义快照——这些都在回答：系统怎么保持可控、可回放、可解释。三篇文章，分开看像三个不同话题。放在一起，其实都在做一件事：把原本靠模型临场发挥的部分，改造成可沉淀、可约束、可验证的系统。第三部分：三篇放在一起，都在做一件事真正变化快的，往往不是那个最小执行循环，而是循环外面不断加厚的那层工程设施：知识怎么挂进去状态怎么存下来权限怎么卡住验收怎么接回来也正因为如此，这一轮大家聊 Harness，越来越像在聊系统设计，而不是某个单点技巧。 ...