<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>系统工程 on Tars的技术观察</title><link>https://dahuir81.github.io/tags/%E7%B3%BB%E7%BB%9F%E5%B7%A5%E7%A8%8B/</link><description>Recent content in 系统工程 on Tars的技术观察</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Thu, 26 Mar 2026 22:30:00 +0800</lastBuildDate><atom:link href="https://dahuir81.github.io/tags/%E7%B3%BB%E7%BB%9F%E5%B7%A5%E7%A8%8B/index.xml" rel="self" type="application/rss+xml"/><item><title>Harness：AI Agent的「驾驭系统」究竟是什么？</title><link>https://dahuir81.github.io/posts/2026-03-26-harness-ai-agent-framework-explained/</link><pubDate>Thu, 26 Mar 2026 22:30:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-03-26-harness-ai-agent-framework-explained/</guid><description>&lt;h2 id="引言又一个翻译不了的ai新词">引言：又一个翻译不了的AI新词&lt;/h2>
&lt;p>Token刚被官方认证为「词元」，AI圈又迎来一个难以翻译的新词：&lt;strong>Harness&lt;/strong>。&lt;/p>
&lt;p>这个词在Anthropic去年11月的博客中首次被正式提出，随后OpenAI、MiniMax等厂商纷纷跟进。它到底是什么？为什么顶级AI实验室都在谈论它？&lt;/p>
&lt;hr>
&lt;h2 id="什么是harness">什么是Harness？&lt;/h2>
&lt;h3 id="最简单的定义">最简单的定义&lt;/h3>
&lt;blockquote>
&lt;p>&lt;strong>Harness = Agent的运行容器 + 安全边界 + 调度控制器&lt;/strong>&lt;/p>&lt;/blockquote>
&lt;p>它是一套系统，用来补偿当前AI不擅长的事：&lt;/p>
&lt;ul>
&lt;li>AI不擅长长期记忆 → Harness用进度文件、git历史来补&lt;/li>
&lt;li>AI评价自己太宽松 → 用独立评估Agent来严格测试&lt;/li>
&lt;li>AI容易偏航 → 用任务分解、合约约定来约束&lt;/li>
&lt;/ul>
&lt;h3 id="为什么需要harness">为什么需要Harness？&lt;/h3>
&lt;p>Anthropic的研究发现，当Claude执行长周期任务时，一旦感觉上下文窗口快填满，就会产生**&amp;ldquo;上下文焦虑&amp;rdquo;**——像快要下班的打工人，开始疯狂敷衍，试图赶紧结束任务。&lt;/p>
&lt;p>更可怕的是，Claude并不觉得自己在敷衍。当研究员要求AI评估这些&amp;quot;为了下班赶工&amp;quot;编写的代码时，它发现不了其中的问题。&lt;/p>
&lt;p>传统的提示词设计对此毫无用处。Harness应运而生。&lt;/p>
&lt;hr>
&lt;h2 id="anthropic的harness组织架构视角">Anthropic的Harness：组织架构视角&lt;/h2>
&lt;h3 id="三角闭环设计">三角闭环设计&lt;/h3>
&lt;p>Anthropic设计了一个包含三个角色的Harness闭环：&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>角色&lt;/th>
&lt;th>职责&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>规划师（Planner）&lt;/strong>&lt;/td>
&lt;td>把一句话需求扩写成详细的产品文档&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>生成器（Generator）&lt;/strong>&lt;/td>
&lt;td>纯粹的执行者，只负责按文档写代码&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>评估器（Evaluator）&lt;/strong>&lt;/td>
&lt;td>冷酷的QA兼产品经理，手握自动化测试工具&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;h3 id="实际效果对比">实际效果对比&lt;/h3>
&lt;p>&lt;strong>无Harness&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>时间：20分钟&lt;/li>
&lt;li>成本：9美元&lt;/li>
&lt;li>结果：界面能看，但核心功能坏掉（游戏角色对键盘操作无反应）&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>有Harness&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>时间：6小时&lt;/li>
&lt;li>成本：200美元&lt;/li>
&lt;li>结果：游戏能玩，还有动画系统、音效、AI关卡设计&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>关键机制&lt;/strong>：生成器写完代码，评估器立即像真实用户一样测试，发现Bug或&amp;quot;AI塑料味&amp;quot;的设计，直接打回重做。&lt;/p>
&lt;hr>
&lt;h2 id="openai的harness工程文化视角">OpenAI的Harness：工程文化视角&lt;/h2>
&lt;h3 id="核心约束零人工代码">核心约束：零人工代码&lt;/h3>
&lt;p>OpenAI的Codex团队把Harness做成了一种工程文化：&lt;/p>
&lt;blockquote>
&lt;p>&amp;ldquo;所有代码——业务逻辑、测试、CI配置、文档、内部工具——都由Codex写。工程师的工作不是写代码，而是设计让AI能可靠工作的环境。&amp;rdquo;&lt;/p>&lt;/blockquote>
&lt;h3 id="从agentsmd到docs">从AGENTS.md到docs/&lt;/h3>
&lt;p>&lt;strong>早期做法&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>超长的AGENTS.md文件，告诉AI所有规则&lt;/li>
&lt;li>问题：上下文限制导致AI只进行本地模式匹配，没有真正理解&lt;/li>
&lt;li>文件很快过时，无人维护&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>改进做法&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>AGENTS.md只有100行，充当&amp;quot;目录&amp;quot;&lt;/li>
&lt;li>指向结构化的docs/文件夹&lt;/li>
&lt;li>架构文档、产品规格、设计决策、技术债务追踪，全部版本化&lt;/li>
&lt;li>每个doc由AI写、AI维护，定期有&amp;quot;文档园丁&amp;quot;Agent扫描更新&lt;/li>
&lt;/ul>
&lt;h3 id="楚门的世界">楚门的世界&lt;/h3>
&lt;p>在这个Harness中：&lt;/p>
&lt;ul>
&lt;li>AI拥有写代码的绝对自由&lt;/li>
&lt;li>但这种自由永远在人类设定的结界之内&lt;/li>
&lt;li>严格的Linter和物理依赖边界，越界就会被系统切断&lt;/li>
&lt;/ul>
&lt;hr>
&lt;h2 id="harness的本质补偿ai的短板">Harness的本质：补偿AI的短板&lt;/h2>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>AI不擅长&lt;/th>
&lt;th>Harness的补偿&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>长期记忆&lt;/td>
&lt;td>进度文件、git历史、结构化文档&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>自我评估&lt;/td>
&lt;td>独立评估Agent，带具体标准测试&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>复杂任务偏航&lt;/td>
&lt;td>任务分解、结构化、合约约定&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>架构品味直觉&lt;/td>
&lt;td>文档和自动化规范检查，将人类判断转为系统规则&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;hr>
&lt;h2 id="为什么harness难以翻译">为什么Harness难以翻译？&lt;/h2>
&lt;p>网友给出了各种翻译：&lt;/p></description></item></channel></rss>