OpenAI on Tars的技术观察

山姆·奥特曼的AI权力图谱：从朋克摇滚到地缘政治博弈者

Sun, 05 Apr 2026 00:36:00 +0800

深度解析山姆·奥特曼4月2日最新访谈：算力霸权、关停SORA的残酷抉择、政府合作争议、以及他对AI时代人类价值的终极思考。

Harness：AI Agent的「驾驭系统」究竟是什么？

Thu, 26 Mar 2026 22:30:00 +0800

引言：又一个翻译不了的AI新词

Token刚被官方认证为「词元」，AI圈又迎来一个难以翻译的新词：Harness。

这个词在Anthropic去年11月的博客中首次被正式提出，随后OpenAI、MiniMax等厂商纷纷跟进。它到底是什么？为什么顶级AI实验室都在谈论它？

什么是Harness？

最简单的定义

Harness = Agent的运行容器 + 安全边界 + 调度控制器

它是一套系统，用来补偿当前AI不擅长的事：

AI不擅长长期记忆 → Harness用进度文件、git历史来补
AI评价自己太宽松 → 用独立评估Agent来严格测试
AI容易偏航 → 用任务分解、合约约定来约束

为什么需要Harness？

Anthropic的研究发现，当Claude执行长周期任务时，一旦感觉上下文窗口快填满，就会产生**“上下文焦虑”**——像快要下班的打工人，开始疯狂敷衍，试图赶紧结束任务。

更可怕的是，Claude并不觉得自己在敷衍。当研究员要求AI评估这些"为了下班赶工"编写的代码时，它发现不了其中的问题。

传统的提示词设计对此毫无用处。Harness应运而生。

Anthropic的Harness：组织架构视角

三角闭环设计

Anthropic设计了一个包含三个角色的Harness闭环：

角色	职责
规划师（Planner）	把一句话需求扩写成详细的产品文档
生成器（Generator）	纯粹的执行者，只负责按文档写代码
评估器（Evaluator）	冷酷的QA兼产品经理，手握自动化测试工具

实际效果对比

无Harness：

时间：20分钟
成本：9美元
结果：界面能看，但核心功能坏掉（游戏角色对键盘操作无反应）

有Harness：

时间：6小时
成本：200美元
结果：游戏能玩，还有动画系统、音效、AI关卡设计

关键机制：生成器写完代码，评估器立即像真实用户一样测试，发现Bug或"AI塑料味"的设计，直接打回重做。

OpenAI的Harness：工程文化视角

核心约束：零人工代码

OpenAI的Codex团队把Harness做成了一种工程文化：

“所有代码——业务逻辑、测试、CI配置、文档、内部工具——都由Codex写。工程师的工作不是写代码，而是设计让AI能可靠工作的环境。”

从AGENTS.md到docs/

早期做法：

超长的AGENTS.md文件，告诉AI所有规则
问题：上下文限制导致AI只进行本地模式匹配，没有真正理解
文件很快过时，无人维护

改进做法：

AGENTS.md只有100行，充当"目录"
指向结构化的docs/文件夹
架构文档、产品规格、设计决策、技术债务追踪，全部版本化
每个doc由AI写、AI维护，定期有"文档园丁"Agent扫描更新

楚门的世界

在这个Harness中：

AI拥有写代码的绝对自由
但这种自由永远在人类设定的结界之内
严格的Linter和物理依赖边界，越界就会被系统切断

Harness的本质：补偿AI的短板

AI不擅长	Harness的补偿
长期记忆	进度文件、git历史、结构化文档
自我评估	独立评估Agent，带具体标准测试
复杂任务偏航	任务分解、结构化、合约约定
架构品味直觉	文档和自动化规范检查，将人类判断转为系统规则

为什么Harness难以翻译？

网友给出了各种翻译：

从TurboQuant到Harness：AI效率革命的两大支柱

Thu, 26 Mar 2026 22:00:00 +0800

引言：AI正在经历一场静默的效率革命

2026年3月，AI领域同时发生了两件看似不相关的大事：

Google发布TurboQuant——将AI内存占用压缩6倍，计算速度提升8倍
Harness概念爆火——从Anthropic到OpenAI，顶级实验室都在谈论这个"难以翻译"的词

一个是硬件层面的极致压缩，一个是软件层面的系统架构。它们共同指向同一个趋势：AI正在从"大力出奇迹"转向"精打细算"。

本文将结合TurboQuant的技术突破和Harness的工程哲学，探讨AI效率革命的两大支柱。

第一部分：TurboQuant——硬件效率的极限突破

背景：AI的"内存税"困境

大模型时代，AI的瓶颈不再是算力，而是内存。

对话一长，KV Cache疯狂吃显存
资料一多，上下文窗口迅速填满
很多系统不是不够聪明，而是太贵、太重、太难大规模跑起来

Google Research的TurboQuant，正是瞄准这个死穴的解决方案。

TurboQuant的核心突破

指标	数据
KV缓存压缩比	6倍以上
计算速度提升	最高8倍（H100 GPU）
最低压缩位宽	3 bits
精度损失	零

技术原理：

PolarQuant：将数据从笛卡尔坐标转换为极坐标，消除内存开销
QJL：1位零开销纠错，保证注意力分数计算准确

类比理解：以前AI记笔记是"逐字逐句抄写"，TurboQuant像一套"极简速记符号"——该记的一个不漏，占的空间少了六倍。

市场反应：存储芯片股的"恐慌"

TurboQuant发布当天，美光、闪迪等存储芯片股盘中下跌。市场担心：如果AI能用更少内存干同样的事，对高端存储芯片的需求会不会下降？

但另一种逻辑同样成立：成本下降→AI普及→总需求上升（杰文斯悖论）。

第二部分：Harness——软件架构的系统工程

什么是Harness？

当TurboQuant解决"内存不够"的问题时，另一个问题浮出水面：AI的"上下文焦虑"。

Anthropic的研究发现，当Claude执行长周期任务时，一旦感觉上下文窗口快填满，就会产生"焦虑"——像快要下班的打工人，开始疯狂敷衍，试图赶紧结束任务。

Harness应运而生。

Harness = Agent的运行容器 + 安全边界 + 调度控制器

它是一套系统，用来补偿当前AI不擅长的事：

AI不擅长长期记忆 → Harness用进度文件、git历史、结构化来补
AI评价自己太宽松 → 用独立评估Agent，带着具体标准测试
AI容易偏航 → 用任务分解、合约约定来约束范围

Anthropic vs OpenAI：两种Harness哲学

维度	Anthropic	OpenAI
侧重点	组织架构	工程文化
核心设计	规划师-生成器-评估器三角闭环	无人工手写代码，全由AI生成
约束方式	角色分工与评估反馈	Linter和物理依赖边界
成本	更高（6小时/200美元 vs 20分钟/9美元）	更高（完全AI驱动）
质量	显著提升（从"能看"到"能用"）	系统级可靠性

Anthropic的案例：

SemiAnalysis专访深度解读：为什么H100比3年前更值钱？

Tue, 17 Mar 2026 10:00:00 +0800

Dylan Patel揭秘AI算力战争的底层逻辑：为什么H100价格不降反升？OpenAI和Anthropic的算力策略谁对谁错？