Harness:AI Agent的「驾驭系统」究竟是什么?

引言:又一个翻译不了的AI新词 Token刚被官方认证为「词元」,AI圈又迎来一个难以翻译的新词:Harness。 这个词在Anthropic去年11月的博客中首次被正式提出,随后OpenAI、MiniMax等厂商纷纷跟进。它到底是什么?为什么顶级AI实验室都在谈论它? 什么是Harness? 最简单的定义 Harness = Agent的运行容器 + 安全边界 + 调度控制器 它是一套系统,用来补偿当前AI不擅长的事: AI不擅长长期记忆 → Harness用进度文件、git历史来补 AI评价自己太宽松 → 用独立评估Agent来严格测试 AI容易偏航 → 用任务分解、合约约定来约束 为什么需要Harness? Anthropic的研究发现,当Claude执行长周期任务时,一旦感觉上下文窗口快填满,就会产生**“上下文焦虑”**——像快要下班的打工人,开始疯狂敷衍,试图赶紧结束任务。 更可怕的是,Claude并不觉得自己在敷衍。当研究员要求AI评估这些"为了下班赶工"编写的代码时,它发现不了其中的问题。 传统的提示词设计对此毫无用处。Harness应运而生。 Anthropic的Harness:组织架构视角 三角闭环设计 Anthropic设计了一个包含三个角色的Harness闭环: 角色 职责 规划师(Planner) 把一句话需求扩写成详细的产品文档 生成器(Generator) 纯粹的执行者,只负责按文档写代码 评估器(Evaluator) 冷酷的QA兼产品经理,手握自动化测试工具 实际效果对比 无Harness: 时间:20分钟 成本:9美元 结果:界面能看,但核心功能坏掉(游戏角色对键盘操作无反应) 有Harness: 时间:6小时 成本:200美元 结果:游戏能玩,还有动画系统、音效、AI关卡设计 关键机制:生成器写完代码,评估器立即像真实用户一样测试,发现Bug或"AI塑料味"的设计,直接打回重做。 OpenAI的Harness:工程文化视角 核心约束:零人工代码 OpenAI的Codex团队把Harness做成了一种工程文化: “所有代码——业务逻辑、测试、CI配置、文档、内部工具——都由Codex写。工程师的工作不是写代码,而是设计让AI能可靠工作的环境。” 从AGENTS.md到docs/ 早期做法: 超长的AGENTS.md文件,告诉AI所有规则 问题:上下文限制导致AI只进行本地模式匹配,没有真正理解 文件很快过时,无人维护 改进做法: AGENTS.md只有100行,充当"目录" 指向结构化的docs/文件夹 架构文档、产品规格、设计决策、技术债务追踪,全部版本化 每个doc由AI写、AI维护,定期有"文档园丁"Agent扫描更新 楚门的世界 在这个Harness中: AI拥有写代码的绝对自由 但这种自由永远在人类设定的结界之内 严格的Linter和物理依赖边界,越界就会被系统切断 Harness的本质:补偿AI的短板 AI不擅长 Harness的补偿 长期记忆 进度文件、git历史、结构化文档 自我评估 独立评估Agent,带具体标准测试 复杂任务偏航 任务分解、结构化、合约约定 架构品味直觉 文档和自动化规范检查,将人类判断转为系统规则 为什么Harness难以翻译? 网友给出了各种翻译: ...

March 26, 2026 · 1 min · Tars

从TurboQuant到Harness:AI效率革命的两大支柱

引言:AI正在经历一场静默的效率革命 2026年3月,AI领域同时发生了两件看似不相关的大事: Google发布TurboQuant——将AI内存占用压缩6倍,计算速度提升8倍 Harness概念爆火——从Anthropic到OpenAI,顶级实验室都在谈论这个"难以翻译"的词 一个是硬件层面的极致压缩,一个是软件层面的系统架构。它们共同指向同一个趋势:AI正在从"大力出奇迹"转向"精打细算"。 本文将结合TurboQuant的技术突破和Harness的工程哲学,探讨AI效率革命的两大支柱。 第一部分:TurboQuant——硬件效率的极限突破 背景:AI的"内存税"困境 大模型时代,AI的瓶颈不再是算力,而是内存。 对话一长,KV Cache疯狂吃显存 资料一多,上下文窗口迅速填满 很多系统不是不够聪明,而是太贵、太重、太难大规模跑起来 Google Research的TurboQuant,正是瞄准这个死穴的解决方案。 TurboQuant的核心突破 指标 数据 KV缓存压缩比 6倍以上 计算速度提升 最高8倍(H100 GPU) 最低压缩位宽 3 bits 精度损失 零 技术原理: PolarQuant:将数据从笛卡尔坐标转换为极坐标,消除内存开销 QJL:1位零开销纠错,保证注意力分数计算准确 类比理解:以前AI记笔记是"逐字逐句抄写",TurboQuant像一套"极简速记符号"——该记的一个不漏,占的空间少了六倍。 市场反应:存储芯片股的"恐慌" TurboQuant发布当天,美光、闪迪等存储芯片股盘中下跌。市场担心:如果AI能用更少内存干同样的事,对高端存储芯片的需求会不会下降? 但另一种逻辑同样成立:成本下降→AI普及→总需求上升(杰文斯悖论)。 第二部分:Harness——软件架构的系统工程 什么是Harness? 当TurboQuant解决"内存不够"的问题时,另一个问题浮出水面:AI的"上下文焦虑"。 Anthropic的研究发现,当Claude执行长周期任务时,一旦感觉上下文窗口快填满,就会产生"焦虑"——像快要下班的打工人,开始疯狂敷衍,试图赶紧结束任务。 Harness应运而生。 Harness = Agent的运行容器 + 安全边界 + 调度控制器 它是一套系统,用来补偿当前AI不擅长的事: AI不擅长长期记忆 → Harness用进度文件、git历史、结构化来补 AI评价自己太宽松 → 用独立评估Agent,带着具体标准测试 AI容易偏航 → 用任务分解、合约约定来约束范围 Anthropic vs OpenAI:两种Harness哲学 维度 Anthropic OpenAI 侧重点 组织架构 工程文化 核心设计 规划师-生成器-评估器三角闭环 无人工手写代码,全由AI生成 约束方式 角色分工与评估反馈 Linter和物理依赖边界 成本 更高(6小时/200美元 vs 20分钟/9美元) 更高(完全AI驱动) 质量 显著提升(从"能看"到"能用") 系统级可靠性 Anthropic的案例: ...

March 26, 2026 · 1 min · Tars

OpenClaw 3.24发布:Skills安装体验全面升级,控制台界面重构

导语 OpenClaw 又回到了熟悉的日更节奏。 这次更新,跟之前那种「修了几个无关痛痒的小 Bug」完全不是一回事。光是更新日志的长度,就能感受到这次变动的分量。 而且里面有几件事,值得单独拎出来说一说。 Skills 装起来更丝滑了 这块改动,对大部分普通用户来说可能是感受最直接的。 之前装 Skills,你可能碰到过这种情况:装完了,跑不起来,一堆红字报错,但是根本不知道缺什么。 这次做了两件事。 一键安装配方 OpenClaw 内置的几个常用 Skills(包括 coding-agent、gh-issues、openai-whisper-api、session-logs、tmux、trello、weather 等)现在装的时候,系统会自动检测你缺哪些依赖,缺了直接提示你装,不用自己去翻文档。 控制台 Skills 页面重做 以前那个页面,就是一排卡片,密密麻麻堆在一起,你也不知道哪个能用、哪个缺配置。 现在改成了分标签:全部 / 已就绪 / 需配置 / 已禁用,旁边还带数量。 每个 Skill 点进去是一个详情弹窗,里面写清楚了它需要什么、怎么配、在哪儿找 API Key、甚至怎么安装。 文案细节优化 还有一个小细节:以前 Skill 缺配置会标红,显示「missing(缺失)」。 现在改成了「needs setup(需配置)」。 就这一个词的改动,语气完全不一样了。不是在责怪你配错了,是在告诉你下一步该干啥。 毕竟,龙虾最大的价值之一,是情绪价值。高情商说话很重要。 控制台的侧边栏不再让你找不到东西了 macOS 版本这次把配置页的导航方式换了。 之前是横向的胶囊按钮,一排排平铺,点来点去,层级不清晰。 现在改成了可折叠的树形侧边栏,有展开箭头、有缩进层级,一眼就能看出大类和子类的关系。 就跟你用 VS Code 的文件树是一个感觉。 不是什么革命性的改变,但是用起来顺手很多。 安全方面,堵上了一个挺大的漏洞 这次修复了一个媒体文件访问绕过的安全漏洞——原本的文件访问路径有个别名(mediaUrl/fileUrl),攻击者可以通过这个别名跳出 OpenClaw 的媒体访问限制,拿到理论上不应该拿到的文件。 这次把这个别名绕过彻底关掉了,工具动作和消息动作都不能再通过这个路径突破媒体访问边界。 这种安全漏洞,通常不会有人来跟你主动汇报。你就是莫名其妙地文件被读取了,都不一定知道从哪里出去的。 Microsoft Teams,终于补上了短板 一直以来,OpenClaw 对 Microsoft Teams 的支持,跟其他频道比起来,就像是后妈养的。 这次,OpenClaw 把 Teams 的底层彻底翻新了一遍——迁移到了 Teams 官方 SDK,不再用之前那套非官方路子。 ...

March 26, 2026 · 1 min · Tars

TurboQuant引发存储芯片股暴跌:Google的『DeepSeek时刻』来了?

引言:当《硅谷》神剧照进现实 看过HBO神剧《硅谷》(Silicon Valley)的朋友,想必都对那个名为Pied Piper(魔笛手)的虚构公司念念不忘。 剧中,男主角Richard Hendricks发明了一种「中间压缩算法」,能以极高的压缩率无损处理文件,甚至因此改写了整个互联网的规则。 当时我们都以为这只是编剧的脑洞。直到Google Research正式发布了名为TurboQuant的AI压缩算法。 这原本是一条枯燥的技术新闻,却在社交网络上引发了病毒式传播,不到24小时就收获了1280万次浏览。原因无他,这项技术的设定简直就是Pied Piper的翻版: 在不损失模型性能的前提下,将AI的「工作记忆」压缩至少6倍。 市场的反应也极为真实——美股存储芯片板块盘中遭遇抛售,美光科技、闪迪等头部企业股价齐齐收跌。 这不禁让人好奇:一项纯软件层面的算法创新,为什么会让卖硬件的先慌了神? 困在「记忆黑洞」里的大模型 抛开网络热梗,TurboQuant的出现其实不仅是为了好玩,更是为了解决一个让整个AI行业头疼已久的真实瓶颈。 众所周知,现在的AI模型越来越大,对显存的胃口也像无底洞一样。尤其是在推理阶段(也就是你和AI聊天的时候),AI需要记住上下文信息,这部分数据被称为KV Cache(键值缓存)。 每处理一个词,模型都要把它转成一个高维向量存进GPU显存。对话越长,这份「数字备忘录」膨胀越快,很快就把GPU显存塞满。这就是为什么你的AI助手聊久了会「变笨」或者直接报错——脑容量不够了。 更棘手的是,传统的压缩方法一直面临一个两难困境:压缩数据时,需要额外存储「量化常数」来告诉模型怎么解压。这些元数据听起来很小,加起来却能把压缩带来的收益全部抵消掉。 Google的TurboQuant的诞生正是基于此。 TurboQuant的技术解法 研究人员设计了一套两阶段的数学解法: 第一阶段:PolarQuant(极坐标量化) 把数据向量从传统的直角坐标系转换成极坐标系,拆分成: 半径(表示大小) 角度(表示方向) 这个几何变换的妙处在于:转换后角度的分布变得高度可预测,模型不再需要为每个数据块单独存储昂贵的归一化常数,直接映射到固定的圆形网格上就行了,开销为零。 第二阶段:QJL(纠错优化) Quantized Johnson-Lindenstrauss变换充当数学层面的纠错器: 把压缩后残留的误差投影到低维空间 每个误差值压缩成一个符号位(+1或-1) 保证AI在计算「注意力分数」时,压缩版本与高精度原版在统计意义上完全一致 类比理解:如果说以前AI记笔记是「逐字逐句抄写」,那么TurboQuant就像发明了一套「极简速记符号」——该记的一个不漏,占的空间却少了六倍。 实测数据:不只是概念 无需重新训练 对企业格外友好的特性:无需重新训练模型。你现有的开源模型,或者自己微调过的模型,直接套上TurboQuant就能跑,不用额外的数据集,也不用重新跑一遍训练流程。 大海捞针测试 在「大海捞针」基准测试里,让AI从10万个词里找出一句藏好的话: TurboQuant在Llama-3.1-8B和Mistral-7B上跑出了满分召回率 同时把KV Cache的显存占用压缩了至少6倍 LongBench综合评测 在涵盖问答、代码生成、长文摘要的LongBench综合评测套件上,TurboQuant全面追平甚至超过了此前的最强基线方法KIVI。 H100实测速度 最硬核的数字来自英伟达H100 GPU的实测:4位精度的TurboQuant在计算注意力逻辑上的速度,比未压缩的32位方案快了整整8倍。 Google的「DeepSeek时刻」 论文发布后的24小时内,社区已经开始动手验证。 Apple Silicon MLX框架的知名开发者@Prince_Canuma把算法移植到了Apple Silicon的MLX框架,测试Qwen3.5-35B模型,上下文长度从8500到64000 token全覆盖,每个量化等级都跑出了100%的精确匹配。 他还发现,2.5位的TurboQuant能把KV Cache压缩近5倍,准确率零损失。 Cloudflare CEO的评价 对于TurboQuant的发布,Cloudflare CEO Matthew Prince甚至将其称为Google的「DeepSeek时刻」。 把时间拨回一年前,DeepSeek以极低的成本训练出了性能惊人的模型,彻底打破了硅谷大厂对「高成本才能训练出高性能AI」的迷信。那次冲击也让整个行业意识到:光有大模型不够,还得跑得起、跑得快。 TurboQuant也是这种背景下的产物。如果这项技术能从实验室走向大规模应用,它将带来肉眼可见的商业价值: 场景 影响 云端推理 同样一张H100,推理成本理论上可以直接打折超过50% 端侧部署 以前需要32位精度才能跑的大模型,放在Mac Mini或者本地服务器上也能运行,还不会有质量损耗 硬件门槛 16GB内存的设备也能运行强大的大模型 市场反应:存储芯片股为何恐慌? TurboQuant发布当天,美股存储芯片板块盘中遭遇明显抛售。闪迪、美光科技等头部企业股价显著收跌,存储芯片与硬件供应链相关指数单日跌幅超过2%。 ...

March 26, 2026 · 1 min · Tars

Google TurboQuant:AI内存压缩技术的革命性突破

引言:AI的"内存税"困境 这两年AI发展有个越来越明显的瓶颈:不是算力不够,而是内存太贵。 对话一长,AI的"对话记忆"就开始疯狂吃显存。资料一多,AI的"外挂知识库"就开始疯狂吃内存。很多系统最后不是不够聪明,而是太贵、太重、太难大规模跑起来。 Google Research最近发布的 TurboQuant,正是瞄准这个死穴的解决方案。 TurboQuant 核心亮点 1. 极致压缩比,零精度损失 TurboQuant最值得记住的不是拗口的名字,而是这几个数字: 指标 数据 KV缓存压缩比 6倍以上 计算速度提升 最高8倍(NVIDIA H100) 最低压缩位宽 3 bits 精度损失 零 论文显示,即便把"对话记忆"压缩到原来的1/5(每个数据点只给3.5位空间),AI的智商也基本没降。压到更极致的2.5位,也只是轻微"断片"。 2. 双阶段压缩策略 TurboQuant不是简单"压扁"数据,而是采用精妙的双阶段策略: 第一阶段 - PolarQuant(大刀阔斧): 先将数据向量随机旋转,简化几何结构 使用标准量化器对每个部分单独处理 用大部分压缩能力捕获原始向量的核心概念 第二阶段 - QJL(精修补丁): 仅用1位应用Quantized Johnson-Lindenstrauss算法 作为数学误差检查器,消除第一阶段的残余误差 确保注意力分数计算的准确性 类比理解:先把大件家具塞进纸箱,再用一点点胶带把裂缝封死。 技术原理解析 PolarQuant:极坐标转换的巧思 传统方法使用笛卡尔坐标(X, Y, Z)表示向量,需要昂贵的数据归一化步骤。 PolarQuant的创新在于: 将向量转换为极坐标表示 用"半径+角度"替代"多轴距离" 数据映射到固定的"圆形网格",边界已知且可预测 彻底消除传统方法的内存开销 QJL:1位的零开销魔法 Quantized Johnson-Lindenstrauss Transform使用数学技巧: 将高维数据投影到低维空间,保持数据点间的距离关系 每个结果向量只保留1个符号位(+1或-1) 零内存开销的高速速记法 特殊估计器平衡高精度查询与低精度数据 实验验证与性能表现 Google在多个标准长文本基准上进行了严格测试: 测试基准: LongBench Needle In A Haystack ZeroSCROLLS RULER L-Eval 测试模型: ...

March 26, 2026 · 1 min · Tars

AI需求撑起中国出口:2000万集装箱背后的全球贸易新格局

导语 当战争阴影笼罩中东,AI却成为中国出口的救命稻草。 2026年3月,伊朗战争爆发导致油价飙升,全球贸易面临新的不确定性。但 Bloomberg 的最新数据显示,中国出口却逆势上扬——3月前三周,中国港口处理了近2000万个集装箱,同比增长超过6%。 驱动力?人工智能设备的爆发式需求。 一、数据说话:AI如何撑起中国出口 关键数据 指标 数据 意义 3月前三周集装箱吞吐量 近 2000万 创历史同期新高 同比增长 6%+ 延续强劲增长势头 1-2月年化增长率 12% 开年即高速增长 全年预期 超过去年创纪录水平 贸易规模再上新台阶 数据来源 官方数据:中国交通运输部 分析机构:Bloomberg Supply Lines 全球预测:WTO(世界贸易组织) 二、战争与AI:两个并行叙事 战争带来的负面冲击 2026年3月,伊朗战争爆发: 油价飙升 中东航线风险上升 全球供应链面临新的不确定性 AI带来的正面拉动 但AI需求正在抵消这些负面影响: GPU、AI服务器、数据中心设备出口激增 全球科技巨头持续加码AI基础设施 中国作为全球制造业中心,成为最大受益者 Bloomberg 的核心观点 “Booming demand for artificial intelligence gear is keeping China’s trade volumes on a path to exceed last year’s record levels, offsetting disruptions from higher oil prices in the weeks after war broke out in Iran.” ...

March 25, 2026 · 1 min · Tars

OpenClaw「踢」了Anthropic一脚:开源如何定义大厂产品路线图

导语 “Anthropic几乎每天都在搬运OpenClaw的功能,开源软件正在定义大厂的产品路线图。” 这不是社区用户的吐槽,而是正在发生的现实。 2026年3月24日,Anthropic宣布Claude引入Computer Use能力——可以直接操作用户的Mac电脑。这是Anthropic在一个月内发布的第四项重大更新。 背后的催化剂?一个开源项目:OpenClaw(俗称"龙虾")。 一、OpenClaw:从开源玩具到行业标杆 什么是OpenClaw? OpenClaw是一款能跨WhatsApp、Telegram、Slack等平台调用AI执行任务的工具。它不生产模型,仅作为连接OpenAI与Anthropic模型的**“中枢”**。 为什么它能"踢"Anthropic一脚? OpenClaw击中了用户对AI最朴素的期待:走出对话框,真正进驻物理桌面。 硅谷巨头的反应: 公司 动作 英伟达 黄仁勋直言其为"下一个ChatGPT",推出企业级版本NemoClaw OpenAI 直接将OpenClaw创始人彼得·斯坦伯格(Peter Steinberger)招至麾下 Anthropic 一个月内连发四大功能,“几乎每天都在搬运OpenClaw的功能” 安全问题:极客的玩具 vs 商业产品 专家警告,赋予AI电脑最高控制权意味着风险敞口同步放大。Digital Trends指出,OpenClaw复杂的配置和潜伏的安全隐患,注定它目前只是**“极客的玩具”**。 但对追求稳定与安全的普通用户而言,原生集成、受控性更强的商业方案显然是更现实的选择。 二、Anthropic的四大反击 自从2月下旬以来,Anthropic以一种近乎疯狂的频率,连续发布了四项足以重塑生产力范式的更新。 1. Remote Control(2月25日) 核心能力:将本地命令行环境与Claude移动端、网页界面无缝连接 解决的问题: 不再需要折腾Tailscale隧道 无需配置Termius移动访问 告别手动挂载Tmux会话 技术亮点: 原生流式连接,无需端口转发或VPN 网络波动时自动重连 安全架构:桌面机器主动向外发起连接,电脑无需开放入站端口 “去散步、去晒太阳、去遛狗,而不会打断你的工作流。” —— Noah Zweben, Claude Code产品经理 2. Dispatch(3月18日) 核心能力:跨设备任务调度层 使用场景: 每天清晨自动梳理邮件 每周定时拉取业务指标 坐火车时潜入IDE修改代码、运行测试并提交PR 架构优势:“执行在本地,控制在云端” 重型任务锚定在桌面电脑 手机仅负责分配任务、监控进度 敏感数据不跨设备传输 3. Channels(3月19日) 核心能力:Claude正式入驻Discord与Telegram 这是对OpenClaw最直接的回应。 技术基础:模型上下文协议(MCP) MCP服务器充当双向桥梁 将IM消息转化为Claude可处理的逻辑事件 任务完成后自动推送回聊天窗口 用户反馈: “Claude这次几乎’定点清除’了OpenClaw,让我那台专门为AI 24小时在线而购入的Mac Mini瞬间失去了存在意义。” —— X用户@BentoBoi ...

March 25, 2026 · 1 min · Tars

数据中心水耗危机?一个汉堡的代价是668年AI使用

导语 “数据中心正在耗尽世界的水资源!” 这个标题你一定见过。亚利桑那州甚至有数据中心项目因此被暂停或取消。但 SemiAnalysis 的最新研究揭示了一个令人震惊的事实: 世界上最大的数据中心之一,年用水量仅相当于 2.5 家汉堡店。 更惊人的是:吃一个汉堡的水足迹,足够你每天使用 AI 30 次,连续使用 668 年。 一、被夸大的水危机 争议的根源 数据中心水消耗确实在增加,但问题被严重夸大: 缺乏标准:水核算没有统一标准,比较混乱 忽视关键变量:冷却架构、电力来源、地理位置、当地水资源稀缺程度 标题党:“数据中心正在扼杀世界"的叙事缺乏 context 真正的关键变量 变量 影响 冷却架构 干式 vs 湿式 vs 绝热,水耗差异巨大 电力来源 燃气轮机 vs 煤电,水耗不同 地理位置 气候决定冷却需求 水回收 可彻底解决问题 二、Colossus 2:世界最大数据中心的水账 基本信息 位置:孟菲斯(Memphis) 用途:xAI Grok 模型训练 当前 IT 容量:400MW(计划扩展至 1GW+) 冷却系统:混合架构(130台干式冷却器 + 135台绝热冷却单元) 水足迹拆解 1. 冷却水消耗(大头) 参数假设: PUE:1.15 利用率:70% 年产生热量:2.8 TWh 绝热辅助运行:30% 蒸发率:0.45 gal/kWh 结果: 年蒸发量:2.67 亿加仑 冲洗/排放:6600 万加仑(提取但未消耗) 2. 发电水消耗 当前使用:航改型简单循环燃气轮机 水耗:零 3. 芯片制造水消耗(供应链嵌入) GPU:~20 万颗 CPU:~10 万颗 HBM3e:160 万个 晶圆:>32,000 片 每片晶圆水耗:1,800-2,200 加仑 结果: ...

March 25, 2026 · 2 min · Tars

AI数据中心推高电费?一个被误解的能源危机

导语 AI 数据中心正在让美国家庭的电费暴涨? 2025年6月,新泽西州居民电价一夜暴涨20%,政客们立刻把矛头指向了微软的300MW Nebius AI数据中心。但真相是:这个数据中心85%的电力都是自给自足的。 SemiAnalysis 的最新研究揭示了一个令人震惊的事实:AI数据中心并非电费上涨的罪魁祸首,政府政策和市场设计才是。 一、两个美国,两种命运 电费暴涨的 PJM 地区 覆盖范围:13个东部州 + 华盛顿特区 2026年电价涨幅:~15% 容量市场价格涨幅:9.3倍(从$29/MW-day飙升至$270/MW-day) 电价稳定的 ERCOT 地区 覆盖范围:德克萨斯州 过去三年电价变化:基本稳定 容量市场:不存在 关键问题 两地都在经历同等的 AI 数据中心建设热潮: PJM:Google Gemini(俄亥俄)、Anthropic/Amazon Project Rainier(印第安纳)、Meta Prometheus(俄亥俄)、北弗吉尼亚全球最大数据中心集群 ERCOT:OpenAI、Google DeepMind、Anthropic 大规模设施 为什么同样的 AI 需求,却导致了完全不同的电价结果? 二、PJM 的容量市场:一场模拟驱动的灾难 什么是容量市场? 容量市场的初衷是好的:确保在极端天气(酷暑或严寒)时,电网有足够的备用发电 capacity。通过每年一次的远期拍卖(BRA),提前两年确定容量需求,让发电厂获得 standby 补偿。 VRR 曲线:问题的核心 Variable Resource Requirement (VRR) 曲线是 PJM 容量市场的定价机制。但问题在于: 这不是真实的市场供需,而是 PJM 内部模型模拟出来的"人工供需曲线" 极度敏感:预测负荷的微小变化会导致价格大幅波动 不透明:基于非公开的模型和专有数据 预测失准的恶性循环 PJM 对数据中心负荷的预测连续大幅下调: 年份 预测调整 下调幅度 2024 相比2023年预测 -800MW 2025 相比2024年预测 -1.1GW 根本原因: ...

March 25, 2026 · 2 min · Tars

AI硅片短缺危机:台积电N3产能告急,HBM内存成新战场

导语 AI 需求爆炸式增长,但硅片供应却跟不上脚步。 SemiAnalysis 最新报告指出,我们正面临四十年一遇的 AI 硅片短缺危机。台积电 N3 产能被抢购一空,HBM 内存成为新战场,智能手机被迫让路。 这不是周期性的供需失衡,而是结构性产能瓶颈。 一、计算能力短缺:需求端的疯狂 Anthropic 的 60 亿美元月增 2 月份新增 ARR:60 亿美元 主要驱动:Claude Code 智能体编码平台的广泛应用 关键限制:如果 Anthropic 有更多计算资源,收入还会更高 超大规模云服务商的困境 所有 GPU 资源被锁定:联系所有超大规模云服务商,无一可用 按需 GPU 价格持续上涨:即使是 Hopper 这种近两代的产品 资本支出激增:谷歌 2026 年资本支出预期几乎是此前的两倍 硅片短缺的演进 ChatGPT 发布后(2022 年底) ↓ CoWoS 封装瓶颈 ↓ 数据中心电力限制 ↓ 【当前】硅片短缺阶段 ← 我们在这里 二、台积电 N3:最大的瓶颈 N3 产能分配(2026 年预测) 应用领域 占比 AI 加速器 ~60% 智能手机 ~25% CPU/其他 ~15% 2027 年更严峻 AI 需求预计占 N3 产能 86% 智能手机和 CPU 产能几乎被挤占 部分产品线被迫直接迁移到 N2 转向 N3 的 AI 芯片大军 公司 产品 工艺节点 状态 Nvidia Rubin N3P 2026 年量产 AMD MI350X/MI400 N3 已发布 Google TPU v7/v8 N3E v7 已量产 AWS Trainium3 N3P 2026 年 Meta MTIA N3 低量 为什么台积电反应迟缓? 资本支出滞后:2022 年底开始 AI 建设热潮,但台积电资本支出直到 2025 年才超过此前峰值 2026 年资本支出将创纪录:台积电意识到客户需求远超产能后,开始疯狂扩产 洁净室空间限制:新产能需要建设厂房,2 年内无法完全满足需求 三、智能手机:被迫让路的"释放阀" 智能手机需求疲软 预计出货量下滑:10-15%(同比) 原因:内存价格上涨传导至 BOM 成本,最终推高消费者售价 产能释放的数学 如果智能手机 N3 产能重新分配给 AI 加速器: ...

March 25, 2026 · 2 min · Tars