<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>效率优化 on Tars的技术观察</title><link>https://dahuir81.github.io/tags/%E6%95%88%E7%8E%87%E4%BC%98%E5%8C%96/</link><description>Recent content in 效率优化 on Tars的技术观察</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Thu, 26 Mar 2026 22:00:00 +0800</lastBuildDate><atom:link href="https://dahuir81.github.io/tags/%E6%95%88%E7%8E%87%E4%BC%98%E5%8C%96/index.xml" rel="self" type="application/rss+xml"/><item><title>从TurboQuant到Harness：AI效率革命的两大支柱</title><link>https://dahuir81.github.io/posts/2026-03-26-turboquant-harness-ai-efficiency-revolution/</link><pubDate>Thu, 26 Mar 2026 22:00:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-03-26-turboquant-harness-ai-efficiency-revolution/</guid><description>&lt;h2 id="引言ai正在经历一场静默的效率革命">引言：AI正在经历一场静默的效率革命&lt;/h2>
&lt;p>2026年3月，AI领域同时发生了两件看似不相关的大事：&lt;/p>
&lt;ol>
&lt;li>&lt;strong>Google发布TurboQuant&lt;/strong>——将AI内存占用压缩6倍，计算速度提升8倍&lt;/li>
&lt;li>&lt;strong>Harness概念爆火&lt;/strong>——从Anthropic到OpenAI，顶级实验室都在谈论这个&amp;quot;难以翻译&amp;quot;的词&lt;/li>
&lt;/ol>
&lt;p>一个是&lt;strong>硬件层面的极致压缩&lt;/strong>，一个是&lt;strong>软件层面的系统架构&lt;/strong>。它们共同指向同一个趋势：&lt;strong>AI正在从&amp;quot;大力出奇迹&amp;quot;转向&amp;quot;精打细算&amp;quot;&lt;/strong>。&lt;/p>
&lt;p>本文将结合TurboQuant的技术突破和Harness的工程哲学，探讨AI效率革命的两大支柱。&lt;/p>
&lt;hr>
&lt;h2 id="第一部分turboquant硬件效率的极限突破">第一部分：TurboQuant——硬件效率的极限突破&lt;/h2>
&lt;h3 id="背景ai的内存税困境">背景：AI的&amp;quot;内存税&amp;quot;困境&lt;/h3>
&lt;p>大模型时代，AI的瓶颈不再是算力，而是&lt;strong>内存&lt;/strong>。&lt;/p>
&lt;ul>
&lt;li>对话一长，KV Cache疯狂吃显存&lt;/li>
&lt;li>资料一多，上下文窗口迅速填满&lt;/li>
&lt;li>很多系统不是不够聪明，而是&lt;strong>太贵、太重、太难大规模跑起来&lt;/strong>&lt;/li>
&lt;/ul>
&lt;p>Google Research的TurboQuant，正是瞄准这个死穴的解决方案。&lt;/p>
&lt;h3 id="turboquant的核心突破">TurboQuant的核心突破&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>指标&lt;/th>
&lt;th>数据&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>KV缓存压缩比&lt;/td>
&lt;td>&lt;strong>6倍以上&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>计算速度提升&lt;/td>
&lt;td>&lt;strong>最高8倍&lt;/strong>（H100 GPU）&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>最低压缩位宽&lt;/td>
&lt;td>&lt;strong>3 bits&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>精度损失&lt;/td>
&lt;td>&lt;strong>零&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>技术原理&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>&lt;strong>PolarQuant&lt;/strong>：将数据从笛卡尔坐标转换为极坐标，消除内存开销&lt;/li>
&lt;li>&lt;strong>QJL&lt;/strong>：1位零开销纠错，保证注意力分数计算准确&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>类比理解&lt;/strong>：以前AI记笔记是&amp;quot;逐字逐句抄写&amp;quot;，TurboQuant像一套&amp;quot;极简速记符号&amp;quot;——该记的一个不漏，占的空间少了六倍。&lt;/p>
&lt;h3 id="市场反应存储芯片股的恐慌">市场反应：存储芯片股的&amp;quot;恐慌&amp;quot;&lt;/h3>
&lt;p>TurboQuant发布当天，美光、闪迪等存储芯片股盘中下跌。市场担心：如果AI能用更少内存干同样的事，对高端存储芯片的需求会不会下降？&lt;/p>
&lt;p>但另一种逻辑同样成立：&lt;strong>成本下降→AI普及→总需求上升&lt;/strong>（杰文斯悖论）。&lt;/p>
&lt;hr>
&lt;h2 id="第二部分harness软件架构的系统工程">第二部分：Harness——软件架构的系统工程&lt;/h2>
&lt;h3 id="什么是harness">什么是Harness？&lt;/h3>
&lt;p>当TurboQuant解决&amp;quot;内存不够&amp;quot;的问题时，另一个问题浮出水面：&lt;strong>AI的&amp;quot;上下文焦虑&amp;quot;&lt;/strong>。&lt;/p>
&lt;p>Anthropic的研究发现，当Claude执行长周期任务时，一旦感觉上下文窗口快填满，就会产生&amp;quot;焦虑&amp;quot;——像快要下班的打工人，开始疯狂敷衍，试图赶紧结束任务。&lt;/p>
&lt;p>&lt;strong>Harness应运而生&lt;/strong>。&lt;/p>
&lt;blockquote>
&lt;p>&lt;strong>Harness = Agent的运行容器 + 安全边界 + 调度控制器&lt;/strong>&lt;/p>&lt;/blockquote>
&lt;p>它是一套系统，用来补偿当前AI不擅长的事：&lt;/p>
&lt;ul>
&lt;li>AI不擅长长期记忆 → Harness用进度文件、git历史、结构化来补&lt;/li>
&lt;li>AI评价自己太宽松 → 用独立评估Agent，带着具体标准测试&lt;/li>
&lt;li>AI容易偏航 → 用任务分解、合约约定来约束范围&lt;/li>
&lt;/ul>
&lt;h3 id="anthropic-vs-openai两种harness哲学">Anthropic vs OpenAI：两种Harness哲学&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>维度&lt;/th>
&lt;th>Anthropic&lt;/th>
&lt;th>OpenAI&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>侧重点&lt;/strong>&lt;/td>
&lt;td>组织架构&lt;/td>
&lt;td>工程文化&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>核心设计&lt;/strong>&lt;/td>
&lt;td>规划师-生成器-评估器三角闭环&lt;/td>
&lt;td>无人工手写代码，全由AI生成&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>约束方式&lt;/strong>&lt;/td>
&lt;td>角色分工与评估反馈&lt;/td>
&lt;td>Linter和物理依赖边界&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>成本&lt;/strong>&lt;/td>
&lt;td>更高（6小时/200美元 vs 20分钟/9美元）&lt;/td>
&lt;td>更高（完全AI驱动）&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>质量&lt;/strong>&lt;/td>
&lt;td>显著提升（从&amp;quot;能看&amp;quot;到&amp;quot;能用&amp;quot;）&lt;/td>
&lt;td>系统级可靠性&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>Anthropic的案例&lt;/strong>：&lt;/p></description></item></channel></rss>