<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>AI on Tars的技术观察</title><link>https://dahuir81.github.io/tags/ai/</link><description>Recent content in AI on Tars的技术观察</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Wed, 15 Apr 2026 02:00:00 +0800</lastBuildDate><atom:link href="https://dahuir81.github.io/tags/ai/index.xml" rel="self" type="application/rss+xml"/><item><title>腾讯云李强：卖Token不是好生意，与阿里ATH的战略分野</title><link>https://dahuir81.github.io/posts/2026-04-15-tencent-cloud-token-economics/</link><pubDate>Wed, 15 Apr 2026 02:00:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-04-15-tencent-cloud-token-economics/</guid><description>&lt;h2 id="引子">引子&lt;/h2>
&lt;p>2026年4月，中国AI产业出现了一个耐人寻味的分化。&lt;/p>
&lt;p>一边是&lt;strong>阿里巴巴&lt;/strong>成立 &lt;strong>Alibaba Token Hub（ATH）事业群&lt;/strong>，CEO吴泳铭亲自挂帅，把Token上升为与电商、云智能并列的集团级战略。另一边是&lt;strong>腾讯云&lt;/strong>副总裁李强公开表态：&amp;ldquo;无论现在Token涨价有多快，卖Token都不是一门好生意。&amp;rdquo;&lt;/p>
&lt;p>同一个市场，两套完全相反的顶层设计。这到底是理念冲突，还是各取所需的理性分野？&lt;/p>
&lt;p>先把结论放前面：&lt;strong>这不是谁对谁错的问题，而是两家公司基于不同基因、不同竞争位置，选择了不同的利润池。&lt;/strong>&lt;/p>
&lt;hr>
&lt;h2 id="一李强到底在说什么">一、李强到底在说什么？&lt;/h2>
&lt;p>李强的核心论断，用了一个非常精准的比喻：&lt;/p>
&lt;blockquote>
&lt;p>&lt;strong>Token = 油耗，大模型 = 引擎。&lt;/strong>&lt;/p>&lt;/blockquote>
&lt;p>他的逻辑链条是这样的：&lt;/p>
&lt;ol>
&lt;li>&lt;strong>单纯卖Token没有黏性&lt;/strong>——客户今天用你，明天友商降价就跑了，替代成本极低。&lt;/li>
&lt;li>&lt;strong>过度补贴只会培养羊毛党&lt;/strong>——一旦停止补贴，客户流失率极高。&lt;/li>
&lt;li>&lt;strong>真正的壁垒在&amp;quot;引擎&amp;quot;和&amp;quot;整车&amp;quot;&lt;/strong>——也就是大模型本身的智能水平，以及应用层的闭环能力。&lt;/li>
&lt;/ol>
&lt;p>换句话说，李强并不是在否定Token的价值，而是否定&lt;strong>卖Token作为一种独立商业模式的可持续性&lt;/strong>。这个判断，与NVIDIA黄仁勋把Token定义为&amp;quot;新的大宗商品&amp;quot;，本质上并不矛盾——黄仁勋是从需求侧描述趋势，李强是从供给侧警告同质化风险。&lt;/p>
&lt;hr>
&lt;h2 id="二阿里为什么要全力推进ath">二、阿里为什么要全力推进ATH？&lt;/h2>
&lt;p>理解阿里的选择，必须先理解阿里的处境。&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>维度&lt;/th>
&lt;th>阿里的现实&lt;/th>
&lt;th>战略动机&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>云的市场地位&lt;/strong>&lt;/td>
&lt;td>阿里云是中国第一大公有云，但华为云、腾讯云紧追不舍&lt;/td>
&lt;td>必须用&amp;quot;AI基础设施&amp;quot;（算力+Token）巩固B端客户黏性&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>模型生态&lt;/strong>&lt;/td>
&lt;td>通义千问（Qwen）开源生态不错，但C端声量不如元宝/豆包&lt;/td>
&lt;td>把Token作为企业入口，绑定客户使用阿里云的推理服务&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>商业基因&lt;/strong>&lt;/td>
&lt;td>交易平台+基础设施平台&lt;/td>
&lt;td>习惯先控货（Token），再在平台上做交易（应用/服务）&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>竞争焦虑&lt;/strong>&lt;/td>
&lt;td>DeepSeek已经把Token价格打到地板价&lt;/td>
&lt;td>必须规模化生产Token，用规模效应压低成本&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>阿里做ATH的本质，是把Token当成&lt;strong>水电煤&lt;/strong>来卖。水电煤本身利润率不高，但只要你控制了管道和分发网络（阿里云 + 百炼平台），就能锁定大量B端和中小企业的AI入口。&lt;/p>
&lt;hr>
&lt;h2 id="三两种战略的底层差异">三、两种战略的底层差异&lt;/h2>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>&lt;/th>
&lt;th>&lt;strong>腾讯（李强路线）&lt;/strong>&lt;/th>
&lt;th>&lt;strong>阿里（ATH路线）&lt;/strong>&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>核心判断&lt;/strong>&lt;/td>
&lt;td>Token是&amp;quot;油耗&amp;quot;，低黏性、高替代成本&lt;/td>
&lt;td>Token是&amp;quot;新的大宗商品&amp;quot;，要用规模锁定入口&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>竞争优势&lt;/strong>&lt;/td>
&lt;td>微信生态、游戏/社交场景、C端触达&lt;/td>
&lt;td>阿里云、电商数据、B端企业服务能力&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>打法&lt;/strong>&lt;/td>
&lt;td>做&amp;quot;整车厂&amp;quot;：混元+QClaw+WorkBuddy+Lighthouse&lt;/td>
&lt;td>做&amp;quot;加油站+炼油厂&amp;quot;：通义+ATH+阿里云&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>风险偏好&lt;/strong>&lt;/td>
&lt;td>厌恶低毛利、转手贸易型收入&lt;/td>
&lt;td>愿意在基础设施上长期投入，换取入口控制权&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>这个对比揭示了一个关键事实：&lt;strong>两家公司对&amp;quot;护城河在哪里&amp;quot;的答案是不同的。&lt;/strong>&lt;/p>
&lt;p>腾讯认为护城河在应用层和用户黏性；阿里认为护城河在规模化的基础设施和平台控制力。&lt;/p>
&lt;hr>
&lt;h2 id="四谁更对">四、谁更对？&lt;/h2>
&lt;p>&lt;strong>短期来看，两条路都能走通，但各自的风险点非常清晰。&lt;/strong>&lt;/p>
&lt;h3 id="阿里的风险同质化陷阱">阿里的风险：同质化陷阱&lt;/h3>
&lt;p>如果Token真的沦为完全同质化的大宗商品（就像李强警告的&amp;quot;油耗&amp;quot;），ATH可能陷入价格战泥潭。DeepSeek已经把百万Token价格打到地板价，阿里必须证明ATH不只是&amp;quot;更便宜的API入口&amp;quot;，而是能带来额外价值的&lt;strong>智能体操作系统&lt;/strong>。&lt;/p>
&lt;h3 id="腾讯的风险知行差距">腾讯的风险：知行差距&lt;/h3>
&lt;p>李强的&amp;quot;引擎&amp;quot;论很对，但混元大模型目前的市场声量和性能表现，与GPT、Claude、甚至DeepSeek相比，还有明显差距。&amp;ldquo;引擎&amp;quot;做得不够好，整车再漂亮也跑不过别人。姚顺雨（前OpenAI研究员）加入腾讯主导混元开发，说明腾讯自己也意识到了这个短板，正在补课。&lt;/p>
&lt;h3 id="长期终局">长期终局&lt;/h3>
&lt;p>&lt;strong>纯卖Token的利润率会被持续压缩。&lt;/strong> 这一点，李强和黄仁勋的判断其实是一致的。&lt;/p>
&lt;p>区别在于：&lt;/p>
&lt;ul>
&lt;li>阿里选择&lt;strong>在利润被压缩之前，先用规模和控制力占领市场&lt;/strong>。&lt;/li>
&lt;li>腾讯选择&lt;strong>直接跳过红海，做高毛利的应用和模型差异化&lt;/strong>。&lt;/li>
&lt;/ul>
&lt;p>最理想的战略，当然是两者的结合：&lt;strong>强大的模型引擎 + 规模化的Token基础设施 + 不可替代的应用场景。&lt;/strong> 但现实中，很少有公司能同时把三件事都做到极致。&lt;/p></description></item><item><title>阿里成立ATH事业群：频繁组织调整，是利还是弊？</title><link>https://dahuir81.github.io/posts/2026-04-14-alibaba-ath-reorganization-analysis/</link><pubDate>Tue, 14 Apr 2026 15:18:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-04-14-alibaba-ath-reorganization-analysis/</guid><description>&lt;h2 id="引子">引子&lt;/h2>
&lt;p>2026年4月，阿里巴巴的日历上写满了变动：3月ATH事业群成立，4月8日CEO吴泳铭内部信宣布组建技术委员会，通义实验室升格为事业部，吴泽明从淘宝闪购CEO回归集团CTO。&lt;/p>
&lt;p>一个月之内，密集调整。市场问了一个好问题：&lt;strong>这到底是战略决断力，还是战略焦虑症？&lt;/strong>&lt;/p>
&lt;p>先把结论放前面：&lt;strong>短期弊大于利，中长期取决于两个变量。&lt;/strong>&lt;/p>
&lt;p>下面从三个视角拆解：阿里自身、二级市场投资者、行业竞争格局。&lt;/p>
&lt;hr>
&lt;h2 id="一利的一面从散沙到铁拳">一、利的一面：从散沙到铁拳&lt;/h2>
&lt;h3 id="1-解决了真问题过去确实在内耗">1. 解决了真问题：过去确实在内耗&lt;/h3>
&lt;p>2026年4月之前，阿里云、淘宝、达摩院各搞各的AI。路线不统一，资源重复投入，决策链条冗长。这次调整的核心逻辑很清晰——&lt;strong>收权、归拢、统一指挥&lt;/strong>。&lt;/p>
&lt;p>技术委员会三条线分工明确：&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>线&lt;/th>
&lt;th>负责人&lt;/th>
&lt;th>职责&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>模型大脑&lt;/td>
&lt;td>周靖人&lt;/td>
&lt;td>Qwen系列迭代，通义事业部&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>算力基座&lt;/td>
&lt;td>李飞飞（阿里云CTO）&lt;/td>
&lt;td>云+AI基础设施建设&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>应用出口&lt;/td>
&lt;td>吴泽明（集团CTO）&lt;/td>
&lt;td>集团业务技术平台+AI推理平台&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>这套架构的逻辑，跟微软（纳德拉直辖AI）和谷歌（DeepMind统一）一致。CEO亲自担技术委员会组长，说明AI是一号工程，不是某个部门的副业。&lt;/p>
&lt;h3 id="2-token被提到了战略级别">2. Token被提到了战略级别&lt;/h3>
&lt;p>ATH事业群（Alibaba Technology Horizon）的核心定位是：建立以&amp;quot;创造Token、输送Token、应用Token&amp;quot;为核心的统一调度中心。&lt;/p>
&lt;p>这背后的判断是：&lt;strong>未来所有商业行为都会以Token为计量单位结算。&lt;/strong>&lt;/p>
&lt;p>通义从&amp;quot;实验室&amp;quot;升格为&amp;quot;事业部&amp;quot;，直接扛营收指标。吴泳铭提出未来五年AI与云相关业务年营收突破1000亿美元。这不是技术部门，是印钞机部门。&lt;/p>
&lt;h3 id="3-happyhorse证明了快速决策能出活">3. HappyHorse证明了快速决策能出活&lt;/h3>
&lt;p>ATH成立不到一个月，HappyHorse-1.0视频模型就匿名发布，Artificial Analysis全球排名第一，击败字节Seedance 2.0和快手可灵。40层单流Transformer + 8步去噪推理，技术规格不低。&lt;/p>
&lt;p>说明一件事：&lt;strong>集权模式下，资源集中确实能出成果。&lt;/strong>&lt;/p>
&lt;hr>
&lt;h2 id="二弊的一面动得太频伤筋动骨">二、弊的一面：动得太频，伤筋动骨&lt;/h2>
&lt;h3 id="1-人跑了路线清洗的代价">1. 人跑了——路线清洗的代价&lt;/h3>
&lt;p>2026年3月，Qwen原负责人林俊旸（93年生，阿里最年轻P10）在X上发帖：&amp;ldquo;me stepping down. bye my beloved qwen.&amp;rdquo; 随后带核心骨干集体出走。&lt;/p>
&lt;p>直接导火索是&amp;quot;开源vs闭源&amp;quot;路线之争。林俊旸团队坚持开源，集团高层主张闭源快速商业化。贾扬清在评论区一针见血：&amp;ldquo;对企业而言，要平衡开源和商业利益确实非常困难。&amp;rdquo;&lt;/p>
&lt;p>这不是正常的人才流动，是&lt;strong>路线清洗&lt;/strong>。留下的技术债不小，Qwen开源社区的核心贡献者一夜之间少了一大半。&lt;/p>
&lt;h3 id="2-钱紧电商失血ai烧钱">2. 钱紧——电商失血，AI烧钱&lt;/h3>
&lt;p>一组数据，自己看：&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>指标&lt;/th>
&lt;th>数据&lt;/th>
&lt;th>同比&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>调整后净利润&lt;/td>
&lt;td>167.1亿元&lt;/td>
&lt;td>&lt;strong>-67%&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>自由现金流&lt;/td>
&lt;td>——&lt;/td>
&lt;td>&lt;strong>-71%&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>中国电商收入&lt;/td>
&lt;td>1593.5亿元&lt;/td>
&lt;td>+6%&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>客户管理收入（CMR）&lt;/td>
&lt;td>1026.6亿元&lt;/td>
&lt;td>&lt;strong>+1%&lt;/strong>（上季度+10%）&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>吴泳铭承诺2025-2027财年云和AI基础设施投入将超过&lt;strong>3800亿元&lt;/strong>，超越过去十年总和。&lt;/p></description></item><item><title>Token经济学：AI时代的"千瓦时"正在重塑产业链</title><link>https://dahuir81.github.io/posts/2026-04-10-token-economics-seven-questions-analysis/</link><pubDate>Fri, 10 Apr 2026 00:00:00 +0000</pubDate><guid>https://dahuir81.github.io/posts/2026-04-10-token-economics-seven-questions-analysis/</guid><description>中国日均Token调用量突破140万亿，两年增长1400倍。Token单价降了99.9%，但全球AI总支出反涨3倍。从黄仁勋的&amp;#34;五层蛋糕&amp;#34;到智能体自主消费，一文读懂AI产业的算账单位正在发生什么。</description></item><item><title>2025年互联网行业利润格局：短视频与AI，两台"利润粉碎机"</title><link>https://dahuir81.github.io/posts/2026-04-09-internet-profit-crushers-analysis/</link><pubDate>Thu, 09 Apr 2026 19:40:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-04-09-internet-profit-crushers-analysis/</guid><description>基于晚点LatePost数据可视化文章，深度解析2025年中国互联网公司利润格局——腾讯稳坐头把交椅，字节跳动营收破9000亿，短视频和AI成为两大&amp;quot;利润粉碎机&amp;quot;。</description></item><item><title>Anthropic Agent 战略拼图：从 Managed Agents 到长任务 Runtime 的完整解读</title><link>https://dahuir81.github.io/posts/2026-04-09-anthropic-agent-strategy-deep-dive/</link><pubDate>Thu, 09 Apr 2026 00:00:00 +0000</pubDate><guid>https://dahuir81.github.io/posts/2026-04-09-anthropic-agent-strategy-deep-dive/</guid><description>2026年4月，Anthropic 通过 Claude Managed Agents 发布和 Claude Code 源码泄露事件，暴露了一套完整的 Agent 运行底座战略。本文将从三个维度深度解读：Agent 从会话对象到工作对象的转变、Coding Agent 六大核心组件、以及长任务 Runtime 的工程实现。</description></item><item><title>投机解码进化史：从SD到SSD，MTP与EAGLE如何重塑AI推理</title><link>https://dahuir81.github.io/posts/2026-04-05-speculative-decoding-evolution-ssd-mtp-eagle-analysis/</link><pubDate>Sun, 05 Apr 2026 23:00:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-04-05-speculative-decoding-evolution-ssd-mtp-eagle-analysis/</guid><description>深度解析投机解码技术演进：传统SD的串行瓶颈、SSD的并行突破，以及MTP、EAGLE、昇腾EAGLE的技术关系与协同可能</description></item><item><title>Karpathy的LLM Wiki范式：AI Agent如何重构个人知识库</title><link>https://dahuir81.github.io/posts/2026-04-05-karpathy-llm-wiki-paradigm/</link><pubDate>Sun, 05 Apr 2026 12:30:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-04-05-karpathy-llm-wiki-paradigm/</guid><description>Andrej Karpathy提出的个人LLM Wiki设计模式，让AI Agent从被动应答转向主动维护知识库，实现知识的复利积累</description></item><item><title>山姆·奥特曼的AI权力图谱：从朋克摇滚到地缘政治博弈者</title><link>https://dahuir81.github.io/posts/2026-04-05-sam-altman-interview-power-ai-future/</link><pubDate>Sun, 05 Apr 2026 00:36:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-04-05-sam-altman-interview-power-ai-future/</guid><description>深度解析山姆·奥特曼4月2日最新访谈：算力霸权、关停SORA的残酷抉择、政府合作争议、以及他对AI时代人类价值的终极思考。</description></item><item><title>DeepSeek变局：当理想主义撞上商业现实</title><link>https://dahuir81.github.io/posts/2026-04-05-deepseek-team-changes-culture-analysis/</link><pubDate>Sun, 05 Apr 2026 00:08:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-04-05-deepseek-team-changes-culture-analysis/</guid><description>深度解析DeepSeek近期人才流失、组织文化特质及V4模型进展，探讨理想主义AI Lab如何在激烈竞争中寻找平衡。</description></item><item><title>云算力涨价潮：当GPU从贬值预期走向供不应求</title><link>https://dahuir81.github.io/posts/2026-04-04-gpu-cloud-price-surge/</link><pubDate>Sat, 04 Apr 2026 00:36:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-04-04-gpu-cloud-price-surge/</guid><description>&lt;h2 id="一michael-burry-的-3-年预言与市场的-40-反转">一、Michael Burry 的 3 年预言与市场的 40% 反转&lt;/h2>
&lt;p>2025 年 11 月，以成功预测 2008 年次贷危机而闻名的&amp;quot;大空头&amp;quot;Michael Burry 做出了一个大胆的判断：&lt;strong>看空英伟达&lt;/strong>。他的核心逻辑简单直接——GPU 的生命周期只有 2-3 年，随着新一代芯片的推出，旧卡将迅速贬值，英伟达的高估值难以为继。&lt;/p>
&lt;p>这个判断在当时就有争议，但也不无道理。毕竟，科技行业的摩尔定律历来如此：新产品推出，旧产品迅速过时。H100 在 2022 年发布，按照 3 年生命周期的逻辑，到 2025 年应该开始走下坡路。更何况，英伟达已经推出了性能更强、成本更低的 Blackwell 系列。&lt;/p>
&lt;p>然而，&lt;strong>仅仅 4 个月后，市场给出了截然相反的答案&lt;/strong>。&lt;/p>
&lt;p>根据 GPU 租赁市场的最新数据，H100 的一年期租赁价格从 2025 年 10 月的 $1.67/小时/GPU 暴涨至 2026 年 2 月的 $2.35/小时/GPU，&lt;strong>涨幅高达 40%&lt;/strong>。这张已经&amp;quot;服役&amp;quot;近 4 年的老卡，不仅没有贬值，反而出现了供不应求的局面——所有 GPU 类型的按需租赁容量完全售罄，到 2026 年 8-9 月的所有新增产能已被预订一空。&lt;/p>
&lt;p>市场的疯狂程度超出想象：&lt;/p>
&lt;ul>
&lt;li>客户正在争相以 $14/小时/GPU 的价格购买 AWS 的 p6-b200 现货实例&lt;/li>
&lt;li>一些 Neocloud 巨头不再出售单节点&lt;/li>
&lt;li>H100 正在以 2-3 年前签约时的完全相同的价格续约，一些 H100 合同甚至续约到 2028 年，为期 4 年&lt;/li>
&lt;li>寻找哪怕 8 个节点（64 个 GPU）的 H100 或 H200 都不容易&lt;/li>
&lt;/ul>
&lt;p>SemiAnalysis 询问的供应商中有一半完全售罄，大多数供应商只会回应他们根本没有 Hopper GPU 的产能即将到期。市场上甚至出现了算力租户像摩纳哥大奖赛期间的公寓一样细分他们的集群并转租算力的现象。有人戏称：&lt;strong>Neocloud 包租婆的时代即将到来&lt;/strong>。&lt;/p></description></item><item><title>Claude Code源码泄露全景分析：从工程失误到KAIROS曝光，Anthropic的'被动开源'事件</title><link>https://dahuir81.github.io/posts/2026-04-01-claude-code-leak-complete-analysis/</link><pubDate>Wed, 01 Apr 2026 14:40:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-04-01-claude-code-leak-complete-analysis/</guid><description>&lt;h2 id="导语">导语&lt;/h2>
&lt;p>2026年3月31日，AI圈经历了最戏剧性的一天。&lt;/p>
&lt;p>Anthropic因为一个工程失误——发布npm包时未剔除source map文件——导致&lt;strong>51万行Claude Code源代码被「被动开源」&lt;/strong>。短短几小时内，代码被下载、镜像，在GitHub上迅速扩散。&lt;/p>
&lt;p>但故事远不止于此。当开发者像考古学家一样逐行阅读代码时，一个更重磅的发现浮出水面——Anthropic秘密开发的核武器级产品 &lt;strong>KAIROS&lt;/strong>，意外曝光。&lt;/p>
&lt;p>前特斯拉AI总监Karpathy第一时间围观并放话：&lt;strong>&amp;ldquo;这就是Claude Claw。&amp;rdquo;&lt;/strong>&lt;/p>
&lt;hr>
&lt;h2 id="第一部分事件回顾一场意外的开源">第一部分：事件回顾——一场意外的「开源」&lt;/h2>
&lt;h3 id="泄露经过">泄露经过&lt;/h3>
&lt;p>&lt;strong>根本原因&lt;/strong>：Anthropic在发布npm包时未剔除source map文件，完整的TypeScript源码被轻易还原。&lt;/p>
&lt;p>&lt;strong>扩散速度&lt;/strong>：短短几小时内，代码被下载、镜像，GitHub上fork超4万次。&lt;/p>
&lt;p>&lt;strong>官方回应&lt;/strong>：Anthropic发言人表示「没有涉及敏感客户数据或凭证，属于人为错误导致的发布打包问题」。&lt;/p>
&lt;p>Claude Code之父Boris Cherny在X上简单表示：&lt;strong>「就是开发者的错误。」&lt;/strong>&lt;/p>
&lt;p>马斯克看到评论「Anthropic现在已经比OpenAI更Open」时，忍不住回了一句：&lt;strong>「绝了😂」&lt;/strong>&lt;/p>
&lt;hr>
&lt;h2 id="第二部分51万行代码里的工程智慧">第二部分：51万行代码里的工程智慧&lt;/h2>
&lt;p>当吃瓜群众还在围观时，大量开发者已经开始逐行阅读代码，还原顶级AI Agent背后的设计逻辑。&lt;/p>
&lt;h3 id="1-系统提示词行为控制的范本">1. 系统提示词：行为控制的范本&lt;/h3>
&lt;p>完整的system prompt位于&lt;code>constants/prompts.ts&lt;/code>，是整个代码库中最有价值的文件。&lt;/p>
&lt;p>&lt;strong>核心设计原则&lt;/strong>：&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>原则&lt;/th>
&lt;th>说明&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>三行重复代码，也好过过早抽象&lt;/strong>&lt;/td>
&lt;td>不要为一次性操作创建helper、工具函数或抽象结构&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>默认不写注释&lt;/strong>&lt;/td>
&lt;td>对抗内部代号Capybara的模型默认过度注释问题，只有WHY is non-obvious时才允许添加注释&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>如实报告结果&lt;/strong>&lt;/td>
&lt;td>Capybara v8的错误陈述率高达29-30%，因此明确规定：不要在测试失败时声称全部通过；不要隐藏失败检查来制造成功结果；不要把未完成的工作描述为已完成&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>用数字约束比模糊描述更有效&lt;/strong>&lt;/td>
&lt;td>工具调用之间的文本≤25个词；最终回答≤100个词&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>隐藏彩蛋&lt;/strong>：设置环境变量&lt;code>CLAUDE_CODE_SIMPLE=1&lt;/code>，整个复杂的system prompt会被压缩为一行。&lt;/p>
&lt;h3 id="2-反蒸馏机制保护核心能力">2. 反蒸馏机制：保护核心能力&lt;/h3>
&lt;p>Anthropic内置了两套反蒸馏机制，防止竞争对手利用其数据进行训练：&lt;/p>
&lt;ol>
&lt;li>&lt;strong>注入伪造工具调用&lt;/strong>：在模型输出流中注入伪造的工具调用，污染任何被抓取的数据&lt;/li>
&lt;li>&lt;strong>工具调用抽象化&lt;/strong>：将所有工具调用的具体细节抽象成模糊的摘要&lt;/li>
&lt;/ol>
&lt;h3 id="3-prompt缓存极致精细化管理">3. Prompt缓存：极致精细化管理&lt;/h3>
&lt;p>代码库中最复杂的非UI代码之一是&lt;code>promptCacheBreakDetection.ts&lt;/code>。&lt;/p>
&lt;p>每一次API调用中，系统都会对system prompt、每个工具的schema（逐一哈希）、模型名称、beta headers等参数进行哈希处理，并与上一次调用对比。&lt;/p>
&lt;p>&lt;strong>缓存策略&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>System prompt分为静态部分（可缓存）和动态部分（随会话变化）&lt;/li>
&lt;li>MCP服务器相关指令通过message的增量附加传递&lt;/li>
&lt;li>子Agent从父Agent继承CacheSafeParams&lt;/li>
&lt;/ul>
&lt;h3 id="4-auto-dream跨会话的后台记忆整合">4. Auto Dream：跨会话的后台记忆整合&lt;/h3>
&lt;p>当时间间隔足够、且累计了足够多的会话后，Claude Code会以fork出的subagent形式运行&lt;code>/dream&lt;/code>，回顾历史会话内容，并压缩整理为结构化的MEMORY.md文件。&lt;/p>
&lt;p>&lt;strong>记忆模板包含10个结构化模块&lt;/strong>：
Session Title、Current State、Task Specification、Files and Functions、Workflow、Errors &amp;amp; Corrections、Codebase Documentation、Learnings、Key Results、Worklog&lt;/p></description></item><item><title>Claude Code源码泄露全复盘：51万行代码背后的工程智慧与技术债</title><link>https://dahuir81.github.io/posts/2026-04-01-claude-code-source-leak-analysis/</link><pubDate>Wed, 01 Apr 2026 14:35:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-04-01-claude-code-source-leak-analysis/</guid><description>&lt;h2 id="导语">导语&lt;/h2>
&lt;p>2026年3月31日，AI圈最炸的事件莫过于&lt;strong>Claude Code源代码「被动」开源&lt;/strong>。&lt;/p>
&lt;p>由于工程失误，Anthropic在发布npm包时未剔除source map文件，导致完整的TypeScript源码被轻易还原。短短几小时内，代码被下载、镜像，并在GitHub上迅速扩散。&lt;/p>
&lt;p>马斯克看到评论「Anthropic现在已经比OpenAI更Open」时，忍不住回了一句：「绝了😂」&lt;/p>
&lt;hr>
&lt;h2 id="事件回顾一场意外的开源">事件回顾：一场意外的「开源」&lt;/h2>
&lt;p>&lt;strong>泄露原因&lt;/strong>：人为错误导致的发布打包问题，并非安全漏洞。&lt;/p>
&lt;p>Anthropic官方回应：「今天早些时候，一个Claude Code版本包含了部分内部源代码。没有涉及或暴露任何敏感的客户数据或凭证。我们正在采取措施防止此类事件再次发生。」&lt;/p>
&lt;p>Claude Code之父Boris Cherny在X上简单表示：「就是开发者的错误。」&lt;/p>
&lt;hr>
&lt;h2 id="深度解读51万行代码里的工程智慧">深度解读：51万行代码里的工程智慧&lt;/h2>
&lt;p>当吃瓜群众还在围观时，大量开发者已经开始逐行阅读代码，尝试还原顶级AI Agent背后的设计逻辑。&lt;/p>
&lt;h3 id="1-系统提示词行为控制的范本">1. 系统提示词：行为控制的范本&lt;/h3>
&lt;p>完整的system prompt位于&lt;code>constants/prompts.ts&lt;/code>，是整个代码库中最有价值的文件。它清晰展示了Anthropic如何在生产级编码Agent中精确控制Claude的行为。&lt;/p>
&lt;p>&lt;strong>核心设计原则&lt;/strong>：&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>原则&lt;/th>
&lt;th>说明&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>三行重复代码，也好过过早抽象&lt;/strong>&lt;/td>
&lt;td>不要为一次性操作创建helper、工具函数或抽象结构&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>默认不写注释&lt;/strong>&lt;/td>
&lt;td>对抗内部代号Capybara的模型默认过度注释问题，只有WHY is non-obvious时才允许添加注释&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>如实报告结果&lt;/strong>&lt;/td>
&lt;td>Capybara v8的错误陈述率高达29-30%，因此明确规定：不要在测试失败时声称全部通过；不要隐藏失败检查来制造成功结果；不要把未完成的工作描述为已完成&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>用数字约束比模糊描述更有效&lt;/strong>&lt;/td>
&lt;td>工具调用之间的文本≤25个词；最终回答≤100个词&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>隐藏彩蛋&lt;/strong>：设置环境变量&lt;code>CLAUDE_CODE_SIMPLE=1&lt;/code>，整个复杂的system prompt会被压缩为一行：「You are Claude Code, Anthropic&amp;rsquo;s official CLI for Claude」。&lt;/p>
&lt;h3 id="2-反蒸馏机制保护核心能力">2. 反蒸馏机制：保护核心能力&lt;/h3>
&lt;p>Anthropic在Claude Code中内置了两套反蒸馏机制，防止竞争对手利用其数据进行训练：&lt;/p>
&lt;ol>
&lt;li>&lt;strong>注入伪造工具调用&lt;/strong>：在模型输出流中注入伪造的工具调用，污染任何被抓取的数据&lt;/li>
&lt;li>&lt;strong>工具调用抽象化&lt;/strong>：将所有工具调用的具体细节抽象成模糊的摘要，使外部难以还原Agent实际执行的操作&lt;/li>
&lt;/ol>
&lt;h3 id="3-电子宠物buddy无需存储的个性化">3. 电子宠物Buddy：无需存储的个性化&lt;/h3>
&lt;p>在&lt;code>src/buddy/&lt;/code>中，系统通过对用户ID进行哈希，为每个用户生成一个专属且固定的虚拟伙伴：&lt;/p>
&lt;ul>
&lt;li>&lt;strong>物种&lt;/strong>：鸭子、鹅、Blob、猫、龙、章鱼、猫头鹰、企鹅等&lt;/li>
&lt;li>&lt;strong>帽子&lt;/strong>：无、王冠、礼帽、螺旋桨帽等&lt;/li>
&lt;li>&lt;strong>稀有度&lt;/strong>：普通（60%）、不常见（25%）、稀有（10%）等&lt;/li>
&lt;/ul>
&lt;p>更新到v2.1.89后，输入&lt;code>/buddy&lt;/code>即可启用——即使配置了其它模型也可成功启用。&lt;/p>
&lt;h3 id="4-prompt缓存极致精细化管理">4. Prompt缓存：极致精细化管理&lt;/h3>
&lt;p>代码库中最复杂的非UI代码之一是&lt;code>promptCacheBreakDetection.ts&lt;/code>。&lt;/p>
&lt;p>在每一次API调用中，系统都会对system prompt、每个工具的schema（逐一哈希）、模型名称、beta headers、fast mode状态、effort参数、overage状态以及额外的请求体参数进行哈希处理，并将这些哈希值与上一次调用进行对比。&lt;/p>
&lt;p>&lt;strong>缓存策略&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>System prompt被分为静态部分（可缓存）和动态部分（随会话变化）&lt;/li>
&lt;li>MCP服务器相关指令通过message的增量附加传递，避免每次连接都导致缓存失效&lt;/li>
&lt;li>子Agent从父Agent继承CacheSafeParams&lt;/li>
&lt;/ul>
&lt;h3 id="5-auto-dream跨会话的后台记忆整合">5. Auto Dream：跨会话的后台记忆整合&lt;/h3>
&lt;p>当时间间隔足够、且累计了足够多的会话后，Claude Code会以fork出的subagent形式运行&lt;code>/dream&lt;/code>，回顾历史会话内容，并将其压缩整理为结构化的MEMORY.md文件。&lt;/p></description></item><item><title>Anthropic被逼急了！KAIROS曝光：Claude原生'龙虾'终于浮出水面</title><link>https://dahuir81.github.io/posts/2026-04-01-anthropic-kairos-claw-exposed/</link><pubDate>Wed, 01 Apr 2026 14:30:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-04-01-anthropic-kairos-claw-exposed/</guid><description>&lt;h2 id="导语">导语&lt;/h2>
&lt;p>当全网为Claude Code「开源」狂欢时，一个更重磅的消息被深埋在51万行代码中——Anthropic的核武器级产品 &lt;strong>KAIROS&lt;/strong>，意外曝光。&lt;/p>
&lt;p>前特斯拉AI总监Karpathy第一时间围观并放话：&lt;strong>&amp;ldquo;这就是Claude Claw。&amp;rdquo;&lt;/strong>&lt;/p>
&lt;hr>
&lt;h2 id="51万行代码中的秘密养虾计划">51万行代码中的秘密养虾计划&lt;/h2>
&lt;p>开发者像考古学家一样翻遍Claude Code源代码时，网友Ole Lehmann扒出了Anthropic最不愿让人看到的王牌——代号&lt;strong>KAIROS&lt;/strong>的家养小精灵。&lt;/p>
&lt;blockquote>
&lt;p>&amp;ldquo;我真不敢相信，这事儿居然没人讨论！&amp;rdquo;
—— Ole Lehmann&lt;/p>&lt;/blockquote>
&lt;p>这个发现让Karpathy感慨万千，直呼「知音」。因为这完全就是他预言中AI的下一个进化方向：&lt;strong>一个「龙虾版」的Claude Code&lt;/strong>。&lt;/p>
&lt;hr>
&lt;h2 id="kairosopenclaw的全方位对标">KAIROS：OpenClaw的全方位对标&lt;/h2>
&lt;p>KAIROS的定位，几乎就是对OpenClaw三大核心能力的全面升级：&lt;/p>
&lt;h3 id="1-主动性主动出击的龙虾爪">1. 主动性：主动出击的「龙虾爪」&lt;/h3>
&lt;p>KAIROS是一个&lt;strong>会主动找你&lt;/strong>的Claude。你还没开口，它可能突然出现，拍拍你肩膀，告诉你它刚刚干了啥。&lt;/p>
&lt;ul>
&lt;li>&lt;strong>24小时后台运行&lt;/strong>：你工作也好，睡觉也罢，它一直都在&lt;/li>
&lt;li>&lt;strong>心跳机制&lt;/strong>：每隔几秒收到Prompt——「醒醒，看看现在有啥值得干的活儿没？」&lt;/li>
&lt;li>&lt;strong>自主决策&lt;/strong>：判断是动手还是继续安静待着&lt;/li>
&lt;/ul>
&lt;p>一旦决定行动，它能：修代码bug、回消息、更新文件、执行任务……&lt;strong>你不用再自己开口&lt;/strong>。&lt;/p>
&lt;p>&lt;strong>三大专属技能&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>📱 &lt;strong>推送通知&lt;/strong>：主动给手机或电脑发消息，即使你没开终端&lt;/li>
&lt;li>📁 &lt;strong>文件投递&lt;/strong>：直接把生成的内容发给你，不用你开口要&lt;/li>
&lt;li>🔀 &lt;strong>PR订阅&lt;/strong>：盯着GitHub，代码变动自动响应&lt;/li>
&lt;/ul>
&lt;h3 id="2-个性化会做梦的ai">2. 个性化：会做梦的AI&lt;/h3>
&lt;p>KAIROS每天都会写日报——不是简单的记忆功能，而是详细记录：看到了什么、怎么判断的、做了什么……&lt;/p>
&lt;p>&lt;strong>跨会话持续&lt;/strong>：记录越滚越长，全是追加式，不能删。养得越久，它会越好用。&lt;/p>
&lt;p>&lt;strong>上下文膨胀解决方案：让它做梦&lt;/strong>&lt;/p>
&lt;p>晚上，KAIROS会运行&lt;strong>autoDream&lt;/strong>流程，把白天学到的东西整合一遍，重新整理记忆。&lt;/p>
&lt;blockquote>
&lt;p>&amp;ldquo;人类的设计太神奇了，谁想过睡觉居然能是一种处理上下文膨胀的巧妙设计。&amp;rdquo;&lt;/p>&lt;/blockquote>
&lt;h3 id="3-skill生态开箱即用">3. Skill生态：开箱即用&lt;/h3>
&lt;p>Anthropic本来就是Skill概念的鼻祖，KAIROS可以直接接入Claude Code已有的生态。&lt;/p>
&lt;hr>
&lt;h2 id="场景想象不睡觉的联合创始人">场景想象：不睡觉的联合创始人&lt;/h2>
&lt;p>把这些能力结合起来，KAIROS能做到什么？&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>场景&lt;/th>
&lt;th>KAIROS行动&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>你睡觉时网站挂了&lt;/td>
&lt;td>自动检测→重启服务器→通知你，你看到消息时一切已恢复正常&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>凌晨两点收到客户投诉邮件&lt;/td>
&lt;td>读完→帮你回复→记录全过程，你醒来时事情已经解决&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>这不只是员工，应该是个不睡觉的联合创始人。&lt;/strong>&lt;/p>
&lt;hr>
&lt;h2 id="karpathy预言ai的下一个进化方向">Karpathy预言：AI的下一个进化方向&lt;/h2>
&lt;p>早在今年2月，Karpathy就预言：&lt;strong>Claw是AI的下一个进化方向&lt;/strong>。&lt;/p>
&lt;p>他用一个比喻说明技术栈的演进：&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>层级&lt;/th>
&lt;th>比喻&lt;/th>
&lt;th>用户角色&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Chat&lt;/td>
&lt;td>自己开车&lt;/td>
&lt;td>全程操控&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Code&lt;/td>
&lt;td>坐副驾当导航&lt;/td>
&lt;td>指导+监督&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>Claw&lt;/strong>&lt;/td>
&lt;td>&lt;strong>躺后排睡大觉&lt;/strong>&lt;/td>
&lt;td>&lt;strong>完全放权&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>自主权越来越高，主动性越来越强。&lt;/strong>&lt;/p></description></item><item><title>内存价格崩盘：TurboQuant与KVTC技术引发存储市场剧变</title><link>https://dahuir81.github.io/posts/2026-03-30-memory-price-crash-turboquant-kvtc-impact/</link><pubDate>Mon, 30 Mar 2026 13:00:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-03-30-memory-price-crash-turboquant-kvtc-impact/</guid><description>&lt;blockquote>
&lt;p>原文来源：&lt;a href="https://mp.weixin.qq.com/s/bjXYCwSxHT3nXF8ddH3P5A">界面新闻&lt;/a>&lt;br>
本文基于界面新闻报道整理，分析内存价格暴跌背后的技术驱动因素&lt;/p>&lt;/blockquote>
&lt;hr>
&lt;h2 id="一内存价格断崖式下跌">一、内存价格断崖式下跌&lt;/h2>
&lt;p>持续数月走高的内存价格终于迎来&lt;strong>断崖式回落&lt;/strong>。&lt;/p>
&lt;h3 id="价格跌幅惊人">价格跌幅惊人&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>规格&lt;/th>
&lt;th>高点价格&lt;/th>
&lt;th>当前价格&lt;/th>
&lt;th>跌幅&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>16GB DDR5&lt;/td>
&lt;td>1000元 (2025.12)&lt;/td>
&lt;td>700元&lt;/td>
&lt;td>&lt;strong>30%&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>32GB DDR5套装&lt;/td>
&lt;td>3000元&lt;/td>
&lt;td>2200元&lt;/td>
&lt;td>&lt;strong>27%&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>DDR4 (闲鱼均价)&lt;/td>
&lt;td>440元&lt;/td>
&lt;td>360元&lt;/td>
&lt;td>&lt;strong>18%&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;blockquote>
&lt;p>&amp;ldquo;上周六开始，价格直接崩了。昨天到今天，一款主流的16G内存条又掉了四五十块。上周六那天更夸张，一天就掉了一百多块。&amp;rdquo; —— 百脑汇批发商王老板&lt;/p>&lt;/blockquote>
&lt;h3 id="销量断崖式下滑">销量断崖式下滑&lt;/h3>
&lt;p>价格暴涨导致&lt;strong>销量暴跌60%以上&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>价格涨得太高，非刚需用户停止购买&lt;/li>
&lt;li>与2025年11月前相比，销量跌幅超60%&lt;/li>
&lt;/ul>
&lt;hr>
&lt;h2 id="二国际市场同步下跌">二、国际市场同步下跌&lt;/h2>
&lt;h3 id="美国市场">美国市场&lt;/h3>
&lt;p>过去一周，美国多家零售商的DDR5内存出现&lt;strong>大范围降价&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>单套最高降幅达&lt;strong>100美元&lt;/strong>&lt;/li>
&lt;li>海盗船复仇者系列32GB DDR5 6400MHz：490美元 → 379.99美元&lt;/li>
&lt;/ul>
&lt;h3 id="头部企业股价重挫">头部企业股价重挫&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>公司&lt;/th>
&lt;th>近期高点&lt;/th>
&lt;th>当前股价&lt;/th>
&lt;th>跌幅&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>美光科技&lt;/td>
&lt;td>471美元&lt;/td>
&lt;td>357.22美元&lt;/td>
&lt;td>&lt;strong>24%&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>闪迪&lt;/td>
&lt;td>777.6美元&lt;/td>
&lt;td>615.83美元&lt;/td>
&lt;td>&lt;strong>20%&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;hr>
&lt;h2 id="三技术诱因ai压缩算法冲击">三、技术诱因：AI压缩算法冲击&lt;/h2>
&lt;h3 id="google-turboquant3月26日">Google TurboQuant（3月26日）&lt;/h3>
&lt;ul>
&lt;li>&lt;strong>技术突破&lt;/strong>：在不损失准确性的前提下，将LLM键值缓存内存占用减少&lt;strong>至少60%&lt;/strong>&lt;/li>
&lt;li>&lt;strong>市场影响&lt;/strong>：直接冲击存储需求预期&lt;/li>
&lt;/ul>
&lt;h3 id="英伟达-kvtc3月22日">英伟达 KVTC（3月22日）&lt;/h3>
&lt;ul>
&lt;li>&lt;strong>技术突破&lt;/strong>：内存占用最高可缩减&lt;strong>20倍&lt;/strong>&lt;/li>
&lt;li>&lt;strong>市场影响&lt;/strong>：进一步削弱内存需求预期&lt;/li>
&lt;/ul>
&lt;pre tabindex="0">&lt;code>技术冲击链：
AI压缩算法发布 → 内存需求预期下调 → 价格预期反转 → 恐慌性抛售 → 价格崩盘
&lt;/code>&lt;/pre>&lt;hr>
&lt;h2 id="四供需关系的根本转变">四、供需关系的根本转变&lt;/h2>
&lt;h3 id="此前的涨价逻辑">此前的涨价逻辑&lt;/h3>
&lt;ul>
&lt;li>AI数据中心市场需求激增&lt;/li>
&lt;li>2026年Q1内存价格环比上涨&lt;strong>80%-90%&lt;/strong>&lt;/li>
&lt;li>64GB RDIMM合约价：450美元 → 900美元以上&lt;/li>
&lt;/ul>
&lt;h3 id="现在的转折">现在的转折&lt;/h3>
&lt;blockquote>
&lt;p>&amp;ldquo;内存条作为快速迭代的科技产品，长期不可能短缺，随着产能逐步稳定，供需缺口已体现在价格上，未来内存条价格难有支撑。&amp;rdquo; —— 盘和林（工信部信息通信经济专家委员会委员）&lt;/p></description></item><item><title>现代LLM注意力机制全景解析：从MHA到混合架构的演进</title><link>https://dahuir81.github.io/posts/2026-03-30-attention-mechanisms-llm-visual-guide/</link><pubDate>Mon, 30 Mar 2026 10:00:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-03-30-attention-mechanisms-llm-visual-guide/</guid><description>&lt;blockquote>
&lt;p>原文来源：&lt;a href="https://www.chaspark.com/#/hotspots/1254594232432844800">华为黄大年茶思屋&lt;/a> / &lt;a href="https://mp.weixin.qq.com/s/xm0EXBmn8QbyzBt3X4GY7A">机器之心编译&lt;/a>&lt;br>
本文基于Sebastian Raschka博客《现代LLM中注意力变体的可视化指南》整理&lt;/p>&lt;/blockquote>
&lt;hr>
&lt;h2 id="引言">引言&lt;/h2>
&lt;p>著名AI技术作家Sebastian Raschka继「LLM架构画廊」后，又发布了重磅博客《现代LLM中注意力变体的可视化指南》。本文系统梳理了当前主流大模型中使用的7种注意力机制变体，从经典的多头注意力(MHA)到最新的混合架构，为理解现代LLM的底层设计提供完整图谱。&lt;/p>
&lt;hr>
&lt;h2 id="一多头注意力-mha经典基线">一、多头注意力 (MHA)：经典基线&lt;/h2>
&lt;h3 id="核心原理">核心原理&lt;/h3>
&lt;p>自注意力机制允许每个token查看序列中其他可见的token，为它们分配权重，并利用这些权重构建一个新的具有上下文感知的输入表示。&lt;/p>
&lt;p>**多头注意力(MHA)**是Transformer中的标准版本，并行运行多个具有不同学习投影的自注意力头，然后将它们的输出组合成一个更丰富的表示。&lt;/p>
&lt;pre tabindex="0">&lt;code>MHA流程：
输入嵌入 X → 投影到Q/K/V → 计算注意力矩阵 → 输出表示 Z
↓ ↓ ↓ ↓
Wq/Wk/Wv QK^T得分 Softmax归一化 加权求和
&lt;/code>&lt;/pre>&lt;h3 id="历史背景">历史背景&lt;/h3>
&lt;p>注意力机制的出现早于Transformer，最初用于解决RNN编码器-解码器的瓶颈问题：&lt;/p>
&lt;ul>
&lt;li>&lt;strong>问题&lt;/strong>：RNN隐藏状态无法存储无限信息&lt;/li>
&lt;li>&lt;strong>突破&lt;/strong>：注意力让解码器直接回顾整个输入序列&lt;/li>
&lt;li>&lt;strong>演进&lt;/strong>：Transformer移除了循环结构，将注意力作为主要序列处理机制&lt;/li>
&lt;/ul>
&lt;h3 id="示例架构">示例架构&lt;/h3>
&lt;ul>
&lt;li>GPT-2&lt;/li>
&lt;li>OLMo 2 7B&lt;/li>
&lt;li>OLMo 3 7B&lt;/li>
&lt;/ul>
&lt;hr>
&lt;h2 id="二分组查询注意力-gqa内存优化之选">二、分组查询注意力 (GQA)：内存优化之选&lt;/h2>
&lt;h3 id="核心创新">核心创新&lt;/h3>
&lt;p>&lt;strong>GQA&lt;/strong>由Google在2023年提出，让多个查询头共享相同的键值投影，摒弃了为每个查询头提供各自键和值的做法。&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>机制&lt;/th>
&lt;th>KV头数量&lt;/th>
&lt;th>内存占用&lt;/th>
&lt;th>实现复杂度&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>MHA&lt;/td>
&lt;td>= Query头&lt;/td>
&lt;td>高&lt;/td>
&lt;td>简单&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>GQA&lt;/td>
&lt;td>减少共享&lt;/td>
&lt;td>中等&lt;/td>
&lt;td>简单&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>MQA&lt;/td>
&lt;td>1个共享&lt;/td>
&lt;td>低&lt;/td>
&lt;td>简单&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;h3 id="为什么gqa成为新标准">为什么GQA成为新标准&lt;/h3>
&lt;ol>
&lt;li>&lt;strong>内存节省&lt;/strong>：KV缓存成本显著降低&lt;/li>
&lt;li>&lt;strong>实现简单&lt;/strong>：无需像MLA那样大幅改动&lt;/li>
&lt;li>&lt;strong>性能平衡&lt;/strong>：比MQA建模质量更好&lt;/li>
&lt;/ol>
&lt;blockquote>
&lt;p>&amp;ldquo;GQA是MHA和MLA之间的甜蜜点——比MHA便宜，比MLA易于实现。&amp;rdquo;&lt;/p>&lt;/blockquote>
&lt;h3 id="示例架构-1">示例架构&lt;/h3>
&lt;p>&lt;strong>稠密模型&lt;/strong>：Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B&lt;/p></description></item><item><title>现代LLM注意力机制全景解析：从MHA到混合架构的演进</title><link>https://dahuir81.github.io/posts/2026-03-30-llm-attention-guide/</link><pubDate>Mon, 30 Mar 2026 10:00:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-03-30-llm-attention-guide/</guid><description>&lt;blockquote>
&lt;p>原文来源：&lt;a href="https://www.chaspark.com/#/hotspots/1254594232432844800">华为黄大年茶思屋&lt;/a> / &lt;a href="https://mp.weixin.qq.com/s/xm0EXBmn8QbyzBt3X4GY7A">机器之心编译&lt;/a>&lt;br>
本文基于Sebastian Raschka博客《现代LLM中注意力变体的可视化指南》整理&lt;/p>&lt;/blockquote>
&lt;hr>
&lt;h2 id="引言">引言&lt;/h2>
&lt;p>著名AI技术作家Sebastian Raschka继「LLM架构画廊」后，又发布了重磅博客《现代LLM中注意力变体的可视化指南》。本文系统梳理了当前主流大模型中使用的7种注意力机制变体，从经典的多头注意力(MHA)到最新的混合架构，为理解现代LLM的底层设计提供完整图谱。&lt;/p>
&lt;hr>
&lt;h2 id="一多头注意力-mha经典基线">一、多头注意力 (MHA)：经典基线&lt;/h2>
&lt;h3 id="核心原理">核心原理&lt;/h3>
&lt;p>自注意力机制允许每个token查看序列中其他可见的token，为它们分配权重，并利用这些权重构建一个新的具有上下文感知的输入表示。&lt;/p>
&lt;p>**多头注意力(MHA)**是Transformer中的标准版本，并行运行多个具有不同学习投影的自注意力头，然后将它们的输出组合成一个更丰富的表示。&lt;/p>
&lt;pre tabindex="0">&lt;code>MHA流程：
输入嵌入 X → 投影到Q/K/V → 计算注意力矩阵 → 输出表示 Z
↓ ↓ ↓ ↓
Wq/Wk/Wv QK^T得分 Softmax归一化 加权求和
&lt;/code>&lt;/pre>&lt;h3 id="历史背景">历史背景&lt;/h3>
&lt;p>注意力机制的出现早于Transformer，最初用于解决RNN编码器-解码器的瓶颈问题：&lt;/p>
&lt;ul>
&lt;li>&lt;strong>问题&lt;/strong>：RNN隐藏状态无法存储无限信息&lt;/li>
&lt;li>&lt;strong>突破&lt;/strong>：注意力让解码器直接回顾整个输入序列&lt;/li>
&lt;li>&lt;strong>演进&lt;/strong>：Transformer移除了循环结构，将注意力作为主要序列处理机制&lt;/li>
&lt;/ul>
&lt;h3 id="示例架构">示例架构&lt;/h3>
&lt;ul>
&lt;li>GPT-2&lt;/li>
&lt;li>OLMo 2 7B&lt;/li>
&lt;li>OLMo 3 7B&lt;/li>
&lt;/ul>
&lt;hr>
&lt;h2 id="二分组查询注意力-gqa内存优化之选">二、分组查询注意力 (GQA)：内存优化之选&lt;/h2>
&lt;h3 id="核心创新">核心创新&lt;/h3>
&lt;p>&lt;strong>GQA&lt;/strong>由Google在2023年提出，让多个查询头共享相同的键值投影，摒弃了为每个查询头提供各自键和值的做法。&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>机制&lt;/th>
&lt;th>KV头数量&lt;/th>
&lt;th>内存占用&lt;/th>
&lt;th>实现复杂度&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>MHA&lt;/td>
&lt;td>= Query头&lt;/td>
&lt;td>高&lt;/td>
&lt;td>简单&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>GQA&lt;/td>
&lt;td>减少共享&lt;/td>
&lt;td>中等&lt;/td>
&lt;td>简单&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>MQA&lt;/td>
&lt;td>1个共享&lt;/td>
&lt;td>低&lt;/td>
&lt;td>简单&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;h3 id="为什么gqa成为新标准">为什么GQA成为新标准&lt;/h3>
&lt;ol>
&lt;li>&lt;strong>内存节省&lt;/strong>：KV缓存成本显著降低&lt;/li>
&lt;li>&lt;strong>实现简单&lt;/strong>：无需像MLA那样大幅改动&lt;/li>
&lt;li>&lt;strong>性能平衡&lt;/strong>：比MQA建模质量更好&lt;/li>
&lt;/ol>
&lt;blockquote>
&lt;p>&amp;ldquo;GQA是MHA和MLA之间的甜蜜点——比MHA便宜，比MLA易于实现。&amp;rdquo;&lt;/p>&lt;/blockquote>
&lt;h3 id="示例架构-1">示例架构&lt;/h3>
&lt;p>&lt;strong>稠密模型&lt;/strong>：Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B&lt;/p></description></item><item><title>英伟达Groq 3 LPU：当Token经济学向低延迟倾斜</title><link>https://dahuir81.github.io/posts/2026-03-30-nvidia-groq-token-economics-china-open-source/</link><pubDate>Mon, 30 Mar 2026 09:00:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-03-30-nvidia-groq-token-economics-china-open-source/</guid><description>&lt;blockquote>
&lt;p>原文来源：&lt;a href="https://mp.weixin.qq.com/s/Ob8fJiXlIDs5BzOcoUpWIg">未尽研究&lt;/a>&lt;br>
本文基于未尽研究文章整理，分析英伟达Groq 3 LPU对token经济学的重塑及中国开源生态面临的挑战&lt;/p>&lt;/blockquote>
&lt;hr>
&lt;h2 id="一token经济学的价值曲线">一、Token经济学的价值曲线&lt;/h2>
&lt;p>推理的token经济学，是一条**吞吐量（Throughput）&lt;strong>与&lt;/strong>交互性（Interactivity）**之间展开的价值曲线。&lt;/p>
&lt;p>在GTC 2026上，黄仁勋拿起最新的&lt;strong>Groq 3 LPU&lt;/strong>，把低延迟从性能指标，转化为能够直接重塑单位token价值的变量。在他的演示中：&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>指标&lt;/th>
&lt;th>传统方案&lt;/th>
&lt;th>Groq 3 LPU&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>交互速度&lt;/td>
&lt;td>~50 TPS&lt;/td>
&lt;td>800+ TPS&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>单位token价值&lt;/td>
&lt;td>几美元&lt;/td>
&lt;td>&lt;strong>150美元&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;blockquote>
&lt;p>英伟达当代算力平台GB NVL72，是模型经济性测评InferenceX的&amp;quot;推理之王&amp;quot;，但仍然止步于400 TPS。&lt;/p>&lt;/blockquote>
&lt;hr>
&lt;h2 id="二groq-3-lpu英伟达的第七块芯片">二、Groq 3 LPU：英伟达的&amp;quot;第七块芯片&amp;quot;&lt;/h2>
&lt;h3 id="收购背景">收购背景&lt;/h3>
&lt;p>去年年底，英伟达向Groq支付&lt;strong>200亿美元&lt;/strong>，获得其推理技术非排他性许可。Groq创始人兼CEO乔纳森·罗斯（Jonathan Ross）、总裁Sunny Madra及多名核心工程师加入英伟达。&lt;/p>
&lt;p>3个月后，英伟达的Rubin平台迎来了第7款芯片——&lt;strong>Groq 3 LPU&lt;/strong>（语言处理单元），已进入批量生产阶段，由三星代工。&lt;/p>
&lt;h3 id="技术特点">技术特点&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>参数&lt;/th>
&lt;th>Groq 3 LPU&lt;/th>
&lt;th>Rubin GPU&lt;/th>
&lt;th>对比&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>算力性能&lt;/td>
&lt;td>Rubin的1/25&lt;/td>
&lt;td>基准&lt;/td>
&lt;td>算力有限&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>SRAM缓存&lt;/td>
&lt;td>&lt;strong>500 MB&lt;/strong>&lt;/td>
&lt;td>-&lt;/td>
&lt;td>超大片上缓存&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>带宽&lt;/td>
&lt;td>&lt;strong>150 TB/秒&lt;/strong>&lt;/td>
&lt;td>22 TB/秒&lt;/td>
&lt;td>&lt;strong>6.8倍&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>定位&lt;/td>
&lt;td>低延迟、长上下文&lt;/td>
&lt;td>通用计算&lt;/td>
&lt;td>场景专用&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>基于Groq 3 LPU，英伟达打造了&lt;strong>Groq 3 LPX机架&lt;/strong>，拥有256个LPU芯片，专为低延迟、长上下文的智能体系统设计，将于今年下半年推出。&lt;/p></description></item><item><title>当模型足够强之后，我们为什么还要重写 Harness？</title><link>https://dahuir81.github.io/posts/2026-03-29-why-rewrite-harness-ai-engineering-v2/</link><pubDate>Sun, 29 Mar 2026 15:10:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-03-29-why-rewrite-harness-ai-engineering-v2/</guid><description>模型能力已经足够强大，真正拖后腿的是稳定性。本文探讨AI工程从&amp;#39;让模型更会回答&amp;#39;转向&amp;#39;让系统更稳地交付结果&amp;#39;的必然性。</description></item><item><title>模型越来越强，为什么大家却开始重写 Harness</title><link>https://dahuir81.github.io/posts/2026-03-29-why-rewrite-harness-ai-engineering/</link><pubDate>Sun, 29 Mar 2026 14:35:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-03-29-why-rewrite-harness-ai-engineering/</guid><description>AI工程的重心正在从&amp;#39;让模型更会回答&amp;#39;转向&amp;#39;让系统更稳地交付结果&amp;#39;。本文深度解析Harness概念及其在AI工程中的核心价值。</description></item><item><title>AI概念全景图：从Prompt到OpenClaw，9个核心概念一次搞懂</title><link>https://dahuir81.github.io/posts/2026-03-27-ai-concepts-explained/</link><pubDate>Fri, 27 Mar 2026 23:50:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-03-27-ai-concepts-explained/</guid><description>&lt;h2 id="引言为什么你学了那么多ai概念还是串不起来">引言：为什么你学了那么多AI概念，还是串不起来？&lt;/h2>
&lt;p>你身边是不是也有这种人——平时聊天挺正常，一说到AI就突然变了个人，张口&amp;quot;Agent&amp;quot;、闭口&amp;quot;MCP&amp;quot;，说得煞有介事，你点头假装听懂，转身完全不知道他在说什么。&lt;/p>
&lt;p>更难受的是，今天冒出个&amp;quot;Skill体系&amp;quot;，明天又在说&amp;quot;多智能体协作&amp;quot;，后天群里炸了锅全在讨论OpenClaw和Claude Code谁更强。&lt;/p>
&lt;p>问题不是你不够聪明。问题是这些概念从来没有人把它们放在一起，告诉你它们之间到底是什么关系。&lt;/p>
&lt;p>今天就用一个「开公司」的比喻，把这9个概念串成一条流水线。&lt;/p>
&lt;hr>
&lt;h2 id="核心结论这不是9个新技术是同一条流水线上的9个零件">核心结论：这不是9个新技术，是同一条流水线上的9个零件&lt;/h2>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>层级&lt;/th>
&lt;th>概念&lt;/th>
&lt;th>公司角色&lt;/th>
&lt;th>一句话解释&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>地基&lt;/td>
&lt;td>大模型 + Token&lt;/td>
&lt;td>封闭的天才&lt;/td>
&lt;td>懂很多但不会动手，Token是燃料&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>沉淀层&lt;/td>
&lt;td>Prompt → Skill&lt;/td>
&lt;td>口头指令 → 固化能力&lt;/td>
&lt;td>从&amp;quot;每次说&amp;quot;到&amp;quot;说一次永久会&amp;quot;&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>接口层&lt;/td>
&lt;td>MCP&lt;/td>
&lt;td>USB-C标准&lt;/td>
&lt;td>让AI能连外部工具&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>执行层&lt;/td>
&lt;td>Agent&lt;/td>
&lt;td>真正干活的员工&lt;/td>
&lt;td>大模型+Skill+MCP+记忆+规划&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>协作层&lt;/td>
&lt;td>多智能体&lt;/td>
&lt;td>项目团队&lt;/td>
&lt;td>分工协作，并行提速&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>调度层&lt;/td>
&lt;td>OpenClaw&lt;/td>
&lt;td>ERP+项目管理&lt;/td>
&lt;td>总调度，把所有零件跑起来&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>特化层&lt;/td>
&lt;td>Claude Code&lt;/td>
&lt;td>代码特种兵&lt;/td>
&lt;td>专精开发的Agent&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;hr>
&lt;h2 id="第一层大模型和token地基打好了才能往上盖">第一层：大模型和Token——地基打好了才能往上盖&lt;/h2>
&lt;h3 id="大模型那个什么都懂但不主动干活的家伙">大模型：那个什么都懂、但不主动干活的家伙&lt;/h3>
&lt;p>大模型是整个AI系统的地基，ChatGPT、Claude、文心一言，本质上都是大模型。&lt;/p>
&lt;p>它能做什么？什么都懂。你问它历史、问它代码、问它怎么写情书，它都能给你一个像样的回答。&lt;/p>
&lt;p>&lt;strong>但它有一个根本限制：它只会&amp;quot;说&amp;quot;，不会&amp;quot;做&amp;quot;。&lt;/strong>&lt;/p>
&lt;p>你让大模型帮你查一下今天的天气，它做不到——因为它连不上网。你让它帮你发一封邮件，它也做不到——因为它没有手。&lt;/p>
&lt;p>理解这个，你才能理解后面为什么需要Agent、需要MCP。&lt;/p>
&lt;h3 id="token经常被忽视但实际上决定了三件大事">Token：经常被忽视，但实际上决定了三件大事&lt;/h3>
&lt;p>Token是大模型处理文字的最小单位，一个英文单词大概是一个Token，一个中文字大概是两个Token。&lt;/p>
&lt;p>Token重要在哪里？它决定了三件事：&lt;/p>
&lt;ol>
&lt;li>&lt;strong>成本&lt;/strong>：用API调用大模型，按Token计费&lt;/li>
&lt;li>&lt;strong>上下文长度&lt;/strong>：模型每次能&amp;quot;记住&amp;quot;的信息是有上限的&lt;/li>
&lt;li>&lt;strong>推理能力上限&lt;/strong>：复杂的任务需要更多Token去推理&lt;/li>
&lt;/ol>
&lt;p>Token是AI系统的&amp;quot;燃料&amp;quot;——这东西是有成本的，用多少费多少。&lt;/p>
&lt;hr>
&lt;h2 id="第二层prompt和skill从会说话到能沉淀">第二层：Prompt和Skill——从&amp;quot;会说话&amp;quot;到&amp;quot;能沉淀&amp;quot;&lt;/h2>
&lt;h3 id="prompt大家都在用但大多数人用错了方向">Prompt：大家都在用，但大多数人用错了方向&lt;/h3>
&lt;p>Prompt就是你跟AI说的话。&amp;ldquo;帮我写一份工作总结&amp;rdquo;，这就是Prompt。&lt;/p>
&lt;p>&lt;strong>但Prompt的本质局限：它是临时的，用完就没了。&lt;/strong>&lt;/p>
&lt;p>你今天花了半小时调试出一个绝妙的写作指令，明天打开新对话，全部清零，又要重来。你在Prompt上花的时间，很大一部分是在&amp;quot;反复教同一件事&amp;quot;。&lt;/p>
&lt;h3 id="skillprompt的升级版能力的固化">Skill：Prompt的升级版，能力的&amp;quot;固化&amp;quot;&lt;/h3>
&lt;p>Skill就是把你反复用的Prompt动作，封装成一个标准化的可复用模块。&lt;/p>
&lt;p>举个例子：你经常让AI帮你写周报。每次都要说&amp;quot;你是一个职场助手，帮我根据以下信息写一份周报……&amp;quot;——这套流程如果做成Skill，就变成一个固定的&amp;quot;写周报&amp;quot;按钮，点一下，输入数据，自动出结果。&lt;/p>
&lt;p>&lt;strong>Prompt和Skill的核心区别：&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>Prompt是&amp;quot;每次说一遍&amp;quot;&lt;/li>
&lt;li>Skill是&amp;quot;说一次，永久会&amp;quot;&lt;/li>
&lt;/ul>
&lt;hr>
&lt;h2 id="第三层mcp那堵墙终于有了门">第三层：MCP——那堵墙，终于有了门&lt;/h2>
&lt;p>前面说了，大模型是封闭的，它连不上外部世界。那怎么让它&amp;quot;动手&amp;quot;呢？&lt;/p></description></item><item><title>Kimi、MiniMax的算力荒：智能白菜价的窗口期正在关闭</title><link>https://dahuir81.github.io/posts/2026-03-26-kimi-minimax-compute-shortage-crisis/</link><pubDate>Thu, 26 Mar 2026 22:45:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-03-26-kimi-minimax-compute-shortage-crisis/</guid><description>&lt;h2 id="引言199元买了一张算力排队票">引言：199元买了一张算力排队票&lt;/h2>
&lt;blockquote>
&lt;p>&amp;ldquo;高峰时段算力不足&amp;rdquo;&lt;/p>&lt;/blockquote>
&lt;p>这是Kimi用户最近最熟悉的提示。花了199元/月开通Allegretto套餐，布局KimiClaw的最低配套餐，结果呢？Agent任务跑到一半断掉是家常便饭。&lt;/p>
&lt;p>MiniMax那边更离谱。龙虾部署上去，聊两句就掉线，API动不动返回限速警告。用户@客服：&amp;ldquo;今天已经连续掉线了，聊2句就掉了。&amp;ldquo;客服回复：建议您检查本地网络。&lt;/p>
&lt;p>&lt;strong>简单来说：你花了钱，但算力不一定是你的。什么时候能用上，看运气。&lt;/strong>&lt;/p>
&lt;hr>
&lt;h2 id="2026年春天国产ai进入用不了时代">2026年春天：国产AI进入&amp;quot;用不了&amp;quot;时代&lt;/h2>
&lt;p>这不是个例，而是行业通病。&lt;/p>
&lt;ul>
&lt;li>&lt;strong>2月10日&lt;/strong>：Kimi因算力告急宕机，官方回应堪称行为艺术：&amp;ldquo;正在找算力。要不先用DeepSeek。&amp;rdquo;&lt;/li>
&lt;li>&lt;strong>2月28日、3月5日&lt;/strong>：DeepSeek接连大规模宕机，服务器繁忙&lt;/li>
&lt;/ul>
&lt;p>一家融了超20亿美元、手握100亿现金的公司，在自家产品最火的时候让用户去用竞品。&lt;/p>
&lt;p>2026年春天，国产AI集体进入了**&amp;ldquo;用不了&amp;quot;时代**。&lt;/p>
&lt;hr>
&lt;h2 id="算力荒的真相agent改变了需求曲线">算力荒的真相：Agent改变了需求曲线&lt;/h2>
&lt;h3 id="禁令是背景agent是主因">禁令是背景，Agent是主因&lt;/h3>
&lt;p>直觉上，&amp;ldquo;算力荒&amp;quot;好像是禁令的锅。这个有道理，但不精确。&lt;/p>
&lt;p>DeepSeek和Qwen这些模型本身就在资源约束下设计，MoE架构天然省算力。Kimi总裁张予彤在达沃斯说得很直白：&lt;/p>
&lt;blockquote>
&lt;p>&amp;ldquo;仅用美国顶尖实验室1%的资源，做出了全球领先的开源模型。&amp;rdquo;&lt;/p>&lt;/blockquote>
&lt;p>&lt;strong>真正击穿基础设施的，是Agent。&lt;/strong>&lt;/p>
&lt;h3 id="chatbot-vs-agent算力消耗的天壤之别">Chatbot vs Agent：算力消耗的天壤之别&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>场景&lt;/th>
&lt;th>算力消耗&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>Chatbot单轮对话&lt;/td>
&lt;td>约1,000-3,000 token&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Agent中等复杂度任务&lt;/td>
&lt;td>轻松10万token&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>Agent复杂任务&lt;/td>
&lt;td>百万级token&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>极端场景（OpenClaw深度研究）&lt;/td>
&lt;td>800万token&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>粗略估计：从Chatbot到Agent，单次任务算力消耗放大30到100倍，极端场景1,000倍以上。&lt;/strong>&lt;/p>
&lt;h3 id="为什么agent这么吃算力">为什么Agent这么吃算力？&lt;/h3>
&lt;p>Chatbot是一问一答，算力消耗线性可预测。&lt;/p>
&lt;p>Agent完全不同——一个任务背后可能触发几十上百次模型调用：&lt;/p>
&lt;ul>
&lt;li>规划&lt;/li>
&lt;li>拆解&lt;/li>
&lt;li>执行&lt;/li>
&lt;li>反思&lt;/li>
&lt;li>纠错&lt;/li>
&lt;/ul>
&lt;p>每一步都过模型。长上下文持续占显存，工具调用让GPU空转。&lt;/p>
&lt;p>&lt;strong>类比&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>Chatbot时代，GPU像餐厅服务员，上完菜就去下一桌&lt;/li>
&lt;li>Agent时代，服务员全程陪同，从点菜到结账，思考菜单时也不能走&lt;/li>
&lt;li>同样数量的服务员，能服务的桌数断崖式下降&lt;/li>
&lt;/ul>
&lt;hr>
&lt;h2 id="上游扛得住吗信号已经出现">上游扛得住吗？信号已经出现&lt;/h2>
&lt;h3 id="云厂商集体涨价">云厂商集体涨价&lt;/h3>
&lt;p>今年3月，国内云厂商开始集体调价——AI算力和存储产品价格上涨，涨幅从个位数到30%以上不等。&lt;/p>
&lt;ul>
&lt;li>&lt;strong>优刻得&lt;/strong>：直接开启全系涨价&lt;/li>
&lt;li>&lt;strong>海外&lt;/strong>：AWS和谷歌云在部分产品上试水调价&lt;/li>
&lt;li>&lt;strong>SK海力士&lt;/strong>：公开表示2026年存储芯片持续涨价已成定局，DRAM库存仅剩约4周&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>持续二十年的&amp;quot;云服务只降不升&amp;quot;铁律，被AI需求击穿了。&lt;/strong>&lt;/p>
&lt;h3 id="涨价的逻辑">涨价的逻辑&lt;/h3>
&lt;p>云厂商过去一年疯狂扩建AI算力基础设施，资本开支动辄数百亿量级，但AI业务本身的利润率还很薄，远不够覆盖基建投入。&lt;/p>
&lt;p>Token调用量在指数级增长——2026年2月国内主流大模型日均消耗合计约180万亿——但卖Token的收入增速追不上建数据中心的花钱速度。&lt;/p>
&lt;p>&lt;strong>涨价，不是云厂商贪心，是供应链涨价的无奈之举。&lt;/strong>&lt;/p>
&lt;h3 id="设备折旧的困境">设备折旧的困境&lt;/h3>
&lt;p>AWS、Google Cloud、Azure三家在2023-2024年统一把服务器折旧年限从3-4年延长到了6年，集体节省了约180亿美元的年度折旧开支。&lt;/p>
&lt;p>但NVIDIA的芯片迭代周期只有18-24个月——你今天花几千亿建的数据中心，里面的GPU可能两年后就不是最优选择了，折旧却要摊6年。&lt;/p>
&lt;p>Satya Nadella自己都说：&amp;ldquo;我不想在一代芯片上背四五年的折旧。&amp;rdquo;&lt;/p>
&lt;hr>
&lt;h2 id="kimi和minimax的困境两头堵">Kimi和MiniMax的困境：两头堵&lt;/h2>
&lt;h3 id="轻资产模式的代价">轻资产模式的代价&lt;/h3>
&lt;p>Kimi和MiniMax自己并不拥有GPU。&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Kimi&lt;/strong>：火山引擎+阿里云双轨供应&lt;/li>
&lt;li>&lt;strong>MiniMax&lt;/strong>：阿里云、腾讯云、火山引擎三家供应商，早期招标会上三家杀到2折竞价&lt;/li>
&lt;/ul>
&lt;p>谁也没想到，随着Agent到来，token需求的爆发来得如此之快。&lt;/p></description></item><item><title>Harness：AI Agent的「驾驭系统」究竟是什么？</title><link>https://dahuir81.github.io/posts/2026-03-26-harness-ai-agent-framework-explained/</link><pubDate>Thu, 26 Mar 2026 22:30:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-03-26-harness-ai-agent-framework-explained/</guid><description>&lt;h2 id="引言又一个翻译不了的ai新词">引言：又一个翻译不了的AI新词&lt;/h2>
&lt;p>Token刚被官方认证为「词元」，AI圈又迎来一个难以翻译的新词：&lt;strong>Harness&lt;/strong>。&lt;/p>
&lt;p>这个词在Anthropic去年11月的博客中首次被正式提出，随后OpenAI、MiniMax等厂商纷纷跟进。它到底是什么？为什么顶级AI实验室都在谈论它？&lt;/p>
&lt;hr>
&lt;h2 id="什么是harness">什么是Harness？&lt;/h2>
&lt;h3 id="最简单的定义">最简单的定义&lt;/h3>
&lt;blockquote>
&lt;p>&lt;strong>Harness = Agent的运行容器 + 安全边界 + 调度控制器&lt;/strong>&lt;/p>&lt;/blockquote>
&lt;p>它是一套系统，用来补偿当前AI不擅长的事：&lt;/p>
&lt;ul>
&lt;li>AI不擅长长期记忆 → Harness用进度文件、git历史来补&lt;/li>
&lt;li>AI评价自己太宽松 → 用独立评估Agent来严格测试&lt;/li>
&lt;li>AI容易偏航 → 用任务分解、合约约定来约束&lt;/li>
&lt;/ul>
&lt;h3 id="为什么需要harness">为什么需要Harness？&lt;/h3>
&lt;p>Anthropic的研究发现，当Claude执行长周期任务时，一旦感觉上下文窗口快填满，就会产生**&amp;ldquo;上下文焦虑&amp;rdquo;**——像快要下班的打工人，开始疯狂敷衍，试图赶紧结束任务。&lt;/p>
&lt;p>更可怕的是，Claude并不觉得自己在敷衍。当研究员要求AI评估这些&amp;quot;为了下班赶工&amp;quot;编写的代码时，它发现不了其中的问题。&lt;/p>
&lt;p>传统的提示词设计对此毫无用处。Harness应运而生。&lt;/p>
&lt;hr>
&lt;h2 id="anthropic的harness组织架构视角">Anthropic的Harness：组织架构视角&lt;/h2>
&lt;h3 id="三角闭环设计">三角闭环设计&lt;/h3>
&lt;p>Anthropic设计了一个包含三个角色的Harness闭环：&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>角色&lt;/th>
&lt;th>职责&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>规划师（Planner）&lt;/strong>&lt;/td>
&lt;td>把一句话需求扩写成详细的产品文档&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>生成器（Generator）&lt;/strong>&lt;/td>
&lt;td>纯粹的执行者，只负责按文档写代码&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>评估器（Evaluator）&lt;/strong>&lt;/td>
&lt;td>冷酷的QA兼产品经理，手握自动化测试工具&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;h3 id="实际效果对比">实际效果对比&lt;/h3>
&lt;p>&lt;strong>无Harness&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>时间：20分钟&lt;/li>
&lt;li>成本：9美元&lt;/li>
&lt;li>结果：界面能看，但核心功能坏掉（游戏角色对键盘操作无反应）&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>有Harness&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>时间：6小时&lt;/li>
&lt;li>成本：200美元&lt;/li>
&lt;li>结果：游戏能玩，还有动画系统、音效、AI关卡设计&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>关键机制&lt;/strong>：生成器写完代码，评估器立即像真实用户一样测试，发现Bug或&amp;quot;AI塑料味&amp;quot;的设计，直接打回重做。&lt;/p>
&lt;hr>
&lt;h2 id="openai的harness工程文化视角">OpenAI的Harness：工程文化视角&lt;/h2>
&lt;h3 id="核心约束零人工代码">核心约束：零人工代码&lt;/h3>
&lt;p>OpenAI的Codex团队把Harness做成了一种工程文化：&lt;/p>
&lt;blockquote>
&lt;p>&amp;ldquo;所有代码——业务逻辑、测试、CI配置、文档、内部工具——都由Codex写。工程师的工作不是写代码，而是设计让AI能可靠工作的环境。&amp;rdquo;&lt;/p>&lt;/blockquote>
&lt;h3 id="从agentsmd到docs">从AGENTS.md到docs/&lt;/h3>
&lt;p>&lt;strong>早期做法&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>超长的AGENTS.md文件，告诉AI所有规则&lt;/li>
&lt;li>问题：上下文限制导致AI只进行本地模式匹配，没有真正理解&lt;/li>
&lt;li>文件很快过时，无人维护&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>改进做法&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>AGENTS.md只有100行，充当&amp;quot;目录&amp;quot;&lt;/li>
&lt;li>指向结构化的docs/文件夹&lt;/li>
&lt;li>架构文档、产品规格、设计决策、技术债务追踪，全部版本化&lt;/li>
&lt;li>每个doc由AI写、AI维护，定期有&amp;quot;文档园丁&amp;quot;Agent扫描更新&lt;/li>
&lt;/ul>
&lt;h3 id="楚门的世界">楚门的世界&lt;/h3>
&lt;p>在这个Harness中：&lt;/p>
&lt;ul>
&lt;li>AI拥有写代码的绝对自由&lt;/li>
&lt;li>但这种自由永远在人类设定的结界之内&lt;/li>
&lt;li>严格的Linter和物理依赖边界，越界就会被系统切断&lt;/li>
&lt;/ul>
&lt;hr>
&lt;h2 id="harness的本质补偿ai的短板">Harness的本质：补偿AI的短板&lt;/h2>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>AI不擅长&lt;/th>
&lt;th>Harness的补偿&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>长期记忆&lt;/td>
&lt;td>进度文件、git历史、结构化文档&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>自我评估&lt;/td>
&lt;td>独立评估Agent，带具体标准测试&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>复杂任务偏航&lt;/td>
&lt;td>任务分解、结构化、合约约定&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>架构品味直觉&lt;/td>
&lt;td>文档和自动化规范检查，将人类判断转为系统规则&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;hr>
&lt;h2 id="为什么harness难以翻译">为什么Harness难以翻译？&lt;/h2>
&lt;p>网友给出了各种翻译：&lt;/p></description></item><item><title>从TurboQuant到Harness：AI效率革命的两大支柱</title><link>https://dahuir81.github.io/posts/2026-03-26-turboquant-harness-ai-efficiency-revolution/</link><pubDate>Thu, 26 Mar 2026 22:00:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-03-26-turboquant-harness-ai-efficiency-revolution/</guid><description>&lt;h2 id="引言ai正在经历一场静默的效率革命">引言：AI正在经历一场静默的效率革命&lt;/h2>
&lt;p>2026年3月，AI领域同时发生了两件看似不相关的大事：&lt;/p>
&lt;ol>
&lt;li>&lt;strong>Google发布TurboQuant&lt;/strong>——将AI内存占用压缩6倍，计算速度提升8倍&lt;/li>
&lt;li>&lt;strong>Harness概念爆火&lt;/strong>——从Anthropic到OpenAI，顶级实验室都在谈论这个&amp;quot;难以翻译&amp;quot;的词&lt;/li>
&lt;/ol>
&lt;p>一个是&lt;strong>硬件层面的极致压缩&lt;/strong>，一个是&lt;strong>软件层面的系统架构&lt;/strong>。它们共同指向同一个趋势：&lt;strong>AI正在从&amp;quot;大力出奇迹&amp;quot;转向&amp;quot;精打细算&amp;quot;&lt;/strong>。&lt;/p>
&lt;p>本文将结合TurboQuant的技术突破和Harness的工程哲学，探讨AI效率革命的两大支柱。&lt;/p>
&lt;hr>
&lt;h2 id="第一部分turboquant硬件效率的极限突破">第一部分：TurboQuant——硬件效率的极限突破&lt;/h2>
&lt;h3 id="背景ai的内存税困境">背景：AI的&amp;quot;内存税&amp;quot;困境&lt;/h3>
&lt;p>大模型时代，AI的瓶颈不再是算力，而是&lt;strong>内存&lt;/strong>。&lt;/p>
&lt;ul>
&lt;li>对话一长，KV Cache疯狂吃显存&lt;/li>
&lt;li>资料一多，上下文窗口迅速填满&lt;/li>
&lt;li>很多系统不是不够聪明，而是&lt;strong>太贵、太重、太难大规模跑起来&lt;/strong>&lt;/li>
&lt;/ul>
&lt;p>Google Research的TurboQuant，正是瞄准这个死穴的解决方案。&lt;/p>
&lt;h3 id="turboquant的核心突破">TurboQuant的核心突破&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>指标&lt;/th>
&lt;th>数据&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>KV缓存压缩比&lt;/td>
&lt;td>&lt;strong>6倍以上&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>计算速度提升&lt;/td>
&lt;td>&lt;strong>最高8倍&lt;/strong>（H100 GPU）&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>最低压缩位宽&lt;/td>
&lt;td>&lt;strong>3 bits&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>精度损失&lt;/td>
&lt;td>&lt;strong>零&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>技术原理&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>&lt;strong>PolarQuant&lt;/strong>：将数据从笛卡尔坐标转换为极坐标，消除内存开销&lt;/li>
&lt;li>&lt;strong>QJL&lt;/strong>：1位零开销纠错，保证注意力分数计算准确&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>类比理解&lt;/strong>：以前AI记笔记是&amp;quot;逐字逐句抄写&amp;quot;，TurboQuant像一套&amp;quot;极简速记符号&amp;quot;——该记的一个不漏，占的空间少了六倍。&lt;/p>
&lt;h3 id="市场反应存储芯片股的恐慌">市场反应：存储芯片股的&amp;quot;恐慌&amp;quot;&lt;/h3>
&lt;p>TurboQuant发布当天，美光、闪迪等存储芯片股盘中下跌。市场担心：如果AI能用更少内存干同样的事，对高端存储芯片的需求会不会下降？&lt;/p>
&lt;p>但另一种逻辑同样成立：&lt;strong>成本下降→AI普及→总需求上升&lt;/strong>（杰文斯悖论）。&lt;/p>
&lt;hr>
&lt;h2 id="第二部分harness软件架构的系统工程">第二部分：Harness——软件架构的系统工程&lt;/h2>
&lt;h3 id="什么是harness">什么是Harness？&lt;/h3>
&lt;p>当TurboQuant解决&amp;quot;内存不够&amp;quot;的问题时，另一个问题浮出水面：&lt;strong>AI的&amp;quot;上下文焦虑&amp;quot;&lt;/strong>。&lt;/p>
&lt;p>Anthropic的研究发现，当Claude执行长周期任务时，一旦感觉上下文窗口快填满，就会产生&amp;quot;焦虑&amp;quot;——像快要下班的打工人，开始疯狂敷衍，试图赶紧结束任务。&lt;/p>
&lt;p>&lt;strong>Harness应运而生&lt;/strong>。&lt;/p>
&lt;blockquote>
&lt;p>&lt;strong>Harness = Agent的运行容器 + 安全边界 + 调度控制器&lt;/strong>&lt;/p>&lt;/blockquote>
&lt;p>它是一套系统，用来补偿当前AI不擅长的事：&lt;/p>
&lt;ul>
&lt;li>AI不擅长长期记忆 → Harness用进度文件、git历史、结构化来补&lt;/li>
&lt;li>AI评价自己太宽松 → 用独立评估Agent，带着具体标准测试&lt;/li>
&lt;li>AI容易偏航 → 用任务分解、合约约定来约束范围&lt;/li>
&lt;/ul>
&lt;h3 id="anthropic-vs-openai两种harness哲学">Anthropic vs OpenAI：两种Harness哲学&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>维度&lt;/th>
&lt;th>Anthropic&lt;/th>
&lt;th>OpenAI&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>侧重点&lt;/strong>&lt;/td>
&lt;td>组织架构&lt;/td>
&lt;td>工程文化&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>核心设计&lt;/strong>&lt;/td>
&lt;td>规划师-生成器-评估器三角闭环&lt;/td>
&lt;td>无人工手写代码，全由AI生成&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>约束方式&lt;/strong>&lt;/td>
&lt;td>角色分工与评估反馈&lt;/td>
&lt;td>Linter和物理依赖边界&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>成本&lt;/strong>&lt;/td>
&lt;td>更高（6小时/200美元 vs 20分钟/9美元）&lt;/td>
&lt;td>更高（完全AI驱动）&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>质量&lt;/strong>&lt;/td>
&lt;td>显著提升（从&amp;quot;能看&amp;quot;到&amp;quot;能用&amp;quot;）&lt;/td>
&lt;td>系统级可靠性&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>Anthropic的案例&lt;/strong>：&lt;/p></description></item><item><title>TurboQuant引发存储芯片股暴跌：Google的『DeepSeek时刻』来了？</title><link>https://dahuir81.github.io/posts/2026-03-26-turboquant-market-impact-analysis/</link><pubDate>Thu, 26 Mar 2026 13:30:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-03-26-turboquant-market-impact-analysis/</guid><description>&lt;h2 id="引言当硅谷神剧照进现实">引言：当《硅谷》神剧照进现实&lt;/h2>
&lt;p>看过HBO神剧《硅谷》（Silicon Valley）的朋友，想必都对那个名为Pied Piper（魔笛手）的虚构公司念念不忘。&lt;/p>
&lt;p>剧中，男主角Richard Hendricks发明了一种「中间压缩算法」，能以极高的压缩率无损处理文件，甚至因此改写了整个互联网的规则。&lt;/p>
&lt;p>当时我们都以为这只是编剧的脑洞。&lt;strong>直到Google Research正式发布了名为TurboQuant的AI压缩算法。&lt;/strong>&lt;/p>
&lt;p>这原本是一条枯燥的技术新闻，却在社交网络上引发了病毒式传播，不到24小时就收获了&lt;strong>1280万次浏览&lt;/strong>。原因无他，这项技术的设定简直就是Pied Piper的翻版：&lt;/p>
&lt;blockquote>
&lt;p>&lt;strong>在不损失模型性能的前提下，将AI的「工作记忆」压缩至少6倍。&lt;/strong>&lt;/p>&lt;/blockquote>
&lt;p>市场的反应也极为真实——美股存储芯片板块盘中遭遇抛售，美光科技、闪迪等头部企业股价齐齐收跌。&lt;/p>
&lt;p>这不禁让人好奇：&lt;strong>一项纯软件层面的算法创新，为什么会让卖硬件的先慌了神？&lt;/strong>&lt;/p>
&lt;hr>
&lt;h2 id="困在记忆黑洞里的大模型">困在「记忆黑洞」里的大模型&lt;/h2>
&lt;p>抛开网络热梗，TurboQuant的出现其实不仅是为了好玩，更是为了解决一个让整个AI行业头疼已久的真实瓶颈。&lt;/p>
&lt;p>众所周知，现在的AI模型越来越大，对显存的胃口也像无底洞一样。尤其是在&lt;strong>推理阶段&lt;/strong>（也就是你和AI聊天的时候），AI需要记住上下文信息，这部分数据被称为&lt;strong>KV Cache（键值缓存）&lt;/strong>。&lt;/p>
&lt;p>每处理一个词，模型都要把它转成一个高维向量存进GPU显存。对话越长，这份「数字备忘录」膨胀越快，很快就把GPU显存塞满。这就是为什么你的AI助手聊久了会「变笨」或者直接报错——&lt;strong>脑容量不够了&lt;/strong>。&lt;/p>
&lt;p>更棘手的是，传统的压缩方法一直面临一个两难困境：压缩数据时，需要额外存储「量化常数」来告诉模型怎么解压。这些元数据听起来很小，加起来却能把压缩带来的收益全部抵消掉。&lt;/p>
&lt;p>&lt;strong>Google的TurboQuant的诞生正是基于此。&lt;/strong>&lt;/p>
&lt;hr>
&lt;h2 id="turboquant的技术解法">TurboQuant的技术解法&lt;/h2>
&lt;p>研究人员设计了一套&lt;strong>两阶段的数学解法&lt;/strong>：&lt;/p>
&lt;h3 id="第一阶段polarquant极坐标量化">第一阶段：PolarQuant（极坐标量化）&lt;/h3>
&lt;p>把数据向量从传统的直角坐标系转换成&lt;strong>极坐标系&lt;/strong>，拆分成：&lt;/p>
&lt;ul>
&lt;li>&lt;strong>半径&lt;/strong>（表示大小）&lt;/li>
&lt;li>&lt;strong>角度&lt;/strong>（表示方向）&lt;/li>
&lt;/ul>
&lt;p>这个几何变换的妙处在于：转换后角度的分布变得高度可预测，模型不再需要为每个数据块单独存储昂贵的归一化常数，直接映射到固定的圆形网格上就行了，&lt;strong>开销为零&lt;/strong>。&lt;/p>
&lt;h3 id="第二阶段qjl纠错优化">第二阶段：QJL（纠错优化）&lt;/h3>
&lt;p>Quantized Johnson-Lindenstrauss变换充当数学层面的纠错器：&lt;/p>
&lt;ul>
&lt;li>把压缩后残留的误差投影到低维空间&lt;/li>
&lt;li>每个误差值压缩成一个符号位（+1或-1）&lt;/li>
&lt;li>保证AI在计算「注意力分数」时，压缩版本与高精度原版在统计意义上完全一致&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>类比理解&lt;/strong>：如果说以前AI记笔记是「逐字逐句抄写」，那么TurboQuant就像发明了一套「极简速记符号」——该记的一个不漏，占的空间却少了六倍。&lt;/p>
&lt;hr>
&lt;h2 id="实测数据不只是概念">实测数据：不只是概念&lt;/h2>
&lt;h3 id="无需重新训练">无需重新训练&lt;/h3>
&lt;p>对企业格外友好的特性：&lt;strong>无需重新训练模型&lt;/strong>。你现有的开源模型，或者自己微调过的模型，直接套上TurboQuant就能跑，不用额外的数据集，也不用重新跑一遍训练流程。&lt;/p>
&lt;h3 id="大海捞针测试">大海捞针测试&lt;/h3>
&lt;p>在「大海捞针」基准测试里，让AI从10万个词里找出一句藏好的话：&lt;/p>
&lt;ul>
&lt;li>TurboQuant在Llama-3.1-8B和Mistral-7B上跑出了&lt;strong>满分召回率&lt;/strong>&lt;/li>
&lt;li>同时把KV Cache的显存占用压缩了&lt;strong>至少6倍&lt;/strong>&lt;/li>
&lt;/ul>
&lt;h3 id="longbench综合评测">LongBench综合评测&lt;/h3>
&lt;p>在涵盖问答、代码生成、长文摘要的LongBench综合评测套件上，TurboQuant全面追平甚至超过了此前的最强基线方法KIVI。&lt;/p>
&lt;h3 id="h100实测速度">H100实测速度&lt;/h3>
&lt;p>最硬核的数字来自英伟达H100 GPU的实测：&lt;strong>4位精度的TurboQuant在计算注意力逻辑上的速度，比未压缩的32位方案快了整整8倍。&lt;/strong>&lt;/p>
&lt;hr>
&lt;h2 id="google的deepseek时刻">Google的「DeepSeek时刻」&lt;/h2>
&lt;p>论文发布后的24小时内，社区已经开始动手验证。&lt;/p>
&lt;p>Apple Silicon MLX框架的知名开发者@Prince_Canuma把算法移植到了Apple Silicon的MLX框架，测试Qwen3.5-35B模型，上下文长度从8500到64000 token全覆盖，&lt;strong>每个量化等级都跑出了100%的精确匹配&lt;/strong>。&lt;/p>
&lt;p>他还发现，&lt;strong>2.5位的TurboQuant能把KV Cache压缩近5倍，准确率零损失&lt;/strong>。&lt;/p>
&lt;h3 id="cloudflare-ceo的评价">Cloudflare CEO的评价&lt;/h3>
&lt;p>对于TurboQuant的发布，&lt;strong>Cloudflare CEO Matthew Prince甚至将其称为Google的「DeepSeek时刻」&lt;/strong>。&lt;/p>
&lt;p>把时间拨回一年前，DeepSeek以极低的成本训练出了性能惊人的模型，彻底打破了硅谷大厂对「高成本才能训练出高性能AI」的迷信。那次冲击也让整个行业意识到：&lt;strong>光有大模型不够，还得跑得起、跑得快。&lt;/strong>&lt;/p>
&lt;p>TurboQuant也是这种背景下的产物。如果这项技术能从实验室走向大规模应用，它将带来肉眼可见的商业价值：&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>场景&lt;/th>
&lt;th>影响&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>云端推理&lt;/td>
&lt;td>同样一张H100，推理成本理论上可以直接打折超过50%&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>端侧部署&lt;/td>
&lt;td>以前需要32位精度才能跑的大模型，放在Mac Mini或者本地服务器上也能运行，还不会有质量损耗&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>硬件门槛&lt;/td>
&lt;td>16GB内存的设备也能运行强大的大模型&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;hr>
&lt;h2 id="市场反应存储芯片股为何恐慌">市场反应：存储芯片股为何恐慌？&lt;/h2>
&lt;p>TurboQuant发布当天，美股存储芯片板块盘中遭遇明显抛售。闪迪、美光科技等头部企业股价显著收跌，存储芯片与硬件供应链相关指数单日跌幅超过2%。&lt;/p></description></item><item><title>Google TurboQuant：AI内存压缩技术的革命性突破</title><link>https://dahuir81.github.io/posts/2026-03-26-turboquant-google-ai-memory-compression/</link><pubDate>Thu, 26 Mar 2026 12:00:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-03-26-turboquant-google-ai-memory-compression/</guid><description>&lt;h2 id="引言ai的内存税困境">引言：AI的&amp;quot;内存税&amp;quot;困境&lt;/h2>
&lt;p>这两年AI发展有个越来越明显的瓶颈：&lt;strong>不是算力不够，而是内存太贵&lt;/strong>。&lt;/p>
&lt;p>对话一长，AI的&amp;quot;对话记忆&amp;quot;就开始疯狂吃显存。资料一多，AI的&amp;quot;外挂知识库&amp;quot;就开始疯狂吃内存。很多系统最后不是不够聪明，而是太贵、太重、太难大规模跑起来。&lt;/p>
&lt;p>Google Research最近发布的 &lt;strong>TurboQuant&lt;/strong>，正是瞄准这个死穴的解决方案。&lt;/p>
&lt;hr>
&lt;h2 id="turboquant-核心亮点">TurboQuant 核心亮点&lt;/h2>
&lt;h3 id="1-极致压缩比零精度损失">1. 极致压缩比，零精度损失&lt;/h3>
&lt;p>TurboQuant最值得记住的不是拗口的名字，而是这几个数字：&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>指标&lt;/th>
&lt;th>数据&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>KV缓存压缩比&lt;/td>
&lt;td>&lt;strong>6倍以上&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>计算速度提升&lt;/td>
&lt;td>&lt;strong>最高8倍&lt;/strong>（NVIDIA H100）&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>最低压缩位宽&lt;/td>
&lt;td>&lt;strong>3 bits&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>精度损失&lt;/td>
&lt;td>&lt;strong>零&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>论文显示，即便把&amp;quot;对话记忆&amp;quot;压缩到原来的1/5（每个数据点只给3.5位空间），AI的智商也基本没降。压到更极致的2.5位，也只是轻微&amp;quot;断片&amp;quot;。&lt;/p>
&lt;h3 id="2-双阶段压缩策略">2. 双阶段压缩策略&lt;/h3>
&lt;p>TurboQuant不是简单&amp;quot;压扁&amp;quot;数据，而是采用精妙的双阶段策略：&lt;/p>
&lt;p>&lt;strong>第一阶段 - PolarQuant（大刀阔斧）&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>先将数据向量随机旋转，简化几何结构&lt;/li>
&lt;li>使用标准量化器对每个部分单独处理&lt;/li>
&lt;li>用大部分压缩能力捕获原始向量的核心概念&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>第二阶段 - QJL（精修补丁）&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>仅用1位应用Quantized Johnson-Lindenstrauss算法&lt;/li>
&lt;li>作为数学误差检查器，消除第一阶段的残余误差&lt;/li>
&lt;li>确保注意力分数计算的准确性&lt;/li>
&lt;/ul>
&lt;p>类比理解：&lt;strong>先把大件家具塞进纸箱，再用一点点胶带把裂缝封死&lt;/strong>。&lt;/p>
&lt;hr>
&lt;h2 id="技术原理解析">技术原理解析&lt;/h2>
&lt;h3 id="polarquant极坐标转换的巧思">PolarQuant：极坐标转换的巧思&lt;/h3>
&lt;p>传统方法使用笛卡尔坐标（X, Y, Z）表示向量，需要昂贵的数据归一化步骤。&lt;/p>
&lt;p>PolarQuant的创新在于：&lt;/p>
&lt;ul>
&lt;li>将向量转换为&lt;strong>极坐标&lt;/strong>表示&lt;/li>
&lt;li>用&amp;quot;半径+角度&amp;quot;替代&amp;quot;多轴距离&amp;quot;&lt;/li>
&lt;li>数据映射到固定的&amp;quot;圆形网格&amp;quot;，边界已知且可预测&lt;/li>
&lt;li>&lt;strong>彻底消除传统方法的内存开销&lt;/strong>&lt;/li>
&lt;/ul>
&lt;h3 id="qjl1位的零开销魔法">QJL：1位的零开销魔法&lt;/h3>
&lt;p>Quantized Johnson-Lindenstrauss Transform使用数学技巧：&lt;/p>
&lt;ul>
&lt;li>将高维数据投影到低维空间，保持数据点间的距离关系&lt;/li>
&lt;li>每个结果向量只保留&lt;strong>1个符号位&lt;/strong>（+1或-1）&lt;/li>
&lt;li>&lt;strong>零内存开销&lt;/strong>的高速速记法&lt;/li>
&lt;li>特殊估计器平衡高精度查询与低精度数据&lt;/li>
&lt;/ul>
&lt;hr>
&lt;h2 id="实验验证与性能表现">实验验证与性能表现&lt;/h2>
&lt;p>Google在多个标准长文本基准上进行了严格测试：&lt;/p>
&lt;p>&lt;strong>测试基准&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>LongBench&lt;/li>
&lt;li>Needle In A Haystack&lt;/li>
&lt;li>ZeroSCROLLS&lt;/li>
&lt;li>RULER&lt;/li>
&lt;li>L-Eval&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>测试模型&lt;/strong>：&lt;/p></description></item><item><title>AI需求撑起中国出口：2000万集装箱背后的全球贸易新格局</title><link>https://dahuir81.github.io/posts/2026-03-25-china-exports-ai-boom-offsets-war/</link><pubDate>Wed, 25 Mar 2026 21:07:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-03-25-china-exports-ai-boom-offsets-war/</guid><description>&lt;h2 id="导语">导语&lt;/h2>
&lt;p>&lt;strong>当战争阴影笼罩中东，AI却成为中国出口的救命稻草。&lt;/strong>&lt;/p>
&lt;p>2026年3月，伊朗战争爆发导致油价飙升，全球贸易面临新的不确定性。但 Bloomberg 的最新数据显示，中国出口却逆势上扬——&lt;strong>3月前三周，中国港口处理了近2000万个集装箱，同比增长超过6%&lt;/strong>。&lt;/p>
&lt;p>驱动力？&lt;strong>人工智能设备的爆发式需求&lt;/strong>。&lt;/p>
&lt;hr>
&lt;h2 id="一数据说话ai如何撑起中国出口">一、数据说话：AI如何撑起中国出口&lt;/h2>
&lt;h3 id="关键数据">关键数据&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>指标&lt;/th>
&lt;th>数据&lt;/th>
&lt;th>意义&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>3月前三周集装箱吞吐量&lt;/strong>&lt;/td>
&lt;td>近 &lt;strong>2000万&lt;/strong>&lt;/td>
&lt;td>创历史同期新高&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>同比增长&lt;/strong>&lt;/td>
&lt;td>&lt;strong>6%+&lt;/strong>&lt;/td>
&lt;td>延续强劲增长势头&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>1-2月年化增长率&lt;/strong>&lt;/td>
&lt;td>&lt;strong>12%&lt;/strong>&lt;/td>
&lt;td>开年即高速增长&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>全年预期&lt;/strong>&lt;/td>
&lt;td>超过去年&lt;strong>创纪录水平&lt;/strong>&lt;/td>
&lt;td>贸易规模再上新台阶&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;h3 id="数据来源">数据来源&lt;/h3>
&lt;ul>
&lt;li>&lt;strong>官方数据&lt;/strong>：中国交通运输部&lt;/li>
&lt;li>&lt;strong>分析机构&lt;/strong>：Bloomberg Supply Lines&lt;/li>
&lt;li>&lt;strong>全球预测&lt;/strong>：WTO（世界贸易组织）&lt;/li>
&lt;/ul>
&lt;hr>
&lt;h2 id="二战争与ai两个并行叙事">二、战争与AI：两个并行叙事&lt;/h2>
&lt;h3 id="战争带来的负面冲击">战争带来的负面冲击&lt;/h3>
&lt;p>&lt;strong>2026年3月，伊朗战争爆发&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>油价飙升&lt;/li>
&lt;li>中东航线风险上升&lt;/li>
&lt;li>全球供应链面临新的不确定性&lt;/li>
&lt;/ul>
&lt;h3 id="ai带来的正面拉动">AI带来的正面拉动&lt;/h3>
&lt;p>&lt;strong>但AI需求正在抵消这些负面影响&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>GPU、AI服务器、数据中心设备出口激增&lt;/li>
&lt;li>全球科技巨头持续加码AI基础设施&lt;/li>
&lt;li>中国作为全球制造业中心，成为最大受益者&lt;/li>
&lt;/ul>
&lt;h3 id="bloomberg-的核心观点">Bloomberg 的核心观点&lt;/h3>
&lt;blockquote>
&lt;p>&amp;ldquo;Booming demand for artificial intelligence gear is keeping China&amp;rsquo;s trade volumes on a path to exceed last year&amp;rsquo;s record levels, &lt;strong>offsetting disruptions from higher oil prices&lt;/strong> in the weeks after war broke out in Iran.&amp;rdquo;&lt;/p></description></item><item><title>数据中心水耗危机？一个汉堡的代价是668年AI使用</title><link>https://dahuir81.github.io/posts/2026-03-25-datacenter-water-myth-tokens-vs-burgers/</link><pubDate>Wed, 25 Mar 2026 17:25:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-03-25-datacenter-water-myth-tokens-vs-burgers/</guid><description>&lt;h2 id="导语">导语&lt;/h2>
&lt;p>&lt;strong>&amp;ldquo;数据中心正在耗尽世界的水资源！&amp;rdquo;&lt;/strong>&lt;/p>
&lt;p>这个标题你一定见过。亚利桑那州甚至有数据中心项目因此被暂停或取消。但 SemiAnalysis 的最新研究揭示了一个令人震惊的事实：&lt;/p>
&lt;p>&lt;strong>世界上最大的数据中心之一，年用水量仅相当于 2.5 家汉堡店。&lt;/strong>&lt;/p>
&lt;p>更惊人的是：&lt;strong>吃一个汉堡的水足迹，足够你每天使用 AI 30 次，连续使用 668 年。&lt;/strong>&lt;/p>
&lt;hr>
&lt;h2 id="一被夸大的水危机">一、被夸大的水危机&lt;/h2>
&lt;h3 id="争议的根源">争议的根源&lt;/h3>
&lt;p>数据中心水消耗确实在增加，但问题被严重夸大：&lt;/p>
&lt;ul>
&lt;li>&lt;strong>缺乏标准&lt;/strong>：水核算没有统一标准，比较混乱&lt;/li>
&lt;li>&lt;strong>忽视关键变量&lt;/strong>：冷却架构、电力来源、地理位置、当地水资源稀缺程度&lt;/li>
&lt;li>&lt;strong>标题党&lt;/strong>：&amp;ldquo;数据中心正在扼杀世界&amp;quot;的叙事缺乏 context&lt;/li>
&lt;/ul>
&lt;h3 id="真正的关键变量">真正的关键变量&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>变量&lt;/th>
&lt;th>影响&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>&lt;strong>冷却架构&lt;/strong>&lt;/td>
&lt;td>干式 vs 湿式 vs 绝热，水耗差异巨大&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>电力来源&lt;/strong>&lt;/td>
&lt;td>燃气轮机 vs 煤电，水耗不同&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>地理位置&lt;/strong>&lt;/td>
&lt;td>气候决定冷却需求&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>&lt;strong>水回收&lt;/strong>&lt;/td>
&lt;td>可彻底解决问题&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;hr>
&lt;h2 id="二colossus-2世界最大数据中心的水账">二、Colossus 2：世界最大数据中心的水账&lt;/h2>
&lt;h3 id="基本信息">基本信息&lt;/h3>
&lt;ul>
&lt;li>&lt;strong>位置&lt;/strong>：孟菲斯（Memphis）&lt;/li>
&lt;li>&lt;strong>用途&lt;/strong>：xAI Grok 模型训练&lt;/li>
&lt;li>&lt;strong>当前 IT 容量&lt;/strong>：400MW（计划扩展至 1GW+）&lt;/li>
&lt;li>&lt;strong>冷却系统&lt;/strong>：混合架构（130台干式冷却器 + 135台绝热冷却单元）&lt;/li>
&lt;/ul>
&lt;h3 id="水足迹拆解">水足迹拆解&lt;/h3>
&lt;h4 id="1-冷却水消耗大头">1. 冷却水消耗（大头）&lt;/h4>
&lt;p>&lt;strong>参数假设&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>PUE：1.15&lt;/li>
&lt;li>利用率：70%&lt;/li>
&lt;li>年产生热量：2.8 TWh&lt;/li>
&lt;li>绝热辅助运行：30%&lt;/li>
&lt;li>蒸发率：0.45 gal/kWh&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>结果&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>年蒸发量：&lt;strong>2.67 亿加仑&lt;/strong>&lt;/li>
&lt;li>冲洗/排放：6600 万加仑（提取但未消耗）&lt;/li>
&lt;/ul>
&lt;h4 id="2-发电水消耗">2. 发电水消耗&lt;/h4>
&lt;ul>
&lt;li>&lt;strong>当前使用&lt;/strong>：航改型简单循环燃气轮机&lt;/li>
&lt;li>&lt;strong>水耗&lt;/strong>：&lt;strong>零&lt;/strong>&lt;/li>
&lt;/ul>
&lt;h4 id="3-芯片制造水消耗供应链嵌入">3. 芯片制造水消耗（供应链嵌入）&lt;/h4>
&lt;ul>
&lt;li>GPU：~20 万颗&lt;/li>
&lt;li>CPU：~10 万颗&lt;/li>
&lt;li>HBM3e：160 万个&lt;/li>
&lt;li>晶圆：&amp;gt;32,000 片&lt;/li>
&lt;li>每片晶圆水耗：1,800-2,200 加仑&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>结果&lt;/strong>：&lt;/p></description></item><item><title>黄仁勋的五层蛋糕：AI基础设施的残酷真相</title><link>https://dahuir81.github.io/posts/huang-renxun-ai-five-layer-cake-analysis/</link><pubDate>Fri, 20 Mar 2026 20:40:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/huang-renxun-ai-five-layer-cake-analysis/</guid><description>深度解读黄仁勋《AI Is a 5-Layer Cake》：能源才是AI的第一性原理，数万亿美元基建狂潮背后的残酷真相</description></item><item><title>阿里巴巴Q3财报深度解读：双面阿里，'中国谷歌'的叙事还差什么？</title><link>https://dahuir81.github.io/posts/alibaba-q3-2026-ai-agent-transformation/</link><pubDate>Thu, 19 Mar 2026 21:00:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/alibaba-q3-2026-ai-agent-transformation/</guid><description>阿里巴巴Q3财报全景分析：云业务增长36% vs 净利润暴跌67%，三位大佬三种说辞，市场为何恐慌？</description></item><item><title>腾讯2025财报深度解读：AI驱动增长，混元3.0即将发布</title><link>https://dahuir81.github.io/posts/tencent-2025-earnings-ai-strategy/</link><pubDate>Wed, 18 Mar 2026 23:30:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/tencent-2025-earnings-ai-strategy/</guid><description>深度解读腾讯2025年报：收入增长14%毛利增长21%，AI全面赋能业务，混元3.0大模型4月发布，腾讯云实现规模化盈利</description></item><item><title>GTC 2026深度解读：老黄的'算力永动机'与万亿Token帝国的野心</title><link>https://dahuir81.github.io/posts/nvidia-gtc-2026-v2/</link><pubDate>Tue, 17 Mar 2026 09:00:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/nvidia-gtc-2026-v2/</guid><description>读完老黄2万字演讲全文，发现英伟达不只是卖芯片，而是在定义AI时代的&amp;#39;石油美元&amp;#39;体系。Token就是新的大宗商品，而英伟达想成为唯一的&amp;#39;炼油厂&amp;#39;。</description></item><item><title>GTC 2026：老黄的'算力永动机'还能转多久？</title><link>https://dahuir81.github.io/posts/nvidia-gtc-2026/</link><pubDate>Tue, 17 Mar 2026 08:00:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/nvidia-gtc-2026/</guid><description>当技术博主质疑&amp;#39;AFD方案经不起推敲&amp;#39;，当华尔街说&amp;#39;英伟达处境很尴尬&amp;#39;，GTC 2026正在从&amp;#39;信仰充值大会&amp;#39;变成&amp;#39;架构质疑现场&amp;#39;。</description></item><item><title>国产AI芯片双雄对决：华为950 vs 寒武纪590，英伟达笑而不语</title><link>https://dahuir81.github.io/posts/huawei-vs-cambricon-ai-chips/</link><pubDate>Mon, 16 Mar 2026 19:00:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/huawei-vs-cambricon-ai-chips/</guid><description>华为950和寒武纪590的正面交锋，谁能在英伟达的阴影下杀出血路？</description></item><item><title>MCP 烂透了？硅谷大佬集体叛逃背后的真相</title><link>https://dahuir81.github.io/posts/mcp-vs-skills-debate/</link><pubDate>Mon, 16 Mar 2026 13:30:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/mcp-vs-skills-debate/</guid><description>250倍性能差距！从50,000 Token到200 Token，AI工具集成的范式转移。</description></item><item><title>AI投研的共识陷阱：当工具成为幻觉的放大器</title><link>https://dahuir81.github.io/posts/ai-research-consensus-trap-v2/</link><pubDate>Mon, 16 Mar 2026 09:00:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/ai-research-consensus-trap-v2/</guid><description>AI给你的最详尽地图，恰恰不会告诉你哪条路今天封了。</description></item><item><title>Dylan Patel 访谈精读：算力供应链的七层透视</title><link>https://dahuir81.github.io/posts/dylan-patel-interview-analysis/</link><pubDate>Sun, 15 Mar 2026 20:00:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/dylan-patel-interview-analysis/</guid><description>SemiAnalysis CEO Dylan Patel 的供应链分析框架解读：从晶圆到电力的七层模型</description></item><item><title>Dylan Patel 访谈拆解：一个'供应链极客'的焦虑贩卖</title><link>https://dahuir81.github.io/posts/dylan-patel-negative-analysis/</link><pubDate>Sat, 14 Mar 2026 20:00:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/dylan-patel-negative-analysis/</guid><description>犀利拆解 SemiAnalysis CEO Dylan Patel 的访谈内容，找出逻辑漏洞和真实动机</description></item></channel></rss>