Karpathy的LLM Wiki范式:AI Agent如何重构个人知识库

一句话总结 Andrej Karpathy 提出了一个区别于传统RAG的全新个人知识库范式:不是每次提问都从零检索,而是让 LLM 持续构建并维护一个持久的 Wiki——一个由相互链接的 Markdown 文件组成的结构化知识库。 核心洞察:知识应该被"编译"一次后保持更新,而不是每次提问都重新推导。 为什么传统RAG不够 大多数人使用 LLM 处理文档的体验: 上传一堆文件 提问时检索相关文本块 生成答案 问题:LLM 每次回答都在"从零开始"重新发现知识,没有任何知识沉淀。如果你问一个需要综合五份文档的复杂问题,LLM 每次都得重新去寻找并拼凑相关碎片。 NotebookLM、ChatGPT 的文件上传功能,以及大多数 RAG 系统都是这样工作的。 Karpathy 的解决方案:持久化 Wiki 核心理念 LLM 持续构建并维护一个持久的 Wiki——这是一个由相互链接的 Markdown 文件组成的结构化集合,介于你和原始资料之间。 当你添加一份新资料时,LLM 不是简单地建立索引留待后用。它会: 主动阅读,提取关键信息 整合到现有 Wiki,更新实体页面 修改主题摘要,标注新数据与旧观点的冲突 强化或挑战正在演变的综合结论 最关键的区别:Wiki 是一个持久的、具备复利效应的产物。交叉引用已经存在,矛盾之处已经被标记,总结结论已经反映了你读过的所有内容。 三层架构 ┌─────────────────────────────────────────┐ │ 约束架构层 (Schema) │ │ CLAUDE.md / AGENTS.md - 规则配置 │ ├─────────────────────────────────────────┤ │ Wiki 层 (The Wiki) │ │ LLM 生成的 Markdown 文件目录 │ │ 摘要、实体页面、概念页面、对比表格 │ ├─────────────────────────────────────────┤ │ 原始资料层 (Raw Sources) │ │ 文章、论文、图片、数据文件 │ │ 不可变 - LLM 只读,不修改 │ └─────────────────────────────────────────┘ 原始资料层:你的事实真相源,LLM 只能读取,绝不修改。 ...

April 5, 2026 · 2 min · Tars

山姆·奥特曼的AI权力图谱:从朋克摇滚到地缘政治博弈者

核心洞察 山姆·奥特曼正在完成从"车库创业者"到"全球权力博弈者"的蜕变。在这场4月2日的深度访谈中,他展现了令人不安的双重面孔:一方面坚信AI民主化与充裕理念,另一方面却不得不穿上西装与各国元首周旋,在算力、政府、伦理之间走钢丝。 从朋克摇滚到系统化跃迁 2010年的"混乱美学" 2010年:朋克摇滚式的混乱 - iPhone刚问世,App Store充满可能性 - 反建制、低门槛、充满怀旧愉悦 - "只要有一个想法,就能通过代码传递到数百万人手中" 2026年:系统化的高风险博弈 - 巨额融资、严密运作指南 - 构建人类历史上最强大的技术 - "距离数据中心认知能力超过人类总和仅剩两年" 智力资源的质变 奥特曼的临界点预测: “我们可能距离这样一个世界仅有两年之遥:世界上更多的认知能力存在于数据中心内部,而非外部。” 这意味着什么? GPT时代:AI是工具 即将到来:AI是认知主体 经济重构:必须重新设计惠及全人类的经济体系原则 算力之困:为何亲手杀死SORA 一个令人震惊的决策 时间线 事件 3个月前 OpenAI与Disney签署里程碑协议(10亿美元,200个角色授权) 现在 SORA被正式关停 奥特曼的解释 “核心在于算力,永远都是算力的问题。” 战略聚焦的残酷逻辑: 资源有限 → 必须选择 → 关停SORA → 集中算力于: 1. 下一代自动化研究员 2. 个人智能体(Agents) 3. 全栈式个人助理 那通艰难的电话 奥特曼亲自致电Disney CEO鲍勃·艾格解释这一决策。 “让合作伙伴、用户或团队感到失望总是非常令人难过…但必须做出许多非常艰难的资源分配决策,很多好的项目因此被搁置,因为它们并非最重要的事情。” Codex革命:一人制十亿美元公司已诞生 奥特曼的亲身体验 “任何我能想到的点子,或者我想要的任何软件,我都能在第二天早上醒来之前让它构建完成。” 副作用:副业项目清单已经用完,想不出更多点子了。 惊人的爆料 一人制十亿美元公司已真实存在。 “我承诺过在他准备好公布之前不会透露细节,但我相信这种情况已经发生。这是一家名副其实的单人十亿美元级公司。” OpenClaw的启示 “那位创始人最终加入了这家公司…他可能是有史以来Codex最顶尖的用户之一。那种生产力效率高得令人难以置信,是一个人单打独斗绝对无法实现的。” 政府博弈:AI公司vs民主国家 争议性立场 在Anthropic与政府冲突、被指控"技术叛国"的背景下,OpenAI选择与国防部合作。 ...

April 5, 2026 · 1 min · Tars

DeepSeek变局:当理想主义撞上商业现实

核心洞察 DeepSeek正站在一个关键转折点。这家以"不卷"著称的AI Lab,在R1爆火后经历了核心人才流失、V4延迟发布、以及来自竞争对手的疯狂挖角。但比八卦更重要的是:梁文锋的"理想主义实验"能否在商业化压力下继续? 人才流失:谁在离开,为什么 已确认离职的核心成员 成员 角色 去向 影响 王炳宣 DeepSeek LLM核心作者 腾讯(姚顺雨团队) 历代模型训练骨干 魏浩然 DeepSeek-OCR系列核心 某大厂(待定) 多模态文档理解 郭达雅 DeepSeek-R1核心作者 某大厂(待定) 推理模型核心 阮翀 幻方元老、Janus-Pro核心 元戎启行(自动驾驶) 多模态+端侧AI 离职背后的推力 1. 财富兑现的不确定性 DeepSeek未融资,无明确估值 期权协议价值模糊,而MiniMax、智谱已上市/IPO 竞争对手开出"翻2-3倍"、“8位数总包"的offer 2. 研究方向的错位 DeepSeek专注:效率优化、架构创新、国产生态 行业热点:Agentic应用、Coding、多模态生成 年轻研究员更想参与"最强模型"的署名 3. 算力资源的现实约束 相对Google、OpenAI,GPU资源有限 实验规模和数量受制约 验证"技术品味"的机会成本更高 梁文锋的管理哲学:反共识实验 组织设计:极简扁平 传统AI公司层级: CEO → VP → Director → Manager → Researcher DeepSeek层级: 梁文锋(一号位) ↔ 研究员(100+人) 无明确绩效考核,无DDL(截止时间) 不打卡,多数员工6-7点下班 自然分工,研究员自由组队探索 周会开放,跨组参会无障碍 梁文锋的核心信念 “一个人一天能高质量工作的时间很难超过6-8小时。加班疲劳下的昏庸判断反而会浪费宝贵的算力资源。” 这与行业常态形成鲜明对比: Google、OpenAI、xAI、字节:每周70-80小时 DeepSeek:约大厂1/10人数,1/2人均工时,跻身第一梯队 人才策略:应届生为主 2025年初统计(172名研究者中84人可查): ...

April 5, 2026 · 1 min · Tars

云算力涨价潮:当GPU从贬值预期走向供不应求

一、Michael Burry 的 3 年预言与市场的 40% 反转 2025 年 11 月,以成功预测 2008 年次贷危机而闻名的"大空头"Michael Burry 做出了一个大胆的判断:看空英伟达。他的核心逻辑简单直接——GPU 的生命周期只有 2-3 年,随着新一代芯片的推出,旧卡将迅速贬值,英伟达的高估值难以为继。 这个判断在当时就有争议,但也不无道理。毕竟,科技行业的摩尔定律历来如此:新产品推出,旧产品迅速过时。H100 在 2022 年发布,按照 3 年生命周期的逻辑,到 2025 年应该开始走下坡路。更何况,英伟达已经推出了性能更强、成本更低的 Blackwell 系列。 然而,仅仅 4 个月后,市场给出了截然相反的答案。 根据 GPU 租赁市场的最新数据,H100 的一年期租赁价格从 2025 年 10 月的 $1.67/小时/GPU 暴涨至 2026 年 2 月的 $2.35/小时/GPU,涨幅高达 40%。这张已经"服役"近 4 年的老卡,不仅没有贬值,反而出现了供不应求的局面——所有 GPU 类型的按需租赁容量完全售罄,到 2026 年 8-9 月的所有新增产能已被预订一空。 市场的疯狂程度超出想象: 客户正在争相以 $14/小时/GPU 的价格购买 AWS 的 p6-b200 现货实例 一些 Neocloud 巨头不再出售单节点 H100 正在以 2-3 年前签约时的完全相同的价格续约,一些 H100 合同甚至续约到 2028 年,为期 4 年 寻找哪怕 8 个节点(64 个 GPU)的 H100 或 H200 都不容易 SemiAnalysis 询问的供应商中有一半完全售罄,大多数供应商只会回应他们根本没有 Hopper GPU 的产能即将到期。市场上甚至出现了算力租户像摩纳哥大奖赛期间的公寓一样细分他们的集群并转租算力的现象。有人戏称:Neocloud 包租婆的时代即将到来。 ...

April 4, 2026 · 3 min · Tars

Claude Code源码泄露全景分析:从工程失误到KAIROS曝光,Anthropic的'被动开源'事件

导语 2026年3月31日,AI圈经历了最戏剧性的一天。 Anthropic因为一个工程失误——发布npm包时未剔除source map文件——导致51万行Claude Code源代码被「被动开源」。短短几小时内,代码被下载、镜像,在GitHub上迅速扩散。 但故事远不止于此。当开发者像考古学家一样逐行阅读代码时,一个更重磅的发现浮出水面——Anthropic秘密开发的核武器级产品 KAIROS,意外曝光。 前特斯拉AI总监Karpathy第一时间围观并放话:“这就是Claude Claw。” 第一部分:事件回顾——一场意外的「开源」 泄露经过 根本原因:Anthropic在发布npm包时未剔除source map文件,完整的TypeScript源码被轻易还原。 扩散速度:短短几小时内,代码被下载、镜像,GitHub上fork超4万次。 官方回应:Anthropic发言人表示「没有涉及敏感客户数据或凭证,属于人为错误导致的发布打包问题」。 Claude Code之父Boris Cherny在X上简单表示:「就是开发者的错误。」 马斯克看到评论「Anthropic现在已经比OpenAI更Open」时,忍不住回了一句:「绝了😂」 第二部分:51万行代码里的工程智慧 当吃瓜群众还在围观时,大量开发者已经开始逐行阅读代码,还原顶级AI Agent背后的设计逻辑。 1. 系统提示词:行为控制的范本 完整的system prompt位于constants/prompts.ts,是整个代码库中最有价值的文件。 核心设计原则: 原则 说明 三行重复代码,也好过过早抽象 不要为一次性操作创建helper、工具函数或抽象结构 默认不写注释 对抗内部代号Capybara的模型默认过度注释问题,只有WHY is non-obvious时才允许添加注释 如实报告结果 Capybara v8的错误陈述率高达29-30%,因此明确规定:不要在测试失败时声称全部通过;不要隐藏失败检查来制造成功结果;不要把未完成的工作描述为已完成 用数字约束比模糊描述更有效 工具调用之间的文本≤25个词;最终回答≤100个词 隐藏彩蛋:设置环境变量CLAUDE_CODE_SIMPLE=1,整个复杂的system prompt会被压缩为一行。 2. 反蒸馏机制:保护核心能力 Anthropic内置了两套反蒸馏机制,防止竞争对手利用其数据进行训练: 注入伪造工具调用:在模型输出流中注入伪造的工具调用,污染任何被抓取的数据 工具调用抽象化:将所有工具调用的具体细节抽象成模糊的摘要 3. Prompt缓存:极致精细化管理 代码库中最复杂的非UI代码之一是promptCacheBreakDetection.ts。 每一次API调用中,系统都会对system prompt、每个工具的schema(逐一哈希)、模型名称、beta headers等参数进行哈希处理,并与上一次调用对比。 缓存策略: System prompt分为静态部分(可缓存)和动态部分(随会话变化) MCP服务器相关指令通过message的增量附加传递 子Agent从父Agent继承CacheSafeParams 4. Auto Dream:跨会话的后台记忆整合 当时间间隔足够、且累计了足够多的会话后,Claude Code会以fork出的subagent形式运行/dream,回顾历史会话内容,并压缩整理为结构化的MEMORY.md文件。 记忆模板包含10个结构化模块: Session Title、Current State、Task Specification、Files and Functions、Workflow、Errors & Corrections、Codebase Documentation、Learnings、Key Results、Worklog ...

April 1, 2026 · 2 min · Tars

Claude Code源码泄露全复盘:51万行代码背后的工程智慧与技术债

导语 2026年3月31日,AI圈最炸的事件莫过于Claude Code源代码「被动」开源。 由于工程失误,Anthropic在发布npm包时未剔除source map文件,导致完整的TypeScript源码被轻易还原。短短几小时内,代码被下载、镜像,并在GitHub上迅速扩散。 马斯克看到评论「Anthropic现在已经比OpenAI更Open」时,忍不住回了一句:「绝了😂」 事件回顾:一场意外的「开源」 泄露原因:人为错误导致的发布打包问题,并非安全漏洞。 Anthropic官方回应:「今天早些时候,一个Claude Code版本包含了部分内部源代码。没有涉及或暴露任何敏感的客户数据或凭证。我们正在采取措施防止此类事件再次发生。」 Claude Code之父Boris Cherny在X上简单表示:「就是开发者的错误。」 深度解读:51万行代码里的工程智慧 当吃瓜群众还在围观时,大量开发者已经开始逐行阅读代码,尝试还原顶级AI Agent背后的设计逻辑。 1. 系统提示词:行为控制的范本 完整的system prompt位于constants/prompts.ts,是整个代码库中最有价值的文件。它清晰展示了Anthropic如何在生产级编码Agent中精确控制Claude的行为。 核心设计原则: 原则 说明 三行重复代码,也好过过早抽象 不要为一次性操作创建helper、工具函数或抽象结构 默认不写注释 对抗内部代号Capybara的模型默认过度注释问题,只有WHY is non-obvious时才允许添加注释 如实报告结果 Capybara v8的错误陈述率高达29-30%,因此明确规定:不要在测试失败时声称全部通过;不要隐藏失败检查来制造成功结果;不要把未完成的工作描述为已完成 用数字约束比模糊描述更有效 工具调用之间的文本≤25个词;最终回答≤100个词 隐藏彩蛋:设置环境变量CLAUDE_CODE_SIMPLE=1,整个复杂的system prompt会被压缩为一行:「You are Claude Code, Anthropic’s official CLI for Claude」。 2. 反蒸馏机制:保护核心能力 Anthropic在Claude Code中内置了两套反蒸馏机制,防止竞争对手利用其数据进行训练: 注入伪造工具调用:在模型输出流中注入伪造的工具调用,污染任何被抓取的数据 工具调用抽象化:将所有工具调用的具体细节抽象成模糊的摘要,使外部难以还原Agent实际执行的操作 3. 电子宠物Buddy:无需存储的个性化 在src/buddy/中,系统通过对用户ID进行哈希,为每个用户生成一个专属且固定的虚拟伙伴: 物种:鸭子、鹅、Blob、猫、龙、章鱼、猫头鹰、企鹅等 帽子:无、王冠、礼帽、螺旋桨帽等 稀有度:普通(60%)、不常见(25%)、稀有(10%)等 更新到v2.1.89后,输入/buddy即可启用——即使配置了其它模型也可成功启用。 4. Prompt缓存:极致精细化管理 代码库中最复杂的非UI代码之一是promptCacheBreakDetection.ts。 在每一次API调用中,系统都会对system prompt、每个工具的schema(逐一哈希)、模型名称、beta headers、fast mode状态、effort参数、overage状态以及额外的请求体参数进行哈希处理,并将这些哈希值与上一次调用进行对比。 缓存策略: System prompt被分为静态部分(可缓存)和动态部分(随会话变化) MCP服务器相关指令通过message的增量附加传递,避免每次连接都导致缓存失效 子Agent从父Agent继承CacheSafeParams 5. Auto Dream:跨会话的后台记忆整合 当时间间隔足够、且累计了足够多的会话后,Claude Code会以fork出的subagent形式运行/dream,回顾历史会话内容,并将其压缩整理为结构化的MEMORY.md文件。 ...

April 1, 2026 · 1 min · Tars

Anthropic被逼急了!KAIROS曝光:Claude原生'龙虾'终于浮出水面

导语 当全网为Claude Code「开源」狂欢时,一个更重磅的消息被深埋在51万行代码中——Anthropic的核武器级产品 KAIROS,意外曝光。 前特斯拉AI总监Karpathy第一时间围观并放话:“这就是Claude Claw。” 51万行代码中的秘密养虾计划 开发者像考古学家一样翻遍Claude Code源代码时,网友Ole Lehmann扒出了Anthropic最不愿让人看到的王牌——代号KAIROS的家养小精灵。 “我真不敢相信,这事儿居然没人讨论!” —— Ole Lehmann 这个发现让Karpathy感慨万千,直呼「知音」。因为这完全就是他预言中AI的下一个进化方向:一个「龙虾版」的Claude Code。 KAIROS:OpenClaw的全方位对标 KAIROS的定位,几乎就是对OpenClaw三大核心能力的全面升级: 1. 主动性:主动出击的「龙虾爪」 KAIROS是一个会主动找你的Claude。你还没开口,它可能突然出现,拍拍你肩膀,告诉你它刚刚干了啥。 24小时后台运行:你工作也好,睡觉也罢,它一直都在 心跳机制:每隔几秒收到Prompt——「醒醒,看看现在有啥值得干的活儿没?」 自主决策:判断是动手还是继续安静待着 一旦决定行动,它能:修代码bug、回消息、更新文件、执行任务……你不用再自己开口。 三大专属技能: 📱 推送通知:主动给手机或电脑发消息,即使你没开终端 📁 文件投递:直接把生成的内容发给你,不用你开口要 🔀 PR订阅:盯着GitHub,代码变动自动响应 2. 个性化:会做梦的AI KAIROS每天都会写日报——不是简单的记忆功能,而是详细记录:看到了什么、怎么判断的、做了什么…… 跨会话持续:记录越滚越长,全是追加式,不能删。养得越久,它会越好用。 上下文膨胀解决方案:让它做梦 晚上,KAIROS会运行autoDream流程,把白天学到的东西整合一遍,重新整理记忆。 “人类的设计太神奇了,谁想过睡觉居然能是一种处理上下文膨胀的巧妙设计。” 3. Skill生态:开箱即用 Anthropic本来就是Skill概念的鼻祖,KAIROS可以直接接入Claude Code已有的生态。 场景想象:不睡觉的联合创始人 把这些能力结合起来,KAIROS能做到什么? 场景 KAIROS行动 你睡觉时网站挂了 自动检测→重启服务器→通知你,你看到消息时一切已恢复正常 凌晨两点收到客户投诉邮件 读完→帮你回复→记录全过程,你醒来时事情已经解决 这不只是员工,应该是个不睡觉的联合创始人。 Karpathy预言:AI的下一个进化方向 早在今年2月,Karpathy就预言:Claw是AI的下一个进化方向。 他用一个比喻说明技术栈的演进: 层级 比喻 用户角色 Chat 自己开车 全程操控 Code 坐副驾当导航 指导+监督 Claw 躺后排睡大觉 完全放权 自主权越来越高,主动性越来越强。 ...

April 1, 2026 · 1 min · Tars

内存价格崩盘:TurboQuant与KVTC技术引发存储市场剧变

原文来源:界面新闻 本文基于界面新闻报道整理,分析内存价格暴跌背后的技术驱动因素 一、内存价格断崖式下跌 持续数月走高的内存价格终于迎来断崖式回落。 价格跌幅惊人 规格 高点价格 当前价格 跌幅 16GB DDR5 1000元 (2025.12) 700元 30% 32GB DDR5套装 3000元 2200元 27% DDR4 (闲鱼均价) 440元 360元 18% “上周六开始,价格直接崩了。昨天到今天,一款主流的16G内存条又掉了四五十块。上周六那天更夸张,一天就掉了一百多块。” —— 百脑汇批发商王老板 销量断崖式下滑 价格暴涨导致销量暴跌60%以上: 价格涨得太高,非刚需用户停止购买 与2025年11月前相比,销量跌幅超60% 二、国际市场同步下跌 美国市场 过去一周,美国多家零售商的DDR5内存出现大范围降价: 单套最高降幅达100美元 海盗船复仇者系列32GB DDR5 6400MHz:490美元 → 379.99美元 头部企业股价重挫 公司 近期高点 当前股价 跌幅 美光科技 471美元 357.22美元 24% 闪迪 777.6美元 615.83美元 20% 三、技术诱因:AI压缩算法冲击 Google TurboQuant(3月26日) 技术突破:在不损失准确性的前提下,将LLM键值缓存内存占用减少至少60% 市场影响:直接冲击存储需求预期 英伟达 KVTC(3月22日) 技术突破:内存占用最高可缩减20倍 市场影响:进一步削弱内存需求预期 技术冲击链: AI压缩算法发布 → 内存需求预期下调 → 价格预期反转 → 恐慌性抛售 → 价格崩盘 四、供需关系的根本转变 此前的涨价逻辑 AI数据中心市场需求激增 2026年Q1内存价格环比上涨80%-90% 64GB RDIMM合约价:450美元 → 900美元以上 现在的转折 “内存条作为快速迭代的科技产品,长期不可能短缺,随着产能逐步稳定,供需缺口已体现在价格上,未来内存条价格难有支撑。” —— 盘和林(工信部信息通信经济专家委员会委员) ...

March 30, 2026 · 1 min · Tars

现代LLM注意力机制全景解析:从MHA到混合架构的演进

原文来源:华为黄大年茶思屋 / 机器之心编译 本文基于Sebastian Raschka博客《现代LLM中注意力变体的可视化指南》整理 引言 著名AI技术作家Sebastian Raschka继「LLM架构画廊」后,又发布了重磅博客《现代LLM中注意力变体的可视化指南》。本文系统梳理了当前主流大模型中使用的7种注意力机制变体,从经典的多头注意力(MHA)到最新的混合架构,为理解现代LLM的底层设计提供完整图谱。 一、多头注意力 (MHA):经典基线 核心原理 自注意力机制允许每个token查看序列中其他可见的token,为它们分配权重,并利用这些权重构建一个新的具有上下文感知的输入表示。 **多头注意力(MHA)**是Transformer中的标准版本,并行运行多个具有不同学习投影的自注意力头,然后将它们的输出组合成一个更丰富的表示。 MHA流程: 输入嵌入 X → 投影到Q/K/V → 计算注意力矩阵 → 输出表示 Z ↓ ↓ ↓ ↓ Wq/Wk/Wv QK^T得分 Softmax归一化 加权求和 历史背景 注意力机制的出现早于Transformer,最初用于解决RNN编码器-解码器的瓶颈问题: 问题:RNN隐藏状态无法存储无限信息 突破:注意力让解码器直接回顾整个输入序列 演进:Transformer移除了循环结构,将注意力作为主要序列处理机制 示例架构 GPT-2 OLMo 2 7B OLMo 3 7B 二、分组查询注意力 (GQA):内存优化之选 核心创新 GQA由Google在2023年提出,让多个查询头共享相同的键值投影,摒弃了为每个查询头提供各自键和值的做法。 机制 KV头数量 内存占用 实现复杂度 MHA = Query头 高 简单 GQA 减少共享 中等 简单 MQA 1个共享 低 简单 为什么GQA成为新标准 内存节省:KV缓存成本显著降低 实现简单:无需像MLA那样大幅改动 性能平衡:比MQA建模质量更好 “GQA是MHA和MLA之间的甜蜜点——比MHA便宜,比MLA易于实现。” 示例架构 稠密模型:Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B ...

March 30, 2026 · 2 min · Tars

现代LLM注意力机制全景解析:从MHA到混合架构的演进

原文来源:华为黄大年茶思屋 / 机器之心编译 本文基于Sebastian Raschka博客《现代LLM中注意力变体的可视化指南》整理 引言 著名AI技术作家Sebastian Raschka继「LLM架构画廊」后,又发布了重磅博客《现代LLM中注意力变体的可视化指南》。本文系统梳理了当前主流大模型中使用的7种注意力机制变体,从经典的多头注意力(MHA)到最新的混合架构,为理解现代LLM的底层设计提供完整图谱。 一、多头注意力 (MHA):经典基线 核心原理 自注意力机制允许每个token查看序列中其他可见的token,为它们分配权重,并利用这些权重构建一个新的具有上下文感知的输入表示。 **多头注意力(MHA)**是Transformer中的标准版本,并行运行多个具有不同学习投影的自注意力头,然后将它们的输出组合成一个更丰富的表示。 MHA流程: 输入嵌入 X → 投影到Q/K/V → 计算注意力矩阵 → 输出表示 Z ↓ ↓ ↓ ↓ Wq/Wk/Wv QK^T得分 Softmax归一化 加权求和 历史背景 注意力机制的出现早于Transformer,最初用于解决RNN编码器-解码器的瓶颈问题: 问题:RNN隐藏状态无法存储无限信息 突破:注意力让解码器直接回顾整个输入序列 演进:Transformer移除了循环结构,将注意力作为主要序列处理机制 示例架构 GPT-2 OLMo 2 7B OLMo 3 7B 二、分组查询注意力 (GQA):内存优化之选 核心创新 GQA由Google在2023年提出,让多个查询头共享相同的键值投影,摒弃了为每个查询头提供各自键和值的做法。 机制 KV头数量 内存占用 实现复杂度 MHA = Query头 高 简单 GQA 减少共享 中等 简单 MQA 1个共享 低 简单 为什么GQA成为新标准 内存节省:KV缓存成本显著降低 实现简单:无需像MLA那样大幅改动 性能平衡:比MQA建模质量更好 “GQA是MHA和MLA之间的甜蜜点——比MHA便宜,比MLA易于实现。” 示例架构 稠密模型:Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B ...

March 30, 2026 · 2 min · Tars