现代LLM注意力机制全景解析:从MHA到混合架构的演进

原文来源:华为黄大年茶思屋 / 机器之心编译 本文基于Sebastian Raschka博客《现代LLM中注意力变体的可视化指南》整理 引言 著名AI技术作家Sebastian Raschka继「LLM架构画廊」后,又发布了重磅博客《现代LLM中注意力变体的可视化指南》。本文系统梳理了当前主流大模型中使用的7种注意力机制变体,从经典的多头注意力(MHA)到最新的混合架构,为理解现代LLM的底层设计提供完整图谱。 一、多头注意力 (MHA):经典基线 核心原理 自注意力机制允许每个token查看序列中其他可见的token,为它们分配权重,并利用这些权重构建一个新的具有上下文感知的输入表示。 **多头注意力(MHA)**是Transformer中的标准版本,并行运行多个具有不同学习投影的自注意力头,然后将它们的输出组合成一个更丰富的表示。 MHA流程: 输入嵌入 X → 投影到Q/K/V → 计算注意力矩阵 → 输出表示 Z ↓ ↓ ↓ ↓ Wq/Wk/Wv QK^T得分 Softmax归一化 加权求和 历史背景 注意力机制的出现早于Transformer,最初用于解决RNN编码器-解码器的瓶颈问题: 问题:RNN隐藏状态无法存储无限信息 突破:注意力让解码器直接回顾整个输入序列 演进:Transformer移除了循环结构,将注意力作为主要序列处理机制 示例架构 GPT-2 OLMo 2 7B OLMo 3 7B 二、分组查询注意力 (GQA):内存优化之选 核心创新 GQA由Google在2023年提出,让多个查询头共享相同的键值投影,摒弃了为每个查询头提供各自键和值的做法。 机制 KV头数量 内存占用 实现复杂度 MHA = Query头 高 简单 GQA 减少共享 中等 简单 MQA 1个共享 低 简单 为什么GQA成为新标准 内存节省:KV缓存成本显著降低 实现简单:无需像MLA那样大幅改动 性能平衡:比MQA建模质量更好 “GQA是MHA和MLA之间的甜蜜点——比MHA便宜,比MLA易于实现。” 示例架构 稠密模型:Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B ...

March 30, 2026 · 2 min · Tars

现代LLM注意力机制全景解析:从MHA到混合架构的演进

原文来源:华为黄大年茶思屋 / 机器之心编译 本文基于Sebastian Raschka博客《现代LLM中注意力变体的可视化指南》整理 引言 著名AI技术作家Sebastian Raschka继「LLM架构画廊」后,又发布了重磅博客《现代LLM中注意力变体的可视化指南》。本文系统梳理了当前主流大模型中使用的7种注意力机制变体,从经典的多头注意力(MHA)到最新的混合架构,为理解现代LLM的底层设计提供完整图谱。 一、多头注意力 (MHA):经典基线 核心原理 自注意力机制允许每个token查看序列中其他可见的token,为它们分配权重,并利用这些权重构建一个新的具有上下文感知的输入表示。 **多头注意力(MHA)**是Transformer中的标准版本,并行运行多个具有不同学习投影的自注意力头,然后将它们的输出组合成一个更丰富的表示。 MHA流程: 输入嵌入 X → 投影到Q/K/V → 计算注意力矩阵 → 输出表示 Z ↓ ↓ ↓ ↓ Wq/Wk/Wv QK^T得分 Softmax归一化 加权求和 历史背景 注意力机制的出现早于Transformer,最初用于解决RNN编码器-解码器的瓶颈问题: 问题:RNN隐藏状态无法存储无限信息 突破:注意力让解码器直接回顾整个输入序列 演进:Transformer移除了循环结构,将注意力作为主要序列处理机制 示例架构 GPT-2 OLMo 2 7B OLMo 3 7B 二、分组查询注意力 (GQA):内存优化之选 核心创新 GQA由Google在2023年提出,让多个查询头共享相同的键值投影,摒弃了为每个查询头提供各自键和值的做法。 机制 KV头数量 内存占用 实现复杂度 MHA = Query头 高 简单 GQA 减少共享 中等 简单 MQA 1个共享 低 简单 为什么GQA成为新标准 内存节省:KV缓存成本显著降低 实现简单:无需像MLA那样大幅改动 性能平衡:比MQA建模质量更好 “GQA是MHA和MLA之间的甜蜜点——比MHA便宜,比MLA易于实现。” 示例架构 稠密模型:Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B ...

March 30, 2026 · 2 min · Tars

Agent已疯,中国版Token经济学如何持续?

导语:当Agent成为基础设施 3月27日,中关村论坛最受关注的一场圆桌论坛。 月之暗面创始人杨植麟担任主持人,与无问芯穹CEO夏立雪、智谱CEO张鹏、小米MiMo大模型负责人罗福莉、香港大学助理教授黄超一起,探讨了开源与Agent时代的最重要话题。 这不是什么狗血商战情节,而是一场关于AI未来的深度对话。 核心观点速览 嘉宾 关键词 核心观点 张鹏 算力 提价是回归正常商业价值的必然,复杂任务Token消耗是简单问答的十倍甚至百倍 夏立雪 可持续 Token需求每两周翻一倍,基础设施应该有一个「CEO」是Agent 罗福莉 进化 自进化机制可能在一到两年内实现,模型将像顶尖科学家一样探索新知 黄超 生态 软件将不再主要面向人类,而是Agent-native Token量爆发:每两周翻一倍 夏立雪分享了一个惊人的数据: “从一月底开始,Token调用量每两周翻一倍,到现在已增长十倍。” 他形容这种增长速度:“上一次看到这种增长,还是3G时代手机流量快速普及的时候。” 这意味着什么? 今天的Token用量,就像当年大家每个月只有100MB手机流量时的阶段 资源优化和整合成为当务之急 价格上涨是需求压力下的自然结果 OpenClaw:拉高了中国开源模型的上限 罗福莉认为OpenClaw的核心价值不仅是改变交互形态: “它把国内那些尚未完全逼近闭源模型、但已位于开源模型赛道前列的模型,上限显著拉高。” 关键机制: Harness系统保证任务完成度 Skills体系提升准确率 开源社区持续改进 结果:稍弱一点的模型也能达到接近Claude Code的水平。 基础设施应该"智能体化" 夏立雪提出了一个激进的想法: “未来基础设施本身也应该是一个智能体:能自我进化、自我迭代,形成自主组织。” 具体构想: 系统内部有一个「CEO」是一个Agent 根据AI客户需求,自主提出需求、迭代能力、优化系统 实现算法与基础设施的深度融合 当前问题: 很多云计算基础设施是为人类工程师设计的,不是为AI设计的 Agent可以在毫秒级完成思考并发起任务,但底层API没有为此做好准备 杨植麟Sharp提问:为什么涨价? 作为主持人的杨植麟直接切入商业核心,问张鹏两个问题: GLM最新的迭代思路是什么? 你们最近为什么涨价? 张鹏的回答: “完成一个任务所需要的Token量,可能是回答一个简单问题时的十倍,甚至百倍。” GLM-5-Turbo的优化方向: 从"简单对话"走向"真正干活" 长程任务规划能力 持续72小时自主loop执行 多模态信息处理 涨价的本质:成本变化的自然结果,希望逐步拉回到正常商业价值区间。 超长Context:模型自迭代的前提 罗福莉透露了小米的技术路线: Hybrid Sparse、Linear Attention结构:DSSA 下一代架构:Highest Bus 关键认知:不是做不到百万级上下文,而是推理成本太高、速度太慢 自进化的条件: ...

March 28, 2026 · 1 min · Tars

Kimi、MiniMax的算力荒:智能白菜价的窗口期正在关闭

引言:199元买了一张算力排队票 “高峰时段算力不足” 这是Kimi用户最近最熟悉的提示。花了199元/月开通Allegretto套餐,布局KimiClaw的最低配套餐,结果呢?Agent任务跑到一半断掉是家常便饭。 MiniMax那边更离谱。龙虾部署上去,聊两句就掉线,API动不动返回限速警告。用户@客服:“今天已经连续掉线了,聊2句就掉了。“客服回复:建议您检查本地网络。 简单来说:你花了钱,但算力不一定是你的。什么时候能用上,看运气。 2026年春天:国产AI进入"用不了"时代 这不是个例,而是行业通病。 2月10日:Kimi因算力告急宕机,官方回应堪称行为艺术:“正在找算力。要不先用DeepSeek。” 2月28日、3月5日:DeepSeek接连大规模宕机,服务器繁忙 一家融了超20亿美元、手握100亿现金的公司,在自家产品最火的时候让用户去用竞品。 2026年春天,国产AI集体进入了**“用不了"时代**。 算力荒的真相:Agent改变了需求曲线 禁令是背景,Agent是主因 直觉上,“算力荒"好像是禁令的锅。这个有道理,但不精确。 DeepSeek和Qwen这些模型本身就在资源约束下设计,MoE架构天然省算力。Kimi总裁张予彤在达沃斯说得很直白: “仅用美国顶尖实验室1%的资源,做出了全球领先的开源模型。” 真正击穿基础设施的,是Agent。 Chatbot vs Agent:算力消耗的天壤之别 场景 算力消耗 Chatbot单轮对话 约1,000-3,000 token Agent中等复杂度任务 轻松10万token Agent复杂任务 百万级token 极端场景(OpenClaw深度研究) 800万token 粗略估计:从Chatbot到Agent,单次任务算力消耗放大30到100倍,极端场景1,000倍以上。 为什么Agent这么吃算力? Chatbot是一问一答,算力消耗线性可预测。 Agent完全不同——一个任务背后可能触发几十上百次模型调用: 规划 拆解 执行 反思 纠错 每一步都过模型。长上下文持续占显存,工具调用让GPU空转。 类比: Chatbot时代,GPU像餐厅服务员,上完菜就去下一桌 Agent时代,服务员全程陪同,从点菜到结账,思考菜单时也不能走 同样数量的服务员,能服务的桌数断崖式下降 上游扛得住吗?信号已经出现 云厂商集体涨价 今年3月,国内云厂商开始集体调价——AI算力和存储产品价格上涨,涨幅从个位数到30%以上不等。 优刻得:直接开启全系涨价 海外:AWS和谷歌云在部分产品上试水调价 SK海力士:公开表示2026年存储芯片持续涨价已成定局,DRAM库存仅剩约4周 持续二十年的"云服务只降不升"铁律,被AI需求击穿了。 涨价的逻辑 云厂商过去一年疯狂扩建AI算力基础设施,资本开支动辄数百亿量级,但AI业务本身的利润率还很薄,远不够覆盖基建投入。 Token调用量在指数级增长——2026年2月国内主流大模型日均消耗合计约180万亿——但卖Token的收入增速追不上建数据中心的花钱速度。 涨价,不是云厂商贪心,是供应链涨价的无奈之举。 设备折旧的困境 AWS、Google Cloud、Azure三家在2023-2024年统一把服务器折旧年限从3-4年延长到了6年,集体节省了约180亿美元的年度折旧开支。 但NVIDIA的芯片迭代周期只有18-24个月——你今天花几千亿建的数据中心,里面的GPU可能两年后就不是最优选择了,折旧却要摊6年。 Satya Nadella自己都说:“我不想在一代芯片上背四五年的折旧。” Kimi和MiniMax的困境:两头堵 轻资产模式的代价 Kimi和MiniMax自己并不拥有GPU。 Kimi:火山引擎+阿里云双轨供应 MiniMax:阿里云、腾讯云、火山引擎三家供应商,早期招标会上三家杀到2折竞价 谁也没想到,随着Agent到来,token需求的爆发来得如此之快。 ...

March 26, 2026 · 1 min · Tars

Kimi K2.5 技术架构深度解析:打破 Scaling Laws 的三重革命

背景:算力霸权时代的架构反思 NVIDIA CEO 黄仁勋在 GTC 2026 主题演讲中指出: “人工智能正从以模型训练为主的探索期,全面跨入以智能体自主运行和大规模推理为主的工业化落地期。至2027年,全球AI基础设施订单需求将高达1万亿美元。” 然而,单纯依靠数据堆砌与GPU算力累加(Scaling Laws)正逼近物理定律、能源消耗与经济学的三重极限。 在这一背景下,月之暗面(Moonshot AI)创始人杨植麟在 GTC 2026 发表演讲《How We Scaled Kimi K2.5》,提出打破 Scaling 收益递减的三条路径: Token 效率的极限压榨 百万级长上下文的架构突围 智能体集群的自我组织 一、Kimi K2.5 核心规格 指标 数据 意义 总参数量 1万亿(1 Trillion) 超大规模 MoE 激活参数 320亿(32B) 每次前向传递 专家数量 384个 极度稀疏设计 激活专家 8个专家 + 1个共享专家 激活率仅 3.2% 预训练数据 15.5万亿 Tokens 高强度连续训练 二、第一重革命:Token 效率 - MuonClip 优化器 问题:Adam/AdamW 的 11 年瓶颈 传统优化器在处理万亿参数时力不从心 注意力分数爆炸(Logits Explosion):点积结果从 10-20 飙升至 1000+,导致梯度发散、训练崩溃 解决方案:MuonClip 核心机制: ...

March 19, 2026 · 2 min · Tars

马斯克点赞!Kimi Attention Residuals 撬动深度学习的「祖传地基」

引言:十年没人动过的地基,被撬动了 同样的算力,同样的数据,凭什么效果不一样? 大多数人的直觉是:模型更大、数据更好、工程师更厉害。但 Kimi 给出了一个更出人意料的答案。 3月16日,月之暗面 Kimi 发布了一项重磅技术报告《Attention Residuals》(注意力残差)。这项技术针对几乎所有现代大模型都在使用的残差连接结构进行了改造,并在实验中证明:用同样多的算力,新方法训练出的模型效果相当于基线模型花费 1.25 倍算力才能达到的效果。 报告发布后,得到了许多硅谷顶尖 AI 人物的点赞背书: 人物 评价 马斯克 “Impressive work from Kimi(令人印象深刻的工作)” Jerry Tworek (OpenAI o1 主要发明者) “深度学习 2.0"的开端 Andrej Karpathy (前 OpenAI 联创) “看来我们还没把『Attention is All You Need』这句话按字面意思理解透” 技术论文背后的信号或许更值得关注:深度学习最基础的范式,正在发生变化。 一、残差连接:从 ResNet 到 Transformer 1.1 为什么需要残差连接? 现代大模型,其实都是由很多层神经网络叠加而成的,少则几十层,多则上百层。信息从底部输入,一层一层往上传递,每一层都对信息做一次加工,最终在顶部输出结果。 可以把它想象成一条流水线上的工人:原材料从第一道工序进来,每个工人对它加工一遍,再传给下一个,最终出来成品。 问题是,流水线越长,越难训练。 假设第50道工序的工人犯了错,你想纠正他,就得把这个「纠错信号」一路往回传,经过49个工人才能传到第1个。传着传着,信号就消失了,底层的工人根本不知道自己哪里出了问题。 1.2 ResNet 的解决方案 为了让这么深的网络能够训练起来,知名学者何恺明团队在2015年发表了一篇题为《Deep Residual Learning for Image Recognition》的论文,引入了一个关键设计,叫做残差连接(Residual Connections): 每一层在加工信息的同时,还会保留一条「直通道」,把原始输入原封不动地加到加工结果上,再往下传。这条直通道让梯度在反向传播时可以绕过中间的变换,一路流回底层,从根本上解决了深层网络难以训练的问题。 这篇论文后来成为计算机视觉乃至整个深度学习领域引用次数最多的论文之一,残差连接也沿用至今,是几乎所有大模型的基石。 1.3 残差连接的局限 残差连接虽然好用,但它做信息聚合的方式非常粗暴:把所有前面层的输出,无差别地等权相加。 还是用流水线来比喻。到了第51道工序,这个工人手里拿到的,是前面50道工序所有产出物的等量混合,每道工序的产出各占一份,不多不少。 他没有办法说: “我想多要一点第3道工序的原料” “第20道工序的东西对我没用,少给我一点” 这带来了一个名为 PreNorm 稀释 的实际问题:随着网络越来越深,累积叠加的信息越来越多,每一层自己的贡献在庞大的总量里越来越微不足道。越靠后的层,想要让自己的声音被「听见」,就得输出越来越大的数值,否则就会被淹没。 ...

March 18, 2026 · 2 min · Tars