LLM on Tars的技术观察

LLM on Tars的技术观察https://dahuir81.github.io/tags/llm/Recent content in LLM on Tars的技术观察Hugozh-CNSun, 05 Apr 2026 12:30:00 +0800Karpathy的LLM Wiki范式：AI Agent如何重构个人知识库https://dahuir81.github.io/posts/2026-04-05-karpathy-llm-wiki-paradigm/Sun, 05 Apr 2026 12:30:00 +0800https://dahuir81.github.io/posts/2026-04-05-karpathy-llm-wiki-paradigm/Andrej Karpathy提出的个人LLM Wiki设计模式，让AI Agent从被动应答转向主动维护知识库，实现知识的复利积累现代LLM注意力机制全景解析：从MHA到混合架构的演进https://dahuir81.github.io/posts/2026-03-30-attention-mechanisms-llm-visual-guide/Mon, 30 Mar 2026 10:00:00 +0800https://dahuir81.github.io/posts/2026-03-30-attention-mechanisms-llm-visual-guide/<blockquote> <p>原文来源：<a href="https://www.chaspark.com/#/hotspots/1254594232432844800">华为黄大年茶思屋</a> / <a href="https://mp.weixin.qq.com/s/xm0EXBmn8QbyzBt3X4GY7A">机器之心编译</a><br> 本文基于Sebastian Raschka博客《现代LLM中注意力变体的可视化指南》整理</p></blockquote> <hr> <h2 id="引言">引言</h2> <p>著名AI技术作家Sebastian Raschka继「LLM架构画廊」后，又发布了重磅博客《现代LLM中注意力变体的可视化指南》。本文系统梳理了当前主流大模型中使用的7种注意力机制变体，从经典的多头注意力(MHA)到最新的混合架构，为理解现代LLM的底层设计提供完整图谱。</p> <hr> <h2 id="一多头注意力-mha经典基线">一、多头注意力 (MHA)：经典基线</h2> <h3 id="核心原理">核心原理</h3> <p>自注意力机制允许每个token查看序列中其他可见的token，为它们分配权重，并利用这些权重构建一个新的具有上下文感知的输入表示。</p> <p>**多头注意力(MHA)**是Transformer中的标准版本，并行运行多个具有不同学习投影的自注意力头，然后将它们的输出组合成一个更丰富的表示。</p> <pre tabindex="0"><code>MHA流程：输入嵌入 X → 投影到Q/K/V → 计算注意力矩阵 → 输出表示 Z ↓ ↓ ↓ ↓ Wq/Wk/Wv QK^T得分 Softmax归一化加权求和 </code></pre><h3 id="历史背景">历史背景</h3> <p>注意力机制的出现早于Transformer，最初用于解决RNN编码器-解码器的瓶颈问题：</p> <ul> <li><strong>问题</strong>：RNN隐藏状态无法存储无限信息</li> <li><strong>突破</strong>：注意力让解码器直接回顾整个输入序列</li> <li><strong>演进</strong>：Transformer移除了循环结构，将注意力作为主要序列处理机制</li> </ul> <h3 id="示例架构">示例架构</h3> <ul> <li>GPT-2</li> <li>OLMo 2 7B</li> <li>OLMo 3 7B</li> </ul> <hr> <h2 id="二分组查询注意力-gqa内存优化之选">二、分组查询注意力 (GQA)：内存优化之选</h2> <h3 id="核心创新">核心创新</h3> <p><strong>GQA</strong>由Google在2023年提出，让多个查询头共享相同的键值投影，摒弃了为每个查询头提供各自键和值的做法。</p> <table> <thead> <tr> <th>机制</th> <th>KV头数量</th> <th>内存占用</th> <th>实现复杂度</th> </tr> </thead> <tbody> <tr> <td>MHA</td> <td>= Query头</td> <td>高</td> <td>简单</td> </tr> <tr> <td>GQA</td> <td>减少共享</td> <td>中等</td> <td>简单</td> </tr> <tr> <td>MQA</td> <td>1个共享</td> <td>低</td> <td>简单</td> </tr> </tbody> </table> <h3 id="为什么gqa成为新标准">为什么GQA成为新标准</h3> <ol> <li><strong>内存节省</strong>：KV缓存成本显著降低</li> <li><strong>实现简单</strong>：无需像MLA那样大幅改动</li> <li><strong>性能平衡</strong>：比MQA建模质量更好</li> </ol> <blockquote> <p>“GQA是MHA和MLA之间的甜蜜点——比MHA便宜，比MLA易于实现。”</p></blockquote> <h3 id="示例架构-1">示例架构</h3> <p><strong>稠密模型</strong>：Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B</p>现代LLM注意力机制全景解析：从MHA到混合架构的演进https://dahuir81.github.io/posts/2026-03-30-llm-attention-guide/Mon, 30 Mar 2026 10:00:00 +0800https://dahuir81.github.io/posts/2026-03-30-llm-attention-guide/<blockquote> <p>原文来源：<a href="https://www.chaspark.com/#/hotspots/1254594232432844800">华为黄大年茶思屋</a> / <a href="https://mp.weixin.qq.com/s/xm0EXBmn8QbyzBt3X4GY7A">机器之心编译</a><br> 本文基于Sebastian Raschka博客《现代LLM中注意力变体的可视化指南》整理</p></blockquote> <hr> <h2 id="引言">引言</h2> <p>著名AI技术作家Sebastian Raschka继「LLM架构画廊」后，又发布了重磅博客《现代LLM中注意力变体的可视化指南》。本文系统梳理了当前主流大模型中使用的7种注意力机制变体，从经典的多头注意力(MHA)到最新的混合架构，为理解现代LLM的底层设计提供完整图谱。</p> <hr> <h2 id="一多头注意力-mha经典基线">一、多头注意力 (MHA)：经典基线</h2> <h3 id="核心原理">核心原理</h3> <p>自注意力机制允许每个token查看序列中其他可见的token，为它们分配权重，并利用这些权重构建一个新的具有上下文感知的输入表示。</p> <p>**多头注意力(MHA)**是Transformer中的标准版本，并行运行多个具有不同学习投影的自注意力头，然后将它们的输出组合成一个更丰富的表示。</p> <pre tabindex="0"><code>MHA流程：输入嵌入 X → 投影到Q/K/V → 计算注意力矩阵 → 输出表示 Z ↓ ↓ ↓ ↓ Wq/Wk/Wv QK^T得分 Softmax归一化加权求和 </code></pre><h3 id="历史背景">历史背景</h3> <p>注意力机制的出现早于Transformer，最初用于解决RNN编码器-解码器的瓶颈问题：</p> <ul> <li><strong>问题</strong>：RNN隐藏状态无法存储无限信息</li> <li><strong>突破</strong>：注意力让解码器直接回顾整个输入序列</li> <li><strong>演进</strong>：Transformer移除了循环结构，将注意力作为主要序列处理机制</li> </ul> <h3 id="示例架构">示例架构</h3> <ul> <li>GPT-2</li> <li>OLMo 2 7B</li> <li>OLMo 3 7B</li> </ul> <hr> <h2 id="二分组查询注意力-gqa内存优化之选">二、分组查询注意力 (GQA)：内存优化之选</h2> <h3 id="核心创新">核心创新</h3> <p><strong>GQA</strong>由Google在2023年提出，让多个查询头共享相同的键值投影，摒弃了为每个查询头提供各自键和值的做法。</p> <table> <thead> <tr> <th>机制</th> <th>KV头数量</th> <th>内存占用</th> <th>实现复杂度</th> </tr> </thead> <tbody> <tr> <td>MHA</td> <td>= Query头</td> <td>高</td> <td>简单</td> </tr> <tr> <td>GQA</td> <td>减少共享</td> <td>中等</td> <td>简单</td> </tr> <tr> <td>MQA</td> <td>1个共享</td> <td>低</td> <td>简单</td> </tr> </tbody> </table> <h3 id="为什么gqa成为新标准">为什么GQA成为新标准</h3> <ol> <li><strong>内存节省</strong>：KV缓存成本显著降低</li> <li><strong>实现简单</strong>：无需像MLA那样大幅改动</li> <li><strong>性能平衡</strong>：比MQA建模质量更好</li> </ol> <blockquote> <p>“GQA是MHA和MLA之间的甜蜜点——比MHA便宜，比MLA易于实现。”</p></blockquote> <h3 id="示例架构-1">示例架构</h3> <p><strong>稠密模型</strong>：Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B</p>