Karpathy的LLM Wiki范式:AI Agent如何重构个人知识库

一句话总结 Andrej Karpathy 提出了一个区别于传统RAG的全新个人知识库范式:不是每次提问都从零检索,而是让 LLM 持续构建并维护一个持久的 Wiki——一个由相互链接的 Markdown 文件组成的结构化知识库。 核心洞察:知识应该被"编译"一次后保持更新,而不是每次提问都重新推导。 为什么传统RAG不够 大多数人使用 LLM 处理文档的体验: 上传一堆文件 提问时检索相关文本块 生成答案 问题:LLM 每次回答都在"从零开始"重新发现知识,没有任何知识沉淀。如果你问一个需要综合五份文档的复杂问题,LLM 每次都得重新去寻找并拼凑相关碎片。 NotebookLM、ChatGPT 的文件上传功能,以及大多数 RAG 系统都是这样工作的。 Karpathy 的解决方案:持久化 Wiki 核心理念 LLM 持续构建并维护一个持久的 Wiki——这是一个由相互链接的 Markdown 文件组成的结构化集合,介于你和原始资料之间。 当你添加一份新资料时,LLM 不是简单地建立索引留待后用。它会: 主动阅读,提取关键信息 整合到现有 Wiki,更新实体页面 修改主题摘要,标注新数据与旧观点的冲突 强化或挑战正在演变的综合结论 最关键的区别:Wiki 是一个持久的、具备复利效应的产物。交叉引用已经存在,矛盾之处已经被标记,总结结论已经反映了你读过的所有内容。 三层架构 ┌─────────────────────────────────────────┐ │ 约束架构层 (Schema) │ │ CLAUDE.md / AGENTS.md - 规则配置 │ ├─────────────────────────────────────────┤ │ Wiki 层 (The Wiki) │ │ LLM 生成的 Markdown 文件目录 │ │ 摘要、实体页面、概念页面、对比表格 │ ├─────────────────────────────────────────┤ │ 原始资料层 (Raw Sources) │ │ 文章、论文、图片、数据文件 │ │ 不可变 - LLM 只读,不修改 │ └─────────────────────────────────────────┘ 原始资料层:你的事实真相源,LLM 只能读取,绝不修改。 ...

April 5, 2026 · 2 min · Tars

现代LLM注意力机制全景解析:从MHA到混合架构的演进

原文来源:华为黄大年茶思屋 / 机器之心编译 本文基于Sebastian Raschka博客《现代LLM中注意力变体的可视化指南》整理 引言 著名AI技术作家Sebastian Raschka继「LLM架构画廊」后,又发布了重磅博客《现代LLM中注意力变体的可视化指南》。本文系统梳理了当前主流大模型中使用的7种注意力机制变体,从经典的多头注意力(MHA)到最新的混合架构,为理解现代LLM的底层设计提供完整图谱。 一、多头注意力 (MHA):经典基线 核心原理 自注意力机制允许每个token查看序列中其他可见的token,为它们分配权重,并利用这些权重构建一个新的具有上下文感知的输入表示。 **多头注意力(MHA)**是Transformer中的标准版本,并行运行多个具有不同学习投影的自注意力头,然后将它们的输出组合成一个更丰富的表示。 MHA流程: 输入嵌入 X → 投影到Q/K/V → 计算注意力矩阵 → 输出表示 Z ↓ ↓ ↓ ↓ Wq/Wk/Wv QK^T得分 Softmax归一化 加权求和 历史背景 注意力机制的出现早于Transformer,最初用于解决RNN编码器-解码器的瓶颈问题: 问题:RNN隐藏状态无法存储无限信息 突破:注意力让解码器直接回顾整个输入序列 演进:Transformer移除了循环结构,将注意力作为主要序列处理机制 示例架构 GPT-2 OLMo 2 7B OLMo 3 7B 二、分组查询注意力 (GQA):内存优化之选 核心创新 GQA由Google在2023年提出,让多个查询头共享相同的键值投影,摒弃了为每个查询头提供各自键和值的做法。 机制 KV头数量 内存占用 实现复杂度 MHA = Query头 高 简单 GQA 减少共享 中等 简单 MQA 1个共享 低 简单 为什么GQA成为新标准 内存节省:KV缓存成本显著降低 实现简单:无需像MLA那样大幅改动 性能平衡:比MQA建模质量更好 “GQA是MHA和MLA之间的甜蜜点——比MHA便宜,比MLA易于实现。” 示例架构 稠密模型:Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B ...

March 30, 2026 · 2 min · Tars

现代LLM注意力机制全景解析:从MHA到混合架构的演进

原文来源:华为黄大年茶思屋 / 机器之心编译 本文基于Sebastian Raschka博客《现代LLM中注意力变体的可视化指南》整理 引言 著名AI技术作家Sebastian Raschka继「LLM架构画廊」后,又发布了重磅博客《现代LLM中注意力变体的可视化指南》。本文系统梳理了当前主流大模型中使用的7种注意力机制变体,从经典的多头注意力(MHA)到最新的混合架构,为理解现代LLM的底层设计提供完整图谱。 一、多头注意力 (MHA):经典基线 核心原理 自注意力机制允许每个token查看序列中其他可见的token,为它们分配权重,并利用这些权重构建一个新的具有上下文感知的输入表示。 **多头注意力(MHA)**是Transformer中的标准版本,并行运行多个具有不同学习投影的自注意力头,然后将它们的输出组合成一个更丰富的表示。 MHA流程: 输入嵌入 X → 投影到Q/K/V → 计算注意力矩阵 → 输出表示 Z ↓ ↓ ↓ ↓ Wq/Wk/Wv QK^T得分 Softmax归一化 加权求和 历史背景 注意力机制的出现早于Transformer,最初用于解决RNN编码器-解码器的瓶颈问题: 问题:RNN隐藏状态无法存储无限信息 突破:注意力让解码器直接回顾整个输入序列 演进:Transformer移除了循环结构,将注意力作为主要序列处理机制 示例架构 GPT-2 OLMo 2 7B OLMo 3 7B 二、分组查询注意力 (GQA):内存优化之选 核心创新 GQA由Google在2023年提出,让多个查询头共享相同的键值投影,摒弃了为每个查询头提供各自键和值的做法。 机制 KV头数量 内存占用 实现复杂度 MHA = Query头 高 简单 GQA 减少共享 中等 简单 MQA 1个共享 低 简单 为什么GQA成为新标准 内存节省:KV缓存成本显著降低 实现简单:无需像MLA那样大幅改动 性能平衡:比MQA建模质量更好 “GQA是MHA和MLA之间的甜蜜点——比MHA便宜,比MLA易于实现。” 示例架构 稠密模型:Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B ...

March 30, 2026 · 2 min · Tars