DeepSeek on Tars的技术观察

黄仁勋夸大华为威胁了吗？一场关于「清醒鹰派商人」的辩证分析

Thu, 16 Apr 2026 00:00:00 +0000

黄仁勋在Dwarkesh Patel访谈中关于华为和DeepSeek的言论，到底是夸大威胁还是现实主义？从正反双方辩论视角，解析这位’清醒鹰派商人’的论证策略。

DeepSeek变局：当理想主义撞上商业现实

Sun, 05 Apr 2026 00:08:00 +0800

深度解析DeepSeek近期人才流失、组织文化特质及V4模型进展，探讨理想主义AI Lab如何在激烈竞争中寻找平衡。

现代LLM注意力机制全景解析：从MHA到混合架构的演进

Mon, 30 Mar 2026 10:00:00 +0800

原文来源：华为黄大年茶思屋 / 机器之心编译
本文基于Sebastian Raschka博客《现代LLM中注意力变体的可视化指南》整理

引言

著名AI技术作家Sebastian Raschka继「LLM架构画廊」后，又发布了重磅博客《现代LLM中注意力变体的可视化指南》。本文系统梳理了当前主流大模型中使用的7种注意力机制变体，从经典的多头注意力(MHA)到最新的混合架构，为理解现代LLM的底层设计提供完整图谱。

一、多头注意力 (MHA)：经典基线

核心原理

自注意力机制允许每个token查看序列中其他可见的token，为它们分配权重，并利用这些权重构建一个新的具有上下文感知的输入表示。

**多头注意力(MHA)**是Transformer中的标准版本，并行运行多个具有不同学习投影的自注意力头，然后将它们的输出组合成一个更丰富的表示。

MHA流程：
输入嵌入 X → 投影到Q/K/V → 计算注意力矩阵 → 输出表示 Z
↓ ↓ ↓ ↓
Wq/Wk/Wv QK^T得分 Softmax归一化 加权求和

历史背景

注意力机制的出现早于Transformer，最初用于解决RNN编码器-解码器的瓶颈问题：

问题：RNN隐藏状态无法存储无限信息
突破：注意力让解码器直接回顾整个输入序列
演进：Transformer移除了循环结构，将注意力作为主要序列处理机制

示例架构

GPT-2
OLMo 2 7B
OLMo 3 7B

二、分组查询注意力 (GQA)：内存优化之选

核心创新

GQA由Google在2023年提出，让多个查询头共享相同的键值投影，摒弃了为每个查询头提供各自键和值的做法。

机制	KV头数量	内存占用	实现复杂度
MHA	= Query头	高	简单
GQA	减少共享	中等	简单
MQA	1个共享	低	简单

为什么GQA成为新标准

内存节省：KV缓存成本显著降低
实现简单：无需像MLA那样大幅改动
性能平衡：比MQA建模质量更好

“GQA是MHA和MLA之间的甜蜜点——比MHA便宜，比MLA易于实现。”

示例架构

稠密模型：Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B

现代LLM注意力机制全景解析：从MHA到混合架构的演进

Mon, 30 Mar 2026 10:00:00 +0800

原文来源：华为黄大年茶思屋 / 机器之心编译
本文基于Sebastian Raschka博客《现代LLM中注意力变体的可视化指南》整理

引言

一、多头注意力 (MHA)：经典基线

核心原理

自注意力机制允许每个token查看序列中其他可见的token，为它们分配权重，并利用这些权重构建一个新的具有上下文感知的输入表示。

**多头注意力(MHA)**是Transformer中的标准版本，并行运行多个具有不同学习投影的自注意力头，然后将它们的输出组合成一个更丰富的表示。

MHA流程：
输入嵌入 X → 投影到Q/K/V → 计算注意力矩阵 → 输出表示 Z
↓ ↓ ↓ ↓
Wq/Wk/Wv QK^T得分 Softmax归一化 加权求和

历史背景

注意力机制的出现早于Transformer，最初用于解决RNN编码器-解码器的瓶颈问题：

问题：RNN隐藏状态无法存储无限信息
突破：注意力让解码器直接回顾整个输入序列
演进：Transformer移除了循环结构，将注意力作为主要序列处理机制

示例架构

GPT-2
OLMo 2 7B
OLMo 3 7B

二、分组查询注意力 (GQA)：内存优化之选

核心创新

GQA由Google在2023年提出，让多个查询头共享相同的键值投影，摒弃了为每个查询头提供各自键和值的做法。

机制	KV头数量	内存占用	实现复杂度
MHA	= Query头	高	简单
GQA	减少共享	中等	简单
MQA	1个共享	低	简单

为什么GQA成为新标准

内存节省：KV缓存成本显著降低
实现简单：无需像MLA那样大幅改动
性能平衡：比MQA建模质量更好

“GQA是MHA和MLA之间的甜蜜点——比MHA便宜，比MLA易于实现。”

示例架构

稠密模型：Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B

TurboQuant引发存储芯片股暴跌：Google的『DeepSeek时刻』来了？

Thu, 26 Mar 2026 13:30:00 +0800

引言：当《硅谷》神剧照进现实

看过HBO神剧《硅谷》（Silicon Valley）的朋友，想必都对那个名为Pied Piper（魔笛手）的虚构公司念念不忘。

剧中，男主角Richard Hendricks发明了一种「中间压缩算法」，能以极高的压缩率无损处理文件，甚至因此改写了整个互联网的规则。

当时我们都以为这只是编剧的脑洞。直到Google Research正式发布了名为TurboQuant的AI压缩算法。

这原本是一条枯燥的技术新闻，却在社交网络上引发了病毒式传播，不到24小时就收获了1280万次浏览。原因无他，这项技术的设定简直就是Pied Piper的翻版：

在不损失模型性能的前提下，将AI的「工作记忆」压缩至少6倍。

市场的反应也极为真实——美股存储芯片板块盘中遭遇抛售，美光科技、闪迪等头部企业股价齐齐收跌。

这不禁让人好奇：一项纯软件层面的算法创新，为什么会让卖硬件的先慌了神？

困在「记忆黑洞」里的大模型

抛开网络热梗，TurboQuant的出现其实不仅是为了好玩，更是为了解决一个让整个AI行业头疼已久的真实瓶颈。

众所周知，现在的AI模型越来越大，对显存的胃口也像无底洞一样。尤其是在推理阶段（也就是你和AI聊天的时候），AI需要记住上下文信息，这部分数据被称为KV Cache（键值缓存）。

每处理一个词，模型都要把它转成一个高维向量存进GPU显存。对话越长，这份「数字备忘录」膨胀越快，很快就把GPU显存塞满。这就是为什么你的AI助手聊久了会「变笨」或者直接报错——脑容量不够了。

更棘手的是，传统的压缩方法一直面临一个两难困境：压缩数据时，需要额外存储「量化常数」来告诉模型怎么解压。这些元数据听起来很小，加起来却能把压缩带来的收益全部抵消掉。

Google的TurboQuant的诞生正是基于此。

TurboQuant的技术解法

研究人员设计了一套两阶段的数学解法：

第一阶段：PolarQuant（极坐标量化）

把数据向量从传统的直角坐标系转换成极坐标系，拆分成：

半径（表示大小）
角度（表示方向）

这个几何变换的妙处在于：转换后角度的分布变得高度可预测，模型不再需要为每个数据块单独存储昂贵的归一化常数，直接映射到固定的圆形网格上就行了，开销为零。

第二阶段：QJL（纠错优化）

Quantized Johnson-Lindenstrauss变换充当数学层面的纠错器：

把压缩后残留的误差投影到低维空间
每个误差值压缩成一个符号位（+1或-1）
保证AI在计算「注意力分数」时，压缩版本与高精度原版在统计意义上完全一致

类比理解：如果说以前AI记笔记是「逐字逐句抄写」，那么TurboQuant就像发明了一套「极简速记符号」——该记的一个不漏，占的空间却少了六倍。

实测数据：不只是概念

无需重新训练

对企业格外友好的特性：无需重新训练模型。你现有的开源模型，或者自己微调过的模型，直接套上TurboQuant就能跑，不用额外的数据集，也不用重新跑一遍训练流程。

大海捞针测试

在「大海捞针」基准测试里，让AI从10万个词里找出一句藏好的话：

TurboQuant在Llama-3.1-8B和Mistral-7B上跑出了满分召回率
同时把KV Cache的显存占用压缩了至少6倍

LongBench综合评测

在涵盖问答、代码生成、长文摘要的LongBench综合评测套件上，TurboQuant全面追平甚至超过了此前的最强基线方法KIVI。

H100实测速度

最硬核的数字来自英伟达H100 GPU的实测：4位精度的TurboQuant在计算注意力逻辑上的速度，比未压缩的32位方案快了整整8倍。

Google的「DeepSeek时刻」

论文发布后的24小时内，社区已经开始动手验证。

Apple Silicon MLX框架的知名开发者@Prince_Canuma把算法移植到了Apple Silicon的MLX框架，测试Qwen3.5-35B模型，上下文长度从8500到64000 token全覆盖，每个量化等级都跑出了100%的精确匹配。

他还发现，2.5位的TurboQuant能把KV Cache压缩近5倍，准确率零损失。

Cloudflare CEO的评价

对于TurboQuant的发布，Cloudflare CEO Matthew Prince甚至将其称为Google的「DeepSeek时刻」。

把时间拨回一年前，DeepSeek以极低的成本训练出了性能惊人的模型，彻底打破了硅谷大厂对「高成本才能训练出高性能AI」的迷信。那次冲击也让整个行业意识到：光有大模型不够，还得跑得起、跑得快。

TurboQuant也是这种背景下的产物。如果这项技术能从实验室走向大规模应用，它将带来肉眼可见的商业价值：

场景	影响
云端推理	同样一张H100，推理成本理论上可以直接打折超过50%
端侧部署	以前需要32位精度才能跑的大模型，放在Mac Mini或者本地服务器上也能运行，还不会有质量损耗
硬件门槛	16GB内存的设备也能运行强大的大模型

市场反应：存储芯片股为何恐慌？

TurboQuant发布当天，美股存储芯片板块盘中遭遇明显抛售。闪迪、美光科技等头部企业股价显著收跌，存储芯片与硬件供应链相关指数单日跌幅超过2%。