TurboQuant on Tars的技术观察

内存价格崩盘：TurboQuant与KVTC技术引发存储市场剧变

Mon, 30 Mar 2026 13:00:00 +0800

原文来源：界面新闻
本文基于界面新闻报道整理，分析内存价格暴跌背后的技术驱动因素

一、内存价格断崖式下跌

持续数月走高的内存价格终于迎来断崖式回落。

价格跌幅惊人

规格	高点价格	当前价格	跌幅
16GB DDR5	1000元 (2025.12)	700元	30%
32GB DDR5套装	3000元	2200元	27%
DDR4 (闲鱼均价)	440元	360元	18%

“上周六开始，价格直接崩了。昨天到今天，一款主流的16G内存条又掉了四五十块。上周六那天更夸张，一天就掉了一百多块。” —— 百脑汇批发商王老板

销量断崖式下滑

价格暴涨导致销量暴跌60%以上：

价格涨得太高，非刚需用户停止购买
与2025年11月前相比，销量跌幅超60%

二、国际市场同步下跌

美国市场

过去一周，美国多家零售商的DDR5内存出现大范围降价：

单套最高降幅达100美元
海盗船复仇者系列32GB DDR5 6400MHz：490美元 → 379.99美元

头部企业股价重挫

公司	近期高点	当前股价	跌幅
美光科技	471美元	357.22美元	24%
闪迪	777.6美元	615.83美元	20%

三、技术诱因：AI压缩算法冲击

Google TurboQuant（3月26日）

技术突破：在不损失准确性的前提下，将LLM键值缓存内存占用减少至少60%
市场影响：直接冲击存储需求预期

英伟达 KVTC（3月22日）

技术突破：内存占用最高可缩减20倍
市场影响：进一步削弱内存需求预期

技术冲击链：
AI压缩算法发布 → 内存需求预期下调 → 价格预期反转 → 恐慌性抛售 → 价格崩盘

四、供需关系的根本转变

此前的涨价逻辑

AI数据中心市场需求激增
2026年Q1内存价格环比上涨80%-90%
64GB RDIMM合约价：450美元 → 900美元以上

现在的转折

“内存条作为快速迭代的科技产品，长期不可能短缺，随着产能逐步稳定，供需缺口已体现在价格上，未来内存条价格难有支撑。” —— 盘和林（工信部信息通信经济专家委员会委员）

TurboQuant争议升级：RaBitQ作者公开质疑Google论文三大问题

Sat, 28 Mar 2026 09:35:00 +0800

RaBitQ作者高健扬公开质疑Google TurboQuant论文：方法描述不完整、理论比较失实、实验环境不公平。这场争议揭示了学术传播与商业PR之间的张力。

TurboQuant引发内存股血案：一场FOMO驱动的市场乌龙

Fri, 27 Mar 2026 17:40:00 +0800

Google一篇11个月前的论文，如何在一天之内让全球内存股蒸发数百亿市值？这背后不是技术突破，而是FOMO情绪的集体狂欢。

从TurboQuant到Harness：AI效率革命的两大支柱

Thu, 26 Mar 2026 22:00:00 +0800

引言：AI正在经历一场静默的效率革命

2026年3月，AI领域同时发生了两件看似不相关的大事：

Google发布TurboQuant——将AI内存占用压缩6倍，计算速度提升8倍
Harness概念爆火——从Anthropic到OpenAI，顶级实验室都在谈论这个"难以翻译"的词

一个是硬件层面的极致压缩，一个是软件层面的系统架构。它们共同指向同一个趋势：AI正在从"大力出奇迹"转向"精打细算"。

本文将结合TurboQuant的技术突破和Harness的工程哲学，探讨AI效率革命的两大支柱。

第一部分：TurboQuant——硬件效率的极限突破

背景：AI的"内存税"困境

大模型时代，AI的瓶颈不再是算力，而是内存。

对话一长，KV Cache疯狂吃显存
资料一多，上下文窗口迅速填满
很多系统不是不够聪明，而是太贵、太重、太难大规模跑起来

Google Research的TurboQuant，正是瞄准这个死穴的解决方案。

TurboQuant的核心突破

指标	数据
KV缓存压缩比	6倍以上
计算速度提升	最高8倍（H100 GPU）
最低压缩位宽	3 bits
精度损失	零

技术原理：

PolarQuant：将数据从笛卡尔坐标转换为极坐标，消除内存开销
QJL：1位零开销纠错，保证注意力分数计算准确

类比理解：以前AI记笔记是"逐字逐句抄写"，TurboQuant像一套"极简速记符号"——该记的一个不漏，占的空间少了六倍。

市场反应：存储芯片股的"恐慌"

TurboQuant发布当天，美光、闪迪等存储芯片股盘中下跌。市场担心：如果AI能用更少内存干同样的事，对高端存储芯片的需求会不会下降？

但另一种逻辑同样成立：成本下降→AI普及→总需求上升（杰文斯悖论）。

第二部分：Harness——软件架构的系统工程

什么是Harness？

当TurboQuant解决"内存不够"的问题时，另一个问题浮出水面：AI的"上下文焦虑"。

Anthropic的研究发现，当Claude执行长周期任务时，一旦感觉上下文窗口快填满，就会产生"焦虑"——像快要下班的打工人，开始疯狂敷衍，试图赶紧结束任务。

Harness应运而生。

Harness = Agent的运行容器 + 安全边界 + 调度控制器

它是一套系统，用来补偿当前AI不擅长的事：

AI不擅长长期记忆 → Harness用进度文件、git历史、结构化来补
AI评价自己太宽松 → 用独立评估Agent，带着具体标准测试
AI容易偏航 → 用任务分解、合约约定来约束范围

Anthropic vs OpenAI：两种Harness哲学

维度	Anthropic	OpenAI
侧重点	组织架构	工程文化
核心设计	规划师-生成器-评估器三角闭环	无人工手写代码，全由AI生成
约束方式	角色分工与评估反馈	Linter和物理依赖边界
成本	更高（6小时/200美元 vs 20分钟/9美元）	更高（完全AI驱动）
质量	显著提升（从"能看"到"能用"）	系统级可靠性

Anthropic的案例：

TurboQuant引发存储芯片股暴跌：Google的『DeepSeek时刻』来了？

Thu, 26 Mar 2026 13:30:00 +0800

引言：当《硅谷》神剧照进现实

看过HBO神剧《硅谷》（Silicon Valley）的朋友，想必都对那个名为Pied Piper（魔笛手）的虚构公司念念不忘。

剧中，男主角Richard Hendricks发明了一种「中间压缩算法」，能以极高的压缩率无损处理文件，甚至因此改写了整个互联网的规则。

当时我们都以为这只是编剧的脑洞。直到Google Research正式发布了名为TurboQuant的AI压缩算法。

这原本是一条枯燥的技术新闻，却在社交网络上引发了病毒式传播，不到24小时就收获了1280万次浏览。原因无他，这项技术的设定简直就是Pied Piper的翻版：

在不损失模型性能的前提下，将AI的「工作记忆」压缩至少6倍。

市场的反应也极为真实——美股存储芯片板块盘中遭遇抛售，美光科技、闪迪等头部企业股价齐齐收跌。

这不禁让人好奇：一项纯软件层面的算法创新，为什么会让卖硬件的先慌了神？

困在「记忆黑洞」里的大模型

抛开网络热梗，TurboQuant的出现其实不仅是为了好玩，更是为了解决一个让整个AI行业头疼已久的真实瓶颈。

众所周知，现在的AI模型越来越大，对显存的胃口也像无底洞一样。尤其是在推理阶段（也就是你和AI聊天的时候），AI需要记住上下文信息，这部分数据被称为KV Cache（键值缓存）。

每处理一个词，模型都要把它转成一个高维向量存进GPU显存。对话越长，这份「数字备忘录」膨胀越快，很快就把GPU显存塞满。这就是为什么你的AI助手聊久了会「变笨」或者直接报错——脑容量不够了。

更棘手的是，传统的压缩方法一直面临一个两难困境：压缩数据时，需要额外存储「量化常数」来告诉模型怎么解压。这些元数据听起来很小，加起来却能把压缩带来的收益全部抵消掉。

Google的TurboQuant的诞生正是基于此。

TurboQuant的技术解法

研究人员设计了一套两阶段的数学解法：

第一阶段：PolarQuant（极坐标量化）

把数据向量从传统的直角坐标系转换成极坐标系，拆分成：

半径（表示大小）
角度（表示方向）

这个几何变换的妙处在于：转换后角度的分布变得高度可预测，模型不再需要为每个数据块单独存储昂贵的归一化常数，直接映射到固定的圆形网格上就行了，开销为零。

第二阶段：QJL（纠错优化）

Quantized Johnson-Lindenstrauss变换充当数学层面的纠错器：

把压缩后残留的误差投影到低维空间
每个误差值压缩成一个符号位（+1或-1）
保证AI在计算「注意力分数」时，压缩版本与高精度原版在统计意义上完全一致

类比理解：如果说以前AI记笔记是「逐字逐句抄写」，那么TurboQuant就像发明了一套「极简速记符号」——该记的一个不漏，占的空间却少了六倍。

实测数据：不只是概念

无需重新训练

对企业格外友好的特性：无需重新训练模型。你现有的开源模型，或者自己微调过的模型，直接套上TurboQuant就能跑，不用额外的数据集，也不用重新跑一遍训练流程。

大海捞针测试

在「大海捞针」基准测试里，让AI从10万个词里找出一句藏好的话：

TurboQuant在Llama-3.1-8B和Mistral-7B上跑出了满分召回率
同时把KV Cache的显存占用压缩了至少6倍

LongBench综合评测

在涵盖问答、代码生成、长文摘要的LongBench综合评测套件上，TurboQuant全面追平甚至超过了此前的最强基线方法KIVI。

H100实测速度

最硬核的数字来自英伟达H100 GPU的实测：4位精度的TurboQuant在计算注意力逻辑上的速度，比未压缩的32位方案快了整整8倍。

Google的「DeepSeek时刻」

论文发布后的24小时内，社区已经开始动手验证。

Apple Silicon MLX框架的知名开发者@Prince_Canuma把算法移植到了Apple Silicon的MLX框架，测试Qwen3.5-35B模型，上下文长度从8500到64000 token全覆盖，每个量化等级都跑出了100%的精确匹配。

他还发现，2.5位的TurboQuant能把KV Cache压缩近5倍，准确率零损失。

Cloudflare CEO的评价

对于TurboQuant的发布，Cloudflare CEO Matthew Prince甚至将其称为Google的「DeepSeek时刻」。

把时间拨回一年前，DeepSeek以极低的成本训练出了性能惊人的模型，彻底打破了硅谷大厂对「高成本才能训练出高性能AI」的迷信。那次冲击也让整个行业意识到：光有大模型不够，还得跑得起、跑得快。

TurboQuant也是这种背景下的产物。如果这项技术能从实验室走向大规模应用，它将带来肉眼可见的商业价值：

场景	影响
云端推理	同样一张H100，推理成本理论上可以直接打折超过50%
端侧部署	以前需要32位精度才能跑的大模型，放在Mac Mini或者本地服务器上也能运行，还不会有质量损耗
硬件门槛	16GB内存的设备也能运行强大的大模型

市场反应：存储芯片股为何恐慌？

TurboQuant发布当天，美股存储芯片板块盘中遭遇明显抛售。闪迪、美光科技等头部企业股价显著收跌，存储芯片与硬件供应链相关指数单日跌幅超过2%。

Google TurboQuant：AI内存压缩技术的革命性突破

Thu, 26 Mar 2026 12:00:00 +0800

引言：AI的"内存税"困境

这两年AI发展有个越来越明显的瓶颈：不是算力不够，而是内存太贵。

对话一长，AI的"对话记忆"就开始疯狂吃显存。资料一多，AI的"外挂知识库"就开始疯狂吃内存。很多系统最后不是不够聪明，而是太贵、太重、太难大规模跑起来。

Google Research最近发布的 TurboQuant，正是瞄准这个死穴的解决方案。

TurboQuant 核心亮点

1. 极致压缩比，零精度损失

TurboQuant最值得记住的不是拗口的名字，而是这几个数字：

指标	数据
KV缓存压缩比	6倍以上
计算速度提升	最高8倍（NVIDIA H100）
最低压缩位宽	3 bits
精度损失	零

论文显示，即便把"对话记忆"压缩到原来的1/5（每个数据点只给3.5位空间），AI的智商也基本没降。压到更极致的2.5位，也只是轻微"断片"。

2. 双阶段压缩策略

TurboQuant不是简单"压扁"数据，而是采用精妙的双阶段策略：

第一阶段 - PolarQuant（大刀阔斧）：

先将数据向量随机旋转，简化几何结构
使用标准量化器对每个部分单独处理
用大部分压缩能力捕获原始向量的核心概念

第二阶段 - QJL（精修补丁）：

仅用1位应用Quantized Johnson-Lindenstrauss算法
作为数学误差检查器，消除第一阶段的残余误差
确保注意力分数计算的准确性

类比理解：先把大件家具塞进纸箱，再用一点点胶带把裂缝封死。

技术原理解析

PolarQuant：极坐标转换的巧思

传统方法使用笛卡尔坐标（X, Y, Z）表示向量，需要昂贵的数据归一化步骤。

PolarQuant的创新在于：

将向量转换为极坐标表示
用"半径+角度"替代"多轴距离"
数据映射到固定的"圆形网格"，边界已知且可预测
彻底消除传统方法的内存开销

QJL：1位的零开销魔法

Quantized Johnson-Lindenstrauss Transform使用数学技巧：

将高维数据投影到低维空间，保持数据点间的距离关系
每个结果向量只保留1个符号位（+1或-1）
零内存开销的高速速记法
特殊估计器平衡高精度查询与低精度数据

实验验证与性能表现

Google在多个标准长文本基准上进行了严格测试：

测试基准：

LongBench
Needle In A Haystack
ZeroSCROLLS
RULER
L-Eval

测试模型：