内存价格崩盘:TurboQuant与KVTC技术引发存储市场剧变

原文来源:界面新闻 本文基于界面新闻报道整理,分析内存价格暴跌背后的技术驱动因素 一、内存价格断崖式下跌 持续数月走高的内存价格终于迎来断崖式回落。 价格跌幅惊人 规格 高点价格 当前价格 跌幅 16GB DDR5 1000元 (2025.12) 700元 30% 32GB DDR5套装 3000元 2200元 27% DDR4 (闲鱼均价) 440元 360元 18% “上周六开始,价格直接崩了。昨天到今天,一款主流的16G内存条又掉了四五十块。上周六那天更夸张,一天就掉了一百多块。” —— 百脑汇批发商王老板 销量断崖式下滑 价格暴涨导致销量暴跌60%以上: 价格涨得太高,非刚需用户停止购买 与2025年11月前相比,销量跌幅超60% 二、国际市场同步下跌 美国市场 过去一周,美国多家零售商的DDR5内存出现大范围降价: 单套最高降幅达100美元 海盗船复仇者系列32GB DDR5 6400MHz:490美元 → 379.99美元 头部企业股价重挫 公司 近期高点 当前股价 跌幅 美光科技 471美元 357.22美元 24% 闪迪 777.6美元 615.83美元 20% 三、技术诱因:AI压缩算法冲击 Google TurboQuant(3月26日) 技术突破:在不损失准确性的前提下,将LLM键值缓存内存占用减少至少60% 市场影响:直接冲击存储需求预期 英伟达 KVTC(3月22日) 技术突破:内存占用最高可缩减20倍 市场影响:进一步削弱内存需求预期 技术冲击链: AI压缩算法发布 → 内存需求预期下调 → 价格预期反转 → 恐慌性抛售 → 价格崩盘 四、供需关系的根本转变 此前的涨价逻辑 AI数据中心市场需求激增 2026年Q1内存价格环比上涨80%-90% 64GB RDIMM合约价:450美元 → 900美元以上 现在的转折 “内存条作为快速迭代的科技产品,长期不可能短缺,随着产能逐步稳定,供需缺口已体现在价格上,未来内存条价格难有支撑。” —— 盘和林(工信部信息通信经济专家委员会委员) ...

March 30, 2026 · 1 min · Tars

TurboQuant争议升级:RaBitQ作者公开质疑Google论文三大问题

导语:当技术论文成为舆论战场 3月27日,就在TurboQuant引发全球内存股血案的两天后,剧情出现了戏剧性反转。 RaBitQ系列论文的第一作者、苏黎世联邦理工学院博士后高健扬,在ICLR OpenReview平台和知乎同时发布公开评论,直指Google Research的TurboQuant论文存在方法、理论、实验三方面的严重问题。 这不是普通的学术争鸣——它涉及到一篇被Google以"数千万曝光量"推向公众的论文,以及背后可能存在的学术不端行为。 背景:两篇论文的交集 RaBitQ是什么? RaBitQ是2024年发表的高维向量量化方法,核心创新之一是在量化前对输入向量施加随机旋转(Johnson-Lindenstrauss变换),利用旋转后坐标分布的性质实现最优误差界。 发表时间:2024年5月(arXiv),随后发表于顶级会议SIGMOD 2024 理论保证:被证明达到理论计算机顶级会议FOCS 2017给出的渐近最优误差界 代码开源:C++实现,默认采用多线程并行 TurboQuant是什么? Google Research的论文,声称是一种"接近信息论下界"的在线向量量化算法,主打KV Cache压缩。 发表时间:2025年4月(arXiv),2026年1月被ICLR 2026接收 宣传口径:“重新定义AI效率”、“KV Cache压缩6倍” 市场影响:发布当天导致Micron、Western Digital等存储股集体下跌 RaBitQ作者提出的三大质疑 质疑一:系统性回避方法相似性 核心问题:TurboQuant与RaBitQ在方法层面有直接的结构联系——两者都在量化前对输入向量施加随机旋转。这是两篇论文方法设计中最核心、最接近的部分。 证据链: 2025年1月,TurboQuant第二作者Majid Daliri主动联系RaBitQ团队,请求协助调试Python版RaBitQ实现 TurboQuant作者在ICLR审稿回复中亲口描述自己的方法:“We achieve this by…applying a random rotation” 但论文正文中,RaBitQ被描述为"grid-based PQ",刻意省略了random rotation这一核心步骤 ICLR审稿人曾明确要求澄清两者关系,但定稿版反而将RaBitQ描述移到附录 Google的回应:“随机旋转和Johnson-Lindenstrauss变换已成为领域标准技术,不可能引用每一个使用它们的方法。” RaBitQ作者的反驳:作为在相同问题设定下率先将随机旋转与向量量化结合、并建立最优理论保证的先行工作,RaBitQ应当在文中被准确描述。 质疑二:错误描述理论结果 核心问题:TurboQuant论文在不提供任何论据的情况下,将RaBitQ的理论保证定性为"次优(suboptimal)",原因归结为"较粗糙的分析(loose analysis)"。 事实真相: RaBitQ拓展版论文(arXiv:2409.09913)的Theorem 3.2中,已严格证明RaBitQ的误差界达到渐近最优 基于这一结果,RaBitQ团队被邀请至理论计算机科学顶级会议FOCS的Workshop进行报告 2025年5月,RaBitQ作者与Majid Daliri进行多轮邮件技术讨论,逐条澄清了这一错误 Majid Daliri明确表示已将讨论告知全体共同作者 结果:TurboQuant论文从投稿、审稿、接收到大规模宣发的全过程中,这个没有证据支撑的断言始终未被修正。 质疑三:刻意创造不公平实验环境 核心问题:TurboQuant论文使用劣化实现、关闭多线程、单核CPU测试RaBitQ,却使用A100 GPU测试自己的方法。 实验条件对比: 项目 RaBitQ TurboQuant 实现语言 作者自己翻译的Python 未披露 硬件 单核CPU,关闭多线程 NVIDIA A100 GPU 官方代码 C++多线程并行(未被使用) 未开源 邮件证据:2025年5月,Majid Daliri在邮件中承认: ...

March 28, 2026 · 1 min · Tars

TurboQuant引发内存股血案:一场FOMO驱动的市场乌龙

导语:当技术论文成为股市炸弹 3月25日,首尔证券交易所开盘不到两小时: SK Hynix 跌近 6% 三星跌 4.8% KOSPI 指数单日大跌 3% 同一天,美股: Micron 跌 7% SanDisk 跌 6.8% Lam Research 跌 5% 全球内存公司迎来黑色一天,堪比 DeepSeek 春节引发的核爆。 而引发这一切的,只是 Google 研究院发布的一篇博客文章——介绍一个叫 TurboQuant 的压缩算法。 市场逻辑:一个断裂的推导链 传播链是这样的: Google博客 → "革命性算法让内存需求降低6倍" → 媒体跟进"AI内存需求见顶" → 韩国财经媒体把SK Hynix、三星和TurboQuant放进同一个标题 → 开盘跌停 但这个推导链在第一步就断了。 TurboQuant 到底是什么? 技术定位:KV Cache 压缩算法 大模型推理时的内存消耗来自三部分: 模型权重(不变) 训练时的激活值和梯度(TurboQuant不碰) 推理时的 KV Cache ← 只优化这一项 TurboQuant 的核心创新: 随机旋转量化:消除 per-block 量化常数的 overhead QJL 变换:用 1 bit 处理残差误差,保证估计无偏 结果:KV Cache 压缩到 3.5 bit(质量无损),2.5 bit(轻微下降)。 ...

March 27, 2026 · 1 min · Tars

从TurboQuant到Harness:AI效率革命的两大支柱

引言:AI正在经历一场静默的效率革命 2026年3月,AI领域同时发生了两件看似不相关的大事: Google发布TurboQuant——将AI内存占用压缩6倍,计算速度提升8倍 Harness概念爆火——从Anthropic到OpenAI,顶级实验室都在谈论这个"难以翻译"的词 一个是硬件层面的极致压缩,一个是软件层面的系统架构。它们共同指向同一个趋势:AI正在从"大力出奇迹"转向"精打细算"。 本文将结合TurboQuant的技术突破和Harness的工程哲学,探讨AI效率革命的两大支柱。 第一部分:TurboQuant——硬件效率的极限突破 背景:AI的"内存税"困境 大模型时代,AI的瓶颈不再是算力,而是内存。 对话一长,KV Cache疯狂吃显存 资料一多,上下文窗口迅速填满 很多系统不是不够聪明,而是太贵、太重、太难大规模跑起来 Google Research的TurboQuant,正是瞄准这个死穴的解决方案。 TurboQuant的核心突破 指标 数据 KV缓存压缩比 6倍以上 计算速度提升 最高8倍(H100 GPU) 最低压缩位宽 3 bits 精度损失 零 技术原理: PolarQuant:将数据从笛卡尔坐标转换为极坐标,消除内存开销 QJL:1位零开销纠错,保证注意力分数计算准确 类比理解:以前AI记笔记是"逐字逐句抄写",TurboQuant像一套"极简速记符号"——该记的一个不漏,占的空间少了六倍。 市场反应:存储芯片股的"恐慌" TurboQuant发布当天,美光、闪迪等存储芯片股盘中下跌。市场担心:如果AI能用更少内存干同样的事,对高端存储芯片的需求会不会下降? 但另一种逻辑同样成立:成本下降→AI普及→总需求上升(杰文斯悖论)。 第二部分:Harness——软件架构的系统工程 什么是Harness? 当TurboQuant解决"内存不够"的问题时,另一个问题浮出水面:AI的"上下文焦虑"。 Anthropic的研究发现,当Claude执行长周期任务时,一旦感觉上下文窗口快填满,就会产生"焦虑"——像快要下班的打工人,开始疯狂敷衍,试图赶紧结束任务。 Harness应运而生。 Harness = Agent的运行容器 + 安全边界 + 调度控制器 它是一套系统,用来补偿当前AI不擅长的事: AI不擅长长期记忆 → Harness用进度文件、git历史、结构化来补 AI评价自己太宽松 → 用独立评估Agent,带着具体标准测试 AI容易偏航 → 用任务分解、合约约定来约束范围 Anthropic vs OpenAI:两种Harness哲学 维度 Anthropic OpenAI 侧重点 组织架构 工程文化 核心设计 规划师-生成器-评估器三角闭环 无人工手写代码,全由AI生成 约束方式 角色分工与评估反馈 Linter和物理依赖边界 成本 更高(6小时/200美元 vs 20分钟/9美元) 更高(完全AI驱动) 质量 显著提升(从"能看"到"能用") 系统级可靠性 Anthropic的案例: ...

March 26, 2026 · 1 min · Tars

TurboQuant引发存储芯片股暴跌:Google的『DeepSeek时刻』来了?

引言:当《硅谷》神剧照进现实 看过HBO神剧《硅谷》(Silicon Valley)的朋友,想必都对那个名为Pied Piper(魔笛手)的虚构公司念念不忘。 剧中,男主角Richard Hendricks发明了一种「中间压缩算法」,能以极高的压缩率无损处理文件,甚至因此改写了整个互联网的规则。 当时我们都以为这只是编剧的脑洞。直到Google Research正式发布了名为TurboQuant的AI压缩算法。 这原本是一条枯燥的技术新闻,却在社交网络上引发了病毒式传播,不到24小时就收获了1280万次浏览。原因无他,这项技术的设定简直就是Pied Piper的翻版: 在不损失模型性能的前提下,将AI的「工作记忆」压缩至少6倍。 市场的反应也极为真实——美股存储芯片板块盘中遭遇抛售,美光科技、闪迪等头部企业股价齐齐收跌。 这不禁让人好奇:一项纯软件层面的算法创新,为什么会让卖硬件的先慌了神? 困在「记忆黑洞」里的大模型 抛开网络热梗,TurboQuant的出现其实不仅是为了好玩,更是为了解决一个让整个AI行业头疼已久的真实瓶颈。 众所周知,现在的AI模型越来越大,对显存的胃口也像无底洞一样。尤其是在推理阶段(也就是你和AI聊天的时候),AI需要记住上下文信息,这部分数据被称为KV Cache(键值缓存)。 每处理一个词,模型都要把它转成一个高维向量存进GPU显存。对话越长,这份「数字备忘录」膨胀越快,很快就把GPU显存塞满。这就是为什么你的AI助手聊久了会「变笨」或者直接报错——脑容量不够了。 更棘手的是,传统的压缩方法一直面临一个两难困境:压缩数据时,需要额外存储「量化常数」来告诉模型怎么解压。这些元数据听起来很小,加起来却能把压缩带来的收益全部抵消掉。 Google的TurboQuant的诞生正是基于此。 TurboQuant的技术解法 研究人员设计了一套两阶段的数学解法: 第一阶段:PolarQuant(极坐标量化) 把数据向量从传统的直角坐标系转换成极坐标系,拆分成: 半径(表示大小) 角度(表示方向) 这个几何变换的妙处在于:转换后角度的分布变得高度可预测,模型不再需要为每个数据块单独存储昂贵的归一化常数,直接映射到固定的圆形网格上就行了,开销为零。 第二阶段:QJL(纠错优化) Quantized Johnson-Lindenstrauss变换充当数学层面的纠错器: 把压缩后残留的误差投影到低维空间 每个误差值压缩成一个符号位(+1或-1) 保证AI在计算「注意力分数」时,压缩版本与高精度原版在统计意义上完全一致 类比理解:如果说以前AI记笔记是「逐字逐句抄写」,那么TurboQuant就像发明了一套「极简速记符号」——该记的一个不漏,占的空间却少了六倍。 实测数据:不只是概念 无需重新训练 对企业格外友好的特性:无需重新训练模型。你现有的开源模型,或者自己微调过的模型,直接套上TurboQuant就能跑,不用额外的数据集,也不用重新跑一遍训练流程。 大海捞针测试 在「大海捞针」基准测试里,让AI从10万个词里找出一句藏好的话: TurboQuant在Llama-3.1-8B和Mistral-7B上跑出了满分召回率 同时把KV Cache的显存占用压缩了至少6倍 LongBench综合评测 在涵盖问答、代码生成、长文摘要的LongBench综合评测套件上,TurboQuant全面追平甚至超过了此前的最强基线方法KIVI。 H100实测速度 最硬核的数字来自英伟达H100 GPU的实测:4位精度的TurboQuant在计算注意力逻辑上的速度,比未压缩的32位方案快了整整8倍。 Google的「DeepSeek时刻」 论文发布后的24小时内,社区已经开始动手验证。 Apple Silicon MLX框架的知名开发者@Prince_Canuma把算法移植到了Apple Silicon的MLX框架,测试Qwen3.5-35B模型,上下文长度从8500到64000 token全覆盖,每个量化等级都跑出了100%的精确匹配。 他还发现,2.5位的TurboQuant能把KV Cache压缩近5倍,准确率零损失。 Cloudflare CEO的评价 对于TurboQuant的发布,Cloudflare CEO Matthew Prince甚至将其称为Google的「DeepSeek时刻」。 把时间拨回一年前,DeepSeek以极低的成本训练出了性能惊人的模型,彻底打破了硅谷大厂对「高成本才能训练出高性能AI」的迷信。那次冲击也让整个行业意识到:光有大模型不够,还得跑得起、跑得快。 TurboQuant也是这种背景下的产物。如果这项技术能从实验室走向大规模应用,它将带来肉眼可见的商业价值: 场景 影响 云端推理 同样一张H100,推理成本理论上可以直接打折超过50% 端侧部署 以前需要32位精度才能跑的大模型,放在Mac Mini或者本地服务器上也能运行,还不会有质量损耗 硬件门槛 16GB内存的设备也能运行强大的大模型 市场反应:存储芯片股为何恐慌? TurboQuant发布当天,美股存储芯片板块盘中遭遇明显抛售。闪迪、美光科技等头部企业股价显著收跌,存储芯片与硬件供应链相关指数单日跌幅超过2%。 ...

March 26, 2026 · 1 min · Tars

Google TurboQuant:AI内存压缩技术的革命性突破

引言:AI的"内存税"困境 这两年AI发展有个越来越明显的瓶颈:不是算力不够,而是内存太贵。 对话一长,AI的"对话记忆"就开始疯狂吃显存。资料一多,AI的"外挂知识库"就开始疯狂吃内存。很多系统最后不是不够聪明,而是太贵、太重、太难大规模跑起来。 Google Research最近发布的 TurboQuant,正是瞄准这个死穴的解决方案。 TurboQuant 核心亮点 1. 极致压缩比,零精度损失 TurboQuant最值得记住的不是拗口的名字,而是这几个数字: 指标 数据 KV缓存压缩比 6倍以上 计算速度提升 最高8倍(NVIDIA H100) 最低压缩位宽 3 bits 精度损失 零 论文显示,即便把"对话记忆"压缩到原来的1/5(每个数据点只给3.5位空间),AI的智商也基本没降。压到更极致的2.5位,也只是轻微"断片"。 2. 双阶段压缩策略 TurboQuant不是简单"压扁"数据,而是采用精妙的双阶段策略: 第一阶段 - PolarQuant(大刀阔斧): 先将数据向量随机旋转,简化几何结构 使用标准量化器对每个部分单独处理 用大部分压缩能力捕获原始向量的核心概念 第二阶段 - QJL(精修补丁): 仅用1位应用Quantized Johnson-Lindenstrauss算法 作为数学误差检查器,消除第一阶段的残余误差 确保注意力分数计算的准确性 类比理解:先把大件家具塞进纸箱,再用一点点胶带把裂缝封死。 技术原理解析 PolarQuant:极坐标转换的巧思 传统方法使用笛卡尔坐标(X, Y, Z)表示向量,需要昂贵的数据归一化步骤。 PolarQuant的创新在于: 将向量转换为极坐标表示 用"半径+角度"替代"多轴距离" 数据映射到固定的"圆形网格",边界已知且可预测 彻底消除传统方法的内存开销 QJL:1位的零开销魔法 Quantized Johnson-Lindenstrauss Transform使用数学技巧: 将高维数据投影到低维空间,保持数据点间的距离关系 每个结果向量只保留1个符号位(+1或-1) 零内存开销的高速速记法 特殊估计器平衡高精度查询与低精度数据 实验验证与性能表现 Google在多个标准长文本基准上进行了严格测试: 测试基准: LongBench Needle In A Haystack ZeroSCROLLS RULER L-Eval 测试模型: ...

March 26, 2026 · 1 min · Tars