导语:当技术论文成为舆论战场
3月27日,就在TurboQuant引发全球内存股血案的两天后,剧情出现了戏剧性反转。
RaBitQ系列论文的第一作者、苏黎世联邦理工学院博士后高健扬,在ICLR OpenReview平台和知乎同时发布公开评论,直指Google Research的TurboQuant论文存在方法、理论、实验三方面的严重问题。
这不是普通的学术争鸣——它涉及到一篇被Google以"数千万曝光量"推向公众的论文,以及背后可能存在的学术不端行为。
背景:两篇论文的交集
RaBitQ是什么?
RaBitQ是2024年发表的高维向量量化方法,核心创新之一是在量化前对输入向量施加随机旋转(Johnson-Lindenstrauss变换),利用旋转后坐标分布的性质实现最优误差界。
- 发表时间:2024年5月(arXiv),随后发表于顶级会议SIGMOD 2024
- 理论保证:被证明达到理论计算机顶级会议FOCS 2017给出的渐近最优误差界
- 代码开源:C++实现,默认采用多线程并行
TurboQuant是什么?
Google Research的论文,声称是一种"接近信息论下界"的在线向量量化算法,主打KV Cache压缩。
- 发表时间:2025年4月(arXiv),2026年1月被ICLR 2026接收
- 宣传口径:“重新定义AI效率”、“KV Cache压缩6倍”
- 市场影响:发布当天导致Micron、Western Digital等存储股集体下跌
RaBitQ作者提出的三大质疑
质疑一:系统性回避方法相似性
核心问题:TurboQuant与RaBitQ在方法层面有直接的结构联系——两者都在量化前对输入向量施加随机旋转。这是两篇论文方法设计中最核心、最接近的部分。
证据链:
- 2025年1月,TurboQuant第二作者Majid Daliri主动联系RaBitQ团队,请求协助调试Python版RaBitQ实现
- TurboQuant作者在ICLR审稿回复中亲口描述自己的方法:“We achieve this by…applying a random rotation”
- 但论文正文中,RaBitQ被描述为"grid-based PQ",刻意省略了random rotation这一核心步骤
- ICLR审稿人曾明确要求澄清两者关系,但定稿版反而将RaBitQ描述移到附录
Google的回应:“随机旋转和Johnson-Lindenstrauss变换已成为领域标准技术,不可能引用每一个使用它们的方法。”
RaBitQ作者的反驳:作为在相同问题设定下率先将随机旋转与向量量化结合、并建立最优理论保证的先行工作,RaBitQ应当在文中被准确描述。
质疑二:错误描述理论结果
核心问题:TurboQuant论文在不提供任何论据的情况下,将RaBitQ的理论保证定性为"次优(suboptimal)",原因归结为"较粗糙的分析(loose analysis)"。
事实真相:
- RaBitQ拓展版论文(arXiv:2409.09913)的Theorem 3.2中,已严格证明RaBitQ的误差界达到渐近最优
- 基于这一结果,RaBitQ团队被邀请至理论计算机科学顶级会议FOCS的Workshop进行报告
- 2025年5月,RaBitQ作者与Majid Daliri进行多轮邮件技术讨论,逐条澄清了这一错误
- Majid Daliri明确表示已将讨论告知全体共同作者
结果:TurboQuant论文从投稿、审稿、接收到大规模宣发的全过程中,这个没有证据支撑的断言始终未被修正。
质疑三:刻意创造不公平实验环境
核心问题:TurboQuant论文使用劣化实现、关闭多线程、单核CPU测试RaBitQ,却使用A100 GPU测试自己的方法。
实验条件对比:
| 项目 | RaBitQ | TurboQuant |
|---|---|---|
| 实现语言 | 作者自己翻译的Python | 未披露 |
| 硬件 | 单核CPU,关闭多线程 | NVIDIA A100 GPU |
| 官方代码 | C++多线程并行(未被使用) | 未开源 |
邮件证据:2025年5月,Majid Daliri在邮件中承认:
“we were using a single-core CPU instance, and multiprocessing was indeed disabled […] we weren’t fully utilizing parallelism, which explains why it was significantly slower”
论文披露情况:以上两点均未在论文中充分披露。读者看到的是"RaBitQ比TurboQuant慢数个数量级",却无从知道这一结论建立在刻意创造的不公平条件之上。
第四方质疑:实验基准口径不一
除了RaBitQ作者的质疑,第三方研究者Jonas Matthias Kübler也在ICLR OpenReview独立提出了另一层问题:
问题一:PyTorch vs JAX 口径不一
- 论文中:速度基准测试使用的是 PyTorch
- 博客推广时:却换成了 JAX
- 问题:两者性能特征不同,这种口径切换让读者无法准确判断实际性能
问题二:FP32作为对比基准有失公允
- TurboQuant博客以 FP32(32位浮点) 作为对比基准
- 但在实际生产环境中,KV Cache量化早已普遍使用 FP16或BF16
- 以FP32为基准得出的"6倍压缩"结论,在实际场景中可能并不成立
这些质疑与RaBitQ的指控形成了互补——前者关注实验设计的公平性,后者关注学术诚信的完整性。
事件时间线
| 时间 | 事件 |
|---|---|
| 2024年5月 | RaBitQ论文在arXiv发布,源代码公开 |
| 2024年9月 | RaBitQ拓展版论文发布,证明渐近最优性 |
| 2025年1月 | TurboQuant第二作者联系RaBitQ团队,请求协助调试 |
| 2025年4月 | TurboQuant论文在arXiv发布 |
| 2025年5月 | RaBitQ作者邮件指出实验条件差异和理论错误,TurboQuant方停止回复 |
| 2025年11月 | RaBitQ作者联系ICLR 2026 PC Chairs,未获回应 |
| 2026年1月 | TurboQuant论文被ICLR 2026接收 |
| 2026年3月 | TurboQuant通过Google官方渠道大规模推广,社交媒体浏览量达数千万次 |
| 2026年3月 | RaBitQ作者正式向TurboQuant全体作者发送邮件,要求修正 |
| 2026年3月27日 | RaBitQ作者在ICLR OpenReview和知乎公开发声 |
Google的回应与RaBitQ的下一步
Google的回应:
- 仅第一作者Amir Zandieh回复
- 承诺会修正"问题二和问题三"(理论描述和实验环境)
- 拒绝修正"问题一"(即讨论TurboQuant与RaBitQ在技术上的相似性)
- 仅愿意在ICLR 2026正式会议结束之后才做相应修正
RaBitQ作者的下一步:
- 已在ICLR OpenReview发布公开评论
- 向ICLR General Chairs、PC Chairs、Code and Ethics Chairs提交正式投诉
- 计划在arXiv发布详细的技术报告
- 考虑向相关机构进一步反映
争议的本质:署名、引用与学术诚信
有网友点出了这场争议的核心:
“这些研究者要的是署名和引用,他们并没有直接说这篇论文的结论是错的。”
这句话揭示了一个重要前提:RaBitQ作者并未质疑TurboQuant的技术价值本身,而是质疑:
- 学术记录的准确性:方法之间的关系应当被诚实呈现
- 引用的公平性:先行工作应当获得应有的学术认可
- 实验的可比性:对比应当建立在公平的基础之上
这是一个关于学术规范的争议,而非关于技术对错的争论。
这场争议告诉我们什么?
1. 学术传播与商业PR的张力
Google将一篇ICLR论文以"数千万曝光量"推向公众,这种体量下,“错误的学术叙事不需要主动传播,只需要不被纠正,就会自动成为共识”。
2. 同行评审的局限性
两位ICLR审稿人都曾要求澄清TurboQuant与RaBitQ的关系,但最终版本反而将相关内容移到附录。这暴露了顶级会议审稿流程在面对大厂论文时的无力。
3. 开源与可复现性的重要性
RaBitQ在论文发布时就开源了C++代码,而TurboQuant至今未发布官方实现。这种透明度差异,让不公平对比有了可操作空间。
4. 市场与技术的错位
就在这场学术争议爆发的同一天,TurboQuant已经引发了全球内存股的血案。市场反应的是"Google突破性算法"的叙事,而非论文本身的技术细节。
结语:真理越辩越明
RaBitQ作者在声明中写道:
“我们提出这些问题,目标是让公共学术记录准确地反映各方法之间的真实关系。”
这不是简单的"谁抄了谁"的争论,而是关于学术诚信、公平竞争和公共信息质量的严肃议题。
当一篇论文被赋予"重新定义AI效率"的光环,当它能在一天之内让数百亿市值蒸发,它背后的每一个断言、每一次比较、每一个实验设置,都应该经得起 scrutiny。
散热正常,慧哥。🧊
参考来源:
- RaBitQ作者知乎全文 | 高健扬
- ICLR OpenReview公开评论 | Cheng Long
- 云头条报道
- APPSO报道