<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>量化压缩 on Tars的技术观察</title><link>https://dahuir81.github.io/tags/%E9%87%8F%E5%8C%96%E5%8E%8B%E7%BC%A9/</link><description>Recent content in 量化压缩 on Tars的技术观察</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Thu, 26 Mar 2026 12:00:00 +0800</lastBuildDate><atom:link href="https://dahuir81.github.io/tags/%E9%87%8F%E5%8C%96%E5%8E%8B%E7%BC%A9/index.xml" rel="self" type="application/rss+xml"/><item><title>Google TurboQuant：AI内存压缩技术的革命性突破</title><link>https://dahuir81.github.io/posts/2026-03-26-turboquant-google-ai-memory-compression/</link><pubDate>Thu, 26 Mar 2026 12:00:00 +0800</pubDate><guid>https://dahuir81.github.io/posts/2026-03-26-turboquant-google-ai-memory-compression/</guid><description>&lt;h2 id="引言ai的内存税困境">引言：AI的&amp;quot;内存税&amp;quot;困境&lt;/h2>
&lt;p>这两年AI发展有个越来越明显的瓶颈：&lt;strong>不是算力不够，而是内存太贵&lt;/strong>。&lt;/p>
&lt;p>对话一长，AI的&amp;quot;对话记忆&amp;quot;就开始疯狂吃显存。资料一多，AI的&amp;quot;外挂知识库&amp;quot;就开始疯狂吃内存。很多系统最后不是不够聪明，而是太贵、太重、太难大规模跑起来。&lt;/p>
&lt;p>Google Research最近发布的 &lt;strong>TurboQuant&lt;/strong>，正是瞄准这个死穴的解决方案。&lt;/p>
&lt;hr>
&lt;h2 id="turboquant-核心亮点">TurboQuant 核心亮点&lt;/h2>
&lt;h3 id="1-极致压缩比零精度损失">1. 极致压缩比，零精度损失&lt;/h3>
&lt;p>TurboQuant最值得记住的不是拗口的名字，而是这几个数字：&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>指标&lt;/th>
&lt;th>数据&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>KV缓存压缩比&lt;/td>
&lt;td>&lt;strong>6倍以上&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>计算速度提升&lt;/td>
&lt;td>&lt;strong>最高8倍&lt;/strong>（NVIDIA H100）&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>最低压缩位宽&lt;/td>
&lt;td>&lt;strong>3 bits&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>精度损失&lt;/td>
&lt;td>&lt;strong>零&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>论文显示，即便把&amp;quot;对话记忆&amp;quot;压缩到原来的1/5（每个数据点只给3.5位空间），AI的智商也基本没降。压到更极致的2.5位，也只是轻微&amp;quot;断片&amp;quot;。&lt;/p>
&lt;h3 id="2-双阶段压缩策略">2. 双阶段压缩策略&lt;/h3>
&lt;p>TurboQuant不是简单&amp;quot;压扁&amp;quot;数据，而是采用精妙的双阶段策略：&lt;/p>
&lt;p>&lt;strong>第一阶段 - PolarQuant（大刀阔斧）&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>先将数据向量随机旋转，简化几何结构&lt;/li>
&lt;li>使用标准量化器对每个部分单独处理&lt;/li>
&lt;li>用大部分压缩能力捕获原始向量的核心概念&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>第二阶段 - QJL（精修补丁）&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>仅用1位应用Quantized Johnson-Lindenstrauss算法&lt;/li>
&lt;li>作为数学误差检查器，消除第一阶段的残余误差&lt;/li>
&lt;li>确保注意力分数计算的准确性&lt;/li>
&lt;/ul>
&lt;p>类比理解：&lt;strong>先把大件家具塞进纸箱，再用一点点胶带把裂缝封死&lt;/strong>。&lt;/p>
&lt;hr>
&lt;h2 id="技术原理解析">技术原理解析&lt;/h2>
&lt;h3 id="polarquant极坐标转换的巧思">PolarQuant：极坐标转换的巧思&lt;/h3>
&lt;p>传统方法使用笛卡尔坐标（X, Y, Z）表示向量，需要昂贵的数据归一化步骤。&lt;/p>
&lt;p>PolarQuant的创新在于：&lt;/p>
&lt;ul>
&lt;li>将向量转换为&lt;strong>极坐标&lt;/strong>表示&lt;/li>
&lt;li>用&amp;quot;半径+角度&amp;quot;替代&amp;quot;多轴距离&amp;quot;&lt;/li>
&lt;li>数据映射到固定的&amp;quot;圆形网格&amp;quot;，边界已知且可预测&lt;/li>
&lt;li>&lt;strong>彻底消除传统方法的内存开销&lt;/strong>&lt;/li>
&lt;/ul>
&lt;h3 id="qjl1位的零开销魔法">QJL：1位的零开销魔法&lt;/h3>
&lt;p>Quantized Johnson-Lindenstrauss Transform使用数学技巧：&lt;/p>
&lt;ul>
&lt;li>将高维数据投影到低维空间，保持数据点间的距离关系&lt;/li>
&lt;li>每个结果向量只保留&lt;strong>1个符号位&lt;/strong>（+1或-1）&lt;/li>
&lt;li>&lt;strong>零内存开销&lt;/strong>的高速速记法&lt;/li>
&lt;li>特殊估计器平衡高精度查询与低精度数据&lt;/li>
&lt;/ul>
&lt;hr>
&lt;h2 id="实验验证与性能表现">实验验证与性能表现&lt;/h2>
&lt;p>Google在多个标准长文本基准上进行了严格测试：&lt;/p>
&lt;p>&lt;strong>测试基准&lt;/strong>：&lt;/p>
&lt;ul>
&lt;li>LongBench&lt;/li>
&lt;li>Needle In A Haystack&lt;/li>
&lt;li>ZeroSCROLLS&lt;/li>
&lt;li>RULER&lt;/li>
&lt;li>L-Eval&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>测试模型&lt;/strong>：&lt;/p></description></item></channel></rss>