Google TurboQuant内存压缩技术:能省内存但救不了DRAM价格危机
当Google发布TurboQuant这项AI数据压缩技术时承诺能大幅减少模型服务所需的内存量许多人希望它能缓解内存短缺问题——自去年以来内存价格已经涨了三倍。但事实并非如此。TurboQuant并不是你期待的救星。尽管如此这项底层技术仍然值得深入了解因为它对模型开发者和推理服务提供商有重大影响。TurboQuant到底是什么在Google研究人员最近发布的博客文章中详细介绍TurboQuant本质上是一种将生成式AI中使用的数据从高精度压缩到低精度的方法这种方法通常被称为量化。据研究人员称TurboQuant有潜力将推理过程中的内存消耗减少至少6倍这在DRAM和NAND价格创历史新高的时刻是一个大胆的声明。然而与大多数量化方法不同TurboQuant并不缩小模型本身。相反它旨在减少存储键值KV缓存所需的内存量这些缓存用于在大语言模型推理过程中维护上下文。简单来说KV缓存有点像模型的短期记忆。例如在聊天会话中KV缓存是模型跟踪对话的方式。问题在于这些KV缓存可能会快速堆积通常消耗比模型本身更多的内存。通常这些KV缓存以16位精度存储因此如果你能将存储它们所用的位数压缩到8位甚至4位就可以将所需内存减少2到4倍。虽然TurboQuant确实让人们关注到KV缓存量化但整体概念并不新颖。事实上推理引擎出于这些原因以FP8格式存储KV缓存是相当常见的。然而这种量化并非免费的。更低的精度意味着用更少的位来存储键值因此需要更少的内存。这些量化方法也往往会带来自己的性能开销。这正是TurboQuant创新的真正所在。Google声称它可以仅使用3.5位就能达到与BF16相似的质量同时还能缓解那些讨厌的开销。在4位时他们声称在H100上计算注意力对数时可以获得多达8倍的速度提升这些对数用于决定上下文中什么对请求重要或不重要。研究人员并没有止步于此。在测试中他们发现可以将KV缓存压缩到2.5位质量损失最小这就是声称的6倍内存减少的来源。它是如何工作的TurboQuant通过结合两种数学方法来实现这一壮举量化约翰逊-林登施特劳斯QJL和PolarQuant。PolarQuant的工作原理是将KV缓存向量这些只是幅度和方向的高维数学表达式映射到使用极坐标而不是笛卡尔坐标的圆形网格上。Google的博客文章解释道这相当于将向东走3个街区向北走4个街区替换为总共走5个街区角度为37度。使用这种方法向量的幅度和方向现在由其半径和角度表示这家搜索巨头解释说这消除了与数据标准化相关的内存开销因为每个向量现在共享一个共同的参考点。除了PolarQuantGoogle还使用QJL来纠正第一阶段引入的任何错误并保持模型用于确定什么信息对服务请求重要或不重要的注意力分数的准确性。结果是这些向量可以使用一小部分内存来存储。而且这项技术也不仅限于KV缓存。据Google称该技术对搜索引擎使用的向量数据库也有影响。为什么TurboQuant不会拯救我们摆脱内存混乱凭借声称的6:1压缩比华尔街的许多人将内存制造商的下行螺旋与TurboQuant的推出联系起来也就不足为奇了。但是虽然这项技术可能会使AI推理集群更加高效因此运营成本更低但它不太可能抑制对用于存储这些KV缓存的NAND闪存和DRAM内存的需求。一年前像DeepSeek R1这样的开放权重模型提供的上下文窗口范围从64,000到256,000个Token。如今找到拥有超过一百万Token上下文窗口的开放模型并不罕见。TurboQuant可能允许推理提供商使用更少的内存或者让他们服务具有更大上下文窗口的模型。随着代码助手和像OpenClaw这样的智能体框架推动对更大上下文窗口的需求后者对我们来说似乎更有可能。看起来TrendForce的行业观察家们也会同意这一观点。在本周早些时候发布的报告中他们预测TurboQuant将激发对长上下文应用的需求从而推动对更多内存的需求而不是抑制它。QAQ1TurboQuant是什么技术ATurboQuant是Google开发的AI数据压缩技术本质上是一种将生成式AI中使用的数据从高精度压缩到低精度的量化方法。它主要用于减少存储键值KV缓存所需的内存量可以将推理过程中的内存消耗减少至少6倍。Q2TurboQuant如何实现如此高的压缩比ATurboQuant结合了两种数学方法量化约翰逊-林登施特劳斯QJL和PolarQuant。PolarQuant将KV缓存向量映射到使用极坐标的圆形网格上消除了数据标准化的内存开销。QJL则用于纠正第一阶段引入的错误保持注意力分数的准确性。Q3TurboQuant能解决内存价格上涨问题吗A不能。虽然TurboQuant可以提高AI推理集群的效率但它不太可能抑制对DRAM内存的需求。随着模型上下文窗口从几万Token增长到超过百万Token以及代码助手和智能体框架的发展TurboQuant更可能被用于服务更大上下文窗口的模型而不是减少内存使用。