诸神缄默不语-个人技术博文与视频目录诸神缄默不语的论文阅读笔记和分类算法详情那部分没看完赶今天的速读反正先发了。所以本文没有技术细节只有迅速略读。其实也不太算正在了已经炒一周多了我才发。也许在计算机界还不算太晚但是在金融界已是一轮春秋文章目录1. 论文简介2. LLM的K-V缓存机制3. 向量检索4. TurboQuant方法1. RaBitQ2. TurboQuant算法流程其它参考资料1. 论文简介论文全名TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate谷歌研究官方下载地址https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/ICLR网址https://openreview.net/forum?idtO3ASKZlokArXiv网址https://arxiv.org/abs/2504.19874谷歌刚出的论文2026年3月24日发布于谷歌研究首页并在X开始推广。于2026年1月被 ICLR 2026 会议接收2025年4月时已经在arxiv公开发表核心思想就是提出了一种新的高维向量压缩算法通过向量量化减少数字位数从而减少向量占用的储存空间谷歌号称这能大幅减少LLM K-V缓存占用的内存节省5/6。比绝大多数研究人员反应更快的是股市存储股随后立刻暴跌闪迪美光但众所周知美股也是城里人玩的游戏花活很多感觉是机构炒作的不理智暴跌去年干啥去了概念是“以后需要的储存体更少了”。但是根据杰文斯悖论Jevons Paradox, 一种经济学现象指当技术进步提高资源的使用效率即单位消耗减少时该资源的总消耗量反而不降反升因为成本下降导致使用的人更多如果新算法真的能强力压缩LLM的储存成本那么LLM的训推成本会进一步降低更多玩家会入场LLM也会继续进化包括扩大上下文、更多agent协作反而会导致储存器的需求上升。就像DeepSeek能够低算力、低成本部署结果导致对GPU的需求反而增长了因为更多组织和个人都开始寻求自己部署本地化的DeepSeek大模型了。但是正当大家激烈讨论金融市场时新的技术声音出现了高健扬向量优化算法 RaBitQ 系列研究一作在知乎发文对于Google的 ICLR 2026 TurboQuant 论文我们必须公开澄清 - 知乎也有在X、medium等平台发布开喷质疑造假和抄袭TurboQuant和RaBitQ的核心思想都包含了在量化前对输入向量施加随机旋转random rotation / Johnson-Lindenstrauss 变换但是TurboQuant没有充分讨论RaBitQ描述内容丢附录去了还无理由称RaBitQ效果不好运行对比实验时故意劣化RaBitQ实验条件RaBitQ用Python实现版单线程CPUTurboQuant用A100RaBitQ项目组与TurboQuant项目组进行过多轮邮箱对话但是TurboQuant项目组持续装傻那TurboQuant的这个真实水平就很值得质疑了啊2. LLM的K-V缓存机制大致来说就是LLM用的Transformer模型在自回归auto-regressive推理的时候是一个token一个token生成内容的每一个token计算自注意力时都需要用到之前所有token的表征来计算QKV。但是推理时每个token向量对应的算出来的K和V其实是固定的因为矩阵乘法就是右边的矩阵不变时左边矩阵一行对应过去的值是固定的嘛看上图GIF也可以看得出来所以其实可以把之前计算的所有K和V都给缓存下来这样就可以加速后面的推理过程用空间换时间那现在我们就需要储存一堆缓存向量了。而TurboQuant的思路就是压缩这个缓存向量这样就能节省LLM推理时需要的显存空间。3. 向量检索TurboQuant的story还有一部分是加速向量检索。向量检索就是说我们将对象以向量形式表示比如将文本表示为向量我们有一堆文本就会得到一堆向量然后我们现在有一条新的文本想找到跟这条文本最像的文本那有两种方式一是在文本本身上最像比如有一样的关键词或者最短编辑距离最小二是文本表示向量最相近那就需要通过向量检索算法来找到最近的向量。最直白的找“最近向量”的想法当然就是一个一个算向量相似度如余弦相似度但这样太慢了所以就有很多算法来加速计算。但这不是本文的重点本文的重点是通过压缩这个表示向量能够加速向量检索算法的速度因为计算所需的位数变少了。但是高健扬那篇知乎檄文下面就有回复说在向量检索任务上实测效果不如RaBitQ XD4. TurboQuant方法还没看懂所以只有这点有空我看懂了再细补在介绍TurboQuant之前当然得先介绍一下RaBitQ方法了1. RaBitQ(2024 SIGMOD) RaBitQ: Quantizing High-Dimensional Vectors with a Theoretical Error Bound for Approximate Nearest Neighbor Search扩展版(2025 SIGMOD) Practical and Asymptotically Optimal Quantization of High-Dimensional Vectors in Euclidean Space for Approximate Nearest Neighbor Search从标题其实就可以看出来RaBitQ主要做的就是针对向量检索最近邻搜索的高维向量压缩量化最初版做的是将一个D维向量压缩为D bits 二进制编码。后续扩展版做了标量量化。具体算法有空再详谈吧今天只发跟TurboQuant有关的部分。总之RaBitQ分为两个阶段step 1构建索引向量单位归一化到单位超球体平面上选择单位超立方体顶点作为码本codebook为了避免偏置引入随机旋转矩阵对码本进行旋转得到新的码本后面的还没看懂略。总之注意这个旋转然后我们再转回头来看TurboQuant2. TurboQuant算法流程两阶段量化结构Stage 1: MSE optimal quantization对输入向量做随机正交变换。这一步和 Johnson-Lindenstrauss随机投影思想非常接近。Stage 2: residual 1-bit QJL quantization后面的没仔细看了。总之就是说高健扬的抄袭嫌疑指控其实有理可据。至于实验造假嫌疑那就更明显了RaBitQ本身只有CPU版但是TurboQuant是用A100跑的然后RaBitQ是在单核单进程Python复现版代码上运行的这谁看了不生气图源高健扬知乎。只能说谷歌做事不地道啊其它参考资料Google Research 發表 TurboQuant 的語言模型殺死了記憶體杰文斯悖论的思路来自本篇KV Caching Explained: Optimizing Transformer Inference Efficiency介绍了LLM的KV缓存机制那两个炫酷的GIF就来自本文RabitQ SIGMOD 2024 - 知乎另外还参考了ChatGPT对RaBitQ算法的解读。