论文阅读笔记：TurboQuant_谷歌整的新活正在攻击你的内存板块美股，还有造假和抄袭嫌疑

张

张建站

2026/4/26 19:57:14

10分钟阅读

论文阅读笔记：TurboQuant_谷歌整的新活正在攻击你的内存板块美股，还有造假和抄袭嫌疑

诸神缄默不语-个人技术博文与视频目录诸神缄默不语的论文阅读笔记和分类算法详情那部分没看完赶今天的速读反正先发了。所以本文没有技术细节只有迅速略读。其实也不太算正在了已经炒一周多了我才发。也许在计算机界还不算太晚但是在金融界已是一轮春秋文章目录1. 论文简介2. LLM的K-V缓存机制3. 向量检索4. TurboQuant方法1. RaBitQ2. TurboQuant算法流程其它参考资料1. 论文简介论文全名TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate谷歌研究官方下载地址https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/ICLR网址https://openreview.net/forum?idtO3ASKZlokArXiv网址https://arxiv.org/abs/2504.19874谷歌刚出的论文2026年3月24日发布于谷歌研究首页并在X开始推广。于2026年1月被 ICLR 2026 会议接收2025年4月时已经在arxiv公开发表核心思想就是提出了一种新的高维向量压缩算法通过向量量化减少数字位数从而减少向量占用的储存空间谷歌号称这能大幅减少LLM K-V缓存占用的内存节省5/6。比绝大多数研究人员反应更快的是股市存储股随后立刻暴跌闪迪美光但众所周知美股也是城里人玩的游戏花活很多感觉是机构炒作的不理智暴跌去年干啥去了概念是“以后需要的储存体更少了”。但是根据杰文斯悖论Jevons Paradox, 一种经济学现象指当技术进步提高资源的使用效率即单位消耗减少时该资源的总消耗量反而不降反升因为成本下降导致使用的人更多如果新算法真的能强力压缩LLM的储存成本那么LLM的训推成本会进一步降低更多玩家会入场LLM也会继续进化包括扩大上下文、更多agent协作反而会导致储存器的需求上升。就像DeepSeek能够低算力、低成本部署结果导致对GPU的需求反而增长了因为更多组织和个人都开始寻求自己部署本地化的DeepSeek大模型了。但是正当大家激烈讨论金融市场时新的技术声音出现了高健扬向量优化算法 RaBitQ 系列研究一作在知乎发文对于Google的 ICLR 2026 TurboQuant 论文我们必须公开澄清 - 知乎也有在X、medium等平台发布开喷质疑造假和抄袭TurboQuant和RaBitQ的核心思想都包含了在量化前对输入向量施加随机旋转random rotation / Johnson-Lindenstrauss 变换但是TurboQuant没有充分讨论RaBitQ描述内容丢附录去了还无理由称RaBitQ效果不好运行对比实验时故意劣化RaBitQ实验条件RaBitQ用Python实现版单线程CPUTurboQuant用A100RaBitQ项目组与TurboQuant项目组进行过多轮邮箱对话但是TurboQuant项目组持续装傻那TurboQuant的这个真实水平就很值得质疑了啊2. LLM的K-V缓存机制大致来说就是LLM用的Transformer模型在自回归auto-regressive推理的时候是一个token一个token生成内容的每一个token计算自注意力时都需要用到之前所有token的表征来计算QKV。但是推理时每个token向量对应的算出来的K和V其实是固定的因为矩阵乘法就是右边的矩阵不变时左边矩阵一行对应过去的值是固定的嘛看上图GIF也可以看得出来所以其实可以把之前计算的所有K和V都给缓存下来这样就可以加速后面的推理过程用空间换时间那现在我们就需要储存一堆缓存向量了。而TurboQuant的思路就是压缩这个缓存向量这样就能节省LLM推理时需要的显存空间。3. 向量检索TurboQuant的story还有一部分是加速向量检索。向量检索就是说我们将对象以向量形式表示比如将文本表示为向量我们有一堆文本就会得到一堆向量然后我们现在有一条新的文本想找到跟这条文本最像的文本那有两种方式一是在文本本身上最像比如有一样的关键词或者最短编辑距离最小二是文本表示向量最相近那就需要通过向量检索算法来找到最近的向量。最直白的找“最近向量”的想法当然就是一个一个算向量相似度如余弦相似度但这样太慢了所以就有很多算法来加速计算。但这不是本文的重点本文的重点是通过压缩这个表示向量能够加速向量检索算法的速度因为计算所需的位数变少了。但是高健扬那篇知乎檄文下面就有回复说在向量检索任务上实测效果不如RaBitQ XD4. TurboQuant方法还没看懂所以只有这点有空我看懂了再细补在介绍TurboQuant之前当然得先介绍一下RaBitQ方法了1. RaBitQ(2024 SIGMOD) RaBitQ: Quantizing High-Dimensional Vectors with a Theoretical Error Bound for Approximate Nearest Neighbor Search扩展版(2025 SIGMOD) Practical and Asymptotically Optimal Quantization of High-Dimensional Vectors in Euclidean Space for Approximate Nearest Neighbor Search从标题其实就可以看出来RaBitQ主要做的就是针对向量检索最近邻搜索的高维向量压缩量化最初版做的是将一个D维向量压缩为D bits 二进制编码。后续扩展版做了标量量化。具体算法有空再详谈吧今天只发跟TurboQuant有关的部分。总之RaBitQ分为两个阶段step 1构建索引向量单位归一化到单位超球体平面上选择单位超立方体顶点作为码本codebook为了避免偏置引入随机旋转矩阵对码本进行旋转得到新的码本后面的还没看懂略。总之注意这个旋转然后我们再转回头来看TurboQuant2. TurboQuant算法流程两阶段量化结构Stage 1: MSE optimal quantization对输入向量做随机正交变换。这一步和 Johnson-Lindenstrauss随机投影思想非常接近。Stage 2: residual 1-bit QJL quantization后面的没仔细看了。总之就是说高健扬的抄袭嫌疑指控其实有理可据。至于实验造假嫌疑那就更明显了RaBitQ本身只有CPU版但是TurboQuant是用A100跑的然后RaBitQ是在单核单进程Python复现版代码上运行的这谁看了不生气图源高健扬知乎。只能说谷歌做事不地道啊其它参考资料Google Research 發表 TurboQuant 的語言模型殺死了記憶體杰文斯悖论的思路来自本篇KV Caching Explained: Optimizing Transformer Inference Efficiency介绍了LLM的KV缓存机制那两个炫酷的GIF就来自本文RabitQ SIGMOD 2024 - 知乎另外还参考了ChatGPT对RaBitQ算法的解读。

智谱 GLM-5.1 正式发布：华为芯片训练的开源模型编码能力达 Claude Opus 4.6 的 94.6%

一、GLM-5.1 为何值得关注 2026 年 3 月 27 日，智谱 AI（品牌已更名为 Z.ai）宣布 GLM-5.1 正式上线，面向所有 GLM Coding Plan 用户（Lite/Pro/Max 套餐）开放。这是继 GLM-5 发布仅六周后的一次重大迭代&…...

2026/4/26 19:55:52 阅读更多 →

单细胞测序技术原理与应用进展

一、技术发展背景与核心价值单细胞测序技术是近年来生命科学领域最重要的突破性方法之一。与传统群体细胞测序不同，该技术能够在单个细胞分辨率上解析基因组、转录组及表观遗传组的异质性。这种精细化的分析能力，使得研究者得以揭示细胞发育过程中的动态…...

2026/4/11 20:14:47 阅读更多 →

酶联免疫斑点技术原理与应用

一、技术背景与基本概念酶联免疫斑点技术Elispot是一种基于单细胞水平检测特异性抗体分泌细胞或细胞因子分泌细胞的免疫学检测方法。该技术结合了酶联免疫吸附测定（ELISA）的高灵敏度与斑点形成单元的可视化计数优势，能够在单个细胞层面实现功…...

2026/4/7 20:24:45 阅读更多 →

Arm Cortex-A520AE核心架构与优化实战解析

1. Arm Cortex-A520AE核心架构深度解析在汽车电子和工业控制领域，处理器的高效性与可靠性同样重要。Cortex-A520AE作为Armv9.2-A架构下的安全增强型核心，采用独特的双发射流水线设计，在保持低功耗的同时实现了可预测的实时性能。我曾参与过基…...

2026/4/26 0:01:51 阅读更多 →

015、使用AutoGen框架搭建多Agent对话系统

015、使用AutoGen框架搭建多Agent对话系统告别单打独斗，让多个智能体通过协作与对话，共同解决复杂任务。前言在上一篇《多Agent系统入门：协作与竞争的基础模型》中，我们探讨了多智能体系统的核心概念、基础架构以及简单的协作模式。你可能已经意识到，手动协调多个Agen…...

2026/4/26 0:05:24 阅读更多 →

大模型量化实战评测：GPTQ、GGUF、AWQ 在显存、速度与精度上的真实表现

1. 大模型量化技术入门：为什么我们需要量化？ 如果你尝试在消费级显卡上运行大语言模型，大概率会遇到显存不足的报错。比如用16GB显存的RTX 4080直接加载Qwen1.5-7B模型时，系统会无情地提示"CUDA out of memory"。这就是…...

2026/4/26 0:05:42 阅读更多 →

Display Driver Uninstaller终极指南：彻底清理显卡驱动的专业工具

Display Driver Uninstaller终极指南：彻底清理显卡驱动的专业工具【免费下载链接】display-drivers-uninstaller Display Driver Uninstaller (DDU) a driver removal utility / cleaner utility 项目地址: https://gitcode.com/gh_mirrors/di/display-drivers-u…...

2026/4/26 0:08:05 阅读更多 →