CVPR 2026 | 浙大阿里新框架:只看图片就能学会压缩Token!压缩率90%
点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐MetaCompress团队 投稿 凹非寺转载自量子位QbitAI多轮视觉问答正在成为LVLM推理效率的“照妖镜”。第一轮关注人物第二轮追问背景第三轮讨论构图但现有压缩方法在多轮场景下集体翻车。为应对这一挑战浙江大学宋明黎教授团队与阿里巴巴集团安全部联合提出了MetaCompress——一套面向多轮视觉问答的学习式Token压缩框架被CVPR 2026录用。研究背景视觉Token带来的算力爆炸当前主流LVLM如LLaVA-NeXT通过多尺度视觉输入实现了极强的细粒度视觉理解能力但也伴随视觉Token数量的指数级增长。而Transformer中多头注意力的计算复杂度与序列长度呈平方关系海量视觉Token直接导致Token生成延迟显著升高实时交互体验极差显存占用与计算量居高不下难以在端侧、资源受限设备上部署多轮对话中KV缓存的复用成本随Token数量线性增长对话轮次越多效率越低单轮→多轮现有方法的核心失效场景现有Token压缩技术虽已取得不少进展但都只针对单轮视觉问答场景设计。在单轮问答中模型只需回答一次性问题因此可以“贪婪地”只保留与当前问题相关的Token丢弃其余信息。但在真实的人机交互场景中团队与模型的对话大多是多轮视觉问答模式。在这种对话里模型无法预判用户的后续提问问题可能指向图片中的任意区域第一轮对话用户或许只关注画面前景的人物到了第二轮就会追问背景里的建筑细节第三轮甚至会问到整张图片的色调与构图风格。正是这种开放式的对话特性让现有的两类主流Token压缩方法直接陷入了困境Prompt依赖型方法如FastV仅根据首轮文本Prompt筛选Token天然偏向初始问题极易丢弃后续轮次需要的关键视觉信息直接导致多轮对话里模型性能断崖式下跌Prompt无关型方法如PruMerge仅基于视觉Token之间的相似性信息做压缩理论上可适配多轮视觉问答场景但完全依赖人工先验设计的启发式准则如注意力分数缺乏理论指导注意力分数真的是Token压缩的最优指引吗基于Prompt无关型方法可以适配多轮场景团队重新审视Prompt无关型方法的Token压缩准则。现有绝大多数Prompt无关型方法都把“对CLS token或者文本Prompt Token的注意力分数”作为视觉Token保留的核心依据——注意力分数越高视觉Token越重要。但这个被广泛沿用的启发式设计真的符合多轮视觉问答的需求吗研究成果关键洞察启发式注意力指引本质是次优的团队首先进行底层的理论范式统一所有Token操作无论是剪枝Token Pruning还是合并Token Merging都可以被公式化为一个可学习的压缩映射优化问题。简单来说视觉Token缩减的核心目标就是找到一个最优的压缩矩阵P将原始n个视觉Token压缩为m个m≪n使得压缩前后LVLMs对文本Prompt输入的响应分布差异最小。基于这个统一的公式化定义团队为每张图片单独学习了最优压缩矩阵再分析“最优策略保留的Token”与“启发式注意力分数”之间的关联。上图中a为最优压缩矩阵训练的整体Pipelineb为最优压缩保留的Token与所有Token对CLS Token的注意力分布c为最优压缩保留的Token与所有Token对文本Prompt Token的注意力分布实验结果显示绝大多数被最优压缩策略保留的Token与注意力分数没有明显相关性。即便有少量高注意力Token被保留占比也仅为1.71%。这个核心发现说明了依赖人工先验的启发式注意力分数准则在多轮对话场景下并非最优Token保留策略。团队最终确定必须跳出人工设计的桎梏用数据驱动的方式学习通用的最优Token压缩映射。MetaCompress面向多轮视觉问答的学习式Token压缩框架基于上述洞察团队提出了MetaCompress。核心设计目标非常明确仅根据输入图像本身生成最优的压缩映射在大幅缩减Token数量的同时完整保留应对未知多轮提问的通用视觉信息。△左MetaCompress整体架构图右MetaCompress整体训练Pipeline当前主流的LVLMs普遍采用多尺度视觉塔来提升细粒度理解能力输入图片的分辨率会动态变化对应的视觉Token数量也不固定这给压缩策略的生成带来了核心挑战固定的人工压缩规则根本无法适配灵活多变的输入。为此团队设计了一个轻量级元生成器来解决这一痛点——无论输入图片的分辨率是多少、对应多少个视觉Token它都能自适应生成匹配当前输入的最优压缩映射可兼容LLaVA-NeXT等主流多尺度LVLMs架构。元生成器的核心逻辑分为三点多尺度适配通过自适应下采样实现灵活匹配不同视觉Token数量兼容主流LVLMs多尺度架构同时强化Token的空间位置信息避免压缩时过度破坏图像的空间结构自适应生成压缩策略通过轻量化的特征投影自主学习视觉Token的重要程度全程靠数据驱动找到最优压缩方案不用人工预设的规则来判断Token的取舍轻量化架构整体仅由少量线性投影层构成额外计算开销几乎可忽略在压缩Token降本提速的同时完全不影响模型原本的推理速度实验验证团队在多个多轮视觉问答基准上覆盖了多款主流LVLM架构的不同规模模型完成了全面的实验验证。结果显示精度表现即使在70%和90% Token的高压缩率下MetaCompress效果远优于现有主流Token压缩方法推理效率Token生成延迟、端到端推理耗时、显存占用等核心指标与等距下采样方法持平几乎不会产生额外的推理开销泛化能力在未参与训练的评测基准、跨数据集及视频问答任务中无需额外微调效果仍优于对比方法展现出良好的跨场景迁移性△Token压缩方法在不同压缩率下MT-GQA数据集的平均精度对比曲线图这项工作针对多轮视觉问答场景下LVLMs的视觉Token压缩问题提供了一套数据驱动的解决方案。MetaCompress面向多轮视觉问答的学习式Token压缩框架无需依赖人工先验和启发式准则可实现端到端的压缩映射学习。同时仅需少量训练数据与算力开销即可在Token压缩率与模型精度之间实现良好的平衡。作者简介本文第一作者为浙江大学计算机科学与技术学院博士生王毅研究方向为多模态大模型及其加速。其导师为浙江大学宋明黎教授导师组成员包括宋杰副教授、张皓飞研究员。主要合作者为来自阿里巴巴集团安全部的汪维、金炫。论文链接https://arxiv.org/abs/2603.21701代码仓库https://github.com/MArSha1147/MetaCompress本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号 整理不易请点赞和在看