Mull-Tokens用几十个万能隐式Token让VLM自由思考空间推理—— 论文原文Mull-Tokens: Modality-Agnostic Latent ThinkingAuthors: Arijit Ray, Ahmed Abdelkader, Chengzhi Mao, Bryan A. Plummer, Kate Saenko, Ranjay Krishna, Leonidas Guibas, Wen-Sheng Chu | Venue: CVPR 2026 (Findings Track)分类: cs.CV, cs.AI 热点: 模态无关推理 | 潜在推理token | 空间推理 | 推理范式Project: https://arijitray.com/multimodal_thinking/arXiv: https://arxiv.org/pdf/2512.10941v2图2: Mull-Tokens三阶段训练流程。(左)Stage 1 warm-up对齐图文混合推理轨迹(右)Stage 2/3 relaxed训练仅监督最终答案让隐层自由优化。论文定位多模态大模型的空间推理是公认难题纯文本 Chain-of-Thought 在视觉任务中经常跑偏而生成中间图像作为推理步骤又昂贵且脆弱。来自 Google Research 多所高校的团队提出了一种简洁替代方案——Mull-Tokens即模态无关的潜在推理 Token。这些 Token 可自由携带图像或文本信息作为模型的隐式草稿纸进行内部计算无需显式解码为图像或文字。属于潜在空间推理这一新兴方向的代表工作CVPR 2026 Findings Track 接收。图1: 与纯文本推理、图文交错推理相比模态无关的Mull-Tokens在空间推理上取得显著提升(16%)。研究问题1)核心矛盾空间推理拼图、IQ测试、视角变换、距离判断本质上需要视觉符号两种思维模态的协同纯文本CoT容易脱离视觉输入而生成式视觉思维中间图像需要昂贵的统一模型或专用工具且泛化差。2)现有方法不足文本CoT在视觉任务上反而损害性能表1显示TextCoT比直接答案微调还差1.97%图文交错推理如MIRAGE虽然引入视觉latent但模型很少真正切换到图像思维即使强制切换也降低性能。3)作者核心洞见与其显式地在文本和图像之间切换不如让模型自由选择在模态无关的隐空间中推理——既保留视觉信息又享受文本的符号操作能力。一核心思想在模型中插入少量(20-40个)模态无关的特殊Token作为隐式思维草稿纸通过预热放松训练RL三个阶段让模型自由地在隐空间中进行多模态推理。方法拆解输入(Input): 图像文本查询K个特殊token序列。核心机制: 三阶段训练——(1) Stage 1 Warm-up: 利用现有图文交错推理数据(Zebra-CoT, Video-R1)让每个 token模仿对应推理步骤的文本词或图像embedding。文本步用交叉熵图像步用cosine相似度对齐图像encoder输出。这是关键——让token学会携带多模态信息。(2) Stage 2 Relaxed训练: 去掉中间推理步骤的监督只优化最终答案的对数似然。K固定为一个小常数(20)将整个推理轨迹压缩到紧凑隐空间。注意力机制让token之间形成丰富内部思维链。(3) Stage 3 GRPO强化学习: 对产生正确答案的隐式轨迹给予奖励让token学习因果性地导向正确答案。输出: 最终答案文本序列。关键创新点1)首次提出模态无关的潜在推理Token设计——既不同于纯文本CoT也不同于针对特定模态如图像的visual latentMull-Tokens能够在隐空间中自由承载图像或文本信息兼具两者优势。2)两阶段RL的三步训练范式warm-up植入多模态信息 - relaxed训练释放自由度 - GRPO强化推理因果性。特别地消融实验(表2)证明多模态预热(MM warm-up)至关重要无预热性能甚至低于基线(direct answer fine-tuning)。3)极高token效率仅需20个mull tokenvs文本CoT的200-500个推理速度显著提升实现Pareto最优。4)离散token设计vs连续隐向量如Coconut兼容Transformer并行计算避免循环传播的误差累积。实验结果在四个空间推理基准(BLINK, SAT-Real, VSI-Bench, ERQA)上全面评估。核心结果(表1): Mull-Tokens平均提升3.05%文本CoT反而-1.97%图文交错推理-0.38%。最突出的是推理密集型任务BLINK Jigsaw拼图提升15.34%BLINK IQ测试提升2.00%BLINK多视图推理提升7.69%。GRPO强化学习进一步在推理heavy splits上提升(表1 row g vs f: 16.01% vs 15.34% on Jigsaw)。在泛化性上(表3): MMSI-Bench多图像推理提升8.0%(属性判断)SiteBench提升2.1%。消融(表2): 对比无预热(DirAns: 48.6)、无预热(45.2)、纯文本预热(52.9)、多模态预热(56.4)——模态预热远超others。token数量消融10-40个即可达到最佳效果。表1: 主实验结果——Mull-Tokens (row f/g) 在所有基准上超越Direct Answer、TextCoT、Interleave Im-Txt。图3: 训练数据示例——Zebra-CoT图文交错推理轨迹与基准测试样例。解读这篇工作的思路非常优雅为什么一定要让模型说出来或画出来才能思考Mull-Tokens本质上是在模型中开设了一个内部思维通道让隐层自己决定如何计算。特别是多模态预热放松训练的两阶段设计——先给线索再让其自由发展——是一个很有启发性的训练范式。不过3%的绝对提升在实用层面并不惊艳且需要专用训练数据来预热。真正的价值在于证明了模态无关隐式推理的可行性为后续工作打开了方向——比如如何让token数量自适应、如何扩展到更多模态。值得关注Google团队在该方向接下来的工作。——————————————————————————————创新评级☆☆