Mull-Tokens：用几十个“万能“隐式Token让VLM自由思考空间推理

张

张建站

2026/5/15 1:53:04

10分钟阅读

Mull-Tokens用几十个万能隐式Token让VLM自由思考空间推理—— 论文原文Mull-Tokens: Modality-Agnostic Latent ThinkingAuthors: Arijit Ray, Ahmed Abdelkader, Chengzhi Mao, Bryan A. Plummer, Kate Saenko, Ranjay Krishna, Leonidas Guibas, Wen-Sheng Chu | Venue: CVPR 2026 (Findings Track)分类: cs.CV, cs.AI 热点: 模态无关推理 | 潜在推理token | 空间推理 | 推理范式Project: https://arijitray.com/multimodal_thinking/arXiv: https://arxiv.org/pdf/2512.10941v2图2: Mull-Tokens三阶段训练流程。(左)Stage 1 warm-up对齐图文混合推理轨迹(右)Stage 2/3 relaxed训练仅监督最终答案让隐层自由优化。论文定位多模态大模型的空间推理是公认难题纯文本 Chain-of-Thought 在视觉任务中经常跑偏而生成中间图像作为推理步骤又昂贵且脆弱。来自 Google Research 多所高校的团队提出了一种简洁替代方案——Mull-Tokens即模态无关的潜在推理 Token。这些 Token 可自由携带图像或文本信息作为模型的隐式草稿纸进行内部计算无需显式解码为图像或文字。属于潜在空间推理这一新兴方向的代表工作CVPR 2026 Findings Track 接收。图1: 与纯文本推理、图文交错推理相比模态无关的Mull-Tokens在空间推理上取得显著提升(16%)。研究问题1)核心矛盾空间推理拼图、IQ测试、视角变换、距离判断本质上需要视觉符号两种思维模态的协同纯文本CoT容易脱离视觉输入而生成式视觉思维中间图像需要昂贵的统一模型或专用工具且泛化差。2)现有方法不足文本CoT在视觉任务上反而损害性能表1显示TextCoT比直接答案微调还差1.97%图文交错推理如MIRAGE虽然引入视觉latent但模型很少真正切换到图像思维即使强制切换也降低性能。3)作者核心洞见与其显式地在文本和图像之间切换不如让模型自由选择在模态无关的隐空间中推理——既保留视觉信息又享受文本的符号操作能力。一核心思想在模型中插入少量(20-40个)模态无关的特殊Token作为隐式思维草稿纸通过预热放松训练RL三个阶段让模型自由地在隐空间中进行多模态推理。方法拆解输入(Input): 图像文本查询K个特殊token序列。核心机制: 三阶段训练——(1) Stage 1 Warm-up: 利用现有图文交错推理数据(Zebra-CoT, Video-R1)让每个 token模仿对应推理步骤的文本词或图像embedding。文本步用交叉熵图像步用cosine相似度对齐图像encoder输出。这是关键——让token学会携带多模态信息。(2) Stage 2 Relaxed训练: 去掉中间推理步骤的监督只优化最终答案的对数似然。K固定为一个小常数(20)将整个推理轨迹压缩到紧凑隐空间。注意力机制让token之间形成丰富内部思维链。(3) Stage 3 GRPO强化学习: 对产生正确答案的隐式轨迹给予奖励让token学习因果性地导向正确答案。输出: 最终答案文本序列。关键创新点1)首次提出模态无关的潜在推理Token设计——既不同于纯文本CoT也不同于针对特定模态如图像的visual latentMull-Tokens能够在隐空间中自由承载图像或文本信息兼具两者优势。2)两阶段RL的三步训练范式warm-up植入多模态信息 - relaxed训练释放自由度 - GRPO强化推理因果性。特别地消融实验(表2)证明多模态预热(MM warm-up)至关重要无预热性能甚至低于基线(direct answer fine-tuning)。3)极高token效率仅需20个mull tokenvs文本CoT的200-500个推理速度显著提升实现Pareto最优。4)离散token设计vs连续隐向量如Coconut兼容Transformer并行计算避免循环传播的误差累积。实验结果在四个空间推理基准(BLINK, SAT-Real, VSI-Bench, ERQA)上全面评估。核心结果(表1): Mull-Tokens平均提升3.05%文本CoT反而-1.97%图文交错推理-0.38%。最突出的是推理密集型任务BLINK Jigsaw拼图提升15.34%BLINK IQ测试提升2.00%BLINK多视图推理提升7.69%。GRPO强化学习进一步在推理heavy splits上提升(表1 row g vs f: 16.01% vs 15.34% on Jigsaw)。在泛化性上(表3): MMSI-Bench多图像推理提升8.0%(属性判断)SiteBench提升2.1%。消融(表2): 对比无预热(DirAns: 48.6)、无预热(45.2)、纯文本预热(52.9)、多模态预热(56.4)——模态预热远超others。token数量消融10-40个即可达到最佳效果。表1: 主实验结果——Mull-Tokens (row f/g) 在所有基准上超越Direct Answer、TextCoT、Interleave Im-Txt。图3: 训练数据示例——Zebra-CoT图文交错推理轨迹与基准测试样例。解读这篇工作的思路非常优雅为什么一定要让模型说出来或画出来才能思考Mull-Tokens本质上是在模型中开设了一个内部思维通道让隐层自己决定如何计算。特别是多模态预热放松训练的两阶段设计——先给线索再让其自由发展——是一个很有启发性的训练范式。不过3%的绝对提升在实用层面并不惊艳且需要专用训练数据来预热。真正的价值在于证明了模态无关隐式推理的可行性为后续工作打开了方向——比如如何让token数量自适应、如何扩展到更多模态。值得关注Google团队在该方向接下来的工作。——————————————————————————————创新评级☆☆

如何快速实现跨平台输入法词库转换：开源工具的完整指南

如何快速实现跨平台输入法词库转换：开源工具的完整指南【免费下载链接】imewlconverter ”深蓝词库转换“ 一款开源免费的输入法词库转换程序项目地址: https://gitcode.com/gh_mirrors/im/imewlconverter 你是否曾经因为更换操作系统或输入法而丢失了多年…...

2026/5/15 1:51:04 阅读更多 →

智能体分层记忆系统：从理论到工程实践

1. 项目概述：从“分层记忆”到智能体记忆系统的工程实践最近在折腾智能体（Agent）相关的项目，发现一个绕不开的核心难题：记忆管理。无论是构建一个能持续对话的聊天机器人，还是一个能自主完成复杂任务的自动…...

2026/5/15 1:47:07 阅读更多 →

JESD204B高速串行接口技术解析与应用实践

1. JESD204B接口技术深度解析JESD204B作为第三代高速串行接口标准，正在彻底改变数据转换器与逻辑器件之间的连接方式。我在实际项目中使用过ADC16DX370和DAC38J84等多款支持JESD204B的器件，深刻体会到这种接口带来的设计变革。相比传统的LVDS或CMOS并行接…...

2026/5/15 1:45:04 阅读更多 →

【四川电影电视学院主办 | AP出版，高录用快见刊，最快刊后1个月内上知网谷歌学术 | 主题不设限，教育、艺术、语言等人文社科主题均可】第五届科学教育与艺术鉴赏国际学术会议（SEAA 2026）

高录用快见刊，会议快见刊，最快刊后1个月内上知网&谷歌学术主题不设限，教育、艺术、语言等人文社科主题均可第五届科学教育与艺术鉴赏国际学术会议（SEAA 2026） 2026 5th International Conference on Science …...

2026/5/14 4:32:07 阅读更多 →

【斯普林格Springer 旗下的Atlantis Press出版社出版 | EI Compendex、Scopus、谷歌学术】第五届区块链、信息技术与智慧经济国际学术会议（ICBIS 2026）

第五届区块链、信息技术与智慧经济国际学术会议（ICBIS 2026） The 5th International Conference on Blockchain, Information Technology and Smart Finance 2026年6月19日 -21日，中国-上海大会官网：www.ic-bis.net【论文投…...

2026/5/14 21:21:27 阅读更多 →