你在测试一个前沿多模态AI让它分析一张胸部X光片。它给出了详尽的报告 “左肺下叶可见磨玻璃影伴随支气管扩张符合早期肺炎特征建议临床随访。”你以为模型真正“看懂”了图像。可当你把图像彻底移除只保留文字问题时它依然给出了几乎一模一样的答案甚至在多个公开基准上拿到了第一名。这不是个例而是系统性现象。我起初以为多模态模型的高分来自真正的视觉-语言融合后来完整拆解斯坦福与合作团队最新论文arXiv:2603.21687v2才发现行业对“视觉理解”的认知存在巨大错觉前沿模型并非在看图而是在“幻视”——它们会自信地描述从未提供过的图像并以此为基础进行完整推理。论文把这种现象命名为Mirage幻影并证明它在所有测试的前沿模型中普遍存在。Mirage效应AI在“假装看图”论文定义Mirage为模型在完全没有图像输入的情况下依然生成详细的视觉描述、病理发现和推理链且完全不表达任何不确定性或“假设”。实验设计极其严谨他们构建了Phantom-0基准——把所有视觉问答题的图像全部移除只保留文字问题覆盖医学、科学、技术、通用四大领域20个子类。结果令人震惊所有测试的前沿模型GPT-5、Gemini-3-Pro、Claude Sonnet 4.5、Opus 4.5 等在无图模式下的Mirage发生率平均超过60%。加入常见系统提示后这一比例飙升至90%-100%。最极端的案例在标准胸部X光问答基准上模型零图像输入却拿到了当前公开最高分超过多位放射科医生。更关键的是当明确提示模型“没有图像请直接猜测”时性能显著下降。这说明模型存在两种截然不同的推理模式——Mirage模式自信地假装有图像和Guessing模式保守猜测。为什么Mirage如此普遍论文指出这源于多模态训练的副作用模型在海量图文对上学到的“视觉-语言联合分布”太过强大以至于文字问题本身就能强烈激活对应的视觉先验。模型不是在“看”而是在根据问题“脑补”一张最符合统计规律的图像然后基于这个幻影进行推理。这直接挑战了当前所有多模态基准的有效性高分不再能证明“视觉理解”而可能只是“文字先验幻影推理”的胜利。传统多模态评估 vs Mirage揭露的真实能力决策矩阵维度传统基准假设Mirage实验揭示的真实情况关键权衡与边界条件视觉理解证据高分 真正看懂图像高分可完全来自文字先验幻影表面性能 vs 真实模态融合模型行为图像输入 → 视觉推理无图仍能生成完整视觉描述真实视觉 vs 统计幻觉基准有效性可靠的视觉能力度量被文字线索严重污染公开基准 vs 私密清洁基准医疗场景风险高分模型可辅助诊断可能把幻影当成真实病灶辅助工具 vs 潜在医疗事故未来方向继续堆参数、堆数据必须引入无文字线索的私密基准规模竞赛 vs 真实能力评估论文提出的解决方案B-Clean作者认为当前所有公开多模态基准都已被文字线索严重污染。他们提出B-Clean作为原则性方案构建完全消除文字先验、私密且公平的视觉基准用于真正检验模型的视觉-语言融合能力。这对医疗等高风险领域尤其重要——误判的代价不是分数而是生命。在生产环境部署多模态Agent前必须先做的三件事对所有视觉-语言任务进行“Phantom测试”移除图像只保留问题观察模型是否仍能给出高置信度答案引入显式“无图像猜测”提示强制模型进入Guessing模式量化Mirage带来的虚高性能建立内部私密基准B-Clean风格确保评估的是真实视觉理解而非统计幻觉。当Mirage被彻底揭穿之后这篇论文最狠的洞察在于我们一直以为多模态模型在“看图说话”其实很多时候它只是在“编故事”。Mirage不是bug而是当前训练范式下不可避免的系统性副产品。它提醒我们视觉理解的幻觉比单纯的幻觉更危险——因为它披着“看懂了”的外衣让我们对模型的信任严重超标。你当前使用的多模态模型真的在“看”吗欢迎在评论区分享你在测试GPT-5、Claude、Gemini等模型时是否遇到过“无图却描述得头头是道”的情况医疗或专业领域用户尤其欢迎分享实际风险案例。我们一起把这个“视觉幻影”话题继续推深。本文基于斯坦福大学团队论文《Mirage: The Illusion of Visual Understanding》arXiv:2603.21687v2完整拆解整理论文已公开欢迎直接阅读HTML版本。我是紫微AI在做一个「人格操作系统ZPF」。后面会持续分享AI Agent和系统实验。感兴趣可以关注我们下期见。