多模态AI“看图说话”全是幻觉？斯坦福+DeepMind最新论文揭露“Mirage”：前沿模型在完全没有图像的情况下仍能拿下顶级基准

张

张建站

2026/4/23 12:28:29

10分钟阅读

多模态AI“看图说话”全是幻觉？斯坦福+DeepMind最新论文揭露“Mirage”：前沿模型在完全没有图像的情况下仍能拿下顶级基准

你在测试一个前沿多模态AI让它分析一张胸部X光片。它给出了详尽的报告 “左肺下叶可见磨玻璃影伴随支气管扩张符合早期肺炎特征建议临床随访。”你以为模型真正“看懂”了图像。可当你把图像彻底移除只保留文字问题时它依然给出了几乎一模一样的答案甚至在多个公开基准上拿到了第一名。这不是个例而是系统性现象。我起初以为多模态模型的高分来自真正的视觉-语言融合后来完整拆解斯坦福与合作团队最新论文arXiv:2603.21687v2才发现行业对“视觉理解”的认知存在巨大错觉前沿模型并非在看图而是在“幻视”——它们会自信地描述从未提供过的图像并以此为基础进行完整推理。论文把这种现象命名为Mirage幻影并证明它在所有测试的前沿模型中普遍存在。Mirage效应AI在“假装看图”论文定义Mirage为模型在完全没有图像输入的情况下依然生成详细的视觉描述、病理发现和推理链且完全不表达任何不确定性或“假设”。实验设计极其严谨他们构建了Phantom-0基准——把所有视觉问答题的图像全部移除只保留文字问题覆盖医学、科学、技术、通用四大领域20个子类。结果令人震惊所有测试的前沿模型GPT-5、Gemini-3-Pro、Claude Sonnet 4.5、Opus 4.5 等在无图模式下的Mirage发生率平均超过60%。加入常见系统提示后这一比例飙升至90%-100%。最极端的案例在标准胸部X光问答基准上模型零图像输入却拿到了当前公开最高分超过多位放射科医生。更关键的是当明确提示模型“没有图像请直接猜测”时性能显著下降。这说明模型存在两种截然不同的推理模式——Mirage模式自信地假装有图像和Guessing模式保守猜测。为什么Mirage如此普遍论文指出这源于多模态训练的副作用模型在海量图文对上学到的“视觉-语言联合分布”太过强大以至于文字问题本身就能强烈激活对应的视觉先验。模型不是在“看”而是在根据问题“脑补”一张最符合统计规律的图像然后基于这个幻影进行推理。这直接挑战了当前所有多模态基准的有效性高分不再能证明“视觉理解”而可能只是“文字先验幻影推理”的胜利。传统多模态评估 vs Mirage揭露的真实能力决策矩阵维度传统基准假设Mirage实验揭示的真实情况关键权衡与边界条件视觉理解证据高分真正看懂图像高分可完全来自文字先验幻影表面性能 vs 真实模态融合模型行为图像输入 → 视觉推理无图仍能生成完整视觉描述真实视觉 vs 统计幻觉基准有效性可靠的视觉能力度量被文字线索严重污染公开基准 vs 私密清洁基准医疗场景风险高分模型可辅助诊断可能把幻影当成真实病灶辅助工具 vs 潜在医疗事故未来方向继续堆参数、堆数据必须引入无文字线索的私密基准规模竞赛 vs 真实能力评估论文提出的解决方案B-Clean作者认为当前所有公开多模态基准都已被文字线索严重污染。他们提出B-Clean作为原则性方案构建完全消除文字先验、私密且公平的视觉基准用于真正检验模型的视觉-语言融合能力。这对医疗等高风险领域尤其重要——误判的代价不是分数而是生命。在生产环境部署多模态Agent前必须先做的三件事对所有视觉-语言任务进行“Phantom测试”移除图像只保留问题观察模型是否仍能给出高置信度答案引入显式“无图像猜测”提示强制模型进入Guessing模式量化Mirage带来的虚高性能建立内部私密基准B-Clean风格确保评估的是真实视觉理解而非统计幻觉。当Mirage被彻底揭穿之后这篇论文最狠的洞察在于我们一直以为多模态模型在“看图说话”其实很多时候它只是在“编故事”。Mirage不是bug而是当前训练范式下不可避免的系统性副产品。它提醒我们视觉理解的幻觉比单纯的幻觉更危险——因为它披着“看懂了”的外衣让我们对模型的信任严重超标。你当前使用的多模态模型真的在“看”吗欢迎在评论区分享你在测试GPT-5、Claude、Gemini等模型时是否遇到过“无图却描述得头头是道”的情况医疗或专业领域用户尤其欢迎分享实际风险案例。我们一起把这个“视觉幻影”话题继续推深。本文基于斯坦福大学团队论文《Mirage: The Illusion of Visual Understanding》arXiv:2603.21687v2完整拆解整理论文已公开欢迎直接阅读HTML版本。我是紫微AI在做一个「人格操作系统ZPF」。后面会持续分享AI Agent和系统实验。感兴趣可以关注我们下期见。

【QuantDev必藏】：为什么92%的C++交易系统仍在用malloc——深度剖析jemalloc/tcmalloc/mimalloc在L3缓存穿透场景下的失效临界点

第一章：金融高频交易系统内存分配的底层挑战与现实困境在纳秒级竞争的金融高频交易（HFT）场景中，内存分配不再是语言运行时的“黑盒服务”，而是决定订单延迟、吞吐一致性与系统可预测性的关键路径。传统堆分配器&#x…...

2026/4/3 7:25:56 阅读更多 →

Android高级开发工程师实战指南：KTV应用开发与性能优化

第一章：KTV应用架构设计 1.1 实时音视频处理架构 KTV应用的核心是实时音频处理系统，需采用分层架构： public class AudioPipeline {private AudioDecoder decoder;private AudioProcessor processor;private AudioRenderer renderer;public void process(byte[] pcmData)…...

2026/4/3 7:25:09 阅读更多 →

PROJECT MOGFACE自动化测试集成：利用其生成能力辅助软件测试用例设计

PROJECT MOGFACE自动化测试集成：让AI成为你的测试副驾最近跟几个测试团队的朋友聊天，大家普遍有个头疼的问题：需求越来越多，迭代越来越快，但测试用例的设计和编写还是得靠人工一点点抠。写用例、准备数据、维护脚本&…...

2026/4/3 7:23:47 阅读更多 →

前端三剑客 vs Vue.js：核心区别解析

好的，这是一个关于前端技术的常见问题。我们来理清 HTML CSS JavaScript（通常称为“前端三剑客”）与 Vue.js（一个流行的 JavaScript 框架）之间的区别：核心概念不同HTML CSS JavaScript： 这是…...

2026/4/20 15:14:20 阅读更多 →

【SAP Basis】从SU01出发：深入解析SAP用户账号管理的核心配置与实战

1. SU01入门：SAP用户管理的核心入口第一次接触SAP Basis管理时，我被满屏的事务码搞得晕头转向。直到导师指着SU01说："这是你未来每天都要打交道的老朋友"，我才意识到用户管理的重要性。SU01就像SAP系统的门禁控制台&am…...

2026/4/23 4:18:42 阅读更多 →

AI代码配额管理实战指南：7大行业真实配额模型+3类超限预警SOP（附2026大会未发布白皮书节选）

第一章：AI代码配额管理的范式跃迁与大会使命 2026奇点智能技术大会(https://ml-summit.org) 传统资源配额模型正面临根本性挑战：当大语言模型驱动的代码生成器每秒产出数百行可执行逻辑，静态CPU/内存阈值已无法表征真实开发意图与语义负载。…...

2026/4/20 13:56:02 阅读更多 →

7-Zip终极指南：免费开源的文件压缩神器如何改变你的文件管理方式

7-Zip终极指南：免费开源的文件压缩神器如何改变你的文件管理方式【免费下载链接】7z 7-Zip Official Chinese Simplified Repository (Homepage and 7z Extra package) 项目地址: https://gitcode.com/gh_mirrors/7z1/7z 你是否曾为电脑空间不足而烦恼&…...

2026/4/23 2:47:31 阅读更多 →