EgoNight 团队 投稿量子位 | 公众号 QbitAI人类在夜里走路即便光线昏暗也能认出熟人、避开障碍。但AI的第一人称视觉模型到了晚上基本等于“瞎了”。昏暗光照、反光、噪声、运动模糊再加上佩戴式设备的抖动和遮挡…让视觉理解这道题夜间难度直接翻倍。来自INSAIT、华东师范大学、港科大广州、南开大学、复旦大学等机构的研究者提出EgoNight基准系统聚焦夜间第一人称视觉理解这一长期被忽视的问题被ICLR 2026收录。它把昼夜对齐视频、夜间问答评测、深度估计与跨光照检索放进同一套benchmark中让研究者能够真正回答现有多模态模型到了夜里究竟还剩下多少理解能力三点速读首个夜间第一人称视觉综合基准核心任务为EgoNight-VQA。用昼夜对齐视频提升标注质量覆盖90段视频、3658组QA、12类问题。现有主流多模态大模型从白天迁移到夜晚时普遍明显掉点夜间感知与推理仍远未解决。为什么“夜间第一人称视觉”如此重要过去几年第一人称视觉在智能眼镜、可穿戴助手、具身智能和机器人学习等方向快速升温但相关benchmark大多建立在白天场景之上。这个设定看似自然实际上却绕开了真实世界中最棘手的一部分夜间并不是“把亮度调低”这么简单而是会同时改变目标可见性、纹理细节、光源分布、动态范围与时序稳定性。对第一人称视频来说这些问题还会被手部遮挡、视角快速移动、交互距离近等因素进一步放大。也正因为如此很多在白天看起来表现不错的模型到了夜里并不是“略差一些”而是会在物体识别、文字读取、动作判断、空间定位等基础能力上同步退化。EgoNight的价值首先就在于它把这个长期被回避的问题变成了一个可以被系统测量、被公平比较、也能被持续推动的研究对象。EgoNight把“昼夜对齐”做进第一人称基准这篇工作的一个很强的观察是夜间视频本身很难直接标。不只是模型连人类标注者在纯夜间片段上也常常难以稳定生成高质量问答。为了解决这个问题作者没有简单扩大采集量而是引入“昼夜对齐视频”作为整个基准的设计核心——在相同或高度对齐的场景、动作与时间线上同时保留白天与夜晚版本再利用白天参考去辅助夜间问答构建。围绕这一思路EgoNight包含三个数据子集真实采集的EgoNight-Sofia、由Blender/Infinigen构建的EgoNight-Synthetic以及来自Oxford Day-and-Night的夜间片段。基于这些数据作者构建了3658组QA覆盖12种题型并投入300多小时进行人工复核。更重要的是整套标注流程也被设计得非常清楚先做夜间描述生成再生成候选问题随后引入白天参考进行答案增强最后由人工逐条精修。这样做的好处是夜间标注不再完全依赖“猜暗处有什么”而是被放回到更可靠的跨光照对照关系中。任务设计从“看见”到“理解”EgoNight-VQA并没有把问题都堆成一个大杂烩而是刻意区分了两类任务。第一类是可以做昼夜直接对比的paired QA例如物体识别、文字识别、动作识别等这些任务能够直接告诉我们同一个场景、同一类问题在白天与夜晚之间会掉多少。第二类是夜间特有或更适合夜间设问的unpaired QA例如光照识别、光照动态、动态目标检测、非常识推理等用来捕捉低光环境里才真正突出的难点。此外这个benchmark还不是只考“短问答”。有些题目只需要几帧就能回答有些则要求模型理解完整视频的时序信息。除了VQA之外论文还扩展了两项辅助任务夜间第一人称深度估计以及昼夜对应检索。前者关注几何感知是否会在低光下失稳后者关注模型能不能在亮度差异很大的情况下仍把昼夜场景对应起来。也就是说EgoNight实际上在同时追问三个层面的问题模型是否还能看清、还能对齐、还能推理。实验发现大模型在夜晚“集体失明”项目主页公布的榜单很能说明问题在EgoNight-VQA 上GPT-4.1和Gemini 2.5 Pro的平均准确率分别为30.93%和30.60%已经是当前表现最好的模型之一但距离“可靠可用”仍有相当距离。更关键的是论文不是简单比较谁更高而是把昼夜迁移这件事拆开看几乎所有模型从白天转到夜晚都会显著掉点而且感知驱动的任务通常比推理导向的任务跌得更厉害。这意味着夜间理解的瓶颈首先仍然卡在“视觉信号不够稳”上。与此同时作者新提出的几类题例如光照识别、光照变化、非常识情况检测往往又比常规QA更难这说明模型即使能勉强读出画面也未必真正建立了对夜间场景的环境理解。类似的退化还出现在辅助任务中无论是深度估计还是昼夜对应检索低光都会明显削弱几何与跨条件匹配能力。如何改进为了进一步探清楚“问题出在哪里”作者基于Qwen2.5-VL-7B做了系统微调实验。结果显示全量微调带来最明显的整体提升相比zero-shot基线有9.21%的绝对增益如果主要调视觉编码器收益更集中在物体和文字等感知类任务而调语言模型部分则能同时改善感知与推理说明夜间理解不仅受视觉退化影响也和模型如何调用语言先验密切相关。另一个值得关注的发现是synthetic-to-real transfer的有效性只用合成夜间数据训练也能迁移到真实夜间场景。这对于该方向非常重要因为夜间高质量数据的采集与标注成本都很高而合成数据如果能承担一部分适配任务就意味着夜间视觉研究终于有了更可扩展的推进路径。EgoNight的更多可视化结果、数据与 benchmark 入口及可交互demo已经可以在项目主页中直接查看。论文地址https://arxiv.org/abs/2510.06218项目主页https://dehezhang2.github.io/EgoNight/代码https://github.com/dehezhang2/EgoNight数据 https://huggingface.co/datasets/dehezhang2/EgoNight项目demohttps://dehezhang2.github.io/EgoNight/benchmark.html