论文MAVFusion: Efficient Infrared and Visible Video Fusion via Motion-Aware Sparse Interaction (arXiv.2026.04)作者Xilai Li∗, Weijun Jiang∗, Xiaosong Li†, Yang Liu, Hongbin Wang, Tao Ye, Huafeng Li, Haishu Tan单位佛山大学、昆明理工大学、中国矿业大学下载https://arxiv.org/abs/2604.01958代码https://github.com/ixilai/MAVFusionMAVFusion运动感知稀疏交互的高效红外与可见光视频融合现有视频融合方法通常对所有区域一视同仁地施加全局注意力计算导致大量算力浪费在静态背景上而真正需要精细处理的运动目标反而得不到足够关注。MAVFusion 的核心思路是按需分配利用光流估计将视频帧划分为动态区域和静态区域动态区域如行人、车辆采用稀疏强交互注意力静态背景则使用轻量级弱交互卷积模块从而在保证融合质量的同时大幅降低计算开销。在模块设计上论文提出了运动感知特征对齐模块MAFM通过粗到细的两阶段光流估计与跨模态残差补偿有效抑制了多帧融合中的鬼影和模糊问题。核心融合模块MDIM则通过 Top-K 稀疏注意力机制将复杂的跨模态交互精准聚焦于关键运动区域将计算复杂度从 O(N²) 降低到 O(k·N)。实验结果表明MAVFusion在 480P 分辨率下仅需 123G FLOPs约为同类视频融合方法 UniVF 的 5.7%推理速度提升约 3.5 倍同时在融合质量和时序一致性指标上均达到当前最优水平。图像融合正处于高速发展期视频融合作为新序章未来可期