CVPR‘26重磅 | 港科大沈劭劼团队华为DLWM:告别3D标注,3DGS双世界模型革新自动驾驶
点击下方卡片关注「3D视觉工坊」公众号选择星标干货第一时间送达来源3D视觉工坊「3D视觉从入门到精通」知识星球(点开有惊喜) 星球内有20多门3D视觉系统课程、3DGS独家系列视频教程、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研欢迎加入论文信息标题DLWM: Dual Latent World Models enable Holistic Gaussian-centric Pre-training in Autonomous Driving作者Yiyao Zhu, Ying Xue, Haiming Zhang, Guangfeng Jiang, Wending Zhou, Xu Yan, Jiantao Gao, Yingjie Cai, Bingbing Liu, Zhen Li, Shaojie Shen机构HKUST、CUHK-SZ、USTC、Huawei Foundation Model Department原文链接https://arxiv.org/abs/2604.00969导读基于视觉的自动驾驶技术因其低成本和出色的性能而受到了广泛关注。与那些采用密集采样或稀疏采样方法的模型相比以高斯分布为核心的方法能够以一种既全面又高效的方式来描述场景通过3D语义高斯函数来表征场景中的各种特征。在本文中我们提出了一种名为DLWM的新算法。该算法基于“双重潜在世界模型”原理设计旨在通过两阶段处理来实现以高斯分布为核心的预训练过程。在第一阶段DLWM通过自监督学习的方式利用多视图语义信息和深度图像来预测3D高斯分布。在第二阶段系统会分别训练两个潜在世界模型一个用于时间相关特征的提取其输出结果可用于后续的占用检测与预测任务另一个则用于运动规划其输出结果可指导车辆的行驶路径。通过在SurroundOcc和nuScenes测试基准上的大量实验表明DLWM在3D占用检测、4D占用预测以及运动规划等方面都取得了显著的性能提升。效果展示我们用于预训练和下游任务性能提升的DIWM示意图。引言最近基于视觉的自动驾驶系统已发展成为一种主流范式为多传感器融合方法提供了经济高效且可扩展的替代方案。该系统利用先进的深度学习并与多任务头兼容能够保持准确的场景理解和安全的运动规划。实现稳健自主驾驶的一个基础挑战是开发一种场景表示该表示同时具有表达力、高效性以及时间一致性以支持感知、预测和规划任务。早期方法主要依赖稠密或粗粒度的表示基于体素的方法使用3D体素网格来表示周围环境以计算开销为代价提供详细的几何信息。基于BEV 的方法将多视角特征压缩到2D平面后续的稀疏查询方法用少量稀疏查询例如实例框、地图元素替代了网格。尽管这些方法相对高效但它们要么牺牲了垂直细节和稠密几何信息要么只给决策模块留下了粗略的场景知识。为了克服这些局限性研究转向了以高斯为中心的表示。一组3D语义高斯提供了全面而稀疏的表示在细节和效率之间实现了最佳平衡。尽管以高斯为中心的表示已展现出巨大潜力但其对大量人工标注的依赖阻碍了可扩展部署。最近利用无标签数据的预训练范式提供了一种有前景的解决方案。例如掩码自编码器 (MAE) 等自监督方法采用对比学习进行预训练但由于依赖粗糙的监督信号未能显式学习3D几何结构。最近为了学习完整的几何表示基于渲染的方法如UniPAD和ViDAR利用激光雷达深度来监督体素渲染。相比之下最近的GaussianFlowOcc和SQS表明仅通过可微的RGB/深度渲染就可以从无标签视频中学习3D高斯本身。然而针对以高斯为中心的模型全生命周期的全面自监督预训练策略仍有待探索。基于对鲁棒特征学习的必要性时间预测成为高层场景演化的下一个挑战。潜在世界模型已成为无监督时间建模的关键方法。它绕过了显式的图像或占据生成直接在紧凑的潜在空间中预测未来的动态。目前潜在世界模型已用于运动规划但很少被探索用于感知和预测等其他关键任务更不用说与以高斯为中心的模型集成了。然而这种集成在潜在表示的选择上提出了一个基本的技术挑战。由于当前帧和未来帧的高斯查询是独立初始化的它们缺乏一对一的对应关系。因此高斯查询的置换等价性使得无法在两帧之间直接监督高斯查询特征。幸运的是3D高斯泼溅 (3DGS) 具有任意视角渲染能力。源自稀疏高斯查询的BEV栅格化作为一种稠密网格表示通过垂直堆叠保留了高度信息并允许清晰的帧间区域对应。因此我们选择BEV特征作为最适合时间监督的潜在表示。为了弥补这一差距并充分利用以高斯为中心的表示和潜在世界模型的优势我们提出了DLWM一种新颖的整体预训练范式具有双潜在世界模型。DLWM采用两阶段方法来统一时空高斯表示学习在不进行预训练的情况下改善了所有下游任务在占据感知上1.02 mIoU在占据预测上2.68 mIoU在运动规划上-16% L2误差。具体来说在第一阶段我们重建语义图和深度图以学习高斯上下文。利用预训练的权重在第二阶段分别使用双潜在世界模型进行预训练。第一个模型由高斯流引导专门设计用于下游的3D占据感知和4D占据预测任务。另一个基于预测的自车轨迹的潜在世界模型用于改进运动规划。主要贡献我们列出本文的贡献如下提出了DLWM一个用于整体以高斯为中心的预训练的自监督范式包括统一的第一阶段用于学习以高斯为中心的几何和语义表示然后在第二阶段分别训练双潜在世界模型。引入了一个由高斯流和自车运动对齐引导的潜在世界模型用于学习时空高斯特征表示专门设计用于下游的占据感知和预测任务。设计了另一个由当前高斯潜变量和预测的自车轨迹引导的潜在世界模型共同改进时间以高斯为中心的表示和自车轨迹规划。DLWM显著提升了以高斯为中心的占据感知、预测和规划任务的性能在SurroundOcc和nuScenes基准测试上取得了最先进的结果。方法DLWM的整体流程。阶段1专注于通过深度图和语义图上的自监督重建从多视角视频中学习鲁棒的3D高斯场景表示。阶段2引入了双潜在世界模型。a. 高斯流引导模型显式预测3D高斯流将当前高斯状态传播到未来帧以进行潜变量预测。b. 自车规划引导模型根据预测的自车轨迹来条件化未来场景预测。所有预测的潜变量都通过冻结的高斯感知模块利用来自下一帧多视角图像的感知特征进行监督。以流式方式实现4D占用预测。我们通过自车运动对齐将当前的3D高斯分布转换到下一帧并用随机高斯分布填充新区域。实验结果我们在三个具有挑战性的下游任务上评估了DLWM的有效性3D占据感知、4D占据预测和运动规划。3D占据感知。表1比较了在nuScenes验证集上使用SurroundOcc标签的3D语义占据结果。没有预训练时我们的基线模型达到20.83 mIoU和31.77 IoU。经过两阶段预训练后模型 ours 提升到21.85 mIoU和34.61 IoU达到了SOTA水平相比无预训练模型分别提高了1.02 mIoU和2.84 IoU。结果证明了我们预训练策略的优势。4D占据预测。表2总结了在nuScenes验证集上的4D占据预测结果。我们评估了两个变体基线无预训练和DLWM两阶段预训练。基准包括CopyPaste、OccWorld-O/T/S/D [52]。基线已经超越了所有OccWorld变体在1-3秒平均达到15.09 mIoU和25.65 IoU。预训练后我们的方法以平均17.77 mIoU和30.60 IoU建立了新的最先进水平超越了使用3D占据输入的OccWorld-O方法。一致的性能提升证实了我们预训练的世界模型在4D占据预测任务上的优越性。运动规划。我们在nuScenes运动规划任务上评估了DLWM通过3秒时域上的L2距离和碰撞率来衡量性能表3。我们的方法实现了0.46米的平均L2距离与BEV-Planner并列最佳得分并超越了像LAWL2: 0.61米这样的专用世界模型。与带有多个辅助任务的UniAD相比我们的方法在具有相当碰撞避免能力的情况下取得了更好的L2得分证实了所设计的潜在世界模型非常有效。此外我们的两阶段自监督预训练在L2距离上相比无预训练的基线带来了0.09米的显著提升从0.55米到0.46米。总结 未来工作在本工作中我们提出了DLWM双潜在世界模型一种新颖的两阶段自监督预训练范式专为基于视觉的自动驾驶中以高斯为中心的表示而设计。DLWM通过建立两阶段流程来改进稀疏查询学习和时间一致性阶段1通过多样化的渲染目标专注于几何和语义特征学习。阶段2引入了我们的双潜在世界模型包括高斯流引导和自车规划引导的潜变量预测。DLWM在占据感知、预测和运动规划任务上取得了最先进的结果证实了我们整体以高斯为中心的预训练框架的实质性、可扩展贡献。对更多实验结果和文章细节感兴趣的读者可以阅读一下论文原文~本文仅做学术分享如有侵权请联系删文。3D视觉方向论文辅导来啦可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。添加微信cv3d001备注姓名方向单位邀请入群。