CVPR 2026 奔驰提出SpaceDrive:让VLM真正理解空间
点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐SpaceDrive: Infusing Spatial Awareness into VLM-based Autonomous Driving作者Peizheng Li, Zhenghao Zhang, David Holtz, Hang Yu, Yutong Yang, Yuzhi Lai, Rui Song, Andreas Geiger, Andreas Zell会议CVPR 2026论文https://arxiv.org/abs/2512.10719项目链接zhenghao2519.github.io/SpaceDrive_Page/代码仓库https://github.com/zhenghao2519/SpaceDrive过去一段时间Vision-Language ModelVLM快速进入自动驾驶。它的优点很明显视觉理解强、语义先验丰富、还能自然接入问答、解释和交互式推理。但真正把它接到驾驶规划上一个经常被低估的问题会马上暴露出来VLM 擅长理解“场景在表达什么”却不天然擅长理解“目标具体在哪里、几何关系是什么、轨迹在三维空间里是否真的可执行”。这篇工作想解决的正是这个问题。SpaceDrive 的出发点并不复杂不是继续让 VLM 去“读数字、猜坐标”而是直接给它一套统一、显式、可计算的三维空间接口让视觉、文本、历史状态和规划输出都在同一个空间表示域中交互。图1现有 VLM-based planner 往往把坐标当作数字 token 处理SpaceDrive 则把坐标变成统一的 3D positional encoding并同时注入视觉、文本和输出接口。一、VLM真正的瓶颈在于空间表示方式不对很多 VLM-based 自动驾驶方法看上去已经能完成场景描述、反事实问答和轨迹规划但底层仍然沿用一种不太合理的机制把坐标写成字符串再让语言模型像生成句子一样逐位生成轨迹。这在自动驾驶里有两个根本问题。第一数字 token 不是空间表征。对语言模型来说3.82更接近3 . 8 2这样的离散符号序列而不是“图中某辆车前右侧 3.82 米的位置”。模型可能读懂了数字却没有把数字和视觉语义建立稳定绑定。第二离散 token generation 不适合连续坐标建模。轨迹本质上是连续几何量但语言模型的输出本质是分类。它可以拟合文本分布却不擅长高精度数值回归。于是很多方法在 open-loop 上还能拟合专家轨迹但一到 closed-loop 场景就可能出现近线性塌缩、航向振荡、碰撞或越界。SpaceDrive 的判断很明确如果空间接口本身设计错了那么再强的语义能力也很难转化成可靠的驾驶能力。二、核心 insight把 3D 空间变成模型内部统一的通用接口SpaceDrive 提出了一套统一的 3D positional encodingPE接口。它不是只在某一个模块上打补丁而是让视觉输入、文本里的坐标、历史 ego 位置以及最终输出的轨迹坐标都共享同一套空间编码方式。这件事的意义非常直接模型内部不再是“视觉 token 一串数字 token”而是“视觉语义 显式空间 token”的联合表示。于是注意力机制不需要再“猜”哪个数字对应哪个目标而可以直接在统一空间表征上进行索引和对齐。三、简单有效的方法设计1视觉侧把图像 token 变成带三维位置的 tokenSpaceDrive 首先使用冻结的深度估计器从多视角图像中预测绝对深度再结合相机标定把 patch 中心投影到 3D 空间得到每个 patch 对应的坐标接着使用统一的 PE encoder 把三维坐标编码成向量其中各维采用 3D sine-cosine positional encoding最后把空间编码直接加到视觉 token 上这里的是可学习的归一化系数用来避免 PE 直接注入后打乱预训练 VLM 的 token norm 分布。这一层的作用很明确模型看到的不再只是“这是车、那是锥桶”而是“这个 token 对应的目标在三维空间中的具体位置是什么”。2文本侧把 prompt 中的坐标从数字序列改成空间 token如果视觉端已经变成显式空间 token而文本端仍然保留数字字符串那么模型内部依旧会有两套“坐标语言”。因此SpaceDrive 在 tokenizer 之后扫描文本中的坐标表达把其中的数值抽取出来再用同一个 PE encoder 转成空间 token替换原来的数字 token 序列。形式上可写为并在坐标前插入一个特殊指示符⟨IND⟩避免与普通文本混淆。对于 BEV 轨迹坐标论文将其 z 轴分量设为 0从而使其仍能复用同一套空间编码。这一步的意义不是格式替换而是把文本中的坐标也拉进与视觉一致的空间语义域。3输出侧不再逐位生成坐标而是直接回归连续位置在输出阶段普通文本仍由语言头正常解码当模型预测到特殊标记⟨IND⟩时后续 hidden state 不再走文本 token 分类而是送入 PE decoder直接回归坐标若输出为⟨IND⟩则整个训练目标则为其中坐标部分默认采用 Huber loss。这一步非常关键因为它把问题从“生成看起来像坐标的文本”改成了“预测真实的连续几何量”。这不是实现细节而是建模范式变化。图2统一 3D PE 同时作用于视觉增强、文本坐标替换和输出坐标解码构成完整的空间接口闭环。四、主实验结果开环闭环性能全面提升1nuScenes 开环现有 VLM-based 方法中的最优结果在 nuScenes open-loop planning 上SpaceDrive 取得了Avg. L2 0.32 mAvg. Collision 0.23%Avg. Intersection 1.27%同时不带 ego planner 输入的 SpaceDrive 也优于其 base model OmniDrive论文给出的增益为L2 -0.18、Collision -1.91%、Intersection -0.38%。更重要的是这些结果是在没有显式使用 dense BEV features的前提下实现的。也就是说SpaceDrive 的结论不是“再加一个 BEV 模块就更强”而是只要把三维空间接口设计对了VLM 本身就能更有效地处理几何与规划问题。图3nuScenes 开环结果2Bench2Drive 闭环78.02 Driving Score55.11% Success Rate在更接近真实驾驶能力的 Bench2Drive closed-loop benchmark 上SpaceDrive 达到Driving Score 78.02Success Rate 55.11%需要精确说明的是这不是整个榜单第一在论文对比的 VLM-based 方法中SimLingo 更高但该方法使用了更重的数据增强Action Dreaming。SpaceDrive 的意义在于它在一个更直接、结构更清晰的空间建模框架下把 VLM-based planner 的闭环能力稳定地推上去了。论文还明确指出base model OmniDrive 的纯文本轨迹生成在闭环里会明显失稳Success Rate 低于 10%预测轨迹容易塌缩成近线性路径并伴随航向振荡。这个现象非常关键因为它直接支持了论文的核心判断仅靠自然语言拟合轨迹并不等于真正学到了可控的驾驶策略。图4Bench2Drive 闭环结果五、这篇工作的说服力很大程度来自消融实验如果主实验回答的是“这个方法有没有用”那么消融实验回答的是“它究竟是因为什么而起作用”。SpaceDrive 的消融部分是这篇论文很重要的支撑因为它不是只展示最终数值而是逐步验证了统一空间接口的必要性。1PE 注入位置只改文本不够视觉和文本必须统一论文 Table 3 给出了最关键的一组消融。在SpaceDrive不带 ego设置下基线不加 PE2.51 / 4.53 / 6.77只给视觉 token 加 PE1.88 / 2.45 / 2.36只把文本坐标替换为 PE2.42 / 5.06 / 8.94视觉 文本统一 PE1.80 / 1.88 / 4.21这里的结论非常直接只替换文本坐标几乎没有用甚至在部分指标上更差真正有效的是先把视觉 token 空间化再让文本坐标与之共享同一套表示。原因并不难理解。如果视觉侧没有显式空间 grounding那么文本里的坐标 PE 也没有地方去“索引”对应的视觉语义它只是另一种孤立 token一旦视觉侧和文本侧共享同一套 PE坐标才真正变成了跨模态的可对齐空间接口。在SpaceDrive带 ego设置下结果进一步提升基线0.41 / 0.60 / 4.40视觉 文本统一 PE0.33 / 0.23 / 1.32再加入历史 ego 位置的同构 PE0.32 / 0.23 / 1.27这说明统一空间表示不仅适用于视觉和文本也适用于历史 ego 状态。过去 ego status 往往被压成一个单独向量而在 SpaceDrive 中它被纳入同一个空间语义体系因此模型可以在统一坐标接口下进行更一致的时空推理。图4论文 Table 3 的 PE 注入位置消融。2PE encoder / decoder为什么是 Sine-Cosine Coordinate-wise decoderTable 4 进一步验证了编码器和解码器设计。基准配置为Sine-Cosine encoder coordinate-wise decoder结果为1.80 / 1.88 / 4.21对比几组替换MLP encoder coordinate-wise decoder1.96 / 3.17 / 6.76RoPE encoder coordinate-wise decoder1.93 / 3.71 / 11.40Sine-Cosine encoder Sine-Cosine decoder1.87 / 2.62 / 9.20Sine-Cosine encoder task-specific decoder1.93 / 2.41 / 5.58这里至少说明了三件事。第一Sine-Cosine encoder 明显优于可学习 MLP encoder。论文解释是Sine-Cosine 具有更清晰的平移相对关系更利于注意力层恢复 token 间空间结构。第二RoPE 在这里反而更差。原因不是 RoPE 本身不好而是 base VLM 内部本就使用 RoPE再额外引入同构位置旋转可能导致表征混淆和训练不稳定。第三输出端最好直接做 coordinate-wise 回归。无论是试图“反解” Sine-Cosine 编码还是用 task-specific embedding 一次性解完整条轨迹效果都不如逐坐标回归来得稳定。换句话说SpaceDrive 的关键不是“把所有东西都编码成 PE”而是编码和解码两端都必须遵守连续空间建模的原则。图5论文 Table 4 的 PE encoder/decoder 消融。3PE 归一化可学习的不是修饰而是稳定训练的关键Table 5 研究了 PE 的幅值归一化。固定初始化下α12.34 / 3.63 / 8.46α0.12.43 / 3.79 / 9.42α0.022.22 / 2.71 / 10.17而加入可学习归一化后α1, learnable1.82 / 2.04 / 4.62α0.1, learnable1.80 / 1.88 / 4.21α0.02, learnable1.86 / 2.03 / 5.42这个消融表面看只是“加了一个可学习系数”但实际上说明了一个更底层的问题Transformer 中 embedding 的范数会直接影响注意力权重相当于影响空间 token 在整条推理链中的发言权。如果 PE norm 过小空间信息在注意力中几乎“发不出声”如果直接硬加又可能偏离预训练分布引起语义不稳定。可学习归一化的价值就在于它让模型自己找到语义 token 和空间 token 之间的合理平衡点。图6论文 Table 5 的 PE 归一化消融。4附录里的额外消融方法并不依赖特定深度模型或大规模微调附录中的两组结果也值得放进传播稿里因为它们能增强方法的可信度。首先是depth estimator。用 DepthAnythingV2 与 UniDepthV2 作为预训练深度模型时结果分别为DepthAnythingV21.76 / 1.95 / 3.96UniDepthV21.80 / 1.88 / 4.21二者相近说明 SpaceDrive 的收益并不依赖某个特定深度估计器。其次是LoRA rank。当 base VLM 采用 Qwen2.5-VL-7B 时Rank 1610.09M 可学习参数1.80 / 1.88 / 4.21Rank 6440.37M1.88 / 2.13 / 4.08Rank 12880.74M1.82 / 2.25 / 4.68更高 rank 并没有持续带来收益反而在碰撞和越界指标上变差。这个结论很重要因为它说明 SpaceDrive 的改进不是靠“更重的微调”堆出来的而更像是接口设计正确之后自然降低了语言模型在数值回归上的学习负担。六、SpaceDrive 真正纠正了一个常见误区过去很多人默认认为只要把驾驶问题翻译成自然语言再把视觉输入和语言推理做大模型就会自然获得空间智能。SpaceDrive 的价值在于它明确否定了这种过于乐观的假设。空间不是语义的附属描述而是自动驾驶中的一等公民。如果空间表征仍停留在数字字符串层面那么模型其实是在“用语言模拟几何”而 SpaceDrive 提出的统一 3D PE 接口本质上是在让 VLM “直接在几何接口上推理”。这两者的差异不是工程细节而是问题建模方式的差异。七、总结如果用一句话概括 SpaceDrive这篇工作证明了VLM-based 自动驾驶要想真正进到物理世界不只是需要更强的语义理解还必须拥有一套统一、显式、可计算的三维空间接口。主实验告诉我们它有效而消融实验真正告诉我们它为什么有效。这也是我认为这篇工作最值得关注的地方。何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号 整理不易请点赞和在看