EasyRader 全文翻译、生成结构化导读、思维导图节省80%阅读时间 。在大模型LLM领域「规模定律Scaling Law」早已是人尽皆知的真理——模型越大、数据越多实力就越恐怖。但在3D计算机视觉领域由于高质量3D数据的匮乏和几何计算的超高复杂度Scaling Law 迟迟未能展现出其魔力。就在最近AI 3D 领域迎来了一颗重磅炸弹由牛津大学视觉几何组VGG与Meta AI联合推出了全新的前馈3D重建基础模型——VGGT-Ω。这项研究不仅正面硬刚 3D 领域的数据瓶颈更用实打实的数据向全行业宣告3D几何重建同样尊崇「大力出奇迹」的真理 战绩一览前馈3D重建的「新王登基」过去传统的3D重建如 SfM、COLMAP或者一些混合优化方法如 MegaSaM在面对复杂动态场景时不仅速度慢得像老牛拉车还经常出现几何漂移和纹理模糊。而VGGT-Ω作为一个「端到端」的前馈 Transformer 模型直接输入多张图片就能瞬间吐出精准的相机轨迹和深度图来看看它在业界公认的硬核测试集 Sintel 上的恐怖战绩相机姿态估计准确率直接狂飙 77%深度估计精度大幅提升 26%。⚡速度比大名鼎鼎的 MegaSaM 快了整整 50 倍无论是静态的地下珊瑚礁还是动态的网球运动员轨迹、城市车流VGGT-Ω 都能做到毫秒级的「一眼看穿几何结构」。 核心黑科技它是如何把 GPU 显存「砍掉70%」的想要把 3D 重建模型扩展到前所未有的超大规模原有的架构根本带不动。原版 VGGT 的全局注意力机制Global Attention是个严重的显存吞噬兽。为了打破这个僵局Meta 和牛津的科学家们对架构进行了精妙的「三板斧」魔改Register Attention寄存器注意力机制科学家们注意到ViT 模型会自发使用少量 Token 来传递全局几何信息。于是他们在每帧图像中加入了 16 个可学习的「寄存器 Token」也叫场景标记 Scene Tokens。在部分网络层中不允许帧与帧之间的图像 Token 直接对话而是必须通过这些「场景 Token」进行全局信息中转。这一项改动直接砍掉了大量的 FLOPs 和显存开销重塑密集预测头Lightweight Heads以前那些高分辨率的卷积层如 DPT极度浪费显存。VGGT-Ω 果断把最耗显存的卷机层换成了单个 MLP 加上 Pixel Shuffle像素重组算子不仅显存暴降重建出来的图依然丝滑流畅。单预测头多任务监督Multi-task Supervision精简架构精简到只保留一个深度预测头和一个相机预测头但在训练时依然保留多任务损失Loss进行強力监督。这三套组合拳下来VGGT-Ω 成功在训练时省下了 70% 的 GPU 显存正是这 70% 的空间让团队能够用15倍于前作的庞大数据量对其进行疯狂投喂。 1800万互联网视频洗礼解锁 4D 动态重建3D 视觉最缺的是什么高质量的几何真值Ground Truth数据。VGGT-Ω 这次开发了一套极其硬核的高质量数据标注流水线利用 VLM 预筛选、COLMAP、几何后验过滤等技术从 4000 万个互联网野外视频中硬生生筛选洗练出了 80 万个带有精准几何标注的动态/刚性序列。更绝的是他们还引入了类似DINO 的自监督学习协议Teacher-Student 模型直接把1800 万个毫无标注的互联网视频塞进去进行动态对齐训练这直接解锁了模型对真实世界中各种复杂、动态、奇葩场景的恐怖泛化力。 终极彩蛋3D 重建竟然是「具身智能」的催化剂如果仅仅是重建得准、速度快它还不足以被称为「3D 空间基础模型」。研究人员做一个非常大胆的尝试他们把 VGGT-Ω 训练好后、原本用来做全局中转的「场景寄存器 TokenScene Tokens」直接冻结拔出来当作一个外挂几何特征塞进了具身智能大模型 OpenVLA 中。结果令人震惊在机器人操控基准测试 LIBERO 上套用了 VGGT-Ω 寄存器特征的机器人在各项操纵任务中的成功率Success Rate获得了全面且显著的提升这证明了这些由几何重建任务训练出来的 Token不单单包含了几何点云信息更蕴含了极高层次的空间语义与结构理解甚至能与语言空间自然对齐符合大模型领域的「柏拉图表征假设 Platonic Representation Hypothesis」。 总结VGGT-Ω 的诞生不仅仅是刷榜了几个 3D 重建的 Benchmark。它更深刻的意义在于验证了3D 空间理解不需要死磕传统的非刚性优化公式只要架构对了、数据和参数规模上去了网络自己就能学会真实世界的物理与空间几何规律。未来的自动驾驶、机器人具身智能、以及 AR/VR 设备或许都将装上这样一个由数千万视频喂出来的「几何大脑」。项目开源主页http://vggt-omega.github.io/ 现在下载开启高效科研阅读新体验EasyReader论文阅读 - 易读论文阅读 科研文献翻译