World Action Model

张

张建站

2026/5/2 1:13:26

10分钟阅读

写在前面从过年一直到现在，World Action Model这个概念很火，学术界有很多工作（Cosmos Policy, DreamZero, Motus, LingBot-VA, FastWAM）。感觉在短期的未来可能也是大家的交流话题，在组内和网上学到了很多，这里记录一下信息，也希望能帮助想要了解World Action Model的朋友们。什么是World Action Model？首先，什么是World Action Model，它跟我们常说的World Model有什么区别吗？我们常说的World Model其实准确描述应该叫Action Conditioned World Model (AC-WM)，输入当前时刻的状态 s_t 和将要执行的动作 a_t，AC-WM会预测出下一时刻的状态 s_{t+1}。这样的建模方式中，动作 a_t 是 AC-WM 的一个输入（即一个condition）。对于World Action Model（后文简称为WAM）来说，只需要输入当前状态 s_t ，WAM会同时输出对应的动作 a_t 和执行这个动作之后对应的状态 s_{t+1} 。所以简单来说，AC-WM和WAM的区别为：动作到底是作为模型的输入，还是输出。World Action Model和VLA的区别与联系对于一个模型来说，如果能输出动作，其实就可以算一个policy了。目前作为policy的模型，大多数是VLA架构，这里我们又谈到了WAM也可以做policy，那么这两者有什么区别和联系呢？VLA：充分利用VLM基础模型的能力 + Action ExpertWAM：充分利用Video Generation Model基础模型的能力 + Action ExpertVLA这条路比较好理解，VLM就类似人的大脑，有了思考能力，现在接个身体 (Action Expert) 让它控制。WAM这边利用Video Generation Model的能力生成动作，其实也有一定的道理，因为WAM在训练的时候，可以用未来帧做密集监督，学习世界演变的知识，可能更有利于控制身体。可能有的同学就要问了，那能不能同时利用VLM和Video Generation Model的能力，构建一个更好的policy？好问题，感觉之后确实会形成VLA+World Model的统一架构。WAM的经典工作简介和几种范式最近有很多WAM的工作，这里选取几篇扫过的大致给大家介绍一下。Motus: A Unified Latent Action World Modelmotus架构很简单，使用了Mixture-of-Transformer将Video Generation Model、Action Expert以及Understanding Model三个模型进行结合。训练/推理的时候，Video Gen Model输入一段视频的第一帧和加噪声的之后的帧；Action Expert输入纯噪声；Understanding Model输入第一帧和文本。最终实现Video Generation Model预测未来帧，同时Action Expert输出对应的动作。Cosmos PolicyCosmos Policycosmos policy最有意思的一点是它没有在co

口碑好的新疆生态修复哪个公司更靠谱

在生态修复领域，新疆绿景生态集团有限公司凭借其卓越的表现脱颖而出。接下来，我们将从多个维度深入剖析，看看它究竟为何如此靠谱。专业实力：技术与经验的双重保障技术优势新疆绿景生态集团扎根新疆戈壁荒漠特殊地貌，专…...

2026/5/2 1:10:25 阅读更多 →

D2R Pixel Bot终极指南：暗黑破坏神2重制版自动化运行完整解决方案

D2R Pixel Bot终极指南：暗黑破坏神2重制版自动化运行完整解决方案【免费下载链接】botty D2R Pixel Bot 项目地址: https://gitcode.com/gh_mirrors/bo/botty D2R Pixel Bot是一款基于Python开发的高级像素级自动化工具，专为《暗黑破坏神2重制版…...

2026/5/2 1:05:45 阅读更多 →

SAP MM | S4510 第一章——SAP S/4HANA 库存管理与盘点基础

1. 导言：库存管理的核心地位库存管理 (IM) 是 SAP 物料管理 (MM) 的灵魂，不仅负责维护物料的账面库存，更是连接采购、生产、销售与财务的神经中枢。在 S/4HANA 后勤体系中，库存管理通过高效的集成确保业务流与信息流的同步：集成触发点 (MRP)：物料需求计划 (MRP) 是整…...

2026/5/2 1:04:24 阅读更多 →

Arm Cortex-A520AE核心架构与优化实战解析

1. Arm Cortex-A520AE核心架构深度解析在汽车电子和工业控制领域，处理器的高效性与可靠性同样重要。Cortex-A520AE作为Armv9.2-A架构下的安全增强型核心，采用独特的双发射流水线设计，在保持低功耗的同时实现了可预测的实时性能。我曾参与过基…...

2026/5/1 20:48:08 阅读更多 →

015、使用AutoGen框架搭建多Agent对话系统

015、使用AutoGen框架搭建多Agent对话系统告别单打独斗，让多个智能体通过协作与对话，共同解决复杂任务。前言在上一篇《多Agent系统入门：协作与竞争的基础模型》中，我们探讨了多智能体系统的核心概念、基础架构以及简单的协作模式。你可能已经意识到，手动协调多个Agen…...

2026/4/28 3:08:33 阅读更多 →

大模型量化实战评测：GPTQ、GGUF、AWQ 在显存、速度与精度上的真实表现

1. 大模型量化技术入门：为什么我们需要量化？ 如果你尝试在消费级显卡上运行大语言模型，大概率会遇到显存不足的报错。比如用16GB显存的RTX 4080直接加载Qwen1.5-7B模型时，系统会无情地提示"CUDA out of memory"。这就是…...

2026/4/27 23:58:30 阅读更多 →

Display Driver Uninstaller终极指南：彻底清理显卡驱动的专业工具

Display Driver Uninstaller终极指南：彻底清理显卡驱动的专业工具【免费下载链接】display-drivers-uninstaller Display Driver Uninstaller (DDU) a driver removal utility / cleaner utility 项目地址: https://gitcode.com/gh_mirrors/di/display-drivers-u…...

2026/4/26 0:08:05 阅读更多 →