写在前面从过年一直到现在,World Action Model这个概念很火,学术界有很多工作(Cosmos Policy, DreamZero, Motus, LingBot-VA, FastWAM)。感觉在短期的未来可能也是大家的交流话题,在组内和网上学到了很多,这里记录一下信息,也希望能帮助想要了解World Action Model的朋友们。什么是World Action Model?首先,什么是World Action Model,它跟我们常说的World Model有什么区别吗?我们常说的World Model其实准确描述应该叫Action Conditioned World Model (AC-WM),输入当前时刻的状态 s_t 和将要执行的动作 a_t,AC-WM会预测出下一时刻的状态 s_{t+1}。这样的建模方式中,动作 a_t 是 AC-WM 的一个输入(即一个condition)。对于World Action Model(后文简称为WAM)来说,只需要输入当前状态 s_t ,WAM会同时输出对应的动作 a_t 和执行这个动作之后对应的状态 s_{t+1} 。所以简单来说,AC-WM和WAM的区别为:动作到底是作为模型的输入,还是输出。World Action Model和VLA的区别与联系对于一个模型来说,如果能输出动作,其实就可以算一个policy了。目前作为policy的模型,大多数是VLA架构,这里我们又谈到了WAM也可以做policy,那么这两者有什么区别和联系呢?VLA:充分利用VLM基础模型的能力 + Action ExpertWAM:充分利用Video Generation Model基础模型的能力 + Action ExpertVLA这条路比较好理解,VLM就类似人的大脑,有了思考能力,现在接个身体 (Action Expert) 让它控制。WAM这边利用Video Generation Model的能力生成动作,其实也有一定的道理,因为WAM在训练的时候,可以用未来帧做密集监督,学习世界演变的知识,可能更有利于控制身体。可能有的同学就要问了,那能不能同时利用VLM和Video Generation Model的能力,构建一个更好的policy?好问题,感觉之后确实会形成VLA+World Model的统一架构。WAM的经典工作简介和几种范式最近有很多WAM的工作,这里选取几篇扫过的大致给大家介绍一下。Motus: A Unified Latent Action World Modelmotus架构很简单,使用了Mixture-of-Transformer将Video Generation Model、Action Expert以及Understanding Model三个模型进行结合。训练/推理的时候,Video Gen Model输入一段视频的第一帧和加噪声的之后的帧;Action Expert输入纯噪声;Understanding Model输入第一帧和文本。最终实现Video Generation Model预测未来帧,同时Action Expert输出对应的动作。Cosmos PolicyCosmos Policycosmos policy最有意思的一点是它没有在co