2026年具身智能的核心不是场景落地快慢,而是底层模型的代际更替。VLA走到尽头,世界模型+动作联合建模(WAM)成为必然解,这不是趋势,是原理决定的必然。一、VLA的原理与原生缺陷VLA(视觉-语言-动作)核心逻辑:图像→语义解析→LLM推理→动作映射原生缺陷:无物理常识:只懂语义,不懂重力、碰撞、运动轨迹,长尾场景必崩泛化能力弱:学的是“画面-动作”配对,换背景、换物体就失效黑盒不可控:动作来自LLM概率输出,无法预判风险数据成本高:需海量标注样本,规模化落地无经济性VLA的瓶颈是原理级缺陷,不是优化能解决的,这是行业共识。二、WAM的原理:从模仿到推演WAM(World-Action Model)核心逻辑:图像→世界建模→未来推演→动作生成→执行本质是物理级理解:AI先构建虚拟物理世界,预演动作后果,再输出最优解。技术实现(联合建模):世界模型:学习环境动力学,预测未来1-3秒状态动作模型:从未来状态反推可执行动作联合训练:世界与动作共享参数、互相约束,保证物理一致性一句话:VLA是“照猫画虎”,WAM是“先思考再行动”。三、代表性论文+公司+技术路线DreamZero(英伟达NVIDIA,2026)路线:扩散联合生成(视频+动作同步去噪)核心:140亿参数,零样本泛化最强,物理一致性极高投资关键词:高保真、零样本、巨头技术底座WorldVLA(阿里达摩院,2025)路线:自回归统一Token核心:VLA与世界模型大一统,双向增强泛化投资关键词:多模态融合、端侧适配GAIA-1(谷歌DeepMind,2026)