特斯拉OpenAI数据路线遇挫!8千平具身「兵工厂」+ego众包狂飙
【新智元导读】质量和成本只能二选一通过大脑小脑分层、场内场外双轮驱动数据堂给出了具身智能数据难题的解。为什么机器人还干不好家务不是因为它不够“聪明”而是因为——它没有“长大”。人类用几年时间通过数百万次真实交互学会动作与决策而机器人却要从数据里“补课”。2026年Physical AI真正的瓶颈不在算法也不在算力而在一个更现实的问题谁能以最低成本生产最多、最真实的训练数据2024年特斯拉和OpenAI在机器人数据采集上走了两条完全不同的路。特斯拉选择重资产路线利用动作捕捉服和虚拟现实头显用昂贵的遥操作设备采集高精度数据OpenAI则押注低成本机械臂试图通过众包方式获取海量数据。两种选择背后折射出一个根本矛盾——在数据采集这件事上“质量”和“成本”似乎只能二选一。事实上过去两年数据采集方式已历经三次迭代从“真机遥操”到“手持夹爪UMI”再到今年爆发的“第一人称人类视频Ego Centric”。每一次都在“解放对采集人的束缚”虽然扩大了产能降低采集成本但也损失了精细控制数据的获取。本质上这三次演进是在不断回答同一个问题如何在不牺牲过多“真实度”的前提下释放数据生产力这个矛盾该如何破解一、困局质量 vs 成本——一个不可兼得的选择题在算力、算法、数据构成的AI三角中算力和算法正在变得同质化如何获取高质量、多样化、类人化、低成本的训练数据已成为提升Physical AI模型性能的“诀窍”。Scaling law规模定律告诉我们只要能在数据上每增加10倍就能提高一倍的性能。在合成数据、第三视角视频学习仍无法替代真实物理交互的当下如何在真实采集中实现低成本、高质量成为行业需要破解的难题。目前Physical AI数据采集主要有以下流派1.真机遥操为专属机器人“量身定制”的高精度方案真机遥操的核心逻辑是人通过VR眼镜、手柄、遥操手套等操控某一款机器人完成各类动作同步记录关节角度、电机力矩、末端位姿、力反馈与各视觉传感器信息。这种方式的优势极为突出数据高度贴合目标机器人包含完整的力触觉信息训练出来的模型可以直接运用到同型号机器人上无需额外适配。可以直接使用π0算法来训练不用迁移。但缺陷同样严重数据与机器人强绑定几乎无法跨机型迁移真机采集场景受限多样性差遥操作会限制操作员动作采集的数据不自然真机成本高采集效率低通常需要两人配合有效数据时长短。因此、这种真机遥操的方式很难低成本积累大量的预训练数据。2.UMI通用夹爪从通用性、真实性出发降低采集成本UMI通用夹爪是斯坦福大学2024年提出的折中方案人手持标准化的通用夹爪3D打印GoPro等运动相机在真实野外场景中操作同步记录末端视角、夹爪状态、相对轨迹与运动信息。这种方式兼顾了成本与复用性设备成本低、高便携、数据可跨机器人复用贴近主流夹爪执行逻辑。但是仍旧存在缺陷夹爪仍然是一个不自然对操作员有较多限制的末端执行器难以完成拧螺丝、分拣细物等精细操作。数据缺少环境、行走决策等信息难以用在人形机器人训练多用于机械臂。3.动作捕捉直接无侵入捕获真实人类的动作动作捕捉则跳出了对机器人本体和UMI夹爪的依赖通过穿戴式设备捕捉人体和手部关键点轨迹再映射到机器人系统中。优势在于采集成本低、可批量开展无需部署真实机器人人类的动作更自然。动捕的方案和设备在虚拟数字人方面已经非常成熟但具身智能数据采集上依然会遇到一个问题——设备部署需要单独的环境和空间无法便携的带到千家万户的真实场景中去并且对遮挡等敏感。4.Ego 第一人称视频可穿戴式的无侵入数据采集方案EgoEgo Centric数据是2025年底从硅谷火到国内的具身智能采集方式Ego采集是从第一视角采集而不是爬取第三方视角数据来获取更高质量的数据而且采集成本比从互联网爬取、清洗更低记录的数据包括了第一人称视角中双手的操作环境数据身体关键点数据。采集员只需佩戴头环、头戴式相机使用双手操作即可。由于是可穿戴设备很容易进入家庭、商业等场景中进行数据采集。这种方式的优势极为突出采集成本极低、规模可无限放大。英伟达的EgoScale和DreamDojo已展示数万小时级的采集能力。同时第一视角蕴含了环境信息、人类的决策逻辑、视觉注意力切换也包括了丰富的手-物交互细节。当然它也有自己的劣势多设备需要时间对齐、空间标定设备需要长时间稳定运行原始视频中包含大量无效片段需清洗才能提取有效数据不包含任何力触觉信息或精确的关节轨迹其人体关节仅捕获手和脚其他关键点需要预测手部关键点和位置需要使用双目相机预测。几条路线各有取舍却都无法破解“质量与成本”的矛盾。这也让行业逐渐意识到具身智能难以实现一种方案打遍天下而是需要匹配机器人不同智能层级的“分层采集架构”——就像人类的大脑与小脑各自分工、协同工作才能实现高效的智能输出。二、破局大脑小脑分层场内场外双范式人类的智能天然分为两套协同系统小脑负责精细控制、毫秒级执行大脑负责高层规划、常识推理、错误恢复。具身智能同样需要复刻这套逻辑构建“云端大脑端侧小脑”的分层架构对应的采集方式也分为场内与场外两种各自承担不同的使命。1.训练机器人的“小脑”打造肌肉记忆场内采集聚焦短程技能、实时执行与毫米级精度如抓取、精密装配等。这类动作对延迟极度敏感因此必须部署在端侧通过VLA模型实现实时响应。对应的核心数据需求是电机信号、力矩、力反馈、高频控制指令等能反映“执行细节”的信息。而最佳采集方式正是真机遥操只有通过真实机器人的交互才能获取最精准的力触觉反馈为特定机器人打造稳定、确定、可复现的“肌肉记忆”。场内采集的核心价值不在于数据通用性而在于“精准适配”为特定型号机器人定制专属的执行能力确保它能稳、准、快地完成精细动作。2.训练机器人的“大脑”构建通用的决策能力与场内采集相反场外采集聚焦长程任务与动态决策如整理房间、设备巡检等。这类动作不需要毫秒级延迟更需要多样化的场景覆盖因此适合部署在云端支撑VLM大模型持续迭代。对应的核心数据需求是周边环境、决策逻辑、实际人类操作最佳方式是使用众包方式的Ego采集无需真机即可快速覆盖海量真实场景让大脑理解 “做什么、为什么”。这里多样化的场景非常重要大脑的数据需要适应性不仅包括各种静态场景甚至失败的情况还要包括各种动态干扰。因此针对未来机器人真实的工作场景Ego采集是最佳选择。场外采集的核心价值不在于精度而在于通用适配。不为特定机器人提供专属数据而是为所有机器人打造通用的决策能力实现“一句指令多种执行”。二者的协同构成了具身智能数据采集的核心逻辑思考方式统一执行各异。具身智能的数据问题本质不是“选哪种采集方式”而是用什么数据训练机器人的哪一部分智能。这也是为什么行业开始从「单一采集方案」转向「分层数据架构」而像数据堂这样的专业数据基础设施服务商正成为这一转型中的关键角色。三、落地场内靠工厂提效场外Ego众包扩量分层架构的清晰只是具身智能落地的第一步。真正的行业竞争在于工程化能力——如何低成本、大规模、稳定地产出高质量数据。解决方案就是“场内工厂化场外众包化”的双轮驱动。1.场内采集重资产工厂运营拼的是成本与效率小脑训练需要真机数据场内采集是典型的重资产运营模式机器人、场地、电力、人力的持续投入决定了效率就是生命线。必须构建一套完善的成本优化与流程标准化体系采用梯队化管理实现任务标准化、动作规范化、异常处理流程化。一个熟练采集员日均产出200–500条有效数据而通用抓取模型训练就需要10万条以上。只有工厂化、规模化运营才能摊薄成本。2.场外采集轻资产Ego众包模式拼的是极简与规模大脑训练追求的是场景多样性。2026年场外采集已从“手持夹爪众包”升级为Ego极简采集采集员仅需头戴式运动相机便携计算模块手机控制搭配语音独白以第一人称视角记录日常操作。这种方式成本可控、易部署、无约束更贴近人类自然操作再通过自动化质检和人工抽检机制保障数据质量可快速积累高质量多场景数据。甚至这种无侵入的采集最好的方式是跟各种专业人员操作结合起来直接请专业的酒店整理、厨师、物流人员佩戴在实际工作中记录既真实又降本。3.场内与场外不是二选一而是协同互补场内工厂与场外众包并非相互替代的关系而是两种不同的数据采集模式各自承担着不同的产业使命最终形成协同互补的数据供给闭环。场内采集走的是B2B重服务模式高可控、稳交付主要服务于头部机器人厂商支撑机器人 “小脑” 训练。场外为平台轻模式高扩张、广覆盖以Ego数据为核心补充场景多样性支撑“大脑”的通用化训练。二者协同实现高精度与高通用的兼顾为具身智能规模化落地提供完整的数据支撑。四、实践数据堂——让“具身智能数据”不再成为算法训练的难题对机器人企业而言自建数据体系往往面临三个现实问题成本高设备 人员周期长从0到1搭建难规模化无法快速扩张数据堂的价值本质上是把“数据生产”这件事从研发问题变成基础设施服务。相比机器人公司自建采集团队专业数据服务商具备两方面独特优势一是规模化工程能力——已在全国布局采集基地与标注中心拥有成熟的数据采集SOP与人员梯队二是全链路闭环经验——从任务设计、真机采集、众包分发到多模态标注、质检交付已形成标准化流水线。数据堂作为专业的人工智能数据服务提供商凭借十余年的行业积累成为国内具身智能数据服务领域的核心标杆将“大脑-小脑、场内-场外”的理论框架转化为可交付、可规模化、可商业化的落地服务。已服务多家头部具身智能企业完成万小时级Ego数据采集与百万级标注交付。自建具身智能数据工厂场内采集面对数据采集的困难数据堂斥巨资打造国内顶尖具身智能数据工厂。工厂占地超过8000平方米搭建高度真实、可灵活配置的物理环境模拟药店、超市、工厂、家居、厨房等真实复杂场景涵盖零售、医疗、工业自动化等多个商业化领域。工厂装配了300组通用双臂灵巧手采集设备600名经验丰富的采集员。计划今年产出10万小时数据。拥有全球众包资源提供Ego采集服务场外真实环境采集在采集端紧跟2026行业范式数据堂同步搭建Ego第一视角采集、UMI手持采集的众包体系。实现了设备管理和维修、项目管理、培训、质检、众包资源拓展、场景资源拓展的人员体系以及面向具身智能算法企业的服务体系可短期低成本采集大量的真实场景数据。已经为数个国内头部具身智能玩家提供Ego、UMI数据采集服务。通过高效的标注平台支持各类具身智能的数据标注同时数据堂拥有百万级标注团队与自研智能标注平台提供覆盖感知到决策的多模态标注服务。如位姿标注服务于“小脑”训练通过解算点云精确识别目标物体的六自由度位姿是精细操作的前提VLA/VLM标注则服务于“大脑”训练对操作视频进行任务拆解与结构化对齐为模型提供决策依据。结语2026年不是人形机器人的量产元年而是具身智能数据元年。硬件决定机器人的下限而数据决定机器人的上限。这场Physical AI竞赛的核心是数据闭环工程能力。以数据堂为代表的服务商正用双轮体系为具身智能输送燃料搭建实验室与产业落地的桥梁。未来机器人的差距本质上是数据的差距。而那些能掌握分层采集、数据闭环与标准体系的企业终将主导下一代Physical AI的发展——因为数据正在重新定义机器人的未来。本文来源新智元公众平台