突破视觉仿真算力瓶颈!新一代具身智能仿真框架开源:高吞吐并行高保真渲染助力规模化训练
清华AIR DISCOVER Lab 投稿量子位 | 公众号 QbitAI具身人工智能领域正向着以视觉为中心的感知范式发生全面而深刻的转型。作为机器人感知世界时信息密度最高、与自然人机交互最契合的模态视觉是解锁通用机器人智能、实现仿真到真实无缝迁移的核心密钥。但当研究者们试图沿着这条路径向前探索时却始终需要在“看得真”和“训得快”之间做艰难取舍高保真视觉渲染带来了巨大计算与内存开销人工建模总是耗时耗力低效循环现有平台的兼容性缺陷不断限制着创新边界严重束缚了具身智能研究的想象力。为了攻克这些制约具身智能领域发展的核心难题清华大学智能产业研究院AIRDISCOVER Lab联合谋先飞技术、原力灵机、求之科技和地瓜机器人提出了GS-Playground通用多模态仿真框架。作为一套专为视觉中心的机器人学习打造的新一代仿真基础设施GS-Playground首次实现了高吞吐量并行物理仿真与高保真视觉渲染的深度融合在保证物理仿真所需的高精度与强稳定性的同时提供了大规模视觉驱动策略训练与仿真到现实迁移所需的渲染效率与环境支撑。该成果已被机器人领域国际顶级学术会议RSS 2026Robotics: Science and Systems录用。△Figure 1. GS-Playground Overview通用全场景原生兼容打造统一的具身智能仿真训练底座GS-Playground设计之初便定位于通用型全场景具身智能仿真平台平台核心搭载了团队自研的跨平台并行物理引擎原生支持CPU/GPU双后端与Windows/Linux/macOS全系统运行可无缝适配全品类机器人形态包括市面上常见的四足机器人、 全尺寸人形机器人、多自由度工业机械臂全部实现开箱即用的原生适配无需额外的二次开发工作。在此基础上平台全面覆盖机器人运动控制、自主导航、高接触精度操作三大核心任务场景。在接口设计上平台API全面兼容行业通用的MuJoCo MJCF格式可实现现有仿真项目的零摩擦快速迁移最大程度降低研究者的适配成本。自研高性能并行物理引擎为接触密集型机器人学习提供稳定底层动力学对于视觉中心的机器人学习而言“看得真”只是第一步真正决定策略能否迁移到真实世界的是仿真系统能否在复杂接触、摩擦、碰撞与多刚体耦合中持续给出稳定、可信的物理反馈。针对这一核心瓶颈GS-Playground从底层自研了一套高性能并行物理引擎采用广义坐标下的速度-冲量动力学公式将接触与摩擦统一建模为混合互补问题MCP并通过投影高斯-赛德尔PGS求解器实现稳定求解。相比依赖软接触正则化的传统方式这一设计更强调静摩擦保持、高刚度约束与大时间步稳定性尤其适合足式运动、机械臂抓取和密集多体接触等高动态任务。为了支撑大规模并行训练团队进一步引入约束岛并行化与接触流形热启动机制前者将彼此独立的刚体交互系统拆分为多个约束岛并行求解后者利用上一帧已收敛的接触冲量作为当前帧初值将稳定堆叠场景中的PGS迭代次数从50次以上降低到10次以内大幅提升复杂接触场景下的收敛效率。实验结果充分验证了这一自研物理引擎的稳定性与吞吐优势。在Franka Panda动态抓取摇晃测试中GS-Playground CPU后端在0.002s与0.01s两种时间步下均实现90/90的完整保持成功率显著优于MuJoCo、IsaacSim与Genesis等主流方案在27自由度人形机器人复杂多体交互基准中当单环境扩展到50个机器人时GS-Playground CPU后端仍能保持1015 FPS的稳定吞吐相比MuJoCo实现32倍加速相比MjWarp实现约600倍提升。自研内存高效Batch 3DGS渲染技术打破保真与效率的行业不可能三角数千个高保真3DGS场景同时渲染带来的内存与算力挑战一直是制约视觉驱动机器人大规模训练的核心卡点。针对刚体仿真环境团队首先设计了专属优化的高效剪枝策略。该策略可将高斯点数量减少90%以上同时峰值信噪比PSNR下降幅度不足0.05视觉差异几乎无法被视觉运动策略感知。这一技术在大幅降低显存占用的同时几乎无损地保留了场景的视觉质量为大规模高保真并行仿真奠定了核心基础。在此基础上团队研发了面向批处理深度优化的批量3DGS渲染器实现了多场景大规模高斯渲染的并行处理。在单张NVIDIA RTX 4090 GPU上渲染器在640×480分辨率下可实现最高10000 FPS的突破性吞吐量最多可同时渲染2048个场景不仅显著提升了单位算力的渲染效率更能完美适配大批次强化学习的训练工作流让大规模并行训练不再受限于渲染性能。△Figure 2. Rendering throughput comparison between GS-Playground and Isaac Sim’s ray-tracing renderer across varying resolutions此外团队还提出了刚性连杆高斯运动学RLGK机制将3D高斯簇与物理引擎中的对应刚体进行精准绑定确保视觉表征与物理对象的位姿能偶实时同步更新实现了零额外开销的状态同步。即便是在机器人快速运动、频繁接触交互的动态场景中渲染器依然能够实现无伪影的动态画面输出从根源上解决了动态场景中的渲染时间一致性与视觉伪影问题保障了训练数据的稳定性与可靠性。自动化“Sim-Ready”Real2Sim工作流降低 Real2Sim门槛传统仿真场景的构建始终是机器人研发流程中效率最低、成本最高的环节之一。无论人工建模多么精细却始终无法完全复刻真实环境的视觉细节与物理特性感知与物理的双重鸿沟成为了制约sim-to-real跨域迁移的核心卡点。针对这一行业痛点GS-Playground设计了一套全自动化的“图像到物理”Real2Sim工作流仅需输入单张RGB图像即可在数分钟内完成仿真就绪Sim-Ready数字资产的全流程创建实现了真实场景到数字孪生的快速转换同时保证视觉真实感与物理一致性。△Figure 3. GS-Playground System Architecture左自动化图像到物理仿真管线通过目标分割、背景补绘、三维高斯溅射 / 网格重建从RGB输入构建可直接用于仿真的资源。中物理与渲染仿真核心包含CPU/GPU物理后端、集成传感器与激光雷达仿真以及经过剪枝优化与刚性连杆运动学适配的批量三维高斯溅射渲染。右下游应用包括操作任务、导航任务以及大规模并行强化学习。基于这套成熟的自动化工作流团队还构建了Bridge-GS数据集在Bridge-v2数据集的基础上补充了场景与物体级的3DGS表征、物体级网格模型、6D位姿数据与校准后的相机参数为行业提供了标准化的高质量仿真数据集。同时团队在InteriorGS数据集上完成了完整的泛化性验证充分证明了该管线对不同室内场景的强适配能力与泛化性能。全链路端到端验证实现零微调的无缝仿真到真实迁移基于三大核心技术的深度协同GS-Playground完整构建了从真实场景重建、大规模并行训练到真机部署的全链路端到端闭环真正实现了“重建即训练、训练即部署”的研发流程革新。在策略训练与真机迁移的核心能力上平台可稳定支持数千个并行环境同时运行为四足机器人、人形机器人、工业机械臂等全品类机器人提供大规模视觉强化学习训练支撑。仅在GS-Playground仿真环境中完成训练的视觉驱动策略无需任何额外的微调与适配就能直接部署到真实机器人上稳定运行四足和人形机器人的运动策略均可zero-shot部署到真机视觉导航任务实现了零样本的真机直接部署机械臂抓取任务在零微调的前提下真实场景成功率达到90%。△Figure 4.Real-world deployment of policies trained in GS-Playground这一系列实验结果充分证明了平台实现了真正无壁垒的仿真到真实迁移也验证了其在打通具身智能感知与物理跨域鸿沟上的核心价值。开源赋能与全球社区共同推动具身智能创新GS-Playground作为行业内首个实现高吞吐量并行物理仿真与高保真批量3DGS渲染深度融合的全栈仿真框架从根源上突破了长期制约视觉驱动机器人学习的算力、显存与资产生成三大核心瓶颈。其自动化Real2Sim工作流大幅降低了高保真仿真环境的构建成本全维度的实验验证也充分证明平台在足式运动、自主导航、机器人操作等机器人主流任务中能够同时弥合物理与感知层面的仿真到现实鸿沟实现真正的零微调真机部署。未来GS-Playground还将持续迭代优化不断拓展能力边界。清华大学智能产业研究院DISCOVER Lab始终致力于推动具身智能领域的前沿研究与技术创新我们将正式开源GS-Playground的全栈框架提供一套高性能、易使用、高泛化性的核心基础设施助力大规模端到端视觉驱动机器人策略学习的进一步发展与产业落地。项目主页https://gsplayground.github.io论文链接https://arxiv.org/abs/2604.25459仓库链接https://github.com/discoverse-dev/gs_playground