专注于以Sim2Real技术为核心的3D视觉产品和智能机器人研发企业跨维智能今天宣布正式开源基于生成式仿真世界模型的具身智能工具链EmbodiChain。
据介绍,EmbodiChain能够自动训练VLA模型并成功真机部署的基于生成式仿真世界模型的具身智能工具链。它无需依赖真实数据,通过100%合成数据训练VLA模型,就能直接部署于真实机器人,实现零样本虚实迁移。
跨维智能表示,其目标是将EmbodiChain打造为具身智能领域的“水电煤”,让研究者摆脱数据采集的体力劳动与存储压力,推动具身智能研究和应用的加速落地。
基于端到端自动化流程,EmbodiChain融合生成式场景构建与智能体技能探索,打造“仿真-训练-部署”的高效闭环;首创任务场景与训练数据的自动化生成技术,让高质量训练流程的构建从数月缩短至数天;并构建了覆盖自动场景生成、技能发现到真机验证的全链路评估体系,为具身智能模型的实用化提供了完整开源基准。
在大语言模型领域,海量互联网文本数据催生了智能的涌现。但这一成功范式在机器人领域却难以复制。核心矛盾在于数据的本质差异:LLM依赖的是存量数据的清洗,而具身智能需要的是符合物理规律的增量数据。物理时间的流逝与人力成本的边界,始终限制着数据规模的突破。
而EmbodiChain的核心理念是“以生成替代采集”。它通过生成式仿真技术,构建了一条永不停歇的“在线数据流”,彻底摒弃了传统“生成-存储-读取”的低效模式。其技术框架包含三大创新模块:
世界生成:通过Real2Sim与Gen2Sim模块,引擎能够基于少量真实样本或语言指令,自动生成物理一致的3D场景与任务环境,实现数据生产的完全自动化。
数据扩增与自我修复:系统不仅随机化物理参数、增强视觉多样性,还能在机器人任务失败时自动生成修正轨迹,形成“错误-学习”的闭环机制,显著提升模型鲁棒性。
特权信息驱动:EmbodiChain提供真实世界中不可见的“上帝视角”信息(如物体掩码、空间关系),迫使模型理解物理本质而非表面像素,这与Yann LeCun倡导的世界模型理念高度契合。
不同于Sora等 “视频生成式世界模型”,EmbodiChain坚持3D交互式、物理精确的生成式仿真路线,通过提供特权信息(物体精确掩码、空间关系、可供性标签),迫使模型理解场景几何与物理本质,而非仅拟合表面像素,确保训练出的策略在真实世界中稳定可靠。
为验证生成式数据的有效性,跨维智能进行了极端测试:仅使用100%仿真数据训练Sim2Real-VLA模型,完全摒弃真实数据。测试显示:该模型在真实环境中的操作成功率显著领先于ACT、Diffusion Policy等依赖真实数据的方法,且在更换桌布、移动物体等干扰下表现出极强的鲁棒性。这一结果证明,生成式仿真数据不仅可行,甚至可能因避免过拟合噪声而优于传统方法。
跨维智能后续还将逐步释出由EmbodiChain自动训练的VLA基座模型及多个具体任务的Examples,为社区提供一套标准化的基础设施。