1月30日,在接连发布空间感知模型、具身大模型及世界模型三款技术成果后,蚂蚁灵波科技正式对外开源其最新研发的具身世界模型LingBot-VA。该模型创新性地构建了自回归视频-动作世界建模框架,通过深度融合大规模视频生成技术与机器人控制逻辑,在生成“下一步世界状态”的同时,同步推演并输出对应动作序列,从而让机器人实现“边推演、边行动”的类人操作模式。
在真机环境测试中,LingBot-VA展现出对复杂物理交互的高度适应性。针对长时序操作(如制作早餐、拾取螺丝)、高精度任务(如插入试管、拆快递)、柔性及关节物体操控(如叠衣物、叠裤子)三大类共六项高难度场景,仅需30-50条真机演示数据即可完成快速适配,任务成功率较业界强基线Pi0.5平均提升20%。
仿真环境测试中,该模型同样表现亮眼:在高难度双臂协同操作基准RoboTwin2.0上的任务成功率首次突破90%,在长时序终身学习基准LIBERO中实现98.5%的平均成功率,两项指标均刷新行业纪录。
技术层面,LingBot-VA采用Mixture-of-Transformers(MoT)架构,实现视频处理与动作控制环节的跨模态融合。其核心的闭环推演机制可在每一步生成过程中实时纳入真实世界反馈,确保生成画面与动作始终符合物理规律,进而支撑机器人完成高难度复杂任务。
为解决大规模视频世界模型在机器人端侧落地时的计算瓶颈,LingBot-VA通过设计异步推理管线,将动作预测与电机执行环节并行处理;同时引入基于记忆缓存的持久化机制及噪声历史增强策略,使推理过程中仅需更少生成步骤即可输出稳定、精准的动作指令。这些优化让模型在具备大模型深度理解能力的同时,实现了真机控制低延迟响应。
蚂蚁灵波方面表示,LingBot-VA的发布,标志着其在“世界模型赋能具身操作”领域探索出全新路径,此前已开源的LingBot-World(模拟环境)、LingBot-VLA(智能基座)及LingBot-Depth(空间感知)模型可与其形成技术协同。未来,蚂蚁集团将继续通过InclusionAI社区推动开源开放,联合行业力量共建具身智能基础能力,加速构建深度融合开源生态、服务真实产业场景的AGI(通用人工智能)体系。
目前,LingBot-VA的模型权重、推理代码已全面开源。
#白银一度跌超8% 贵金属巨震是何信号?##多重利好引爆白酒股!行情能否持续?##2025超额关键词#