就在罗福莉正式加入小米还不到10天,她带领的MiMo团队就甩出了一颗重磅炸弹——全球首个打通自动驾驶与具身智能的统一多模态基础模型 MiMo-Embodied 正式发布,并且全面开源!这不仅是罗福莉加盟小米后的首个成果,更标志着小米在空间智能和通用人工智能领域的野心正式落地。该模型由罗福莉作为核心作者、小米智驾首席科学家陈龙担任项目负责人,一经推出就在29个基准测试中全部霸榜,横跨具身操作与自动驾驶两大领域,真正实现了“我全都要”。
首个跨域融合的具身基座模型
MiMo-Embodied是业界首个成功融合自动驾驶与具身智能(Embodied AI)的统一视觉语言模型(VLM),它的诞生直击行业痛点:过去,室内机器人操作和室外自动驾驶长期处于割裂状态,模型无法实现能力迁移。而小米通过构建涵盖通用视觉、具身任务和驾驶场景的高质量数据集,提出了名为“X-Embodied”的新范式。这个模型不仅能理解家庭环境中的物体可操作性,还能应对复杂交通场景下的感知与决策,真正打破了室内与户外的领域鸿沟。正如团队所强调的,这是通用具身智能从“垂直专用”迈向“跨域协同”的关键一步。
四阶段训练策略实现全链路优化
为了打造这样一个全能型选手,MiMo团队设计了一套系统的四阶段渐进式训练方法。第一阶段聚焦具身AI微调,建立基础的视觉语言与空间推理能力;第二阶段引入自动驾驶数据,强化多视角时空一致性分析;第三阶段通过思维链(CoT)训练提升复杂问题拆解能力;最后用强化学习(RL)进行精细打磨,确保输出准确可靠。这种分层递进的策略让模型在不同任务间平稳过渡并持续积累能力,最终在真实世界任务中展现出远超GPT-4o、Qwen2.5-VL等主流模型的表现力,尤其在转弯、变道、避障等高难度交互场景中优势明显。
开源生态助力全场景智能落地
此次小米不仅发布了模型,还同步将代码、权重和训练框架在GitHub与HuggingFace上全面开源,支持社区共建。MiMo-Embodied在17个具身智能Benchmark和12个自动驾驶Benchmark上均达到SOTA水平,覆盖可供性预测、任务规划、环境感知、行为预测等全链条能力。这意味着无论是做服务机器人还是自动驾驶系统的研究者,都可以基于这一基座快速迭代应用。未来,团队还计划在此基础上开发视觉-语言-动作(VLA)模型,让机器能通过自然语言指令完成更复杂的物理交互。可以说,小米正试图以开源为杠杆,撬动整个具身智能生态的发展。