• 最近访问:
发表于 2025-03-10 15:28:10 股吧网页版
中国首个通用具身基座模型发布
来源:澎湃新闻 作者:喻琰

  3月10日,上海机器人初创公司智元机器人正式发布智元启元大模型GenieOperator-1(GO-1),这是中国首个通用具身基座模型。智元机器人表示,这款模型具有泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,降低了后训练成本。

  据介绍,该模型开创性地提出了Vision-Language-Latent-Action(ViLLA)架构,实现了可以利用人类视频学习,完成小样本快速泛化。ViLLA架构是由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。在推理时,VLM(多模态大模型)、Latent Planner(隐式规划器)和Action Expert(动作专家)三者协同工作。目前智元启元大模型已成功部署到智元多款机器人本体。

  2024年年底,智元机器人曾发布AgiBot World 百万真机数据集,尽管AgiBot World 数据集已经是目前最大的机器人真机示教数据集,但这样高质量带动作标签的真机数据量仍然有限,远少于互联网规模的数据集。为了解决具身智能数据困境,智元机器人采用Latent Actions(隐式动作)来建模当前帧和历史帧之间的隐式变化,然后通过Latent Planner(隐式规划器)预测这些Latent Actions(隐式动作),从而将异构数据源中真实世界的动作知识转移到通用操作任务中。

  智元机器人表示,通过ViLLA 创新性架构,智元机器人在五种不同复杂度任务上测试 GO-1大模型,相比已有的最优模型,GO-1平均成功率提高了32%。其中在“Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(补充饮料) 任务中表现突出。此外,GO-1大模型还可以搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习,“越用越聪明”。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500