2025年,对人形机器人和具身智能赛道的创业者而言,都是特殊的一年。在产业端,不断迭代新的产品;在一级市场,这些初创公司成为投资者青睐的标的公司。
7月10日,在2025年新京报贝壳财经年会建设开源之都:智AI未来,生态共澎湃主论坛上,北京大学助理教授、银河通用机器人创始人及首席技术官、智源学者王鹤博士出席并发表题为《合成数据赋能的具身大模型开启工商业场景规模化落地》的主旨演讲。
人形机器人并不是一个新鲜的事物,从早稻田大学发布的全球第一个能自主行动的人形机器人WABOT-1再到波士顿动力早期的Atlas机器人,机器人一直存在,却并不智能。2022年大模型在全球范围内掀起的热潮,让无数研究者看到了新的方向,最早将人工智能和机器人研究相结合,重新定义机器人的能力边界,王鹤正是其中之一。
王鹤认为,一些通用大模型对于机器人而言并不具备可操作性,因此多模态模型的下一步发展方向就是将机器人的动作作为输出模态,这就是当下具身智能与大模型融合的一个新趋势,即VLA(Vision-Language-Action)大模型,通俗理解就是能够让机器人自主理解指令并依靠手眼脑身协调来执行任务。
从2021年斯坦福大学博士毕业到回国加入北大任教,创立并领导了北大具身感知与交互实验室,王鹤一直在探索机器人视觉和操控的可泛化性。“具身智能是目前真正推动制造业、生产服务业以及创造新质生产力的一个关键领域。”王鹤说。
但这个领域与传统的制造业并不完全相同,人形机器人要能“干活”,离不开一个会思考的大脑,只有让机器人本体承载具身大模型,机器人才会拥有自主决策的能力。王鹤坦言,“结合目前产业发展现状来看,数据短缺是制约人形机器人大规模落地应用的根本原因。我们需要的可能是上百亿的数据,机器人才能达到泛化的能力,但今天公开的数据集仅有百万条这个量级,中间差了好几个数量级,这是目前具身智能领域发展最大的瓶颈。”王鹤说。
投资界和产业界喜欢将具身智能的发展史与自动驾驶的发展史进行类比,但王鹤指出目前人形机器人和新能源汽车行业相比,仍有两个挑战:一是汽车的出货量远高于人形机器人企业,即便是像特斯拉等头部人形机器人企业的出货数量和头部车企几百万的出货量仍有很大的差距;二是汽车售出后也能够让车主驾驶自动回传数据,现阶段人形机器人还不能像买车一样马上产生使用价值。也就是说,具身智能领域面临的挑战来自两方面,第一是人形机器人存量不足;第二是单纯依赖真实采集数据成本过高。
“但这并不代表没有解决困境的方式,事实上在具身智能冷启动的时代,中国企业是有机会领跑的,不完全依赖真实数据的采集,而是更多使用合成数据在仿真器里进行大规模的强化学习,探索与真实世界的交互方式,提升具身大模型的训练效率和泛化效果。”王鹤分析。为此,银河通用自研仿真数据合成管线,迄今为止已积累了亿级真实应用场景数据及百亿级的合成仿真数据,利用这些合成数据进行技能学习,机器人Galbot 可以直接将所学技能泛化到真实世界中,现已在全球率先进行了大规模的VLA真实落地实践。
一、人形机器人能否产生新质生产力,主要取决于具身智能的发展
尊敬的各位领导,来宾,非常荣幸今天在2025贝壳财经年会代表具身智能与人形机器人产业分享我们企业、学术界、研究界对于该行业的一些实践和思考。首先,我的主题比较偏技术方向,但这背后反映的是我们中国新一代研究人员、新生代企业家们努力去引领、试图去“领跑”的一些尝试。
银河通用实际上是一家很新的公司,我们2023年5月注册成立于海淀,是一家基于具身大模型的通用机器人研发公司,我们的愿望是用通用机器人赋能千行百业,服务千家万户。正如黄市长、李部长所言,具身智能是推动制造业、生产性服务业及新质生产力的关键领域。
过去两年,中美及全球在具身智能领域风起云涌,代表性事件包括多模态大模型推出、特斯拉发布人形机器人Optimus。自2023年银河通用创立以来,中国目前约有200家人形机器人和具身智能企业。
但人形机器人和具身智能并非传统意义上的制造业企业,其核心不仅是制造人形机器人本体,更要有自主干活的智能,也就是具身智能,即通过手眼脑协调,以模型推动机器人自主干活,充分利用人类身体,实现人能干的活机器人都能干,这就是通用机器人。
当前中国制造业不断发展,已用诸多自动化、流程化方式实现汽车制造业多个环节无人化,形成“黑灯工厂”。制造业正在走强,但尚未达到“智造”,人工智能尤其是基于数据驱动的人工智能占比不高。这并非中国制造业独有现状,人形机器人真正自主干活在全球均未大规模应用。
实际上,人形机器人行业并非新鲜事物。上世纪60年代,日本开始研究机器人,到世纪之交波士顿动力推出机器人,已有近60年发展历程。如今一些知名人形机器人企业已退出历史舞台。
因此,人形机器人能否产生新质生产力,主要取决于具身智能的发展。
二、VLA是具身智能与大模型融合的新趋势,阻碍是缺少数据
大模型对具身智能有极大的推动性作用。大语言模型吸收互联网大量语料后,如豆包大模型已能流畅无延迟对话。多模态大模型能看懂图并据此语言回答,如GPT-4V、GPT-4o及国内DeepSeek、通义千问均推出多模态大模型。
但这些通用大模型仍不足以让机器人干活。例如,让机器人拿面前的话筒,大语言模型可能会说“好的你可以伸出右手抓住话筒,并把它拿起”,这样的语言描述不够,因为机器人手臂有6、7个电机,灵巧手可能有十几二十个电机,机器人需要的是每个电机输出多少扭矩的信息才能执行。模型说“请拿起来”,但机器人无法理解,因为模型不具备可操作性。
所以多模态大模型要做的是将视觉感知和语言交互等作为输入,机器人动作作为输出,这是具身智能与大模型融合的新趋势,即VLA(Vision-Language-Action)大模型。虽由美国谷歌提出,但目前全球学术界和产业界均在深入研究。
该领域研究最大阻碍是缺少数据。
以自动驾驶为例,其数据来自车主驾驶。人形机器人行业面临两大挑战:以银河通用为例,即便今年计划量产千台,也仍与头部车企数百万台的出货量有差距。车卖出后车主驾驶可自动回传数据,而今天大多数人形机器人存在的问题是,买回家后几乎全靠遥控器操作,与车买回家即能驾驶带来价值有巨大差异。这就是为什么这么火的产业,目前刚达到千台的水平,当然跟制造的供应链和成熟度有关系,但要推到万台、百万台,推到能弥补未来中国老龄化、少子化导致的生产力缺口、劳动力缺口,我们还有很漫长的道路。这里面一定需要智能,一定需要数据。
关于数据问题,美国的解决方法是人穿动捕服或用遥控器操纵机器人采集数据。这存在两大劣势:存量不足,短期内无法将人形机器人造到上百万台;第二卖给客户的无应用功能的机器人无法采集有效的任务数据,且耗时,遥控机器人干活比人自己干还慢。这两个劣势都导致具身智能缺乏源源不断的数据。
我们的数据需求是干各种事情,可能需要上百亿条数据,对应到Token可能需要上万亿,至少达到当前大模型的Token数才能实现泛化。目前公开的最大数据集仅100万条,相差4、5个数量级,这是具身智能发展的最大瓶颈。
三、利用合成数据在具身智能冷启动时代先行推进
但中国企业在人形机器人赛道有“领跑”机会,就是使用合成数据,而非完全依赖真实世界的数据,在具身智能冷启动时代先行推进。
也就是通过数字资产制造大量运动轨迹和标签,在仿真器里进行大规模强化学习,探索交互、物体使用方式,研究仿真器数据到真实世界的迁移,即Sim2Real(从仿真到现实),实现从数据资产到运动轨迹到Sim2Real的全链条。这一技术路线是我在斯坦福大学读博士到加入北京大学后一直在推动的。
该技术路线可使用消费级显卡进行图片渲染,整体管线可大规模批量复制,数据制造成本远低于在真实世界进行采集。基于完全无需真实世界采集的十亿级合成大数据,我们训练出端到端具身大模型GraspVLA,这是世界首个以合成数据为唯一预训练动作数据的具身基础抓取大模型。
在真实世界中,这样的预训练大模型采集效率极高。例如拆箱水,我们仅需一个工人采集,200条轨迹,训练出的模型就能很好地分拆一箱水。这样的预训练大模型还能应对新饮品,如农夫山泉和东方树叶,从4瓶改为3瓶,盖子从绿色改为红色、白色,大小高度变化,模型无需采集新数据、重新训练,可直接泛化。这表明具身智能拥有十亿级别数据后,能举一反三,对一个任务仅需一天下午采集,就能在同类物品间自动泛化,大幅降低具身智能应用的数据成本,使企业能用得起相关解决方案。
我们推出全球首个人形机器人智慧零售解决方案,在北京的店里,机器人真实抓药。订单下到仓后,无需人员24小时值守,由人形机器人操作,涉及从货架区、密集摆放区精巧抽出药盒、拉开柜子抽屉取药等,24小时不间断送药,满足夜间病人需求。目前北京已有10家门店,今年计划在北京、上海、深圳等城市开设100家药店。
我们的具身大模型还可以赋能四足机器人陪伴逛商场。算法实时给出跟随轨迹,借助室内自动驾驶技术让机器狗灵巧移动。在人流密集、无箭头指引的商场,面对各种动态遮挡,这都是基于合成数据技术生成的端到端模型实现的。
最后总结一下,在目前人形机器人赛道,我们要有自己的领先技术,要有定义这个行业风向标的能力,银河通用用合成数据打造的具身大模型,把各种能力融为一体,在过去短短两年时间内完成了数轮融资,并且累计融资了24亿元人民币。
我非常感谢国家出台的相关政策引导,以及产业方和头部VC支持,我相信作为中国具身智能领军企业,银河通用将持续“领跑”,引领行业走出一条比新能源汽车更辉煌的路线,真正开启生产力人形机器人的落地时代。
谢谢大家。