2025年世界机器人大会在北京举行,现场有众多机器人企业展示了大量产品,其中人形机器人尤为引人注目。
自变量机器人作为人形机器人领域的“玩家”之一,此前刚获得美团数亿元投资。
大会期间,自变量机器人创始人王潜在接受《中国经营报》等媒体记者采访时表示,当前机器人行业的发展瓶颈已不在于硬件,而在于控制机器人的“大脑”(即大模型),机器人尚未具备类人的操作、思考与判断能力,“这是目前行业需要重点攻关的方向”。
“大脑”能力有待发展
在机器人大会现场,人形机器人无疑是最受关注的焦点,多家厂商都进行了人形机器人的功能演示,涵盖行走、叠衣服、跳舞、打拳击等多个场景。
自变量机器人带来的新品“量子2号(Quanta X2)”,基于WALL-A模型及行业首创的“仿人机械臂+高自由度灵巧手”设计,全身拥有多达62个自由度,能够在现场和观众进行各类手势互动、打招呼、比心、猜拳等。
不过,王潜在采访中直言,当前市场上的人形产品多为纯硬件设备,偏向演示性质,或仅面向开发者,抑或只能完成简单跑跳等基础动作。他从软硬件角度分析:“人形机器人的硬件从5年前就已不是障碍,早在2—3年前机器人相关赛道升温时,硬件的技术路线和水平就已达到相当高度。”
目前真正制约人形机器人发展的是软件能力,也就是其“大脑”——专门用于控制机器的大模型的进化。“现在还缺乏足够智能的‘大脑’,让机器人能像人类一样思考、判断并灵活操作。”王潜进一步强调,“我们需要的并非语言模型,而是能处理物理世界交互的专用模型。”
谈及机器人大模型的发展,王潜认为过去两年最大的进展是行业逐渐达成共识:需要完全端到端的通用基础模型(foundation model)。“2023年时,相信这条路线的人寥寥无几,我们当时颇为孤独。而如今,这一方向已成为行业共识,正推动整个领域不断向前。”王潜说。
实现关键性突破还需3—5年
尽管行业已就人形机器人大模型的发展方向形成共识,但王潜认为:“人形机器人要迎来类似ChatGPT的关键性突破,可能还需要3—5年时间。”
当前,具身机器人能完成的较复杂任务包括整理衣物,如拉拉链、扣扣子、挂衣服等。而人类对其未来发展的期待是,能够胜任任意长任务。“只要推理能力足够强、无幻觉、环境条件允许,能在模型内构建长甚至无限长的思维链,具备零样本推理判断能力,可处理未经训练的动作组合。”王潜这样说道。
制约人形机器人专用大模型发展的核心要素,包括足够大的数据量、足够大的模型规模;此外,虽然模型的发展路径相对清晰,但模型架构与训练方法仍有待进一步完善。
以人形机器人专用大模型的数据为例,王潜解释,由于机器人涉及复杂物理交互(手部丰富的接触操作),这类场景不适合使用仿真数据,但走路、导航等环节可大量采用仿真数据;目前最核心的数据还是来自现实世界的收集。
在数据收集方面,行业内已有集中式数据采集场地、分散式现实环境收集渠道、实际部署后的数据流回及其他来源数据等多种方式。
“我们对与地方共建数据中心持开放态度,但机器人数据收集的质量控制验证难度较大,而自有场地的数据经过了充分研发。”王潜表示。他还指出,在数据质量方面,判断数据优劣是研发的核心问题,以DeepSeek为例,其未开源数据,数据层面的核心技术与技巧十分关键,难以用简单语言描述。
“未来两三年,人形机器人专用大模型或许会出现类似语言模型突破的重大进展。但要达到接近GPT 3.5的水平,可能还需要3—5年。”王潜特别强调,机器人专用大模型与语言模型、自动驾驶系统存在本质区别。“它不是非黑即白的‘零一态’,而是在众多场景中逐步演进的过程。”这种平滑过渡的特性,将避免重蹈语言模型或自动驾驶领域曾经历的商业化波折。