当大多数机器人还停留在“依赖遥控器操作”的阶段时,在近日举行的世界机器人大会上,《每日经济新闻》记者(以下简称每经记者)却看到了不一样的场景。
在维他动力展台,可以自主移动、自主反应的机器狗“大头”吸引了众多小朋友,大家亲切地喊着它的名字、抚摸它的身躯,展台被围得水泄不通;
在星海图展台,不管被子怎样凌乱地摊在床上,机器人每次都能熟练地揪起两边被角,翻下来将被子铺平;
在越疆机器人展台,人形机器人Atom左手拿起扳手将机械臂轴承旋紧至0.1毫米公差内,右手同步将不同规格的零件分拣至六宫格料箱,实现了双脑决策+双臂协同;
在优必选展台,通过群脑网络2.0的整体调度与任务分配管理,多台人形机器人协同,成功展示了从物料入库、搬运到动态随机分拣的全流程作业。
这些操作让现场观众直呼,这届机器人有点儿东西!
其实,在维他动力联合创始人、产品副总裁赵哲伦看来,这些展示都属于物理AI范畴。可以说,物理AI正在让机器人变得越来越自主、越来越懂事。
物理AI要求机器人完全自主运行
物理AI被英伟达创始人黄仁勋视作是人工智能的下一个浪潮。
赵哲伦对每经记者表示,AI的本质是用计算能力解决问题。过去,AI主要处理的是信息层面的任务,运行环境局限于电脑或手机,与物理世界关联较弱。
“物理AI则不同,它要解决的是物理世界的空间移动问题。”赵哲伦解释,不仅是移动本身,所有机械臂的移动、灵巧手和足的移动都是空间移动,可以理解为让空间中的某个物体从A点有序地移动到B点。“人类日常很多工作本质上都是一连串空间移动的集合,比如递一杯咖啡、叠一件衣服等。”
赵哲伦表示,自动驾驶严格意义上是首个规模化落地的物理AI应用,但它相对简单,它解决的是平面上前后左右移动的问题。而像叠衣服、取饮料等动作,则属于更复杂的空间移动。
他提到,物理AI并不限定形态,比如桌面机械臂、四足机器人、轮式底盘加机械臂,只要涉及空间移动,就都属于物理AI的范畴。
在他看来,物理AI的内涵要求机器人完全自主运行——自主感知环境、理解信息、规划任务并执行。“这四个环节应该在机器人自己的本体完成。一旦有人遥控,肯定不是物理AI,因为遥控相当于从感知环境到理解再到执行是由人来做决策。”传统扫地机、无人机之所以不算物理AI,是因为它们依赖一套固定规则的基础算法。
在维他动力展台,“无遥控”三个字也被醒目地写在展台中央立柱上。在其展台体验区,机器狗会跟着人自主移动。赵哲伦说,其团队解决的问题就是让机器人能够在任何人类可至的环境中自主移动,并知道自己要去哪里、该跟随谁。
维他动力展台上观众与机器狗“大头”互动
他说,用户通过语音下达指令,机器狗在理解物理环境后自主完成指令,它要做的事情跟人形机器人没有任何区别。
“这个难度要高于自动驾驶,因为交通场景虽然速度快、风险高,但受明确的交通规则约束,相对有规律;而人类生活空间既无规则也更无序。”赵哲伦补充说。
全自主运行要与具体业务需求结合
优必选现场展示的多台人形机器人全流程协同作业场景正是物理AI的生动实践。
优必选首席品牌官谭旻告诉每经记者,公司机器人所有演示场景均为AI驱动。其人形机器人在工业智能制造领域的应用覆盖搬运、质检、分拣三大场景,目前已进入多家汽车工厂实训。
“在真实的汽车工厂环境中,车辆到达时间随时可能变化,所以无法预编程,机器人必须自主运行。如果仍需人工遥控,机器人进厂便失去了应用价值。”说完,谭旻站到正在往车上搬箱子的人形机器人面前,机器人随即停了下来。“看到没有?机器人识别到人或者其他物体时就会自主停下,之后它会重新规划路线,全程无需人工干预。”
优必选展台演示机器人分拣作业
在科大讯飞机器人首席科学家、聆动通用CEO季超看来,全自主并非新命题,传统自动化已经实现特定场景的全自主。他对每经记者表示,具身智能时代的全自主关键在于泛化性的提升。目前的全自主,大家更关注的还是定义一个具体任务,针对这个任务去做自主运行,本质上是系统集成的雏形。
因此,他认为,定义全自主的关键要素,首先要有动作流,一个个动作基于时间序列串成一个连续动作;在这个过程中这些动作可以完成一些任务,这就是任务流;要实现完全自主,就要把机器人跟真实的生产生活结合起来,这就是业务流。“如果是做B端(商家)方向,机器人一定是有业务流的。业务流、任务流和动作流能够实现全流程闭环,它就可以完成一个自主化的运行。”
季超强调,实现自动化的必要条件是要跟业务场景结合,形成因果驱动的任务链。如果机器人没有场景、没有业务,比如只是希望它往前走一走,往后走一走,但是并没有因果关系,这其实更多的还是基础动作流的展示。
加速进化公司一直在聚焦机器人足球赛。公司国际化负责人李超逸对每经记者表示,目前该公司所有上场比赛的机器人均为全自主运行,无需遥控,自主水平也在快速迭代。
谈及投入大量资源聚焦机器人足球赛的原因,他说,比赛能够在短时间内高密度地锤炼机器人的感知(快速识别动态物体)、定位、导航、避障、稳定行走及倒地恢复等能力。这些能力未来都可以迁移至家庭、工业等真实场景。
季超提到,随着大语言模型、多模态大模型及具身大模型的发展,机器人已经具备任务理解与动作规划、动作执行能力。
但是,多位受访者提到,模型和数据制约了具身智能扩展至更通用场景。
赵哲伦提到,现在的难点在于,如果是机械臂相关的操作类物理AI,执行的成功率可能没那么高,效率相对也会比较低。“这涉及具身智能研发范式问题,即它确实没有非常充分的数据,使其在某一个场景下或在通用场景下做得特别好。”
他进一步解释,比如目前以智能驾驶为基础的类似VLA(视觉语言动作)的模型,其实泛化性比较差,因为没有物理环境的数据。就像机器人叠被子,能叠花被子,但可能叠不了蓝被子。“大家对机器人的预期是它能叠所有的被子,但事实上它从感知到理解还是有差距的。”
“当然,物理AI在定义上是清晰的,就是要自主。”赵哲伦说,但是也要看到,所有物理AI都必须经历从有限场景到无限场景的扩展,就像自动驾驶从单车道到高速公路,再到城市场景的演进。
而在模型方面,松延动力CFO韩深任对每经记者表示,现在机器人可以接收视觉、触觉等数据,但它的自主决策能力不足。“主要是模型架构没跑通,如何训练、输出,这些还需要行业不断发展。”
他认为,目前制约模型成熟的因素主要是大家对模型的认知没有形成统一范式,或者说现在的架构不清晰,VLA等主流架构能否最终胜出仍不确定。
在韩深任看来,将模型跟数据的逻辑跑通,可能需要3~5年,届时机器人才能像真人一样决策,遇到问题会自行处理,这样才能走进千家万户。
完全自主的人形机器人何时能够实现?谭旻认为,如果要达到与人类同等水平的完全自主,行业共识认为仍需数十年,有限自主有望在2030年至2050年实现。届时,机器人可在特定场景下理解自然语言指令并完成任务,例如“从冰箱拿一瓶可乐”。但复杂、泛化的家庭服务仍需长期迭代。
北京长木谷医疗科技股份有限公司的骨科智能手术机器人目前处于“人机协作”阶段,公司董事长张逸凌对每经记者表示,随着病例量、应用案例的不断积累,手术机器人会越来越具备大专家的能力,慢慢从人机协作(需要医生指导)过渡到半自主,再到纯自主。“我认为这在未来5~10年就能实现,我相信下一代的自主型手术机器人一定会在中国出现。”