新华财经上海12月17日电(记者杜康、龚雯)在日前举办的2025全球开发者先锋大会上,机器人在插花、搬运、救灾等真实场景中“各显神通”。冷冰冰的技术参数,在这里化作了鲜活的技能比拼。当然,大赛也暴露了具身智能“笨拙”的一面:在叠衣服、拧螺丝等精细操作背后,不少机器人仍连着“遥操作”的手柄。
恰恰是在这“能”与“不能”的缝隙中,公众得以窥见这一火热领域的技术边界与未来方向。
从机器人的“能”里看技术进阶
回望过去一年,中国具身智能领域“快步疾行”:智元远征A2人形机器人完成无间断百公里跨省行走,充分证明了机器人能够“走得稳”;行业商业化“大单”频现,机器人真正进入工厂,负责分拣、上下料;VLA(视觉-语言-动作)模型的进化,则让机器人大脑更聪明,能够听懂人的需求。
在2025全球开发者先锋大会上,观众再一次真切看到了机器人的“能”。
“从桌面上,挑出红玫瑰插入花瓶中。”在插花场景赛中,伴随着指令声落下,机器人开始丝滑行动,顺利识别出不同的花材,完成任务。在餐厅服务比赛中,机器人可以进行桌面垃圾收纳,面对沾有番茄酱的餐巾纸,识别出可碰触抓拿的位置;针对不同材质的杯子,可以控制握力,确保水不洒出。
“过去一年,VLA模型的应用,让机器人的大脑、小脑与本体之间协同度大幅提升。”卓益得参赛队员李宗道表示。打个比喻,过去机器人像一个训练有素的杂技演员,动作精准漂亮,但如果没有明确的指令或预设的场景,它就是个只会空翻的机器。VLA让机器人开始像一个有常识的实习生,它动作可能没有那么完美,但能听得懂人话,能适应陌生的环境,知道一杯水到底是给人喝,还是用来浇花。
傲意科技首席运营官陈瑶从灵巧手角度,指出了行业在硬件方面的进步。“2025年,我们首次将精细触觉反馈引入实用化产品,让机器人的手,不仅能感受力的大小,也能感知力的方向。更重要的是,我们完成了灵巧手从感知到力控的闭环,能够利用数据来实时控制电机。简单来讲,灵巧手已经可以实现‘既不会把豆腐捏碎,也不会让盘子掉落’。”
从机器人的“不能”里看落地鸿沟
当视线转向机器人的“不能”,行业下一步的技术攻坚点浮出水面。
——实验室能够自主叠衣服,换个环境就“罢工”。
相较于插花、搬箱子等行为来说,“叠衣服”的任务难度上升不少。“因为衣服是柔软的,每一次拿放后的堆叠形态是随机的,比如可能袖子被盖住,或者领口出现歪斜。机器人要理解这种无序状态,需要更多的数据量 。”有参赛队员透露,为了覆盖柔性物体的状态分布,仅一件特定样式衣服的堆叠训练,就需要采集高达200小时的遥操作数据。
更棘手的是环境干扰。“光照变化、桌子周边物体的摆放、强光下周边物体在桌子上的倒影等,都有可能让机器人‘智商下线’,操作不准。这种难以将目标与‘背景噪音’剥离的困境,折射出当下具身智能在物理场景理解能力上的短板——泛化性不足。”参赛队员对记者表示。
——拧螺丝等精细活儿,机器人干起来仍有难度。
记者在比赛现场看到,即使是面对简化版的道具螺丝,机器人依然需要在人类的遥操作下完成。
一方面,拧螺丝时不仅靠看,还要靠“手感”。有参赛队员表示,“人类拧螺丝时,能感受到螺丝刀头是否卡入了槽口,是否出现滑丝,这是一个连续的、微秒级的力觉反馈闭环。但当前具身智能的灵敏度,往往不足以捕捉螺纹咬合瞬间的微小震动。”
另一方面,机器人还不够“懂”物理。参赛队员对记者表示,目前的VLA模型已经能够识别“螺丝”这一物体,但对摩擦力、扭矩反馈等物理特征的理解依然浅薄。“走路跳舞靠小脑,拧螺丝则需要大脑参与物理认知的构建,这是完全不同的赛道。”
——从实验室到工厂,仍要跨过“稳定性”的大关。
在工业搬运场景,虽然机器人已能自主导航并抓取箱子,但在现场演示中,动作磕绊、箱子重心不稳等情况仍时有发生。
对此,工业搬运场景赛事指导朱彬彬表示,虽然工业搬运已经有了相对成熟的技术方案,参赛队伍基本都能达成搬运目标,但这些表现距离工业落地仍有差距,“需要团队应用工程化方案,解决工业场景中遇到的实际问题。”
“这些比赛中出现的不完美,恰恰暴露出了具身智能从实验室到实际场景落地中需要克服的难点。”朱彬彬说。
从“进化路标”看未来
为了解决这些落地中的困境,具身智能的研究范式仍未收敛,行业依然在开展技术路径的探索。
比如,“世界模型”被行业寄予了很大期望。“世界模型”派普遍认为,大语言模型存在根本局限,缺乏对物理世界的三维空间建模能力与动态因果推理能力,导致具身智能在跨场景落地时频繁出现认知断层。
2025年11月,有“AI教母”之称的人工智能科学家、斯坦福大学教授李飞飞创立的 World Labs推出首款产品Marble,以多模态“世界模型”为核心引擎,可从单张图像、视频片段或文本描述中,生成具备持久性的三维数字孪生空间,为空间智能搭建起关键的三维认知基座。
技术路线之争尚未有定论,但行业进化逻辑却有迹可循。中国科学院院士姚期智近日给出了技术演进的几个“路标”,为理解人工智能发展提供了一份参考。
在姚期智看来,具身智能的进化,要从“模仿”走向“推理”,打破缺乏可解释世界模型和物理因果推理的现状,将推理、规划与控制纳入同一个闭环框架;要从局部技能走向全身协同,现有机器人的运动能力及操作能力仍是两套系统,未来需统一全身控制与手部精细操作规划,以支撑多步骤通用技能。
除了算法的进化,行业还需要跨越数据与生态的关隘。姚期智表示,具身智能行业未来还要走出“数据匮乏”,探索新的收集技术并构建可规模化的数据工厂;要结束“各自为战”的局面,通过建立开放基准与安全规范,鼓励算法的开源与复现,通过挑战赛推动优秀算法可重复、可验证、可产业化,真正铺平产业化之路。