2025年世界人工智能大会(WAIC)期间,搭载腾讯Tairos平台的宇树人形机器人G1和腾讯首席科学家张正友有一场互动,当张正友发出“站到我身边来”的指令时,机器人准确理解方位含义,流畅移动定位。
重要的是,全程没有人工遥控干预。这一幕,是腾讯Robotics X实验室最新发布的具身智能开放平台Tairos的能力缩影。
WAIC期间,耕耘许久的腾讯首次对外公开了在具身智能领域的路线图。面对沸腾的行业,腾讯选择了一条独特路径——做行业的“钛螺丝”。
与常见的科技公司高调商业化路径不同,Tairos平台的基调与腾讯整体路径保持一致,如马化腾所说,在具身智能领域,腾讯希望成为所有机器人厂商的合作伙伴,而不是取而代之做硬件,“这和我们的整体战略目标一致”。
“2018年初腾讯Robotics X成立时没有任何商业化的目的。”张正友坦言:“当时国内甚至找不到成熟的机器人硬件厂家,我们不得不既做硬件又做软件。”而2023年下半年起,ChatGPT引爆的AI大模型热潮催生出大量机器人创业公司,产业格局骤变。
然而,距离落地还有很长一段路要走。
张正友说,从基础模型到真机部署,每一个环节,都藏着不少"坑" 。
具身智能的落地,不仅仅是算法问题、或者模型能力的问题,而是一个复杂、环环相扣的系统工程挑战,需要打通数据、训练、调试、部署的全链条。
从宏观的角度来看,机器人对3D世界的认知,以及动态世界的建模,还处于初步阶段。具身智能需要更大的泛化能力,才能让“身”与“智”协同进化,无缝地适应多变的环境。
走访了六十几家机器人企业后,团队发现软件能力是机器人走向场景落地的共性痛点,业内普遍缺乏好的模型和仿真工具。
腾讯的具身智能开放平台Tairos“钛螺丝”想做这件事。
Tairos包括一套云端服务和三个具身模型,多模态感知模型、规划大模型和感知行动联合大模型。
这三个大模型,分别是机器人的“左脑”、“右脑”和“小脑”,负责让机器人理解目标任务和所处环境,从而执行操作。
规划大模型支持复杂任务规划,多模态感知大模型融合视觉、位置等环境信息,而感知-行动联合大模型实现操作和运动能力。
云服务层则让开发者可以通过云平台完成仿真、训练、数据管理等关键环节,并通过SDK/API灵活对接硬件。
这个面向机器人本体开发商的平台,是团队为具身智能厂商打造的“工具”,旨在解决基础模型、场景数据采集、训练仿真和真机部署四个环节的落地难题。
张正友用Windows的生态成功类比Tairos的愿景:“如果平台不能与不同厂家良好兼容,就不可能发展起来。”为此,腾讯在发布前已深度联合宇树、越疆、帕西尼等头部硬件伙伴打磨平台,确保其真正解决行业痛点。
进入人形机器人“量产元年”,腾讯的具身智能战略分为两部分:投资和前沿探索。今年以来,腾讯已投资智元机器人和宇树科技至少两家具身智能机器人公司,早前也投资了乐聚和优必选。
而另一边,对于亲自下场做具身智能, Robotics X实验室选择先做原型和平台,再根据市场需求推进产品化,并对机器人本体的具体形态保持开放态度。
“本体是一个值得探索的过程。”张正友指出,做机器人不是为了仿生,而是为了在人居环境里实现更高效、更理想的形态。若以“人形”作为机器人的标准形态,可能会限制行业的想象力。
对于行业的未来,张正友说,“过热”是一个好现象,参与的人越来越多,行业发展就会越来越快。当前行业处于探索过程,尤其是对本体形态的探索。在这一过程中,Robotics X实验室像是一把“螺丝刀”,为机器人本体厂商打磨基础,迈向行业爆发iPhone时刻。
WAIC期间,张正友首次公开分享了腾讯Robotics X实验室在具身智能领域的探索与对行业的判断,这也是腾讯为数不多的对外释放关于具身智能的业务逻辑。以下为对话实录,经编辑:
做行业的“钛螺丝”
21世纪:腾讯说要做硬件厂商的合作伙伴,现阶段会把大部分精力和资源放在哪些能力上的提升?
张正友:我们从去年底开始在做这个事情之前,先认真调研了行业,累计到现在差不多跑过六十几家企业。我们已经走访了全国的厂家,深圳、上海、北京,整个华东地区,还有西部地区。
我们真正出去的时候,其实发现中国大量的机器人企业,它硬件其实是可以做得很好的。但具身智能在投入这一块其实是非常大的。我们初期会去选取一些高配合度的种子企业,然后深度地联合去做一些case。
今年上半年的想法就是说我们先去找一些企业去打磨产品,这其实也是过往腾讯做产品的思路,就是不能一下子铺太多的,一定是像1.0版本,要去找几个企业深入落地。一部分产品标准化了之后,就可以慢慢地开始铺量。
21世纪:腾讯什么方面的能力、优势可以帮助到他们?
张正友:具身智能以及今天发布的三个模型,规划、多模态感知和感知行动大模型,每一个模块他们都可以去用。然后还有仿真平台,他们可以上传他们自己的机器人,在仿真平台里面尝试一下。
我们的模型既可以在真实机器人上面运作,也可以在仿真环境里面用。在仿真环境里,如果遇到完成不了的任务,它会直接送到后面强化学习去改进它的规划大模型。因为我们不可能把世界上所有的可能的任务都想清楚的。最后我们希望用平台的每个人、每个厂家可以把训练好的、针对他们本体的模型拿去,部署到真机上去。
21世纪:所以现阶段的重点还是在模块化能力上的提升?
张正友:模型能力还有仿真环境,这里面其实难的地方挺多的。
比方说在操作里面,力感知和触觉感知是非常重要的,像触觉传感器没有标准化,那在仿真里面如何让触觉很真实的仿真出来?像人的触觉,空间分辨率在1毫米左右,在仿真环境里面现在还达不到这么好的分辨率。
每个模块无论是感知规划,大脑小脑,感知行动联合大模型,仿真、数据采集,每个环节都有很多需要提升的地方。
21世纪:对整个行业来说,还有哪些是在机器人落地方面比较难、急需补足的地方?
张正友:从技术角度看落地的话,对3D的世界认知,动态世界包括物体、材料各方面的建模,就是世界模型,还是处于初步的阶段。
然后规划,像大语言模型它也能做一些规划,但它的规划因为是通过文本来理解世界,所以没那么深。大语言模型会把世界上所有的各种各样的知识都放进去,但是针对现实世界,有很多东西是用文字描述不出来的。
比方说动物它没有语言,但是它还能还是能够在3D世界里面很好地活下来,不需要语言。就是说规划方面,没有3D世界的理解,可能很多情况下都做不好。
再讲到感知行动大模型,像触觉感知,这些目前还是很缺乏的。多模态感知里面,图像和视频,或者是语音或者文本这些都是很标准化的。但是触觉传感器,我们从实验室成立以后就觉得触觉非常重要,经过7年研究,现在还没有达到真正能够标准化的程度。当然还有其他公司已经参与到触觉传感器的研发,所以很多都需要大家一起努力,整个行业一起努力。
产品化与商业化探索
21世纪:今年具身智能那么火,落地的可能性变大很多,你们对商业化的态度会不会有所改变?
张正友:腾讯RoboticsX实验室2018年初成立的时候没任何商业化的目的,因为那时候情况很不一样,那时候你看看能不能找到一个能够做机器人的硬件厂家?一个都没有,所以我们那时候就必须要自己从头既做硬件又做软件,各方面的全部都要做。
从2023年下半年开始,整个机器人行业就有很大的变化,一个是ChatGPT引起AI大模型的关注,很多机器人企业就出来了,很多创业公司。我们那时候就是啥都要做,他们有些比较关注机器狗或者是人形机器人,还有一些触觉传感器、灵巧手,有很多机器人本体。
形势已经变化了,从腾讯角度来看,我们需要跟这些机器人厂家一起去打磨我们的技术。另外,前沿探索还是很重要,我们还会继续前沿探索,但有些能力是希望能够跟机器人本体厂家一起,和应用厂家一起去往前来提升的。
与其说商业化,其实我们现在的方向是一个产品化。我们做了很长时间的前沿探索,积累了大量经验,和一些成熟的技术成果,现在更多希望能把这些变成一个产品。之前更多是供内部来科研使用,未来更多想把这些科研成果变成产品,供给市场上的机器人厂商和第三方的厂家,让他们去形成他们自己打包成一个更完整的产品。
要区分产品化和商业化。我是做研究的科学家,商业化听起来就是要去赚钱,但是我们是不赚钱的。Tairos特地强调我们自己不是以赚钱为目的的,我们希望把我们变成一个比较稳定的产品来赋能机器人的行业。
21世纪:现在很多公司希望做商业量产,腾讯没有选择这样做,是怎样考虑的?
张正友:腾讯公司的角度,比如要不要做一个机器狗?从我的角度是不支持去做的,不值得去做的,我自己也不会做,因为还有更大的目标在支撑着我们。
比如养老,能不能把机器人具身智能技术和本体里面某些核心技术,比如说触觉传感器、定制皮肤这些能力能不能继续往前推进?离这个还很远,我加入腾讯成立机器人实验室,那时候规划的是十年时间,现在七年已经过去了,三年以后就差不多。不管怎么样,要达到那个效果,我才可能希望养老各方面都能做起来。假如我一开始停留在Max腿轮一体化机器狗上面,那后面就没精力去做其他东西了。
21世纪:腾讯在研发上如何平衡长期的前沿探索和中短期应用场景关系?
张正友:前沿探索有很多不确定性,假如是通过什么时候一定要交付什么产品,往往会做成hardcode(“写死”)的东西了。举个不好的例子,比如现在所有东西都要跑马拉松,马拉松有的时候可能有些技术到了,那就硬做一些东西,或者一些遥控,那就做得不好了。这个地方为什么一定要足够多的自由度,做前沿探索必须要往前推进。
21世纪:机器人到底到了什么阶段?会不会整个行业有点过于乐观?
张正友:行业过热这看怎么定义,因为大家看到这个前景很吸引人,我更多讲的是投资角度。有些公众对于机器人服务人、融入到人类社会、融入到生产和生活中有很大的热情。
这个热情我觉得对于我们来说是一件好事,也是对我们提出了更高要求,也给我们提供了很多试验场。参与人越来越多,行业发展会越来越快。
如果大家不知道这件事情,不会有一天跟我说你们机器人能不能干这个、干那个,其实我们也缺少很多这种挑战。至少对于我们从业者来说是一件好事情。
21世纪:腾讯在具身智能这波浪潮里面的节奏是怎样的?
张正友:从某种角度来讲我们做得很早,我们是探索性前沿研究的,本来就应该早。现在有些能力我们觉得能够支撑到行业发展,所以把这些能力开放出来,所以这个不晚。我们还需要继续做前沿研究,因为现在开放出来的技术还是刚才讲的,现在具身智能只是在初步阶段,还有很长的路需要走。假如说是iPhone做了多少年还在往前推进,这个很难估计,我估计三五年,我2018年讲的十年规划。