我就顺便帮你解释了机器人为什么是人形,因为我们也投了非常多工业机器人,因为中国事实上从2015年开始,可能中国在工业机器人的产和销就制造和使用都是世界第一了。
所以你在今天这个时间节点上来看,最大的工业机器人生产制造和销售商,服务提供商肯定全都在中国了。
回过头来讲,机器人为什么做成人形,这里面还有另外一个巨大无比的挑战。我们也知道说车还只是燃油发动机的时候,就有过自动驾驶的尝试,当然你也知道自动驾驶的竞争其实从差不多十五六年前,就是从最早包括特斯拉的FSD在内,包括谷歌的今天拆出来的叫Waymo,自动驾驶开始大概在15年前就开始做这个事了,所以车在相对简单的模式下,操控模式和运动目的的情况下,已经积累了几十年的数据,然后在这个基础上,这些数据有一些是可以对今天做复用和训练的。
你今天开的所有的新能源车,上面装了无数的传感器,今天在机器人上,尤其在操作上刨去模仿学习,强化学习这些给它的技术能力提升之外,有个最大的挑战,是没有那么多数据,因为一个瓶子里边有多少水,这个瓶子是个软瓶子还是个硬瓶子,这个容器是个纸杯还是个铁杯子,它是个凉的还是个热的,它能摸还是不能摸,它有多少温度,它能倾斜还是不能倾斜?
所有这些含有物理规律或者含有物理量的这些数据,历史上都是没有采集过的,或者说只有很少的一部分。
你也知道最近大模型有一个视频大模型,就是文生视频或者图生视频,你也知道视频大模型最常出现的挑战,技术上叫穿模,你看它最常出现的挑战就是胳膊突然能拧到后边,作为一个人,或者说你一拳打过去就能穿过墙壁,这些超越了物理规律的现象,在视频生成模型当中或者叫穿模,或者你叫幻觉,原因就是因为它根据原来的视频和文本所生成的过程,并没有考虑这些物理量和物理力上的这些约束和规律,但我们人是毫无疑问,今天你能活这么大,肯定没出什么事故,没有跌了撞了磕了碰了的,你活到今天,你的直觉体系或者你的常识体系,就已经包含了所有的这些物理量。
比如说凳子如果凑巧看起来就是要散架,你作为一个体重180斤的人,你肯定不会坐对吧?这大概就跟我们刚才讲的常识和直觉,包含了物理量的常识和直觉是一样的,这是你习得和经验教训的积累,但是机器没有这些东西,它就很难操作,为什么机器今天不跟你去做很多互动,大家不拿这个做demo,因为它把握不准,它是不是能准确的实施力和角度,因为它是比较刚性的。
所以它万一不能很好地对你的身体和你的承受能力,和你的互动模式,和你能接受的程度做理解,它要不然就给你拧断了,要不然就给你拧坏了,甚至就完全达不到目的。所以说只靠虚拟数据能不能解决这个问题,我猜可以提升,但应该有较大的挑战。@前海开源基金
