扭秧歌、跑马拉松、开运动会……今年以来,以人形机器人为代表的具身智能产品频繁“出圈”。在2025中国国际大数据产业博览会(以下简称“数博会”)上,具身智能再次成为热议话题。
打造机器人,和数据有何关联?
“具身智能作为人工智能演进的重要方向,需要高质量多模态场景化的海量数据,为其提供训练智能体的‘营养基’、优化行为的‘校准器’。”国家数据局副局长余英在“2025数博会·DATA之夜”上表示。
具身智能“吃”下的数据主要分为两种:真实数据、合成数据。真实数据即通过遥操作、动作捕捉等技术采集到的现实数据,质量较好但采集成本高昂;仿真数据则是基于虚拟建模等技术生成的数据,获取成本低,但与真实数据仍有较大差异。
此外,为了提高“营养摄入效率”,行业还运用数据清洗、标注等技术手段,把数据“洗”干净,再根据机器人的“营养需求”,合理搭配数据要素,选择营养丰富的“菜谱”——数据集。
随着数据要素的持续赋能,具身智能产业正在快速发展。《2025人形机器人与具身智能产业研究报告》显示,2025年,全球具身智能市场规模预计达195.25亿元,中国具身智能市场规模预计达52.95亿元,占全球约27%。
随着“硅基少年”的逐渐成长,一些“成长的烦恼”日益凸显。世界互联网大会秘书长任贤良指出,数据层面,高质量、多样化数据集的缺乏成为具身智能能力突破的重要挑战。
如何突破这一发展瓶颈?数博会上,业内专家各抒己见。
视源股份党委书记、首席战略资源官段宇认为,应创新数据采集与治理模式,降低高昂的采集与硬件成本,确保数据合规、安全、可用。
“通过多模态技术,将机器人不同感知数据进行融合,生成一个模拟空间,并在其中找到最佳决策点,这是具身智能今后要做好的事。”节卡机器人联合创始人言勇华说。
为助力破解高质量数据匮乏难题,今年4月,全国数据标准化技术委员会提出,将按照专业程度建设“通识数据集”“行业通识数据集”“行业专识数据集”三类高质量数据集。截至6月底,我国已经建设超过3.5万个高质量数据集,总体量相当于中国国家图书馆数字资源总量的140倍左右。
此外,得益于“飞轮效应”,具身智能等AI产业在“吃”进高质量数据的同时,也在产生出新的数据,成为挖掘数据价值的“富矿”。国务院近日印发的《关于深入实施“人工智能+”行动的意见》明确提出,支持发展数据标注、数据合成等技术,培育壮大数据处理和数据服务产业。
当“数据要素X”与“AI+”搭档组合,将会获得怎样的奇妙答案?让我们共同期待!