6月23日,南方财经记者从帕西尼感知科技(深圳)有限公司(以下简称“帕西尼”)处获悉,该公司主导建设的具身智能超级数据工厂(Super EID Factory)正式投入运营。
作为深圳本土培育的前沿科技企业,本次帕西尼落成的数据工厂选址于天津市河西区空天数字产业园,面积近12000平方米,预计年产近2亿条高维训练数据。
帕西尼方面称,这座超级数据工厂是目前全球范围规模最大、数据采集体量领先的具身智能数据采集与模型训练基地,将为当前具身智能产业面临的数据集稀缺、触觉模态数据空白、泛化性差等核心困境提供革命性解决方案。
据悉,这座工厂里构建了“15+N”个全场景矩阵为基础的千种任务与百万道工序,涵盖汽车制造、3C装配、家庭、办公、餐饮、商超、康养、医疗等全链条具身智能应用环境,旨在模拟真实世界中机器人可能遇到的各种复杂场景。
值得一提的是,这并不是第一个为获取数据而建设具身智能工厂的案例。此前北京和上海都有类似的具身智能机器人创新中心负责数据生产和采集。其中,北京具身智能机器人创新中心成立于2023年,由优必选、京城机电、小米机器人、亦庄机器人等10家行业领军企事业单位出资联合组建,号称数据集将达百万级。
但此次帕西尼参与建设的数据工厂光是数据量就奔着上亿级别的量级而去。而这么大量的数据将涉及的第一个问题就是,数据能否通用。
据了解,为保证数据的广泛适配性,帕西尼在工厂内部部署150个标准化采集单元,每个标准化数据集采集都基于真人手部动作姿态来捕捉,并通过“空间视觉矩阵”进行“视觉-触觉”模态对齐,极大地提升了数据的通用性。同时,后续通过体感重定向系统(Soma Redirect),采集而来的数据还能向不同型号、不同设计的机器人输出,使得数据集有效突破模型的跨本体泛化能力瓶颈。
数据采集量所面临的第二个问题就是成本。帕西尼方面表示,由于无需依赖昂贵的机器人本体进行数据采集,帕西尼的解决方案显著降低了采集成本,使得大规模、高质量的数据生产成为可能,为行业发展提供了经济高效的路径。
当通用性和成本得到保障之后,第三个需要探讨的就是数据集是否足够高质量。帕西尼方面称,其独创的多模态神经织网技术(Neural Mesh)实现了触觉、视觉、关节角度、动作轨迹、语音等多维度数据的无损采集。这种多模态数据的融合,能够为具身智能模型提供更全面的环境信息,使其能够更精准地理解任务、感知世界。
该具身智能超级数据工厂不仅能惠及全行业,还能助力帕西尼多模态具身智能数据集(MotionSharing DB),升级成为全模态数据集(OmniSharing DB)。
而升级后的全模态数据集,将进一步提升帕西尼自研的 TacFlow Engine大模型,形成共生飞轮,即数据作为模型的“感官输入”驱动其进化;模型预测能力的缺口又能反向指导数据的定向增强采集。
值得注意的是,5日前,帕西尼刚完成A系列的第四轮融资,投资方包括TCL创投、毅达资本、尚颀资本、基石资本、商汤国香、中信里昂、湖南财信产业基金、钧犀资本等多家知名机构联合投资,融资金额高达数亿元人民币。