在上一代工厂旧址的红墙绿荫间,帕西尼感知科技极具现代感的数据工厂格外显眼。
近日,在天津空天数字产业园,中国证券报记者实地探访了目前全球规模最大的具身智能数据采集工厂——帕西尼天津具身智能超级数据工厂(Super EID Factory)(简称帕西尼天津数据工厂)。顾名思义,这家工厂生产的核心产品不是实体,而是数据。
数据被称为具身智能的"燃料",可以用于训练具身智能大模型,让机器人更"智能"。帕西尼感知科技创始人兼CEO许晋诚介绍,相比今年实现突破性进展的DeepSeek等大语言模型,具身智能目前能使用的数据量仅为大语言模型的几百分之一。
"现在的大语言模型使用的数据规模达到十万亿级,具身智能大模型的数据规模差不多在百万量级。数据的短缺是目前具身智能发展面临的瓶颈。"许晋诚说。
在帕西尼天津数据工厂大厅,覆盖了一面墙的大屏幕上,显示着工厂的数据采集情况。屏幕上显示的数据每三秒刷新一次,记者现场调研当天屏幕显示,工厂的数据合格率达到92%以上。许晋诚表示,目前帕西尼天津数据工厂每天最多可采集55万条数据,预计工厂每年可生产高质量数据2亿条。
由于具身智能产业发展需求的推动,具身智能的数据采集正受到关注。业内人士告诉记者,目前国内已知的具身智能数据采集工厂有帕西尼在天津的工厂、智元机器人在上海的工厂,以及北京具身智能机器人创新中心的工厂。
许晋诚介绍,从数据中进行模仿学习是具身智能模型进化最具潜力的途径之一。目前,业内常用的具身数据搜集方法包括机器人遥操作采集、仿真数据合成和人类数据采集。许晋诚认为,人类数据采集的方法具备独特优势,包括更高的效率和经济性,以及能直接采集稀缺的人类触觉模态数据。
针对人类数据采集方案,帕西尼基于自身在多维度阵列式触觉感知领域的技术积累和量产经验,自主研发了PMEC超采技术。数据采集员双手穿戴具有手部全运动自由度和全触觉信号覆盖采集功能的硬件设备,获取操作动作所涉及的多视角视觉、触觉、接触点位姿等信息。这些原始信息经过帕西尼TacFlow Engine工具进行后处理,最后用于VTLA具身智能大模型或HyperCosmos世界模型的预训练。
记者在工厂看到,厂区分为ABC三个区域,共部署了150个标准化采集单元。其中A区主要为工业、办公、商超、家庭等15个通用场景的任务采集,B区和C区负责进行定制化的数据采集。

标准化采集单元本报记者郑萃颖/摄
在A区的格子间内,数据采集员们正在进行各类原子动作的采集,比如超市商品扫码,清理枕头,摆放餐具等。一名采集员穿戴数据采集设备PMEC,一边进行着摆放瓷盘、瓷勺的动作,一边查看数据生成情况。

数据采集员在进行作业本报记者郑萃颖/摄
据悉,帕西尼天津数据工厂构建了"15+N"个全场景矩阵为基础的千种任务与百万工序,涵盖汽车制造、3C装配、家庭、办公、餐饮、商超、康养、医疗等全链条具身智能应用场景。
"目前机器人普遍掌握的动作是抓取、摆放。对于应用到更多场景来说,我们需要把场景中的长程任务拆分成更加细化的工序,甚至是原子动作,目前,机器人执行任务的原子动作库还远远不够。"许晋诚表示。数据采集间内的训练就是要增加机器人所掌握的原子级技能,从而实现更多精细复杂的任务,如拧螺丝、折叠、熨烫、舀取、切割等。"我们把这些动作进行采集,训练成技能,变成模型,最终给机器人使用。"许晋诚告诉记者,目前帕西尼天津数据工厂已完成上百种任务的采集,千种任务预计一年内可采集完成。
许晋诚介绍,从与天津市政府洽谈到工厂落地投产前后只用了约3个月时间。
今年5月,《天津市促进人工智能创新发展行动方案(2025—2027年)》发布,其中提到,到2027年,攻克100项关键核心技术,培育30个人工智能应用标杆场景,人工智能基础核心企业营业收入突破1000亿元,形成3至4个特色产业聚集区,并将"构建开放共享数据资源"作为核心任务之一。
为推动具身智能数据采集的高效利用,许晋诚表示,帕西尼目前正在参与订立数据采集方面的标准,并将于近期发布。