21世纪经济报道记者林典驰
2025年中,一座占地近12000平方米的“智能数据粮仓”正式启幕,帕西尼具身智能超级数据工厂(SuperEIDFactory)的落地,不仅刷新了全球具身智能数据采集与模型训练基地的规模纪录,更直指行业发展的核心命门,为长期困扰具身智能产业的数据集稀缺、触觉模态空白、泛化性不足等难题,抛出了一套解决方案。
据官方披露,这座超级工厂年产近2亿条具身智能训练数据,未来将全面向全球产业生态开放,有望推动具身智能领域的“世界模型”实现质的飞跃,加速产业商业化落地进程。

具身智能的“数据饥渴症”难解
当下,具身智能正从实验室走向产业化应用的关键拐点,人形机器人、工业协作机器人、服务机器人等产品相继涌现,点燃了全球科技产业的新赛道。然而,在技术快速迭代的背后,一场隐蔽却致命的“数据荒”,正成为制约行业前行的最大绊脚石。
行业共识是,具身智能的核心竞争力,源于与物理世界的精准交互,而这一切的基础,正是高质量、多模态的实采数据,尤其是触觉模态数据,更是被业内称为具身智能的“核心燃料”。
不同于视觉数据可通过摄像头规模化采集、语言数据可从互联网批量获取,触觉与力学数据必须依托真实物理接触才能捕捉,不仅采集难度大,更难以形成统一标准,成为全球行业的共性难题。
目前,全球范围内,能够支撑机器人完成灵巧操作、适应复杂场景的高质量、多场景、多维度触觉-视觉多模态实采数据集,仍处于严重稀缺状态,直接导致机器人无法稳定完成精细动作,难以适应真实世界的复杂变化。
雪上加霜的是,传统具身智能数据采集模式还存在诸多瓶颈:大多依赖特定机器人本体进行遥操作采集,一旦机器人迭代升级(关节布局、自由度变化),旧数据便会快速贬值,难以复用;同时,采集过程效率低下、耗时漫长,且昂贵的机器人本体大幅推高了采集成本,让大规模数据生产成为奢望。
这些痛点叠加,最终导致机器人普遍存在动作受限、多模态能力薄弱、泛化性差、训练成本居高不下等问题,延缓了具身智能的产业化步伐,让看似火热的赛道陷入“巧妇难为无米之炊”的困境。

超级工厂构建数据生产“新范式”
在行业困局亟待突破的关键时刻,帕西尼依托深圳总部的全栈技术解决方案支撑,在天津打造的超级数据工厂,成为破解数据稀缺难题的关键抓手,构建起一套工业化、规模化的数据生产新范式。
这座占地近12000平方米的工厂,自启动之日起,便凭借庞大的规模和领先的采集体量,稳居头部。与传统零散采集模式不同,帕西尼在这里构建了15+N个全场景矩阵,覆盖汽车制造、3C装配、家居服务、办公辅助、餐饮零售、康养护理、医疗辅助等全链条具身智能应用场景,模拟真实世界中机器人可能遇到的各类复杂场景。
支撑这一场景矩阵高效运转的,是工厂内部部署的150个标准化采集单元。每个单元都配备了帕西尼自主研发的数据采集设备和系统,形成了一套闭环采集体系,能够捕捉具身智能所需的触觉、视觉、动作轨迹等各类核心数据。
据官方统计,这座超级工厂预计每年将生产近2亿条具身智能训练数据,这些数据可直接应用于多模态、跨本体、跨任务、跨场景的具身智能扩散模型训练,精准攻坚行业长期面临的泛化性难题,为机器人适应不同构型、不同场景提供核心数据支撑,加速模型迭代优化的速度。

自研数采体系打破行业壁垒
帕西尼超级工厂的高效运转,背后离不开其自主研发的核心技术支撑。多维触觉传感器和多维触觉数据采集设备PMEC,这套自研数采体系,从根本上打破了传统采集模式的壁垒,实现了“无本体依赖、高效率、高性价比”的三重突破,成为破解数据稀缺难题的核心关键。
相较于传统数据采集必须依赖特定机器人本体的局限,帕西尼走出了一条新的创新路径,其数据采集设备基于真人手部动作姿态进行同步数据捕捉,通过“空间视觉矩阵”实现“视觉-触觉”模态对齐,让采集的数据摆脱了对特定机器人本体的依赖,可广泛适配不同构型的具身智能产品,大幅提升了数据的通用性和复用性。
高效率是这套体系的另一大优势。帕西尼的采集系统能够匹配人类手部的日常动作效率,实现实时、自然的动作捕捉,无需人工干预过多流程,最终实现年采集量近2亿条,这一数字超过传统采集模式的效率,成为加速具身智能模型迭代和优化的核心动力,让大规模数据生产实现可能。
这套采集方案大幅降低了数据采集成本。由于无需依赖昂贵的机器人本体进行数据采集,帕西尼将采集成本大幅降低,打破了“高质量数据必然高成本”的行业认知,为行业提供了一条经济高效的数据生产路径,让中小厂商也能获取高质量的训练数据,进一步降低了具身智能产业的准入门槛,推动行业生态的多元化发展。

全模态数据集赋能世界模型演进
随着超级工厂采集的全模态数据不断丰富,帕西尼的多模态具身智能数据集也在持续升级,原本的MotionSharing DB,正逐步升级为全模态数据集OmniSharing DB,其核心目标是打造亿级高质量全模态数据集,计划每年生产近2亿条融合触觉、视觉、文本等多模态的高维数据,以规模与一致性,系统性解决行业的“数据饥渴症”。
据悉,帕西尼还计划向全球产业生态开放这些数据资源,进一步放大数据的价值,推动行业数据共享,打破数据孤岛困境,带动整个具身智能产业链的协同发展。
值得一提的是,这一全模态数据体系,正深度关联着具身智能“世界模型”的演进。所谓世界模型,是具身智能模拟与物理世界交互的动态认知框架,能够支持机器人进行预测、规划和决策,是机器人实现自主交互的“认知引擎”。
帕西尼的全模态数据,将从三个核心维度推动世界模型升级:通过多模态表征关联物理规律,让机器人理解物体属性、空间关系和因果逻辑;通过人类行为驱动直觉学习,让机器人模仿人类的自然动作和决策模式;通过数据与模型的双向增强。数据作为模型的“感官输入”驱动其不断优化,而模型预测能力的缺口,又能反向指导数据的定向增强采集,持续提升世界模型的泛化能力与鲁棒性,让机器人更精准地理解和适应真实世界。