“现在国内掀起了一股建训练场的热潮。训练场建设的必要性,一是降本增效,二是安全模拟。有了训练场,数据就有标准了,同时还能支持超大规模分布式训练,软硬件解耦。”1月23日,在智能化场景测评标准暨场景创新赋能AI产业生态研讨会上,中国人工智能学会(CAAI)副理事长、清华大学教授、国家级高层次人才孙富春如是指出。
《中国经营报》记者了解到,孙富春所提及的“训练场”是指具身智能机器人训练场,可以简单理解成机器人的“专业培训学校”+“实战试炼场”,区别于单纯的实验室、普通的生产车间,而是一种集成了真实物理场景、仿真平台、数据采集与评测系统的基础设施,其主要目的在于系统性地破解制约具身智能机器人发展的最大瓶颈——高质量训练数据的短缺问题。
国内具身智能训练场的建设肇始于2024年,在2025年全面爆发,热度延续至今。据本报记者不完全统计,截至目前,北京、上海、天津、郑州、广州、无锡、青岛等多个城市已陆续建成规模化、专业化的训练场。例如,北京市石景山区建成占地上万平方米的国内最大人形机器人训练场;上海市张江区的国家地方共建人形机器人创新中心率先启用国内首个异构人形机器人训练场“麒麟”,可容纳超100台机器人同步训练;苏州市吴江区的长三角一体化示范区智能机器人训练基地展示了30台机器人同步“实习”,50秒即可产生1GB的多模态学习资料;天津市的帕西尼超级数据工厂提出了年产近2亿条数据的目标。
“为什么一定要搞训练场?”孙富春解释称,具身智能被国家列入未来产业之一,重要性不言而喻。建设训练场,能够推动具身智能的数据标准化,将仿真数据与真实数据结合,破解高质量训练数据缺乏的难题。
孙富春指出,推动具身智能机器人的“脑”“身”协同问题,其中一条路径便是通过数据来提高泛化能力,其所在的清华大学目前正在做相关研究和探索,数据获取面临着成本问题、效率问题、真实性和有效性等问题,亟待解决。
在孙富春看来,目前具身智能训练场存在两个方面的挑战。第一是对具身智能人形机器人的定义与内涵还存在很多不一致性,目前尚在“仁者见仁,智者见智”的阶段;第二是现有的数据采集途径——如遥操作、仿真平台、机器人采集等,容易造成重复采集、采集数据较难使用和共享,缺乏统一评价标准和安全可靠的保障。
对此,孙富春及其团队尝试“解题”的思路是采集数据分门别类,建立多维度的知识表达,同时构建训练环境,形成知识引导下端到端的学习,让机器人在物理数字系统中实现跨域、跨任务、跨场景的学习。除此之外,需要注意的是,在具身智能未来发展过程中,支持快响应、低时延、高精度的采集设备也需要不断升级,这样能更有效地提高数据采集的高效性与实用性。