上证报中国证券网讯(记者窦世平)6月6日至7日,2025智源大会在北京中关村召开,来自国内外业内人士围绕AI、具身智能等发展现状及未来方向展开探讨。上海证券报记者采访获悉,大模型正从数字世界走向物理世界交互,多模态在今年有望迎来规模化落地拐点,数据集共享是开源协作的关键。
AI加速冲刺物理世界
“公司的终极目标是让机器人能干活,无论是在家庭还是工厂。”宇树科技CEO王兴兴在具身智能会客厅环节中表示。
让机器人干活的本质就是将智能作用于物理世界的过程。多位产业人士判断,在2025年具身智能的发展处于行业落地的关键节点,相关应用探索不断深入,正从实验室向物理世界稳步推进。
智源研究院院长王仲远表示,大模型正在从大语言模型向原生多模态大模型和世界模型的方向进行演进,正在加速从数字世界进入物理世界。
本届大会设置了AI科研成果互动体验展台,参会者可以体验从具身智能到脑科学、数字心脏等领域的最新应用。在具身智能展区,基于RoboOS 2.0以及RoboBrain 2.0的不同构型的机器人(单臂、轮式双臂、人形)接受到记者的语音指令后,可以完成汉堡制作和倒饮料的动作,同时还能玩抓娃娃游戏和收纳家居物品。
“基于推理能力的增强,使得模型在智能体的能力上,有了长足的进步,大模型自己能规划任务、执行任务,根据环境的反馈去调整自己的任务流程。”智谱CEO张鹏表示,这个能力的提升使模型的能力、AI的能力,从数字世界有机会迈进物理世界。
行业人士热议多模态模型
多模态在大会上成为行业热议的一大关键词。业内人士判断,语言模型在去年发生飞跃式爆发,今年有望成为多模态模型规模化生产落地的拐点。
VLA视觉语言行动模型是当下具身智能研究的热点。银河通用创始人王鹤认为,自动驾驶其实验证了端到端的方案有更好的扩展性,但VLA只能是一个起点,要真想做到人类级别的具身智能,只能是不断地融合新的模态。
在生数科技CEO驼怡航看来,行业已出现三大信号:一是技术迭代非常迅速,音视频的生成模型,无论是效果、速度和成本上,都在快速提升;二是行业需求特别旺;三是视频相关产业落地节奏正在加快。
“智源拓展原生多模态希望看看是否有其他的多模态技术路径和技术架构。”王仲远表示,目前虽然有一些进展,但也还没有到多模态的ChatGPT时刻。
谈及多模态的火热,星动纪元创始人兼CEO陈建宇分析,具身智能需要从虚拟图像和文本世界,延展到真正的物理世界,所以要求该模型能够具备更深的对物理层面的理解,并且搭载在能够和物理世界进行主动交互的具身机器人上,还能协同工作,这也是具身智能领域需要解决的一大难题。
数据集共享是开源的关键
与会嘉宾普遍认为,开源是AI发展的核心,数据集共享是关键基础,全球合作至关重要,应当鼓励开发者从提交代码等小事参与开源,共同推动AI创新。
“数据集对于AI特别是大模型非常重要。”智源研究院副院长、总工程师林咏华表示,这不仅仅针对多模态模型,对于具身智能,比如培训机器人更好地了解全世界,都需要新的数据集的输入。
哈佛商学院数据显示,全球开源软件经济价值达9万亿美元,可帮助开发者节约70%开发成本,开源治理是平衡竞争与协同的核心机制。
“2025年是开源AI元年,开源正成为全球AI创新核心驱动力。”Linux基金会执行董事Jim Zemlin表示,开源是技术普惠的唯一路径,通过全球协作确保AI创新由全人类共享。如中国企业DeepSeek发布开源大模型,引发技术生态变革,印证开源打破垄断、加速迭代的作用。
“我们相信全球合作对于AI开源至关重要。”林咏华说,因为它有助于降低成本,可以有机会获得高质量的数据来训练智能体,并且让AI创新更好地发生。