6月6日至7日,第七届智源大会在北京举行,被“众星捧月”的嘉宾从去年的月之暗面创始人杨植麟变更为今年的宇树科技CEO王兴兴。在多位与会人士看来,一轮又一轮明星公司或创业者崛起的背后,AI(人工智能)越来越快的发展速度是核心驱动力。
参与主论坛的图灵奖得主、深度学习领域奠基人之一的蒙特利尔大学教授Yoshua Bengio称:“我们低估了AI进步的速度。”面壁智能CEO李大海也在采访中表示,技术的发展是非线性的,大模型作为基础技术与基础设施,待未来发展到一定程度后,行业一定会更关注基础设施之上的应用,这是行业合理规律。
今年智源大会传递出的AI重点从大语言模型的预训练,更迭为世界模型的培育发展。智源研究院院长王仲远表示,AI正加速从数字世界走向物理世界,也因此,智源研究院宣布从“悟道”时代迈入“具身智能”探索阶段。
何为世界模型
对于世界模型的精准定义,王仲远在采访中表示,目前世界范围内暂时没有共通的定义,已存在的名称包括“空间智能”“时空智能”等。此次智源研究院发布的一系列相关产品与技术,也代表了自身对世界模型的理解。
智源发布大模型产品可以追溯至2021年3月的悟道1.0,作为中国首个超大规模信息智能模型,悟道1.0填补了中文超大预训练模型生态的空白。悟道2.0在知识推理、多语言生成等方面逐渐提速。2023年的悟道3.0开始在通用视觉与多模态等方面取得突破。
近年来,大语言模型和多模态模型的发展,进一步推动机器人从1.0时代迈向2.0时代。目前,大模型与机器本体深度耦合,进而驱动以具身智能为核心的机器人2.0时代,正在加速数字世界与物理世界融合。
因此今年,智源推出“悟界”系列大模型,承载的是智源对人工智能从数字世界迈向物理世界的技术趋势判断与思考。具体来讲,“悟界”系列包括原生多模态世界模型Emu3、脑科学多模态通用基础模型见微Brainμ、跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0以及全原子微观生命模型OpenComplex2。
其中,Emu3对多模态技术的升级迭代具有重要作用。多模态是通往AGI(通用人工智能)的必由之路,系同时使用多种不同类型的数据形式——如图像、文本、语音、视频、传感器信号等,来共同表达信息或完成任务的技术或系统。
此次Emu3升级的意义在于,传统多模态训练方法需要复杂的扩散模型或将不同模态分开处理再组合,但Emu3不需要这些复杂操作,可以通过一种新的视觉tokenizer(可以把图像和视频转换成类似文字的符号序列),将图像与视频变成和文本一样的离散符号,进而在一个统一框架里处理所有模态数据。这意味着模型可以在一个模态上学习到的知识直接迁移到其他模态上,大幅简化多模态学习的复杂性。
王仲远表示,大模型技术过往基于互联网数据,尤其是互联网文本数据训练而来,固然对知识的理解很强,但对真实世界的运作规律并不理解。AI从数字世界跨向物理世界时必须突破数字世界的隔阂,最重要的隔阂和边界是空间和时间的感知。这也是此次智源一系列AI产品进行具身与脑科学等行业落地时,可以进一步探索的方向。
底座大模型如何破瓶颈
无论是物理世界还是数字世界,AI落地都需要底座大模型的智能化支撑。
王仲远认为,大模型技术还远没有到发展的尽头,过往所说的“百模大战”更多的是大语言模型的竞争,而大语言模型受限于互联网数据的使用,基础模型性能虽然还在提升,但是提升速度不如以前,突破瓶颈的解法包括强化学习、数据合成、多模态数据三方面。
强化学习在后训练和推理方面的提升作用已明确表现在OpenAI o1、o3、o4、DeepSeek R1等产品上,合成数据目前学术界仍在努力突破。至于多模态数据,在全世界范围内,多模态数据规模可达文字数据的百倍、千倍甚至万倍以上,但这些数据远未被高效利用,多模态技术的发展也是本届大会讨论的重点之一。
去年智源便对大模型的技术路线进行了预判:从大语言模型向多模态,尤其是原生多模态世界模型的方向发展。而原生多模态世界模型本质上是为了让AI感知和理解物理世界,进而推进与物理世界的交互。进入物理世界之后,在宏观层面,大模型与硬件结合,通过具身智能的发展解决实际生产生活问题。
针对物理世界对数据需求量大、目前多模态数据又不足的难题,王仲远表示这是具身智能目前存在循环悖论——具身能力不足限制了真机数据的采集,数据稀缺导致模型能力弱、落地难,无法进一步提升能力。这一困难从不同角度出发有不同解法,智源走的是大模型路线,更多依靠互联网数据帮助机器人学习智能。
具体训练方式表现为不断学习海量已有数据,再通过强化学习和少量真实世界的数据不断训练其能力,不断突破具身智能的发展上限,这与大模型发展路线不谋而合,基础能力发展到一定程度后,可以通过强化学习进一步激发智能化程度。
需注意的是,王仲远强调,由于目前具身领域的技术路线尚未收敛,不同厂商、不同团队都在用不同方式进行探索,智源走的技术路线目前只是“一家之言”。
具身热但发展状态尚早
具身智能不仅是智源提及世界模型与物理世界建立联系的“渠道”之一,更是此次大会重点核心议程。
智源提供的解决方式之一便是跨本体的具身大脑,未来行业可以通过具身智能的融合模型突破硬件构型、数据类型,使得这些数据能够被真正有效集成起来,这样采集的真机数据不会被浪费。但同时,王仲远表示,具身大脑的跨本体相对较为容易,而具身大脑最重要的是感知与理解世界,通过与世界交互,完成任务规划与指令拆解,这部分仅仅通过大脑是不够的,还需要指挥硬件本体,后者是更大的挑战。
另外,跨本体的小脑技能目前还未完全掌握技术路线。王仲远以美国机器人初创公司PhysicalIntelligence为例,该公司已经能够将各种硬件采集下来的数据用于模型训练,进而得到更加泛化的能力,目前来看该路线具备一定效果,但还并未达到行业广泛共识的水平。想要真正实现跨本体、跨硬件的具身智能小脑模型,还需要硬件在一轮轮的产业迭代中进行淘汰与收敛。
另在北京人形机器人创新中心有限公司CTO唐剑看来,机器人行业发展还面临多项痛点,第一就是机器人的场景泛化能力差,比如一款机器人只能工作在一个场景内,打螺丝的专职打螺丝,酒店送餐的专职送餐,很难看到原来干打螺丝工作的机器人跑去酒店送餐。即使在单一场景内,机器人也需要搭载不同的程序与软件来完成,因此机器人的任务泛化能力也很差。第三点便是机器人的本体泛化能力差,厂商一般针对具体某一类工作场景设计一款机器人本体。
至于控制技术层面,唐剑以行业过去常用的MPC(基于数学模型预测的控制,Model Predictive Control)为例,该控制方式的优点包括高可靠性、高确定性、高精确度,但也伴随预编程(单一场景任务)、仅适用于结构化环境、仅适用于固定流程与操作对象等缺点。
整体来看,王仲远总结称:具身大模型的发展仍处于非常早期的阶段,可类比大模型在GPT-3 之前的技术探索期,具体包括技术路线尚未形成共识,学界与产业界对核心技术路径存在分歧,仿真数据、强化学习、大小脑融合架构等方向仍在探索中,尚未形成统一方法论;另外产业落地尚需突破,尽管智源推出具身智能跨本体大小脑协作框架等成果,但离大规模商用仍有较长距离,需解决“感知-决策-行动”协同、多模态数据融合等基础问题。具体技术路径的成熟与产业落地仍需多方长期共同努力。