智源多模态大模型成果登上Nature杂志
来源:北京商报
北京商报讯1月28日,智源研究院主导的多模态大模型研究成果“通过预测下一个词元进行多模态学习的多模态大模型”正式上线国际顶级学术期刊Nature,预计2月12日刊发纸质版。
资料显示,这是我国科研机构主导的大模型成果首次登陆Nature正刊。
该研究推出的Emu3模型,核心突破在于仅采用“预测下一个词元”的自回归路线,将文本、图像、视频统一到同一表示空间,通过单一Transformer架构实现多模态数据的联合训练,无需依赖对比学习、扩散模型等专用路线。实验显示,其在文生图、视觉语言理解、视频生成等任务上的性能,可与各类成熟的任务专用模型相媲美,还能拓展至图文交错生成、机器人操作建模等场景。
Nature编辑点评指出,该成果证明了自回归路线在多模态领域的通用性,对构建可扩展、统一的多模态智能系统具有重要意义。后续迭代的Emu3.5版本进一步实现“预测下一个状态”的能力跃迁,获得了可泛化的世界建模能力。
据悉,Emu系列模型自2022年启动研发,历经多次迭代,智源团队已开源视觉分词器等关键技术,并通过大规模实验揭示了多模态自回归模型的训练特性。此次成果不仅确立了自回归作为生成式人工智能统一路线的重要地位,也为原生多模态助手、具身智能等领域的发展奠定了基础。
郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
评论该主题
帖子不见了!怎么办?作者:您目前是匿名发表 登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》