股吧首页 > 智谱吧 > 正文
  • 最近访问:
发表于 2026-02-02 13:15:30 股吧网页版
智源多模态大模型Emu3首登《自然》
来源:科技日报

K图 02513_0

  1月28日,北京智源研究院主导的多模态大模型成果“Emu3”正式上线国际顶级学术期刊《自然》正刊(纸质版预计将于2月12日刊发),这是我国科研机构主导的大模型成果首次登陆该期刊,标志着我国在人工智能原始创新领域取得重大突破。

  此前,语言大模型依托“预测下一个词元(NTP)”的自回归路线实现重大突破,但多模态模型仍依赖对比学习、扩散模型等专用路线,自回归能否成为多模态通用路线一直是行业未解之谜。智源团队提出的Emu3模型,将文本、图像、视频统一离散化到同一表示空间,基于单一Transformer架构从零开始联合训练,仅凭“预测下一个词元”就实现了多模态生成与感知的统一。

  实验显示,Emu3在文生图任务中性能比肩扩散模型,视觉语言理解能力媲美CLIP与大语言模型融合方案,还能以纯自回归方式生成高保真视频,支持视频延展、图文交错生成及机器人操作建模等多元任务。《自然》编辑点评称,该成果对构建可扩展、统一的多模态智能系统具有重要意义。

  值得关注的是,该团队通过大规模消融实验验证了多模态学习的规模定律,证实直接偏好优化(DPO)可无缝适配自回归视觉生成。后续迭代的Emu3.5更实现“预测下一个状态”的能力跃迁,展现出泛化世界建模能力。

  作为“悟界”大模型系列核心成果,Emu3的突破确立了自回归路线在生成式AI中的统一地位。智源研究院自2020年启动“悟道”大模型研究以来,持续深耕原始创新,此次成果进一步彰显了我国在人工智能基础研究领域的国际竞争力。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500