自回归“统一”多模态 中国大模型登上《自然》
来源:人民网
人民网北京1月30日电 1月28日,智源多模态大模型成果“通过预测下一个词元进行多模态学习的多模态大模型”上线国际顶级学术期刊《自然》。这是我国科研机构主导的大模型成果首次在《自然》正刊发表。
2018年以来,GPT采用“预测下一个词元(Next-token prediction,NTP)”的自回归路线,实现了语言大模型重大突破,开启了生成式人工智能浪潮。“预测下一个词元”彻底改变了语言模型,促成了如ChatGPT等突破性成果,并引发了关于通用人工智能(AGI)早期迹象的讨论。然而,其在多模态学习中的潜力一直不甚明朗。多模态模型主要依赖对比学习、扩散模型等专门路线,自回归路线是否可以作为通用路线统一多模态?一直是未解之谜。
智源此次提出的Emu3模型,基于“预测下一个词元”的全新多模态模型,将图像、文本和视频统一离散化到同一个表示空间中,并从零开始,在多模态序列混合数据上联合训练一个单一的Transformer架构。这项成果表明,只采用自回归路线,就可以统一多模态学习,训练出优秀的原生多模态大模型。
《自然》编辑点评,Emu3仅基于“预测下一个词元”,实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的性能可与使用专门路线相当,这一成果对构建可扩展、统一的多模态智能系统具有重要意义。
郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
评论该主题
帖子不见了!怎么办?作者:您目前是匿名发表 登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》