• 最近访问:
发表于 2025-06-20 02:37:20 股吧网页版
阿里巴巴集团副总裁许主洪:多模态大模型是通往AGI的关键路径|直击MWC上海2025
来源:国际金融报 作者:马云飞

K图 BABA_0]

  “多模态agent AI的时代才刚刚开始,未来我们要真正达到AGI,还是要解决非常多的技术难题,包括多模态大模型基础的能力,数据细节的连接与操作,物理世界的控制与交付等等,都有很多的技术挑战,但这也是未来多模态大模型行业机会。”6月19日,在上海世界移动通信大会(MWC上海2025)上,阿里巴巴集团副总裁,智能信息事业群首席科学家发表主题演讲,深入阐述了多模态大模型技术的发展趋势及其在实现通用人工智能(AGI)中的核心作用。

马云飞/摄

  “多模态大模型通过整合文本、语音、图像、视频等多种模态的输入与输出,提供更强大的处理能力和多样的生成能力。”许主洪在演讲伊始便指出,由于现实世界本质上是多模态的,因此多模态技术是实现AGI的必经之路。这一技术不仅能提供更丰富的上下文理解能力,提升模型性能和准确率,还能显著改善人机交互体验,创造更多元的应用场景。

  在演讲中,许主洪将多模态大模型技术分为理解与生成两大类,并系统梳理了技术演进路径。他指出,多模态的理解任务,主要解决的难点包括多模态的模态编码对齐、融合的理解与推理等等;多模态的生成任务则主要解决如何有效的遵循指令,生成和输出高质量的多模态内容,比如图片、视频、音频等等。

  “在过去几年,多模态理解模型的技术主要经历多个不同的阶段,目前的主要的技术是基于预训练大模型技术,不同的多模态理解模型之间主要差异是在连接器的设计上,和模态的对齐融合等方法。”在许主洪看来,目前大模型理解模型主要还是聚焦在视觉和语言方面,“但我们希望多模态能处理更多的模态。”

  许主洪进一步分享道,多模态理解模型主要基于自回归的模型框架,相比之下,多模态生成模型则更多地采用基于扩散的模型框架,利用如UNet和DiT等架构,以及CLIP和T5等先进的文本编码器。

  根据许主洪预测,未来多模态大模型将朝着理解与生成相统一的方向发展,但同时也指出主干网络设计、模态对齐融合等关键技术仍需深入研究。尽管行业整体仍处于早期阶段,不过其对多模态技术在搜索、创作、机器人等领域的应用前景充满信心。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
郑重声明:用户在社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500