阿里巴巴集团副总裁许主洪：多模态大模型是通往AGI的关键路径｜直击MWC上海2025_阿里巴巴(usbaba)股吧

股吧首页 > 阿里巴巴吧 > 正文

最近访问：

阿里巴巴吧

返回阿里巴巴吧>>

- 重要股东股权质押数据全览

阿里巴巴资讯

发表于 2025-06-20 02:37:20 股吧网页版

阿里巴巴集团副总裁许主洪：多模态大模型是通往AGI的关键路径｜直击MWC上海2025

来源：国际金融报作者：马云飞

　　“多模态agent AI的时代才刚刚开始，未来我们要真正达到AGI，还是要解决非常多的技术难题，包括多模态大模型基础的能力，数据细节的连接与操作，物理世界的控制与交付等等，都有很多的技术挑战，但这也是未来多模态大模型行业机会。”6月19日，在上海世界移动通信大会（MWC上海2025）上，阿里巴巴集团副总裁，智能信息事业群首席科学家发表主题演讲，深入阐述了多模态大模型技术的发展趋势及其在实现通用人工智能（AGI）中的核心作用。

马云飞/摄

　　“多模态大模型通过整合文本、语音、图像、视频等多种模态的输入与输出，提供更强大的处理能力和多样的生成能力。”许主洪在演讲伊始便指出，由于现实世界本质上是多模态的，因此多模态技术是实现AGI的必经之路。这一技术不仅能提供更丰富的上下文理解能力，提升模型性能和准确率，还能显著改善人机交互体验，创造更多元的应用场景。

　　在演讲中，许主洪将多模态大模型技术分为理解与生成两大类，并系统梳理了技术演进路径。他指出，多模态的理解任务，主要解决的难点包括多模态的模态编码对齐、融合的理解与推理等等；多模态的生成任务则主要解决如何有效的遵循指令，生成和输出高质量的多模态内容，比如图片、视频、音频等等。

　　“在过去几年，多模态理解模型的技术主要经历多个不同的阶段，目前的主要的技术是基于预训练大模型技术，不同的多模态理解模型之间主要差异是在连接器的设计上，和模态的对齐融合等方法。”在许主洪看来，目前大模型理解模型主要还是聚焦在视觉和语言方面，“但我们希望多模态能处理更多的模态。”

　　许主洪进一步分享道，多模态理解模型主要基于自回归的模型框架，相比之下，多模态生成模型则更多地采用基于扩散的模型框架，利用如UNet和DiT等架构，以及CLIP和T5等先进的文本编码器。

　　根据许主洪预测，未来多模态大模型将朝着理解与生成相统一的方向发展，但同时也指出主干网络设计、模态对齐融合等关键技术仍需深入研究。尽管行业整体仍处于早期阶段，不过其对多模态技术在搜索、创作、机器人等领域的应用前景充满信心。

（文章来源：国际金融报） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

郑重声明：用户在社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》