阿里开源全模态大模型Qwen3-Omni 可像人类一样听说写_阿里巴巴(usbaba)股吧

股吧首页 > 阿里巴巴吧 > 正文

最近访问：

阿里巴巴吧

返回阿里巴巴吧>>

- 重要股东股权质押数据全览

阿里巴巴资讯

发表于 2025-09-24 14:56:40 股吧网页版

阿里开源全模态大模型Qwen3-Omni 可像人类一样听说写

来源：上海证券报·中国证券网作者：杨翔菲

　　上证报中国证券网讯（记者杨翔菲）9月24日，2025云栖大会在杭州举行。当日，阿里巴巴发布通义全模态预训练大模型Qwen3-Omni系列模型。在36个音视频基准测试中，Qwen3-Omni系列模型有22项达到SOTA水平，其中32项取得开源模型最佳效果，语音识别、音频理解与语音对话能力可比肩Gemini2.5-Pro。

　　作为全模态模型，Qwen3-Omni能够实现全模态输入和全模态输出。类似于人类婴儿一出生就全方位感知世界，Qwen3-Omni一开始就加入了“听”“说”“写”多模态混合训练。在预训练过程中，Qwen3-Omni采用混合单模态和跨模态数据。Qwen3-Omni在实现强劲音频与音视频能力的同时，单模态文本与图像性能均保持稳定，这是业内首次实现这一训练效果。

　　Qwen3-Omni的交互速度更快，纯模型端到端音频对话延迟低至211ms，视频对话延迟低至507ms；支持的语言更多，包括19种语言音频输入、10种语言输出。

　　作为一款“会说话”的模型，Qwen3-Omni应用场景广泛，未来可部署于车载、智能眼镜和手机等。用户还可设定个性化角色、调整对话风格，打造专属的个人IP。相较传统的录音转文字软件，Qwen3-Omni能够处理长达30分钟的音频文件，无需切割音频，即可精准识别语音、深度理解内容。

　　目前，Qwen3-Omni系列已开源三款模型：Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking和Qwen3-Omni-30B-A3B-Captioner。值得关注的是，擅长音频描述的模型Qwen3-Omni-30B-A3B-Captioner为全球首次开源的通用音频caption模型，可以清晰描述用户输入音频的特征，填补了开源社区空白。

（文章来源：上海证券报·中国证券网） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

温馨提示： 1.根据《证券法》规定，禁止编造、传播虚假信息或者误导性信息，扰乱证券市场；2.用户在本社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》