• 最近访问:
发表于 2025-01-27 13:45:20 股吧网页版
阿里云通义开源长文本模型及推理框架 百万Tokens处理速度提升近7倍
来源:证券日报

  1月27日凌晨,阿里云通义重磅开源支持100万Tokens上下文的Qwen2.5-1M模型,推出7B及14B两个尺寸,均在处理长文本任务中稳定超越GPT-4o-mini;同时开源推理框架,在处理百万级别长文本输入时可实现近7倍的提速。

  百万Tokens长文本,可换算成10本长篇小说、150小时演讲稿或3万行代码。两个月前,Qwen2.5-Turbo升级了百万Tokens的上下文输入能力,广受开发者和企业欢迎。如今,开源社区可基于全新的Qwen2.5-1M系列模型,进行长篇小说或多篇学术论文的解析,或是探索仓库级代码的分析和升级。

  Qwen2.5-1M拥有优异的长文本处理能力。在上下文长度为100万Tokens的大海捞针(PasskeyRetrieval)任务中,Qwen2.5-1M能够准确地从1M长度的文档中检索出隐藏信息,仅有7B模型出现了少量错误。在RULER、LV-Eval等基准对复杂长上下文理解任务测试中,Qwen2.5-14B-Instruct-1M模型不仅击败了自家闭源模型Qwen2.5-Turbo,还稳定超越GPT-4o-mini,为开发者提供了一个现有长上下文模型的优秀开源替代。

  大模型的长文本训练需要消耗大量的计算资源,通义团队通过逐步扩展长度的方法,从预训练到监督微调再到强化学习等多个阶段,高效地将Qwen2.5-1M的上下文长度从4K扩展到256K;再通过长度外推的技术,创新引入Dual Chunk Attention机制,在无须额外训练的情况下,将上下文长度高性能地稳定扩展到1M,从而在较低成本下实现了Qwen2.5-1M模型。

  同时,为了加快推理速度,通义团队在vLLM推理引擎基础上,引入基于Minference的稀疏注意力机制,并在分块预填充、集成长度外推方案和稀疏性优化等多环节创新改进。基于这些改进的推理框架有效地加快了模型推理速度,在不同模型大小和GPU设备上,处理1M长度输入序列的预填充速度提升了3.2倍到6.7倍。

  据了解,Qwen2.5-1M已经在魔搭社区ModelScope和HuggingFace等平台开源,开发者可前往下载或直接体验模型;相关推理框架也已在GitHub上开源,帮助开发者更高效地部署Qwen2.5-1M模型。开发者和企业也可通过阿里云百炼平台调用Qwen2.5-Turbo模型API,或是通过全新的Qwen Chat平台体验模型性能及效果。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500