• 最近访问:
发表于 2025-06-20 13:39:50 股吧网页版
昆仑万维正式发布并开源Skywork-SWE-32B,揭示LLM软件工程能力的数据缩放定律
来源:证券时报网 作者:燕云


K图 300418_0

  6月20日,昆仑万维发布软件工程(Software Engineering, SWE)自主代码智能体基座模型Skywork-SWE,在开源32B模型规模下实现了业界最强的仓库级代码修复能力。昆仑万维团队通过构建超过1万个可验证的GitHub仓库任务实例,打造出目前最大规模的可验证GitHub仓库级代码修复的数据集,并系统性验证了大模型在软件工程任务上的数据缩放定律(Scaling Law)。

  Skywork-SWE-32B模型在SWE-bench Verified基准上取得38.0% pass@1准确率,刷新Qwen2.5-Coder-32B系列模型在OpenHands代码框架下的最佳成绩。进一步引入测试时扩展技术后,模型表现提升至47.0%的准确率,不仅超越了现有参数规模在32B以下的开源模型,也显著缩小了与闭源模型之间的性能差距。

  过去半年多时间,昆仑万维在奖励模型、多模态、推理、视频生成等方向开源了一系列SOTA级别模型,如今又在Agent(SWE任务)方向再下一城。继5月天工超级智能体(Skywork Super Agents)面向全球发布后,今天昆仑万维又发布并开源了自主代码智能体模型Skywork-SWE-32B模型,这不仅是公司坚定开源策略的重要实践,更代表了昆仑万维对Agent在办公任务、SWE任务场景中的重要探索。

  通过Skywork-SWE数据集的构建,以及自主代码智能体模型Skywork-SWE-32B模型的发布,昆仑万维研究表明高质量且可执行验证的数据是提升代码智能体模型性能的关键瓶颈,系统化的数据扩展策略将在推动开源模型性能突破中发挥关键作用。

  “基于此,我们期望Skywork-SWE-32B的开源,能够助力社区在大语言模型驱动的软件工程研究中持续演进。”昆仑万维表示,未来,Skywork-SWE-32B模型将进一步拓展多编程语言支持以覆盖更广泛的开发场景,并探索融合运行时测试反馈的强化学习机制,为构建真正具备智能软件开发能力的大语言模型奠定坚实基础。同时,昆仑万维也将积极探索更多Agent任务场景。(燕云)

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
郑重声明:用户在社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500