• 最近访问:
发表于 2025-10-15 02:08:30 股吧网页版
挑战国际数学奥林匹克赛题 蚂蚁万亿参数思考模型Ring-1T发布并宣布开源
来源:广州日报新花城

  10月14日,蚂蚁集团宣布正式推出万亿参数思考模型Ring-1T,并全面开源模型权重、训练配方。据介绍,Ring-1T在9月30日开源的预览版Ring-1T-preview基础上,持续扩展大规模可验证奖励强化学习(RLVR)训练,进一步激发万亿基座的自然语言推理能力,并通过RLHF训练完善模型通用能力,在各项任务榜单上表现更加均衡。

  据了解,为了持续激发Ring-1T的数学等复杂推理能力,此次百灵团队挑战了难度更高的IMO2025(国际数学奥林匹克)赛题,将Ring-1T接入多智能体框架AWorld,使用纯自然语言推理进行解题。实验结果显示,Ring-1T仅用一次解出了第1、3、4、5题,相当于IMO银牌水平,成为首个能拿IMO国际奥数奖的开源系统。Ring-1T在第三次尝试IMO时对第2题几何证明也给出了接近满分的证明过程,在顶流大模型几乎全军覆没的第六题中将答案收敛到与Gemini 2.5 Pro相同的“4048”(正确答案为2112)。作为一款思考模型,Ring-1T也表现出了极佳的通用能力,在“人类偏好对齐”测试Arena-Hard V2中,Ring-1T以81.59的成功率居于开源模型榜首,逼近GPT-5-Thinking(High)82.91的成绩。

  在面向严谨领域的医疗问答HealthBench测评中,Ring-1T也以最高分取得开源领域最佳。

(Ring-1T与业界代表性思考模型的性能横评)

  据了解,万亿参数思考模型训练最大难题是训推精度差异,即训练阶段与推理阶段因实现细节差异导致的训练和推理精度不一致,进而导致训练崩溃。在Ring-1T模型中,蚂蚁采用了自研的“棒冰(icepop)”算法来应对这项行业难题,即用带掩码的双向截断技术把训练-推理分布差异冻结在低水位,确保长序列、长周期训练不崩。

  此外,应对万亿参数模型强化学习训练,蚂蚁还自研了高性能强化学习系统ASystem(其中包含已开源的高性能强化学习框架AReaL),特别针对万亿参数模型的显存管理和训推权重交换问题做了精细的优化,实现了单机显存碎片秒级回收、权重零冗余交换,把大规模RL训练稳定跑成日常。

  此外,本次发布的Ring-1T模型继续采用Ling 2.0架构的1T base模型做后训练,Ling 2.0采用了包括高度稀疏的MoE架构,1/32的专家激活比、FP8混合精度、MTP等诸多特性实现高效训练与推理。在后训练阶段,蚂蚁百灵团队通过LongCoT-SFT+RLVR+RLHF多阶段训练,显著提升了模型的复杂推理能力以及指令跟随和创意写作等通用能力。

  百灵团队透露,Ring-1T模型是其在万亿思考模型上的首次尝试。目前,用户可通过HuggingFace、魔搭社区下载模型,并通过蚂蚁百宝箱等平台在线体验。

  截至目前蚂蚁百灵大模型已经发布18款模型,已形成从160亿总参数到1万亿总参数的大语言模型产品矩阵。随着两款万亿参数模型的发布,百灵大模型也正式步入2.0阶段。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500