• 最近访问:
发表于 2026-01-08 22:01:29 股吧网页版
20页→86页!DeepSeek“爆更”论文
来源:上海证券报

  近日,DeepSeek更新了关于R1模型的论文,文章篇幅从原本的约20页扩展至86页。

  更新后的文章进一步详细展示了LLM(大语言模型)的推理能力可以通过纯粹的强化学习(RL)来训练,且训练出的模型在数学、编码竞赛和STEM领域等可验证任务上取得了优异的成绩。同时,该方式在训练成本上也极具竞争力,DeepSeek-R1-Zero的训练仅耗时198小时。

  具体来看,对于MMLU、MMLU-Pro、GPQA Diamond等面向教育的知识基准测试,DeepSeek-R1比DeepSeek-V3表现出更优越的性能。这一改进主要归功于大规模强化学习取得了显著的成果,使STEM相关问题的准确性得到提高。此外,DeepSeek-R1在FRAMES(一项长上下文相关的QA任务)上表现突出,展示了强大的文档分析能力。这凸显了模型在人工智能驱动的搜索和数据分析任务中的潜力。

  DeepSeek-R1还在IF-Eval(一项旨在评估模型指令跟随能力的基准测试)上获得了突出的表现结果。模型在AlpacaEval2.0和ArenaHard上也有出色的表现,表明DeepSeek-R1在写作任务和开放域问答方面的优势。

  在数学任务上,DeepSeek-R1的性能与OpenAI-o1-1217相当,且大幅超越其他模型。在LiveCodeBench和Codeforces等编程算法任务中也观察到了类似的趋势。工程导向的编程任务上,OpenAI-o1-1217在Aider上的性能表现优于DeepSeek-R1,但在SWE Verified测试中,二者性能相当。DeepSeek表示,DeepSeek-R1的相关能力将在下一版本中得到改善,因为目前工程类的RL训练数据量仍然非常有限。

  论文还对DeepSeek-R1-Zero、DeepSeek-R1和人类参与者在多个基准测试的表现进行了比较分析。其中,AIME是一项高中级别的数学竞赛,DeepSeek-R1在该项目中的表现超越了人类在该比赛中取得的平均分。在Codeforces平台上,DeepSeek-R1的表现优于96.3%的人类参与者,显示出先进的问题解决能力。在GPQA中,人类专家(通常是具有博士学位且可访问网络资源的个人)的表现仍然优于DeepSeek-R1。对此,DeepSeek表示,让DeepSeek-R1接入互联网可显著提高其在GPQA上的性能,可能缩小或消除已观察到的差距。

  值得注意的是,论文指出,DeepSeek-R1的能力可有效、稳定地迁移到参数量更小的模型上,以便在训练和部署中节省高性能GPU和电力等计算资源。

  DeepSeek研究团队使用了由DeepSeek-R1生成的800000个样本组成的数据集对Qwen和LLaMA等开源基础模型进行微调,发现从高质量“教师模型”中蒸馏出的模型始终优于直接使用人类生成数据训练出的模型。

  DeepSeek研究团队补充道,在模型蒸馏过程中仅使用了SFT(监督微调),并未包括RL阶段,尽管让小模型再跑一遍RL可以显著提高性能。

  在训练成本方面,研究团队在训练DeepSeek-R1-Zero时使用了64×8张H800 GPU,整个过程耗时约198小时。而在DeepSeek-R1的训练阶段,研究团队同样使用了64×8张H800 GPU,在约80小时内完成了该训练过程。为了创建SFT数据集,团队亦使用了5000 GPU小时。如下图所示,按2美元/GPU小时计算,上述过程一共仅花费29.4万美元。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500