• 最近访问:
发表于 2025-05-29 11:16:50 股吧网页版
DeepSeek小版本大升级,新R1模型代码能力媲美OpenAI o3
来源:第一财经 作者:刘晓洁

  5月28日晚,第一财经记者获悉,DeepSeek小助手在官方交流群中通知,DeepSeek R1模型已完成小版本试升级,紧接着就在29日凌晨,官方在开源平台HuggingFace上发布了DeepSeek-R1-0528。

  目前官方还未更新模型卡以及公告介绍,但不少开发者已经第一时间进行了测试,发现这个“小版本升级”并不小,海外开发者感慨“一如既往的DeepSeek低调风格”。

  众多测试发现,DeepSeek-R1-0528目前提升最为明显的是代码能力,在代码测试平台Live CodeBench中,其性能几乎媲美OpenAI重量级的o3-high模型。

  有开发者表示,这是“开源的巨大胜利”。

  不过,或许受限于测试的速率限制,目前开发者群体中公认编程能力最强的Claude-4系列模型并不在测试榜单中。

  AI博主同时也是KCORES开源硬件项目联合创始人@karminski-牙医进行了个人的测试,基于最新的DeepSeek-R1模型和Claude-4-Sonnet进行测试,测试内容是用一个橙色小球撞击物体,从效果显示,平面的橙色漫反射、 撞击效果方面是R1模型更好。

  但有开发者对第一财经表示,这类能力看个例是不准的,或许要等评测榜单和一个月后的口碑见分晓。

  除了代码能力,有开发者总结了DeepSeek这次更新其他亮点,包括改进了写作任务,更自然、格式更好。也有用户反映,用最新模型写作正常很多,没有强烈的“量子力学元素”了。

  @karminski-牙医同时对最新模型进行了文本召回测试,发现在上下文32K以内比之前的R1模型要好不少,但是在60K的上下文中效果下降了不少。这意味着在32K以内针对给定的材料使用新R1模型提问,回答的准确度会更好。

  在R1这次“小版本试升级”后,有海外网友表示,如果这是R1,那么R2会有多好?DeepSeek官方针对此前的V3模型和R1模型都做了一次迭代,但仍未放出大家期待的R2模型的消息。

  此前3月,DeepSeek也是在hugging face默默上新DeepSeek-V3-0324迭代版本模型,DeepSeek介绍,新版V3模型借鉴R1模型训练过程中所使用的强化学习技术,大幅提高了在推理类任务上的表现水平,此外在前端开发、中文写作等方面进行了能力优化。

  有业内人士猜测,是否模型架构不更新,只是增加或调整了训练数据,DeepSeek就不将更新定义为大版本升级,而业内其他模型给出明显的版本号迭代则是一种品牌营销需求。目前DeepSeek并未对此进行任何解释。

  除了上述模型能力,开发者也希望未来DeepSeek R2若进行升级能大幅提升上下文长度,以及增加多模态的能力,毕竟这两个方面的能力对于生产使用很重要。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
郑重声明:用户在社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500