• 最近访问:
发表于 2026-01-21 12:29:50 股吧网页版
R1模型发布一周年 DeepSeek新模型“MODEL1”曝光
来源:科创板日报

  2025年1月,DeepSeek-R1上线,此时正值R1模型发布一周年之际,DeepSeek新模型“MODEL1”曝光。

  北京时间1月21日,DeepSeek官方GitHub仓库更新了一系列FlashMLA代码,借助AI对全部总代码文件数:114个(包括.py, .md, .txt, .sh, .cpp, .cu, .h文件)进行分析,发现了一个此前未公开的模型架构标识“MODEL1”,共被提及31次。

  FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具,专门加速大模型“推理生成”这一环节。该算法的实现基础MLA(多层注意力机制),是DeepSeek模型(如V2、V3)实现低成本、高性能的关键技术之一,用于在模型架构层面减少内存占用,最大化地利用GPU硬件。

  MODEL1是DeepSeek FlashMLA中支持的两个主要模型架构之一,另一个是DeepSeek-V3.2。据推测,MODEL1很可能是一个高效推理模型,相比V3.2,内存占用更低,适合边缘设备或成本敏感场景。它也可能是一个长序列专家,针对16K+序列优化,适合文档理解、代码分析等长上下文任务。

  另外,MODEL1的硬件实现跨越多个GPU架构。在英伟达H100/H200(SM90架构)上有两个版本:model1_persistent_h64.cu用于64头配置,model1_persistent_h128.cu用于128头配置。在最新的B200(SM100架构)上有专门的Head64内核实现,而SM100的Head128实现仅支持MODEL1,不支持V3.2,有人猜测DeepSeek为适配英伟达新一代GPU,专门优化了MODEL1的架构

  DeepSeek已发布的主要模型是两条技术路线的代表:追求极致综合性能的V系列“全能助手”和专注于复杂推理的R系列“解题专家”。

  2024年12月推出的V3是DeepSeek的重要里程碑,其高效的MoE架构确立了强大的综合性能基础。此后,DeepSeek在V3基础上快速迭代,发布了强化推理与Agent(智能体)能力的V3.1,并于2025年12月推出了最新正式版V3.2。同时,还推出了一个专注于攻克高难度数学和学术问题的特殊版本V3.2-Speciale。

  2025年1月发布的R1,则通过强化学习,在解决数学问题、代码编程等复杂推理任务上表现卓越,并首创了“深度思考”模式。

  科技媒体The Information月初爆料称,DeepSeek将在今年2月中旬农历新年期间推出新一代旗舰AI模型——DeepSeek V4,将具备更强的写代码能力

  此前,DeepSeek研究团队陆续发布了两篇技术论文,分别介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)”。这一举动不禁引起用户猜测,DeepSeek正在开发中的新模型有可能会整合这些最新的研究成果。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500