DeepSeek新模型曝光？“MODEL1”现身开源社区_财经评论(cjpl)股吧

股吧首页 > 财经评论吧 > 正文

最近访问：

财经评论吧

返回财经评论吧>>

- 重要股东股权质押数据全览

东方财富资讯君

发表于 2026-01-22 00:05:39 股吧网页版

DeepSeek新模型曝光？“MODEL1”现身开源社区

来源：上海证券报

　　恰逢DeepSeek-R1模型发布一周年，DeepSeek新模型“MODEL1”现身开源社区。

　　近日，DeepSeek官方在GitHub更新了一系列FlashMLA代码，涉及的114个文件中，有数十处提到了此前未公开的“MODEL1”大模型标识符。

　　2025年2月，DeepSeek启动“开源周”，计划以每日解锁的形式逐步公开5个代码库，Flash MLA为首个开源项目。公开资料显示，Flash MLA通过优化Hopper GPU的内存访问和计算流程，显著提高可变长度序列的处理效率。其核心设计包括动态内存分配机制和并行解码策略，可减少冗余计算并提升吞吐量，尤其适用于大语言模型的推理任务。

　　在某些文件中，“MODEL 1”与已知的现有模型“V32”（即DeepSeek-V3.2）并列提及。行业分析认为，“MODEL1”或许代表一个不同于现有架构的新模型，可能正是DeepSeek还未对外发布的下一代模型（R2或者V4）。

　　此前有市场消息称，DeepSeek计划在2月春节前后发布新一代AI模型DeepSeek V4，但发布时间可能会视实际情况而变化。V4模型是DeepSeek 2024年12月发布的V3模型的迭代版，具备强大的编程能力。DeepSeek内部的初步测试显示，V4在编程能力上超过了目前市场上的其他顶级模型，如Anthropic的Claude和OpenAI的GPT系列。

　　2026年1月以来，DeepSeek动作不断，已陆续发布了两篇技术论文，分别介绍了名为“优化残差连接（mHC）”的新训练方法，以及一种受生物学启发的 “AI记忆模块（Engram）”。

　　1月12日，DeepSeek在github上发表新论文，文章由DeepSeek与北京大学合作完成，作者中有梁文锋署名。文章指出，Transformer架构缺乏原生的知识查找机制，迫使它们通过计算低效地模拟检索。为此，DeepSeek提出了条件记忆（conditional memory），并给出了实现方案Engram模块。DeepSeek称，该模块不仅有助于知识检索，同时在一般推理和代码/数学领域方面取得了更大的进步。

　　在业内看来，梁文锋旗下私募幻方量化较高的收益率，为DeepSeek的研发提供了更多支持。公开资料显示，幻方量化2025年的收益均值达56.55%，在中国管理规模超百亿的量化私募业绩榜中位列第二，仅次于以73.51%收益均值登顶的灵均投资。目前，幻方量化管理规模已超700亿元。

（文章来源：上海证券报） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

温馨提示： 1.根据《证券法》规定，禁止编造、传播虚假信息或者误导性信息，扰乱证券市场；2.用户在本社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》