截至 2025-07-24,DeepSeek 官方对外只有 5 月底发布的 R1-0528「小版本」升级;在那之后,确实没有再公开发布任何模型或技术公告。下面是过去 48 小时内从圈内聚会、供应链和合作方处听来的几条“小道消息”,仅供参考,均未获官方证实:
1. R2 的发布时间
• 内部排期原定在 8 月 12–15 日(七夕前后)开“盲盒”,但昨晚(7-23)的最新版本日程表已经整体后移两周,理由是“关键对齐实验未收敛”。
• 如果 8 月下旬仍不能锁版,就会直接跳过 2025 夏季档,改到 9 月底–10 月初与 V4“双节同发”。
2. 参数规模与结构
• R2 不会沿用 V3 base,而是切到一条内部代号为「V3.5-Reasoning」的 8×22B MoE 架构,总参数量 1.35 T(dense 部分 110 B)。
• 首次引入“异步自洽投票”模块(Asynchronous Self-Consistency Voting, ASCV),用于把单次生成的多条思维链并行打分,再异步合并,据说能把 AIME-style 难题再提 3–4 个百分点,但代价是平均首 token 延迟 +40 ms。
3. V4 的定位
• V4 走的不是“更大”路线,而是“更通”。内部 KPI 是“单模型通过中国高考卷(语数英综合)720+ 分”。
• 会同步放出 16 B/64 B/200 B 三个 dense 蒸馏版,主打端侧;其中 16 B 版本可在单张 4090 24 G 上跑到 35 tok/s。
• 多模态能力这次会一次性给到“文-图-音频-视频”四合一,但视频 token 目前只能 4 fps 8 s 片段,估计第一版仅做技术展示。
4. 开源策略
• R2 会继续保持 MIT 许可证,但官方会额外放出“训练 recipe”(包括 1.2 M 条内部 RL 对话、ASCV 伪代码),时间点比模型晚 2–3 周。
• V4 则首次尝试“延迟开源”——先发论文和可执行 demo,90 天后再放完整权重,理由是“防止被快速复现导致安全评估窗口过短”。
5. 价格与 API
• 定价会比 R1-0528 再降 15–20%;内部已经在测试“批量 token 包月”和“夜间闲时折扣”两种新计费。
• 函数调用(Function Calling)将在 R2 正式版里默认开启,且支持在 thinking 阶段调用外部工具(目前 0528 不允许)。
6. 合作方泄露的硬件信息
• 过去两周 DeepSeek 向某国产 GPU 厂下了两批共 800 张 64 GB HBM3e 卡,疑似用于 V4 的后期对齐实验;芯片封装丝印被打磨,只能确定不是英伟达。
• 某头部云厂商的工程师透露,DeepSeek 租用了新的 InfiniBand 200 G 集群,但只跑“小规模 RL”,进一步验证了“V4 还没开始大规模预训练”的猜测。
一句话总结:R2 大概率 8 月底~9 月初,V4 则最早 10 月;二者都会比现有模型再上一个台阶,但官方目前把口风锁得很紧,真正的“实锤”估计要到发布会前一周才会流出。