在DeepSeek-V3推出5个月后,DeepSeek-V3低调发布升级版模型DeepSeek-V3.1。
8月21日下午,DeepSeek 正式发布 DeepSeek-V3.1(简称“V3.1”),称其为“迈向 Agent 时代的第一步”。8月19日晚间,DeepSeek 小助手于官方群内宣布线上模型版本已升级至V3.1,引发广泛关注,目前 V3.1 在HuggingFace趋势榜排名已冲上第二。
据DeepSeek方面介绍,V3.1的升级主要包含三大变化:混合思考模式、更高的思考效率和更强的Agent(智能体)能力。
V3.1采用混合推理架构,一个模型同时支持思考模式与非思考模式。与之前的版本相比,引人注目的是,V3.1 将上下文由原有的64k扩展至128k。这意味着其能够一次性处理的上下文长度显著提升。
V3.1也具有更高的思考效率。DeepSeek 测试结果显示,经过思维链压缩训练后,V3.1-Think 在输出 token 数减少 20%-50% 的情况下,各项任务的平均表现与 R1-0528 持平。同时,V3.1 在非思考模式下的输出长度也得到了有效控制,相比于 DeepSeek-V3-0324 ,能够在输出长度明显减少的情况下保持相同的模型性能。
另外值得注意的是,通过后训练优化,V3.1 在工具使用与智能体任务中的表现有较大提升。
编程任务方面,DeepSeek测试结果显示,在代码修复测评 SWE 与命令行终端环境下的复杂任务(Terminal-Bench)测试中,DeepSeek-V3.1 相比之前的 DeepSeek 系列模型有明显提高。
从业内实测反馈来看,V3.1在AiderPolyglot多语言编程测试中,拿下了71.6%的高分,超越了Claude 4 Opus和DeepSeek R1等模型。并且,其完成每次完整编程任务的成本仅1.01美元,为专有系统的六十分之一。
搜索任务方面,DeepSeek测试结果显示,V3.1在多项搜索评测指标上取得了较大提升。在需要多步推理的复杂搜索测试(browsecomp)与多学科专家级难题测试(HLE)上,DeepSeek-V3.1 性能已大幅领先 R1-0528。
V3.1 在多语言支持能力上也有显著优化,目前能处理超过100种语言,尤其优化了亚洲语言和资源较少语种的运用。