DeepSeek这步棋,下的是“压缩”还是“重构”?
DeepSeek又发新模型了,这次不是R2,而是一个叫DeepSeek-OCR的开源项目。表面上看是个OCR工具,但内行一眼就看出不对劲——这根本不是冲着文档识别去的,而是奔着大模型的“长上下文瓶颈”来的。
它的核心思路很反直觉:把文本转成图像,用视觉token去压缩文本信息。说白了,就是“一图胜千言”的工程化实现。一张图喂进去,只用几百个视觉token,就能还原出几千甚至上万个文本token的内容。论文里提了个关键数据:在10倍压缩比以内,OCR准确率能干到97%;就算压到20倍,还有60%的还原度。这个数字意味着什么?意味着你原本要塞1万token的上下文,现在可能200个视觉token就搞定了。
我们来盘一盘它的结构。编码器叫DeepEncoder,3.8亿参数,用了SAM-base和CLIP-large拼起来,专门做高分辨率图像的低开销特征提取。关键是它能把4096个patch token压到256个,再结合多分辨率支持和瓦片化处理,直接把显存占用控下来了。解码器是那个熟悉的DeepSeek-3B-MoE,激活参数才5.7亿,但表达能力接近30亿。这种设计明显是为了效率服务的——不是追求单点性能突破,而是为大规模数据生成铺路。
实际效果呢?在OmniDocBench上,它用不到800个视觉token就干翻了MinerU2.0(后者每页要6000+token)。更夸张的是,单张A100-40G每天能产20万页训练数据。这已经不是实验室玩具了,这是冲着工业化数据流水线去的。
所以问题来了:为什么是现在做这件事?市场一直等DeepSeek发R2,结果他们先甩出一个OCR模型。我的判断是,这恰恰说明他们在憋更大的东西。长上下文处理、记忆机制优化、多模态统一表征——这些才是下一代大模型的核心战场。而DeepSeek-OCR的“光学压缩”,本质上是在模拟人类记忆的衰减曲线:越久远的信息,图像越模糊,token越少,就像人脑自动遗忘一样。
目前颗粒度还不够的是,这套方法怎么反向嵌入到LLM的推理链中。但从技术路径看,他们已经在用视觉模态重构信息密度了。如果真能把“视觉即存储”跑通,那未来的模型可能不再拼参数规模,而是拼信息压缩效率。
下一步怎么走?大概率是把这套压缩机制反哺回主模型训练,尤其是长文档理解、知识库构建这些场景。至于R2,别急,这种“内功”练好了,出招自然快。