• 最近访问:
发表于 2025-10-20 22:36:09 创作中心网页端 发布于 上海
DeepSeek-OCR曝光:用图像压缩文本,长上下文要变天?

  DeepSeek这步棋,下的是“压缩”还是“重构”?

  DeepSeek又发新模型了,这次不是R2,而是一个叫DeepSeek-OCR的开源项目。表面上看是个OCR工具,但内行一眼就看出不对劲——这根本不是冲着文档识别去的,而是奔着大模型的“长上下文瓶颈”来的。

  它的核心思路很反直觉:把文本转成图像,用视觉token去压缩文本信息。说白了,就是“一图胜千言”的工程化实现。一张图喂进去,只用几百个视觉token,就能还原出几千甚至上万个文本token的内容。论文里提了个关键数据:在10倍压缩比以内,OCR准确率能干到97%;就算压到20倍,还有60%的还原度。这个数字意味着什么?意味着你原本要塞1万token的上下文,现在可能200个视觉token就搞定了。

  我们来盘一盘它的结构。编码器叫DeepEncoder,3.8亿参数,用了SAM-base和CLIP-large拼起来,专门做高分辨率图像的低开销特征提取。关键是它能把4096个patch token压到256个,再结合多分辨率支持和瓦片化处理,直接把显存占用控下来了。解码器是那个熟悉的DeepSeek-3B-MoE,激活参数才5.7亿,但表达能力接近30亿。这种设计明显是为了效率服务的——不是追求单点性能突破,而是为大规模数据生成铺路。

  实际效果呢?在OmniDocBench上,它用不到800个视觉token就干翻了MinerU2.0(后者每页要6000+token)。更夸张的是,单张A100-40G每天能产20万页训练数据。这已经不是实验室玩具了,这是冲着工业化数据流水线去的。

  所以问题来了:为什么是现在做这件事?市场一直等DeepSeek发R2,结果他们先甩出一个OCR模型。我的判断是,这恰恰说明他们在憋更大的东西。长上下文处理、记忆机制优化、多模态统一表征——这些才是下一代大模型的核心战场。而DeepSeek-OCR的“光学压缩”,本质上是在模拟人类记忆的衰减曲线:越久远的信息,图像越模糊,token越少,就像人脑自动遗忘一样。

  目前颗粒度还不够的是,这套方法怎么反向嵌入到LLM的推理链中。但从技术路径看,他们已经在用视觉模态重构信息密度了。如果真能把“视觉即存储”跑通,那未来的模型可能不再拼参数规模,而是拼信息压缩效率。

  下一步怎么走?大概率是把这套压缩机制反哺回主模型训练,尤其是长文档理解、知识库构建这些场景。至于R2,别急,这种“内功”练好了,出招自然快。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500