DeepSeek放大招！一张图塞下万页书，AI处理效率炸裂升级_财经评论(cjpl)股吧

股吧首页 > 财经评论吧 > 正文

最近访问：

财经评论吧

返回财经评论吧>>

- 重要股东股权质押数据全览

钱小钱的理财日记

发表于 2025-10-21 00:44:29 创作中心网页端发布于上海

DeepSeek放大招！一张图塞下万页书，AI处理效率炸裂升级

最近，DeepSeek又在AI圈扔下了一颗重磅炸弹——他们开源了一个名为DeepSeek-OCR的新模型，并发布了题为《DeepSeek OCR：上下文光学压缩》的论文。这不仅是一个OCR（光学字符识别）工具，更是一次对大语言模型处理长文本方式的颠覆性探索。简单来说，他们想出了一个“用图片压缩文字”的奇招，让AI处理海量文本时更高效、更省资源。这一技术发布后迅速在GitHub上获得超过1400颗星，引发了广泛关注。

视觉即压缩：用一张图装下万言书

DeepSeek这次的核心思路非常巧妙：既然“一图胜千言”，那为什么不把长文本变成图像来处理呢？他们在论文中提出了一种叫“上下文光学压缩”的方法，将大量文本渲染成一张高信息密度的图片，再通过视觉语言模型读取。这样做最大的好处是大幅减少Token消耗——测试显示，在压缩率低于10倍时，OCR准确率仍能保持在97%以上，意味着原本需要上万个文本Token的内容，现在只需几百个视觉Token就能表达。这种“以图代文”的方式，本质上是一种高效的无损压缩，尤其适合处理超长上下文场景。

模型架构与性能突破

DeepSeek-OCR由两个核心部分组成：DeepEncoder（编码器）和DeepSeek3B-MoE（解码器）。编码器负责提取图像特征并压缩视觉Token数量，其创新设计支持多分辨率输入和瓦片化处理，有效控制了计算开销；而解码器采用MoE（混合专家）架构，虽然总参数量为30亿，但每次推理仅激活约5.7亿参数，兼顾了表达能力和推理效率。实验表明，该模型在OmniDocBench基准上表现惊人：仅用100个视觉Token就超过了GOT-OCR2.0（需256个Token），不到800个Token就击败了平均消耗6000+Token的MinerU2.0，真正实现了“小投入、大产出”。

单卡奇迹与未来想象力

最让人震撼的是实际应用潜力。论文提到，单张A100-40G显卡每天可生成超过20万页的训练数据，如果扩展到20个节点（共160张A100），日处理能力可达3300万页，这对大模型预训练的数据构建来说简直是革命性的提升。更有趣的是，团队还提出了一个极具想象力的方向：模拟人类的遗忘机制。通过逐步缩小历史上下文图像的尺寸，让久远的信息变得模糊，从而自然实现“记忆衰退”。虽然这只是初步构想，但如果能落地，或将彻底改变我们处理无限上下文的方式。不少网友评价，这步棋看似低调，实则可能通向超级智能的路径——统一视觉与语言，或许是通往通用人工智能的关键一步。

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

温馨提示： 1.根据《证券法》规定，禁止编造、传播虚假信息或者误导性信息，扰乱证券市场；2.用户在本社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》