• 最近访问:
发表于 2025-10-21 00:44:29 创作中心网页端 发布于 上海
DeepSeek放大招!一张图塞下万页书,AI处理效率炸裂升级

  最近,DeepSeek又在AI圈扔下了一颗重磅炸弹——他们开源了一个名为DeepSeek-OCR的新模型,并发布了题为《DeepSeek OCR:上下文光学压缩》的论文。这不仅是一个OCR(光学字符识别)工具,更是一次对大语言模型处理长文本方式的颠覆性探索。简单来说,他们想出了一个“用图片压缩文字”的奇招,让AI处理海量文本时更高效、更省资源。这一技术发布后迅速在GitHub上获得超过1400颗星,引发了广泛关注。

  视觉即压缩:用一张图装下万言书

  DeepSeek这次的核心思路非常巧妙:既然“一图胜千言”,那为什么不把长文本变成图像来处理呢?他们在论文中提出了一种叫“上下文光学压缩”的方法,将大量文本渲染成一张高信息密度的图片,再通过视觉语言模型读取。这样做最大的好处是大幅减少Token消耗——测试显示,在压缩率低于10倍时,OCR准确率仍能保持在97%以上,意味着原本需要上万个文本Token的内容,现在只需几百个视觉Token就能表达。这种“以图代文”的方式,本质上是一种高效的无损压缩,尤其适合处理超长上下文场景。

  模型架构与性能突破

  DeepSeek-OCR由两个核心部分组成:DeepEncoder(编码器)和DeepSeek3B-MoE(解码器)。编码器负责提取图像特征并压缩视觉Token数量,其创新设计支持多分辨率输入和瓦片化处理,有效控制了计算开销;而解码器采用MoE(混合专家)架构,虽然总参数量为30亿,但每次推理仅激活约5.7亿参数,兼顾了表达能力和推理效率。实验表明,该模型在OmniDocBench基准上表现惊人:仅用100个视觉Token就超过了GOT-OCR2.0(需256个Token),不到800个Token就击败了平均消耗6000+Token的MinerU2.0,真正实现了“小投入、大产出”。

  单卡奇迹与未来想象力

  最让人震撼的是实际应用潜力。论文提到,单张A100-40G显卡每天可生成超过20万页的训练数据,如果扩展到20个节点(共160张A100),日处理能力可达3300万页,这对大模型预训练的数据构建来说简直是革命性的提升。更有趣的是,团队还提出了一个极具想象力的方向:模拟人类的遗忘机制。通过逐步缩小历史上下文图像的尺寸,让久远的信息变得模糊,从而自然实现“记忆衰退”。虽然这只是初步构想,但如果能落地,或将彻底改变我们处理无限上下文的方式。不少网友评价,这步棋看似低调,实则可能通向超级智能的路径——统一视觉与语言,或许是通往通用人工智能的关键一步

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500