DeepSeek-OCR 2大模型开源，重塑文档AI的认知逻辑-AI资讯-资讯-创佳网

1月27日消息，深度求索（DeepSeek）团队发布了论文《DeepSeek-OCR 2: Visual Causal Flow》并开源了同名模型DeepSeek-OCR 2。这一模型是对去年10月20日发布的DeepSeek-OCR模型的升级。

3个月时间，从DeepSeek-OCR到DeepSeek-OCR 2，论文提到在权威的综合性文档理解基准OmniDocBench v1.5上，DeepSeek-OCR 2取得了91.09% 的分数，较其前代大幅提升3.73%。

其核心创新在于提出了“Visual Causal Flow” （“视觉因果流”）这一全新的编码范式。

注：R-order值为模型输出顺序与标准顺序之间的标准化编辑距离，数值越低，说明模型的输出越准确、逻辑顺序越正确。

核心创新：DeepEncoder V2 架构引入Visual Causal

传统的OCR（光学字符识别）技术，往往采取一种近似“机械扫描”的策略：将图像切割成网格，然后按照从左到右、从上到下的固定顺序识别文字。这种方式在处理简单文档时有效，但一旦面对充满表格、多栏排版、数学公式或复杂图示的学术论文、报告时，其输出的文本往往逻辑混乱，丢失了内容之间内在的语义关联。

DeepSeek-OCR 2的研究不再满足于让模型“看见”文字，而是致力于让它像人类一样，先“理解”文档的视觉结构与内容逻辑，再“讲述”出文本。

DeepSeek-OCR 2引入的 DeepEncoder V2 架构。

从DeepSeek-OCR的DeepEncoder架构，到DeepSeek-OCR 2的 DeepEncoder V2 架构，有了哪些升级？

DeepEncoder V2被设计用于赋予编码器因果推理能力，使其能够在大语言模型进行内容解读之前，智能地对视觉标记进行重排。

DeepEncoder V2像一位拥有全局观的阅读者。它的工作流程分为三步，实现了认知上的飞跃：

首先，全局观察：模型通过双向注意力机制，无遗漏地“瞥见”整页文档的所有视觉信息。

接着，逻辑推理：模型的核心组件——“因果流查询”开始工作。它不再受制于空间顺序，而是根据内容的语义重要性、排版结构和逻辑关系，动态地推理出一个最合理的“阅读顺序”。例如，它会先读完一个文本栏，再跳转到旁边的图表标题，然后处理下方的表格，最后识别侧边栏的注释。

最后，有序压缩：模型按照这个自我推理出的逻辑顺序，将高维的视觉信息压缩、重排为一串低维的、富含语义的“视觉标记”。

这一过程的核心是将空间优先的编码转变为语义优先的编码。论文指出，这种“因果流”机制使模型输出的视觉序列本身就携带了强烈的顺序因果性，为后续的语言解码器提供了结构清晰、逻辑通顺的“思考蓝图”。

从效率到理解的全面突破

基于“视觉因果流”这一底层创新，DeepSeek-OCR 2展现出了一系列显著优于前代及同类模型的能力。

首先，是惊人的处理效率。它仅需256至1120个视觉标记就能精准表示一页复杂文档的内容，达到了极高的视觉信息压缩率。这极大地减轻了下游大语言模型的计算负担，使得将高质量文档图像理解能力集成到各类AI应用中变得更为可行。

其次，在复杂文档理解上实现了质的突破。模型在学术论文、金融报表、杂志等包含多栏、浮动体、数学公式的文档上表现尤为出色。它不仅准确识别文字，更能还原内容间的逻辑顺序，输出后的文本无需大量后期调整即可直接用于分析或归档。

最终，这些优势转化为了硬性的性能提升。在权威的综合性文档理解基准OmniDocBench v1.5上，DeepSeek-OCR 2取得了91.09% 的分数，较其前代大幅提升3.73%。更具说服力的是，在衡量阅读顺序准确度的关键指标（标准化编辑距离）上，其性能提升了约33%。在实际生产环境的测试中，模型输出的重复和无意义内容也显著减少，证明了其卓越的稳定性和可靠性。

超越OCR的通用模态编码器雏形

DeepSeek-OCR 2的价值远不止于一个更强大的OCR工具。它作为高质量文本数据的生产引擎，可以为大语言模型的训练提供海量、精准的文本语料。更重要的是，它所验证的“让模型自主决定信息处理顺序”的“因果流”思想，为下一代多模态人工智能架构指明了方向。

论文展望，这一原理有望发展成为一个统一的全模态编码器。未来，无论是文本、图像、音频还是视频，模型都可以先通过类似的“因果流”机制，理解该模态信息的内在结构与逻辑，再将其压缩为统一的、富含语义的中间表示，从而实现更深层次、更接近人类认知方式的跨模态理解与生成。

当然，研究也坦诚指出了当前模型的局限，例如在文本极度密集，如古典报纸的场景下，识别效果仍有优化空间。

联发科举办天玑开发者大会联合产业伙伴加速智能体AI体验普及和发展

4月11日消息，今日，MediaTek今日举办天玑开发者大会2025（MDDC2025），聚焦AI技术和产业变革趋势，探讨智能体AI体验发展和技术新范式下的共同机遇。会上，MediaTek正式启动“天玑智能体化体验领航计划”，联手全球...

AI重新定义汽车，“蔚小理”抢先交卷

近日，智能驾驶行业的军备竞赛似乎开始全面提速。小鹏汽车正式向全球用户发布AI天玑系统XOS5.2.0版本，这是全球唯二实现端到端大模型量产落地的车企。抓紧时间交卷的还有理想和蔚来，理想首次公开了其端到端自动驾驶...

西部数据扩建SIT实验室，深化客户协作推动AI存储技术

作为AI驱动数据经济的核心企业，西部数据（NASDAQ:WDC）近日宣布其扩建的系统集成测试（SIT）实验室正式投入使用。这座占地25,600平方英尺的先进设施将加速客户成功并加快价值实现，随着AI应用推动存储需求激增，新...

马斯克称人工智能毁灭人类的可能性为 20%，但仍值得冒险

IT之家4月1日消息，埃隆・马斯克(ElonMusk)在早些时候举办的Abundance峰会“人工智能辩论”研讨会上表示，即使人工智能技术有1/5的可能性会对人类构成威胁，但其利大于弊，我们仍然值得冒险进行研发。马斯克重新评估...

DeepSeek算力紧张状况缓解，技术优化助力用户体验提升

国内媒体报道，近期用户反馈显示，DeepSeek算力紧张的情况已得到明显改善，高峰时段使用DeepSeek时，很少再出现“服务器繁忙，请稍后再试”的情况。之前有行业人士猜测，DeepSeek官方App可能对用户的使用频率进行了...

DeepSeek-OCR 2大模型开源，重塑文档AI的认知逻辑

如何选购kawai电钢琴？？2023年kawai选购攻略大全来了！

苹果招募生成式AI人才提供数十个大模型岗位

昆仑万维旗下Opera生成式AI服务海外用户数突破100万

创始人王慧文退出美团成AI公司光年之外唯一股东

DeepSeek-OCR 2大模型开源，重塑文档AI的认知逻辑

如何选购kawai电钢琴？？2023年kawai选购攻略大全来了！

苹果招募生成式AI人才 提供数十个大模型岗位

昆仑万维旗下Opera生成式AI服务海外用户数突破100万

创始人王慧文退出 美团成AI公司光年之外唯一股东

苹果招募生成式AI人才提供数十个大模型岗位

创始人王慧文退出美团成AI公司光年之外唯一股东