網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

剛剛，DeepSeek又探索新架構了，開源OCR 2

2026-01-27 14:10:53　來源: 機器之心Pro

北京舉報

分享至

機器之心編輯部

嘿！剛剛，DeepSeek 又更新了！

這次是更新了十月份推出的 DeepSeek-OCR 模型（參見：太強了！DeepSeek 剛剛開源新模型，用視覺方式壓縮一切）。

當時 DeepSeek-OCR 的出世，引起了大家對視覺壓縮的關注與討論，而這一次，DeepSeek 對視覺編碼下手了。

可以說，剛剛發(fā)布的 DeepSeek-OCR 2 通過引入 DeepEncoder V2 架構，實現(xiàn)了視覺編碼從「固定掃描」向「語義推理」的范式轉變！

當然，和 DeepSeek 幾乎每次發(fā)布一樣，這一次同樣也是模型和技術報告齊開源。

項目地址：https://github.com/deepseek-ai/DeepSeek-OCR-2
論文地址：https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
模型地址：https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

這項研究的三位作者分別是魏浩然、孫耀峰、李宇琨。

具體來說，該研究的核心創(chuàng)新在于將原本基于 CLIP 的編碼器替換為輕量級語言模型（Qwen2-500M），并引入了具有因果注意力機制的「因果流查詢」

這種設計打破了傳統(tǒng)模型必須按從左到右、從上到下的柵格順序處理圖像的限制，賦予了編碼器根據(jù)圖像語義動態(tài)重排視覺 Token 的能力。通過這種兩級級聯(lián)的 1D 因果推理結構（編碼器重排與譯碼器解析），模型能夠更精準地還原復雜文檔（如帶表格、公式和多欄布局）的自然閱讀邏輯。

這就像是為機器裝上了「人類的閱讀邏輯」，讓 AI 不再只是生搬硬套地掃描圖像。對比之下，傳統(tǒng)的 AI 就像一個死板的復印機，不管頁面內容多復雜，都只能從左上角到右下角按行掃描。

在維持極高數(shù)據(jù)壓縮效率的同時，DeepSeek-OCR 2 在多項基準測試和生產(chǎn)指標上均取得了顯著突破。模型僅需 256 到 1120 個視覺 Token 即可覆蓋復雜的文檔頁面，這在同類模型中處于極低水平，顯著降低了下游 LLM 的計算開銷。

在 OmniDocBench v1.5 評測中，其綜合得分達到 91.09%，較前代提升了 3.73%，特別是在閱讀順序識別方面表現(xiàn)出了更強的邏輯性。

此外，在實際生產(chǎn)環(huán)境中，該模型顯著降低了 OCR 識別結果的重復率，并為未來構建統(tǒng)一的 omni-modal（全模態(tài)）編碼器提供了可行路徑。是的，未來同一個 AI「大腦」或許能用同樣的方法去處理聲音、視頻等所有模態(tài)的數(shù)據(jù)，真正實現(xiàn)多模態(tài)的深度統(tǒng)一。

DeepSeek-OCR 2 架構

如圖 3 所示，DeepSeek-OCR 2 延續(xù)了 DeepSeek-OCR 的整體架構，由編碼器（encoder）和解碼器（decoder）組成。編碼器負責將圖像離散化為視覺 token，而解碼器則在這些視覺 token 與文本提示（text prompts）的條件約束下生成輸出。

兩者的關鍵區(qū)別在于編碼器部分：DeepSeek 將原有的 DeepEncoder 升級為 DeepEncoder V2。在完整保留前代能力的基礎上，DeepEncoder V2 通過一種全新的架構設計，引入了因果推理能力（causal reasoning）

DeepEncoder V2

DeepEncoder V2 的第一個組成部分是視覺分詞器（vision tokenizer）。延續(xù)了 DeepEncoder 的設計，DeepSeek 采用了一種由參數(shù)規(guī)模為 8000 萬的 SAM-base 與兩層卷積層組成的架構。相比 DeepEncoder，DeepSeek 將最終卷積層的輸出維度從 1024 降至 896，以與后續(xù)處理流程保持一致。

在 DeepEncoder 中，視覺分詞器之后接入的是一個 CLIP ViT，用于進一步壓縮和建模視覺語義。DeepEncoder V2 對這一組件進行了重新設計，將其改造為一種類 LLM 的架構，并引入了雙流注意力機制（dual-stream attention）。

其中，視覺 token 采用雙向注意力，以保留 CLIP 所具備的全局建模能力；而新引入的因果流查詢（causal flow queries）則使用因果注意力。這些可學習的查詢 token 被作為后綴追加在視覺 token 之后，每個查詢都可以關注所有視覺 token 以及其之前的查詢 token。通過保持查詢 token 與視覺 token 數(shù)量一致，該設計在不改變 token 總數(shù)的前提下，對視覺特征施加語義上的排序與蒸餾約束。最終，只有因果查詢 token 的輸出會被送入 LLM 解碼器。

從整體上看，該架構實際上構建了一種兩階段級聯(lián)的因果推理機制：首先，編碼器通過可學習查詢對視覺 token 進行語義重排；隨后，LLM 解碼器在這一有序序列之上執(zhí)行自回歸推理。與依賴位置編碼施加剛性空間順序的傳統(tǒng)編碼器不同，這種因果排序查詢能夠更自然地貼合連續(xù)的視覺語義，并與 LLM 的單向注意力模式高度一致。該設計有望在二維空間結構與一維因果語言建模之間搭建起一座橋梁。

為更直觀地展示 DeepEncoder V2 的注意力機制，圖 5 對其注意力掩碼進行了可視化。該注意力掩碼由兩個相互區(qū)分的區(qū)域組成。

左側區(qū)域對原始視覺 token 采用雙向注意力機制（類似于 ViT），使任意 token 都可以與其他所有 token 建立可見性，從而實現(xiàn)完整的全局建模；右側區(qū)域則針對因果流 token 使用因果注意力（三角形掩碼，與純解碼器 LLM 完全一致），其中每個 token 只能關注其之前的 token。

DeepSeek-MoE Decoder

由于 DeepSeek-OCR 2 的改進重點主要集中在編碼器上，并未對解碼器部分進行升級。遵循這一設計原則，模型繼續(xù)沿用 DeepSeek-OCR 的解碼器 —— 一個參數(shù)規(guī)模為 30 億的 MoE 結構，其中約 5 億參數(shù)在推理時處于激活狀態(tài)。

訓練數(shù)據(jù)與訓練流程

在數(shù)據(jù)層面，DeepSeek-OCR 2 沿用了與 DeepSeek-OCR 相同的數(shù)據(jù)源，由 OCR 1.0、OCR 2.0 以及通用視覺數(shù)據(jù)組成，其中 OCR 數(shù)據(jù)占混合訓練數(shù)據(jù)的 80%。同時引入了以下兩項改進：

針對 OCR 1.0 數(shù)據(jù)采用了更均衡的采樣策略，并按內容類型（正文、公式和表格）以 3:1:1 的比例對頁面進行劃分；
通過合并語義相似的類別（例如統(tǒng)一「插圖說明」和「插圖標題」）來優(yōu)化布局檢測的標簽。

在訓練階段，DeepSeek-OCR 2 主要分為三個階段來完成：（1）編碼器預訓練；（2）查詢增強；（3）解碼器專門化

其中第一階段使視覺分詞器（tokenizer）和 LLM 風格的編碼器獲得特征提取、token 壓縮和 token 重排的基礎能力。第二階段進一步加強編碼器的 token 重排能力，同時增強了視覺知識的壓縮。第三階段凍結編碼器參數(shù)，僅優(yōu)化解碼器，從而在相同的 FLOPs 下實現(xiàn)更高的數(shù)據(jù)吞吐量。

接著來看細節(jié)。

首先是訓練 DeepEncoder V2。遵循 DeepSeek-OCR 和 Vary 的方法，使用語言建模目標來訓練 DeepEncoder V2，將編碼器與輕量級解碼器耦合，通過預測下一個 token 進行聯(lián)合優(yōu)化。采用了 768×768 和 1024×1024 兩種分辨率的數(shù)據(jù)加載器。視覺分詞器初始化自 DeepEncoder，LLM 風格的編碼器則初始化自 Qwen2-0.5B-base。預訓練完成后，僅保留編碼器參數(shù)用于后續(xù)階段。

本階段使用 AdamW 優(yōu)化器，學習率采用余弦退火，從 1e-4 降至 1e-6，在 160 臺 A100 GPU（20 個節(jié)點 × 8 臺 GPU）上以 640 的批大小訓練 40k 次迭代（采用長度為 8K 的序列打包，約包含 1 億個圖文對樣本）。

其次是查詢增強。在 DeepEncoder V2 預訓練之后，將其與 DeepSeek-3B-A500M 整合為最終的流水線。凍結視覺分詞器（SAM-conv 結構），并聯(lián)合優(yōu)化 LLM 編碼器和 LLM 解碼器以增強查詢表示。本階段通過多裁剪策略將兩種分辨率統(tǒng)一到單個數(shù)據(jù)加載器中。此外采用 4 階段流水線并行：視覺分詞器（PP0）、LLM 風格編碼器（PP1）以及 DeepSeek-LLM 層（PP2-3 每階段 6 層）。

本階段利用 160 臺 GPU（每臺 40GB 顯存），配置了 40 個數(shù)據(jù)并行副本（每個副本 4 臺 GPU），過程中使用相同的優(yōu)化器，以 1280 的全局批大小進行訓練，學習率在 15k 次迭代中從 5e-5 退火至 1e-6。

最后是LLM 持續(xù)訓練。為了快速消耗訓練數(shù)據(jù)，本階段凍結 DeepEncoder V2 的所有參數(shù)，僅更新 DeepSeek-LLM 的參數(shù)。本階段加速了訓練（在相同全局批大小下，訓練速度提升了一倍多），同時有助于 LLM 更好地理解 DeepEncoder V2 重排后的視覺 token。

承接第二階段，本階段進行了另一次學習率退火，從 1e-6 降至 5e-8，共訓練 20k 次迭代。

評估結果

團隊選用 OmniDocBench v1.5 作為主要評測基準，該基準包含 1355 頁文檔，覆蓋中英文兩種語言的 9 大主要類別，包括雜志、學術論文、研究報告等。憑借其多樣化的測試樣本與嚴格的評測標準，OmniDocBench 為驗證 DeepSeek-OCR 2 的整體性能，尤其是 DeepEncoder V2 的有效性，提供了一個可靠有效的平臺。

如表 1 所示，在使用最小視覺 token 上限（的情況下，DeepSeek-OCR 2 仍取得了 91.09% 的領先性能。與 DeepSeek-OCR 基線模型相比，在采用相似訓練數(shù)據(jù)來源的前提下，其性能提升了 3.73%，驗證了新設計架構的有效性。

此外，除了整體性能提升，閱讀順序（R-order）指標上的編輯距離（Edit Distance，ED）也顯著下降，從 0.085 降至 0.057。這表明，新的 DeepEncoder V2 能夠根據(jù)圖像信息更有效地選擇并排列初始視覺 token。

進一步如表 2 所示，在相同的視覺 token 預算（1120）條件下，DeepSeek-OCR 2 在文檔解析任務中的 ED（0.100）低于 Gemini-3 Pro（0.115）。這進一步證明了新模型在保持高視覺 token 壓縮率的同時，仍能確保更優(yōu)的性能，并展現(xiàn)出極高的潛力。

改進空間

團隊在 9 種文檔類型上，對 DeepSeek-OCR 與 DeepSeek-OCR 2 進行了細致的性能對比，結果表明：DeepSeek-OCR 2 仍具有較大的提升空間，如表 3 所示。在文本識別的編輯距離（ED）指標上，DeepSeek-OCR 2 在大多數(shù)場景中優(yōu)于 DeepSeek-OCR，但在某些類型上仍存在明顯不足，例如報紙類文檔，其 ED 超過 0.13。

團隊認為主要原因有兩點：

視覺 token 上限較低，可能影響了文本極為密集的報紙類文檔識別效果，這一問題可在未來通過增加局部裁剪（local crops）的數(shù)量來緩解；
報紙類數(shù)據(jù)不足 —— 當前訓練集中僅包含約 25 萬條相關樣本，這對于訓練 DeepEncoder V2 來說仍然不夠充分。

當然，在閱讀順序（R-order）這一指標上，DeepSeek-OCR 2 在所有類別中始終優(yōu)于 DeepSeek-OCR，這進一步驗證了所提出的「視覺因果流」編碼器設計的有效性。

實際應用

DeepSeek-OCR 主要面向兩類生產(chǎn)場景：一是為 DeepSeek-LLM 提供圖像 / 文檔讀取能力的在線 OCR 服務，二是用于批量 PDF 處理的預訓練數(shù)據(jù)流水線。在比較了 DeepSeek-OCR 2 與 DeepSeek-OCR 在真實生產(chǎn)環(huán)境中的表現(xiàn)后發(fā)現(xiàn)，由于生產(chǎn)環(huán)境中無法獲得標準答案，因此團隊主要采用「重復率」作為核心質量指標。

如表 4 所示，相比前代模型，DeepSeek-OCR 2 在實際可用性方面有了顯著提升：在在線用戶日志圖像中，重復率從 6.25% 降至 4.17%；在 PDF 數(shù)據(jù)生產(chǎn)場景中，重復率從 3.69% 降至 2.88%。

這些結果進一步驗證了 DeepSeek-OCR 2 架構的有效性，尤其體現(xiàn)了其在邏輯性視覺理解方面的優(yōu)勢。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.