国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

剛剛,DeepSeek又探索新架構了,開源OCR 2

0
分享至





機器之心編輯部

嘿!剛剛,DeepSeek 又更新了!

這次是更新了十月份推出的 DeepSeek-OCR 模型(參見:太強了!DeepSeek 剛剛開源新模型,用視覺方式壓縮一切)。

當時 DeepSeek-OCR 的出世,引起了大家對視覺壓縮的關注與討論,而這一次,DeepSeek 對視覺編碼下手了。

可以說,剛剛發(fā)布的 DeepSeek-OCR 2 通過引入 DeepEncoder V2 架構,實現(xiàn)了視覺編碼從「固定掃描」向「語義推理」的范式轉變!

當然,和 DeepSeek 幾乎每次發(fā)布一樣,這一次同樣也是模型和技術報告齊開源。



  • 項目地址:https://github.com/deepseek-ai/DeepSeek-OCR-2
  • 論文地址:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
  • 模型地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

這項研究的三位作者分別是魏浩然、孫耀峰、李宇琨。

具體來說,該研究的核心創(chuàng)新在于將原本基于 CLIP 的編碼器替換為輕量級語言模型(Qwen2-500M),并引入了具有因果注意力機制的「因果流查詢」

這種設計打破了傳統(tǒng)模型必須按從左到右、從上到下的柵格順序處理圖像的限制,賦予了編碼器根據(jù)圖像語義動態(tài)重排視覺 Token 的能力。通過這種兩級級聯(lián)的 1D 因果推理結構(編碼器重排與譯碼器解析),模型能夠更精準地還原復雜文檔(如帶表格、公式和多欄布局)的自然閱讀邏輯。

這就像是為機器裝上了「人類的閱讀邏輯」,讓 AI 不再只是生搬硬套地掃描圖像。對比之下,傳統(tǒng)的 AI 就像一個死板的復印機,不管頁面內容多復雜,都只能從左上角到右下角按行掃描。

在維持極高數(shù)據(jù)壓縮效率的同時,DeepSeek-OCR 2 在多項基準測試和生產(chǎn)指標上均取得了顯著突破。模型僅需 256 到 1120 個視覺 Token 即可覆蓋復雜的文檔頁面,這在同類模型中處于極低水平,顯著降低了下游 LLM 的計算開銷。

在 OmniDocBench v1.5 評測中,其綜合得分達到 91.09%,較前代提升了 3.73%,特別是在閱讀順序識別方面表現(xiàn)出了更強的邏輯性。

此外,在實際生產(chǎn)環(huán)境中,該模型顯著降低了 OCR 識別結果的重復率,并為未來構建統(tǒng)一的 omni-modal(全模態(tài))編碼器提供了可行路徑。是的,未來同一個 AI「大腦」或許能用同樣的方法去處理聲音、視頻等所有模態(tài)的數(shù)據(jù),真正實現(xiàn)多模態(tài)的深度統(tǒng)一。

DeepSeek-OCR 2 架構

如圖 3 所示,DeepSeek-OCR 2 延續(xù)了 DeepSeek-OCR 的整體架構,由編碼器(encoder) 和解碼器(decoder) 組成。編碼器負責將圖像離散化為視覺 token,而解碼器則在這些視覺 token 與文本提示(text prompts)的條件約束下生成輸出。



兩者的關鍵區(qū)別在于編碼器部分:DeepSeek 將原有的 DeepEncoder 升級為 DeepEncoder V2。在完整保留前代能力的基礎上,DeepEncoder V2 通過一種全新的架構設計,引入了因果推理能力(causal reasoning)

DeepEncoder V2

DeepEncoder V2 的第一個組成部分是視覺分詞器(vision tokenizer)。延續(xù)了 DeepEncoder 的設計,DeepSeek 采用了一種由參數(shù)規(guī)模為 8000 萬的 SAM-base 與兩層卷積層組成的架構。相比 DeepEncoder,DeepSeek 將最終卷積層的輸出維度從 1024 降至 896,以與后續(xù)處理流程保持一致。

在 DeepEncoder 中,視覺分詞器之后接入的是一個 CLIP ViT,用于進一步壓縮和建模視覺語義。DeepEncoder V2 對這一組件進行了重新設計,將其改造為一種類 LLM 的架構,并引入了雙流注意力機制(dual-stream attention)。

其中,視覺 token 采用雙向注意力,以保留 CLIP 所具備的全局建模能力;而新引入的因果流查詢(causal flow queries) 則使用因果注意力。這些可學習的查詢 token 被作為后綴追加在視覺 token 之后,每個查詢都可以關注所有視覺 token 以及其之前的查詢 token。通過保持查詢 token 與視覺 token 數(shù)量一致,該設計在不改變 token 總數(shù)的前提下,對視覺特征施加語義上的排序與蒸餾約束。最終,只有因果查詢 token 的輸出會被送入 LLM 解碼器。

從整體上看,該架構實際上構建了一種兩階段級聯(lián)的因果推理機制:首先,編碼器通過可學習查詢對視覺 token 進行語義重排;隨后,LLM 解碼器在這一有序序列之上執(zhí)行自回歸推理。與依賴位置編碼施加剛性空間順序的傳統(tǒng)編碼器不同,這種因果排序查詢能夠更自然地貼合連續(xù)的視覺語義,并與 LLM 的單向注意力模式高度一致。該設計有望在二維空間結構與一維因果語言建模之間搭建起一座橋梁。



為更直觀地展示 DeepEncoder V2 的注意力機制,圖 5 對其注意力掩碼進行了可視化。該注意力掩碼由兩個相互區(qū)分的區(qū)域組成。

左側區(qū)域對原始視覺 token 采用雙向注意力機制(類似于 ViT),使任意 token 都可以與其他所有 token 建立可見性,從而實現(xiàn)完整的全局建模;右側區(qū)域則針對因果流 token 使用因果注意力(三角形掩碼,與純解碼器 LLM 完全一致),其中每個 token 只能關注其之前的 token。



DeepSeek-MoE Decoder

由于 DeepSeek-OCR 2 的改進重點主要集中在編碼器 上,并未對解碼器部分進行升級。遵循這一設計原則,模型繼續(xù)沿用 DeepSeek-OCR 的解碼器 —— 一個參數(shù)規(guī)模為 30 億的 MoE 結構,其中約 5 億參數(shù)在推理時處于激活狀態(tài)。

訓練數(shù)據(jù)與訓練流程

在數(shù)據(jù)層面,DeepSeek-OCR 2 沿用了與 DeepSeek-OCR 相同的數(shù)據(jù)源,由 OCR 1.0、OCR 2.0 以及通用視覺數(shù)據(jù)組成,其中 OCR 數(shù)據(jù)占混合訓練數(shù)據(jù)的 80%。同時引入了以下兩項改進:

  • 針對 OCR 1.0 數(shù)據(jù)采用了更均衡的采樣策略,并按內容類型(正文、公式和表格)以 3:1:1 的比例對頁面進行劃分;
  • 通過合并語義相似的類別(例如統(tǒng)一「插圖說明」和「插圖標題」)來優(yōu)化布局檢測的標簽。

在訓練階段,DeepSeek-OCR 2 主要分為三個階段來完成:(1)編碼器預訓練;(2)查詢增強;(3)解碼器專門化

其中第一階段使視覺分詞器(tokenizer)和 LLM 風格的編碼器獲得特征提取、token 壓縮和 token 重排的基礎能力。第二階段進一步加強編碼器的 token 重排能力,同時增強了視覺知識的壓縮。第三階段凍結編碼器參數(shù),僅優(yōu)化解碼器,從而在相同的 FLOPs 下實現(xiàn)更高的數(shù)據(jù)吞吐量。

接著來看細節(jié)。

首先是訓練 DeepEncoder V2。遵循 DeepSeek-OCR 和 Vary 的方法,使用語言建模目標來訓練 DeepEncoder V2,將編碼器與輕量級解碼器耦合,通過預測下一個 token 進行聯(lián)合優(yōu)化。采用了 768×768 和 1024×1024 兩種分辨率的數(shù)據(jù)加載器。視覺分詞器初始化自 DeepEncoder,LLM 風格的編碼器則初始化自 Qwen2-0.5B-base。預訓練完成后,僅保留編碼器參數(shù)用于后續(xù)階段。

本階段使用 AdamW 優(yōu)化器,學習率采用余弦退火,從 1e-4 降至 1e-6,在 160 臺 A100 GPU(20 個節(jié)點 × 8 臺 GPU)上以 640 的批大小訓練 40k 次迭代(采用長度為 8K 的序列打包,約包含 1 億個圖文對樣本)。

其次是查詢增強。在 DeepEncoder V2 預訓練之后,將其與 DeepSeek-3B-A500M 整合為最終的流水線。凍結視覺分詞器(SAM-conv 結構),并聯(lián)合優(yōu)化 LLM 編碼器和 LLM 解碼器以增強查詢表示。本階段通過多裁剪策略將兩種分辨率統(tǒng)一到單個數(shù)據(jù)加載器中。此外采用 4 階段流水線并行:視覺分詞器(PP0)、LLM 風格編碼器(PP1)以及 DeepSeek-LLM 層(PP2-3 每階段 6 層)。

本階段利用 160 臺 GPU(每臺 40GB 顯存),配置了 40 個數(shù)據(jù)并行副本(每個副本 4 臺 GPU),過程中使用相同的優(yōu)化器,以 1280 的全局批大小進行訓練,學習率在 15k 次迭代中從 5e-5 退火至 1e-6。

最后是LLM 持續(xù)訓練。為了快速消耗訓練數(shù)據(jù),本階段凍結 DeepEncoder V2 的所有參數(shù),僅更新 DeepSeek-LLM 的參數(shù)。本階段加速了訓練(在相同全局批大小下,訓練速度提升了一倍多),同時有助于 LLM 更好地理解 DeepEncoder V2 重排后的視覺 token。

承接第二階段,本階段進行了另一次學習率退火,從 1e-6 降至 5e-8,共訓練 20k 次迭代。

評估結果

團隊選用 OmniDocBench v1.5 作為主要評測基準,該基準包含 1355 頁文檔,覆蓋中英文兩種語言的 9 大主要類別,包括雜志、學術論文、研究報告等。憑借其多樣化的測試樣本與嚴格的評測標準,OmniDocBench 為驗證 DeepSeek-OCR 2 的整體性能,尤其是 DeepEncoder V2 的有效性,提供了一個可靠有效的平臺。

如表 1 所示,在使用最小視覺 token 上限(的情況下,DeepSeek-OCR 2 仍取得了 91.09% 的領先性能。與 DeepSeek-OCR 基線模型相比,在采用相似訓練數(shù)據(jù)來源的前提下,其性能提升了 3.73%,驗證了新設計架構的有效性。



此外,除了整體性能提升,閱讀順序(R-order)指標上的編輯距離(Edit Distance,ED)也顯著下降,從 0.085 降至 0.057。這表明,新的 DeepEncoder V2 能夠根據(jù)圖像信息更有效地選擇并排列初始視覺 token。

進一步如表 2 所示,在相同的視覺 token 預算(1120)條件下,DeepSeek-OCR 2 在文檔解析任務中的 ED(0.100)低于 Gemini-3 Pro(0.115)。這進一步證明了新模型在保持高視覺 token 壓縮率的同時,仍能確保更優(yōu)的性能,并展現(xiàn)出極高的潛力。



改進空間

團隊在 9 種文檔類型上,對 DeepSeek-OCR 與 DeepSeek-OCR 2 進行了細致的性能對比,結果表明:DeepSeek-OCR 2 仍具有較大的提升空間,如表 3 所示。在文本識別的編輯距離(ED)指標上,DeepSeek-OCR 2 在大多數(shù)場景中優(yōu)于 DeepSeek-OCR,但在某些類型上仍存在明顯不足,例如報紙類文檔,其 ED 超過 0.13。



團隊認為主要原因有兩點:

  • 視覺 token 上限較低,可能影響了文本極為密集的報紙類文檔識別效果,這一問題可在未來通過增加局部裁剪(local crops)的數(shù)量來緩解;
  • 報紙類數(shù)據(jù)不足 —— 當前訓練集中僅包含約 25 萬條相關樣本,這對于訓練 DeepEncoder V2 來說仍然不夠充分。

當然,在閱讀順序(R-order)這一指標上,DeepSeek-OCR 2 在所有類別中始終優(yōu)于 DeepSeek-OCR,這進一步驗證了所提出的「視覺因果流」編碼器設計的有效性。

實際應用

DeepSeek-OCR 主要面向兩類生產(chǎn)場景:一是為 DeepSeek-LLM 提供圖像 / 文檔讀取能力的在線 OCR 服務,二是用于批量 PDF 處理的預訓練數(shù)據(jù)流水線。在比較了 DeepSeek-OCR 2 與 DeepSeek-OCR 在真實生產(chǎn)環(huán)境中的表現(xiàn)后發(fā)現(xiàn),由于生產(chǎn)環(huán)境中無法獲得標準答案,因此團隊主要采用「重復率」作為核心質量指標。

如表 4 所示,相比前代模型,DeepSeek-OCR 2 在實際可用性方面有了顯著提升:在在線用戶日志圖像中,重復率從 6.25% 降至 4.17%;在 PDF 數(shù)據(jù)生產(chǎn)場景中,重復率從 3.69% 降至 2.88%。



這些結果進一步驗證了 DeepSeek-OCR 2 架構的有效性,尤其體現(xiàn)了其在邏輯性視覺理解方面的優(yōu)勢。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
長沙18元到廣州,桂林5.5元到永州?有一種票價優(yōu)惠叫“反向春運”

長沙18元到廣州,桂林5.5元到永州?有一種票價優(yōu)惠叫“反向春運”

環(huán)球網(wǎng)資訊
2026-01-27 15:41:13
廣州一乘客羊城通欠費1400萬元? 嶺南通公司回應

廣州一乘客羊城通欠費1400萬元? 嶺南通公司回應

深圳晚報
2026-01-27 10:15:25
為何歐盟接受了烏克蘭的所有要求?

為何歐盟接受了烏克蘭的所有要求?

高博新視野
2026-01-26 18:43:00
中央批準:省級黨委常委跨省履新!近日,五個省級黨委領導班子調整

中央批準:省級黨委常委跨省履新!近日,五個省級黨委領導班子調整

上觀新聞
2026-01-26 22:42:05
在喧囂中,看見另一種造車邏輯

在喧囂中,看見另一種造車邏輯

晚點LatePost
2026-01-26 11:15:55
中央考核巡查組專家,現(xiàn)場拆穿負責人狡辯

中央考核巡查組專家,現(xiàn)場拆穿負責人狡辯

新京報政事兒
2026-01-27 10:56:56
航班大量取消!超市貨架拿空!不少中國網(wǎng)友發(fā)文稱滯留日本,“簡直是災難”…...

航班大量取消!超市貨架拿空!不少中國網(wǎng)友發(fā)文稱滯留日本,“簡直是災難”…...

魯中晨報
2026-01-27 09:19:48
這一次,公開拒絕“四大天王”合體的張學友,沒給F4留一絲體面

這一次,公開拒絕“四大天王”合體的張學友,沒給F4留一絲體面

白面書誏
2026-01-26 20:02:20
退臟衣女記者社死!囂張丟了鐵飯碗,商家硬剛到底,勢力大也沒用

退臟衣女記者社死!囂張丟了鐵飯碗,商家硬剛到底,勢力大也沒用

離離言幾許
2026-01-26 10:48:59
好消息:工業(yè)利潤三年來首次增長;壞消息:都是外企賺的

好消息:工業(yè)利潤三年來首次增長;壞消息:都是外企賺的

凱利經(jīng)濟觀察
2026-01-27 11:55:10
深圳爆出1300億騙局,50萬高學歷傾家蕩產(chǎn),前副市長也深信不疑

深圳爆出1300億騙局,50萬高學歷傾家蕩產(chǎn),前副市長也深信不疑

鑒史錄
2026-01-27 08:18:01
“繼承權”無需再爭!2026新規(guī)落地:父母房產(chǎn)按“這些規(guī)則”處理

“繼承權”無需再爭!2026新規(guī)落地:父母房產(chǎn)按“這些規(guī)則”處理

復轉這些年
2026-01-27 03:00:03
楊鳴下課最新下家曝光,爆料兩大頂級強隊瘋狂追逐

楊鳴下課最新下家曝光,爆料兩大頂級強隊瘋狂追逐

宗介說體育
2026-01-27 11:58:45
172:199,日本選舉殺出黑馬,新首相浮現(xiàn)?對華態(tài)度成最大看點

172:199,日本選舉殺出黑馬,新首相浮現(xiàn)?對華態(tài)度成最大看點

面包夾知識
2026-01-27 11:45:52
牢A回國后,“大瓜”一個比一個勁爆,他火下去是好是壞?

牢A回國后,“大瓜”一個比一個勁爆,他火下去是好是壞?

文字里拾光
2026-01-26 19:36:46
解放軍上將在京不幸去世:立戰(zhàn)功、扳倒谷俊山,其親弟弟身份曝光

解放軍上將在京不幸去世:立戰(zhàn)功、扳倒谷俊山,其親弟弟身份曝光

博士觀察
2026-01-27 14:10:13
“網(wǎng)紅小胖”:曾參演《愛情公寓》等電視劇,如今已結婚生子,回歸正常家庭生活

“網(wǎng)紅小胖”:曾參演《愛情公寓》等電視劇,如今已結婚生子,回歸正常家庭生活

大風新聞
2026-01-27 10:52:13
李湘前夫發(fā)聲,有五個點讓人覺得很詭異!

李湘前夫發(fā)聲,有五個點讓人覺得很詭異!

麥杰遜
2026-01-27 13:06:01
駐日武官王慶簡:為日本潛伏20年出賣軍事機密,因一動作暴露身份

駐日武官王慶簡:為日本潛伏20年出賣軍事機密,因一動作暴露身份

古書記史
2026-01-27 00:30:48
55:48,島內投票結果出爐,民進黨通知全島,特朗普突然踩剎車

55:48,島內投票結果出爐,民進黨通知全島,特朗普突然踩剎車

時時有聊
2026-01-27 07:19:10
2026-01-27 16:15:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12200文章數(shù) 142551關注度
往期回顧 全部

科技要聞

理想開始關店“過冬”,否認“百家”規(guī)模

頭條要聞

墨西哥被指取消向古巴運送原油計劃

頭條要聞

墨西哥被指取消向古巴運送原油計劃

體育要聞

帶著母親遺愿戰(zhàn)斗12年,交易添頭成了隊魂

娛樂要聞

張雨綺被曝代孕,春晚被拒,代言跑路

財經(jīng)要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

態(tài)度原創(chuàng)

時尚
健康
本地
親子
數(shù)碼

降溫了!羽絨服這樣穿顯瘦又時髦

耳石脫落為何讓人天旋地轉+惡心?

本地新聞

云游中國|撥開云霧,巫山每幀都是航拍大片

親子要聞

定了!南通中小學幼兒園寒假通知!

數(shù)碼要聞

高顏值銀白刀鋒!微星MPG B850M EDGE TI MAX WIFI圖賞

無障礙瀏覽 進入關懷版