国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek開源全新OCR模型!棄用CLIP改用Qwen輕量小模型

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

剛剛,DeepSeek開源了全新的OCR模型——

DeepSeek-OCR 2,主打?qū)DF文檔精準(zhǔn)轉(zhuǎn)換Markdown。



相較于去年10月20日發(fā)布的初代模型,DeepSeek-OCR 2的核心突破在于打破了傳統(tǒng)模型死板的“光柵掃描”邏輯,實(shí)現(xiàn)了根據(jù)圖像語義動(dòng)態(tài)重排視覺標(biāo)記(Visual Tokens)

為此,DeepSeek-OCR 2棄用了前作中的CLIP組件,轉(zhuǎn)而使用輕量化的語言模型(Qwen2-0.5B)構(gòu)建DeepEncoder V2,在視覺編碼階段就引入了“因果推理”能力。

這一調(diào)整模擬了人類閱讀文檔時(shí)的因果視覺流,使LLM在進(jìn)行內(nèi)容解讀之前,智能地重排視覺標(biāo)記。

性能上,DeepSeek-OCR 2在僅采用輕量模型的前提下,達(dá)到了媲美Gemini-3 Pro的效果。

在OmniDocBench v1.5基準(zhǔn)上,DeepSeek-OCR 2提升了3.73%,并在視覺閱讀邏輯方面取得了顯著進(jìn)展。



值得一提的是,這次最新論文的作者依然是:魏浩然,孫耀峰和李宇琨三人組。




接下來,我們一起來看。

核心更新:DeepEncoder V2

DeepSeek-OCR 2延續(xù)了前代OCR模型的經(jīng)典架構(gòu),由編碼器和解碼器協(xié)同工作。

編碼器負(fù)責(zé)將圖像離散化為視覺標(biāo)記(Visual Tokens),解碼器則結(jié)合這些標(biāo)記與用戶指令生成最終文本輸出。



如論文所說,DeepSeek-OCR 2此次核心的升級在于編碼器——

DeepEncoder V2

傳統(tǒng)的視覺編碼器通常按照固定的“光柵掃描”(從左到右、從上到下)順序處理圖像,這在面對復(fù)雜版面(如雙欄文檔、錯(cuò)落的表格)時(shí),往往會切斷語義的邏輯連貫性。



而DeepEncoder V2這次的更新解決的正是這一問題。

將此前的CLIP組件替換為輕量化的LLM架構(gòu)(Qwen2-0.5B),這一轉(zhuǎn)變賦予了編碼器因果推理能力

信息進(jìn)入主解碼器之前,編碼器就先對視覺標(biāo)記進(jìn)行“智能重排”,使其更符合人類閱讀邏輯。

為了實(shí)現(xiàn)這種智能重排,DeepEncoder V2引入了一種全新的雙流注意力機(jī)制,其底層邏輯通過一個(gè)定制的注意力掩碼(Attention Mask)來約束:



  • 視覺標(biāo)記(Visual Tokens):對應(yīng)掩碼左側(cè)的全1區(qū)域,采用雙向注意力,保留全局建模能力,確保每一個(gè)標(biāo)記都能“看”到整幅圖。
  • 因果流查詢(Causal Flow Queries):對應(yīng)掩碼右邊的三角區(qū)域(LowerTri)。這是附加在視覺標(biāo)記后的可學(xué)習(xí)查詢向量。它們采用因果注意力(即每個(gè)查詢只能關(guān)注之前的查詢及所有視覺標(biāo)記)。

這種設(shè)計(jì)使得視覺標(biāo)記之間互不干擾(保持原始特征),但每一個(gè)查詢標(biāo)記卻被強(qiáng)制要求只能“看到”它之前的標(biāo)記以及所有的視覺標(biāo)記。

相比傳統(tǒng)的交叉注意力結(jié)構(gòu),這確保視覺信息在所有層中都保持“活躍”,從而與因果查詢進(jìn)行深度信息交換。

此外,這實(shí)際上還建立了兩階段級聯(lián)推理,成功彌合了2D空間結(jié)構(gòu)與1D語言建模之間的鴻溝:

  • 第一階段(編碼器):通過查詢進(jìn)行語義重排。
  • 第二階段(解碼器):對有序序列進(jìn)行自回歸推理。

換句話說,在V1中,圖像進(jìn)入LLM時(shí),順序是寫死的。

而在V2中,通過查詢標(biāo)記(Learnable Query)的重排,模型在進(jìn)入主解碼器之前,就已經(jīng)在編碼器內(nèi)部完成了一次“邏輯理順”

其他組件

介紹完DeepEncoder V2的核心升級后,我們來串一下DeepSeek-OCR 2的整體架構(gòu):

首先是一開頭的視覺分詞器(SAM),其沿用了此前的架構(gòu),采用了80M參數(shù)的SAM-base架構(gòu),并結(jié)合兩層卷積層。

輸出維度從前代的1024優(yōu)化縮減至896,以對齊后續(xù)管線,這套分詞器的設(shè)置實(shí)現(xiàn)了16倍的標(biāo)記壓縮

這種基于壓縮的設(shè)計(jì),以極小的參數(shù)開銷,極大地釋放了后續(xù)全局注意力模塊的計(jì)算壓力,讓模型運(yùn)行更輕快。



此外,為了在處理不同分辨率圖像時(shí)“不丟細(xì)節(jié)”,DeepSeek-OCR 2在編碼階段還引入了靈活的裁剪方案:

  • 全局視圖(Global View): 在1024×1024分辨率下,生成256個(gè)查詢標(biāo)記。
  • 局部裁剪(Local Crops): 針對768×768的細(xì)部,每個(gè)裁剪塊對應(yīng)144個(gè)查詢標(biāo)記。

最終輸入LLM的標(biāo)記總數(shù)穩(wěn)定在256到1120之間,與Gemini-1.5 Pro的視覺預(yù)算相匹配。

最后,在后端解碼器部分,DeepSeek-OCR 2保留了3B參數(shù)的MoE結(jié)構(gòu)(實(shí)際激活參數(shù)僅約 500M)。

訓(xùn)練流程與實(shí)驗(yàn)驗(yàn)證

在數(shù)據(jù)策略上,DeepSeek-OCR 2延續(xù)了與前代相同的數(shù)據(jù)源,OCR相關(guān)數(shù)據(jù)占比達(dá)80%。

其關(guān)鍵優(yōu)化點(diǎn)有二:一是采樣均衡化,將正文、公式與表格按3:1:1比例劃分;

二是標(biāo)簽精簡化,合并了如“圖片說明”與“標(biāo)題”等語義相似的布局標(biāo)簽。這種極小的底層差異,確保了其與基準(zhǔn)測試之間具備高度的一致性與可比性。

在訓(xùn)練流程方面,DeepSeek-OCR 2采用了三階段的訓(xùn)練Pipelines:

  • 編碼器預(yù)訓(xùn)練:通過下一標(biāo)記預(yù)測(Next Token Prediction)任務(wù),使編碼器掌握特征提取、壓縮和重排序能力。
  • 查詢增強(qiáng):凍結(jié)視覺分詞器,聯(lián)合優(yōu)化LLM編碼器和解碼器,增強(qiáng)查詢表示。
  • 解碼器微調(diào):凍結(jié)編碼器,僅優(yōu)化解碼器,從而在相同的算力(FLOPs)下實(shí)現(xiàn)更高的數(shù)據(jù)吞吐量。

在實(shí)驗(yàn)階段,DeepSeek-OCR 2主要在OmniDocBench v1.5上進(jìn)行評估,包含1355個(gè)頁面,涵蓋雜志、學(xué)術(shù)論文、研究報(bào)告等9大類文檔。

并與Gemini-3 Pro、Qwen2.5-VL、InternVL3.5等先進(jìn)模型及多種專業(yè)OCR方案進(jìn)行對比 。

如開頭所示,DeepSeek-OCR 2在OmniDocBench v1.5上達(dá)到了91.09%的性能,相比基線提升了3.73%



閱讀順序(R-order)的編輯距離從0.085顯著降至 0.057,證明了 DeepEncoder V2 重新編排視覺信息的能力。

在相似的標(biāo)記預(yù)算(1120)下,DeepSeek-OCR 2的文檔解析編輯距離(0.100)優(yōu)于 Gemini-3 Pro(0.115)。



在實(shí)際生產(chǎn)中,在線用戶日志的重復(fù)率從6.25%降至4.17%,PDF 生產(chǎn)數(shù)據(jù)重復(fù)率從 3.69% 降至 2.88%,證明了模型邏輯視覺理解能力的提升。



整體來看,DeepSeek-OCR 2在保持高壓縮率的同時(shí)實(shí)現(xiàn)了顯著的性能提升驗(yàn)證了使用語言模型架構(gòu)作為視覺編碼器的可行性,這為邁向統(tǒng)一的全模態(tài)編碼器(omni-modal encoder)提供了路徑。

One more thing

這篇論文的三位作者分別是:魏浩然,孫耀峰和李宇琨。

魏浩然曾就職于階躍星辰,當(dāng)時(shí)主導(dǎo)開發(fā)了意在實(shí)現(xiàn)“第二代OCR”的GOT-OCR2.0系統(tǒng)。



孫耀峰本科就讀于北京大學(xué),現(xiàn)于幻方AI從事大語言模型的相關(guān)研究,R1、V3中都有他的身影。



李宇琨,谷歌學(xué)術(shù)論文近萬引研究員,也持續(xù)參與了包括DeepSeek V2/V3在內(nèi)的多款模型研發(fā)。



最后,OCR 2延續(xù)了DeepSeek團(tuán)隊(duì)一貫的開源精神。

項(xiàng)目已在GitHub開源,并同步上線HuggingFace,論文也一并釋出。

GitHub:https://github.com/deepseek-ai/DeepSeek-OCR-2
HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
論文:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
烏軍能否守住紅軍城?不能!

烏軍能否守住紅軍城?不能!

史政先鋒
2025-11-17 16:09:20
要打就打痛!中國手段已升級,日本:中方不批準(zhǔn)駐重慶總領(lǐng)事任命

要打就打痛!中國手段已升級,日本:中方不批準(zhǔn)駐重慶總領(lǐng)事任命

奇思妙想生活家
2026-01-28 15:29:57
北京這兩天發(fā)生的事,比你刷到的熱搜重要多了

北京這兩天發(fā)生的事,比你刷到的熱搜重要多了

大北京范兒
2026-01-28 11:43:30
具俊曄設(shè)計(jì)的大S雕像完工,白色S型非常漂亮,紀(jì)念大S去世一周年

具俊曄設(shè)計(jì)的大S雕像完工,白色S型非常漂亮,紀(jì)念大S去世一周年

阿纂看事
2026-01-28 11:40:11
美軍重兵“合圍”!伊朗兩大幫手將開火反擊,哈梅內(nèi)伊如何抉擇?

美軍重兵“合圍”!伊朗兩大幫手將開火反擊,哈梅內(nèi)伊如何抉擇?

紓瑤
2026-01-27 17:10:08
SpaceX被曝6月IPO:恰逢金木合相及馬斯克生日,估值1.5萬億美元

SpaceX被曝6月IPO:恰逢金木合相及馬斯克生日,估值1.5萬億美元

IT之家
2026-01-28 13:22:07
Mac mini被一夜搶空?Clawdbot,給了蘋果最不想接的潑天富貴……

Mac mini被一夜搶空?Clawdbot,給了蘋果最不想接的潑天富貴……

AI深度科技
2026-01-28 10:55:28
涼森玲夢、未步奈、宮下玲奈、跡美珠里、水端麻美 日本美女明星

涼森玲夢、未步奈、宮下玲奈、跡美珠里、水端麻美 日本美女明星

鹿鹿156
2026-01-28 10:16:00
66歲的黑木瞳保養(yǎng)太好了,看著還像2,30歲!

66歲的黑木瞳保養(yǎng)太好了,看著還像2,30歲!

日本物語
2026-01-27 20:53:05
浙江一男子花2.7萬租女友回家過年,要求對方假裝博士,誰料,進(jìn)門后女孩竟直接給“婆婆”跪下了!

浙江一男子花2.7萬租女友回家過年,要求對方假裝博士,誰料,進(jìn)門后女孩竟直接給“婆婆”跪下了!

LULU生活家
2026-01-27 18:52:18
汪小菲接倆娃回北京,玥兒長高超像大S,打雪仗時(shí)一個(gè)動(dòng)作好暖心

汪小菲接倆娃回北京,玥兒長高超像大S,打雪仗時(shí)一個(gè)動(dòng)作好暖心

樂悠悠娛樂
2026-01-26 15:20:29
《太平年》:為啥沙陀人可以,契丹人不行,馮道給出答案

《太平年》:為啥沙陀人可以,契丹人不行,馮道給出答案

感影的世界
2026-01-28 10:29:07
韓國前第一夫人金建希涉巨額受賄案一審宣判!獲刑1年8個(gè)月

韓國前第一夫人金建希涉巨額受賄案一審宣判!獲刑1年8個(gè)月

南方都市報(bào)
2026-01-28 14:40:06
用鴨肉冒充牛肉 上海一餐飲店被處罰

用鴨肉冒充牛肉 上海一餐飲店被處罰

政法頻道
2026-01-28 09:53:50
鐵血網(wǎng)關(guān)閉始末,青春的陪伴,曾讓我以為殲-8真的可以對抗F-22

鐵血網(wǎng)關(guān)閉始末,青春的陪伴,曾讓我以為殲-8真的可以對抗F-22

干史人
2026-01-18 07:10:03
海外談中國:霹靂-17超遠(yuǎn)程空空導(dǎo)彈首次近距離曝光 攻守之勢易也

海外談中國:霹靂-17超遠(yuǎn)程空空導(dǎo)彈首次近距離曝光 攻守之勢易也

hawk26講武堂
2026-01-28 13:29:04
越來越多球隊(duì),開始想要庫里了....

越來越多球隊(duì),開始想要庫里了....

柚子說球
2026-01-27 19:44:49
收受21名老板現(xiàn)金、黃金、書畫等賄賂,來者不拒、大小通吃!武華太懺悔:“害了家人,害了親屬,害了下屬,害了一大堆人……”

收受21名老板現(xiàn)金、黃金、書畫等賄賂,來者不拒、大小通吃!武華太懺悔:“害了家人,害了親屬,害了下屬,害了一大堆人……”

每日經(jīng)濟(jì)新聞
2026-01-27 18:34:50
1956年,江青赴蘇聯(lián)治病,向接診的醫(yī)生坦言:我和毛澤東同志是政治夫妻

1956年,江青赴蘇聯(lián)治病,向接診的醫(yī)生坦言:我和毛澤東同志是政治夫妻

寄史言志
2026-01-27 10:57:11
湖南開放大學(xué)的龍獻(xiàn)忠出事了,曾在3所高校任職,還有985院校背景

湖南開放大學(xué)的龍獻(xiàn)忠出事了,曾在3所高校任職,還有985院校背景

百家論大學(xué)
2026-01-28 11:24:53
2026-01-28 17:16:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12076文章數(shù) 176367關(guān)注度
往期回顧 全部

科技要聞

它是神也是毒!Clawdbot改名卷入千萬詐騙

頭條要聞

女生曬春運(yùn)"出國回家"攻略:連飛俄兩地再坐船回黑龍江

頭條要聞

女生曬春運(yùn)"出國回家"攻略:連飛俄兩地再坐船回黑龍江

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學(xué)?

娛樂要聞

王祖賢入駐某音:一條7秒視頻吸粉55萬

財(cái)經(jīng)要聞

40倍杠桿斷裂!水貝一黃金平臺兌付困難

汽車要聞

新手必看!冰雪路面不敢開?記住這4點(diǎn) 關(guān)鍵時(shí)刻真能保命

態(tài)度原創(chuàng)

時(shí)尚
手機(jī)
數(shù)碼
藝術(shù)
本地

被章若楠、舒淇帶火的毛衣,這樣穿太時(shí)髦了!

手機(jī)要聞

REDMI Turbo 5系列官宣“搶票模式”:超級島讀秒,還能降低延遲

數(shù)碼要聞

戴爾2026款Dell XPS輕薄本上架官網(wǎng),28127.98元起

藝術(shù)要聞

震撼!19世紀(jì)油畫巨匠的作品美得不可思議!

本地新聞

云游中國|撥開云霧,巫山每幀都是航拍大片

無障礙瀏覽 進(jìn)入關(guān)懷版