国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek開源OCR-2模型,梁文鋒帶隊(duì)探索新架構(gòu)

0
分享至



出品|搜狐科技

作者|常博碩

編輯| 楊 錦

臨近春節(jié),DeepSeek的更新也越來越頻繁了。

剛剛,DeepSeek團(tuán)隊(duì)發(fā)布了論文《DeepSeek-OCR 2:Visual Causal Flow》,并正式開源了DeepSeek-OCR 2模型。論文三位作者分別是魏浩然、孫耀峰和李宇琨。


要讀懂這篇文章,首先要知道的一個(gè)問題就是:啥是OCR?

其實(shí),OCR是光學(xué)字符識(shí)別(Optical Character Recognition)的縮寫,基本思路就是讓計(jì)算機(jī)能看懂圖像中的文字。比如我們把手機(jī)拍攝的發(fā)票、合同掃描件、書籍照片等轉(zhuǎn)換成計(jì)算機(jī)可以編輯和搜索的文字內(nèi)容,這就是OCR。

傳統(tǒng)OCR模型通常遵循掃描式的思路,首先檢測圖像中的文字區(qū)域,再一個(gè)字一個(gè)字或一行一行地識(shí)別,這種固定掃描順序就容易忽略文檔的整體結(jié)構(gòu)。但人不是這樣的,我們?cè)陂喿x復(fù)雜文檔時(shí),通常會(huì)先瀏覽標(biāo)題然后看看段落表格,會(huì)有優(yōu)先級(jí)排序,而不是機(jī)械地從左上到右下掃過頁面。

現(xiàn)在的問題是,當(dāng)文檔結(jié)構(gòu)復(fù)雜到一定程度時(shí),AI就不知道先看哪兒了。像學(xué)術(shù)論文一般是多欄排版,文章中還有公式與正文交錯(cuò)出現(xiàn),技術(shù)報(bào)告中的表格與注釋,報(bào)紙版面等等這些都對(duì)模型提出了超出傳統(tǒng)OCR的要求。

所以,DeepSeek新開源的DeepSeek-OCR 2模型其實(shí)就是為了讓機(jī)器閱讀更像人而設(shè)計(jì)的。


提出視覺因果流

DeepSeek-OCR 2作為新一代視覺語言O(shè)CR模型,核心創(chuàng)新在于提出了視覺因果流(Visual Causal Flow)的編碼器架構(gòu)。

DeepSeek-OCR 2的整體架構(gòu)延續(xù)了DeepSeek-OCR的“編碼器—解碼器”設(shè)計(jì),其中解碼器仍然采用約3B參數(shù)的MoE語言模型,編碼器部分則升級(jí)為DeepEncoder V2。

從論文中看,DeepEncoder V2編碼器通過引入語義驅(qū)動(dòng)的順序重排,使AI能夠根據(jù)圖片內(nèi)容的邏輯順序來處理信息,而不再只是按照固定的柵格順序。


上圖示意了DeepSeek-OCR 2的核心架構(gòu)。左邊為傳統(tǒng)DeepEncoder,使用CLIP視覺模型,右圖為DeepEncoder V2。新的架構(gòu)使用了語言模型作為視覺編碼器(LM as Vision Encoder),并在視覺Token序列后附加了因果查詢(learnable query),用于新的閱讀順序排列。

一個(gè)關(guān)鍵的點(diǎn)在于,DeepSeek-OCR 2使用了語言模型架構(gòu)作為視覺編碼器。

在DeepEncoder V2中,DeepSeek用一個(gè)輕量級(jí)語言模型(Qwen2-500M)取代了傳統(tǒng)的CLIP ViT。這樣做就可以讓模型在視覺編碼階段本身就具備序列建模和因果推理能力,使得其與后續(xù)的語言解碼階段在建模范式上保持一致。

從架構(gòu)上看,DeepSeek-OCR 2并未增加視覺token的數(shù)量,也沒有引入額外的多模態(tài)復(fù)雜結(jié)構(gòu),而是通過注意力掩碼的重新設(shè)計(jì),讓“順序”成為可學(xué)習(xí)的對(duì)象。這使得模型在處理表格、公式、多欄排版等場景時(shí),能夠更自然地恢復(fù)文檔的邏輯結(jié)構(gòu)。

注意力掩碼的設(shè)計(jì)其實(shí)十分有意思。在編碼器中,視覺token與一組新增的因果流查詢token被拼接成一個(gè)統(tǒng)一序列,但兩者在注意力機(jī)制上其實(shí)是非對(duì)稱的。

視覺token之間采用雙向注意力,保持與ViT類似的全局建模能力。而查詢token之間采用嚴(yán)格的因果注意力,每個(gè)query(查詢)只能關(guān)注其之前的query,同時(shí),每個(gè)查詢token都可以訪問所有視覺token。


在這種注意力掩碼的作用下,查詢token被迫以序列化方式逐步聚合視覺信息,其內(nèi)部順序不再由空間坐標(biāo)決定,而是在訓(xùn)練過程中,在語義建模目標(biāo)的驅(qū)動(dòng)下逐步形成更接近人類閱讀邏輯的視覺表示序列。

這種設(shè)計(jì)就和人類閱讀文檔的方式高度相似,首先獲取全局結(jié)構(gòu),隨后在語義理解的引導(dǎo)下,決定接下來該看哪里。


部分表現(xiàn)優(yōu)于Gemini

在OmniDocBench v1.5基準(zhǔn)測試中,DeepSeek-OCR 2在整體準(zhǔn)確率上達(dá)到91.09%,在使用最少視覺token的情況下,較上一代DeepSeek-OCR提升了3.73%。

在衡量閱讀順序(R-order)的指標(biāo)編輯距離(Edit Distance)上,DeepSeek-OCR 2從前代的0.085降低到了0.057,證明了新模型不僅識(shí)別得更準(zhǔn),結(jié)構(gòu)理解能力也發(fā)生了實(shí)質(zhì)變化。

在和Gemini-3 Pro等閉源強(qiáng)模型的對(duì)比中,在均使用約1120個(gè)視覺Token的情況下,DeepSeek-OCR2的文檔解析編輯距離(0.100)也優(yōu)于Gemini-3 Pro(0.115)。

根據(jù)DeepSeek披露的數(shù)據(jù),在真實(shí)用戶日志與PDF批量處理場景中,DeepSeek-OCR 2的重復(fù)輸出率也有了明顯下降。

相比前代模型,DeepSeek-OCR 2在在線用戶日志圖像中,重復(fù)率從6.25%降至4.17%。在PDF數(shù)據(jù)生產(chǎn)場景中,重復(fù)率從3.69%降至2.88%。重復(fù)輸出往往源于模型對(duì)文檔結(jié)構(gòu)理解不充分,導(dǎo)致內(nèi)容會(huì)被多次誤讀,從結(jié)果來看,視覺因果流的引入也有效緩解了這一問題。

如果放在更宏觀一點(diǎn)的角度,其實(shí)DeepSeek-OCR 2還提供了一種新的框架思路,那就是二維視覺理解,是否可以拆解為兩層一維因果推理。在這一框架下,編碼器負(fù)責(zé)怎么讀內(nèi)容,解碼器負(fù)責(zé)如何回答,兩者共同完成對(duì)復(fù)雜視覺內(nèi)容的理解。

這也是DeepSeek在論文最后提出的一個(gè)長期方向——原生多模態(tài)(Native Multimodality)。如果同一套因果查詢機(jī)制可以用于視覺、文本甚至音頻,那么OCR可能只是這一架構(gòu)的起點(diǎn),而不是終點(diǎn)。

正如論文最后所說,雖然光學(xué)文本識(shí)別,特別是文檔解析,是大語言模型時(shí)代最實(shí)用的視覺任務(wù)之一,但它僅占視覺理解領(lǐng)域的一小部分。

展望未來,DeepSeek將向著更通用的多模態(tài)智能繼續(xù)“深度求索”。



運(yùn)營編輯 |曹倩審核|孟莎莎




特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗確認(rèn)哈梅內(nèi)伊遇害,有指定的接班人嗎?對(duì)伊朗局勢(shì)有何影響?

伊朗確認(rèn)哈梅內(nèi)伊遇害,有指定的接班人嗎?對(duì)伊朗局勢(shì)有何影響?

之乎者也小魚兒
2026-03-01 10:28:33
“重大作戰(zhàn)”,要打多久?

“重大作戰(zhàn)”,要打多久?

中國新聞周刊
2026-02-28 20:19:57
河北“二婚黃花大閨女”的瓜

河北“二婚黃花大閨女”的瓜

皮蛋兒電影
2026-02-28 13:45:08
學(xué)費(fèi)太貴!一家長哭訴繳費(fèi)11000多,網(wǎng)友:上私立高中就不要抱怨

學(xué)費(fèi)太貴!一家長哭訴繳費(fèi)11000多,網(wǎng)友:上私立高中就不要抱怨

火山詩話
2026-03-01 12:06:34
伊朗最高領(lǐng)袖和總統(tǒng)目前狀況良好

伊朗最高領(lǐng)袖和總統(tǒng)目前狀況良好

環(huán)球網(wǎng)資訊
2026-02-28 21:46:30
90分鐘就開始反擊!美海軍第五艦隊(duì)總部遭伊朗導(dǎo)彈命中,情況如何

90分鐘就開始反擊!美海軍第五艦隊(duì)總部遭伊朗導(dǎo)彈命中,情況如何

軍武次位面
2026-02-28 18:49:39
震撼中東:美國和以色列是如何精準(zhǔn)“斬首”哈梅內(nèi)伊的?

震撼中東:美國和以色列是如何精準(zhǔn)“斬首”哈梅內(nèi)伊的?

夷門王生
2026-03-01 11:30:26
伊朗足協(xié)主席:“很難期待世界杯了”;伊朗已拿到2026世界杯正賽門票,3場小組賽都在美國的球場踢

伊朗足協(xié)主席:“很難期待世界杯了”;伊朗已拿到2026世界杯正賽門票,3場小組賽都在美國的球場踢

都市快報(bào)橙柿互動(dòng)
2026-03-01 10:38:54
上海電影院現(xiàn)場被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

上海電影院現(xiàn)場被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

天天熱點(diǎn)見聞
2026-03-01 04:39:01
傾家蕩產(chǎn)移居美國,得絕癥回國蹭醫(yī)保,工作人員:外籍人員不報(bào)銷

傾家蕩產(chǎn)移居美國,得絕癥回國蹭醫(yī)保,工作人員:外籍人員不報(bào)銷

涼了時(shí)光人
2026-02-28 17:43:57
“大力神”軍機(jī)墜毀 已致15人死亡 天空下鈔票雨 民眾瘋搶!

“大力神”軍機(jī)墜毀 已致15人死亡 天空下鈔票雨 民眾瘋搶!

每日經(jīng)濟(jì)新聞
2026-02-28 14:37:58
美國襲擊伊朗,低成本無人機(jī)首次在實(shí)戰(zhàn)中亮相,效果顯著

美國襲擊伊朗,低成本無人機(jī)首次在實(shí)戰(zhàn)中亮相,效果顯著

互聯(lián)網(wǎng)大觀
2026-03-01 09:39:31
從國宴到夜宵攤:國產(chǎn)汽水如何從統(tǒng)治者淪為乞丐

從國宴到夜宵攤:國產(chǎn)汽水如何從統(tǒng)治者淪為乞丐

富貴說
2026-02-27 16:40:22
倒計(jì)時(shí)107天!伊朗國難當(dāng)頭威脅退出世界杯 FIFA緊急發(fā)聲

倒計(jì)時(shí)107天!伊朗國難當(dāng)頭威脅退出世界杯 FIFA緊急發(fā)聲

葉青足球世界
2026-03-01 10:21:26
哈梅內(nèi)伊死后,有伊朗人分析:現(xiàn)在還沒到慶祝的時(shí)候

哈梅內(nèi)伊死后,有伊朗人分析:現(xiàn)在還沒到慶祝的時(shí)候

小蘿卜絲
2026-03-01 09:56:11
成龍安排好身后事才2個(gè)月,翁靜晶再曝大瓜,沒給他留一絲體面

成龍安排好身后事才2個(gè)月,翁靜晶再曝大瓜,沒給他留一絲體面

星星沒有你亮
2026-02-28 20:40:21
被美以轟炸后,伊朗民眾為何不慌?甚至在跳舞歡呼慶祝

被美以轟炸后,伊朗民眾為何不慌?甚至在跳舞歡呼慶祝

老馬拉車莫少裝
2026-02-28 22:43:52
蘇翊鳴谷愛凌參加表彰大會(huì)彼此不熟,都挺疲憊,快睡著了眼皮耷拉

蘇翊鳴谷愛凌參加表彰大會(huì)彼此不熟,都挺疲憊,快睡著了眼皮耷拉

樂悠悠娛樂
2026-03-01 10:23:24
特朗普應(yīng)該想不到:他對(duì)伊朗的滅國之戰(zhàn),讓中俄歐看清了一個(gè)真相

特朗普應(yīng)該想不到:他對(duì)伊朗的滅國之戰(zhàn),讓中俄歐看清了一個(gè)真相

頭條爆料007
2026-02-28 18:49:20
43年了,為什么那么多人懷念1983年?

43年了,為什么那么多人懷念1983年?

深度報(bào)
2026-02-28 22:25:37
2026-03-01 12:43:00
搜狐科技 incentive-icons
搜狐科技
搜狐科技官方賬號(hào)
4702文章數(shù) 9180關(guān)注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂部

頭條要聞

伊方:目前用的只是"廢舊導(dǎo)彈" 將展示不可預(yù)見的武器

頭條要聞

伊方:目前用的只是"廢舊導(dǎo)彈" 將展示不可預(yù)見的武器

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

《江山為聘》:吳謹(jǐn)言陳哲遠(yuǎn)燃炸朝堂

財(cái)經(jīng)要聞

中東局勢(shì)升級(jí) 如何影響A股、黃金和原油

汽車要聞

小米汽車2月交付超20000臺(tái) 雷軍:為新SU7量產(chǎn)作準(zhǔn)備

態(tài)度原創(chuàng)

房產(chǎn)
時(shí)尚
家居
親子
本地

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

普通人穿衣不需要太復(fù)雜!顏色恰當(dāng)、搭配和諧,高級(jí)又耐看

家居要聞

素色肌理 品意式格調(diào)

親子要聞

驚!48歲再婚女孕7個(gè)月才知,順產(chǎn)揭秘引關(guān)注!

本地新聞

津南好·四時(shí)總相宜

無障礙瀏覽 進(jìn)入關(guān)懷版