国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek又拿第一!首創(chuàng)「因果流」視覺推理,超越Gemini

0
分享至


來源:新智元

編輯:定慧 好困

【導(dǎo)讀】DeepSeek開源DeepSeek-OCR2,引入了全新的DeepEncoder V2視覺編碼器。該架構(gòu)打破了傳統(tǒng)模型按固定順序(從左上到右下)掃描圖像的限制,轉(zhuǎn)而模仿人類視覺的「因果流(Causal Flow)」邏輯。

DeepSeek又雙叒叕更新了!

這次是DeepSeek-OCR模型的重磅升級(jí):DeepSeek-OCR2


還記得上一代DeepSeek-OCR嗎?那個(gè)用視覺方式壓縮一切的模型。

這一次,DeepSeek更進(jìn)一步,對(duì)視覺編碼器下手了,提出了一種全新的DeepEncoder V2架構(gòu),實(shí)現(xiàn)了視覺編碼從「固定掃描」向「語義推理」的范式轉(zhuǎn)變!


DeepSeek-OCR2不僅能像人類一樣按邏輯順序閱讀復(fù)雜文檔,還在多項(xiàng)基準(zhǔn)測(cè)試中刷新了SOTA。

當(dāng)然,按照DeepSeek的慣例,Paper、Code、Model全開源!


項(xiàng)目地址:

https://github.com/deepseek-ai/DeepSeek-OCR-2

模型下載:

https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

論文地址:

https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

DeepSeek-OCR2的核心創(chuàng)新在于通過DeepEncoder V2,賦予了模型因果推理能力(Causal Reasoning)。

這就像是給機(jī)器裝上了「人類的閱讀邏輯」,讓AI不再只是死板地從左上到右下掃描圖像,而是能根據(jù)內(nèi)容語義靈活調(diào)整閱讀順序。

DeepSeek-OCR2

視覺因果流

DeepSeek在論文中指出,傳統(tǒng)的視覺語言模型(VLM)通常采用光柵掃描(Raster-Scan)順序處理圖像,即固定地從左到右、從上到下。

這種方式強(qiáng)行將2D圖像拍扁成1D序列,忽略了圖像內(nèi)部的語義結(jié)構(gòu)。


這顯然與人類的視覺習(xí)慣背道而馳。

人類在看圖或閱讀文檔時(shí),目光是隨著邏輯流動(dòng)的:先看標(biāo)題,再看正文,遇到表格會(huì)按列或按行掃視,遇到分欄會(huì)自動(dòng)跳躍。

為了解決這個(gè)問題,DeepSeek-OCR2引入了DeepEncoder V2。

它最大的特點(diǎn)是用一個(gè)輕量級(jí)的大語言模型(Qwen2-0.5B)替換了原本的CLIP編碼器,并設(shè)計(jì)了一種獨(dú)特的「因果流查詢」(Causal Flow Query)機(jī)制。

DeepEncoder V2架構(gòu)詳解

DeepEncoder V2主要由兩部分組成:

1. 視覺分詞器(Vision Tokenizer)

沿用了SAM-base(80M參數(shù))加卷積層的設(shè)計(jì),將圖像轉(zhuǎn)換為視覺Token。


2. 作為視覺編碼器的LLM

這里DeepSeek使用了一個(gè)Qwen2-0.5B模型。

它不僅處理視覺Token,還引入了一組可學(xué)習(xí)的「查詢Token」(Query Tokens)。


關(guān)鍵的創(chuàng)新點(diǎn)在于注意力掩碼(Attention Mask)的設(shè)計(jì):


視覺Token之間采用雙向注意力(Bidirectional Attention),保持全局感知能力,類似于ViT。

而查詢Token則采用因果注意力(Causal Attention),每一個(gè)查詢Token只能看到它之前的Token。

通過這種設(shè)計(jì),DeepEncoder V2實(shí)現(xiàn)了兩級(jí)級(jí)聯(lián)的因果推理:

編碼器通過可學(xué)習(xí)的查詢對(duì)視覺Token進(jìn)行語義重排,隨后的LLM解碼器則在這個(gè)有序序列上進(jìn)行自回歸推理。

這意味著,DeepSeek-OCR2在編碼階段就已經(jīng)把圖像里的信息「理順」了,而不是一股腦地扔給解碼器。

Token更少,精度更高

實(shí)驗(yàn)數(shù)據(jù)顯示,DeepSeek-OCR2在保持極高壓縮率的同時(shí),性能顯著提升。

在OmniDocBench v1.5基準(zhǔn)測(cè)試中,DeepSeek-OCR2在使用最少視覺Token(僅256-1120個(gè))的情況下,綜合得分高達(dá)91.09%,相比前代提升了3.73%。


特別值得一提的是,在閱讀順序(R-order)的編輯距離(Edit Distance)指標(biāo)上,DeepSeek-OCR2從前代的0.085顯著降低到了0.057。

這直接證明了新模型在處理復(fù)雜版面時(shí),邏輯性更強(qiáng),更懂「閱讀順序」。

在和Gemini-3 Pro等閉源強(qiáng)模型的對(duì)比中,DeepSeek-OCR2也絲毫不落下風(fēng)。

在均使用約1120個(gè)視覺Token的情況下,DeepSeek-OCR2的文檔解析編輯距離(0.100)優(yōu)于Gemini-3 Pro(0.115)。



不僅是刷榜,DeepSeek-OCR2在實(shí)際生產(chǎn)環(huán)境中也非常能打。

DeepSeek披露,在處理在線用戶日志圖像時(shí),OCR結(jié)果的重復(fù)率從6.25%降到了4.17%;在PDF數(shù)據(jù)生產(chǎn)場(chǎng)景中,重復(fù)率從3.69%降到了2.88%。


這意味著模型生成的文本更加干凈、準(zhǔn)確,對(duì)于作為L(zhǎng)LM訓(xùn)練數(shù)據(jù)的清洗流水線來說,價(jià)值巨大。

邁向真正的多模態(tài)統(tǒng)一

DeepSeek在論文最后提到,DeepSeek-OCR2通過DeepEncoder V2驗(yàn)證了「LLM作為視覺編碼器」的可行性。

這不僅是一個(gè)OCR模型的升級(jí),更是邁向原生多模態(tài)(Native Multimodality)的重要一步。

未來,同一個(gè)編碼器只要配備不同的模態(tài)查詢嵌入(Query Embeddings),就能處理文本、圖片、音頻等多種模態(tài)的數(shù)據(jù),真正實(shí)現(xiàn)萬物皆可Token,萬物皆可因果推理。

DeepSeek表示,雖然目前光學(xué)文本識(shí)別(OCR)是LLM時(shí)代最實(shí)用的視覺任務(wù)之一,但這只是視覺理解宏大圖景的一小部分。

DeepSeek將繼續(xù)探索,向著更通用的多模態(tài)智能進(jìn)發(fā)。

參考資料:

https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問歐米伽研究所的“未來知識(shí)庫”

https://wx.zsxq.com/group/454854145828


未來知識(shí)庫是“ 歐米伽 未來研究所”建立的在線知識(shí)庫平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢(shì)。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
龍洋眼往上瞟,不是看提詞器,也不是針打多了,而是一個(gè)“硬傷”

龍洋眼往上瞟,不是看提詞器,也不是針打多了,而是一個(gè)“硬傷”

她時(shí)尚丫
2026-02-17 22:41:30
越看越上頭!小七寶萌化全網(wǎng),張?zhí)m直言:這娃來的正是好時(shí)候!

越看越上頭!小七寶萌化全網(wǎng),張?zhí)m直言:這娃來的正是好時(shí)候!

樂悠悠娛樂
2026-02-28 15:12:32
上海電影院捉奸后續(xù),女子帶情夫公然出軌,視頻流出高清照片曝光

上海電影院捉奸后續(xù),女子帶情夫公然出軌,視頻流出高清照片曝光

壹月情感
2026-03-02 21:09:52
總的來說,DeepSeek的歷史使命已然落幕!

總的來說,DeepSeek的歷史使命已然落幕!

達(dá)文西看世界
2026-02-14 19:31:04
廣州人注意:明天請(qǐng)?zhí)嵩缫粋€(gè)小時(shí)出門!

廣州人注意:明天請(qǐng)?zhí)嵩缫粋€(gè)小時(shí)出門!

羊城攻略
2026-03-02 23:44:28
美媒感慨:若不是中國(guó)還在反抗特朗普,幾乎全世界都向他投降了

美媒感慨:若不是中國(guó)還在反抗特朗普,幾乎全世界都向他投降了

悅心知足
2026-02-21 23:03:46
這種飲料正在摧毀你的胰島細(xì)胞!很多糖尿病,都和這種飲料有關(guān)!

這種飲料正在摧毀你的胰島細(xì)胞!很多糖尿病,都和這種飲料有關(guān)!

蜉蝣說
2026-01-29 14:46:50
伊朗猛轟迪拜報(bào)復(fù)美以!海灣國(guó)家被迫站隊(duì),美軍事基地壓力驟增!

伊朗猛轟迪拜報(bào)復(fù)美以!海灣國(guó)家被迫站隊(duì),美軍事基地壓力驟增!

深析古今
2026-03-03 03:09:36
2026,買了老小區(qū)的業(yè)主要發(fā)財(cái)了,房齡滿28年以上的老房子有新規(guī)

2026,買了老小區(qū)的業(yè)主要發(fā)財(cái)了,房齡滿28年以上的老房子有新規(guī)

室內(nèi)設(shè)計(jì)師有料兒
2026-03-02 16:35:55
伊朗強(qiáng)援已到!以色列集結(jié)10萬大軍,關(guān)鍵時(shí)刻,普京對(duì)中國(guó)做承諾

伊朗強(qiáng)援已到!以色列集結(jié)10萬大軍,關(guān)鍵時(shí)刻,普京對(duì)中國(guó)做承諾

咣當(dāng)?shù)厍?/span>
2026-03-02 17:00:31
西媒曝曼聯(lián)將簽卡塞米羅接班人,預(yù)算2億歐,托納利標(biāo)價(jià)1.5億英鎊

西媒曝曼聯(lián)將簽卡塞米羅接班人,預(yù)算2億歐,托納利標(biāo)價(jià)1.5億英鎊

夏侯看英超
2026-03-03 02:18:14
外媒:一艘懸掛美國(guó)國(guó)旗油輪遭兩枚炮彈擊中

外媒:一艘懸掛美國(guó)國(guó)旗油輪遭兩枚炮彈擊中

參考消息
2026-03-02 20:53:04
6分鐘19個(gè)導(dǎo)彈連全軍覆沒,82架戰(zhàn)機(jī)被擊落,此戰(zhàn)給我們敲響警鐘

6分鐘19個(gè)導(dǎo)彈連全軍覆沒,82架戰(zhàn)機(jī)被擊落,此戰(zhàn)給我們敲響警鐘

混沌錄
2026-02-04 22:25:03
為拿美國(guó)綠卡,在聯(lián)合國(guó)大樓舉牌抹黑中國(guó)的張曉寧,如今“圓夢(mèng)”

為拿美國(guó)綠卡,在聯(lián)合國(guó)大樓舉牌抹黑中國(guó)的張曉寧,如今“圓夢(mèng)”

嫹筆牂牂
2026-03-02 17:03:39
女足亞洲杯太瘋狂:韓國(guó)3-0制造首個(gè)慘案!中國(guó)隊(duì)衛(wèi)冕首秀5-0起步

女足亞洲杯太瘋狂:韓國(guó)3-0制造首個(gè)慘案!中國(guó)隊(duì)衛(wèi)冕首秀5-0起步

侃球熊弟
2026-03-02 19:10:46
朝鮮人對(duì)中國(guó)人是怎樣的態(tài)度?讓我告訴你真相

朝鮮人對(duì)中國(guó)人是怎樣的態(tài)度?讓我告訴你真相

世界圈
2026-02-24 19:20:21
中美就兩國(guó)元首互動(dòng)保持著溝通

中美就兩國(guó)元首互動(dòng)保持著溝通

北青網(wǎng)-北京青年報(bào)
2026-03-02 15:53:19
美國(guó)打仗最怕什么?張召忠:一旦發(fā)生這2種情況,美軍必然戰(zhàn)敗

美國(guó)打仗最怕什么?張召忠:一旦發(fā)生這2種情況,美軍必然戰(zhàn)敗

聞識(shí)
2026-03-02 07:35:39
來搞笑的?超級(jí)杯花名冊(cè)漏洞百出:照片古早且粗糙,譯名疊詞

來搞笑的?超級(jí)杯花名冊(cè)漏洞百出:照片古早且粗糙,譯名疊詞

懂球帝
2026-03-02 22:29:12
少婦當(dāng)眾脫褲猥褻男子:高顏值照流出,臟臟細(xì)節(jié)披露,警方已介入

少婦當(dāng)眾脫褲猥褻男子:高顏值照流出,臟臟細(xì)節(jié)披露,警方已介入

博士觀察
2026-03-01 14:24:34
2026-03-03 03:55:00
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4555文章數(shù) 37413關(guān)注度
往期回顧 全部

科技要聞

蘋果中國(guó)官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

特朗普:對(duì)伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

頭條要聞

特朗普:對(duì)伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

房產(chǎn)
游戲
親子
數(shù)碼
公開課

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫#钟袝蟊P殺出!

外媒給《寶可夢(mèng)》新作60分:不夠有趣的縫合怪

親子要聞

45歲這年,我這個(gè)二胎媽媽決定做一件“瘋狂”的事

數(shù)碼要聞

高通MWC 2026發(fā)布多項(xiàng)通信技術(shù),定檔2029年開啟6G商用

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版