国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek又拿第一!首創(chuàng)「因果流」視覺推理,超越Gemini

0
分享至


新智元報道

編輯:定慧 好困

【新智元導(dǎo)讀】DeepSeek開源DeepSeek-OCR2,引入了全新的DeepEncoder V2視覺編碼器。該架構(gòu)打破了傳統(tǒng)模型按固定順序(從左上到右下)掃描圖像的限制,轉(zhuǎn)而模仿人類視覺的「因果流(Causal Flow)」邏輯。

DeepSeek又雙叒叕更新了!

這次是DeepSeek-OCR模型的重磅升級:DeepSeek-OCR2。


還記得上一代DeepSeek-OCR嗎?那個用視覺方式壓縮一切的模型。

這一次,DeepSeek更進(jìn)一步,對視覺編碼器下手了,提出了一種全新的DeepEncoder V2架構(gòu),實(shí)現(xiàn)了視覺編碼從「固定掃描」向「語義推理」的范式轉(zhuǎn)變!


DeepSeek-OCR2不僅能像人類一樣按邏輯順序閱讀復(fù)雜文檔,還在多項(xiàng)基準(zhǔn)測試中刷新了SOTA。

當(dāng)然,按照DeepSeek的慣例,Paper、Code、Model全開源!


項(xiàng)目地址:

https://github.com/deepseek-ai/DeepSeek-OCR-2

模型下載:

https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

論文地址:

https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

DeepSeek-OCR2的核心創(chuàng)新在于通過DeepEncoder V2,賦予了模型因果推理能力(Causal Reasoning)。

這就像是給機(jī)器裝上了「人類的閱讀邏輯」,讓AI不再只是死板地從左上到右下掃描圖像,而是能根據(jù)內(nèi)容語義靈活調(diào)整閱讀順序。

DeepSeek-OCR2

視覺因果流

DeepSeek在論文中指出,傳統(tǒng)的視覺語言模型(VLM)通常采用光柵掃描(Raster-Scan)順序處理圖像,即固定地從左到右、從上到下。

這種方式強(qiáng)行將2D圖像拍扁成1D序列,忽略了圖像內(nèi)部的語義結(jié)構(gòu)。


這顯然與人類的視覺習(xí)慣背道而馳。

人類在看圖或閱讀文檔時,目光是隨著邏輯流動的:先看標(biāo)題,再看正文,遇到表格會按列或按行掃視,遇到分欄會自動跳躍。

為了解決這個問題,DeepSeek-OCR2引入了DeepEncoder V2。

它最大的特點(diǎn)是用一個輕量級的大語言模型(Qwen2-0.5B)替換了原本的CLIP編碼器,并設(shè)計了一種獨(dú)特的「因果流查詢」(Causal Flow Query)機(jī)制。

DeepEncoder V2架構(gòu)詳解

DeepEncoder V2主要由兩部分組成:

1. 視覺分詞器(Vision Tokenizer)

沿用了SAM-base(80M參數(shù))加卷積層的設(shè)計,將圖像轉(zhuǎn)換為視覺Token。


2. 作為視覺編碼器的LLM

這里DeepSeek使用了一個Qwen2-0.5B模型。

它不僅處理視覺Token,還引入了一組可學(xué)習(xí)的「查詢Token」(Query Tokens)。


關(guān)鍵的創(chuàng)新點(diǎn)在于注意力掩碼(Attention Mask)的設(shè)計:


視覺Token之間采用雙向注意力(Bidirectional Attention),保持全局感知能力,類似于ViT。

而查詢Token則采用因果注意力(Causal Attention),每一個查詢Token只能看到它之前的Token。

通過這種設(shè)計,DeepEncoder V2實(shí)現(xiàn)了兩級級聯(lián)的因果推理:

編碼器通過可學(xué)習(xí)的查詢對視覺Token進(jìn)行語義重排,隨后的LLM解碼器則在這個有序序列上進(jìn)行自回歸推理。

這意味著,DeepSeek-OCR2在編碼階段就已經(jīng)把圖像里的信息「理順」了,而不是一股腦地扔給解碼器。

Token更少,精度更高

實(shí)驗(yàn)數(shù)據(jù)顯示,DeepSeek-OCR2在保持極高壓縮率的同時,性能顯著提升。

在OmniDocBench v1.5基準(zhǔn)測試中,DeepSeek-OCR2在使用最少視覺Token(僅256-1120個)的情況下,綜合得分高達(dá)91.09%,相比前代提升了3.73%。


特別值得一提的是,在閱讀順序(R-order)的編輯距離(Edit Distance)指標(biāo)上,DeepSeek-OCR2從前代的0.085顯著降低到了0.057。

這直接證明了新模型在處理復(fù)雜版面時,邏輯性更強(qiáng),更懂「閱讀順序」。

在和Gemini-3 Pro等閉源強(qiáng)模型的對比中,DeepSeek-OCR2也絲毫不落下風(fēng)。

在均使用約1120個視覺Token的情況下,DeepSeek-OCR2的文檔解析編輯距離(0.100)優(yōu)于Gemini-3 Pro(0.115)。



不僅是刷榜,DeepSeek-OCR2在實(shí)際生產(chǎn)環(huán)境中也非常能打。

DeepSeek披露,在處理在線用戶日志圖像時,OCR結(jié)果的重復(fù)率從6.25%降到了4.17%;在PDF數(shù)據(jù)生產(chǎn)場景中,重復(fù)率從3.69%降到了2.88%。


這意味著模型生成的文本更加干凈、準(zhǔn)確,對于作為LLM訓(xùn)練數(shù)據(jù)的清洗流水線來說,價值巨大。

邁向真正的多模態(tài)統(tǒng)一

DeepSeek在論文最后提到,DeepSeek-OCR2通過DeepEncoder V2驗(yàn)證了「LLM作為視覺編碼器」的可行性。

這不僅是一個OCR模型的升級,更是邁向原生多模態(tài)(Native Multimodality)的重要一步。

未來,同一個編碼器只要配備不同的模態(tài)查詢嵌入(Query Embeddings),就能處理文本、圖片、音頻等多種模態(tài)的數(shù)據(jù),真正實(shí)現(xiàn)萬物皆可Token,萬物皆可因果推理。

DeepSeek表示,雖然目前光學(xué)文本識別(OCR)是LLM時代最實(shí)用的視覺任務(wù)之一,但這只是視覺理解宏大圖景的一小部分。

DeepSeek將繼續(xù)探索,向著更通用的多模態(tài)智能進(jìn)發(fā)。

參考資料:

https://huggingface.co/deepseek-ai/DeepSeek-OCR-2


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
三峽集團(tuán)云南能源投資有限公司黨委副書記、總經(jīng)理吳長宇接受紀(jì)律審查和監(jiān)察調(diào)查

三峽集團(tuán)云南能源投資有限公司黨委副書記、總經(jīng)理吳長宇接受紀(jì)律審查和監(jiān)察調(diào)查

瀟湘晨報
2026-01-27 17:37:16
“請多指笑”:一個品牌與8600萬用戶的溫柔相守

“請多指笑”:一個品牌與8600萬用戶的溫柔相守

新周刊
2026-01-09 22:16:20
為何歐盟接受了烏克蘭的所有要求?

為何歐盟接受了烏克蘭的所有要求?

高博新視野
2026-01-26 18:43:00
中國常駐聯(lián)合國副代表:日本是“國際秩序破壞者”

中國常駐聯(lián)合國副代表:日本是“國際秩序破壞者”

瀟湘晨報
2026-01-27 16:13:22
55:48,島內(nèi)投票結(jié)果出爐,民進(jìn)黨通知全島,特朗普突然踩剎車

55:48,島內(nèi)投票結(jié)果出爐,民進(jìn)黨通知全島,特朗普突然踩剎車

時時有聊
2026-01-27 07:19:10
深圳爆出1300億騙局,50萬高學(xué)歷傾家蕩產(chǎn),前副市長也深信不疑

深圳爆出1300億騙局,50萬高學(xué)歷傾家蕩產(chǎn),前副市長也深信不疑

鑒史錄
2026-01-27 08:18:01
天呢!一個德國人非議中國教育是對人性的摧殘…

天呢!一個德國人非議中國教育是對人性的摧殘…

慧翔百科
2026-01-26 11:45:53
日本新首相人選正式出爐,對華政策引人關(guān)注

日本新首相人選正式出爐,對華政策引人關(guān)注

風(fēng)干迷茫人
2026-01-26 12:08:00
連遭美國“極限施壓”,加拿大總理卡尼為與中國經(jīng)貿(mào)共識辯護(hù)

連遭美國“極限施壓”,加拿大總理卡尼為與中國經(jīng)貿(mào)共識辯護(hù)

環(huán)球網(wǎng)資訊
2026-01-27 06:46:06
嚯!“性商教母”超大規(guī)格課程手把手教你勾男人令人面紅耳赤

嚯!“性商教母”超大規(guī)格課程手把手教你勾男人令人面紅耳赤

魔都囡
2026-01-27 10:59:04
趙薇、黃有龍和李湘被爆與電詐頭目有關(guān)?剛剛,趙薇本人和李湘前夫?qū)Υ硕歼M(jìn)行了回應(yīng)。

趙薇、黃有龍和李湘被爆與電詐頭目有關(guān)?剛剛,趙薇本人和李湘前夫?qū)Υ硕歼M(jìn)行了回應(yīng)。

貼小君
2026-01-27 10:17:05
“牢A”風(fēng)波最倒霉的不是那幫留學(xué)生和陪讀媽媽!而是某品牌項(xiàng)鏈

“牢A”風(fēng)波最倒霉的不是那幫留學(xué)生和陪讀媽媽!而是某品牌項(xiàng)鏈

火山詩話
2026-01-27 06:17:38
中央批準(zhǔn):省級黨委常委跨省履新!近日,五個省級黨委領(lǐng)導(dǎo)班子調(diào)整

中央批準(zhǔn):省級黨委常委跨省履新!近日,五個省級黨委領(lǐng)導(dǎo)班子調(diào)整

上觀新聞
2026-01-26 22:42:05
一夜之間,2026深圳燃油車的號碼牌又變成“奢侈品”!最低1.6萬

一夜之間,2026深圳燃油車的號碼牌又變成“奢侈品”!最低1.6萬

火山詩話
2026-01-27 14:03:55
徐文海、程用文、雷文潔已任湖北省人大常委會黨組成員

徐文海、程用文、雷文潔已任湖北省人大常委會黨組成員

澎湃新聞
2026-01-27 13:57:11
莫迪宣布:印度和歐盟達(dá)成自由貿(mào)易協(xié)定!歐盟:預(yù)計將使歐盟對印度出口額翻一番!汽車關(guān)稅將從110%降至10%

莫迪宣布:印度和歐盟達(dá)成自由貿(mào)易協(xié)定!歐盟:預(yù)計將使歐盟對印度出口額翻一番!汽車關(guān)稅將從110%降至10%

每日經(jīng)濟(jì)新聞
2026-01-27 16:04:06
多所高校收購商品房作學(xué)生宿舍,湖南發(fā)文推進(jìn)

多所高校收購商品房作學(xué)生宿舍,湖南發(fā)文推進(jìn)

第一財經(jīng)資訊
2026-01-27 16:50:10
性行為缺失會促癌?華中大最新:性行為缺失會削弱抗癌免疫力,保持性行為則有利于抗癌

性行為缺失會促癌?華中大最新:性行為缺失會削弱抗癌免疫力,保持性行為則有利于抗癌

醫(yī)諾維
2026-01-26 17:02:36
李蓓:上月已清倉黃金,未來10至20年不值得投資,持有黃金可能錯失其他重大機(jī)遇

李蓓:上月已清倉黃金,未來10至20年不值得投資,持有黃金可能錯失其他重大機(jī)遇

界面新聞
2026-01-27 16:46:11
平均每人負(fù)債1300萬,書記吳仁寶去世10年后,華西村的現(xiàn)況如何?

平均每人負(fù)債1300萬,書記吳仁寶去世10年后,華西村的現(xiàn)況如何?

哄動一時啊
2026-01-24 21:29:54
2026-01-27 18:11:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14424文章數(shù) 66543關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會講話透露了哪些關(guān)鍵信息

頭條要聞

企業(yè)30年燃?xì)馓卦S權(quán)被單方取消 兩級法院判定政府違法

頭條要聞

企業(yè)30年燃?xì)馓卦S權(quán)被單方取消 兩級法院判定政府違法

體育要聞

帶著母親遺愿戰(zhàn)斗12年,交易添頭成了隊魂

娛樂要聞

張雨綺被曝代孕,春晚被拒,代言跑路

財經(jīng)要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗(yàn)車下線

態(tài)度原創(chuàng)

親子
房產(chǎn)
本地
游戲
公開課

親子要聞

寶藍(lán)和叔叔玩過家家。寶藍(lán)扮演成“大人”照顧扮演“小孩”的叔叔

房產(chǎn)要聞

實(shí)景兌現(xiàn)在即!綠城,在海棠灣重新定義終極旅居想象!

本地新聞

云游中國|撥開云霧,巫山每幀都是航拍大片

LPL春季賽:LNG橫掃UP,繼續(xù)三連勝

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版