国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek-OCR 2重磅發(fā)布:AI學(xué)會(huì)“人類(lèi)視覺(jué)邏輯”,以因果流解讀圖片

0
分享至

DeepSeek發(fā)布新一代光學(xué)字符識(shí)別系統(tǒng),通過(guò)讓AI以類(lèi)似人類(lèi)的邏輯順序理解圖像,在視覺(jué)識(shí)別領(lǐng)域?qū)崿F(xiàn)技術(shù)突破。這一進(jìn)展可能重塑文檔處理、圖表分析等依賴(lài)復(fù)雜視覺(jué)理解的應(yīng)用場(chǎng)景。

27日,DeepSeek發(fā)布了DeepSeek-OCR 2系統(tǒng)。該系統(tǒng)采用名為DeepEncoder V2的新方法,使AI能夠像人類(lèi)一樣按照邏輯順序“看”圖像。這項(xiàng)技術(shù)的核心創(chuàng)新在于改變了傳統(tǒng)AI處理圖像的方式。DeepEncoder V2讓AI基于圖像含義動(dòng)態(tài)重新排列圖像片段,而非傳統(tǒng)的從左到右剛性掃描。這種方法模仿了人類(lèi)追隨場(chǎng)景邏輯流的方式。

根據(jù)DeepSeek公布的技術(shù)報(bào)告,DeepSeek-OCR 2在多項(xiàng)關(guān)鍵指標(biāo)上展現(xiàn)出顯著優(yōu)勢(shì)。在OmniDocBench v1.5基準(zhǔn)測(cè)試中,該模型取得了91.09%的成績(jī),相較于前代DeepSeek-OCR提升了3.73%。

值得注意的是,該模型在保持極高精度的同時(shí),嚴(yán)格控制了計(jì)算成本,其視覺(jué)Token數(shù)量被限制在256至1120之間,這一上限與Google的Gemini-3 Pro保持一致。在實(shí)際生產(chǎn)環(huán)境中,該模型在處理在線用戶(hù)日志和PDF預(yù)訓(xùn)練數(shù)據(jù)時(shí)的重復(fù)率分別下降了2.08%和0.81%,顯示出極高的實(shí)用成熟度。


DeepSeek-OCR 2重磅發(fā)布

模擬人類(lèi)視覺(jué)的“因果流”邏輯

根據(jù)DeepSeek公布的技術(shù)報(bào)告,現(xiàn)有的視覺(jué)語(yǔ)言模型(VLMs)通常采用固定的光柵掃描順序(光柵掃描順序)處理圖像切片,即機(jī)械地從左上角掃描至右下角。DeepSeek團(tuán)隊(duì)指出,這種方式引入了不必要的歸納偏差,與人類(lèi)視覺(jué)感知背道而馳。 人類(lèi)在閱讀復(fù)雜文檔、表格或追蹤螺旋線條時(shí),視線是受語(yǔ)義理解驅(qū)動(dòng)的“因果流”,后一次注視往往因果依賴(lài)于前一次注視,而非單純的空間坐標(biāo)移動(dòng)。

受此認(rèn)知機(jī)制啟發(fā),DeepSeek-OCR 2的核心組件DeepEncoder V2被設(shè)計(jì)用于賦予編碼器因果推理能力。通過(guò)引入可學(xué)習(xí)的“因果流查詢(xún)”(Causal Flow Queries),模型能夠在進(jìn)入LLM解碼器進(jìn)行內(nèi)容解釋之前,先在編碼階段就對(duì)視覺(jué)信息進(jìn)行智能重排序。這實(shí)際上構(gòu)建了一個(gè)兩級(jí)級(jí)聯(lián)的1D因果推理結(jié)構(gòu):首先由編碼器在語(yǔ)義上重組視覺(jué)Token,隨后由解碼器對(duì)有序序列進(jìn)行自回歸推理。 這種設(shè)計(jì)不僅符合光學(xué)文本、表格和公式的非線性布局特征,還有效彌補(bǔ)了2D圖像結(jié)構(gòu)與1D語(yǔ)言建模之間的鴻溝。

棄用CLIP架構(gòu),轉(zhuǎn)向LLM式編碼器

DeepEncoder V2在架構(gòu)上實(shí)施了重大變革,將DeepEncoder中原有的CLIP組件替換為緊湊的LLM式架構(gòu)(具體為Qwen2-0.5B)。為了實(shí)現(xiàn)并行處理,新架構(gòu)引入了一組可學(xué)習(xí)的查詢(xún)向量,稱(chēng)為“因果流Token”,并將原始視覺(jué)Token作為前綴拼接到序列中。

該架構(gòu)采用了一種定制化的注意力掩碼(Attention Mask)策略:

  • 視覺(jué)Token部分:保留雙向注意力機(jī)制,確保模型能夠像CLIP一樣擁有全局感受野,捕捉圖像的整體特征。
  • 因果流Token部分:采用因果注意力機(jī)制(類(lèi)似Decoder-only LLM),每個(gè)查詢(xún)Token只能關(guān)注之前的Token。

通過(guò)這種設(shè)計(jì),視覺(jué)Token保持了信息的全局交互,而因果流Token則獲得了重排序視覺(jué)信息的能力。DeepSeek-OCR 2采用了多裁剪策略(Multi-crop strategy),根據(jù)圖像分辨率不同,最終輸入LLM的重排序視覺(jué)Token總數(shù)在256到1120之間。這一數(shù)量級(jí)顯著低于部分競(jìng)品高達(dá)6000以上的Token消耗,在保證高性能的同時(shí)大幅降低了計(jì)算開(kāi)銷(xiāo)。

性能顯著提升與生產(chǎn)環(huán)境驗(yàn)證

在OmniDocBench v1.5的綜合評(píng)估中,DeepSeek-OCR 2表現(xiàn)優(yōu)異。數(shù)據(jù)顯示,在同樣的訓(xùn)練數(shù)據(jù)源下,新模型相較于DeepSeek-OCR基線模型取得了3.73%的性能提升。特別是在閱讀順序(Reading Order)的編輯距離(Edit Distance)指標(biāo)上,DeepSeek-OCR 2從0.085顯著降低至0.057,這直接驗(yàn)證了DeepEncoder V2在邏輯重排序方面的有效性。

除了基準(zhǔn)測(cè)試,DeepSeek還披露了該模型在實(shí)際生產(chǎn)管線中的表現(xiàn)。DeepSeek-OCR 2主要服務(wù)于DeepSeek-LLMs的在線OCR服務(wù)及PDF預(yù)訓(xùn)練數(shù)據(jù)處理。在沒(méi)有真值(Ground Truth)的生產(chǎn)環(huán)境中,重復(fù)率(Repetition Rate)是衡量質(zhì)量的核心指標(biāo)。數(shù)據(jù)顯示,在處理在線用戶(hù)日志圖像時(shí),DeepSeek-OCR 2將重復(fù)率從6.25%降低至4.17%;在PDF數(shù)據(jù)生產(chǎn)中,重復(fù)率從3.69%降至2.88%。這表明新模型在生成高質(zhì)量、低冗余的文本數(shù)據(jù)方面具備極高的實(shí)用價(jià)值。

通向原生多模態(tài)與真正的2D推理

DeepSeek-OCR 2的發(fā)布不僅是一次OCR性能的升級(jí),更具有深遠(yuǎn)的架構(gòu)探索意義。DeepEncoder V2初步驗(yàn)證了使用語(yǔ)言模型架構(gòu)作為視覺(jué)編碼器的潛力。這種架構(gòu)天然繼承了LLM社區(qū)在基礎(chǔ)設(shè)施優(yōu)化方面的成果,如混合專(zhuān)家(MoE)架構(gòu)和高效注意力機(jī)制。

DeepSeek團(tuán)隊(duì)認(rèn)為,這為邁向統(tǒng)一的全模態(tài)編碼器提供了一條有希望的路徑。未來(lái),單一編碼器可能通過(guò)配置特定模態(tài)的可學(xué)習(xí)查詢(xún),在同一參數(shù)空間內(nèi)實(shí)現(xiàn)對(duì)圖像、音頻和文本的特征提取與壓縮。DeepSeek-OCR 2所展示的“兩個(gè)級(jí)聯(lián)的1D因果推理器”模式,通過(guò)將2D理解分解為“閱讀邏輯推理”和“視覺(jué)任務(wù)推理”兩個(gè)互補(bǔ)子任務(wù),或許代表了實(shí)現(xiàn)真正2D推理的一種突破性架構(gòu)方法。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
委內(nèi)瑞拉再生變!特朗普也沒(méi)想到,當(dāng)初留下這條命,會(huì)有這一天

委內(nèi)瑞拉再生變!特朗普也沒(méi)想到,當(dāng)初留下這條命,會(huì)有這一天

泠泠說(shuō)史
2026-01-27 11:07:32
世體:拉莫斯與塞維就收購(gòu)達(dá)成協(xié)議,未來(lái)幾天將簽署意向書(shū)

世體:拉莫斯與塞維就收購(gòu)達(dá)成協(xié)議,未來(lái)幾天將簽署意向書(shū)

懂球帝
2026-01-26 18:34:39
攤牌了,張?jiān)扑蓻Q心下狠手,讓場(chǎng)均24分超外頂替貝利,焦泊喬受傷

攤牌了,張?jiān)扑蓻Q心下狠手,讓場(chǎng)均24分超外頂替貝利,焦泊喬受傷

體壇小快靈
2026-01-27 11:52:35
全世界都被特朗普耍了!打擊伊朗只是個(gè)幌子,真正目標(biāo)已布局四年

全世界都被特朗普耍了!打擊伊朗只是個(gè)幌子,真正目標(biāo)已布局四年

興史興談
2026-01-27 05:18:52
倫納德夢(mèng)回巔峰破紀(jì)錄,哈登準(zhǔn)三雙,這支球隊(duì)該解散了

倫納德夢(mèng)回巔峰破紀(jì)錄,哈登準(zhǔn)三雙,這支球隊(duì)該解散了

籃球看比賽
2026-01-27 11:56:09
這屆網(wǎng)友太狠了:Clawdbot爆火,狂囤40臺(tái)Mac mini來(lái)跑

這屆網(wǎng)友太狠了:Clawdbot爆火,狂囤40臺(tái)Mac mini來(lái)跑

機(jī)器之心Pro
2026-01-26 11:27:16
幾乎全是假貨!利潤(rùn)高達(dá)2400%,咋消費(fèi)者還前赴后繼爭(zhēng)相購(gòu)買(mǎi)?

幾乎全是假貨!利潤(rùn)高達(dá)2400%,咋消費(fèi)者還前赴后繼爭(zhēng)相購(gòu)買(mǎi)?

奇思妙想草葉君
2026-01-05 23:13:15
黃金與白銀在刷新歷史高點(diǎn)后大幅回調(diào)

黃金與白銀在刷新歷史高點(diǎn)后大幅回調(diào)

每日經(jīng)濟(jì)新聞
2026-01-27 05:38:36
高市一場(chǎng)豪賭,押上首相之位!她萬(wàn)萬(wàn)沒(méi)想到,支持率突然暴跌

高市一場(chǎng)豪賭,押上首相之位!她萬(wàn)萬(wàn)沒(méi)想到,支持率突然暴跌

董董歷史燴
2026-01-27 14:33:02
我出售南京的大平層搬進(jìn)女兒家,女兒以為我睡熟了,跟女婿密謀

我出售南京的大平層搬進(jìn)女兒家,女兒以為我睡熟了,跟女婿密謀

朝暮書(shū)屋
2026-01-21 17:26:45
收評(píng)|上證指數(shù)漲0.18% 芯片產(chǎn)業(yè)鏈走強(qiáng)

收評(píng)|上證指數(shù)漲0.18% 芯片產(chǎn)業(yè)鏈走強(qiáng)

上游新聞
2026-01-27 15:11:05
黎筍之子黎堅(jiān)誠(chéng)坦言:父親選擇同中國(guó)開(kāi)戰(zhàn),是其畢生最大的失策

黎筍之子黎堅(jiān)誠(chéng)坦言:父親選擇同中國(guó)開(kāi)戰(zhàn),是其畢生最大的失策

磊子講史
2025-12-24 11:04:05
向渠道要效率,理想汽車(chē):將關(guān)閉一些能效低的門(mén)店,目前還處于評(píng)估階段

向渠道要效率,理想汽車(chē):將關(guān)閉一些能效低的門(mén)店,目前還處于評(píng)估階段

時(shí)代財(cái)經(jīng)
2026-01-26 22:26:13
全“叛變”了!臺(tái)積電三星兩家巨頭齊轉(zhuǎn)向,外媒:中國(guó)真不買(mǎi)了?

全“叛變”了!臺(tái)積電三星兩家巨頭齊轉(zhuǎn)向,外媒:中國(guó)真不買(mǎi)了?

霽寒飄雪
2026-01-26 19:54:48
北京外賣(mài)小哥被商家刁難,品牌總部發(fā)公告道歉,私下卻攻擊網(wǎng)友

北京外賣(mài)小哥被商家刁難,品牌總部發(fā)公告道歉,私下卻攻擊網(wǎng)友

離離言幾許
2026-01-26 14:37:52
理想員工吐槽李想全員會(huì):一句也聽(tīng)不懂,找羅永浩聊就行了……

理想員工吐槽李想全員會(huì):一句也聽(tīng)不懂,找羅永浩聊就行了……

柴狗夫斯基
2026-01-27 11:05:56
梁洛施不再隱瞞!坦言與李澤楷分手原因,事實(shí)證明,我們都被騙了

梁洛施不再隱瞞!坦言與李澤楷分手原因,事實(shí)證明,我們都被騙了

素衣讀史
2026-01-22 15:21:31
李亞鵬曝光捐贈(zèng)名單,向太發(fā)聲:我捐了幾百萬(wàn),王菲默默支持了幾千萬(wàn),也是不夠的……

李亞鵬曝光捐贈(zèng)名單,向太發(fā)聲:我捐了幾百萬(wàn),王菲默默支持了幾千萬(wàn),也是不夠的……

都市快報(bào)橙柿互動(dòng)
2026-01-24 19:48:42
澳網(wǎng)男單八強(qiáng)全出爐:前8號(hào)種子7人晉級(jí)+05后大滿(mǎn)貫八強(qiáng)第一人

澳網(wǎng)男單八強(qiáng)全出爐:前8號(hào)種子7人晉級(jí)+05后大滿(mǎn)貫八強(qiáng)第一人

全景體育V
2026-01-26 20:43:02
潛伏毛主席身邊3年,因?yàn)橐桓鶡熉娥W?這個(gè)讓周恩來(lái)后怕40年的“特務(wù)之王”,到底什么來(lái)頭?

潛伏毛主席身邊3年,因?yàn)橐桓鶡熉娥W?這個(gè)讓周恩來(lái)后怕40年的“特務(wù)之王”,到底什么來(lái)頭?

文史明鑒
2025-12-12 20:58:10
2026-01-27 16:12:49
華爾街見(jiàn)聞官方 incentive-icons
華爾街見(jiàn)聞官方
中國(guó)領(lǐng)先的金融商業(yè)信息提供商
140747文章數(shù) 2652306關(guān)注度
往期回顧 全部

科技要聞

理想開(kāi)始關(guān)店“過(guò)冬”,否認(rèn)“百家”規(guī)模

頭條要聞

墨西哥被指取消向古巴運(yùn)送原油計(jì)劃

頭條要聞

墨西哥被指取消向古巴運(yùn)送原油計(jì)劃

體育要聞

帶著母親遺愿戰(zhàn)斗12年,交易添頭成了隊(duì)魂

娛樂(lè)要聞

張雨綺被曝代孕,春晚被拒,代言跑路

財(cái)經(jīng)要聞

多地對(duì)壟斷行業(yè)"近親繁殖"出手了

汽車(chē)要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗(yàn)車(chē)下線

態(tài)度原創(chuàng)

本地
藝術(shù)
家居
手機(jī)
游戲

本地新聞

云游中國(guó)|撥開(kāi)云霧,巫山每幀都是航拍大片

藝術(shù)要聞

日本東京國(guó)立博物館中的100幅宋畫(huà)

家居要聞

現(xiàn)代古典 中性又顯韻味

手機(jī)要聞

存儲(chǔ)價(jià)格持續(xù)上漲:部分機(jī)型首銷(xiāo)優(yōu)惠價(jià)沒(méi)了

《看門(mén)狗》系列已死?博主炮轟《軍團(tuán)》毀了IP

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版