国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek最新王炸模型:VLM架構(gòu)重磅突破,AI像人一樣讀圖

0
分享至


智東西
作者 陳駿達(dá)
編輯 云鵬

智東西1月27日?qǐng)?bào)道,剛剛,DeepSeek開源了其面向OCR場景的專用模型DeepSeek-OCR 2,技術(shù)報(bào)告同步發(fā)布。這一模型是對(duì)去年DeepSeek-OCR模型的升級(jí),其采用的新型解碼器讓模型看圖、讀文件的順序更像人,而不是像機(jī)械的掃描儀。

簡單來說,以前的模型閱讀模式是從左上到右下,地毯式掃一遍圖片,DeepSeek-OCR 2則能夠理解結(jié)構(gòu),按結(jié)構(gòu)一步步讀。這種新的視覺理解模式,讓DeepSeek-OCR 2可以更好地理解復(fù)雜的布局順序、公式和表格。

在文檔理解基準(zhǔn)測試OmniDocBench v1.5上,DeepSeek-OCR 2拿到了91.09%的得分,在訓(xùn)練數(shù)據(jù)和編碼器都不變的前提下,較DeepSeek-OCR提升了3.73%。與其他端到端的OCR模型相比,這已經(jīng)是SOTA成績,但其表現(xiàn)要略遜于百度的PaddleOCR-VL(92.86%)OCR管線。


同時(shí),在相似的視覺token預(yù)算下,DeepSeek-OCR 2在文檔解析方面的編輯距離(編輯為正確文本所需的工作量)低于Gemini-3 Pro,這證明DeepSeek-OCR 2在確保優(yōu)越性能的同時(shí)保持了視覺token的高壓縮率。

DeepSeek-OCR 2兼具雙重價(jià)值:既可作為新型VLM(視覺語言模型)架構(gòu)進(jìn)行探索性研究,也能作為生成高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)的實(shí)用工具,服務(wù)于大語言模型的訓(xùn)練過程。

論文鏈接:

https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

開源地址:

https://github.com/deepseek-ai/DeepSeek-OCR-2?tab=readme-ov-file

一、大模型不懂復(fù)雜文件結(jié)構(gòu)?先觀察全局再閱讀便可解決

從架構(gòu)上來看,DeepSeek-OCR 2繼承了DeepSeek-OCR的整體架構(gòu),該架構(gòu)由編碼器和解碼器組成。編碼器將圖像離散化為視覺token,而解碼器根據(jù)這些視覺token和文本提示生成輸出。

關(guān)鍵區(qū)別在于編碼器:DeepSeek將此前的DeepEncoder升級(jí)為DeepEncoder V2,它保留了原有的所有能力,但把原本基于CLIP的編碼器換成基于LLM的,同時(shí)通過新的架構(gòu)設(shè)計(jì)引入了因果推理。


DeepEncoder V2關(guān)注的核心問題在于:當(dāng)二維結(jié)構(gòu)被映射為一維序列并綁定線性順序后,模型在建??臻g關(guān)系時(shí)不可避免地受到該順序的影響。

這在自然圖像中可能尚可接受,但在OCR、表格、表單等具有復(fù)雜布局的場景中,線性順序往往與真實(shí)的語義組織方式嚴(yán)重不匹配,從而限制模型對(duì)視覺結(jié)構(gòu)的表達(dá)能力。

DeepEncoder V2是如何緩解這一問題的?它首先采用視覺tokenizer對(duì)圖像進(jìn)行高效表示,通過窗口注意力實(shí)現(xiàn)約16倍的token壓縮,在顯著降低后續(xù)全局注意力計(jì)算與顯存開銷的同時(shí),保持了充分的局部與中尺度視覺信息。

它并未依賴位置編碼來規(guī)定視覺token的語義順序,而是引入因果流查詢(causal queries),通過內(nèi)容感知的方式對(duì)視覺標(biāo)記進(jìn)行重排序與蒸餾。這種順序不是由空間展開規(guī)則決定,而是由模型在觀察全局視覺上下文后逐步生成,從而避免了對(duì)固定一維順序的強(qiáng)依賴。

每個(gè)因果查詢可以關(guān)注所有視覺token及先前查詢,從而在保持token數(shù)量不變的前提下,對(duì)視覺特征進(jìn)行語義重排序與信息蒸餾。最終,僅因果查詢的輸出被送入下游LLM解碼器。

該設(shè)計(jì)本質(zhì)上形成了兩級(jí)級(jí)聯(lián)的因果推理過程:首先,編碼器內(nèi)部通過因果查詢對(duì)無序的視覺標(biāo)記進(jìn)行語義排序。隨后,LLM解碼器在此有序序列上執(zhí)行自回歸推理。

相較于通過位置編碼強(qiáng)制施加空間順序的做法,因果查詢所誘導(dǎo)的順序更貼合視覺語義本身,也就是符合人類閱讀內(nèi)容的正常習(xí)慣。

由于DeepSeek-OCR 2主要關(guān)注編碼器改進(jìn),沒有對(duì)解碼器組件進(jìn)行升級(jí)。遵循這一設(shè)計(jì)原則,DeepSeek保留了DeepSeek-OCR的解碼器:一個(gè)具有約5億活躍參數(shù)的3B參數(shù)MoE結(jié)構(gòu)。

二、OmniDocBench得分達(dá)91.09%,編輯距離低于Gemini-3 Pro

為了驗(yàn)證上述設(shè)計(jì)的有效性,DeepSeek進(jìn)行了實(shí)驗(yàn)。研究團(tuán)隊(duì)分三個(gè)階段訓(xùn)練DeepSeek-OCR 2:編碼器預(yù)訓(xùn)練、查詢?cè)鰪?qiáng)和解碼器專業(yè)化。

第一階段使視覺tokenizer和LLM風(fēng)格的編碼器獲得特征提取、token壓縮和token重排序的基本能力。第二階段進(jìn)一步增強(qiáng)了編碼器的token重排序能力,同時(shí)增強(qiáng)了視覺知識(shí)壓縮。第三階段凍結(jié)編碼器參數(shù),僅優(yōu)化解碼器,從而在相同的FLOPs下實(shí)現(xiàn)更高的數(shù)據(jù)吞吐量。

為評(píng)估模型效果,DeepSeek選擇OmniDocBench v1.5作為主要的評(píng)估基準(zhǔn)。該基準(zhǔn)包含1355個(gè)文檔頁面,涵蓋中英文的9個(gè)主要類別(包括雜志、學(xué)術(shù)論文、研究報(bào)告等)。

DeepSeek-OCR 2在僅使用最小的視覺標(biāo)記上限(V-token maxmax)的情況下,達(dá)到了91.09%的性能。與DeepSeek-OCR基線相比,在相似的訓(xùn)練數(shù)據(jù)源下,它表現(xiàn)出3.73%的改進(jìn),驗(yàn)證了新架構(gòu)的有效性。

除了整體改進(jìn)外,閱讀順序(R-order)的編輯距離(ED)也顯著下降(從0.085降至0.057),這表明新的DeepEncoder V2可以根據(jù)圖像信息有效地選擇和排列初始視覺標(biāo)記。

在相似的視覺標(biāo)記預(yù)算(1120)下,DeepSeek-OCR 2(0.100)在文檔解析方面的編輯距離低于Gemini-3 Pro(0.115),進(jìn)一步證明新模型在確保性能的同時(shí)保持了視覺標(biāo)記的高壓縮率。


不過,DeepSeek-OCR 2也不是全能的。在文本密度超高的報(bào)紙上,DeepSeek-OCR 2識(shí)別效果沒有其他類型的文本好。這一問題后續(xù)可以通過增加局部裁剪數(shù)量來解決,或者在訓(xùn)練過程中提供更多的樣本。

結(jié)語:或成新型VLM架構(gòu)開端

DeepEncoder V2為LLM風(fēng)格編碼器在視覺任務(wù)上的可行性提供了初步驗(yàn)證。更重要的是,DeepSeek的研究團(tuán)隊(duì)認(rèn)為,該架構(gòu)具有演變?yōu)榻y(tǒng)一全模態(tài)編碼器的潛力。這樣的編碼器可以在同一參數(shù)空間內(nèi)壓縮文本、提取語音特征和重組視覺內(nèi)容。

DeepSeek稱,DeepSeek-OCR的光學(xué)壓縮代表了向原生多模態(tài)的初步探索,未來,他們還將繼續(xù)探索通過這種共享編碼器框架集成額外模態(tài),成為研究探索的新型VLM架構(gòu)的開端。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
小鼠研究表明,挖鼻孔與阿爾茨海默病之間存在令人驚訝的聯(lián)系

小鼠研究表明,挖鼻孔與阿爾茨海默病之間存在令人驚訝的聯(lián)系

心中的麥田
2026-01-21 20:18:15
投資20億!同程中心總部大廈開工,蘇州未來新地標(biāo)!

投資20億!同程中心總部大廈開工,蘇州未來新地標(biāo)!

GA環(huán)球建筑
2026-01-26 18:02:24
大清名將海蘭察:生吃動(dòng)物,只喜胖婦,行軍中直接用水牛解壓

大清名將海蘭察:生吃動(dòng)物,只喜胖婦,行軍中直接用水牛解壓

銘記歷史呀
2026-01-26 19:56:20
內(nèi)幕來了!中國雷達(dá)被正名,美媒:美軍向委內(nèi)瑞拉投下電磁脈沖彈

內(nèi)幕來了!中國雷達(dá)被正名,美媒:美軍向委內(nèi)瑞拉投下電磁脈沖彈

安珈使者啊
2026-01-26 16:20:59
終于來了,英國首相啟程訪華,登機(jī)前說了2句話,特朗普怕啥來啥

終于來了,英國首相啟程訪華,登機(jī)前說了2句話,特朗普怕啥來啥

史料布籍
2026-01-27 18:15:10
開國上將許世友之孫:中國首位火箭軍女博士,長相俊美,為人低調(diào)

開國上將許世友之孫:中國首位火箭軍女博士,長相俊美,為人低調(diào)

文史達(dá)觀
2026-01-15 14:50:48
你以為干凈,但實(shí)際卻很臟的9大生活習(xí)慣,大病小病就是這么來的

你以為干凈,但實(shí)際卻很臟的9大生活習(xí)慣,大病小病就是這么來的

室內(nèi)設(shè)計(jì)師有料兒
2026-01-26 18:54:48
不查不知道一查嚇一跳,坐擁北京60畝馬場的于謙,私下到底有多壕

不查不知道一查嚇一跳,坐擁北京60畝馬場的于謙,私下到底有多壕

小熊侃史
2026-01-20 07:40:05
無疫苗、無特效藥!致命病毒擴(kuò)散,多地重啟“新冠級(jí)”防疫與隔離

無疫苗、無特效藥!致命病毒擴(kuò)散,多地重啟“新冠級(jí)”防疫與隔離

北國向錫安
2026-01-27 09:51:11
沖上熱搜!“昨天剛買,今天就降價(jià)2000元”,iPhone Air大降價(jià),很多人破防:離譜

沖上熱搜!“昨天剛買,今天就降價(jià)2000元”,iPhone Air大降價(jià),很多人破防:離譜

大風(fēng)新聞
2026-01-27 08:14:16
事發(fā)上海!雇主離世僅12分鐘,保姆就陸續(xù)轉(zhuǎn)走銀行卡內(nèi)50萬元現(xiàn)金,還變賣玉器

事發(fā)上海!雇主離世僅12分鐘,保姆就陸續(xù)轉(zhuǎn)走銀行卡內(nèi)50萬元現(xiàn)金,還變賣玉器

新民晚報(bào)
2026-01-26 14:44:31
1996年, 施瓦辛格在家中無事,和35歲200斤女傭發(fā)生不當(dāng)關(guān)系

1996年, 施瓦辛格在家中無事,和35歲200斤女傭發(fā)生不當(dāng)關(guān)系

南權(quán)先生
2026-01-20 15:49:53
重磅!總投資9600億元,海南2026年重大項(xiàng)目清單曝光!

重磅!總投資9600億元,海南2026年重大項(xiàng)目清單曝光!

網(wǎng)易海南房產(chǎn)
2026-01-27 10:14:35
沉默24小時(shí)后,卡尼終于發(fā)聲,否認(rèn)與中國簽協(xié)議,美財(cái)長得寸進(jìn)尺

沉默24小時(shí)后,卡尼終于發(fā)聲,否認(rèn)與中國簽協(xié)議,美財(cái)長得寸進(jìn)尺

肖茲探秘說
2026-01-27 18:25:23
國家下狠手了!體制內(nèi)大地震,少爺、公主們的“天”,要塌了

國家下狠手了!體制內(nèi)大地震,少爺、公主們的“天”,要塌了

霹靂炮
2026-01-19 22:24:13
事業(yè)巔峰遠(yuǎn)赴美國,被老外“玩膩”后晚年回國,如今變成了這樣!

事業(yè)巔峰遠(yuǎn)赴美國,被老外“玩膩”后晚年回國,如今變成了這樣!

小熊侃史
2026-01-27 07:20:07
簡直不敢相信,莫言竟將日本侵華戰(zhàn)爭比作“兄弟爭奪家產(chǎn)”

簡直不敢相信,莫言竟將日本侵華戰(zhàn)爭比作“兄弟爭奪家產(chǎn)”

雪中風(fēng)車
2026-01-18 17:08:39
54年來首次,日本國內(nèi)沒有大熊貓了

54年來首次,日本國內(nèi)沒有大熊貓了

大象新聞
2026-01-27 07:05:12
50歲北大女博士蒙曼:這輩子也結(jié)不了婚!原因就兩個(gè)

50歲北大女博士蒙曼:這輩子也結(jié)不了婚!原因就兩個(gè)

攜手游人間a
2026-01-25 16:57:12
100年來首次,加拿大嚇壞了,貝森特交底:日本被制裁與美國何干

100年來首次,加拿大嚇壞了,貝森特交底:日本被制裁與美國何干

議紀(jì)史
2026-01-26 12:20:03
2026-01-27 19:04:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
11131文章數(shù) 116945關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會(huì)講話透露了哪些關(guān)鍵信息

頭條要聞

在盒馬買鮮百合被誤送成水仙球 祖孫二人誤食中毒送醫(yī)

頭條要聞

在盒馬買鮮百合被誤送成水仙球 祖孫二人誤食中毒送醫(yī)

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對(duì)手現(xiàn)學(xué)?

娛樂要聞

張雨綺被曝代孕,春晚被拒,代言跑路

財(cái)經(jīng)要聞

多地對(duì)壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗(yàn)車下線

態(tài)度原創(chuàng)

教育
房產(chǎn)
親子
本地
軍事航空

教育要聞

2026考研成績&國家線公布時(shí)間?。ǜ綒v年國家線趨勢圖)

房產(chǎn)要聞

實(shí)景兌現(xiàn)在即!綠城,在海棠灣重新定義終極旅居想象!

親子要聞

千城百縣看中國丨山東棗莊:萌娃迎臘八

本地新聞

云游中國|撥開云霧,巫山每幀都是航拍大片

軍事要聞

美海軍"林肯"號(hào)航母打擊群抵達(dá)中東地區(qū)

無障礙瀏覽 進(jìn)入關(guān)懷版