国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek又又又又發(fā)新論文了!這一次,他們重構(gòu)了AI看圖的方式

0
分享至

今天,DeepSeek又又又又發(fā)論文了。


看到的時(shí)候,我的第一反應(yīng)是:這特么今年才過(guò)了不到一個(gè)月,我已經(jīng)寫(xiě)了三篇DeepSeek論文解讀了。照這個(gè)節(jié)奏,我是不是要轉(zhuǎn)型成"DeepSeek論文博主"了?

不過(guò)這次倒是沒(méi)梁文鋒什么事(替他松口氣),署名里沒(méi)看到他。

說(shuō)起來(lái),最近Clawdbot挺火的,后臺(tái)也一直有粉絲留言讓我出教程。但相比追這種應(yīng)用層的熱點(diǎn),我覺(jué)得還是讀讀論文更有意思——畢竟之前幾篇DeepSeek論文解讀,大家的反饋都挺好,說(shuō)是終于看懂了技術(shù)內(nèi)核。

所以,咱們還是繼續(xù)讀論文。

這次的論文叫DeepSeek-OCR 2,看起來(lái)是個(gè)很垂直的OCR模型。我承認(rèn),看到標(biāo)題時(shí)覺(jué)得有點(diǎn)無(wú)聊——OCR?這么細(xì)分的領(lǐng)域,值得單獨(dú)發(fā)論文嗎?

但讀完之后,我覺(jué)得這可能是他們今年最重要的技術(shù)突破之一。倒不是因?yàn)镺CR本身多重要,而是因?yàn)樗麄冊(cè)谶@個(gè)小問(wèn)題里,提出了一個(gè)關(guān)于視覺(jué)語(yǔ)言模型(VLM)架構(gòu)的有趣洞察:

AI看圖的方式,一直都錯(cuò)了。

你看報(bào)紙的方式,和AI完全不同

想象你拿起一份報(bào)紙。


你的眼睛會(huì)怎么動(dòng)?大概率是這樣:先掃一眼大標(biāo)題,跳到配圖,看一眼圖片說(shuō)明,再?zèng)Q定要不要讀正文。如果是多欄排版,你會(huì)根據(jù)內(nèi)容的"重要性"在各欄之間跳躍,而不是從左上角第一個(gè)字開(kāi)始,一行行掃到右下角。

這不是什么高深的認(rèn)知科學(xué)發(fā)現(xiàn)。這是你每天都在做的事。

但AI不是這樣看圖的。

傳統(tǒng)的視覺(jué)語(yǔ)言模型(VLM)處理圖像的方式,更像一臺(tái)復(fù)印機(jī):從左到右,從上到下,逐行掃描。不管圖像里有什么,不管哪里重要哪里不重要,它都用同一種機(jī)械的順序把圖像"讀"成一串?dāng)?shù)字。

這個(gè)問(wèn)題存在了很多年。直到最近,DeepSeek在一篇看起來(lái)很"小"的論文里,提出了一個(gè)挺"大"的洞察。

1967年的眼動(dòng)實(shí)驗(yàn)

在講DeepSeek的解法之前,我想先聊一個(gè)認(rèn)知科學(xué)的經(jīng)典實(shí)驗(yàn)。

1967年,蘇聯(lián)心理學(xué)家Alfred Yarbus做了一個(gè)著名的眼動(dòng)追蹤實(shí)驗(yàn)。他讓不同的被試看同一幅畫(huà)——列賓的《意外歸來(lái)》,畫(huà)的是一個(gè)流放者突然回到家中的場(chǎng)景。


有意思的是,Yarbus給每個(gè)被試不同的任務(wù)指令:

  • "估計(jì)這家人的經(jīng)濟(jì)狀況"

  • "記住畫(huà)中人物的位置"

  • "猜測(cè)這個(gè)人離開(kāi)家多久了"

結(jié)果發(fā)現(xiàn),同一幅畫(huà),不同任務(wù)下,被試的眼動(dòng)軌跡完全不同。


讓估計(jì)經(jīng)濟(jì)狀況的人,眼睛會(huì)在家具、墻壁裝飾之間跳躍。讓猜測(cè)離開(kāi)時(shí)間的人,眼睛會(huì)在歸來(lái)者的臉和家人的表情之間反復(fù)掃視。

這說(shuō)明什么?人類的視覺(jué)不是被動(dòng)的接收,而是主動(dòng)的搜索。我們的眼睛去哪里,取決于我們想知道什么,取決于我們之前已經(jīng)看到了什么。

用論文里的話說(shuō),人類視覺(jué)是"因果性"的——每一次注視都依賴于之前獲得的信息來(lái)決定下一步看哪里。

而傳統(tǒng)AI沒(méi)有這個(gè)能力。它只會(huì)機(jī)械地掃。

小徑分岔的花園

博爾赫斯有一篇短篇小說(shuō),叫《小徑分岔的花園》。


故事里有一座神秘的花園,主人公最終發(fā)現(xiàn),這座花園其實(shí)是一部小說(shuō)——一部在每個(gè)敘事節(jié)點(diǎn)都分叉出所有可能性的小說(shuō)。在這部小說(shuō)里,主人公可以同時(shí)選擇所有的路徑,每條路徑都是真實(shí)的。

這個(gè)隱喻用來(lái)理解DeepSeek OCR 2的核心創(chuàng)新,挺合適。

傳統(tǒng)VLM就像一個(gè)只會(huì)走直線的人穿越迷宮。從入口到出口,只有一條固定的路線:從左到右,從上到下。不管迷宮的結(jié)構(gòu)如何,不管哪條路更近,它都只會(huì)沿著預(yù)設(shè)的方向走。

而人類看圖——以及DeepSeek想讓AI學(xué)會(huì)的方式——是站在每個(gè)岔路口,根據(jù)眼前的信息決定下一步往哪走。這條路看起來(lái)有標(biāo)題?先走這邊。那邊有張圖表?跳過(guò)去看看。

這就是論文標(biāo)題里"Visual Causal Flow"(視覺(jué)因果流)的含義:讓AI學(xué)會(huì)根據(jù)已經(jīng)看到的內(nèi)容,因果性地決定接下來(lái)看哪里。

DeepSeek的解法:兩階段級(jí)聯(lián)推理

理解了問(wèn)題,DeepSeek的解法就很自然了。

核心思路是:把"看圖"這件事拆成兩步。

第一步:推理"應(yīng)該按什么順序看"

傳統(tǒng)VLM直接把圖像拍平成一串token,順序是固定的。DeepSeek的做法是,先讓模型學(xué)會(huì)重新排列這些token的順序——根據(jù)圖像的語(yǔ)義內(nèi)容,而不是空間位置。

這一步由一個(gè)叫"DeepEncoder V2"的編碼器完成。它會(huì)輸出一組"因果流查詢"(causal flow query),這些查詢token會(huì)按照模型認(rèn)為合理的順序,依次"注視"圖像的不同部分。

第二步:在正確的順序上做推理

重排之后,再把這些有序的視覺(jué)信息交給LLM做文本生成(比如OCR識(shí)別)。

因?yàn)轫樞驅(qū)α耍琇LM就能更好地理解文檔的邏輯結(jié)構(gòu)。比如先看到標(biāo)題,再看到正文,而不是先看到頁(yè)腳的頁(yè)碼。

一個(gè)巧妙的注意力mask

技術(shù)細(xì)節(jié)我盡量簡(jiǎn)化。

DeepEncoder V2的核心是一個(gè)巧妙的注意力機(jī)制設(shè)計(jì)。它把輸入分成兩部分:

視覺(jué)token:用雙向注意力,每個(gè)token都能看到所有其他token。這保證了全局的感知能力。

因果流查詢:用因果注意力,每個(gè)查詢只能看到前面的查詢和所有視覺(jué)token。這讓查詢之間形成"順序"——第一個(gè)查詢決定先看哪,第二個(gè)查詢基于第一個(gè)的結(jié)果決定接下來(lái)看哪。


兩種注意力拼在一起,就形成了一個(gè)特殊的注意力mask矩陣。視覺(jué)token負(fù)責(zé)"感知",因果查詢負(fù)責(zé)"排序"。

另一個(gè)有意思的設(shè)計(jì):他們用一個(gè)小型LLM(Qwen2-500M)替換了傳統(tǒng)的CLIP ViT作為視覺(jué)編碼器。這讓編碼器本身就具備了"推理"能力,而不只是特征提取。

效果怎么樣

說(shuō)點(diǎn)實(shí)際的。

在OmniDocBench v1.5這個(gè)文檔解析基準(zhǔn)測(cè)試上,DeepSeek OCR 2達(dá)到了91.09%的綜合得分,比前代提升了3.73%。

更有意義的是"閱讀順序"指標(biāo)的提升——編輯距離從0.085降到了0.057。這說(shuō)明模型確實(shí)學(xué)會(huì)了按更合理的順序"讀"文檔,而不只是識(shí)別準(zhǔn)確率提高了。

在實(shí)際生產(chǎn)環(huán)境中(DeepSeek的在線OCR服務(wù)和預(yù)訓(xùn)練數(shù)據(jù)管線),輸出的重復(fù)率也從6.25%降到了4.17%,下降了33%。

而這一切,只用了256到1120個(gè)視覺(jué)token。作為對(duì)比,Qwen2.5-VL-72B要用超過(guò)6000個(gè)token。


這只是拼圖的一塊

OCR 2不是孤立的。

2026年1月,DeepSeek密集發(fā)布了一系列論文:

1月1日,mHC論文:提出"流形約束超連接",解決大模型訓(xùn)練的穩(wěn)定性問(wèn)題。梁文鋒署名。

1月12日,Engram論文:提出"條件記憶"機(jī)制,實(shí)現(xiàn)近乎無(wú)限的上下文檢索。梁文鋒署名。

1月27日,OCR 2論文:視覺(jué)因果流,讓AI像人一樣理解圖像。

這些技術(shù)指向同一個(gè)方向:更高效、更穩(wěn)定、更像人。

它們很可能都會(huì)整合進(jìn)即將發(fā)布的DeepSeek V4。根據(jù)公開(kāi)信息,V4預(yù)計(jì)在2月中旬(春節(jié)前后)發(fā)布。GitHub代碼庫(kù)意外泄露的"MODEL1"代號(hào)顯示,這可能是一次架構(gòu)重構(gòu),包括混合精度訓(xùn)練、Blackwell GPU優(yōu)化、以及超過(guò)100萬(wàn)token的上下文窗口。

去年的V3和R1都是在春節(jié)窗口發(fā)布的。今年看起來(lái)也是。

從"看"的方式開(kāi)始

回到OCR 2這篇論文本身。

它解決的問(wèn)題看起來(lái)很"小"——文檔OCR,把圖片里的文字讀出來(lái)。但它觸及的問(wèn)題挺"大":AI應(yīng)該怎么理解二維的視覺(jué)世界?

論文的討論部分提到了兩個(gè)方向:

一個(gè)是"Towards Genuine 2D Reasoning"——邁向真正的2D推理。用兩個(gè)級(jí)聯(lián)的1D因果推理來(lái)逼近2D理解。第一個(gè)1D負(fù)責(zé)"排序",第二個(gè)1D負(fù)責(zé)"推理"。這是否能真正實(shí)現(xiàn)2D推理,還有待驗(yàn)證。

另一個(gè)是"Towards Native Multimodality"——邁向原生多模態(tài)。既然可以用LLM當(dāng)視覺(jué)編碼器,那能不能用同一套架構(gòu)處理圖像、音頻、文本?只需要換一組模態(tài)專屬的查詢token就行。

期待真正的多模態(tài)DeepSeek

說(shuō)起來(lái),我們之前一直有個(gè)遺憾。

DeepSeek V3和R1都是很強(qiáng)的模型,R1甚至在推理能力上超越了o1。但它們都是純文本模型。在DeepSeek的網(wǎng)站或App上對(duì)話時(shí),你能上傳圖片,但模型只是單純地識(shí)別圖中的文字,然后基于文字內(nèi)容回答——本質(zhì)上還是文本推理。

這就像一個(gè)只能讀字幕的人在"看"電影。

而從OCR 2這篇論文傳遞的信息看,DeepSeek在多模態(tài)上已經(jīng)邁出了關(guān)鍵一步。他們不再滿足于識(shí)別文字這種初級(jí)的圖像理解,而是在探索如何讓AI真正"理解"視覺(jué)信息的結(jié)構(gòu)和語(yǔ)義。

加上之前泄露的GitHub代碼里,"MODEL1"代號(hào)下有大量關(guān)于視覺(jué)編碼器的配置,以及論文里明確提到的"Native Multimodality"方向——我們有理由期待,即將發(fā)布的DeepSeek V4會(huì)是一個(gè)能力相當(dāng)不錯(cuò)的原生多模態(tài)模型。

真正學(xué)會(huì)看圖。

這些都是開(kāi)放的問(wèn)題。但從DeepSeek的論文發(fā)布節(jié)奏來(lái)看,他們已經(jīng)在路上了。

  • 論文:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

  • 模型:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中國(guó)為啥還不收臺(tái)灣?唐湘龍的解釋是我聽(tīng)過(guò)的最好的回答

中國(guó)為啥還不收臺(tái)灣?唐湘龍的解釋是我聽(tīng)過(guò)的最好的回答

諾言卿史錄
2026-03-02 09:01:54
凌晨浦東機(jī)場(chǎng):四女孩險(xiǎn)飛泰國(guó),兩分鐘生死一線

凌晨浦東機(jī)場(chǎng):四女孩險(xiǎn)飛泰國(guó),兩分鐘生死一線

解鎖世界風(fēng)云
2026-03-02 10:04:08
阿韋洛亞:裁判縱容了這樣一場(chǎng)比賽,赫塔費(fèi)做了裁判允許的事

阿韋洛亞:裁判縱容了這樣一場(chǎng)比賽,赫塔費(fèi)做了裁判允許的事

懂球帝
2026-03-03 08:39:44
安徽省政協(xié)原主席唐良智任全國(guó)政協(xié)教科衛(wèi)體委員會(huì)副主任

安徽省政協(xié)原主席唐良智任全國(guó)政協(xié)教科衛(wèi)體委員會(huì)副主任

澎湃新聞
2026-03-02 20:16:26
伊拉克武裝參戰(zhàn)!“發(fā)動(dòng)28次襲擊”

伊拉克武裝參戰(zhàn)!“發(fā)動(dòng)28次襲擊”

揚(yáng)子晚報(bào)
2026-03-03 07:20:25
梅婷有過(guò)三段婚姻,第一任丈夫是葉挺的孫子葉大鷹,是電影導(dǎo)演

梅婷有過(guò)三段婚姻,第一任丈夫是葉挺的孫子葉大鷹,是電影導(dǎo)演

百態(tài)人間
2026-03-02 15:16:23
100%賴賬,這何嘗不是一種極致的誠(chéng)信!

100%賴賬,這何嘗不是一種極致的誠(chéng)信!

財(cái)經(jīng)保探長(zhǎng)
2026-02-28 10:46:25
美軍三架F-15E被擊落,到底誰(shuí)干的?

美軍三架F-15E被擊落,到底誰(shuí)干的?

樞密院十號(hào)
2026-03-03 09:41:25
伊朗無(wú)差別攻擊海灣國(guó)家  非理性行為恐遭反噬加速失敗

伊朗無(wú)差別攻擊海灣國(guó)家 非理性行為恐遭反噬加速失敗

劉耘博士
2026-03-03 07:22:10
哈梅內(nèi)伊身亡現(xiàn)場(chǎng)照片曝光

哈梅內(nèi)伊身亡現(xiàn)場(chǎng)照片曝光

名人茍或
2026-03-02 10:37:43
紀(jì)實(shí):浙江幼師幼兒園潛伏22年,警察曝光真實(shí)身份,家長(zhǎng)很后怕

紀(jì)實(shí):浙江幼師幼兒園潛伏22年,警察曝光真實(shí)身份,家長(zhǎng)很后怕

談史論天地
2026-03-01 09:49:38
上海已有多人中招!有人損失近50000元,刷短視頻時(shí)突然彈出,警方緊急提醒:千萬(wàn)別點(diǎn)!

上海已有多人中招!有人損失近50000元,刷短視頻時(shí)突然彈出,警方緊急提醒:千萬(wàn)別點(diǎn)!

網(wǎng)絡(luò)辟謠
2026-03-02 10:32:08
伊朗名將:戰(zhàn)爭(zhēng)很不幸但支持美國(guó)以色列!歡迎他們解放伊朗人民

伊朗名將:戰(zhàn)爭(zhēng)很不幸但支持美國(guó)以色列!歡迎他們解放伊朗人民

念洲
2026-03-03 08:44:39
特朗普向國(guó)會(huì)提交戰(zhàn)爭(zhēng)權(quán)力法案通知

特朗普向國(guó)會(huì)提交戰(zhàn)爭(zhēng)權(quán)力法案通知

界面新聞
2026-03-03 09:55:23
火爆!特雷楊沖進(jìn)場(chǎng)不滿被驅(qū)逐 火箭伊森推人吃兩T也被驅(qū)逐

火爆!特雷楊沖進(jìn)場(chǎng)不滿被驅(qū)逐 火箭伊森推人吃兩T也被驅(qū)逐

醉臥浮生
2026-03-03 10:08:04
女子稱坐火車硬臥遭蟲(chóng)咬左手腫如饅頭,客運(yùn)段稱未發(fā)現(xiàn)病媒生物活體及殘片,律師:若想維權(quán)還需搜集證據(jù)

女子稱坐火車硬臥遭蟲(chóng)咬左手腫如饅頭,客運(yùn)段稱未發(fā)現(xiàn)病媒生物活體及殘片,律師:若想維權(quán)還需搜集證據(jù)

極目新聞
2026-03-02 23:22:45
張志新的兒女今何在?背后的真相令人淚目

張志新的兒女今何在?背后的真相令人淚目

深度報(bào)
2026-03-01 23:48:59
謝娜為愛(ài)發(fā)聲,要求薛之謙向老公張杰道歉!

謝娜為愛(ài)發(fā)聲,要求薛之謙向老公張杰道歉!

話娛論影
2026-03-03 09:32:23
英法德即將下場(chǎng),伊朗被曝尋求向美國(guó)妥協(xié)

英法德即將下場(chǎng),伊朗被曝尋求向美國(guó)妥協(xié)

名人茍或
2026-03-03 06:02:44
上海影院現(xiàn)場(chǎng)意外捉奸,女子露面身材姣好,丈夫目睹后聲音都變了

上海影院現(xiàn)場(chǎng)意外捉奸,女子露面身材姣好,丈夫目睹后聲音都變了

離離言幾許
2026-03-02 12:52:58
2026-03-03 10:31:00
AI進(jìn)化論花生 incentive-icons
AI進(jìn)化論花生
AI博主,AppStore付費(fèi)榜第一的小貓補(bǔ)光燈app開(kāi)發(fā)者
148文章數(shù) 65關(guān)注度
往期回顧 全部

科技要聞

蘋(píng)果iPhone17e發(fā)布:4499元起 升級(jí)A19芯片

頭條要聞

牛彈琴:多國(guó)對(duì)轟炸保持沉默 西班牙首相確實(shí)是條漢子

頭條要聞

牛彈琴:多國(guó)對(duì)轟炸保持沉默 西班牙首相確實(shí)是條漢子

體育要聞

伯納烏8萬(wàn)人暴怒!高呼78歲老佛爺下課

娛樂(lè)要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

霍爾木茲海峽近乎停擺 布油直逼80美元

汽車要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

家居
親子
旅游
藝術(shù)
公開(kāi)課

家居要聞

萬(wàn)物互聯(lián) 享科技福祉

親子要聞

孕吐是胎兒的自我保護(hù)?孕吐越嚴(yán)重,孩子越聰明?聽(tīng)專家怎么說(shuō)

旅游要聞

打造沉浸式元宵體驗(yàn) 萬(wàn)寧推出六大特色活動(dòng)

藝術(shù)要聞

14個(gè)字,您能全認(rèn)嗎?探討情緒對(duì)人際關(guān)系的影響。

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版