国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek又又又又發(fā)新論文了!這一次,他們重構了AI看圖的方式

0
分享至

今天,DeepSeek又又又又發(fā)論文了。


看到的時候,我的第一反應是:這特么今年才過了不到一個月,我已經(jīng)寫了三篇DeepSeek論文解讀了。照這個節(jié)奏,我是不是要轉(zhuǎn)型成"DeepSeek論文博主"了?

不過這次倒是沒梁文鋒什么事(替他松口氣),署名里沒看到他。

說起來,最近Clawdbot挺火的,后臺也一直有粉絲留言讓我出教程。但相比追這種應用層的熱點,我覺得還是讀讀論文更有意思——畢竟之前幾篇DeepSeek論文解讀,大家的反饋都挺好,說是終于看懂了技術內(nèi)核。

所以,咱們還是繼續(xù)讀論文。

這次的論文叫DeepSeek-OCR 2,看起來是個很垂直的OCR模型。我承認,看到標題時覺得有點無聊——OCR?這么細分的領域,值得單獨發(fā)論文嗎?

但讀完之后,我覺得這可能是他們今年最重要的技術突破之一。倒不是因為OCR本身多重要,而是因為他們在這個小問題里,提出了一個關于視覺語言模型(VLM)架構的有趣洞察:

AI看圖的方式,一直都錯了。

你看報紙的方式,和AI完全不同

想象你拿起一份報紙。


你的眼睛會怎么動?大概率是這樣:先掃一眼大標題,跳到配圖,看一眼圖片說明,再決定要不要讀正文。如果是多欄排版,你會根據(jù)內(nèi)容的"重要性"在各欄之間跳躍,而不是從左上角第一個字開始,一行行掃到右下角。

這不是什么高深的認知科學發(fā)現(xiàn)。這是你每天都在做的事。

但AI不是這樣看圖的。

傳統(tǒng)的視覺語言模型(VLM)處理圖像的方式,更像一臺復印機:從左到右,從上到下,逐行掃描。不管圖像里有什么,不管哪里重要哪里不重要,它都用同一種機械的順序把圖像"讀"成一串數(shù)字。

這個問題存在了很多年。直到最近,DeepSeek在一篇看起來很"小"的論文里,提出了一個挺"大"的洞察。

1967年的眼動實驗

在講DeepSeek的解法之前,我想先聊一個認知科學的經(jīng)典實驗。

1967年,蘇聯(lián)心理學家Alfred Yarbus做了一個著名的眼動追蹤實驗。他讓不同的被試看同一幅畫——列賓的《意外歸來》,畫的是一個流放者突然回到家中的場景。


有意思的是,Yarbus給每個被試不同的任務指令:

  • "估計這家人的經(jīng)濟狀況"

  • "記住畫中人物的位置"

  • "猜測這個人離開家多久了"

結果發(fā)現(xiàn),同一幅畫,不同任務下,被試的眼動軌跡完全不同。


讓估計經(jīng)濟狀況的人,眼睛會在家具、墻壁裝飾之間跳躍。讓猜測離開時間的人,眼睛會在歸來者的臉和家人的表情之間反復掃視。

這說明什么?人類的視覺不是被動的接收,而是主動的搜索。我們的眼睛去哪里,取決于我們想知道什么,取決于我們之前已經(jīng)看到了什么。

用論文里的話說,人類視覺是"因果性"的——每一次注視都依賴于之前獲得的信息來決定下一步看哪里。

而傳統(tǒng)AI沒有這個能力。它只會機械地掃。

小徑分岔的花園

博爾赫斯有一篇短篇小說,叫《小徑分岔的花園》。


故事里有一座神秘的花園,主人公最終發(fā)現(xiàn),這座花園其實是一部小說——一部在每個敘事節(jié)點都分叉出所有可能性的小說。在這部小說里,主人公可以同時選擇所有的路徑,每條路徑都是真實的。

這個隱喻用來理解DeepSeek OCR 2的核心創(chuàng)新,挺合適。

傳統(tǒng)VLM就像一個只會走直線的人穿越迷宮。從入口到出口,只有一條固定的路線:從左到右,從上到下。不管迷宮的結構如何,不管哪條路更近,它都只會沿著預設的方向走。

而人類看圖——以及DeepSeek想讓AI學會的方式——是站在每個岔路口,根據(jù)眼前的信息決定下一步往哪走。這條路看起來有標題?先走這邊。那邊有張圖表?跳過去看看。

這就是論文標題里"Visual Causal Flow"(視覺因果流)的含義:讓AI學會根據(jù)已經(jīng)看到的內(nèi)容,因果性地決定接下來看哪里。

DeepSeek的解法:兩階段級聯(lián)推理

理解了問題,DeepSeek的解法就很自然了。

核心思路是:把"看圖"這件事拆成兩步。

第一步:推理"應該按什么順序看"

傳統(tǒng)VLM直接把圖像拍平成一串token,順序是固定的。DeepSeek的做法是,先讓模型學會重新排列這些token的順序——根據(jù)圖像的語義內(nèi)容,而不是空間位置。

這一步由一個叫"DeepEncoder V2"的編碼器完成。它會輸出一組"因果流查詢"(causal flow query),這些查詢token會按照模型認為合理的順序,依次"注視"圖像的不同部分。

第二步:在正確的順序上做推理

重排之后,再把這些有序的視覺信息交給LLM做文本生成(比如OCR識別)。

因為順序?qū)α?,LLM就能更好地理解文檔的邏輯結構。比如先看到標題,再看到正文,而不是先看到頁腳的頁碼。

一個巧妙的注意力mask

技術細節(jié)我盡量簡化。

DeepEncoder V2的核心是一個巧妙的注意力機制設計。它把輸入分成兩部分:

視覺token:用雙向注意力,每個token都能看到所有其他token。這保證了全局的感知能力。

因果流查詢:用因果注意力,每個查詢只能看到前面的查詢和所有視覺token。這讓查詢之間形成"順序"——第一個查詢決定先看哪,第二個查詢基于第一個的結果決定接下來看哪。


兩種注意力拼在一起,就形成了一個特殊的注意力mask矩陣。視覺token負責"感知",因果查詢負責"排序"。

另一個有意思的設計:他們用一個小型LLM(Qwen2-500M)替換了傳統(tǒng)的CLIP ViT作為視覺編碼器。這讓編碼器本身就具備了"推理"能力,而不只是特征提取。

效果怎么樣

說點實際的。

在OmniDocBench v1.5這個文檔解析基準測試上,DeepSeek OCR 2達到了91.09%的綜合得分,比前代提升了3.73%。

更有意義的是"閱讀順序"指標的提升——編輯距離從0.085降到了0.057。這說明模型確實學會了按更合理的順序"讀"文檔,而不只是識別準確率提高了。

在實際生產(chǎn)環(huán)境中(DeepSeek的在線OCR服務和預訓練數(shù)據(jù)管線),輸出的重復率也從6.25%降到了4.17%,下降了33%。

而這一切,只用了256到1120個視覺token。作為對比,Qwen2.5-VL-72B要用超過6000個token。


這只是拼圖的一塊

OCR 2不是孤立的。

2026年1月,DeepSeek密集發(fā)布了一系列論文:

1月1日,mHC論文:提出"流形約束超連接",解決大模型訓練的穩(wěn)定性問題。梁文鋒署名。

1月12日,Engram論文:提出"條件記憶"機制,實現(xiàn)近乎無限的上下文檢索。梁文鋒署名。

1月27日,OCR 2論文:視覺因果流,讓AI像人一樣理解圖像。

這些技術指向同一個方向:更高效、更穩(wěn)定、更像人。

它們很可能都會整合進即將發(fā)布的DeepSeek V4。根據(jù)公開信息,V4預計在2月中旬(春節(jié)前后)發(fā)布。GitHub代碼庫意外泄露的"MODEL1"代號顯示,這可能是一次架構重構,包括混合精度訓練、Blackwell GPU優(yōu)化、以及超過100萬token的上下文窗口。

去年的V3和R1都是在春節(jié)窗口發(fā)布的。今年看起來也是。

從"看"的方式開始

回到OCR 2這篇論文本身。

它解決的問題看起來很"小"——文檔OCR,把圖片里的文字讀出來。但它觸及的問題挺"大":AI應該怎么理解二維的視覺世界?

論文的討論部分提到了兩個方向:

一個是"Towards Genuine 2D Reasoning"——邁向真正的2D推理。用兩個級聯(lián)的1D因果推理來逼近2D理解。第一個1D負責"排序",第二個1D負責"推理"。這是否能真正實現(xiàn)2D推理,還有待驗證。

另一個是"Towards Native Multimodality"——邁向原生多模態(tài)。既然可以用LLM當視覺編碼器,那能不能用同一套架構處理圖像、音頻、文本?只需要換一組模態(tài)專屬的查詢token就行。

期待真正的多模態(tài)DeepSeek

說起來,我們之前一直有個遺憾。

DeepSeek V3和R1都是很強的模型,R1甚至在推理能力上超越了o1。但它們都是純文本模型。在DeepSeek的網(wǎng)站或App上對話時,你能上傳圖片,但模型只是單純地識別圖中的文字,然后基于文字內(nèi)容回答——本質(zhì)上還是文本推理。

這就像一個只能讀字幕的人在"看"電影。

而從OCR 2這篇論文傳遞的信息看,DeepSeek在多模態(tài)上已經(jīng)邁出了關鍵一步。他們不再滿足于識別文字這種初級的圖像理解,而是在探索如何讓AI真正"理解"視覺信息的結構和語義。

加上之前泄露的GitHub代碼里,"MODEL1"代號下有大量關于視覺編碼器的配置,以及論文里明確提到的"Native Multimodality"方向——我們有理由期待,即將發(fā)布的DeepSeek V4會是一個能力相當不錯的原生多模態(tài)模型。

真正學會看圖。

這些都是開放的問題。但從DeepSeek的論文發(fā)布節(jié)奏來看,他們已經(jīng)在路上了。

  • 論文:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

  • 模型:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
哈工大畢業(yè)失業(yè)四五年被吐槽!網(wǎng)友:農(nóng)村大學生大多數(shù)過得比較差

哈工大畢業(yè)失業(yè)四五年被吐槽!網(wǎng)友:農(nóng)村大學生大多數(shù)過得比較差

牛鍋巴小釩
2026-04-21 12:14:50
親戚對你提過什么過分要求  看網(wǎng)友評論 這真是人說出來的話嘛

親戚對你提過什么過分要求 看網(wǎng)友評論 這真是人說出來的話嘛

侃神評故事
2026-04-20 07:45:03
炸鍋!杜蘭特賽季報銷真相曝光 不是怕湖人 是為了保住烏多卡的帥位

炸鍋!杜蘭特賽季報銷真相曝光 不是怕湖人 是為了保住烏多卡的帥位

桃葉渡春
2026-04-21 09:40:27
“我們也是有選票的!”臺灣商業(yè)總會嗆民進黨當局別站產(chǎn)業(yè)對立面

“我們也是有選票的!”臺灣商業(yè)總會嗆民進黨當局別站產(chǎn)業(yè)對立面

海峽導報社
2026-04-20 16:12:35
中年以后,少吃,真的可以保命

中年以后,少吃,真的可以保命

洞見
2026-04-21 09:06:51
反轉(zhuǎn)來了!木子美大罵全紅嬋,扒出她在網(wǎng)暴群里點過贊,動機變了

反轉(zhuǎn)來了!木子美大罵全紅嬋,扒出她在網(wǎng)暴群里點過贊,動機變了

夢錄的西方史話
2026-04-21 14:42:02
毛主席在世時,為什么對次子毛岸青避而遠之?毛主席真是用心良苦

毛主席在世時,為什么對次子毛岸青避而遠之?毛主席真是用心良苦

小莜讀史
2026-04-18 17:09:02
年內(nèi)首只翻倍千億股現(xiàn)身;301486,3分鐘“20CM”漲停

年內(nèi)首只翻倍千億股現(xiàn)身;301486,3分鐘“20CM”漲停

大眾證券報
2026-04-21 15:13:10
上海一奧迪女銷售請客戶吃飯,細節(jié)被爆出,父母:臉都被丟盡了

上海一奧迪女銷售請客戶吃飯,細節(jié)被爆出,父母:臉都被丟盡了

紅豆講堂
2025-04-14 12:25:10
狼隊超市正式開張:多名拉丁派國腳待出售,世預賽名將陣容受檢閱

狼隊超市正式開張:多名拉丁派國腳待出售,世預賽名將陣容受檢閱

五姑娘臺球
2026-04-21 09:10:09
國際油價直線拉升,WTI原油期貨轉(zhuǎn)漲,抹去此前2%的跌幅

國際油價直線拉升,WTI原油期貨轉(zhuǎn)漲,抹去此前2%的跌幅

每日經(jīng)濟新聞
2026-04-21 15:07:14
張倫碩估計挺后悔的,腦子正常一點的未婚男人,都不會娶她

張倫碩估計挺后悔的,腦子正常一點的未婚男人,都不會娶她

南萬說娛26
2026-04-20 11:50:09
收評:創(chuàng)業(yè)板指探底回升漲0.31% 綠電、商業(yè)航天概念反復走強

收評:創(chuàng)業(yè)板指探底回升漲0.31% 綠電、商業(yè)航天概念反復走強

財聯(lián)社
2026-04-21 15:02:49
世錦賽戰(zhàn)報:六冠王7-10出局,16強決出7席中國3席!中國冠軍1-8

世錦賽戰(zhàn)報:六冠王7-10出局,16強決出7席中國3席!中國冠軍1-8

求球不落諦
2026-04-21 00:55:34
10999元!華為Pura X Max這價格,簡直太值了!

10999元!華為Pura X Max這價格,簡直太值了!

搞機小帝
2026-04-21 00:07:42
我56歲才頓悟:微信上基本不發(fā)朋友圈的人,多半是這4種活法

我56歲才頓悟:微信上基本不發(fā)朋友圈的人,多半是這4種活法

民生簡讀坊
2026-04-18 23:27:04
鄭麗文在大陸,悄悄問身邊安保一個問題

鄭麗文在大陸,悄悄問身邊安保一個問題

果媽聊娛樂
2026-04-21 16:10:11
快訊!美媒罕見低頭:中國登頂頭號強國,美國再無翻盤可能

快訊!美媒罕見低頭:中國登頂頭號強國,美國再無翻盤可能

起喜電影
2026-04-21 12:08:46
“菠蘿拌黃瓜”爆火,“低卡清爽減肥晚餐天花板”?醫(yī)生:熱量確實低,但是…

“菠蘿拌黃瓜”爆火,“低卡清爽減肥晚餐天花板”?醫(yī)生:熱量確實低,但是…

上觀新聞
2026-04-20 08:49:12
我在盧旺達工地看到的真相,他們這樣說中國建設者,太扎心了

我在盧旺達工地看到的真相,他們這樣說中國建設者,太扎心了

天下霸奇
2026-04-21 08:19:54
2026-04-21 17:23:00
AI進化論花生 incentive-icons
AI進化論花生
AI博主,AppStore付費榜第一的小貓補光燈app開發(fā)者
189文章數(shù) 111關注度
往期回顧 全部

科技要聞

重磅官宣:庫克卸任,特努斯接任蘋果CEO

頭條要聞

被性侵女高管起訴前司工傷待遇案將開庭:追薪250余萬

頭條要聞

被性侵女高管起訴前司工傷待遇案將開庭:追薪250余萬

體育要聞

“被優(yōu)化”8年后,國乒方博決定換一條路重新上場

娛樂要聞

周潤發(fā)時隔16年再賣樓,變現(xiàn)數(shù)億資產(chǎn)

財經(jīng)要聞

現(xiàn)實是最大的荒誕:千億平臺的沖突始末

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

數(shù)碼
藝術
手機
房產(chǎn)
公開課

數(shù)碼要聞

小米智能家電工廠4月25日開放參觀 米家空調(diào)強勁風現(xiàn)場極端測試

藝術要聞

任伯年寫竹,真帶勁

手機要聞

蘋果iOS 27適配機型預測!這4款iPhone可能無緣更新

房產(chǎn)要聞

年薪40-50萬!海南地產(chǎn)圈還在猛招人

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版