国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek首次有了視覺能力,技術(shù)論文卻被它連夜刪掉了

0
分享至


作者 | 孫芮
郵箱 | sunrui@pingwest.com

DeepSeek做了件罕見的事情:在終于開始灰測多模態(tài)能力后,它放出了一篇解釋背后技術(shù)的論文,但這篇論文卻在發(fā)布沒多久就又被悄悄撤掉。

4月29日,DeepSeek研究員陳小康在X發(fā)布一條推文——現(xiàn)在,我們可以看見你了。配圖中,DeepSeek 標(biāo)志性的鯨魚 logo 摘下眼罩,露出了眼睛。

過去,DeepSeek 最被外界熟知的是它在文本、代碼和推理任務(wù)上的能力。但真實(shí)世界里的問題,并不總是以文字形式出現(xiàn)。它們可能是一張照片、一頁論文圖表、一個網(wǎng)頁截圖、一份復(fù)雜表格,也可能是一個需要理解空間關(guān)系和視覺細(xì)節(jié)的現(xiàn)實(shí)場景。

對 DeepSeek 來說,視覺能力是讓它的推理能力從文本世界延伸到真實(shí)世界的關(guān)鍵一步。但這次灰測的視覺能力,很快被使用者們感覺到不同:它和其他模型給語言模型底座增加多模態(tài)功能不同,更像是一個單獨(dú)的模型,且不是以附庸形式定位,而是有某種原生的思考和推理能力。

就在大家好奇心增加的時候,DeepSeek發(fā)布了一篇解釋它追求的視覺能力的論文:《Thinking with Visual Primitives》。


Primitives是圖形學(xué)和幾何里的常用術(shù)語,Visual Primitves可以理解為那些用來描述幾何信息圖形空間信息的最基本元素,也可以稱為視覺基元。從這個題目就可以看出,DeepSeek眼里此刻最重要的“多模態(tài)”能力,依然是圍繞推理和思考,它要讓模型能在原生層面用圖形的基礎(chǔ)語言做更準(zhǔn)確的思考。

這并不是所有主流模型廠商在多模態(tài)領(lǐng)域的方向,這讓人意外,但這個想法非常有趣。DeepSeek再次給基礎(chǔ)研究提供了新的思路。

但更加讓人意外的是,這篇論文很快就被撤下了,沒有給出任何解釋,也不確定是否會再次發(fā)布。

所以,DeepSeek這次的視覺能力到底是怎樣的?我們結(jié)合實(shí)測、它的研究員的分享,以及這篇“消失”的論文的內(nèi)容,來嘗試解釋一下它的做法。

1

01 當(dāng)DeepSeek 的視覺能力,開始進(jìn)入真實(shí)場景

目前DeepSeek的視覺模式還在灰度測試,逐步向用戶開放中。

從 X 上已經(jīng)試用到這一功能的用戶反饋來看,DeepSeek 的視覺能力并不只是識別圖片里有什么,更重要的是,它會嘗試把圖像中的信息和已有的世界知識聯(lián)系起來。

有用戶在X上表示DeepSeek視覺模式的世界知識非常豐富,思考過程也很有趣。他在公司附近拍了一張照片,發(fā)給DeepSeek。在DeepSeek的思考過程中可以看到,它幾乎知道我公司附近的每一棟樓,并盡量搜索正確的那棟。并且這個過程中沒有用到聯(lián)網(wǎng)搜索能力。


還有用戶表示DeepSeek的網(wǎng)頁復(fù)刻還原能力非常好。這對設(shè)計師和產(chǎn)品經(jīng)理來說,它可以讓視覺稿更快變成可演示的原型。以前從 Figma、截圖或參考網(wǎng)頁到可點(diǎn)擊 demo,中間需要設(shè)計師標(biāo)注、開發(fā)切圖、工程師實(shí)現(xiàn),F(xiàn)在模型能直接讀懂頁面,并生成接近真實(shí)效果的網(wǎng)頁,讓想法驗(yàn)證的周期大幅變短。


我實(shí)際測試了DeepSeek的視覺理解能力。我發(fā)送了一張迷宮圖讓它解答。



DeepSeek的思考過程十分嚴(yán)謹(jǐn),它用的是反向推理的方法,從終點(diǎn)出發(fā),逐步反向追蹤,走到起點(diǎn)。為了驗(yàn)證解法的可行性,DeepSeek這一路徑用正向的方式走了一遍,然后它又核算了一遍,再輸出最終答案。整個過程中,DeepSeek推理了四遍路徑的可行性。


1

02 多模態(tài)模型的難題,不只是看不清

陳小康在30號發(fā)布的推文中給了更詳細(xì)的解釋:傳統(tǒng)的思維鏈(CoT)主要停留在語言空間里,但視覺推理需要更多能力。通過把點(diǎn)和框作為認(rèn)知錨點(diǎn),我們的模型彌合了“指代鴻溝”(Reference Gap),模擬了人類在視覺推理中常用的“指向—推理”協(xié)同機(jī)制。


通過DeepSeek發(fā)布的報告,我們可以看到他們針對視覺理解提出了一個新的推理框架,就是使用視覺基元進(jìn)行思考(Thinking with Visual Primitives)。

什么是使用視覺基元進(jìn)行思考呢?

簡單來說,就是讓模型在看圖推理時,不再只依賴自然語言描述,而是把圖像中的點(diǎn)、邊界框、路徑坐標(biāo)等空間標(biāo)記,也作為推理過程的一部分。

以往多模態(tài)模型面對一張圖片時,通常會用語言來組織思考。比如它會說“左邊那個人”“右上角的物體”“中間那條路”。但問題在于,這些描述在人類看來很自然,對模型來說卻并不總是精確。尤其在一張復(fù)雜圖片里,如果有很多相似的人、物體或區(qū)域,“左邊那個”“旁邊那個”很容易變得模糊,模型也可能在推理過程中把對象搞混。

DeepSeek 在報告中把這個問題稱為“指代鴻溝”。也就是說,模型不是完全看不見,而是看見之后,很難在連續(xù)的視覺空間中穩(wěn)定地指向自己正在討論的對象。

視覺基元要解決的正是這個問題。所謂視覺基元,可以理解為模型在圖像中的“手指”。當(dāng)模型數(shù)一張合照里有多少人時,它可以先用邊界框把每個人標(biāo)出來,再進(jìn)行統(tǒng)計;當(dāng)模型判斷兩個物體的位置關(guān)系時,它可以先框出相關(guān)物體,再比較它們的相對位置;當(dāng)模型走迷宮或追蹤一條線時,它可以用一串點(diǎn)記錄路徑,而不是只用語言說“往左、再往右”。

這樣一來,模型的推理就不再懸浮在文字里,而是被錨定到圖像中的具體位置。這也是 DeepSeek 使用視覺基元進(jìn)行思考最重要的變化,多模態(tài)模型的能力不只是看得更清楚,還要指得更準(zhǔn)確。

1

03 DeepSeek 怎么做視覺推理

陳小康指出,目前DeepSeek的視覺模型主要處理三類任務(wù):計數(shù)、空間推理和拓?fù)渫评怼?/b>

DeepSeek 的做法不是簡單讓模型看更高分辨率的圖片,而是讓模型在推理過程中使用點(diǎn)、框、路徑坐標(biāo)這些“視覺基元”,把每一步判斷都落到圖像中的具體位置上。

在計數(shù)任務(wù)上,DeepSeek 主要使用的是邊界框。

報告中說,多模態(tài)大語言模型一直很難做到準(zhǔn)確計數(shù),尤其是在密集場景中。人類在數(shù)東西時,通常會采用一種“系統(tǒng)掃描和累加”的方式,比如從左到右一個個點(diǎn)著數(shù)。但語言模型在對象數(shù)量較多時,很難建立精確的對象對應(yīng)關(guān)系。為了解決這個問題,DeepSeek 使用邊界框作為視覺基元,為每個被計數(shù)對象提供明確的視覺錨點(diǎn)。

也就是說,模型不是直接憑感覺回答“有多少個”,而是先把目標(biāo)對象找出來、框出來,再基于這些框進(jìn)行統(tǒng)計。比如數(shù)一張合照里有多少人,模型會先框出圖中的每個人,再計算總數(shù)。對于更復(fù)雜的細(xì)粒度計數(shù),比如“有幾只熊在地面上”,模型還會先找出所有熊,再逐一判斷它們是在樹上還是在地面,最后得出答案。


報告中還把計數(shù)分成了兩類:一類是粗粒度計數(shù),比如數(shù)“狗”“人”“車”這類普通對象;另一類是細(xì)粒度計數(shù),比如數(shù)“白色的狗”“左邊的狗”“站在地上的熊”。后者不僅要求模型識別對象,還要判斷顏色、位置、狀態(tài)等附加條件。DeepSeek 在這里采用的是“定位—驗(yàn)證—統(tǒng)計”的流程,讓模型先找到候選對象,再逐個判斷是否符合問題條件。

在空間推理任務(wù)上,DeepSeek 也是先讓模型用視覺基元錨定對象,再進(jìn)行關(guān)系判斷。

報告中說,空間推理和一般視覺問答被放在同一個類別里處理,因?yàn)檫@類任務(wù)的共同難點(diǎn)是:如果只用語言描述,模型很容易出現(xiàn)指代模糊和語義漂移。比如“灰色金屬物體”“旁邊那個小物體”“同樣大小的紫色橡膠物體”,這些說法如果不落到具體圖像區(qū)域上,模型在推理過程中很容易把對象搞混。


所以 DeepSeek 的方法是,讓模型先把關(guān)鍵對象框出來,再根據(jù)這些具體對象進(jìn)行多步推理。報告中的例子是,模型需要判斷圖中是否存在一個紫色橡膠物體,和灰色金屬物體大小相同。模型會先定位灰色金屬球,判斷它是小物體;然后再逐一檢查其他小物體,看它們的顏色、材質(zhì)、大小是否匹配。最后模型得出結(jié)論:圖中沒有符合條件的紫色橡膠物體。

在拓?fù)渫评砣蝿?wù)上,DeepSeek 主要使用的是點(diǎn)。

拓?fù)渫评黻P(guān)心的不是某個物體是什么,而是路徑、連通性和結(jié)構(gòu)關(guān)系。比如迷宮里從起點(diǎn)能不能走到終點(diǎn),一堆交錯的線條中,某一條線最終連到哪個圖標(biāo)。這類任務(wù)對多模態(tài)模型尤其困難,因?yàn)樗竽P统掷m(xù)跟蹤路徑,而不是看一眼就回答。

報告中說,純語言的思維鏈很難準(zhǔn)確描述不規(guī)則形狀的軌跡,因此使用點(diǎn)作為認(rèn)知單元的視覺基元,特別適合處理這類問題。


在迷宮導(dǎo)航任務(wù)中,DeepSeek 會讓模型先找到起點(diǎn)和終點(diǎn),然后像做深度優(yōu)先搜索一樣探索路徑。模型每走到一個關(guān)鍵位置,就用點(diǎn)坐標(biāo)記錄下來;如果遇到死路,就回退到前一個岔路口,再嘗試另一條路徑。報告中提到,模型需要理解空間連通性和可達(dá)性,也就是判斷哪里有路、哪里被墻擋住、哪條路徑最終能到達(dá)終點(diǎn)。

在線條追蹤任務(wù)中,模型也會用一串點(diǎn)來表示自己沿著哪條線走。報告中說,這類任務(wù)的核心挑戰(zhàn)是交叉點(diǎn)消歧:當(dāng)兩條線交叉時,模型必須根據(jù)局部幾何連續(xù)性判斷哪一條才是目標(biāo)線的延續(xù),而不是被另一條線帶走。為了防止模型只是靠顏色猜,DeepSeek 還設(shè)計了所有線條顏色和粗細(xì)都一樣的樣本,迫使模型真正根據(jù)曲線連續(xù)性來追蹤路徑。

1

04 視覺基元并不是終點(diǎn)

不過,使用視覺基元進(jìn)行思考,并不意味著視覺推理問題已經(jīng)被徹底解決。它最大的優(yōu)勢,是讓模型的視覺推理變得更穩(wěn)定,也更容易被驗(yàn)證。

這會帶來兩個直接好處。

一是減少幻覺。模型如果要判斷“這里有沒有紫色橡膠物體”,就不能只憑語義猜測,而要先在圖中找出候選物體,再逐一排除。二是提高可解釋性。比如模型說一張圖里有 25 個人,如果它同時框出了這 25 個人,用戶就能判斷它有沒有漏數(shù)、重復(fù)數(shù),或者把其他物體誤認(rèn)成人。

這也是為什么 DeepSeek 的視覺模式在網(wǎng)頁復(fù)刻、迷宮求解、復(fù)雜圖像問答這類場景中會顯得更有用。網(wǎng)頁復(fù)刻需要模型理解頁面里的模塊、層級和布局關(guān)系;迷宮求解需要模型持續(xù)追蹤路徑;復(fù)雜圖像問答則要求模型在多個視覺線索之間來回比對。它們共同需要的不是一句籠統(tǒng)的圖片描述,而是模型能夠穩(wěn)定地“看圖說話”。

另一個優(yōu)勢是效率。報告中提到,DeepSeek 并不是簡單依賴大量視覺 token 來彌補(bǔ)視覺能力,而是通過更高效的視覺 token 壓縮架構(gòu),讓模型在較低圖像 token 消耗下仍然保持較強(qiáng)的推理能力。報告中說,對于 800×800 的輸入圖像,其模型在 KV cache 中只保留大約 90 個條目,卻能在計數(shù)和空間推理等基準(zhǔn)上取得有競爭力的表現(xiàn)。

DeepSeek 想走的路線,并不是無限提高分辨率、堆更多圖像 token,而是讓模型更有效地使用視覺信息。

但這套方法也有局限,報告中提到這類方式有三部分的局限。


首先是受輸入分辨率限制,模型在細(xì)粒度場景下的表現(xiàn)仍然不夠理想,有時會輸出不夠精確的視覺基元。也就是說,如果圖像里的目標(biāo)非常小、細(xì)節(jié)非常密,或者需要識別的區(qū)域邊界很模糊,點(diǎn)和框本身也可能標(biāo)得不準(zhǔn)。視覺基元能改善指代問題,但它不能完全替代感知能力。模型首先要看清楚,才談得上指得準(zhǔn)。

第二個局限,這種能力目前還依賴顯式觸發(fā)。報告中說,當(dāng)前使用視覺基元進(jìn)行思考的能力需要通過明確觸發(fā)詞來激活,未來希望模型能夠根據(jù)具體上下文,自主判斷是否調(diào)用這一機(jī)制。

這意味著,現(xiàn)在模型未必會在每個需要的場景里自動使用這項(xiàng)能力。用戶如果只是普通地問“這張圖里有多少人”“這條路能不能走通”,模型可能仍然用普通語言推理,而不是主動輸出點(diǎn)、框或路徑。真正理想的狀態(tài)應(yīng)該是,模型自己判斷這個問題是否需要精確視覺定位。如果是計數(shù)、路徑、空間關(guān)系這類任務(wù),它就自動拿出“手指”;如果只是描述畫面氛圍,就不必調(diào)用這套機(jī)制。

第三個局限,是拓?fù)渫评砣匀缓茈y。報告中說,使用點(diǎn)作為視覺基元來解決復(fù)雜拓?fù)渫评韱栴},仍然是一項(xiàng)艱巨挑戰(zhàn),目前模型的跨場景泛化能力也有限。

這不難理解。點(diǎn)可以告訴模型“我現(xiàn)在走到哪里”,但點(diǎn)本身并不直接表示“這里和那里是否連通”。在迷宮里,兩個點(diǎn)看起來很近,中間可能隔著一堵墻;在交錯線條中,兩條線可能在視覺上相交,但實(shí)際并不是同一條路徑的延續(xù)。模型不僅要標(biāo)點(diǎn),還要持續(xù)判斷連通關(guān)系、路徑方向和局部幾何連續(xù)性。只要中間某一步走錯,后面的推理就可能全部偏掉。

所以,視覺基元讓模型開始能夠在圖像中定位、比較和追蹤。但要真正處理開放世界里的復(fù)雜視覺問題,還需要更強(qiáng)的感知能力、更穩(wěn)定的自主調(diào)用機(jī)制,以及更好的跨場景泛化能力。

在視覺理解層面,DeepSeek 給出的答案是,讓圖像不再只是輸入材料,而是成為模型推理過程的一部分。模型不只是看見世界,而是開始學(xué)會在世界中找到錨點(diǎn)。

這不像是一個附帶的研究,更像是DeepSeek對視覺的最重要的一個不同的理解。因此這次罕見的刪除論文行為也引起不少遐想,有人認(rèn)為它對于開源模型來說“太強(qiáng)大”了,以至于不適合發(fā)表。真相如何可能要等DeepSeek自己給出解釋了。


點(diǎn)個愛心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
上映多時票房只有零元,一個觀眾都沒有,五一檔最慘電影誕生了

上映多時票房只有零元,一個觀眾都沒有,五一檔最慘電影誕生了

影視高原說
2026-05-01 08:47:30
打服了對手!塞爾比瓦菲、艾倫齊夸贊吳宜澤,他會是斯諾克新冠軍

打服了對手!塞爾比瓦菲、艾倫齊夸贊吳宜澤,他會是斯諾克新冠軍

里芃芃體育
2026-05-03 11:15:13
希金斯:墨菲這屆世錦賽就像神一樣,意志力比拼里我關(guān)鍵黑球手軟

希金斯:墨菲這屆世錦賽就像神一樣,意志力比拼里我關(guān)鍵黑球手軟

楊華評論
2026-05-03 02:48:59
蜜月回家發(fā)現(xiàn)婚房被丈母娘一家十口霸占,我笑著離開并決定離婚

蜜月回家發(fā)現(xiàn)婚房被丈母娘一家十口霸占,我笑著離開并決定離婚

曉艾故事匯
2026-04-05 16:11:46
摩根大通女高管被控性侵已婚印度裔男下屬,女方否認(rèn),公司調(diào)查稱并無證據(jù)

摩根大通女高管被控性侵已婚印度裔男下屬,女方否認(rèn),公司調(diào)查稱并無證據(jù)

紅星新聞
2026-05-02 16:01:48
女子找到工作月薪12000,僅面試一次老板就同意,入職兩天沒人理

女子找到工作月薪12000,僅面試一次老板就同意,入職兩天沒人理

丫頭舫
2026-05-01 22:17:59
網(wǎng)絡(luò)瘋傳賴清德妻子在美國購買億元豪宅,賴辦回應(yīng)了

網(wǎng)絡(luò)瘋傳賴清德妻子在美國購買億元豪宅,賴辦回應(yīng)了

海峽導(dǎo)報社
2026-05-02 10:52:21
倫敦世乒賽最新戰(zhàn)報:國乒2連勝!張本智和慘敗,張本美和轟11-0

倫敦世乒賽最新戰(zhàn)報:國乒2連勝!張本智和慘敗,張本美和轟11-0

羙晞
2026-05-03 09:15:03
中國對非洲國家實(shí)施零關(guān)稅,唯一例外的斯威士蘭格外“搶眼”

中國對非洲國家實(shí)施零關(guān)稅,唯一例外的斯威士蘭格外“搶眼”

深度報
2026-05-02 22:10:20
他是混血兒,出道20年默默無聞,《愛情沒有神話》和王菊搭戲火了

他是混血兒,出道20年默默無聞,《愛情沒有神話》和王菊搭戲火了

芬霏劇時光
2026-05-02 14:14:15
困獸之局:伊朗的窒息時刻

困獸之局:伊朗的窒息時刻

民間胡扯老哥
2026-05-02 11:36:28
誰能想到!日本前首相在中國的土地上發(fā)聲:美國是全球最大威脅!

誰能想到!日本前首相在中國的土地上發(fā)聲:美國是全球最大威脅!

娛樂圈的筆娛君
2026-05-03 12:06:23
1-3大冷!國乒不敵韓國,比輸球還可怕,雪藏王楚欽 暴露3大短板

1-3大冷!國乒不敵韓國,比輸球還可怕,雪藏王楚欽 暴露3大短板

大秦壁虎白話體育
2026-05-03 07:02:21
專家呼吁:馬上停用6種食用油,它是肝癌加速器!再香也別吃

專家呼吁:馬上停用6種食用油,它是肝癌加速器!再香也別吃

橘子約定
2026-05-03 09:43:10
格力原董事長周樂偉投案,全網(wǎng)找董明珠:踢走十年,她憑什么反殺

格力原董事長周樂偉投案,全網(wǎng)找董明珠:踢走十年,她憑什么反殺

戶外釣魚哥阿旱
2026-05-03 03:28:33
晚飯七分飽被推翻了?提醒:過了62歲,吃飯盡量要做到這5點(diǎn)

晚飯七分飽被推翻了?提醒:過了62歲,吃飯盡量要做到這5點(diǎn)

芹姐說生活
2026-05-02 15:28:33
中國代表:要防止朝鮮半島生戰(zhàn)生亂

中國代表:要防止朝鮮半島生戰(zhàn)生亂

新華社
2026-05-01 09:27:03
排隊(duì)8小時充電,今年五一高速上1540萬輛電車打了一場漂亮翻身仗

排隊(duì)8小時充電,今年五一高速上1540萬輛電車打了一場漂亮翻身仗

金哥說新能源車
2026-05-02 14:04:53
霸氣 張雪舉杯邀請現(xiàn)場朋友慶祝奪冠 妻子:全場消費(fèi)都由我們買單

霸氣 張雪舉杯邀請現(xiàn)場朋友慶祝奪冠 妻子:全場消費(fèi)都由我們買單

風(fēng)過鄉(xiāng)
2026-05-03 08:27:36
一位親子鑒定師的自述:我從業(yè)10年,給上千個男人檢測出了綠帽子

一位親子鑒定師的自述:我從業(yè)10年,給上千個男人檢測出了綠帽子

千秋文化
2026-05-02 19:48:10
2026-05-03 12:55:00
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個星球。
3054文章數(shù) 10493關(guān)注度
往期回顧 全部

科技要聞

庫克罕見"拒答"!蘋果正被AI供應(yīng)鏈卡脖子

頭條要聞

上海科技大學(xué)王晨輝教授因營救至親不幸去世 年僅39歲

頭條要聞

上?萍即髮W(xué)王晨輝教授因營救至親不幸去世 年僅39歲

體育要聞

裁判準(zhǔn)備下班,結(jié)果吳宜澤進(jìn)了決賽

娛樂要聞

蔡卓妍婚后首現(xiàn)身 戴結(jié)婚戒指笑容不斷

財經(jīng)要聞

后巴菲特時代,首場股東會透露了啥

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態(tài)度原創(chuàng)

游戲
旅游
本地
時尚
公開課

上線8個月DAU破千萬,這扇“窄門”被瓦手撞開了

旅游要聞

夯!上海人的朋友圈被刷屏!上萬人的震撼場面

本地新聞

用青花瓷的方式,打開西溪濕地

春天別總傻傻穿一身黑,看看這些日常穿搭,高級舒適又優(yōu)雅

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版