国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek“開(kāi)眼”背后的技術(shù),公開(kāi)了!

0
分享至


智東西
作者 陳駿達(dá)
編輯 心緣

智東西4月30日?qǐng)?bào)道,今天,DeepSeek發(fā)布多模態(tài)技術(shù)報(bào)告《用視覺(jué)原語(yǔ)思考(Thinking with Visaul Primitives)》,詳細(xì)闡釋了昨日灰度上線的DeepSeek識(shí)圖模式背后的技術(shù)細(xì)節(jié)(DeepSeek終于能看圖了!我第一時(shí)間用它算命)。


DeepSeek識(shí)圖模式所使用的是一個(gè)284B參數(shù)、13B激活多模態(tài)推理模型,其正式名稱尚未對(duì)外發(fā)布,基座模型是DeepSeek-V4-Flash。DeepSeek稱,這一模型的權(quán)重將整合進(jìn)DeepSeek的基礎(chǔ)模型,并在未來(lái)發(fā)布。

當(dāng)前,傳統(tǒng)的思維鏈仍然停留在語(yǔ)言領(lǐng)域,但視覺(jué)推理所需要的信息更多。DeepSeek的新一代多模態(tài)推理模型的核心升級(jí)就在于,它把純粹的語(yǔ)言推理鏈條,升級(jí)成了一種“語(yǔ)言邏輯+空間坐標(biāo)”交織的雙軌思維。

當(dāng)模型對(duì)著一張圖進(jìn)行推理時(shí),它是會(huì)像人一樣,直接輸出一個(gè)具體的框或者點(diǎn),在圖中精準(zhǔn)地“指”出它當(dāng)下正在想的那個(gè)東西。

DeepSeek多模態(tài)團(tuán)隊(duì)負(fù)責(zé)人陳小康分享了一張動(dòng)圖,形象地闡釋了這一運(yùn)作機(jī)制。圖中,DeepSeek多模態(tài)模型可以在思維鏈中使用框進(jìn)行定位,并在后續(xù)的推理步驟中持續(xù)引用這些被框定的視覺(jué)錨點(diǎn),基于空間坐標(biāo)進(jìn)行下一步判斷,極大提升了視覺(jué)推理的準(zhǔn)確性。


▲DeepSeek多模態(tài)模型推理過(guò)程

在一系列高難度視覺(jué)QA任務(wù)中,這一模型的表現(xiàn)超過(guò)了GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash、Qwen3-VL等模型。


較高的token效率也是這一模型的亮點(diǎn)。與當(dāng)前主流的多模態(tài)大模型將一張圖片轉(zhuǎn)化為成百上千個(gè)視覺(jué)token不同,DeepSeek這套架構(gòu)通過(guò)視覺(jué)壓縮策略,將高分辨率圖像從原始像素開(kāi)始,經(jīng)過(guò)ViT特征提取、空間壓縮以及稀疏注意力機(jī)制的多級(jí)處理,最終在KV緩存中僅保留約90個(gè)視覺(jué)條目,實(shí)現(xiàn)超7000倍的壓縮。

這意味著模型在進(jìn)行復(fù)雜空間推理時(shí),無(wú)需在海量視覺(jué)信息中反復(fù)檢索,思考過(guò)程的每一步都較為“輕量”。


項(xiàng)目地址:

https://github.com/deepseek-ai/Thinking-with-Visual-Primitives

技術(shù)報(bào)告:

https://github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf

一、自然語(yǔ)言存在“指代鴻溝”,視覺(jué)標(biāo)記介入有望破解

這篇論文中,DeepSeek多模態(tài)團(tuán)隊(duì)提出了對(duì)現(xiàn)有多模態(tài)大模型缺陷的洞察。過(guò)去,當(dāng)業(yè)界談?wù)撎嵘曈X(jué)模型的推理能力時(shí),幾乎所有的努力都集中在“感知鴻溝”上,也就是讓模型“看得更清楚”:通過(guò)更高分辨率的圖像切分、更精細(xì)的動(dòng)態(tài)分塊,確保模型不會(huì)遺漏圖中的細(xì)節(jié)。

但DeepSeek多模態(tài)團(tuán)隊(duì)認(rèn)為,即便把這一切做到極致,模型依然會(huì)在復(fù)雜的視覺(jué)推理任務(wù)中崩潰。

自然語(yǔ)言在描述連續(xù)視覺(jué)空間時(shí),天然存在一種“指代鴻溝”:當(dāng)你說(shuō)“左邊那個(gè)東西”時(shí),在擁擠的場(chǎng)景中,這個(gè)“東西”到底指哪一個(gè),模型無(wú)法精確鎖定。

于是,模型的思維鏈條看似環(huán)環(huán)相扣,實(shí)則每一步都存在偏離的風(fēng)險(xiǎn),一旦涉及到密集計(jì)數(shù)、多步空間推理或者拓?fù)鋵?dǎo)航這種需要逐步推理的任務(wù),邏輯就會(huì)因?yàn)橹复磺宥饾u崩塌。

基于這個(gè)判斷,DeepSeek多模態(tài)團(tuán)隊(duì)嘗試讓模型在思考時(shí)“邊想邊指”,也就是讓模型用點(diǎn)坐標(biāo)和邊界框來(lái)“指”,把這些人類的視覺(jué)原語(yǔ),變成模型思維鏈條上的最小認(rèn)知單元。

架構(gòu)層面,這一多模態(tài)模型通過(guò)DeepSeek-ViT負(fù)責(zé)將圖像轉(zhuǎn)換為視覺(jué)特征,下圖右下方的文本分詞器負(fù)責(zé)處理用戶的語(yǔ)言指令,兩者輸入至基座模型DeepSeek-V4-Flash進(jìn)行推理融合,最后由去分詞器輸出包含自然語(yǔ)言與視覺(jué)原語(yǔ)(如坐標(biāo)框、區(qū)域標(biāo)記)的聯(lián)合響應(yīng)。這種設(shè)計(jì)使模型兼顧文本理解能力和原生視覺(jué)定位能力。


二、篩選超4000萬(wàn)個(gè)高質(zhì)量樣本,對(duì)四類任務(wù)針對(duì)性優(yōu)化

要把點(diǎn)和框變成模型思維的一部分,首先要解決的問(wèn)題,就是如何讓模型真正“學(xué)會(huì)指”。模型需要把“指”這個(gè)動(dòng)作內(nèi)化成一種思維習(xí)慣。

為此,DeepSeek多模態(tài)團(tuán)隊(duì)構(gòu)建了一條貫穿預(yù)訓(xùn)練、冷啟動(dòng)和強(qiáng)化學(xué)習(xí)的訓(xùn)練流水線。

在預(yù)訓(xùn)練階段,他們從互聯(lián)網(wǎng)上爬取了97984個(gè)與目標(biāo)檢測(cè)相關(guān)的數(shù)據(jù)源,設(shè)計(jì)了自動(dòng)化的語(yǔ)義和幾何質(zhì)量審查機(jī)制,過(guò)濾掉亂碼標(biāo)簽、不可泛化的私人實(shí)體、嚴(yán)重截?cái)嗟目蛞约案采w全圖90%面積的“巨型框”等低質(zhì)量標(biāo)注,最終篩選出31701個(gè)高質(zhì)量數(shù)據(jù)源,總計(jì)超過(guò)4000萬(wàn)個(gè)的精準(zhǔn)樣本,先讓模型掌握基本定位能力。

接下來(lái)是冷啟動(dòng)數(shù)據(jù)構(gòu)建。DeepSeek多模態(tài)團(tuán)隊(duì)針對(duì)計(jì)數(shù)、空間推理、迷宮導(dǎo)航和路徑追蹤這四類最能體現(xiàn)視覺(jué)原語(yǔ)價(jià)值的任務(wù),合成了一套帶有精確思考軌跡監(jiān)督的數(shù)據(jù)。

以計(jì)數(shù)任務(wù)為例,模型被明確教導(dǎo),在思考時(shí)要先批量框選所有候選對(duì)象,然后再對(duì)這些錨定好的框進(jìn)行逐一校驗(yàn)和累加。


▲計(jì)數(shù)任務(wù)的一條冷啟動(dòng)數(shù)據(jù)

在迷宮任務(wù)中,模型的每一步探索都必須輸出一個(gè)點(diǎn)坐標(biāo)來(lái)標(biāo)記當(dāng)前所在,一旦失誤撞墻,整個(gè)后續(xù)探索在因果上就自動(dòng)失效,模型必須學(xué)會(huì)回溯。

這種把視覺(jué)原語(yǔ)操作直接整合進(jìn)思維鏈的做法,讓模型在冷啟動(dòng)階段就建立起“指向-推理”的強(qiáng)耦合。

三、采用稠密獎(jiǎng)勵(lì)機(jī)制,視覺(jué)編碼壓縮比超7000倍

有了冷啟動(dòng)模型之后,DeepSeek多模態(tài)團(tuán)隊(duì)通過(guò)一套“訓(xùn)練專家再融合”的后訓(xùn)練策略,將模型的能力進(jìn)一步精細(xì)化。其中的創(chuàng)新點(diǎn)在于強(qiáng)化學(xué)習(xí)階段的獎(jiǎng)勵(lì)模型。

以迷宮任務(wù)為例,獎(jiǎng)勵(lì)分解為探索進(jìn)度、撞墻懲罰、路徑有效性和探索完整性等多個(gè)維度。模型每正確探索一個(gè)單元格、沒(méi)有非法穿越墻壁,都會(huì)獲得正向信號(hào),而一旦發(fā)生撞墻,即便最終的答案為“可解”,也會(huì)被嚴(yán)格扣分。

這種稠密的獎(jiǎng)勵(lì)機(jī)制,讓模型必須認(rèn)真對(duì)待每一個(gè)視覺(jué)原語(yǔ)操作,無(wú)法靠猜答案實(shí)現(xiàn)獎(jiǎng)勵(lì)破解。

為了同時(shí)掌握框定位和點(diǎn)指向這兩種視覺(jué)原語(yǔ),該團(tuán)隊(duì)還分別訓(xùn)練了兩個(gè)專家模型,最后通過(guò)在線策略蒸餾將它們?nèi)诤铣梢粋€(gè)統(tǒng)一模型,讓學(xué)生模型在自己生成的思維軌跡上,學(xué)習(xí)兩位專家老師的輸出分布。這種設(shè)計(jì)有效避免了兩種異構(gòu)原語(yǔ)在訓(xùn)練中的相互干擾。

值得一提的是,這項(xiàng)工作的技術(shù)路線建立在一個(gè)高效的視覺(jué)編碼架構(gòu)之上。

首先,Vision Transformer以14×14的塊大小將圖像切分成視覺(jué)token;然后,在ViT輸出端進(jìn)行3×3的空間壓縮,將每9個(gè)相鄰token沿通道維度合并為1個(gè);最后,利用模型底座DeepSeek-V4-Flash自帶的壓縮稀疏注意力機(jī)制,將KV緩存中的視覺(jué)條目再壓縮4倍。

以一張756×756分辨率的圖像為例,它原本會(huì)產(chǎn)生2916個(gè)patch token,經(jīng)過(guò)三級(jí)壓縮后最終僅保留81個(gè)視覺(jué)KV條目,整體壓縮比高達(dá)7056倍。

這種token效率意味著,模型在展開(kāi)復(fù)雜的空間推理時(shí)擁有了一份“提煉好的索引”,可以拿著索引直接進(jìn)行思考,從工程上就減弱了無(wú)關(guān)像素對(duì)推理鏈路的干擾。

結(jié)語(yǔ):多模態(tài)智能的“系統(tǒng)二”進(jìn)化

DeepSeek多模態(tài)團(tuán)隊(duì)也在報(bào)告中提到了當(dāng)前技術(shù)的邊界。模型在復(fù)雜拓?fù)渫评砣蝿?wù)上的跨場(chǎng)景泛化能力尚未完善,且思考中視覺(jué)基元的激活目前仍依賴顯式的觸發(fā)詞,尚未實(shí)現(xiàn)完全的自發(fā)調(diào)用。

但他們也認(rèn)為,這套框架為多模態(tài)社區(qū)展示了通往系統(tǒng)二級(jí)別的多模態(tài)智能的路徑。這一路徑?jīng)]有一味地堆高圖像分辨率,而在構(gòu)建了更精準(zhǔn)從參照指標(biāo)。

用空間坐標(biāo)錨定抽象思維,讓模型像人類一樣“邊指邊想”,這本身就是一個(gè)值得繼續(xù)深挖的方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
3-1擊敗向鵬!國(guó)乒19歲1米86新星進(jìn)化:世界第11爭(zhēng)當(dāng)?shù)谌揞^?

3-1擊敗向鵬!國(guó)乒19歲1米86新星進(jìn)化:世界第11爭(zhēng)當(dāng)?shù)谌揞^?

李喜林籃球絕殺
2026-04-30 19:30:20
哈里王子正式宣布,將制定自己的王室規(guī)則,英國(guó)王室面臨艱難抉擇

哈里王子正式宣布,將制定自己的王室規(guī)則,英國(guó)王室面臨艱難抉擇

人物檔案局
2026-04-30 14:07:46
追覓首談造車:與小米同期啟動(dòng),不必?zé)锨|

追覓首談造車:與小米同期啟動(dòng),不必?zé)锨|

虎嗅APP
2026-04-29 22:06:59
吳宜澤:打進(jìn)四強(qiáng)很興奮,對(duì)陣瓦菲不用花太多時(shí)間處理安全球

吳宜澤:打進(jìn)四強(qiáng)很興奮,對(duì)陣瓦菲不用花太多時(shí)間處理安全球

林子說(shuō)事
2026-04-30 08:54:29
爭(zhēng)議!孫楊博士學(xué)歷有問(wèn)題?官方回應(yīng)含糊其辭 網(wǎng)友:參加節(jié)目虧麻了

爭(zhēng)議!孫楊博士學(xué)歷有問(wèn)題?官方回應(yīng)含糊其辭 網(wǎng)友:參加節(jié)目虧麻了

科學(xué)發(fā)掘
2026-04-30 14:16:40
德國(guó)巨頭想不通:被嘲笑造拖拉機(jī)的安徽合肥,竟把他們擠出前三

德國(guó)巨頭想不通:被嘲笑造拖拉機(jī)的安徽合肥,竟把他們擠出前三

正經(jīng)的燒杯1
2026-04-30 16:45:49
太離譜!臺(tái)灣網(wǎng)友呼吁別買“大疆”,要買“DJI”,評(píng)論區(qū)笑瘋了

太離譜!臺(tái)灣網(wǎng)友呼吁別買“大疆”,要買“DJI”,評(píng)論區(qū)笑瘋了

譚談社會(huì)
2026-04-30 16:02:57
局勢(shì)逆轉(zhuǎn),穆杰塔巴沒(méi)說(shuō)大話!伊朗為了給中國(guó)供油打算全力一搏

局勢(shì)逆轉(zhuǎn),穆杰塔巴沒(méi)說(shuō)大話!伊朗為了給中國(guó)供油打算全力一搏

無(wú)意爭(zhēng)春
2026-04-30 23:10:33
湯尤杯淘汰賽:國(guó)羽女隊(duì)晉級(jí)四強(qiáng),湯杯抽簽再遇馬來(lái)西亞

湯尤杯淘汰賽:國(guó)羽女隊(duì)晉級(jí)四強(qiáng),湯杯抽簽再遇馬來(lái)西亞

羽毛球雜志
2026-04-30 21:23:46
海關(guān)總署:即日起允許符合要求的西班牙開(kāi)心果和無(wú)花果干進(jìn)口

海關(guān)總署:即日起允許符合要求的西班牙開(kāi)心果和無(wú)花果干進(jìn)口

證券時(shí)報(bào)
2026-04-30 14:40:08
葉新萍被查后續(xù):舉報(bào)人再爆院長(zhǎng)兒子吃空餉,而且是體育生進(jìn)醫(yī)院

葉新萍被查后續(xù):舉報(bào)人再爆院長(zhǎng)兒子吃空餉,而且是體育生進(jìn)醫(yī)院

看盡落塵花q
2026-04-30 18:06:51
CBA公司給山西隊(duì)開(kāi)出了一份大罰單!

CBA公司給山西隊(duì)開(kāi)出了一份大罰單!

體育哲人
2026-04-30 17:13:37
瓦菲:吳宜澤怎么打都能得分 我都沒(méi)犯錯(cuò) 就莫名輸了四五局球

瓦菲:吳宜澤怎么打都能得分 我都沒(méi)犯錯(cuò) 就莫名輸了四五局球

羅克
2026-04-30 09:05:36
楊子離婚 3個(gè)月就和新歡產(chǎn)子,黃圣依17年青春喂了狗,體面盡失

楊子離婚 3個(gè)月就和新歡產(chǎn)子,黃圣依17年青春喂了狗,體面盡失

橙星文娛
2026-04-29 10:30:58
斯諾克世錦賽徹底亂了:隨著羅伯遜10-13,世界前三都無(wú)緣爭(zhēng)冠

斯諾克世錦賽徹底亂了:隨著羅伯遜10-13,世界前三都無(wú)緣爭(zhēng)冠

側(cè)身凌空斬
2026-04-30 06:20:50
歐聯(lián)之王!過(guò)去5個(gè)完整的歐聯(lián)賽季埃梅里都闖入決賽,4次奪冠

歐聯(lián)之王!過(guò)去5個(gè)完整的歐聯(lián)賽季埃梅里都闖入決賽,4次奪冠

懂球帝
2026-04-30 22:00:08
尷尬??!雷軍一條五一福利博文,評(píng)論區(qū)98%,都是米粉股民的哭訴

尷尬??!雷軍一條五一福利博文,評(píng)論區(qū)98%,都是米粉股民的哭訴

火山詩(shī)話
2026-04-30 15:33:52
尤伯杯:國(guó)羽3-0橫掃大馬晉級(jí)4強(qiáng)!圣壇苦戰(zhàn)獲勝,陳雨菲一錘定音

尤伯杯:國(guó)羽3-0橫掃大馬晉級(jí)4強(qiáng)!圣壇苦戰(zhàn)獲勝,陳雨菲一錘定音

釘釘陌上花開(kāi)
2026-04-30 19:17:12
伊能靜被偶遇,穿緊身裙胯大腰粗,與秦昊十指緊扣像小女人

伊能靜被偶遇,穿緊身裙胯大腰粗,與秦昊十指緊扣像小女人

仙味少女心
2026-04-29 20:44:51
深蹲,被嚴(yán)重低估了!研究提示:每天堅(jiān)持5分鐘,能預(yù)防6種疾病

深蹲,被嚴(yán)重低估了!研究提示:每天堅(jiān)持5分鐘,能預(yù)防6種疾病

增肌減脂
2026-04-30 19:15:09
2026-05-01 00:32:49
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專注報(bào)道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來(lái)的千行百業(yè)產(chǎn)業(yè)變革。
11741文章數(shù) 117059關(guān)注度
往期回顧 全部

科技要聞

9000億美元估值,Anthropic即將反超OpenAI

頭條要聞

英國(guó)國(guó)王給特朗普送了口鐘 還貼臉開(kāi)大"有需要盡管敲"

頭條要聞

英國(guó)國(guó)王給特朗普送了口鐘 還貼臉開(kāi)大"有需要盡管敲"

體育要聞

季后賽場(chǎng)均5.4分,他憑啥在騎士打首發(fā)?

娛樂(lè)要聞

孫楊博士學(xué)歷有問(wèn)題?官方含糊其辭

財(cái)經(jīng)要聞

易會(huì)滿被“雙開(kāi)”!

汽車要聞

專訪捷途汪如生:捷途雙線作戰(zhàn) 全球化全面落地

態(tài)度原創(chuàng)

健康
房產(chǎn)
本地
家居
公開(kāi)課

干細(xì)胞治燒燙傷面臨這些“瓶頸”

房產(chǎn)要聞

熬了6年,漲了2億,三亞核心區(qū)這塊地再次上架

本地新聞

用青花瓷的方式,打開(kāi)西溪濕地

家居要聞

靈動(dòng)實(shí)用 生活藝術(shù)場(chǎng)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版