国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek“開眼”背后的技術(shù),公開了!

0
分享至


智東西
作者 陳駿達(dá)
編輯 心緣

智東西4月30日報道,今天,DeepSeek發(fā)布多模態(tài)技術(shù)報告《用視覺原語思考(Thinking with Visaul Primitives)》,詳細(xì)闡釋了昨日灰度上線的DeepSeek識圖模式背后的技術(shù)細(xì)節(jié)(DeepSeek終于能看圖了!我第一時間用它算命)


DeepSeek識圖模式所使用的是一個284B參數(shù)、13B激活多模態(tài)推理模型,其正式名稱尚未對外發(fā)布,基座模型是DeepSeek-V4-Flash。DeepSeek稱,這一模型的權(quán)重將整合進(jìn)DeepSeek的基礎(chǔ)模型,并在未來發(fā)布。

當(dāng)前,傳統(tǒng)的思維鏈仍然停留在語言領(lǐng)域,但視覺推理所需要的信息更多。DeepSeek的新一代多模態(tài)推理模型的核心升級就在于,它把純粹的語言推理鏈條,升級成了一種“語言邏輯+空間坐標(biāo)”交織的雙軌思維。

當(dāng)模型對著一張圖進(jìn)行推理時,它是會像人一樣,直接輸出一個具體的框或者點(diǎn),在圖中精準(zhǔn)地“指”出它當(dāng)下正在想的那個東西。

DeepSeek多模態(tài)團(tuán)隊(duì)負(fù)責(zé)人陳小康分享了一張動圖,形象地闡釋了這一運(yùn)作機(jī)制。圖中,DeepSeek多模態(tài)模型可以在思維鏈中使用框進(jìn)行定位,并在后續(xù)的推理步驟中持續(xù)引用這些被框定的視覺錨點(diǎn),基于空間坐標(biāo)進(jìn)行下一步判斷,極大提升了視覺推理的準(zhǔn)確性。


▲DeepSeek多模態(tài)模型推理過程

在一系列高難度視覺QA任務(wù)中,這一模型的表現(xiàn)超過了GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash、Qwen3-VL等模型。


較高的token效率也是這一模型的亮點(diǎn)。與當(dāng)前主流的多模態(tài)大模型將一張圖片轉(zhuǎn)化為成百上千個視覺token不同,DeepSeek這套架構(gòu)通過視覺壓縮策略,將高分辨率圖像從原始像素開始,經(jīng)過ViT特征提取、空間壓縮以及稀疏注意力機(jī)制的多級處理,最終在KV緩存中僅保留約90個視覺條目,實(shí)現(xiàn)超7000倍的壓縮。

這意味著模型在進(jìn)行復(fù)雜空間推理時,無需在海量視覺信息中反復(fù)檢索,思考過程的每一步都較為“輕量”。


項(xiàng)目地址:

https://github.com/deepseek-ai/Thinking-with-Visual-Primitives

技術(shù)報告:

https://github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf

一、自然語言存在“指代鴻溝”,視覺標(biāo)記介入有望破解

這篇論文中,DeepSeek多模態(tài)團(tuán)隊(duì)提出了對現(xiàn)有多模態(tài)大模型缺陷的洞察。過去,當(dāng)業(yè)界談?wù)撎嵘曈X模型的推理能力時,幾乎所有的努力都集中在“感知鴻溝”上,也就是讓模型“看得更清楚”:通過更高分辨率的圖像切分、更精細(xì)的動態(tài)分塊,確保模型不會遺漏圖中的細(xì)節(jié)。

但DeepSeek多模態(tài)團(tuán)隊(duì)認(rèn)為,即便把這一切做到極致,模型依然會在復(fù)雜的視覺推理任務(wù)中崩潰。

自然語言在描述連續(xù)視覺空間時,天然存在一種“指代鴻溝”:當(dāng)你說“左邊那個東西”時,在擁擠的場景中,這個“東西”到底指哪一個,模型無法精確鎖定。

于是,模型的思維鏈條看似環(huán)環(huán)相扣,實(shí)則每一步都存在偏離的風(fēng)險,一旦涉及到密集計數(shù)、多步空間推理或者拓?fù)鋵?dǎo)航這種需要逐步推理的任務(wù),邏輯就會因?yàn)橹复磺宥饾u崩塌。

基于這個判斷,DeepSeek多模態(tài)團(tuán)隊(duì)嘗試讓模型在思考時“邊想邊指”,也就是讓模型用點(diǎn)坐標(biāo)和邊界框來“指”,把這些人類的視覺原語,變成模型思維鏈條上的最小認(rèn)知單元。

架構(gòu)層面,這一多模態(tài)模型通過DeepSeek-ViT負(fù)責(zé)將圖像轉(zhuǎn)換為視覺特征,下圖右下方的文本分詞器負(fù)責(zé)處理用戶的語言指令,兩者輸入至基座模型DeepSeek-V4-Flash進(jìn)行推理融合,最后由去分詞器輸出包含自然語言與視覺原語(如坐標(biāo)框、區(qū)域標(biāo)記)的聯(lián)合響應(yīng)。這種設(shè)計使模型兼顧文本理解能力和原生視覺定位能力。


二、篩選超4000萬個高質(zhì)量樣本,對四類任務(wù)針對性優(yōu)化

要把點(diǎn)和框變成模型思維的一部分,首先要解決的問題,就是如何讓模型真正“學(xué)會指”。模型需要把“指”這個動作內(nèi)化成一種思維習(xí)慣。

為此,DeepSeek多模態(tài)團(tuán)隊(duì)構(gòu)建了一條貫穿預(yù)訓(xùn)練、冷啟動和強(qiáng)化學(xué)習(xí)的訓(xùn)練流水線。

在預(yù)訓(xùn)練階段,他們從互聯(lián)網(wǎng)上爬取了97984個與目標(biāo)檢測相關(guān)的數(shù)據(jù)源,設(shè)計了自動化的語義和幾何質(zhì)量審查機(jī)制,過濾掉亂碼標(biāo)簽、不可泛化的私人實(shí)體、嚴(yán)重截斷的框以及覆蓋全圖90%面積的“巨型框”等低質(zhì)量標(biāo)注,最終篩選出31701個高質(zhì)量數(shù)據(jù)源,總計超過4000萬個的精準(zhǔn)樣本,先讓模型掌握基本定位能力。

接下來是冷啟動數(shù)據(jù)構(gòu)建。DeepSeek多模態(tài)團(tuán)隊(duì)針對計數(shù)、空間推理、迷宮導(dǎo)航和路徑追蹤這四類最能體現(xiàn)視覺原語價值的任務(wù),合成了一套帶有精確思考軌跡監(jiān)督的數(shù)據(jù)。

以計數(shù)任務(wù)為例,模型被明確教導(dǎo),在思考時要先批量框選所有候選對象,然后再對這些錨定好的框進(jìn)行逐一校驗(yàn)和累加。


▲計數(shù)任務(wù)的一條冷啟動數(shù)據(jù)

在迷宮任務(wù)中,模型的每一步探索都必須輸出一個點(diǎn)坐標(biāo)來標(biāo)記當(dāng)前所在,一旦失誤撞墻,整個后續(xù)探索在因果上就自動失效,模型必須學(xué)會回溯。

這種把視覺原語操作直接整合進(jìn)思維鏈的做法,讓模型在冷啟動階段就建立起“指向-推理”的強(qiáng)耦合。

三、采用稠密獎勵機(jī)制,視覺編碼壓縮比超7000倍

有了冷啟動模型之后,DeepSeek多模態(tài)團(tuán)隊(duì)通過一套“訓(xùn)練專家再融合”的后訓(xùn)練策略,將模型的能力進(jìn)一步精細(xì)化。其中的創(chuàng)新點(diǎn)在于強(qiáng)化學(xué)習(xí)階段的獎勵模型。

以迷宮任務(wù)為例,獎勵分解為探索進(jìn)度、撞墻懲罰、路徑有效性和探索完整性等多個維度。模型每正確探索一個單元格、沒有非法穿越墻壁,都會獲得正向信號,而一旦發(fā)生撞墻,即便最終的答案為“可解”,也會被嚴(yán)格扣分。

這種稠密的獎勵機(jī)制,讓模型必須認(rèn)真對待每一個視覺原語操作,無法靠猜答案實(shí)現(xiàn)獎勵破解。

為了同時掌握框定位和點(diǎn)指向這兩種視覺原語,該團(tuán)隊(duì)還分別訓(xùn)練了兩個專家模型,最后通過在線策略蒸餾將它們?nèi)诤铣梢粋€統(tǒng)一模型,讓學(xué)生模型在自己生成的思維軌跡上,學(xué)習(xí)兩位專家老師的輸出分布。這種設(shè)計有效避免了兩種異構(gòu)原語在訓(xùn)練中的相互干擾。

值得一提的是,這項(xiàng)工作的技術(shù)路線建立在一個高效的視覺編碼架構(gòu)之上。

首先,Vision Transformer以14×14的塊大小將圖像切分成視覺token;然后,在ViT輸出端進(jìn)行3×3的空間壓縮,將每9個相鄰token沿通道維度合并為1個;最后,利用模型底座DeepSeek-V4-Flash自帶的壓縮稀疏注意力機(jī)制,將KV緩存中的視覺條目再壓縮4倍。

以一張756×756分辨率的圖像為例,它原本會產(chǎn)生2916個patch token,經(jīng)過三級壓縮后最終僅保留81個視覺KV條目,整體壓縮比高達(dá)7056倍。

這種token效率意味著,模型在展開復(fù)雜的空間推理時擁有了一份“提煉好的索引”,可以拿著索引直接進(jìn)行思考,從工程上就減弱了無關(guān)像素對推理鏈路的干擾。

結(jié)語:多模態(tài)智能的“系統(tǒng)二”進(jìn)化

DeepSeek多模態(tài)團(tuán)隊(duì)也在報告中提到了當(dāng)前技術(shù)的邊界。模型在復(fù)雜拓?fù)渫评砣蝿?wù)上的跨場景泛化能力尚未完善,且思考中視覺基元的激活目前仍依賴顯式的觸發(fā)詞,尚未實(shí)現(xiàn)完全的自發(fā)調(diào)用。

但他們也認(rèn)為,這套框架為多模態(tài)社區(qū)展示了通往系統(tǒng)二級別的多模態(tài)智能的路徑。這一路徑?jīng)]有一味地堆高圖像分辨率,而在構(gòu)建了更精準(zhǔn)從參照指標(biāo)。

用空間坐標(biāo)錨定抽象思維,讓模型像人類一樣“邊指邊想”,這本身就是一個值得繼續(xù)深挖的方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
2萬海員被困霍爾木茲,生活曝光!中國船員:戰(zhàn)機(jī)在空中飛,人在船上刷國旗保命!國際海事組織:整個海域已無安全通行可言

2萬海員被困霍爾木茲,生活曝光!中國船員:戰(zhàn)機(jī)在空中飛,人在船上刷國旗保命!國際海事組織:整個海域已無安全通行可言

每日經(jīng)濟(jì)新聞
2026-05-01 01:05:05
首組搶七!76人再勝凱爾特人總分扳成3-3 費(fèi)城三巨頭合砍72分

首組搶七!76人再勝凱爾特人總分扳成3-3 費(fèi)城三巨頭合砍72分

羅說NBA
2026-05-01 10:34:43
尿酸危機(jī),席卷中國

尿酸危機(jī),席卷中國

DT商業(yè)觀察
2026-04-29 11:59:38
嘴上說只圖長得帥,扒開衣服一看全是褶,田樸珺的濾鏡碎了一地!

嘴上說只圖長得帥,扒開衣服一看全是褶,田樸珺的濾鏡碎了一地!

手工制作阿殲
2026-05-01 04:37:47
掘金半場落后4人傷停森林狼7分 約基奇9+6被打中鼻子狼隊(duì)3人上雙

掘金半場落后4人傷停森林狼7分 約基奇9+6被打中鼻子狼隊(duì)3人上雙

醉臥浮生
2026-05-01 10:50:37
火湖官方更新G6傷情:杜蘭特升級為小概率出戰(zhàn) 東契奇繼續(xù)缺陣

火湖官方更新G6傷情:杜蘭特升級為小概率出戰(zhàn) 東契奇繼續(xù)缺陣

羅說NBA
2026-05-01 06:50:13
剛剛,全線大漲!日本,突然動手了!

剛剛,全線大漲!日本,突然動手了!

中國基金報
2026-04-30 21:33:19
孫楊私生子風(fēng)波升級,處處忍讓的張豆豆,終究不再顧及所謂體面

孫楊私生子風(fēng)波升級,處處忍讓的張豆豆,終究不再顧及所謂體面

一盅情懷
2026-04-30 15:59:37
計劃有變?22歲吳宜澤瘋狂4連鞭 半決賽6-2領(lǐng)先 英國觀眾為他歡呼

計劃有變?22歲吳宜澤瘋狂4連鞭 半決賽6-2領(lǐng)先 英國觀眾為他歡呼

風(fēng)過鄉(xiāng)
2026-05-01 05:20:57
實(shí)力說話!澤連斯基態(tài)度突變非常強(qiáng)勢

實(shí)力說話!澤連斯基態(tài)度突變非常強(qiáng)勢

名人茍或
2026-04-30 22:35:43
孫楊工作室發(fā)布嚴(yán)正聲明:針對相關(guān)不實(shí)信息已向公安機(jī)關(guān)報案,公安機(jī)關(guān)已依法受理

孫楊工作室發(fā)布嚴(yán)正聲明:針對相關(guān)不實(shí)信息已向公安機(jī)關(guān)報案,公安機(jī)關(guān)已依法受理

環(huán)球網(wǎng)資訊
2026-05-01 11:36:16
四川瀘州47歲公益博主“羅二哥”突發(fā)疾病去世:生前參與創(chuàng)立數(shù)百人公益團(tuán)隊(duì),幫學(xué)助困

四川瀘州47歲公益博主“羅二哥”突發(fā)疾病去世:生前參與創(chuàng)立數(shù)百人公益團(tuán)隊(duì),幫學(xué)助困

紅星新聞
2026-05-01 09:31:19
王毅同美國國務(wù)卿魯比奧通電話:元首外交始終是中美關(guān)系的“定盤星”

王毅同美國國務(wù)卿魯比奧通電話:元首外交始終是中美關(guān)系的“定盤星”

極目新聞
2026-04-30 22:55:15
正部級易會滿被“雙開”:貫徹落實(shí)黨中央關(guān)于資本市場重大決策部署陽奉陰違、推諉卸責(zé)

正部級易會滿被“雙開”:貫徹落實(shí)黨中央關(guān)于資本市場重大決策部署陽奉陰違、推諉卸責(zé)

界面新聞
2026-04-30 17:18:06
“擺攤十年還2077萬”?這種侮辱智商的標(biāo)題不能消停下嗎?

“擺攤十年還2077萬”?這種侮辱智商的標(biāo)題不能消停下嗎?

蟬鳴
2026-04-30 20:00:10
孫楊博士入學(xué)資格受質(zhì)疑,上海體育大學(xué)研招辦:已注意到網(wǎng)絡(luò)反映的情況,正調(diào)查跟進(jìn) ;孫楊曾透露其父母均畢業(yè)于上體

孫楊博士入學(xué)資格受質(zhì)疑,上海體育大學(xué)研招辦:已注意到網(wǎng)絡(luò)反映的情況,正調(diào)查跟進(jìn) ;孫楊曾透露其父母均畢業(yè)于上體

大風(fēng)新聞
2026-04-30 22:19:03
51分潰敗出局!大黑馬打回原形:全場鴉雀無聲,2人打架被驅(qū)逐

51分潰敗出局!大黑馬打回原形:全場鴉雀無聲,2人打架被驅(qū)逐

體壇小李
2026-05-01 10:22:34
延遲滿足是偽命題!斯坦福棉花糖實(shí)驗(yàn)被推翻:所謂品格測試,測的其實(shí)是階級

延遲滿足是偽命題!斯坦福棉花糖實(shí)驗(yàn)被推翻:所謂品格測試,測的其實(shí)是階級

齊天候
2026-04-30 13:43:48
1-3落后拖入搶七!35歲喬治系列賽最佳戰(zhàn)躺地慶祝:被贊重返巔峰

1-3落后拖入搶七!35歲喬治系列賽最佳戰(zhàn)躺地慶祝:被贊重返巔峰

顏小白的籃球夢
2026-05-01 10:44:46
別再心疼黃圣依了!楊子和新歡產(chǎn)子,配合演戲的她根本不是傻白甜

別再心疼黃圣依了!楊子和新歡產(chǎn)子,配合演戲的她根本不是傻白甜

阿纂看事
2026-04-30 11:07:23
2026-05-01 11:56:49
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專注報道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)變革。
11741文章數(shù) 117059關(guān)注度
往期回顧 全部

科技要聞

蘋果上季在華收入繼續(xù)大增 iPhone收入新高

頭條要聞

遼寧艦遭日本偵察機(jī)偵察 解放軍一句警告讓其放棄企圖

頭條要聞

遼寧艦遭日本偵察機(jī)偵察 解放軍一句警告讓其放棄企圖

體育要聞

季后賽場均5.4分,他憑啥在騎士打首發(fā)?

娛樂要聞

鄧超在景德鎮(zhèn)被偶遇,穿黑外套逛茶園

財經(jīng)要聞

GPU神話松動,AI真正的戰(zhàn)場變了

汽車要聞

專訪捷途汪如生:捷途雙線作戰(zhàn) 全球化全面落地

態(tài)度原創(chuàng)

教育
時尚
數(shù)碼
游戲
房產(chǎn)

教育要聞

今天上午9點(diǎn),環(huán)球中心!成都150所中學(xué)集結(jié),等你來咨詢

今年夏天的裙子,長長長長一點(diǎn)更好看!

數(shù)碼要聞

升級了個寂寞!酷睿Ultra 9 386H跑分曝光:性能戰(zhàn)平上代285H

曝Steam主機(jī)即將到來!V社突然到貨大量"游戲主機(jī)"

房產(chǎn)要聞

熬了6年,漲了2億,三亞核心區(qū)這塊地再次上架

無障礙瀏覽 進(jìn)入關(guān)懷版