国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

剛剛,DeepSeek多模態(tài)技術(shù)范式公布,以視覺原語思考

0
分享至



機(jī)器之心編輯部

雖遲但到,五一長假將至,DeepSeek 給大家公開新技術(shù)了。

昨天,DeepSeek 陳小康一個(gè) X 消息,讓大家開始關(guān)注 DeepSeek 的多模態(tài)。



之后,一些用戶就已經(jīng)可以在 DeepSeek 網(wǎng)頁端和 App 上體驗(yàn)其多模態(tài)能力。

而就在剛剛,DeepSeek 在 Github 上正式發(fā)布了多模態(tài)模型,公布了背后的技術(shù)報(bào)告。



實(shí)打?qū)嵉男迈r出爐!而且是開創(chuàng)性的推理范式。



  • 項(xiàng)目地址:https://github.com/deepseek-ai/Thinking-with-Visual-Primitives
  • 技術(shù)報(bào)告:https://github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf

下面我們就基于 DeepSeek 這篇技術(shù)報(bào)告,具體看看 DeepSeek、北京大學(xué)、清華大學(xué)又創(chuàng)造了怎樣的奇跡。

這篇論文名叫「Thinking with Visual Primitives(以視覺原語思考)」。它提出的問題,幾乎擊中了當(dāng)前所有多模態(tài)大模型的軟肋:這些模型能「看見」,但不一定能「想清楚」。

給一張密集的人群照片,問 GPT-5.4「圖里有多少人」,它很可能數(shù)錯(cuò)。給 Claude Sonnet 4.6 一張復(fù)雜電路圖,問「左邊的紅色電容在右邊電感的左側(cè)還是右側(cè)」,它的回答往往語焉不詳,甚至前后矛盾。這不是模型看不清圖片的問題,而是模型在「思考」時(shí)根本抓不住它想談的視覺對(duì)象。

DeepSeek 把這個(gè)問題命名為「Reference Gap」(指代鴻溝),并給出了一套完整的解法。

背景:「看清」和「想清」是兩件事

要理解這個(gè)問題,先想象你在向一個(gè)看不見你屏幕的朋友描述一張復(fù)雜的棋盤布局。你說「左邊那個(gè)棋子要吃掉中間偏右一點(diǎn)那個(gè)棋子」,然而對(duì)方根本不知道你在說哪兩顆棋子。

這正是現(xiàn)有多模態(tài)大模型在推理時(shí)的處境。它們用自然語言構(gòu)建「思維鏈」(CoT),但自然語言天生模糊:「左邊那個(gè)大的」、「靠近中央的紅色物體」,這些描述在密集場景里根本無法精確定位。模型的注意力在推理過程中逐漸「漂移」,越說越亂,最后得出錯(cuò)誤結(jié)論。

學(xué)術(shù)界此前的應(yīng)對(duì)方案,主要是讓模型「看得更清楚」:對(duì)圖片進(jìn)行高分辨率切割、動(dòng)態(tài)分塊,確保模型能感知到細(xì)節(jié)。這解決的是「感知鴻溝」(Perception Gap)。

但 DeepSeek 的論文指出,感知能力再強(qiáng),也代替不了精確的「指代能力」?!缚匆姟购汀改苷f清楚在說哪個(gè)」,是兩件不同的事。

架構(gòu):站在 V4-Flash 肩膀上

這項(xiàng)工作以 DeepSeek 剛發(fā)布的 V4-Flash 為語言主干 —— 這是一個(gè) 284B 總參數(shù)、推理時(shí)激活 13B 參數(shù)的混合專家模型(MoE)。視覺編碼部分則使用 DeepSeek 自研的 ViT(視覺 Transformer),支持任意分辨率輸入。



值得注意的是,這支團(tuán)隊(duì)的核心貢獻(xiàn)在于提出了一套完整的「訓(xùn)練哲學(xué)」:如何用極少的視覺 token,教會(huì)模型在推理過程中精確指代視覺對(duì)象。

核心創(chuàng)新一:把坐標(biāo)變成「思維單元」

這篇論文最核心的思路,用一句話說就是:把點(diǎn)坐標(biāo)和邊界框(Bounding Box)變成推理的基本單位,像文字一樣穿插在思維鏈里。

傳統(tǒng)做法中,邊界框是輸出的一部分:模型先想清楚,再告訴你「目標(biāo)在圖片左上角坐標(biāo) [100,200,300,400]」。這是事后標(biāo)注,不是思考工具。

DeepSeek 的做法不同。模型在推理過程中,每當(dāng)提到一個(gè)視覺對(duì)象,就同步輸出它的坐標(biāo):

「掃描圖片尋找熊,找到一只 <|ref|> 熊 <|/ref|><|box|>[[452,23,804,411]]<|/box|>,它正在爬樹,不在地面上,排除。再往左下看,找到另一只 <|ref|> 熊 <|/ref|><|box|>[[50,447,647,771]]<|/box|>,站在巖石邊緣,符合條件。」

這就像人類在數(shù)東西時(shí)會(huì)用手指逐一點(diǎn)過去。坐標(biāo)不再是答案,而是推理過程中消除歧義的「錨點(diǎn)」。模型的邏輯鏈被釘在圖片的物理坐標(biāo)上,不會(huì)漂移。

這套機(jī)制有兩種「原語」(Primitives):邊界框(<|box|>)用于需要定位和尺寸信息的對(duì)象;點(diǎn)坐標(biāo)(<|point|>)用于更抽象的空間指代,比如迷宮探索軌跡或曲線追蹤路徑。

核心創(chuàng)新二:7056 倍的視覺壓縮

另一個(gè)令人印象深刻的技術(shù)創(chuàng)新,來自架構(gòu)層面的壓縮。

對(duì)于一張 756×756 的圖片,傳統(tǒng)方案需要大量視覺 token 喂給語言模型。DeepSeek 的流程是這樣的:圖片先經(jīng)過 ViT 處理,生成 2916 個(gè)圖像塊 token;再經(jīng)過 3×3 空間壓縮,合并為 324 個(gè) token 輸入語言模型;最后,內(nèi)置在 V4-Flash 里的「壓縮稀疏注意力」(Compressed Sparse Attention,CSA)機(jī)制,將 KV 緩存進(jìn)一步壓縮 4 倍,最終只剩 81 個(gè)視覺 KV 條目。

從原始像素到最終緩存條目,整體壓縮比為 7056 倍。

這意味著,對(duì)于一張 800×800 的圖片,這個(gè)模型只需要約 90 個(gè) KV 緩存條目,而 Claude Sonnet 4.6 需要約 870 個(gè),Gemini-3-Flash 需要約 1100 個(gè)。論文的論點(diǎn)是:精確的空間指代能力,可以在一定程度上彌補(bǔ)視覺 token 不足的問題。模型不需要「看更多」,而需要「指更準(zhǔn)」。

核心創(chuàng)新三:冷啟動(dòng)數(shù)據(jù)的精心設(shè)計(jì)

技術(shù)創(chuàng)新的第三個(gè)維度,在于訓(xùn)練數(shù)據(jù)的構(gòu)建方式。

團(tuán)隊(duì)首先爬取了近 10 萬個(gè)與目標(biāo)檢測相關(guān)的數(shù)據(jù)集,經(jīng)過兩輪嚴(yán)格篩選(語義審核和幾何質(zhì)量審核),最終保留約 3.17 萬個(gè)高質(zhì)量數(shù)據(jù)源,生成超過 4000 萬條訓(xùn)練樣本。

在「思考與視覺原語」的專項(xiàng)冷啟動(dòng)數(shù)據(jù)上,團(tuán)隊(duì)設(shè)計(jì)了四類任務(wù)。

第一類是計(jì)數(shù),分粗粒度(「圖里有多少人」)和細(xì)粒度(「穿藍(lán)色衣服的人有幾個(gè)」)兩種。對(duì)于粗粒度計(jì)數(shù),模型學(xué)習(xí)「批量鎖定」—— 一次性框出所有候選對(duì)象再數(shù);對(duì)于細(xì)粒度計(jì)數(shù),則學(xué)習(xí)逐一掃描、逐一核對(duì)屬性。兩種策略對(duì)應(yīng)不同認(rèn)知負(fù)荷,分別訓(xùn)練。



第二類是空間推理和視覺問答,大量利用 GQA 數(shù)據(jù)集(自然場景)和 CLEVR 工具鏈(可控合成場景)生成多跳推理樣本,迫使模型在每一步推理時(shí)都用邊界框鎖定涉及的對(duì)象。



第三類是迷宮導(dǎo)航,共生成 46 萬條樣本。團(tuán)隊(duì)用 DFS(深度優(yōu)先搜索)、Prim 和 Kruskal 算法生成矩形、圓形、六邊形三種拓?fù)浣Y(jié)構(gòu)的迷宮,并專門設(shè)計(jì)了「表面可解但實(shí)際無解」的迷宮來訓(xùn)練模型的魯棒性。模型需要用點(diǎn)坐標(biāo)記錄每一步探索軌跡,回溯時(shí)也要用坐標(biāo)標(biāo)記已排除路徑。



第四類是路徑追蹤,共 12.5 萬條樣本。給定一張多條貝塞爾曲線相互交叉的圖,要求模型追蹤指定起點(diǎn)的曲線到達(dá)終點(diǎn)。關(guān)鍵挑戰(zhàn)在于「交叉歧義消解」:兩條線交叉時(shí),模型必須判斷哪一條才是目標(biāo)曲線的延續(xù),而不是用顏色取巧 —— 專門設(shè)計(jì)了所有曲線顏色相同的測試版本。



訓(xùn)練流程:「先分家,再合體」

后訓(xùn)練階段,團(tuán)隊(duì)采用「先專家化,后統(tǒng)一」的策略。

第一步,用邊界框數(shù)據(jù)和點(diǎn)坐標(biāo)數(shù)據(jù)分別訓(xùn)練兩個(gè)專家模型(FTwG 和 FTwP),避免兩種模態(tài)在數(shù)據(jù)量較少時(shí)互相干擾。

第二步,對(duì)兩個(gè)專家模型各自進(jìn)行強(qiáng)化學(xué)習(xí)(RL),使用 GRPO 算法。獎(jiǎng)勵(lì)設(shè)計(jì)非常精細(xì):格式獎(jiǎng)勵(lì)(輸出格式是否正確)、質(zhì)量獎(jiǎng)勵(lì)(LLM 評(píng)判思考內(nèi)容和答案是否一致)、精度獎(jiǎng)勵(lì)(任務(wù)特定)三路并行。計(jì)數(shù)任務(wù)使用平滑指數(shù)衰減獎(jiǎng)勵(lì)而非二值對(duì)錯(cuò),迷宮任務(wù)的獎(jiǎng)勵(lì)分解為五個(gè)子項(xiàng)(因果探索進(jìn)度、探索完整性、穿墻懲罰、路徑有效性、答案正確性),都是為了給模型提供密集而信息豐富的學(xué)習(xí)信號(hào)。

第三步,用兩個(gè)專家模型的 rollout 數(shù)據(jù)進(jìn)行統(tǒng)一的強(qiáng)化微調(diào)(Unified RFT),再從預(yù)訓(xùn)練模型重新初始化開始訓(xùn)練,得到統(tǒng)一模型 F。

第四步,用 On-Policy Distillation(在線策略蒸餾)彌合統(tǒng)一模型與專家模型之間的性能差距 —— 讓學(xué)生模型自己生成軌跡,然后最小化其輸出分布與專家分布之間的 KL 散度。

實(shí)驗(yàn)結(jié)果:在「最難的那類題」上超越 GPT-5.4

論文在 11 個(gè)基準(zhǔn)測試上進(jìn)行了評(píng)測,與 Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6、Gemma4-31B、Qwen3-VL-235B 等主流模型對(duì)比(所有 frontier 模型均通過 API 評(píng)測,使用統(tǒng)一提示詞)。



結(jié)果概要如下:

  • 在計(jì)數(shù)任務(wù)上,該模型在 Pixmo-Count(精確匹配)上得分 89.2%,超過 Gemini-3-Flash 的 88.2%,大幅領(lǐng)先 GPT-5.4 的 76.6% 和 Claude Sonnet 4.6 的 68.7%。在細(xì)粒度計(jì)數(shù)上(DS_Finegrained_Counting),以 88.7% 超過 Qwen3-VL 的 87.2%,位居第一。
  • 在空間推理的多個(gè)基準(zhǔn)上,整體表現(xiàn)與頭部模型持平或略有超越,在 MIHBench(85.3%)和 SpatialMQA(69.4%)上均排名第一。
  • 最具代表性的差距出現(xiàn)在拓?fù)渫评砣蝿?wù)上。在迷宮導(dǎo)航(DS_Maze_Navigation)上,該模型得分 66.9%,而 GPT-5.4 為 50.6%、Gemini-3-Flash 為 49.4%、Claude Sonnet 4.6 為 48.9%—— 所有 frontier 模型都只能答對(duì)一半,而這個(gè)模型提升了約 17 個(gè)百分點(diǎn)。在路徑追蹤(DS_Path_Tracing)上,該模型 56.7% vs. GPT-5.4 的 46.5%、Gemini-3-Flash 的 41.4%,差距同樣懸殊。

論文誠實(shí)地指出:「所有 frontier 模型在拓?fù)渫评砣蝿?wù)上均表現(xiàn)欠佳,說明多模態(tài)大模型的推理能力仍有相當(dāng)大的提升空間?!?/p>

下面展示了幾個(gè)定性示例:







局限與未來

論文沒有回避幾個(gè)已知的局限性。

  • 當(dāng)前模型需要明確的「觸發(fā)詞」才會(huì)啟用視覺原語機(jī)制 —— 它還不能自主判斷什么時(shí)候該「用手指」。
  • 受輸入分辨率限制,在極細(xì)粒度的視覺場景中,視覺原語的位置偶爾會(huì)不夠精準(zhǔn)。團(tuán)隊(duì)認(rèn)為與現(xiàn)有高分辨率感知方案的結(jié)合是自然的下一步。
  • 用點(diǎn)坐標(biāo)解決復(fù)雜拓?fù)渫评韱栴},目前的跨場景泛化能力仍然有限。

結(jié)語:一種新的「思考姿勢」

這篇論文的意義,不只是在幾個(gè)榜單上拿了第一。

它提出的問題 ——「推理過程中語言指代的歧義性是多模態(tài)模型的根本瓶頸之一」—— 在此之前并不是學(xué)界的主流敘事。

主流的努力方向是更大的模型、更高的分辨率、更多的訓(xùn)練數(shù)據(jù)。這篇論文給出了另一條路:不是讓模型「看更多」,而是讓模型「指更準(zhǔn)」,用坐標(biāo)代替語言描述,用空間錨點(diǎn)穩(wěn)定邏輯鏈。

從這個(gè)角度看,「Thinking with Visual Primitives」更像是在給多模態(tài)推理增添一種「思考姿勢」—— 一種人類在處理復(fù)雜視覺任務(wù)時(shí)本能就會(huì)使用、但 AI 此前一直缺失的姿勢:用手指點(diǎn)著想。

更多詳情請(qǐng)參閱原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
炸裂!高校教授136頁P(yáng)DF丑聞:玩弄女學(xué)生,出軌已婚女,細(xì)節(jié)曝光

炸裂!高校教授136頁P(yáng)DF丑聞:玩弄女學(xué)生,出軌已婚女,細(xì)節(jié)曝光

李晚書
2026-04-30 13:36:16
“開除韓國瑜”風(fēng)暴升級(jí),季麟連被逼道歉辭職,鄭麗文被圍攻逼宮

“開除韓國瑜”風(fēng)暴升級(jí),季麟連被逼道歉辭職,鄭麗文被圍攻逼宮

共工之錨
2026-04-30 13:27:18
尿酸危機(jī),席卷中國

尿酸危機(jī),席卷中國

DT商業(yè)觀察
2026-04-29 11:59:38
2025年農(nóng)民工月均收入5075元,比上年增加114元

2025年農(nóng)民工月均收入5075元,比上年增加114元

新京報(bào)
2026-04-30 15:06:03
鐵路員工抽煙后續(xù):12306一錘定音,當(dāng)事人道歉,輿論反撲舉報(bào)者

鐵路員工抽煙后續(xù):12306一錘定音,當(dāng)事人道歉,輿論反撲舉報(bào)者

閱微札記
2026-04-30 19:31:48
俄取消閱兵式上裝備展示,澤連斯基回懟萬斯

俄取消閱兵式上裝備展示,澤連斯基回懟萬斯

難得君
2026-04-30 13:42:42
央視怒批哪吒破產(chǎn),百億國資被霍霍精光

央視怒批哪吒破產(chǎn),百億國資被霍霍精光

新浪財(cái)經(jīng)
2026-04-30 10:08:50
華為請(qǐng)他代言,27分鐘賣了一萬多臺(tái)車,整個(gè)車圈都傻了

華為請(qǐng)他代言,27分鐘賣了一萬多臺(tái)車,整個(gè)車圈都傻了

茶余飯好
2026-04-29 11:14:32
易會(huì)滿被“雙開”:搞權(quán)色、錢色交易,為他人上市審批等謀利,非法收受巨額財(cái)物

易會(huì)滿被“雙開”:搞權(quán)色、錢色交易,為他人上市審批等謀利,非法收受巨額財(cái)物

澎湃新聞
2026-04-30 18:12:29
340億買到一場空!拿不回安世半導(dǎo)體的聞泰科技為何先走向退市?

340億買到一場空!拿不回安世半導(dǎo)體的聞泰科技為何先走向退市?

傳心財(cái)經(jīng)
2026-04-30 15:24:53
王石“裸泳”再登熱搜!網(wǎng)友:身體非常好了,精氣神兒不輸小年輕

王石“裸泳”再登熱搜!網(wǎng)友:身體非常好了,精氣神兒不輸小年輕

火山詩話
2026-04-30 10:27:30
福州大學(xué)一學(xué)生稱自己5年前的研究生畢業(yè)動(dòng)畫作品被合肥工業(yè)大學(xué)三名學(xué)生盜用,且獲國獎(jiǎng);合肥工業(yè)大學(xué):已了解相關(guān)情況,正在核實(shí)

福州大學(xué)一學(xué)生稱自己5年前的研究生畢業(yè)動(dòng)畫作品被合肥工業(yè)大學(xué)三名學(xué)生盜用,且獲國獎(jiǎng);合肥工業(yè)大學(xué):已了解相關(guān)情況,正在核實(shí)

三湘都市報(bào)
2026-04-30 16:03:54
只用 9 年!一半歐洲人想買中國車,北京車展德國高管冷清到扎心

只用 9 年!一半歐洲人想買中國車,北京車展德國高管冷清到扎心

青木在德國
2026-04-29 06:26:06
第一夫人扛不住了!布麗吉特開口談婚姻:9年沒有正常夫妻生活

第一夫人扛不住了!布麗吉特開口談婚姻:9年沒有正常夫妻生活

白露文娛志
2026-04-29 14:05:20
斬殺中年男性的三件套:陽痿、失業(yè)和心梗!

斬殺中年男性的三件套:陽痿、失業(yè)和心梗!

燈錦年
2026-04-30 10:04:05
他們說的話,我連標(biāo)點(diǎn)符號(hào)都不信

他們說的話,我連標(biāo)點(diǎn)符號(hào)都不信

胖胖說他不胖
2026-04-30 17:31:31
日本航司慌了!八成歐洲航班要過中國領(lǐng)空,新民航法直戳日本要害

日本航司慌了!八成歐洲航班要過中國領(lǐng)空,新民航法直戳日本要害

聞香閣
2026-04-29 14:05:57
洛陽白馬寺發(fā)布鄭重聲明:不少游客因通過非官方第三方渠道購買非法倒賣的預(yù)約門票,導(dǎo)致無法正常入寺,切勿輕信

洛陽白馬寺發(fā)布鄭重聲明:不少游客因通過非官方第三方渠道購買非法倒賣的預(yù)約門票,導(dǎo)致無法正常入寺,切勿輕信

極目新聞
2026-04-29 18:10:47
孫楊前女友爆猛料!孫楊有私生子,其母心理變態(tài),排斥他所有女友

孫楊前女友爆猛料!孫楊有私生子,其母心理變態(tài),排斥他所有女友

葉公子
2026-04-30 15:55:23
珠海風(fēng)云,千億國資帝國虧空迷局

珠海風(fēng)云,千億國資帝國虧空迷局

栗滴財(cái)經(jīng)
2026-04-30 18:22:14
2026-04-30 23:47:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12898文章數(shù) 142640關(guān)注度
往期回顧 全部

科技要聞

9000億美元估值,Anthropic即將反超OpenAI

頭條要聞

英國國王給特朗普送了口鐘 還貼臉開大"有需要盡管敲"

頭條要聞

英國國王給特朗普送了口鐘 還貼臉開大"有需要盡管敲"

體育要聞

季后賽場均5.4分,他憑啥在騎士打首發(fā)?

娛樂要聞

孫楊博士學(xué)歷有問題?官方含糊其辭

財(cái)經(jīng)要聞

易會(huì)滿被“雙開”!

汽車要聞

專訪捷途汪如生:捷途雙線作戰(zhàn) 全球化全面落地

態(tài)度原創(chuàng)

健康
教育
時(shí)尚
房產(chǎn)
本地

干細(xì)胞治燒燙傷面臨這些“瓶頸”

教育要聞

事關(guān)高中教輔,市教委最新要求來了

春天穿衣要杜絕老氣感!衣服選對(duì)、搭配到位,減齡舒適又得體

房產(chǎn)要聞

熬了6年,漲了2億,三亞核心區(qū)這塊地再次上架

本地新聞

用青花瓷的方式,打開西溪濕地

無障礙瀏覽 進(jìn)入關(guān)懷版