国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

CVPR 2026|清華聯(lián)合美團(tuán)推出3DThinker,首個(gè)用3D意象思考的工作

0
分享至



大家是否有這樣的感覺?給定幾張場(chǎng)景中拍攝的圖片,往往能夠在腦海中想象出這個(gè)場(chǎng)景的三維布局,然而當(dāng)前的多模態(tài)大模型還停留于純文本或者 2D 視覺的推理表示,限制了圖像中隱含幾何結(jié)構(gòu)的表達(dá)能力。

為此,清華大學(xué)聯(lián)合美團(tuán)研究團(tuán)隊(duì)推出 3DThinker—— 首個(gè) 3D 版的「think with image」!



  • 論文地址:https://arxiv.org/pdf/2510.18632
  • 代碼地址:https://github.com/zhangquanchen/3DThinker

接下來,就來看看 3DThinker 是如何做的。

從「think with image」到「think with 3D」

多模態(tài)大模型的推理能力提升一直以來是研究的重點(diǎn)和熱點(diǎn)。人類往往能夠根據(jù)幾張拍攝的 RGB 圖像中推斷空間關(guān)系,而當(dāng)前多模態(tài)大模型在空間理解任務(wù)上表現(xiàn)較弱。背后的核心原因在于多模態(tài)大模型缺乏對(duì)圖像中幾何信息的提取能力。

為解決此問題,之前的方法可以分為兩類:

  1. 依賴純文本或二維視覺線索的強(qiáng)推理(例如進(jìn)行認(rèn)知圖的推理),這類方法往往依賴于繁瑣的數(shù)據(jù)標(biāo)注;
  2. 通過輸入增強(qiáng)(例如引入深度圖、點(diǎn)云等先驗(yàn)信息),這類方法往往依賴于外部工具調(diào)用,不是內(nèi)蘊(yùn)的模型能力,且推理存在負(fù)擔(dān)。



而 3DThinker 提出了一種全新的思路,在無需 3D 標(biāo)注(例如點(diǎn)云)、無需外部工具的情況下,讓模型在推理過程中內(nèi)蘊(yùn)地「想象」三維場(chǎng)景。

具體來說,該框架讓模型在生成推理鏈時(shí),自動(dòng)插入一段緊湊的隱變量,作為其腦內(nèi)構(gòu)建的三維場(chǎng)景表征,這段生成的表征通過蒸餾 3D 基礎(chǔ)模型(VGGT)來獲得。

核心思路:二段式學(xué)習(xí)用 3D 思考

3DThinker 提出了雙階段的訓(xùn)練策略來完成潛空間對(duì)齊,包括:(i) 監(jiān)督訓(xùn)練過程中,將預(yù)訓(xùn)練的 3D 特征蒸餾進(jìn)入模型推理路徑,實(shí)現(xiàn)模型從二維數(shù)據(jù)的幾何信息提取,而不依賴于任何先驗(yàn);(ii) 強(qiáng)化訓(xùn)練過程中,在保持 3D latent 穩(wěn)定的同時(shí),僅僅依賴結(jié)果信號(hào)優(yōu)化整個(gè)采樣軌跡,從而實(shí)現(xiàn)模型的能力飛躍。



S1:以 3D 基礎(chǔ)模型為指導(dǎo),建立模型推理行為

在一階段的監(jiān)督訓(xùn)練中,首先構(gòu)造了攜帶 3D special token 的 cot 數(shù)據(jù),基于該數(shù)據(jù)進(jìn)行監(jiān)督訓(xùn)練,訓(xùn)練過程中,3DThinker 將對(duì)所有 special token 所對(duì)應(yīng)的 3D latent(last layer hidden state)通過 projetor 映射到 VGGT 的潛空間,并將兩者的對(duì)齊作為第一項(xiàng)損失函數(shù):



其中,projector 基于堆疊 6 層 MLP 實(shí)現(xiàn)三次特征維度映射,具體框圖如下:



而第二項(xiàng)損失函數(shù)是除去 special token 后的文本交叉熵?fù)p失:



其中,第一項(xiàng)損失函數(shù)在于保證 3D latent 的表征對(duì)齊;第二項(xiàng)在于保證自然語言的連貫性嵌入。

S2:以結(jié)果信號(hào)為基礎(chǔ),優(yōu)化含 3D 意象的軌跡

在一階段后,已經(jīng)初步實(shí)現(xiàn)了模型 think with 3D 的表征對(duì)齊;接下來,基于強(qiáng)化學(xué)習(xí),在只有結(jié)果信號(hào)的情況下,優(yōu)化整條采樣軌跡,包括其中的 3D latent。

具體來說,3DThinker 設(shè)計(jì)了一個(gè) 3D latent 對(duì)齊的獎(jiǎng)勵(lì):



也就是說,3DThinker 會(huì)提取自回歸生成的 3D latent,并于 VGGT 特征保持一致性,從而保證 RL 采樣過程中不丟失幾何表達(dá)。

另一方面,3DThinker 也參照先前方法的 outcome-based RL 保持了結(jié)果的二值化獎(jiǎng)勵(lì)以及格式獎(jiǎng)勵(lì),最后基于 GRPO 進(jìn)行優(yōu)化。

提升到新高度的結(jié)果

論文在多個(gè)空間理解的 BMK 上驗(yàn)證了 3DThinker 的效果。

方法首先在 MindCube 的 10K 數(shù)據(jù)上構(gòu)造了帶有 3D special token 的推理鏈數(shù)據(jù),并基于兩個(gè)階段進(jìn)行訓(xùn)練,下表報(bào)告了訓(xùn)練后的模型效果,在 MindCube-Tiny 上,針對(duì)不同尺寸的模型,相比 base 整體提升了 51.8% 到 108.8%;在 Ego3D-Bench 上,則提升了 18.1% 到 36.9%。



以 Qwen2.5-VL-3B 基礎(chǔ)模型為例,在監(jiān)督訓(xùn)練上,模型相比需要 CGMap 標(biāo)注的訓(xùn)練超過了+ 1.9 pp(62.7 vs. 60.8);加入強(qiáng)化學(xué)習(xí)后,3DThinker 也獲得了+ 4.5 pp(75.2 vs. 70.7) 的提升,彰顯了 3DThinker 訓(xùn)練方法的有效性。



另一方面,以自制的大規(guī)模訓(xùn)練數(shù)據(jù)為基礎(chǔ),模型進(jìn)一步在更多全面的測(cè)試基準(zhǔn)上進(jìn)行了評(píng)估。

以 Qwen2.5-VL-3B 為例,該方法相比之前的 SOTA+10.8 pp(49.6->60.4);以 Qwen2.5-VL-7B 為例,該方法相比之前的 SOTA+16.3pp(48.4->64.7)。結(jié)果顯示,3DThinker 提升到一個(gè)新的水位,在各類基準(zhǔn)上均出現(xiàn)了顯著提升的跡象。



可解釋性

3DThinker 的另一個(gè)顯著特征在于某種程度上具備可解釋性。

這意味著,3D latent 通過設(shè)計(jì)的 projector 可以直接恢復(fù)出 3D 表示,從而使模型推理不再完全「開黑盒」。有趣的是,3DThinker 觀察到,和 prompt 高度相關(guān)的區(qū)域點(diǎn)云密度往往更高。



從「看圖說話」到「看圖想空間」,3DThinker 打開了 VLM 推理一種新的思路。

3DThinker 巧妙之處,在于它找到了一條「無監(jiān)督蒸餾」的路徑:不需要昂貴的 3D 標(biāo)注數(shù)據(jù),也不依賴外部深度傳感器,而是讓模型在推理過程中自發(fā)「腦補(bǔ)」出三維場(chǎng)景。

這種「思維即幾何」的設(shè)計(jì)哲學(xué),某種程度上復(fù)刻了人類的空間認(rèn)知本能。當(dāng) 3D 想象與具身智能結(jié)合,當(dāng)空間推理可以實(shí)時(shí)反饋修正,或許正在接近一個(gè)能真正「看懂」物理世界的 AI。

作者簡(jiǎn)介

本文第一作者為陳樟權(quán),清華大學(xué)數(shù)據(jù)科學(xué)和信息技術(shù)博士在讀。研究方向?yàn)槎嗄B(tài)大語言模型推理、強(qiáng)化學(xué)習(xí)、三維視覺。在 CVPR、ICCV、ICLR 等人工智能頂級(jí)會(huì)議或期刊上發(fā)表論文近 10 篇。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
史詩(shī)級(jí)封殺!2000萬網(wǎng)紅“聽風(fēng)的蠶”徹底涼了

史詩(shī)級(jí)封殺!2000萬網(wǎng)紅“聽風(fēng)的蠶”徹底涼了

互聯(lián)網(wǎng)品牌官
2026-02-12 01:17:23
向佐出席活動(dòng)當(dāng)眾踢腿,直接從主持人臉上掃過,對(duì)方后退臉色變了

向佐出席活動(dòng)當(dāng)眾踢腿,直接從主持人臉上掃過,對(duì)方后退臉色變了

韓小娛
2026-03-11 11:31:42
勁爆:城建崗上栽跟頭,又一個(gè)被紀(jì)委“帶走”~

勁爆:城建崗上栽跟頭,又一個(gè)被紀(jì)委“帶走”~

俯瞰江蘇
2026-03-11 13:02:25
地產(chǎn)大佬一個(gè)個(gè)在香港隔岸觀火

地產(chǎn)大佬一個(gè)個(gè)在香港隔岸觀火

包郵區(qū)
2026-03-09 11:37:16
楊瀾參加車展,全程被冷落無人在意,丈夫吳征大腹便便不正眼看她

楊瀾參加車展,全程被冷落無人在意,丈夫吳征大腹便便不正眼看她

法老不說教
2026-03-10 18:08:15
太炸裂!曝許雅鈞用大S出殯照搭訕女粉絲!劣行曝光房貸都是小S還

太炸裂!曝許雅鈞用大S出殯照搭訕女粉絲!劣行曝光房貸都是小S還

烏娛子醬
2026-03-11 14:08:16
1974年我國(guó)參加亞運(yùn)會(huì),鄧小平說:要讓給伊朗一塊金牌,還人情債

1974年我國(guó)參加亞運(yùn)會(huì),鄧小平說:要讓給伊朗一塊金牌,還人情債

帝哥說史
2026-01-06 06:35:03
荷蘭總部突然斷網(wǎng)!安世半導(dǎo)體鎖死系統(tǒng),中國(guó)區(qū)晶圓積壓!

荷蘭總部突然斷網(wǎng)!安世半導(dǎo)體鎖死系統(tǒng),中國(guó)區(qū)晶圓積壓!

Thurman在昆明
2026-03-10 21:25:41
京東有獎(jiǎng)發(fā)票活動(dòng)火了!有人中10萬現(xiàn)金 有人連中4次最高獎(jiǎng)

京東有獎(jiǎng)發(fā)票活動(dòng)火了!有人中10萬現(xiàn)金 有人連中4次最高獎(jiǎng)

快科技
2026-03-10 17:24:14
白忙活一場(chǎng)!退位的賈國(guó)龍撕下僅剩的體面,羅永浩沉默了

白忙活一場(chǎng)!退位的賈國(guó)龍撕下僅剩的體面,羅永浩沉默了

奇思妙想生活家
2026-03-10 18:38:48
就在伊朗隔壁,富得流油,卻比朝鮮還封閉,入境仍要核酸!

就在伊朗隔壁,富得流油,卻比朝鮮還封閉,入境仍要核酸!

走吧自駕游
2026-03-09 15:33:17
隨著湖人大勝14分,勇士輸6分,西部最新排名出爐!森林狼下滑第5

隨著湖人大勝14分,勇士輸6分,西部最新排名出爐!森林狼下滑第5

薇說體育
2026-03-11 15:06:09
原來她是孫千媽媽,全國(guó)開70家店,舅舅更不一般,難怪女兒這么紅

原來她是孫千媽媽,全國(guó)開70家店,舅舅更不一般,難怪女兒這么紅

以茶帶書
2026-03-10 16:19:47
伊朗已抓捕 30名間諜 81名內(nèi)鬼

伊朗已抓捕 30名間諜 81名內(nèi)鬼

每日經(jīng)濟(jì)新聞
2026-03-11 09:21:00
小米正式官宣:3月10日,新機(jī)正式開售

小米正式官宣:3月10日,新機(jī)正式開售

科技堡壘
2026-03-10 09:54:33
馬化騰凌晨2點(diǎn)發(fā)聲:還有一批龍蝦系產(chǎn)品陸續(xù)趕來

馬化騰凌晨2點(diǎn)發(fā)聲:還有一批龍蝦系產(chǎn)品陸續(xù)趕來

第一財(cái)經(jīng)資訊
2026-03-11 11:40:16
還沒焐熱就腰斬,MacBook Neo4599元發(fā)布2429元到手,比買iPad還劃算?

還沒焐熱就腰斬,MacBook Neo4599元發(fā)布2429元到手,比買iPad還劃算?

齊魯壹點(diǎn)
2026-03-10 10:38:15
北大才女李天樂:赴美留學(xué),入職頂尖藥企,用金屬鉈毒殺清華丈夫

北大才女李天樂:赴美留學(xué),入職頂尖藥企,用金屬鉈毒殺清華丈夫

相思賦予誰a
2026-03-11 07:31:26
萬萬沒想到!兩會(huì)最火提案不是醫(yī)療和就業(yè),而是霍啟剛的這一舉動(dòng)

萬萬沒想到!兩會(huì)最火提案不是醫(yī)療和就業(yè),而是霍啟剛的這一舉動(dòng)

瀲滟晴方DAY
2026-03-05 18:42:38
知名投資大佬墜樓身亡

知名投資大佬墜樓身亡

深度報(bào)
2026-03-10 22:39:29
2026-03-11 15:56:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12471文章數(shù) 142582關(guān)注度
往期回顧 全部

科技要聞

騰訊急了急了,微信絕密AI智能體首度曝光

頭條要聞

上海女子的保險(xiǎn)箱被偷痛哭報(bào)警 怕現(xiàn)男友誤會(huì)隱瞞真相

頭條要聞

上海女子的保險(xiǎn)箱被偷痛哭報(bào)警 怕現(xiàn)男友誤會(huì)隱瞞真相

體育要聞

郭艾倫重傷,CBA下半賽季還能期待些什么

娛樂要聞

楊冪連續(xù)五年為劉詩(shī)詩(shī)慶生,劉詩(shī)詩(shī)回應(yīng)

財(cái)經(jīng)要聞

油價(jià)大轉(zhuǎn)頭?一天,從末日到曙光!

汽車要聞

蓮花糾偏, 馮擎峰的“收”與“守”

態(tài)度原創(chuàng)

親子
手機(jī)
數(shù)碼
本地
公開課

親子要聞

這一幕又萌又治愈,22個(gè)月大的寶寶在院子里慵懶躺倒曬太陽

手機(jī)要聞

“全球最平整折疊屏手機(jī)”O(jiān)PPO Find N6技術(shù)公布

數(shù)碼要聞

郭明錤預(yù)測(cè)2026蘋果筆記本出貨量同比增20~25%

本地新聞

這檔韓國(guó)玄學(xué)綜藝,讓多少人看得頭皮發(fā)麻

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版