英偉達(dá)3D模型打造“AI建筑師特工隊(duì)”，8位華人合著，包括千問實(shí)習(xí)生

2026-02-03 18:11:11　來源: 智東西

北京舉報

分享至

智東西
作者王涵
編輯心緣

智東西2月3日報道，近期，英偉達(dá)宣布其全新3D通用模型論文將發(fā)表于2026國際3D視覺會議，論文的預(yù)印本已于去年7月發(fā)表。這篇論文構(gòu)建出了一種建構(gòu)3D世界的新范式，驗(yàn)證了“AI生成的3D合成數(shù)據(jù)”可規(guī)?；娲斯?biāo)注數(shù)據(jù)，能夠大幅降低視覺模型預(yù)訓(xùn)練的成本。

論文的主要成果為3D-GENERALIST模型，該模型使用統(tǒng)一化框架，將3D環(huán)境生成的四大核心要素即布局、材質(zhì)、光照、資產(chǎn)等統(tǒng)一到序貫決策框架中。研究團(tuán)隊(duì)還提出了基于CLIP評分的自改進(jìn)微調(diào)策略，可以讓模型在下一輪生成中能自主修正前序錯誤。

這篇論文的作者有8位華人，第一二作者都是中國留學(xué)生，清華“姚班”出身的斯坦福大學(xué)助理教授吳佳俊也名列其中。

CES 2025上，英偉達(dá)正式推出世界基礎(chǔ)模型平臺Cosmos。在CES 2026的演講中，黃仁勛依舊將“Physical AI”作為了整場發(fā)布的核心靈魂，正式將Cosmos定位為Physical AI的“底層代碼”與“世界模擬器”。此外，黃仁勛還發(fā)布了Cosmos Reason 2，讓AI不僅生成世界，還能用自然語言進(jìn)行鏈?zhǔn)揭蚬评怼?/p>

3D-GENERALIST這一技術(shù)會給英偉達(dá)的Cosmos補(bǔ)全哪塊拼圖？又是如何實(shí)現(xiàn)技術(shù)突破的？我們試圖從論文中尋找答案。

論文鏈接：https://arxiv.org/abs/2507.06484

一、現(xiàn)有痛點(diǎn)：只是在生成3D圖像，杯子水杯不能獨(dú)立交互

當(dāng)前可交互3D環(huán)境的創(chuàng)建仍面臨諸多痛點(diǎn)。

例如，現(xiàn)有技術(shù)往往聚焦于3D生成的單一環(huán)節(jié)，僅優(yōu)化布局或合成紋理，難以實(shí)現(xiàn)全要素的協(xié)同優(yōu)化。

且現(xiàn)有技術(shù)生成的場景缺乏可分離、可操作的物體和表面，即便借助大語言模型或擴(kuò)散模型的方法，現(xiàn)有成果也難以通過擴(kuò)展計算資源提升生成質(zhì)量。生成的數(shù)據(jù)也不適合需要精準(zhǔn)標(biāo)注的合成數(shù)據(jù)應(yīng)用或機(jī)器人交互仿真場景，與下游任務(wù)對3D環(huán)境的質(zhì)量要求存在差距。

簡單來說，現(xiàn)有技術(shù)只是在生成一個整體的3D圖像，虛擬世界中的杯子、書本沒辦法獨(dú)立交互。

而3D-GENERALIST就是來解決這些痛點(diǎn)的。

二、研究方法：引入自改進(jìn)機(jī)制，讓擴(kuò)散模型畫圖、VLM指揮、API執(zhí)行

斯坦福和英偉達(dá)研究團(tuán)隊(duì)的核心思路就是將一個“設(shè)計師”擴(kuò)展為一個“建筑師團(tuán)隊(duì)”，把搭房子的工作細(xì)化，每個步驟交給專門的人去做。

具體來講，研究團(tuán)隊(duì)首先通過全景擴(kuò)散模型生成360°引導(dǎo)圖像，這一步就相當(dāng)于先畫了一張戶型圖，之后的建設(shè)都要按照這一圖像來。

然后，研究團(tuán)隊(duì)提出了“場景性策略”，一共分為三步：

首先利用HorizonNet提取房間基礎(chǔ)結(jié)構(gòu)，搭好房梁結(jié)構(gòu)，后通過Grounded-SAM技術(shù)，在識別好的墻體上，分割出門和窗戶的具體區(qū)域。最后再由GPT-4o等VLM（視覺語言模型）標(biāo)注門窗類型與材質(zhì)，通過程序化生成構(gòu)建帶基礎(chǔ)構(gòu)件的3D房間。

搭好毛坯房后，研究團(tuán)隊(duì)以VLM作為決策“大腦”，向其輸入含坐標(biāo)標(biāo)記、資產(chǎn)名稱標(biāo)記的多視角場景渲染圖和文本提示。

隨后VLM會直接輸出代碼形式的具體動作指令，比如添加資產(chǎn)、調(diào)整光照、更換材質(zhì)等，這些代碼指令會對接3D環(huán)境的工具API，API自動執(zhí)行指令，實(shí)時更新整個3D房間。

為了讓虛擬場景中的每一個物體都能實(shí)現(xiàn)獨(dú)立交互，研究團(tuán)隊(duì)還針對性設(shè)計了一套資產(chǎn)級優(yōu)化策略。

具體來看，團(tuán)隊(duì)先借助GPT-4o識別出場景中可承載小物件的容器類資產(chǎn)，例如桌子、書架等載體，再通過基于網(wǎng)格的表面檢測技術(shù)，精準(zhǔn)定位這些載體上適合放置物品的有效區(qū)域。

隨后，團(tuán)隊(duì)引入擅長像素級精細(xì)推理的視覺語言模型Molmo-7B，進(jìn)一步確定小物體的具體放置像素點(diǎn)，并通過3D射線轉(zhuǎn)換，將像素位置換算為高精度的3D空間坐標(biāo)。

結(jié)合碰撞檢測技術(shù)，3D-GENERALIST最終實(shí)現(xiàn)如把書擺到桌上、把筆放在書上這類貼合現(xiàn)實(shí)邏輯的交互效果。

此外，3D-GENERALIST背后還有3大關(guān)鍵技術(shù)做支撐：

首先研究團(tuán)隊(duì)引入了自改進(jìn)微調(diào)機(jī)制，模型在每輪微調(diào)中會生成多個候選動作序列，通過CLIP評分篩選出與文本提示最對齊的最優(yōu)動作，再用該最優(yōu)動作對VLM進(jìn)行監(jiān)督微調(diào)，以此提升模型自我修正能力。

其次，研究團(tuán)隊(duì)還規(guī)范了場景領(lǐng)域特定語言，定義了類別、放置位置、材質(zhì)、光照等核心描述符，規(guī)范VLM輸出的動作指令格式，確保其與工具API兼容。

研究團(tuán)隊(duì)使用的上下文庫收錄能顯著提升CLIP對齊分?jǐn)?shù)的動作代碼片段，生成時隨機(jī)采樣作為示例，提升動作序列的多樣性和有效性。

三、成績驗(yàn)證：物理合理性99%，合成數(shù)據(jù)訓(xùn)練效果接近真實(shí)數(shù)據(jù)

在模擬就緒3D環(huán)境生成任務(wù)中，3D-GENERALIST的3D環(huán)境生成質(zhì)量層級全面超越LayoutGPT、Holodeck、LayoutVLM等基線方法。

物理合理性方面，3D-GENERALIST的無碰撞分?jǐn)?shù)達(dá)99.0，邊界內(nèi)分?jǐn)?shù)達(dá)98.0。語義一致性方面，其位置連貫性和旋轉(zhuǎn)連貫性的分?jǐn)?shù)分別為78.2和79.1，綜合物理語義對齊分?jǐn)?shù)達(dá)67.9，遠(yuǎn)高于基線最高值58.8。

經(jīng)3輪自改進(jìn)微調(diào)后，3D-GENERALIST的CLIP分?jǐn)?shù)達(dá)0.275，顯著高于無微調(diào)版本和無上下文庫版本，且能迭代修正場景缺陷。

資產(chǎn)級策略生成的場景平均CLIP分?jǐn)?shù)達(dá)0.282，高于基線方法的0.269，可自然實(shí)現(xiàn)小物體的語義對齊和物理合理放置，避免物體重疊。

自改進(jìn)微調(diào)技術(shù)的引入還降低了VLM的視覺幻覺率，在Object HalBench和AMBER基準(zhǔn)測試中，微調(diào)后模型的幻覺相關(guān)指標(biāo)均優(yōu)于原始GPT-4o。

基于3D-GENERALIST生成的合成數(shù)據(jù)預(yù)訓(xùn)練視覺模型ImageNet-1K Top-1，使用86萬條標(biāo)簽訓(xùn)練時，準(zhǔn)確率達(dá)0.731，超過基于人工構(gòu)建的HyperSim數(shù)據(jù)集。

當(dāng)標(biāo)簽量擴(kuò)展至1217萬條時，ImageNet-1K Top-1準(zhǔn)確率提升至0.776，接近基于50億真實(shí)數(shù)據(jù)訓(xùn)練的模型效果，驗(yàn)證了其在合成數(shù)據(jù)規(guī)?；缮系膬?yōu)勢。

四、研究團(tuán)隊(duì)：8個華人，創(chuàng)企CEO、清華姚班天才，還有Qwen實(shí)習(xí)生

除了研究本身，論文的作者欄也十分引人矚目。

該篇論文的第一作者Fan-Yun Sun是斯坦福大學(xué)AI實(shí)驗(yàn)室（SAIL）的計算機(jī)科學(xué)博士生，隸屬于Autonomous Agents Lab和斯坦福視覺與學(xué)習(xí)實(shí)驗(yàn)室（SVL）。

在讀博期間，他也深度參與了英偉達(dá)研究院的工作，曾效力于學(xué)習(xí)與感知研究組、Metropolis深度學(xué)習(xí)（Omniverse）以及自動駕駛汽車研究組。

他的研究興趣主要在于生成具身環(huán)境與數(shù)據(jù)，用于訓(xùn)練機(jī)器人和強(qiáng)化學(xué)習(xí)策略，致力于推動具身、多模態(tài)基礎(chǔ)模型及其推理能力的發(fā)展。

此外，他還創(chuàng)辦了AI游戲公司Moonlake，是一家專注于交互式世界構(gòu)建的前沿人工智能實(shí)驗(yàn)室，融合了多模態(tài)推理和世界建模。

該創(chuàng)企此前已從Threshold Ventures、AIX Ventures和NVentureS（NVIDIA的風(fēng)險投資部門）籌集了2800萬美元（約合人民幣1.95億元）的種子資金。

第二作者Shengguang Wu目前是斯坦福大學(xué)計算機(jī)科學(xué)系的博士生，在北京大學(xué)獲得碩士學(xué)位。

他此前曾在Qwen團(tuán)隊(duì)擔(dān)任研究實(shí)習(xí)生，并且參與了Qwen 1的研究工作。

吳佳俊是斯坦福大學(xué)計算機(jī)科學(xué)和心理學(xué)的助理教授。2014年他從清華大學(xué)交叉信息研究院“姚班”本科畢業(yè)，師從屠卓文（Zhuowen Tu）教授。在校期間，他曾三年都是年級名次第一，還擔(dān)任了世界頂級的計算機(jī)視覺會議CVPR審稿人。

吳佳俊博士畢業(yè)于麻省理工學(xué)院，導(dǎo)師是Bill Freeman和Josh Tenenbaum。在加入斯坦福大學(xué)之前，他曾是谷歌Research的客座研究員，和Noah Snavely一起工作。

目前，他的團(tuán)隊(duì)致力于物理場景理解研究——即構(gòu)建能夠觀察、推理并與物理世界互動的智能機(jī)器，以及以下方面：

1、基于視覺、聽覺與觸覺信號的多模態(tài)感知（如物體文件夾、真實(shí)影響力項(xiàng)目）

2、四維物理世界的視覺生成（如三維生成對抗網(wǎng)絡(luò)、π生成對抗網(wǎng)絡(luò)、點(diǎn)體素擴(kuò)散模型、SDEdit圖像編輯、奇幻世界）

3、通過物理概念基底的視覺推理（常采用神經(jīng)符號化方法，如神經(jīng)符號視覺問答、形狀程序、動態(tài)視覺推理數(shù)據(jù)集、邏輯視覺推理框架）

4、運(yùn)用習(xí)得物理場景表征的機(jī)器人學(xué)與具身人工智能（如機(jī)器人廚師、行為模擬平臺）。

Shangru Li目前是英偉達(dá)公司的高級系統(tǒng)軟件工程師，之前曾在騰訊有過工作經(jīng)歷。

他2019年本科畢業(yè)于廣東外語外貿(mào)大學(xué)的計算機(jī)軟件工程專業(yè)，在大三的時候，其曾在騰訊實(shí)習(xí)。2021年，Shangru Li于美國賓夕法尼亞大學(xué)的計算機(jī)圖形學(xué)和游戲技術(shù)專業(yè)碩士畢業(yè)，此后便一直在英偉達(dá)工作。

此外，還有4位華人研究員參與其中，分別為Haoming Zou、Yu-Hsin Chou、Ethem Can以及Xunlei Wu。

結(jié)語：模型與機(jī)器人訓(xùn)練成本或?qū)⑦M(jìn)一步降低

3D-GENERALIST將傳統(tǒng)分離的建模、布局、材質(zhì)、光照等環(huán)節(jié)整合為統(tǒng)一的決策序列，并通過自改進(jìn)機(jī)制賦予AI自我改錯的能力。

這不僅顯著提升了復(fù)雜3D場景的構(gòu)建效率與物理合理性，更關(guān)鍵的是，其驗(yàn)證了高質(zhì)量合成數(shù)據(jù)規(guī)?；娲斯?biāo)注的可行性，將有望降低下游視覺與機(jī)器人模型訓(xùn)練的成本門檻。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.