国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

英偉達(dá)3D模型打造“AI建筑師特工隊(duì)”,8位華人合著,包括千問實(shí)習(xí)生

0
分享至


智東西
作者 王涵
編輯 心緣

智東西2月3日報道,近期,英偉達(dá)宣布其全新3D通用模型論文將發(fā)表于2026國際3D視覺會議,論文的預(yù)印本已于去年7月發(fā)表。這篇論文構(gòu)建出了一種建構(gòu)3D世界的新范式,驗(yàn)證了“AI生成的3D合成數(shù)據(jù)”可規(guī)?;娲斯?biāo)注數(shù)據(jù),能夠大幅降低視覺模型預(yù)訓(xùn)練的成本。

論文的主要成果為3D-GENERALIST模型,該模型使用統(tǒng)一化框架,將3D環(huán)境生成的四大核心要素即布局、材質(zhì)、光照、資產(chǎn)等統(tǒng)一到序貫決策框架中。研究團(tuán)隊(duì)還提出了基于CLIP評分的自改進(jìn)微調(diào)策略,可以讓模型在下一輪生成中能自主修正前序錯誤。

這篇論文的作者有8位華人,第一二作者都是中國留學(xué)生,清華“姚班”出身的斯坦福大學(xué)助理教授吳佳俊也名列其中。


CES 2025上,英偉達(dá)正式推出世界基礎(chǔ)模型平臺Cosmos。在CES 2026的演講中,黃仁勛依舊將“Physical AI”作為了整場發(fā)布的核心靈魂,正式將Cosmos定位為Physical AI的“底層代碼”與“世界模擬器”。此外,黃仁勛還發(fā)布了Cosmos Reason 2,讓AI不僅生成世界,還能用自然語言進(jìn)行鏈?zhǔn)揭蚬评怼?/p>

3D-GENERALIST這一技術(shù)會給英偉達(dá)的Cosmos補(bǔ)全哪塊拼圖?又是如何實(shí)現(xiàn)技術(shù)突破的?我們試圖從論文中尋找答案。

論文鏈接:https://arxiv.org/abs/2507.06484

一、現(xiàn)有痛點(diǎn):只是在生成3D圖像,杯子水杯不能獨(dú)立交互

當(dāng)前可交互3D環(huán)境的創(chuàng)建仍面臨諸多痛點(diǎn)。

例如,現(xiàn)有技術(shù)往往聚焦于3D生成的單一環(huán)節(jié),僅優(yōu)化布局或合成紋理,難以實(shí)現(xiàn)全要素的協(xié)同優(yōu)化。

且現(xiàn)有技術(shù)生成的場景缺乏可分離、可操作的物體和表面,即便借助大語言模型或擴(kuò)散模型的方法,現(xiàn)有成果也難以通過擴(kuò)展計算資源提升生成質(zhì)量。生成的數(shù)據(jù)也不適合需要精準(zhǔn)標(biāo)注的合成數(shù)據(jù)應(yīng)用或機(jī)器人交互仿真場景,與下游任務(wù)對3D環(huán)境的質(zhì)量要求存在差距

簡單來說,現(xiàn)有技術(shù)只是在生成一個整體的3D圖像,虛擬世界中的杯子、書本沒辦法獨(dú)立交互。

而3D-GENERALIST就是來解決這些痛點(diǎn)的。

二、研究方法:引入自改進(jìn)機(jī)制,讓擴(kuò)散模型畫圖、VLM指揮、API執(zhí)行

斯坦福和英偉達(dá)研究團(tuán)隊(duì)的核心思路就是將一個“設(shè)計師”擴(kuò)展為一個“建筑師團(tuán)隊(duì)”,把搭房子的工作細(xì)化,每個步驟交給專門的人去做。

具體來講,研究團(tuán)隊(duì)首先通過全景擴(kuò)散模型生成360°引導(dǎo)圖像,這一步就相當(dāng)于先畫了一張戶型圖,之后的建設(shè)都要按照這一圖像來。


然后,研究團(tuán)隊(duì)提出了“場景性策略”,一共分為三步:

首先利用HorizonNet提取房間基礎(chǔ)結(jié)構(gòu),搭好房梁結(jié)構(gòu),后通過Grounded-SAM技術(shù),在識別好的墻體上,分割出門和窗戶的具體區(qū)域。最后再由GPT-4o等VLM(視覺語言模型)標(biāo)注門窗類型與材質(zhì),通過程序化生成構(gòu)建帶基礎(chǔ)構(gòu)件的3D房間。

搭好毛坯房后,研究團(tuán)隊(duì)以VLM作為決策“大腦”,向其輸入含坐標(biāo)標(biāo)記、資產(chǎn)名稱標(biāo)記的多視角場景渲染圖和文本提示。

隨后VLM會直接輸出代碼形式的具體動作指令,比如添加資產(chǎn)、調(diào)整光照、更換材質(zhì)等,這些代碼指令會對接3D環(huán)境的工具API,API自動執(zhí)行指令,實(shí)時更新整個3D房間。


為了讓虛擬場景中的每一個物體都能實(shí)現(xiàn)獨(dú)立交互,研究團(tuán)隊(duì)還針對性設(shè)計了一套資產(chǎn)級優(yōu)化策略。

具體來看,團(tuán)隊(duì)先借助GPT-4o識別出場景中可承載小物件的容器類資產(chǎn),例如桌子、書架等載體,再通過基于網(wǎng)格的表面檢測技術(shù),精準(zhǔn)定位這些載體上適合放置物品的有效區(qū)域。

隨后,團(tuán)隊(duì)引入擅長像素級精細(xì)推理的視覺語言模型Molmo-7B,進(jìn)一步確定小物體的具體放置像素點(diǎn),并通過3D射線轉(zhuǎn)換,將像素位置換算為高精度的3D空間坐標(biāo)

結(jié)合碰撞檢測技術(shù),3D-GENERALIST最終實(shí)現(xiàn)如把書擺到桌上、把筆放在書上這類貼合現(xiàn)實(shí)邏輯的交互效果。


此外,3D-GENERALIST背后還有3大關(guān)鍵技術(shù)做支撐:

首先研究團(tuán)隊(duì)引入了自改進(jìn)微調(diào)機(jī)制,模型在每輪微調(diào)中會生成多個候選動作序列,通過CLIP評分篩選出與文本提示最對齊的最優(yōu)動作,再用該最優(yōu)動作對VLM進(jìn)行監(jiān)督微調(diào),以此提升模型自我修正能力。


其次,研究團(tuán)隊(duì)還規(guī)范了場景領(lǐng)域特定語言,定義了類別、放置位置、材質(zhì)、光照等核心描述符,規(guī)范VLM輸出的動作指令格式,確保其與工具API兼容。

研究團(tuán)隊(duì)使用的上下文庫收錄能顯著提升CLIP對齊分?jǐn)?shù)的動作代碼片段,生成時隨機(jī)采樣作為示例,提升動作序列的多樣性和有效性。

三、成績驗(yàn)證:物理合理性99%,合成數(shù)據(jù)訓(xùn)練效果接近真實(shí)數(shù)據(jù)

在模擬就緒3D環(huán)境生成任務(wù)中,3D-GENERALIST的3D環(huán)境生成質(zhì)量層級全面超越LayoutGPT、Holodeck、LayoutVLM等基線方法。

物理合理性方面,3D-GENERALIST的無碰撞分?jǐn)?shù)達(dá)99.0,邊界內(nèi)分?jǐn)?shù)達(dá)98.0。語義一致性方面,其位置連貫性和旋轉(zhuǎn)連貫性的分?jǐn)?shù)分別為78.279.1,綜合物理語義對齊分?jǐn)?shù)達(dá)67.9,遠(yuǎn)高于基線最高值58.8。


經(jīng)3輪自改進(jìn)微調(diào)后,3D-GENERALIST的CLIP分?jǐn)?shù)達(dá)0.275,顯著高于無微調(diào)版本和無上下文庫版本,且能迭代修正場景缺陷。

資產(chǎn)級策略生成的場景平均CLIP分?jǐn)?shù)達(dá)0.282,高于基線方法的0.269,可自然實(shí)現(xiàn)小物體的語義對齊和物理合理放置,避免物體重疊。


自改進(jìn)微調(diào)技術(shù)的引入還降低了VLM的視覺幻覺率,在Object HalBench和AMBER基準(zhǔn)測試中,微調(diào)后模型的幻覺相關(guān)指標(biāo)均優(yōu)于原始GPT-4o


基于3D-GENERALIST生成的合成數(shù)據(jù)預(yù)訓(xùn)練視覺模型ImageNet-1K Top-1,使用86萬條標(biāo)簽訓(xùn)練時,準(zhǔn)確率達(dá)0.731,超過基于人工構(gòu)建的HyperSim數(shù)據(jù)集。

當(dāng)標(biāo)簽量擴(kuò)展至1217萬條時,ImageNet-1K Top-1準(zhǔn)確率提升至0.776,接近基于50億真實(shí)數(shù)據(jù)訓(xùn)練的模型效果,驗(yàn)證了其在合成數(shù)據(jù)規(guī)?;缮系膬?yōu)勢。


四、研究團(tuán)隊(duì):8個華人,創(chuàng)企CEO、清華姚班天才,還有Qwen實(shí)習(xí)生

除了研究本身,論文的作者欄也十分引人矚目。

該篇論文的第一作者Fan-Yun Sun是斯坦福大學(xué)AI實(shí)驗(yàn)室(SAIL)的計算機(jī)科學(xué)博士生,隸屬于Autonomous Agents Lab和斯坦福視覺與學(xué)習(xí)實(shí)驗(yàn)室(SVL)。


在讀博期間,他也深度參與了英偉達(dá)研究院的工作,曾效力于學(xué)習(xí)與感知研究組、Metropolis深度學(xué)習(xí)(Omniverse)以及自動駕駛汽車研究組。

他的研究興趣主要在于生成具身環(huán)境與數(shù)據(jù),用于訓(xùn)練機(jī)器人和強(qiáng)化學(xué)習(xí)策略,致力于推動具身、多模態(tài)基礎(chǔ)模型及其推理能力的發(fā)展。

此外,他還創(chuàng)辦了AI游戲公司Moonlake,是一家專注于交互式世界構(gòu)建的前沿人工智能實(shí)驗(yàn)室,融合了多模態(tài)推理和世界建模。

該創(chuàng)企此前已從Threshold Ventures、AIX Ventures和NVentureS(NVIDIA的風(fēng)險投資部門)籌集了2800萬美元(約合人民幣1.95億元)的種子資金。


第二作者Shengguang Wu目前是斯坦福大學(xué)計算機(jī)科學(xué)系的博士生,在北京大學(xué)獲得碩士學(xué)位。


他此前曾在Qwen團(tuán)隊(duì)擔(dān)任研究實(shí)習(xí)生,并且參與了Qwen 1的研究工作。


吳佳俊是斯坦福大學(xué)計算機(jī)科學(xué)和心理學(xué)的助理教授。2014年他從清華大學(xué)交叉信息研究院“姚班”本科畢業(yè),師從屠卓文(Zhuowen Tu)教授。在校期間,他曾三年都是年級名次第一,還擔(dān)任了世界頂級的計算機(jī)視覺會議CVPR審稿人。


吳佳俊博士畢業(yè)于麻省理工學(xué)院,導(dǎo)師是Bill Freeman和Josh Tenenbaum。在加入斯坦福大學(xué)之前,他曾是谷歌Research的客座研究員,和Noah Snavely一起工作。

目前,他的團(tuán)隊(duì)致力于物理場景理解研究——即構(gòu)建能夠觀察、推理并與物理世界互動的智能機(jī)器,以及以下方面:

1、基于視覺、聽覺與觸覺信號的多模態(tài)感知(如物體文件夾、真實(shí)影響力項(xiàng)目)

2、四維物理世界的視覺生成(如三維生成對抗網(wǎng)絡(luò)、π生成對抗網(wǎng)絡(luò)、點(diǎn)體素擴(kuò)散模型、SDEdit圖像編輯、奇幻世界)

3、通過物理概念基底的視覺推理(常采用神經(jīng)符號化方法,如神經(jīng)符號視覺問答、形狀程序、動態(tài)視覺推理數(shù)據(jù)集、邏輯視覺推理框架)

4、運(yùn)用習(xí)得物理場景表征的機(jī)器人學(xué)與具身人工智能(如機(jī)器人廚師、行為模擬平臺)。

Shangru Li目前是英偉達(dá)公司的高級系統(tǒng)軟件工程師,之前曾在騰訊有過工作經(jīng)歷。

他2019年本科畢業(yè)于廣東外語外貿(mào)大學(xué)的計算機(jī)軟件工程專業(yè),在大三的時候,其曾在騰訊實(shí)習(xí)。2021年,Shangru Li于美國賓夕法尼亞大學(xué)的計算機(jī)圖形學(xué)和游戲技術(shù)專業(yè)碩士畢業(yè),此后便一直在英偉達(dá)工作。


此外,還有4位華人研究員參與其中,分別為Haoming Zou、Yu-Hsin Chou、Ethem Can以及Xunlei Wu。

結(jié)語:模型與機(jī)器人訓(xùn)練成本或?qū)⑦M(jìn)一步降低

3D-GENERALIST將傳統(tǒng)分離的建模、布局、材質(zhì)、光照等環(huán)節(jié)整合為統(tǒng)一的決策序列,并通過自改進(jìn)機(jī)制賦予AI自我改錯的能力。

這不僅顯著提升了復(fù)雜3D場景的構(gòu)建效率與物理合理性,更關(guān)鍵的是,其驗(yàn)證了高質(zhì)量合成數(shù)據(jù)規(guī)?;娲斯?biāo)注的可行性,將有望降低下游視覺與機(jī)器人模型訓(xùn)練的成本門檻。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
雙殺出線!5萬人口小城燃爆歐冠:創(chuàng)54年神跡 獎金5000萬

雙殺出線!5萬人口小城燃爆歐冠:創(chuàng)54年神跡 獎金5000萬

葉青足球世界
2026-02-25 07:58:53
分手14年,釋小龍何潔境遇天差地別,一個身家過億,一個養(yǎng)不起娃

分手14年,釋小龍何潔境遇天差地別,一個身家過億,一個養(yǎng)不起娃

查爾菲的筆記
2026-01-09 22:17:44
趴在中國仁愛礁9000多天的菲律賓軍艦,如今已經(jīng)再也拖不走了

趴在中國仁愛礁9000多天的菲律賓軍艦,如今已經(jīng)再也拖不走了

小小科普員
2025-11-21 20:23:24
55副寺廟對聯(lián),都是千古絕對,不收藏太可惜

55副寺廟對聯(lián),都是千古絕對,不收藏太可惜

尚曦讀史
2026-02-10 07:59:37
100%進(jìn)球成功率!曾在成都蟄伏的常冰玉,打出“斯諾克史上最佳表現(xiàn)”

100%進(jìn)球成功率!曾在成都蟄伏的常冰玉,打出“斯諾克史上最佳表現(xiàn)”

紅星新聞
2026-02-25 14:11:36
飯局上聽京圈大佬一句話,我后背發(fā)涼:女明星最好的歸宿,不是嫁豪門,是直接嫁給發(fā)

飯局上聽京圈大佬一句話,我后背發(fā)涼:女明星最好的歸宿,不是嫁豪門,是直接嫁給發(fā)

情感大頭說說
2026-02-25 00:26:20
在緊張的中日輿論氛圍下,日媒為何反復(fù)夸贊一位中國運(yùn)動員

在緊張的中日輿論氛圍下,日媒為何反復(fù)夸贊一位中國運(yùn)動員

日本物語
2026-02-24 20:52:18
普京主動歸還北方四島,僅僅提出一個條件,為何日本不接受?

普京主動歸還北方四島,僅僅提出一個條件,為何日本不接受?

安珈使者啊
2026-02-17 11:35:12
廣東宏遠(yuǎn)的“三分神射”杜潤旺,合同到期后何去何從

廣東宏遠(yuǎn)的“三分神射”杜潤旺,合同到期后何去何從

林子說事
2026-02-25 19:24:09
8勝1負(fù),成NBA強(qiáng)隊(duì)終結(jié)者!本賽季隱藏最深球隊(duì),你們有奪冠實(shí)力

8勝1負(fù),成NBA強(qiáng)隊(duì)終結(jié)者!本賽季隱藏最深球隊(duì),你們有奪冠實(shí)力

老梁體育漫談
2026-02-25 00:29:34
馬筱梅產(chǎn)后24小時遭遇多件惡心事情曝光

馬筱梅產(chǎn)后24小時遭遇多件惡心事情曝光

樂趣紀(jì)史
2026-02-25 20:33:38
來了,皇馬!老弗爺欽點(diǎn),1億“超巨”來投!三大強(qiáng)援或攜手加盟

來了,皇馬!老弗爺欽點(diǎn),1億“超巨”來投!三大強(qiáng)援或攜手加盟

頭狼追球
2026-02-25 10:24:47
1月新能源銷量:政策一退坡,電車立馬跌

1月新能源銷量:政策一退坡,電車立馬跌

汽車公社
2026-02-22 21:55:13
2月25日人民幣對美元中間價調(diào)升93個基點(diǎn)

2月25日人民幣對美元中間價調(diào)升93個基點(diǎn)

證券時報
2026-02-25 09:31:35
平均每人負(fù)債1300萬,書記吳仁寶去世10年后,華西村的現(xiàn)況如何?

平均每人負(fù)債1300萬,書記吳仁寶去世10年后,華西村的現(xiàn)況如何?

哄動一時啊
2026-01-24 21:29:54
第5外援來了!朱芳雨親自官宣,杜鋒又撿到寶了,廣東爭冠穩(wěn)了?

第5外援來了!朱芳雨親自官宣,杜鋒又撿到寶了,廣東爭冠穩(wěn)了?

萌蘭聊個球
2026-02-25 10:49:31
14年湖北媽媽腎衰竭,移植7歲兒子的腎,得救后:孩子,你安心走

14年湖北媽媽腎衰竭,移植7歲兒子的腎,得救后:孩子,你安心走

北緯的咖啡豆
2026-02-22 19:13:41
富士康“賭輸”了!郭臺銘做夢也沒有想到,“制裁”會來的這么快

富士康“賭輸”了!郭臺銘做夢也沒有想到,“制裁”會來的這么快

混沌錄
2025-08-22 18:23:58
尼克斯為什么輸騎士?賽后布朗毫不客氣說出原因,說得太實(shí)在

尼克斯為什么輸騎士?賽后布朗毫不客氣說出原因,說得太實(shí)在

現(xiàn)代小青青慕慕
2026-02-25 15:00:15
再爆大冷3-4!肖國棟被3連鞭逆轉(zhuǎn),無緣16強(qiáng),6位種子選手出局了

再爆大冷3-4!肖國棟被3連鞭逆轉(zhuǎn),無緣16強(qiáng),6位種子選手出局了

小火箭愛體育
2026-02-25 20:45:38
2026-02-25 21:35:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
11255文章數(shù) 116980關(guān)注度
往期回顧 全部

科技要聞

“機(jī)器人只跳舞,沒什么用”

頭條要聞

近百萬元存款被送快遞小伙悄悄轉(zhuǎn)走 獨(dú)居老太毫無察覺

頭條要聞

近百萬元存款被送快遞小伙悄悄轉(zhuǎn)走 獨(dú)居老太毫無察覺

體育要聞

曝雄鹿計劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂要聞

黃曉明新戀情!與小22歲美女同游新加坡

財經(jīng)要聞

上海樓市放大招,地產(chǎn)預(yù)期別太大

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

健康
家居
數(shù)碼
親子
手機(jī)

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

家居要聞

藝居辦公 溫度與效率

數(shù)碼要聞

全能移動創(chuàng)作工作站,華碩ProArt 創(chuàng)13 GoPro聯(lián)名版 今日開售

親子要聞

總想把世界上最好的都給你 但卻發(fā)現(xiàn)世界上最好的就是你!

手機(jī)要聞

國產(chǎn)雙雄交卷了!華為Mate80銷量311萬、小米17系列超350萬

無障礙瀏覽 進(jìn)入關(guān)懷版