国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

NeurIPS 2025 | 突破渲染局限,IntrinsiX - 高質(zhì)量的物理一致性生成模型

0
分享至

在現(xiàn)代人工智能的發(fā)展中,如何讓模型在生成質(zhì)量與物理一致性之間取得平衡,已成為實現(xiàn)真實可控內(nèi)容生成的關(guān)鍵問題,尤其在三維內(nèi)容創(chuàng)作、虛擬現(xiàn)實與影視特效等對光照一致性要求極高的應(yīng)用中尤為重要。盡管現(xiàn)有的文本到圖像生成模型(Text-to-Image Models)在視覺表現(xiàn)上已能生成極其逼真的結(jié)果,但其生成的圖像通常包含烘烤光照(baked-in lighting),導(dǎo)致生成內(nèi)容無法適配不同光照環(huán)境或進行物理編輯。本文介紹一篇來自慕尼黑工業(yè)大學(xué)的最新工作,剛剛發(fā)表在人工智能頂會NeurIPS 2025上。該工作提出了一種基于圖像先驗的高質(zhì)量PBR生成方法IntrinsiX,通過引入跨模態(tài)注意力機制與可微分渲染監(jiān)督,實現(xiàn)了從文本直接生成可重光照的貼圖。IntrinsiX 在視覺真實感和細節(jié)一致性上顯著優(yōu)于傳統(tǒng)反向渲染方法,為通用生成模型向物理世界一致性邁出了重要一步。


論文題目: IntrinsiX:High-Quality PBR Generation using Image Priors 文章鏈接: https://arxiv.org/abs/2504.01008
一、研究背景

物理基礎(chǔ)渲染(Physically-Based Rendering, PBR)貼圖是計算機圖形學(xué)中用于精確描述物體表面光學(xué)屬性的一組參數(shù)映射,共同定義了材質(zhì)在光照下的真實視覺效果。典型的PBR貼圖包括 Albedo(反射率)、Normal(法線)、Roughness(表面粗糙度)和 Metallic(金屬度) 四種。這些貼圖分別控制了物體的顏色反射、幾何微結(jié)構(gòu)、光線散射以及金屬反射特性。PBR使得渲染系統(tǒng)能夠通過物理一致的方式模擬光與物體表面的交互,從而生成具有真實光照變化和質(zhì)感細節(jié)的圖像。

當(dāng)前主流的文本生成圖像模型生成的圖像是帶有“烘焙光照”的RGB圖像,即圖像中已經(jīng)包含了光照、陰影、高光等效果,導(dǎo)致生成內(nèi)容無法直接用于游戲、虛擬現(xiàn)實(VR)等需要動態(tài)調(diào)整光照或編輯材質(zhì)的場景,這類場景通常依賴獨立的PBR映射圖來實現(xiàn)物理真實的渲染效果。此外,傳統(tǒng)的圖像分解方法(如 IID [1]、RGBX [2])雖能從RGB圖像中分離出PBR組件,但存在兩大固有缺陷:

  1. 歧義性 :從單張RGB圖像反推PBR組件的數(shù)學(xué)解不唯一,易導(dǎo)致結(jié)果過度平滑或細節(jié)丟失。

  2. 泛化能力弱 :這類方法多基于合成數(shù)據(jù)集訓(xùn)練,對真實世界或分布外場景的分解效果差,且無法處理大規(guī)模3D場景的PBR生成需求。

二、本文方法

下圖為IntrinsiX方法的整體框架圖,IntrinsiX采用兩階段訓(xùn)練 + 對齊的整體設(shè)計。在階段一中,分別為反射率、法線以及粗糙度與金屬度獨立訓(xùn)練 LoRA 模型,以學(xué)習(xí)各自的分布特征。在階段二中,通過內(nèi)在交叉注意力實現(xiàn)不同組件間的語義對齊,并結(jié)合渲染損失約束其物理一致性,從而實現(xiàn)從文本輸入到四張高質(zhì)量 PBR 映射圖的聯(lián)合生成。


2.1 階段 一:PBR 先驗訓(xùn)練

該階段的訓(xùn)練目標是讓預(yù)訓(xùn)練的文本圖像生成模型分別學(xué)習(xí)反射率 、法線 、粗糙度與金屬度 的生成規(guī)律。具體做法是在每個 attention block 中注入 LoRA 層,以捕獲各 PBR 模態(tài)的特征分布。

該階段采用條件流匹配損失(Conditional Flow Matching Loss)優(yōu)化LoRA參數(shù),該損失用于擴散模型的生成過程,公式如下:


2.2 階段二:PBR 先驗對齊

階段一中訓(xùn)練得到的獨立LoRA模型雖然能夠分別生成各自的PBR組件,但其結(jié)果在語義上并不一致。為此,階段二通過內(nèi)在交叉注意力與RGB渲染損失實現(xiàn)了語義對齊與物理一致性約束。

(1)內(nèi)在交叉注意力:在DiT的每個 block 中,作者用跨模態(tài)注意力替代標準的 self-attention,將不同模態(tài)的 query、key、value 拼接在序列維度上,使各PBR模態(tài)在一次去噪前向傳播中能夠相互傳遞信息,從而實現(xiàn)語義對齊。其計算形式如下:


這種機制確保模型在生成每個模態(tài)時能夠參考其他模態(tài)的特征信息,避免局部結(jié)構(gòu)的不一致問題。

(2)RGB 渲染損失:盡管內(nèi)在交叉注意力保證了語義對齊,但仍無法確保各PBR模態(tài)在物理層面合理。因此,作者引入基于簡化 Disney BRDF 模型的渲染損失,用生成的PBR組件重建對應(yīng)的RGB圖像,計算公式為:


其中, 表示BRDF函數(shù), 為生成的PBR組件集合, 與 分別表示入射光強與方向。最終的渲染損失結(jié)合了像素級的L2誤差與感知損失,以同時保證圖像的數(shù)值準確性與視覺真實感:


通過這一機制,模型在優(yōu)化過程中被迫生成符合物理規(guī)律的PBR映射圖,從而在保持語義一致的同時提升整體物理可信度。

三、實驗結(jié)果

本文在圖像編輯生成和PBR場景紋理生成兩大關(guān)鍵下游應(yīng)用中驗證了IntrinsiX方法的實用性。本文的對比實驗選取了三種典型的反向渲染方法IID、RGBX和ColorfulShading,這些方法通過從RGB圖像分解出PBR貼圖來重建,而IntrinsiX則采用直接生成式建模策略。評估指標包括定量與感知兩類,F(xiàn)ID(A-ID-FID 與 A-OOD-FID)用于衡量生成圖像的分布差異,R-PQ、S-PQ與PC分別評估渲染質(zhì)量、語義一致性及物理合理性,同時通過用戶偏好指標A-PP衡量主觀感知效果。

3.1 定量分析

上表的實驗結(jié)果充分展示了IntrinsiX在生成質(zhì)量與實用性方面的綜合優(yōu)勢。盡管在分布內(nèi)場景(A-ID-FID)的反照率生成質(zhì)量上略低于最優(yōu)基線,IntrinsiX在更具實際意義的分布外泛化能力(A-OOD-FID)上表現(xiàn)最佳,顯示出優(yōu)異的場景適應(yīng)能力。此外,其生成的反照率(A-PP)與渲染效果(R-PQ、S-PQ)均獲得顯著偏好,反映出所生成PBR貼圖在物理正確性與視覺感知質(zhì)量上的突出表現(xiàn)。消融實驗同時驗證,內(nèi)在交叉注意力機制與渲染損失作為核心組件,對生成語義清晰、細節(jié)豐富的結(jié)果具有關(guān)鍵作用。

3.2 定性評估

下圖展示了IntrinsiX與基于RGB圖像輸入的圖像分解方法(如IID、RGBX)的生成效果對比。


實驗結(jié)果顯示,傳統(tǒng)分解方法受限于合成室內(nèi)數(shù)據(jù)集的訓(xùn)練分布,在面對“卡通民謠歌手”等分布外場景時,其分解結(jié)果易出現(xiàn)細節(jié)模糊(粗糙度圖紋理缺失)與語義不一致(反照率圖中殘留非本征陰影)等問題。相比之下,IntrinsiX生成了語義更準確、細節(jié)更豐富的PBR貼圖,其反照率圖純凈無陰影殘留,粗糙度與金屬度圖也表現(xiàn)出更高的清晰度與材質(zhì)區(qū)分度。

3.3 圖像編輯生成效果

IntrinsiX生成的PBR貼圖可直接接入標準物理渲染,實現(xiàn)靈活的編輯與渲染。如上圖所示,IntrinsiX在三種典型編輯任務(wù)中均表現(xiàn)出優(yōu)異性能。

1) 重新打光:在固定光源高度下旋轉(zhuǎn)其方向,場景的光影與陰影能夠隨之自然、連貫地變化。2) 反照率編輯:例如降低月亮顏色的飽和度,編輯后的表面屬性能與動態(tài)光照無縫融合。3) 鏡面反射編輯:通過降低粗糙度并提高金屬度值,可使宇航員頭盔等區(qū)域產(chǎn)生更強烈、準確的鏡面高光。

所有這些編輯效果均能隨光源角度變化而保持一致性與物理合理性,充分證明了IntrinsiX在光影控制與材質(zhì)屬性編輯方面出色的靈活性與實用性。

3.4 場景紋理生成效果

上圖展示了IntrinsiX為三維場景生成PBR紋理的流程與效果。IntrinsiX通過分數(shù)蒸餾采樣技術(shù),以場景幾何信息(如法線貼圖)為條件進行迭代優(yōu)化,可以自動生成風(fēng)格統(tǒng)一的全套PBR貼圖。生成的漫反射、粗糙度、金屬度及法線貼圖細節(jié)豐富,使得最終渲染的室內(nèi)場景在多種光照條件下均表現(xiàn)出高度的真實感與視覺一致性。這充分證明了IntrinsiX能夠?qū)⑽谋久枋鲇行У剞D(zhuǎn)化為可直接用于游戲或VR應(yīng)用的全場景PBR,顯著降低了高質(zhì)量場景紋理制作的技術(shù)門檻。

四、總結(jié)

本文提出的IntrinsiX方法,首次實現(xiàn)了從文本描述直接生成高質(zhì)量PBR材質(zhì)貼圖的突破。其核心創(chuàng)新在于一個兩階段訓(xùn)練策略。IntrinsiX首先利用LoRA技術(shù)為各類材質(zhì)屬性分別訓(xùn)練獨立的生成先驗,隨后引入內(nèi)在交叉注意力機制與基于物理渲染的損失函數(shù),實現(xiàn)多模態(tài)材質(zhì)的語義對齊與協(xié)同生成。生成質(zhì)量媲美甚至超越現(xiàn)有文本生圖模型,且在圖像編輯、場景紋理生成等下游任務(wù)均有不錯的表現(xiàn),未來可以為游戲、VR可編輯內(nèi)容等領(lǐng)域的創(chuàng)作開辟高效的新路徑。

參考

[1] Kocsis P, Sitzmann V, Nie?ner M. Intrinsic image diffusion for indoor single-view material estimation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 5198-5208.

[2] Zheng Zeng, Valentin Deschaintre, Iliyan Georgiev, Yannick Hold-Geoffroy, Yiwei Hu, Fujun Luan, Ling-Qi Yan, and Milos Hasan. Rgb?x: Image decomposition and synthesis using material- and lighting-aware diffusion models. In ACM SIGGRAPH 2024 Conference Papers, SIGGRAPH 2024, Denver, CO, USA, 27 July 2024- 1 August 2024, page 75. ACM, 2024.

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機構(gòu),也是北京市標桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
雨雪又要來了,鄭州暖氣會延期嗎?官方回應(yīng)

雨雪又要來了,鄭州暖氣會延期嗎?官方回應(yīng)

大象新聞
2026-03-12 21:25:02
假貨率高達70%!不銹鋼餐具造假黑幕,消費者被坑慘,家長要警惕

假貨率高達70%!不銹鋼餐具造假黑幕,消費者被坑慘,家長要警惕

趣文說娛
2026-03-10 16:47:22
綠聯(lián)NAS私有云與MiniMax深度合作,首發(fā)開箱即用的OpenClaw龍蝦

綠聯(lián)NAS私有云與MiniMax深度合作,首發(fā)開箱即用的OpenClaw龍蝦

IT之家
2026-03-13 15:06:15
江西一女子稱姐姐誤將價值150萬元黃金當(dāng)垃圾扔掉,全家人連夜翻10噸垃圾找回!當(dāng)?shù)鼗貞?yīng):確有此事

江西一女子稱姐姐誤將價值150萬元黃金當(dāng)垃圾扔掉,全家人連夜翻10噸垃圾找回!當(dāng)?shù)鼗貞?yīng):確有此事

深圳晚報
2026-03-13 15:02:37
請注意:以色列已開始派大量無人機在伊朗超低空狙殺和攻擊

請注意:以色列已開始派大量無人機在伊朗超低空狙殺和攻擊

邵旭峰域
2026-03-13 15:25:35
姑姑借我15萬買車從不提還,我張口要時她卻說:別總想占親戚便宜

姑姑借我15萬買車從不提還,我張口要時她卻說:別總想占親戚便宜

楓紅染山徑
2026-03-13 11:40:44
初春和仲春野釣鯽魚的4條規(guī)律

初春和仲春野釣鯽魚的4條規(guī)律

釣魚技巧和知識
2026-03-12 09:41:53
“12人吃燒烤花78元”,為拼兒子連生10胎,家長買燒烤都沒人敢吃

“12人吃燒烤花78元”,為拼兒子連生10胎,家長買燒烤都沒人敢吃

妍妍教育日記
2026-03-12 22:38:02
輸比利時采訪!楊舒予韓旭直指檢驗學(xué)習(xí),李月汝不滿防守與自責(zé)!

輸比利時采訪!楊舒予韓旭直指檢驗學(xué)習(xí),李月汝不滿防守與自責(zé)!

籃球資訊達人
2026-03-12 23:31:49
78年我值夜班,偷偷放走個發(fā)高燒的女囚,32年后她開紅旗車來報恩

78年我值夜班,偷偷放走個發(fā)高燒的女囚,32年后她開紅旗車來報恩

奶茶麥子
2026-03-11 22:09:03
開戰(zhàn)來首次!美國損失慘重

開戰(zhàn)來首次!美國損失慘重

亞太觀瀾
2026-03-12 20:50:06
華為養(yǎng)了十年的狼,帶著一群崽子把家偷了

華為養(yǎng)了十年的狼,帶著一群崽子把家偷了

老鷹哥
2026-03-13 11:31:52
喬冠華后人現(xiàn)狀:兒子子承父業(yè),女兒成軍醫(yī),繼女名字家喻戶曉

喬冠華后人現(xiàn)狀:兒子子承父業(yè),女兒成軍醫(yī),繼女名字家喻戶曉

林雁飛
2026-02-14 18:52:26
男子大鬧上海地鐵,在車廂內(nèi)放火!人被刑拘身份曝光,恐難受懲罰

男子大鬧上海地鐵,在車廂內(nèi)放火!人被刑拘身份曝光,恐難受懲罰

青梅侃史啊
2026-03-12 19:34:22
楊瀚森狂轟16+13+2,又創(chuàng)生涯新高!登陸NBA持續(xù)進化,開拓者欣慰

楊瀚森狂轟16+13+2,又創(chuàng)生涯新高!登陸NBA持續(xù)進化,開拓者欣慰

小火箭愛體育
2026-03-13 13:05:12
樓市大局已定:不出意外的話,2026年起中國房價或迎來3大變化

樓市大局已定:不出意外的話,2026年起中國房價或迎來3大變化

現(xiàn)代小青青慕慕
2026-03-12 11:13:37
WTT重慶冠軍賽-孫穎莎3-0完勝好姐妹 晉級女單八強 下輪迎來隊內(nèi)PK

WTT重慶冠軍賽-孫穎莎3-0完勝好姐妹 晉級女單八強 下輪迎來隊內(nèi)PK

云隱南山
2026-03-13 15:34:29
新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

南權(quán)先生
2026-01-26 15:41:26
五糧液首款光瓶酒上市,100%純糧定價399,樹立市場“新標桿”

五糧液首款光瓶酒上市,100%純糧定價399,樹立市場“新標桿”

影像渭南
2026-03-13 12:05:06
會如何?川普說沒啥可打了但會繼續(xù)、以攻擊伊全境稱直到實現(xiàn)目標

會如何?川普說沒啥可打了但會繼續(xù)、以攻擊伊全境稱直到實現(xiàn)目標

邵旭峰域
2026-03-12 15:00:07
2026-03-13 16:16:49
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

《后廠村AI派》:帶你玩轉(zhuǎn)OpenClaw龍蝦

頭條要聞

民主黨連勝 特朗普鐵粉退場讓"最保守"選區(qū)現(xiàn)兩黨決選

頭條要聞

民主黨連勝 特朗普鐵粉退場讓"最保守"選區(qū)現(xiàn)兩黨決選

體育要聞

叕戰(zhàn)奧運,張雨霏要做回“小將”

娛樂要聞

小S復(fù)工錄制 感謝賈永婕陪大S走到最后

財經(jīng)要聞

"短劇"苦抄襲

汽車要聞

本田汽車全年業(yè)績由盈轉(zhuǎn)虧 高管們降薪3個月以擔(dān)責(zé)

態(tài)度原創(chuàng)

本地
房產(chǎn)
藝術(shù)
教育
軍事航空

本地新聞

坐標北京,過敏季反向遷徒

房產(chǎn)要聞

不容易??!??诮K于又要賣地了!

藝術(shù)要聞

吳冠中:歷代畫竹大都缺乏厚度與深度

教育要聞

2026風(fēng)口專業(yè)! 高考志愿填報兩會定調(diào)子!

軍事要聞

伊朗稱襲擊"林肯"號航母致其撤走

無障礙瀏覽 進入關(guān)懷版