国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

多模態(tài)生成模型的統(tǒng)一綜述:模擬真實世界

0
分享至

模擬真實世界:多模態(tài)生成模型的統(tǒng)一綜述

Simulating the Real World: A Unified Survey of Multimodal Generative Models

https://arxiv.org/pdf/2503.04641


摘要

——理解和復現(xiàn)現(xiàn)實世界是通用人工智能(AGI)研究中的一項關鍵挑戰(zhàn)。為實現(xiàn)這一目標,許多現(xiàn)有方法(如世界模型)試圖捕捉支配物理世界的基本原理,從而實現(xiàn)更精確的模擬和有意義的交互。然而,當前方法通常將不同模態(tài)(包括2D圖像、視頻、3D和4D表征)視為獨立領域,忽視了它們之間的相互依賴關系。此外,這些方法往往聚焦于現(xiàn)實的孤立維度,未能系統(tǒng)性地整合各維度之間的關聯(lián)。在本綜述中,我們對多模態(tài)生成模型進行了統(tǒng)一梳理,重點考察其在真實世界模擬中數(shù)據維度演進的脈絡。具體而言,本綜述從2D生成(外觀)出發(fā),逐步推進到視頻生成(外觀+動態(tài))、3D生成(外觀+幾何),最終達到融合所有維度的4D生成。據我們所知,這是首次嘗試在單一框架內系統(tǒng)性地統(tǒng)一2D、視頻、3D和4D生成的研究。為指導未來研究,我們全面回顧了相關數(shù)據集、評估指標及未來方向,以幫助新進入者獲得深入見解。本綜述旨在搭建一座橋梁,推動多模態(tài)生成模型與真實世界模擬在統(tǒng)一框架下的發(fā)展。

關鍵詞—生成模型,圖像生成,視頻生成,3D生成,4D生成,深度學習,文獻綜述。

I. 引言

數(shù)十年來,研究界一直致力于開發(fā)能夠封裝物理世界基本原理的系統(tǒng),這是通向通用人工智能(AGI)[1] 之路的基石。這一努力的核心在于用機器模擬現(xiàn)實世界,通過多模態(tài)生成模型的視角捕捉現(xiàn)實的復雜性。由此構建的“世界模擬器”有望深化對真實世界的理解,并催生變革性應用,如虛擬現(xiàn)實 [2]、游戲 [3]、機器人 [4] 和自動駕駛 [5]。

“世界模擬器”一詞最早由 Ha David [6] 提出,其靈感源自認知科學中的“心智模型”(mental model)[7] 概念。在此基礎上,現(xiàn)代研究者 [8] 將該模擬器形式化為一個抽象框架,使智能系統(tǒng)能夠通過多模態(tài)生成模型模擬現(xiàn)實世界。這些模型將現(xiàn)實世界的視覺內容與時空動態(tài)編碼為緊湊表征。由于幾何結構、外觀表現(xiàn)和動態(tài)行為共同構成了生成內容的“真實感”,這三個方面已成為學界廣泛研究的重點 [9]。

傳統(tǒng)的現(xiàn)實世界模擬方法長期依賴圖形學技術,整合幾何、紋理與動態(tài)特性:具體而言,通過幾何與紋理建模 [10] 構建物體,再借助關鍵幀動畫 [11] 或基于物理的仿真 [12] 模擬物體隨時間的運動與行為。

盡管取得了顯著進展,這些傳統(tǒng)方法通常需要大量人工設計、啟發(fā)式規(guī)則定義以及計算成本高昂的處理流程,限制了其在多樣化場景中的可擴展性與適應性。近年來,以數(shù)據驅動為核心的學習型方法,尤其是多模態(tài)生成模型,徹底革新了內容生成方式。這類方法減少了對人工干預的依賴,提升了跨任務的泛化能力,并實現(xiàn)了人與模型之間更直觀的交互。例如,Sora [13] 因其逼真的模擬能力廣受關注,展現(xiàn)出對物理規(guī)律的初步理解。

此類生成模型的出現(xiàn)帶來了全新的視角與方法論:它們通過減少繁重的人工設計和高成本建模需求,同時增強在多樣模擬場景中的適應性與可擴展性,有效克服了傳統(tǒng)方法的局限。

盡管現(xiàn)有生成模型在各自的數(shù)據維度上提供了強大的逼真內容合成能力,但現(xiàn)實世界本質上具有高維復雜性。目前仍缺乏一份系統(tǒng)性綜述,將不同維度上的進展有機整合。本文旨在填補這一空白,從數(shù)據維度增長的視角統(tǒng)一梳理現(xiàn)實世界模擬的研究(如圖1所示):我們從僅包含外觀的2D生成出發(fā),逐步擴展至引入動態(tài)特性的視頻生成和引入幾何結構的3D生成,最終融合所有維度,達到4D生成。


綜上所述,本綜述做出三項主要貢獻:
第一,從數(shù)據維度演進的視角,通過多模態(tài)生成模型系統(tǒng)性地回顧現(xiàn)實世界模擬方法。據我們所知,這是首個將2D、視頻、3D和4D生成研究統(tǒng)一起來的綜述,為該領域提供了結構清晰且全面的概覽。
第二,全面調研了常用數(shù)據集及其特性,并從多角度梳理了相應的評估指標。
第三,識別了當前開放的研究挑戰(zhàn),旨在引導該領域的進一步探索。

以往關于生成模型的綜述通常分別聚焦于文本到圖像、文本到視頻和文本到3D生成,未能深入探討它們之間的內在聯(lián)系。相比之下,本綜述通過追蹤生成模型如何從僅處理外觀(2D生成),發(fā)展到融入動態(tài)(視頻生成)和幾何(3D生成),最終在4D生成中整合外觀、動態(tài)與幾何,提供了一個更集成的多模態(tài)生成模型研究視角。這一維度演進的框架旨在連接以往孤立的研究方向,并凸顯跨領域的共性挑戰(zhàn)與機遇。

我們期望本綜述能為初學者提供寶貴洞見,并激發(fā)資深研究者的批判性思考。全文結構如下:
第二節(jié)介紹深度生成模型的基礎概念;
第三節(jié)闡述四大范式:2D、視頻、3D 和 4D 生成;
第四節(jié)回顧各范式對應的數(shù)據集與評估指標;
第五節(jié)展望未來研究方向;
第六節(jié)總結全文。

II. 預備知識



與GAN訓練相關的挑戰(zhàn)有幾個。例如,納什均衡可能并不總是存在[19]或難以實現(xiàn)[20],導致訓練不穩(wěn)定。另一個問題是模式崩潰,其中生成器只產生特定類型的樣本,多樣性較低[20],[21]。


其中d是序列長度。這種分解簡化了多變量密度估計,并已被廣泛采用來順序地對圖像中的像素進行建模[23]–[25]。 為了降低標準基于Transformer的AR模型中注意力的二次成本,最近引入了幾種非Transformer架構。RWKV [26]、Mamba [27]和RetNet [28]用遞歸或狀態(tài)空間機制替換或增強注意力。RWKV和Mamba采用純粹的遞歸設計,保持固定大小的內存,在適度的序列長度上提供線性時間推理,但在極端上下文大小下仍面臨挑戰(zhàn)。RetNet通過保留機制更新隱藏狀態(tài),為全局自注意力提供了一種有效的替代方案。盡管這些架構在語言和其他序列任務上顯示出有希望的結果,但它們作為深度生成模型的骨干使用仍然有限。將它們整合到生成管道中的未來工作可能會改善樣本質量、可擴展性和內存使用之間的權衡。

D. 歸一化流(NFs)

NFs使用可逆神經網絡g(·)將z從已知且易于處理的分布映射到真實數(shù)據分布。通過這種方式,pθ (x)可以被表述為,


III. 范式

本節(jié)從數(shù)據維度增長的角度介紹了模擬真實世界的方法。它從2D生成(第III-A節(jié))開始,用于外觀建模,然后轉向視頻生成(第III-B節(jié))和3D生成(第III-C節(jié)),通過結合動態(tài)和幾何維度。最后,通過整合所有這三個維度,介紹了4D生成的最新進展(第III-D節(jié))。

A. 2D生成

最近,生成模型領域,特別是在文本到圖像生成方面,取得了顯著進展。文本到圖像生成因其能夠從文本描述中生成真實圖像而受到關注,這種能力通過捕捉真實世界的外貌來實現(xiàn)。利用擴散模型、大型語言模型(LLMs)和自編碼器等技術,這些模型實現(xiàn)了高質量和語義上準確的圖像生成。

  1. 算法:Imagen [29] 在GLIDE建立的原則基礎上進行了構建,但引入了顯著的優(yōu)化和改進。與從頭開始訓練特定任務的文本編碼器不同,Imagen使用預訓練和凍結的語言模型,從而降低了計算需求。Imagen測試了在圖像-文本數(shù)據集(例如,CLIP [30])上訓練的模型和在純文本數(shù)據集(例如,BERT [31] 和 T5 [32])上訓練的模型。這一實踐表明,擴大語言模型的規(guī)模比擴大圖像擴散模型更有效地增強圖像保真度和文本一致性。

    DALL-E[33](版本1)使用一種Transformer架構,將文本和圖像作為單一數(shù)據流進行處理。DALL-E 2 [34]利用了CLIP [30]強大的語義和風格能力,采用生成擴散解碼器來逆轉CLIP圖像編碼器的過程。DALL-E 3 [35]在DALL-E 2 [34]的進步基礎上進行了構建,顯著提高了圖像保真度和文本對齊度。它增強了文本理解能力,允許從復雜描述中生成更準確和細致的圖像。DALL-E 3與ChatGPT [36]集成,使用戶能夠在ChatGPT界面內直接進行頭腦風暴和完善提示,簡化了生成詳細和定制提示的過程。該模型生成的圖像具有更高的真實性和與所提供文本更好的對齊度,使其成為創(chuàng)意和專業(yè)應用的強大工具。

    DeepFloyd IF [37]以其出色的照片真實感和先進的語言理解能力而聞名。該系統(tǒng)是模塊化的,具有一個靜態(tài)文本編碼器和三個連續(xù)的像素擴散模塊。最初,基礎模型從文本描述中創(chuàng)建64×64像素的圖像。然后,這些圖像通過兩個超分辨率模型分別增強到256×256像素,再進一步增強到1024×1024像素。每個階段都使用來自T5 [32] Transformer的靜態(tài)文本編碼器生成文本嵌入,隨后由具有集成交叉注意力和注意力池化機制的U-Net架構進行處理。

    Stable Diffusion (SD)[38],也稱為潛在擴散模型(LDM),在有限的計算資源上提高了訓練和推理效率,同時產生高質量和多樣化的圖像。去噪過程發(fā)生在預訓練自編碼器的潛在空間中,這些自編碼器將圖像映射到空間潛在空間。底層的U-Net架構通過交叉注意力機制增強,以模擬條件分布,可以包括文本提示、分割掩碼等。它使用CLIP [30]文本嵌入作為條件,并在LAION [39]數(shù)據集上訓練,以生成512×512分辨率(潛在分辨率為64×64)的圖像。在Stable Diffusion的基礎上,SDXL [40]采用了一個大三倍的U-Net骨干網絡。它通過使用第二個文本編碼器引入了額外的注意力塊和更大的交叉注意力上下文。此外,SDXL還包括一個細化模型,該模型通過事后圖像到圖像技術增強由SDXL生成的樣本的視覺保真度。

    FLUX.1[41]利用混合架構,集成了多模態(tài)和并行擴散Transformer塊,實現(xiàn)了120億參數(shù)的顯著規(guī)模。通過采用流匹配,這是一種簡單但有效的訓練生成模型的技術,F(xiàn)LUX.1超越了以前的最先進擴散模型。該套件還具有旋轉位置嵌入和并行注意力層,大大提高了模型性能和效率。

B. 視頻生成

由于圖像和視頻之間的結構相似性,早期的視頻生成方法主要適應和微調現(xiàn)有的2D圖像生成模型(第III-A節(jié))。最初對這一挑戰(zhàn)的看法集中在引入時間動態(tài)建模機制上,通常是通過在架構中添加時間層(圖2),如注意力和卷積。一種常見的訓練策略還涉及混合2D圖像和視頻數(shù)據,以提高生成視頻的視覺質量。受到Sora [13]的啟發(fā),最先進的模型現(xiàn)在經常采用擴散Transformer架構。這些模型通過將視頻分解為一系列“塊”來操作壓縮的時空潛在空間,這些塊作為Transformer的標記。這種方法同時處理空間和時間信息。盡管這些模型復雜,但它們通常保留了處理單幀圖像作為一幀視頻的能力,使它們能夠利用2D圖像生成的大量數(shù)據。


在本節(jié)中,我們將這些模型根據其底層生成機器學習架構分為三個主要類別。圖3總結了最近的文本到視頻生成技術。對于尋求更深入探索的讀者,詳細的調查可以在[42],[43]中找到。


  1. 算法:(1) 基于VAE和GAN的方法。在擴散模型之前,視頻生成研究主要通過兩種方法推進:基于VAE和基于GAN的方法,每種方法都為視頻合成的挑戰(zhàn)提供了獨特的解決方案?;赩AE的方法從SV2P [44]的隨機動態(tài)發(fā)展到VideoGPT [72]中VQ-VAE [71]與Transformer的結合,通過分層離散潛在變量有效處理高分辨率視頻。顯著的改進來自FitVid [45]中的參數(shù)高效架構和對抗性訓練的整合,以實現(xiàn)更真實的預測。并行的基于GAN的方法帶來了顯著的創(chuàng)新,從MoCoGAN [46]開始,它將內容和運動組件分解以進行控制生成。StyleGAN-V [47]通過位置嵌入將視頻視為時間連續(xù)信號,而DIGAN [48]引入了隱式神經表示以改進連續(xù)視頻建模。StyleInV [49]利用預訓練的StyleGAN [73]生成器和時間風格調制反演網絡,在具有時間一致性的高質量幀合成方面標志著另一個里程碑。

(2) 基于擴散的方法。文本到視頻生成最近取得了顯著進展,方法通常分為兩類:基于U-Net的架構和基于Transformer的架構。 (i) 基于U-Net的架構。開創(chuàng)性的視頻擴散模型(VDM)[50]通過擴展圖像擴散架構并引入聯(lián)合圖像-視頻訓練以減少梯度方差,實現(xiàn)了高保真度、時間一致的視頻生成。Make-A-Video [51]通過利用現(xiàn)有的視覺表示[30]和創(chuàng)新的時空模塊,在沒有配對文本-視頻數(shù)據的情況下推進了文本到視頻生成。Imagen Video [52]引入了一系列擴散模型,結合基礎生成和超分辨率,而MagicVideo [53]通過在低維空間中的潛在擴散實現(xiàn)了高效生成。GEN-1 [54]專注于使用深度估計進行結構保持編輯,而PYoCo [55]通過精心設計的視頻噪聲先驗,在有限數(shù)據上展示了高效的微調。Align-your-Latents [56]通過擴展Stable Diffusion [38]與時間對齊技術,實現(xiàn)了高分辨率生成(1280 × 2048)。Show-1 [74]結合了基于像素和基于潛在的方法,以提高質量和減少計算。VideoComposer [57]通過時空條件編碼器引入了一種新的可控合成范式,實現(xiàn)了基于多個條件的靈活組合。AnimateDiff [58]提出了一個可插拔的運動模塊,具有可轉移的運動先驗,并引入了MotionLoRA以實現(xiàn)高效適應。PixelDance [59]通過結合文本提示以及第一幀和最后一幀圖像指令來增強生成。

(ii) 基于Transformer的架構。在擴散Transformer(DiT)[75]的成功之后,基于Transformer的模型獲得了顯著地位。VDT [62]引入了模塊化的時間和空間注意力機制,用于包括預測、插值和完成在內的多樣化任務。W.A.L.T [63]通過統(tǒng)一的潛在空間和因果編碼器架構實現(xiàn)了照片級真實感生成,生成512 × 896的高分辨率視頻。Snap Video [76]通過空間和時間冗余像素處理,提高了3.31倍的訓練效率,而GenTron [64]在無運動引導下擴展到超過30億參數(shù)。Luminia-T2X [65]通過零初始化注意力和標記化潛在時空空間整合了多種模態(tài)。CogVideoX [66]通過專家Transformer、3D VAE和漸進訓練,在長時間視頻生成方面表現(xiàn)出色,通過多個指標驗證了最先進的性能。開創(chuàng)性的Sora [13]是一種先進的擴散Transformer模型,強調在不同分辨率、縱橫比和持續(xù)時間下生成高質量圖像和視頻。Sora通過標記化潛在時空空間實現(xiàn)了靈活和可擴展的生成能力。

(3) 基于自回歸的方法。與基于擴散的方法并行,受大型語言模型(LLMs)啟發(fā)的自回歸框架已成為視頻生成的替代方法。這些方法通常遵循兩階段過程:首先使用像VQ-GAN [77]和MAGVIT [68],[78]–[81]這樣的向量量化自編碼器將視覺內容編碼為離散潛在標記,然后在潛在空間中對標記分布進行建模。CogVideo [69],一個基于預訓練文本到圖像模型CogView [82]的90億參數(shù)Transformer模型,代表了這一方向的重要進展。它采用多幀率分層訓練策略來增強文本-視頻對齊,并且作為第一個開源的大規(guī)模預訓練文本到視頻模型,它在機器和人類評估中都建立了新的基準。VideoPoet [70]引入了一種僅解碼器的Transformer架構,用于零樣本視頻生成,能夠處理多種輸入模態(tài),包括圖像、視頻、文本和音頻。遵循LLM訓練范式,通過預訓練和任務特定適應階段,VideoPoet在零樣本視頻創(chuàng)作中實現(xiàn)了最先進的性能,特別是在通過其多樣化的生成預訓練目標在運動保真度方面表現(xiàn)出色。

評估。隨著任務復雜性的增加,視頻生成模型的評估也不斷發(fā)展。早期方法依賴于基于分布的指標,最顯著的是弗雷切特視頻距離(FVD)[50],[56],[83]。作為圖像弗雷切特初始距離(FID)[84]的時間擴展,F(xiàn)VD比較時空特征分布以評估視覺質量和一致性。最近的基準測試,如VBench [85],提供了更細粒度的特定屬性分析,如運動平滑度和主體身份,使用來自模型如CLIP [30]和DINO [86]的特征。然而,由于自動化指標往往與人類感知不一致,該領域越來越多地轉向人類研究,以進行更全面和準確的評估,特別是對于先進的開放領域模型。表II展示了現(xiàn)代視頻生成模型的人類偏好評估。


  1. 應用:(1) 視頻編輯最近從擴散模型中顯著受益,能夠在保持時間一致性的同時進行復雜的修改。該領域通過幾種創(chuàng)新方法發(fā)展,解決了視頻操作的不同方面。早期發(fā)展包括Tune-A-Video [90],它開創(chuàng)了一次性調整范式,通過時空注意力機制將文本到圖像擴散模型擴展到視頻生成。通過各種方法解決了時間一致性問題。VidToMe [91]引入了標記合并以對齊幀,而EI [92]開發(fā)了專門的注意力模塊。幾項工作專注于專門的編輯能力。Ground-A-Video [93]通過基于基礎的框架解決了多屬性編輯,而Video-P2P [94]引入了跨注意力控制以進行角色生成。最近的框架如UniEdit [95]和AnyV2V [96]代表了最新的發(fā)展,提供了無需調整的方法和簡化的編輯過程。專門的應用如CoDeF [97]和Pix2Video [98]引入了創(chuàng)新技術,用于時間一致性處理和漸進變化傳播。這些方法成功地平衡了內容編輯與結構保留,在視頻操作技術方面取得了顯著進展。

(2) 新視角合成通過視頻擴散模型得到了革命性的改變,這些模型受益于對真實世界幾何形狀的學習先驗,能夠從有限的輸入圖像中生成高質量的視角。ViewCrafter [99]通過將視頻擴散模型與基于點的3D表示集成,引入了迭代合成策略和相機軌跡規(guī)劃,從稀疏輸入中獲得高保真度結果,開創(chuàng)了這一方向。相機控制已成為一個關鍵方面,CameraCtrl [100]通過可插拔模塊引入了精確的相機姿態(tài)控制。幾種創(chuàng)新方法解決了視角一致性挑戰(zhàn)。ViVid-1-to-3 [101]將新視角合成重新定義為相機運動的視頻生成,而NVS-Solver [102]引入了一種零樣本范式,通過給定視圖調制擴散采樣。這一趨勢表明,利用視頻擴散先驗的同時保持幾何一致性和相機控制,使合成應用越來越真實。

(3) 視頻中的人物動畫在視頻生成中獲得了重要性,這在世界模擬器中起著關鍵作用,如在第III-B1節(jié)中討論的。這一點尤其重要,因為人類是現(xiàn)實世界中最重要的參與者,使他們的現(xiàn)實模擬至關重要。由于生成模型的早期成功,有一些代表性的工作[46],[103],[104]引入了生成對抗網絡(GAN)[14]來在視頻中動畫化人類。盡管取得了這些進展,但人類視頻動畫的最關鍵問題仍然是生成視頻的視覺保真度。ControlNet [105]和HumanSD [106]是基于基礎文本到圖像模型(如Stable Diffusion [38])的即插即用方法,用于根據姿勢動畫化人類。此外,為了解決這些方法的泛化問題,animate-anyone [107]提出了一個ReferenceNet來保持更多參考視頻的空間細節(jié),并推動野外生成質量達到一個新的里程碑。還有一些后續(xù)工作[108],[109]試圖簡化訓練架構和成本。此外,隨著計算機圖形學領域對幾何和紋理的深入研究,一些工作將3D建模引入人類視頻動畫。Liquid Warping GAN [110]、CustomHuman [111]和LatentMan [112]是將3D人體先驗引入生成循環(huán)的早期嘗試。最新的進展,MIMO [113],明確地分別建模角色、3D運動和場景,以驅動野外的人類動畫。這些有或沒有3D先驗的方法為將人類引入世界模擬器循環(huán)邁出了重要一步。

C. 3D生成 3D生成專注于幾何和外觀,以更好地模擬真實世界場景。在本節(jié)中,我們探索各種3D表示和生成算法,提供近期進展的結構化概述。具體來說,我們根據輸入模態(tài)對3D生成方法進行分類,包括文本到3D生成,它直接從文本描述合成3D內容,圖像到3D生成,它引入圖像約束以優(yōu)化文本驅動的輸出,以及視頻到3D生成,它利用視頻先驗實現(xiàn)更一致的3D生成。這些進展的按時間順序的總結在圖7中展示,而表IV提供了尖端方法的全面比較。值得注意的是,幾種方法跨越多個類別,展示了現(xiàn)代3D生成技術的多功能性。 與其從頭開始構建3D生成模型,大多數(shù)現(xiàn)有方法與2D和視頻生成模型高度耦合,以利用它們強大的外觀建模能力來更好地進行3D生成,如圖5、圖8和圖10所示。首先,2D中編碼的圖像先驗和視頻生成模型中編碼的幾何線索可以用來為3D生成模型提供監(jiān)督。其次,可以微調2D和視頻生成模型以接受額外的3D信息(例如,法線)作為輸入,以合成3D感知的多視圖圖像,以促進3D生成。







  1. 3D表示:在3D生成領域,選擇最優(yōu)的3D表示至關重要。對于神經場景表示,3D數(shù)據通??梢苑譃槿齻€主要類別:顯式、隱式和混合表示,如圖4所示。 (1) 顯式表示。顯式表示提供由一組元素定義的對象和場景的精確可視化。傳統(tǒng)形式,如點云、網格和體素,多年來已被廣泛使用。



    為了便于優(yōu)化,協(xié)方差矩陣 Σ 通常被分解為一個縮放矩陣 S 和一個旋轉矩陣 R,使得:


    (2) 隱式表示。隱式表示使用連續(xù)函數(shù)(如數(shù)學模型或神經網絡)來描述3D空間,捕捉體積屬性而非表面幾何。隱式神經表示通過神經網絡來近似這些函數(shù),以更高的訓練和推理開銷為代價增強了表達能力。主要方法包括有符號距離場(SDF)[117]和神經輻射場(NeRF)[123]。




    (3) 混合表示。大多數(shù)當前的隱式方法依賴于回歸NeRF或SDF值,這可能限制它們利用目標視圖或表面的顯式監(jiān)督的能力。然而,顯式表示在訓練期間提供了有用的約束并改善了用戶交互。為了利用兩種范式的互補優(yōu)勢,混合表示可以看作是顯式和隱式表示之間的權衡。

    (i) 混合體素網格可以作為混合表示在方法如[124]–[126]中使用。[125]使用密度和特征網格進行輻射場重建,而Instant-NGP [126]使用基于哈希的多級網格,優(yōu)化GPU性能以實現(xiàn)更快的訓練和渲染。

    (ii) DMTet [119]結合了四面體網格和隱式SDF,以實現(xiàn)靈活的3D表面表示。神經網絡預測每個頂點的SDF值和位置偏移,允許對復雜拓撲進行建模。網格通過可微分的Marching Tetrahedra(MT)層轉換為網格,實現(xiàn)高效、高分辨率的渲染。通過使用基于網格的損失優(yōu)化幾何和拓撲,DMTet實現(xiàn)了更精細的細節(jié)、更少的偽影,并在從粗體素到復雜3D數(shù)據集的條件下的形狀合成方面超越了以前的方法。

(iii) Tri-plane提供了一種內存高效的替代方案,用于3D形狀表示和神經渲染。它將3D體積分解為三個正交的2D特征平面(XY, XZ, YZ)。EG3D [127]利用這種結構,使用MLP從平面中聚合特征,并預測任何3D點的顏色和密度值。這種方法比基于體素的NeRF減少了內存消耗,并實現(xiàn)了更快的渲染。

  1. 算法:(1) 文本到3D生成。通過模擬真實世界的幾何形狀,從文本提示生成3D內容,已經進行了大量的研究,可以分為三個分支。讀者可以參考[128]–[130]以獲得該領域的更全面的調查。不同的方法分支的比較如圖5所示。正如我們所看到的,圖像生成模型作為文本到3D方法的關鍵組件,提供監(jiān)督(即,SDS損失)或合成多視圖圖像以實現(xiàn)更準確的3D生成。

(i) 正向方法。受文本到圖像生成的啟發(fā),一種主要的方法分支擴展了現(xiàn)有的成功生成模型,以直接從文本提示中合成3D表示。成功的關鍵在于將3D幾何編碼為緊湊的表示,并將其與相應的文本提示對齊。

Michelangelo [131]首先構建了一個VAE模型,將3D形狀編碼為潛在嵌入。然后,這個嵌入與使用CLIP [30]模型從語言和圖像中提取的特征對齊。使用對比損失進行優(yōu)化,可以從文本提示中推斷出3D形狀。ATT3D [132]使用Instant-NGP模型作為3D表示,并通過映射網絡將其與文本嵌入橋接。然后,從Instant-NGP模型渲染多視圖圖像,整個網絡使用SDS損失進行優(yōu)化。受ATT3D的啟發(fā),Atom [133]學習從文本嵌入中預測一個三角表示,并采用兩階段優(yōu)化策略。Hyperfields [134]訓練了一個動態(tài)超網來記錄從不同場景中學到的NeRF參數(shù)。

最近,擴散模型的出色表現(xiàn)激勵研究人員將其擴展到3D生成。早期的方法側重于從文本提示中學習合成顯式的3D表示。具體來說,Point-E [135]首先使用GLIDE [136]合成多個視圖,然后使用這些視圖作為條件,使用擴散模型生成點云。后來,MeshDiffusion [137]使用擴散來建立從文本到網格的映射。后續(xù)的方法嘗試將擴散模型應用于隱式的3D表示。Shap-E [138]首先將3D內容映射到輻射場的參數(shù),然后訓練一個擴散模型,根據文本嵌入生成這些參數(shù)。3D-LDM [139]使用SDF來表示3D內容的幾何形狀,并訓練一個擴散模型進行文本條件生成。同樣,Diffusion-SDF [140]構建了一個SDF自編碼器,使用體素化的擴散模型從文本提示生成體素化的有符號距離場(SDFs)。LATTE3D [141]開發(fā)了一個紋理網絡和一個幾何網絡,分別根據文本嵌入生成NeRF和SDF。然后,通過SDS損失優(yōu)化3D感知擴散模型。

討論。與基于優(yōu)化的方法相比,正向方法更傾向于高效率,并能夠在沒有測試時優(yōu)化的情況下生成3D內容。然而,這些方法嚴重依賴于數(shù)據的數(shù)量,通常在結構和紋理細節(jié)方面表現(xiàn)較差。

(ii) 基于優(yōu)化的方法。除了文本到圖像生成之外,另一種方法分支通過利用強大的文本到圖像生成模型提供豐富的監(jiān)督來優(yōu)化3D表示。 DreamFusion [142] 首先引入得分蒸餾采樣(SDS)損失來優(yōu)化NeRF,使用從文本提示合成的圖像。MVDream [143] 微調多視圖擴散模型,生成具有跨視圖一致性的多視圖圖像,以訓練NeRF捕捉3D內容。Magic3D [144] 使用紋理網格來表示3D對象,并采用SDS損失進行優(yōu)化。Dream3D [145] 首先從文本提示生成圖像,然后用于產生3D形狀以初始化神經輻射場。接下來,使用CLIP指導優(yōu)化NeRF。Fantasia3D [146] 進一步結合DMTet和SDS損失,從文本提示生成3D對象。ProlificDreamer [147] 開發(fā)變分得分蒸餾(VSD)來模擬3D表示的分布,并產生具有豐富細節(jié)的更高質量結果。為了解決多面Janus問題,PI3D [148] 首先微調文本到圖像擴散模型以產生偽圖像。然后,這些圖像被用來使用SDS損失生成3D形狀。VP3D [149] 首先使用文本到圖像擴散模型從文本提示生成高質量圖像。然后,通過SDS損失優(yōu)化3D表示,使用生成的圖像和文本提示作為條件。 隨著3D高斯的顯著進展,它在文本到3D生成領域得到了廣泛研究。DreamGaussian [150] 首先使用擴散獲得3D高斯,并使用SDS損失進行優(yōu)化。然后,從3D高斯中提取網格,并對紋理進行細化以獲得更高質量的內容。為了促進收斂,GSGEN [151] 和GaussianDreamer [152] 首先使用Point·E從文本提示生成點云,以初始化高斯的位置。然后,這些高斯被優(yōu)化以細化它們的幾何形狀和外觀,使用SDS損失。Sculpt3D [153] 通過在數(shù)據庫中檢索參考3D對象引入3D先驗,可以無縫集成到現(xiàn)有流程中。

討論。由于文本到圖像模型中的豐富知識,基于優(yōu)化的方法產生了更精細的細節(jié)。然而,這些方法需要昂貴的每次提示優(yōu)化,并且耗時。

(iii) 基于MVS的方法。與直接從文本提示生成3D表示不同,為了更好地利用文本到圖像模型,已經有許多嘗試合成多視圖圖像以進行3D生成。 Instant3D [154] 首先微調文本到圖像擴散模型以生成四視圖圖像。然后,這些圖像被傳遞給一個Transformer以預測三平面表示。Direct2.5 [155] 在2.5D渲染和自然圖像上微調多視圖法線擴散模型。給定文本提示,Direct2.5首先產生法線圖,并通過可微分光柵化進行優(yōu)化。然后,最優(yōu)法線圖被用作條件來合成具有3D一致性的多視圖圖像。Sherpa3D [156] 首先使用3D擴散模型從文本提示生成粗略的3D先驗。然后,產生法線圖并用于合成具有3D一致性的多視圖圖像。

討論。隨著VLMs的最近進展,通過注入3D先驗來提升這些2D生成模型進行3D生成引起了越來越多的興趣。然而,3D一致性的制定和有限的3D數(shù)據微調仍然是開放問題。

評估。文本到3D方法的定量評估仍然是一個開放問題。對于主觀質量評估,常見的基于參考的指標(例如,PSNR)不適用,因為缺乏真實數(shù)據,而非參考質量(例如,F(xiàn)ID)指標可能并不總是與人類偏好一致。因此,大多數(shù)方法采用CLIP分數(shù)和CLIP R-Precision來評估3D模型與文本提示的對齊。最近,已經建立了幾個基準[158],[159]來全面評估文本到3D生成方法。在這里,我們在表III中報告了代表性方法的定量分數(shù),并在圖6中展示了它們的視覺結果。讀者可以參考[158],[159]以獲取更多細節(jié)。



(2) 圖像到3D生成。圖像到3D任務的目標是生成與給定圖像身份一致的高質量3D資產。由于3D數(shù)據收集成本高,文本到3D生成缺乏足夠的高質量文本注釋來擴大規(guī)模,與圖像和視頻生成相比。由于圖像自然捕獲更多與3D模態(tài)緊密對齊的低級信息,圖像到3D任務縮小了輸入和輸出之間的模態(tài)差距,與文本到3D生成相比。因此,圖像到3D已成為推進原生3D生成的基礎任務。為了利用圖像生成模型中的知識,它們經常被用作圖像到3D模型的組成部分(圖8)。部分方法的定性比較顯示在圖9中,定量比較在表V中說明。由于論文中使用的評估數(shù)據集或指標的不一致性,一些工作未在圖和表中列出。


(i) 前饋方法。這些方法首先使用壓縮網絡(如VAE)將3D資產編碼為潛在代碼,然后訓練潛在空間樣本的生成模型。3DGen [160] 引入三平面作為潛在空間,提高了壓縮網絡的準確性和效率。Direct3D [163] 采用三平面表示,并直接使用3D監(jiān)督進行訓練,在潛在三平面中保留詳細的3D信息。Michelangelo [131] 從3Dshape2vecset [184] 中汲取靈感,使用1D向量作為潛在空間,并在占用場的監(jiān)督下輸出。CraftsMan [162] 進一步引入多視圖生成模型,生成多視圖圖像作為擴散模型的條件,隨后基于法線的細化生成網格。Clay [161] 引入了一個全面的系統(tǒng),預訓練在大規(guī)模3D數(shù)據集上進行3D生成,包括基于1D向量的VAE和擴散模型用于幾何生成,材料擴散用于PBR紋理,以及跨各種模態(tài)的條件設計。

討論。原生方法在3D數(shù)據集上訓練壓縮網絡和生成模型,并在幾何生成方面表現(xiàn)出優(yōu)越的性能,與基于MVS和基于優(yōu)化的方法相比,能夠產生更細粒度的幾何細節(jié)。然而,由于制作和收集成本高,3D數(shù)據集[185],[186]的規(guī)模比圖像或視頻數(shù)據集[187],[188]增長得慢得多。因此,原生方法缺乏足夠多樣化和廣泛的數(shù)據進行預訓練。因此,如何利用來自視頻和圖像的先驗來增強3D生成的多樣性和泛化能力,特別是在紋理生成方面,仍然是一個需要進一步探索的領域。

(ii) 基于優(yōu)化的方法。隨著文本到3D模型中基于蒸餾方法的發(fā)展,基于優(yōu)化的方法通過預訓練的圖像到圖像或文本到圖像生成模型的SDS損失監(jiān)督的訓練過程直接優(yōu)化3D資產,同時通過各種額外的損失約束保持圖像身份。

從Dreamfusion [142]、Magic3D [144]和SJC [189]適應而來,RealFusion [165]僅從預訓練的文本到圖像模型中提取先驗,使用SDS損失,同時使用圖像重建損失和文本反轉分別保留低級和語義身份。隨著大規(guī)模開放集3D數(shù)據集[185]的出現(xiàn),Zero123 [166]通過替換文本到圖像模型為新視圖合成模型來引入3D數(shù)據集的先驗到圖像到3D任務中。具體來說,Zero123在3D數(shù)據集上微調預訓練的圖像到圖像生成模型,通過引入相機姿態(tài)作為條件來控制生成圖像的視點。預訓練的新視圖合成模型保留了圖像模型的細節(jié)和3D數(shù)據集的多視圖一致性,顯著緩解了Janus問題。

一系列工作在Zero123 [166]的基礎上進行了擴展。Zero123-xl [186]在10倍大的3D數(shù)據集上預訓練Zero123管道,以獲得更好的泛化能力。Magic123 [167]同時利用2D和3D先驗進行蒸餾,以管理泛化和一致性之間的權衡,并使用粗到細的管道以獲得更高質量的結果。SyncDreamer [168]和Consistent123 [169]都通過引入同步多視圖擴散模型進一步改進了NVS模型的多視圖一致性,前者利用3D體積來模擬圖像的聯(lián)合分布關系,后者利用跨視圖注意力和共享自注意力。Toss [170]此外將文本標題作為3D數(shù)據的高級語義引入NVS模型預訓練中,以增強不可見視圖的合理性和可控性。ImageDream [171]通過設計多級圖像提示控制器和使用文本描述進行訓練,解決了多視圖一致性和3D細節(jié)問題。Wonder3D [173]結合了跨域注意力機制,使NVS模型能夠同時去噪圖像和對齊法線圖,同時在優(yōu)化過程中額外引入法線圖。IPDreamer [172]通過引入IPSDS(SDS的一種變體)和多提示一致性的掩碼引導對齊策略,實現(xiàn)了從復雜圖像提示的可控3D合成。

討論。繼承了圖像生成模型的強大先驗,基于優(yōu)化的方法展示了強大的泛化能力,并且能夠模擬高精度紋理。然而,由于新視圖合成(NVS)模型在預訓練期間僅使用從3D采樣的2D數(shù)據而不是直接3D數(shù)據進行監(jiān)督,多視圖一致性問題無法從根本上解決,盡管通過3D體積建?;蚩缫晥D注意力有所改進。因此,基于優(yōu)化的方法通常由于優(yōu)化范式而遭受過于平滑的幾何形狀和長時間的訓練。

(iii) 基于MVS的方法?;贛VS的方法將圖像到3D生成分為兩個階段:首先使用NVS模型從單個圖像生成多視圖圖像,然后直接使用前饋重建網絡從這些多視圖圖像創(chuàng)建3D資產。

基于Zero123 [166]預測的多視圖圖像,One-2-3-45 [174]提出了一個高度估計模塊,并利用基于SDF的可推廣神經表面重建模塊在3D數(shù)據集上進行預訓練,以實現(xiàn)360°網格重建,與基于優(yōu)化的方法相比,將重建時間減少到45秒。CRM [175]進一步將多視圖生成模型的輸出圖像凍結到六個固定相機姿態(tài),大大提高了多視圖之間的一致性。然后CRM將多視圖圖像輸入卷積U-Net,以深度和RGB圖像為監(jiān)督創(chuàng)建高分辨率三平面。InstantMesh [176]也凍結了多視圖圖像的相機姿態(tài),但采用基于LRM [177]的基于Transformer的多視圖重建模型來重建3D網格,以犧牲一些圖像到3D細節(jié)一致性為代價提供更好的泛化。Unique3d [178]引入了多級放大策略,逐步生成更高分辨率的多視圖圖像,并使用法線圖擴散模型預測多視圖法線圖,用于粗略網格的初始化,然后根據多視圖圖像進行細化和上色。

討論。與基于優(yōu)化的方法相比,基于多視角立體視覺(MVS)的方法在3D數(shù)據集上訓練前饋重建模型,從多視角圖像中重建出高質量的3D模型,顯著提升了3D一致性,并將推理時間縮短至秒級。然而,由于模型規(guī)模的限制,MVS方法通常缺乏高質量的幾何細節(jié)。

(3)視頻到3D生成。視頻到3D生成方法從根本上建立在2D擴散模型的進展之上,將基于圖像的生成先驗擴展到時間域。通過建模具有連貫紋理、光照和幾何結構的幀序列,視頻擴散模型能夠利用2D視頻中捕捉到的運動和視角變化,隱式地學習3D結構。諸如SV3D、Hi3D和V3D等框架,采用預訓練的視頻擴散主干網絡生成多視角幀序列,然后通過體渲染(volume rendering)、網格優(yōu)化(mesh optimization)或高斯?jié)姙R(Gaussian splatting)等技術整合為顯式的3D幾何結構。這種協(xié)同機制既利用了2D視頻模型強大的內容合成能力,又引入了稠密3D重建所必需的空間一致性和相機控制能力。

海量的在線視頻數(shù)據構成了豐富的3D信息庫,其中包含物體運動、視角變化和相機轉場等內容,揭示了靜態(tài)圖像中通常無法獲得的多視角信息[190]–[195]。這類動態(tài)內容在連續(xù)幀之間提供了時間連貫性與空間一致性,對于理解復雜3D場景和生成高保真3D結構至關重要[13]。因此,利用這些多視角且隨時間變化的數(shù)據已成為重建和合成3D一致對象的一種有前景的方法[196]。

近期研究探索了基于視頻的先驗用于魯棒3D生成[180]–[182],旨在學習跨幀保持一致、并能適應視角變化的3D表示。總體而言,這些視頻到3D生成工作的核心思想是:將具備相機可控能力的視頻模型用作一致的多視角生成器,以實現(xiàn)稠密3D重建(見圖10)。

近期視頻擴散模型的進展凸顯了其在生成逼真視頻方面的卓越能力,同時展現(xiàn)出對3D結構的隱式推理潛力。然而,在將其有效用于3D生成方面仍存在顯著挑戰(zhàn),尤其是在精確的相機控制方面。傳統(tǒng)模型[197]–[199]通常僅限于生成具有平滑且短程相機軌跡的片段,難以有效構建動態(tài)3D場景或整合多樣化的相機角度。

為應對這些局限,研究人員已開發(fā)出若干創(chuàng)新技術,以增強視頻擴散框架中的相機控制能力。早期方法之一是AnimateDiff [58],它采用低秩自適應(LoRA)[200]對視頻擴散模型進行微調,使其適配固定的相機運動類型。該方法可在指定相機動力學約束下合成結構化場景。另一項重要進展是MotionCtrl [201],它引入了條件機制,使模型能夠遵循任意相機路徑,從而在生成多樣化視角方面獲得更大靈活性,克服了以往方法的僵化性。

基于可控相機視頻生成能力的發(fā)展,SVD-MV [202]、SV3D [181] 和 IM-3D [179] 等工作探索了如何利用相機控制來提升從視頻數(shù)據生成3D對象的效果。例如,SV3D訓練了一個能夠渲染任意視角的視頻擴散模型,展現(xiàn)出更強的泛化能力和高分辨率輸出(576×576像素)。這種能力可在適應不同視角的同時維持幀間空間一致性,有效應對稠密重建中的關鍵挑戰(zhàn)。盡管效果顯著,這些方法通常仍將相機運動限制在圍繞中心物體的固定軌道路徑上,限制了其在具有豐富上下文背景的復雜場景中的適用性。然而,在生成包含多物體交互和視角劇烈變化的復雜環(huán)境的高質量3D表示方面,許多現(xiàn)有方法仍顯不足。

鑒于視頻模型中的相機控制可補充新視角信息,一些方法已探索視頻擴散模型在新視角合成(NVS)中的潛力。例如,Vivid-1-to-3 [101] 有效融合了視角條件擴散模型與視頻擴散模型,能夠生成時間一致的新視角。通過確保幀間平滑過渡,該模型顯著提升了合成輸出的質量,特別適用于3D場景表示。CAT3D [182] 則通過多視角擴散模型增強了豐富的多視角信息。

討論。利用視頻先驗進行多視角生成,可將視頻擴散模型轉變?yōu)橛糜诔砻?D重建的一致性多視角生成器。進一步的探索將有助于提升高保真3D表示能力,尤其是在需要魯棒多視角合成的復雜動態(tài)環(huán)境中。

3)應用:
(1)虛擬化身生成(Avatar Generation)。隨著元宇宙的興起以及VR/AR技術的普及,3D虛擬化身生成引起了越來越多的關注。早期工作主要聚焦于頭部化身的生成 [203]–[205],利用文本到圖像的擴散模型與神經輻射場(Neural Radiance Fields)來創(chuàng)建面部資產。后續(xù)方法則更加關注逼真的全身化身生成,通過將神經輻射場與統(tǒng)計模型相結合來實現(xiàn) [206], [207]。近期,化身生成的動畫能力受到廣泛關注,大量相關方法被提出 [208], [209]。

(2)場景生成(Scene Generation)。除了化身生成之外,在元宇宙和具身智能等應用中,對創(chuàng)建逼真3D環(huán)境的場景生成也存在強烈需求。早期方法聚焦于以物體為中心的場景,利用條件擴散模型合成多視角圖像,進而優(yōu)化神經輻射場 [139], [140]。后續(xù)工作通過引入漸進式策略,將這些方法擴展至房間尺度的場景 [210], [211]。受其成功啟發(fā),近期研究進一步探索了戶外場景的生成,范圍從街道尺度 [212], [213] 到城市尺度 [214], [215]。

(3)3D編輯(3D Editing)。強大的3D生成能力催生了3D內容編輯這一下游應用。一些方法專注于全局性地改變3D內容的外觀或幾何結構 [216], [217],而無需從場景中分離出特定區(qū)域。例如,場景風格化方法 [218], [219] 旨在操控3D資產的風格,如調整光照或模擬氣候變化。近期的研究致力于實現(xiàn)更細粒度的靈活3D內容編輯。具體而言,外觀修改 [220], [221]、幾何形變 [222], [223] 以及對象級操控 [224], [225] 均已被深入研究,并取得了富有前景的編輯效果。

D. 4D生成我們通過整合所有維度,最終實現(xiàn)4D生成。作為計算機視覺領域的前沿方向,4D生成聚焦于根據文本、圖像或視頻等多模態(tài)輸入,合成隨時間演化的動態(tài)3D場景。與傳統(tǒng)的2D或3D生成方法不同 [226],4D合成帶來了獨特的挑戰(zhàn):它不僅要求空間一致性(spatial coherence)和時間連續(xù)性(temporal consistency),還需在高保真度、計算效率和動態(tài)真實感之間取得平衡 [227]。

本節(jié)首先介紹4D表示(4D representation),該表示建立在3D表示基礎之上;隨后總結當前的4D生成方法。近期研究主要探索了兩種范式:一是基于優(yōu)化的方法,利用分數(shù)蒸餾采樣(Score Distillation Sampling, SDS);二是前饋式方法(feedforward-based approaches),避免對每個提示進行逐次優(yōu)化。這兩種范式應對不同的技術挑戰(zhàn),凸顯了該領域的復雜性,以及在視覺質量、計算效率和場景靈活性之間尋求可行平衡的持續(xù)努力。代表性4D生成工作匯總見表VI。


1)4D表示:4D表示將時間維度引入3D建模,為理解動態(tài)場景提供了堅實基礎。通過在靜態(tài)3D空間坐標(x, y, z)基礎上增加時間維度(t),這類方法能夠編碼場景的動態(tài)變化與形變,對于非剛性人體動作捕捉、物體軌跡模擬等應用至關重要 [257]–[260]。

大多數(shù)4D表示可分解為兩個模塊:規(guī)范3D表示(canonical 3D representation)和形變模塊(deformation)。第一個模塊用于建模靜態(tài)模板形狀;第二個模塊則通過對該模板進行形變以合成運動。常見的形變表示包括:

  • 形變場(deformation fields):一種神經網絡,將時空點映射到其在規(guī)范模板上的對應位置;
  • 形變基元(deformation primitives):如線性混合蒙皮(linear blend skinning),通過將某一點的運動表示為與不同身體部位或控制點相關的剛性運動的組合。

這兩種形變表示各有優(yōu)劣。形變場比形變基元更靈活,理論上可擬合更復雜的運動,具有更強的通用性;而針對關節(jié)化物體(如人或動物)設計的形變基元,在處理大幅關節(jié)運動時更具魯棒性,因為形變場缺乏必要的歸納偏置(inductive bias),尤其在快速運動下難以實現(xiàn)精確重建。

下文我們將重點討論采用規(guī)范3D表示+形變場這一類型的4D表示。

4D表示面臨的一大挑戰(zhàn)是單個場景重建的高昂計算成本。為解決此問題,顯式(explicit)與混合(hybrid)方法在不犧牲質量的前提下提升了效率。例如,平面分解(planar decompositions)通過將4D時空網格拆分為更小的組件來簡化計算 [261]–[263];基于哈希的表示(hash-based representations)則降低了內存與處理需求 [264]。3DGS(3D Gaussian Splatting)通過形變網絡將靜態(tài)高斯分布自適應為動態(tài)高斯,從而在速度與質量之間取得良好平衡 [116], [265]。

近期進展進一步將靜態(tài)與動態(tài)場景成分解耦,以高效渲染剛性與非剛性運動。例如:

  • D-NeRF 首先將場景編碼到規(guī)范空間,再映射到隨時間形變的狀態(tài) [266];
  • 3D Cinemagraphy 從單張圖像生成基于特征的點云,并利用3D場景流(scene flow)進行動畫化 [267];
  • 4DGS 通過將尺度、位置、旋轉等屬性建模為時間函數(shù)來捕捉時間動態(tài),同時保持靜態(tài)場景不變 [268]。

基于NeRF的混合方法通過引入平面或體素特征網格擴展了4D建模能力。這些網格與MLP結合,不僅支持高效的多視角合成,還可通過引入時間平面(temporal planes)擴展至動態(tài)場景 [261], [262]。可變形NeRF(Deformable NeRFs)將幾何與運動分離,簡化了運動學習過程,支持如圖像到4D視頻生成、多視角重建等應用 [126]。

總體而言,這些進展反映了在實現(xiàn)高效、高質量動態(tài)場景時間建模方面的持續(xù)進步。

2)算法:現(xiàn)代4D生成方法在很大程度上植根于3D生成所奠定的基礎。特別是NeRF和3DGS等3D重建技術的突破,直接影響了我們對動態(tài)4D場景的建模與渲染方式。這些3D框架不僅提供了高效的數(shù)據結構和渲染技術,還引入了對4D時間建模至關重要的歸納偏置。

在表示層面,3D方法提供的規(guī)范空間先驗(canonical spatial priors)可通過形變場或運動軌跡擴展,以捕捉時間演化。在訓練層面,3D中的快速訓練技術(如哈希編碼、分層采樣)已被適配用于加速4D優(yōu)化。作為最具代表性的4D任務,人體動畫尤其受益于3D人體建模的成果。SMPL(-X)、線性混合蒙皮、神經形變場等技術為關節(jié)化運動建模提供了強大的結構先驗,顯著提升了4D人體運動合成的真實感與可控性。

(1)前饋式方法(Feedforward Approaches):前饋式方法通過單次前向傳播生成4D內容(見圖11),繞過了SDS流水線所需的迭代優(yōu)化,提供了一種高效替代方案。這些方法依賴預訓練模型,利用時空先驗實現(xiàn)快速且一致的生成。


  • Control4D [228] 和 Animate3D [229] 可直接從文本或視覺輸入合成動態(tài)場景,適用于交互媒體、個性化內容創(chuàng)作等實時應用;
  • Vidu4D [230] 通過引入時間先驗優(yōu)化運動軌跡,確保幀間連貫性和平滑過渡;
  • Diffusion4D [231] 將擴散模型的能力擴展至4D場景合成,結合時空特征提取與高效推理機制;
  • L4GM [232] 進一步增強前饋技術,通過集成潛在幾何建模(latent geometry modeling),在保持計算效率的同時產出高質量結果。

討論:前饋式方法在強調速度與適應性的場景中表現(xiàn)優(yōu)異,如實時內容生成和消費級設備上的輕量部署。然而,其對預訓練模型的依賴以及在處理復雜動態(tài)時的靈活性有限,使其在細節(jié)豐富度和多樣性方面仍難以匹敵基于優(yōu)化的方法。盡管如此,前饋技術代表了邁向實用化4D生成的重要一步,有效應對了計算效率與可擴展性的關鍵挑戰(zhàn)。通過彌合質量與速度之間的鴻溝,這些方法有望在廣泛的4D內容生成應用中發(fā)揮關鍵作用。

(2)基于優(yōu)化的方法(Optimization-based Approaches):基于優(yōu)化的方法是4D生成的基石,采用迭代技術(如分數(shù)蒸餾采樣SDS)將預訓練擴散模型適配用于合成動態(tài)4D場景(見圖12)。這些方法充分利用來自文本到圖像、多視角圖像及文本到視頻生成模型的強大先驗,生成具有豐富運動動態(tài)且時間連貫的場景。


例如:

  • MAV3D [237] 在文本提示引導下,對NeRF或HexPlane特征進行SDS損失優(yōu)化;
  • 4D-fy [238] 與 Dream-in-4D [241] 通過在SDS監(jiān)督中融合圖像、多視角和視頻擴散模型,提升3D一致性與運動動態(tài);
  • AYG [239] 提出使用可變形3DGS作為內在表示,通過簡單的Δ形變場輕松解耦靜態(tài)幾何與動態(tài)運動,從而提升靈活性。

基于此類流程,近期工作從多個維度進一步改進4D生成:外觀質量、幾何一致性、運動保真度和生成可控性。具體而言:

  • TC4D [242] 與 SC4D [246] 支持用戶自由控制4D對象的運動軌跡;
  • STAG4D [248] 采用多視角融合策略,增強幀間的時空對齊,確保平滑過渡與一致性;
  • DreamScene4D [249] 與 DreamMesh4D [251] 采用解耦策略,將優(yōu)化集中在局部區(qū)域,顯著降低計算開銷同時保持高保真度;
  • 最新進展如 4Real [243] 與 C3V [244] 通過將組合式場景生成與高效優(yōu)化相結合,進一步拓展了基于優(yōu)化方法的邊界。這些方法將動態(tài)場景分解為模塊化組件(如靜態(tài)幾何與運動場),支持靈活更新與多樣化內容生成。

盡管基于優(yōu)化的方法在生成高質量、時間一致的結果方面具有優(yōu)勢,但其計算成本高昂,運行時間通常無法滿足實時應用需求。隨著研究推進,當前努力正聚焦于在不犧牲視覺保真度或動態(tài)真實感的前提下,提升可擴展性并降低延遲。

評估(Evaluation):
4D生成方法的定量評估主要聚焦于以下三個方面:
1)生成單個4D資產所需的時間成本;
2)CLIP分數(shù),用于評估生成結果與真實新視角圖像之間的圖像相似性;
3)生成結果與真實新視角圖像之間的感知相似性(LPIPS)。

我們在表VII中報告了代表性方法的定量評分,并在圖13中展示了其視覺結果。讀者可參考文獻[232]獲取更多細節(jié)。



3)應用:
(1)4D編輯(4D Editing):
基于指令的編輯(instruction-guided editing)允許用戶通過自然語言對場景進行編輯,提供了一種用戶友好且直觀的操作方式。這一能力已在2D圖像領域通過如Instruct-Pix2Pix(IP2P)[271]等模型成功實現(xiàn),在3D場景中也已通過Instruct-NeRF2NeRF(IN2N)[217]得以達成。然而,將其擴展至4D場景仍面臨顯著挑戰(zhàn)。

近期文本到圖像擴散模型與可微分場景表示的發(fā)展,使得利用文本提示編輯4D場景成為可能。例如,Instruct 4D-to-4D [272] 將4D場景視為偽3D場景,采用視頻編輯策略,迭代生成時空一致的編輯后數(shù)據集。同期工作如Control4D [228] 則結合GAN與擴散模型,根據文本指令對動態(tài)4D人像進行一致性編輯。

(2)人體動畫(Human Animation):
作為4D仿真中的核心組成部分,人體運動生成是社區(qū)關注度最高的研究分支之一。不同于第三節(jié)-B2中所述的以人體為中心的視頻生成,3D人體運動生成更便于在3D應用(如游戲、具身智能)中驅動角色動畫。近期3D人體運動生成的成功主要得益于成熟的人體參數(shù)化模型研究 [273], [274]。

人體運動生成的目標可概括為:在數(shù)字世界中模擬4D人體對象,具體可分為兩個方向:

1)基于稀疏控制信號的運動生成:主要根據用戶指定的稀疏動作(如關鍵幀)在虛擬世界中模擬人體動畫。

  • Robust motion in-between [275] 提出了“到達時間嵌入”(time-to-arrival embedding)和“調度目標噪聲向量”(scheduled target noise vector),以魯棒地實現(xiàn)不同過渡長度下的運動插值。
  • 鑒于運動空間的相位流形(phase manifold)具有良好的結構,Starke 等人 [276] 提出使用混合專家網絡(mixture-of-expert network)在相位流形中進行運動插值。
  • 此外,稀疏控制引導的運動生成另一重要方向是運動預測(motion prediction),亦稱運動外推(motion extrapolation)。早期研究 [277]–[280] 嘗試以確定性方式預測運動;考慮到運動預測具有主觀性,后續(xù)多項工作 [281]–[285] 轉而生成多樣化的預測運動。

2)基于多模態(tài)條件的運動生成:旨在利用其他模態(tài)輸入(如文本、音頻、音樂)來模擬人體動作。

  • 為解決文本-動作配對數(shù)據稀缺的問題,Guo 等人 [286] 構建了規(guī)模相對較大的文本-動作數(shù)據集 HumanML3D,其體量遠超以往數(shù)據集,極大推動了該任務的發(fā)展。
  • 同時,有研究驗證了VQ-VAE [286]–[291] 是另一種利用文本合成動作的有效范式。
  • 隨著擴散模型的快速發(fā)展,大量工作 [292]–[297] 將擴散模型引入該任務,并取得了優(yōu)異的生成質量。
  • 類似于文本到動作生成任務 [298]–[303],音樂驅動舞蹈生成的技術路線也可劃分為三類:cVAE [304]、VQ-VAE [305] 和基于擴散的方法 [306], [307]。

IV. 數(shù)據集與評估(DATASETS AND EVALUATIONS)
本節(jié)中,我們在表VIII中匯總了2D、視頻、3D和4D生成任務中常用的數(shù)據集。隨后,在表IX中對評估指標進行了統(tǒng)一且全面的總結。


在定量分析方面,我們從兩個角度評估指標:
1)質量(Quality):評估合成數(shù)據的感知質量,不依賴于輸入條件(如文本提示);
2)對齊性(Alignment):衡量條件一致性,即生成數(shù)據與用戶預期輸入的匹配程度。

在定性分析方面,生成結果的視覺質量在方法評估中起著關鍵作用。因此,我們納入了一些基于人類偏好的指標作為參考,以更有效地開展用戶研究,從而獲得更具說服力的定性分析結果。

此外,我們主張在評估中應重視生成模型部署時所面臨的實際挑戰(zhàn),尤其是與計算效率相關的問題。許多當前最先進的方法需要大量GPU資源和較長的推理時間,這限制了它們在現(xiàn)實應用中的可及性與可擴展性。這些因素雖未必總體現(xiàn)在評估指標中,但在資源受限環(huán)境或交互式系統(tǒng)中部署時至關重要。我們鼓勵未來的基準測試納入運行時間、內存占用和訓練成本等指標,以更真實地反映生成模型的實際可行性。

V. 未來方向(FUTURE DIRECTIONS)


盡管2D、視頻、3D和4D生成領域進展迅速,但仍存在諸多開放性問題,尤其是在多模態(tài)交互的場景下。這些問題因空間與時間維度整合的復雜性而進一步加劇。

  • 2D生成中,提升生成圖像的真實感與多樣性仍是關鍵障礙;
  • 視頻生成中,建模長期時間動態(tài)并確保幀間平滑過渡是核心挑戰(zhàn);
  • 3D生成中,如何在高質量輸出與計算效率之間取得平衡仍是關鍵問題。

解決上述挑戰(zhàn)對推進4D生成至關重要,因為4D生成建立在這些已有基礎之上。因此,一條清晰的技術路線圖不僅有助于4D研究,也對4D模型所依賴的2D、視頻和3D相關領域具有指導意義。

多模態(tài)生成(Multimodal Generation):
生成多樣化且逼真的4D內容十分困難,因為真實場景在空間、時間及感官通道上跨越多種模態(tài)。多模態(tài)學習的研究揭示了三個持續(xù)存在的障礙:
1)需要可靠的跨模態(tài)對齊機制,以確保合成的4D資產能準確遵循給定的文本、圖像或視頻提示;
2)高質量標注的多模態(tài)數(shù)據集稀缺,尤其在專業(yè)領域,限制了當前模型所能學習的真實世界動態(tài)范圍;
3)現(xiàn)有架構難以擴展到高分辨率3D場景隨時間演化的內存與計算開銷。
盡管條件擴散模型、組合式潛在空間和跨模態(tài)對比預訓練已提升了生成質量,但在上述約束下同時實現(xiàn)多樣性與保真度仍是一個開放的研究問題。

時間一致性與連貫性(Temporal Consistency and Coherence):
在4D生成中,確保長時間序列中幀與幀之間平滑且逼真的過渡是一項重大挑戰(zhàn)。與靜態(tài)3D生成不同,4D生成需在時間步長上維持形狀、紋理和運動的一致性。閃爍(flickering)或非自然形變等偽影極易在長序列中出現(xiàn)。如何在不犧牲細節(jié)或真實感的前提下強制實現(xiàn)時間連貫性,仍是一個未解難題。

效率與可控性(Efficiency and Controllability):
4D資產生成涉及龐大的時空張量和漫長的優(yōu)化周期,對GPU內存與算力造成巨大壓力。當使用分數(shù)蒸餾采樣(SDS)時,這種開銷進一步加劇,因其隱式形式使結果對控制信號和擴散先驗高度敏感。亟需緊湊的表示方法與可擴展的架構以降低這些負擔。同時,當前流程僅支持粗粒度控制;精確的運動路徑與語義級編輯仍然困難。未來進展將依賴于面向控制的算法設計和清晰的交互界面。

保真度與多樣性(Fidelity and Diversity):
在4D生成中同時維持高保真度與多樣性依然困難。

  • 保真度方面:形狀、紋理和運動必須在時間上保持一致;否則,長序列會出現(xiàn)閃爍、細節(jié)模糊以及幾何或光度漂移等問題。當前用于圖像到4D、視頻到4D、3D到4D生成流程中的擴散模型,難以從有限輸入中推斷缺失視角和高頻細節(jié),凸顯出對更強時間正則化、視角感知條件機制以及內存高效架構的需求——這些架構需在保障逐幀質量的同時確保平滑演化。
  • 多樣性方面:當前模型在不同物體、運動風格和環(huán)境下的泛化能力較差,因為動態(tài)3D內容高度可變,而訓練數(shù)據集仍較為狹窄。要實現(xiàn)魯棒泛化,需更廣泛的數(shù)據覆蓋、自適應條件機制和模塊化訓練策略,以確保在未見場景中仍能維持高保真合成。

物理與動力學建模(Physics and Dynamics Modeling):
逼真的4D生成必須以物理精度再現(xiàn)碰撞、彈性/塑性形變和流體流動。然而,將此類物理規(guī)律嵌入生成模型極具挑戰(zhàn),因其涉及求解偏微分方程或實時模擬交互過程,難以在物理保真度與計算速度之間取得可行平衡。一個有前景的方向是將生成網絡與可微分模擬器或神經常微分方程(Neural ODE)層相結合,通過基于梯度的訓練強制滿足牛頓力學定律。構建此類耦合系統(tǒng)可形成一種“世界模型”(world model),封裝真實世界特性,并為評估物理與動力學一致的4D生成提供天然基準。未來研究可在此類基準基礎上,更好地模擬真實交互,同時保持計算效率。

VI. 結論(CONCLUSIONS)


在本綜述中,我們回顧了用于模擬現(xiàn)實世界的多模態(tài)生成模型的最新進展,聚焦于外觀、動力學與幾何這三個交織的維度。我們對2D、視頻、3D和4D生成領域的現(xiàn)有方法進行了分類,討論了其代表性方法、跨域關聯(lián)與技術差異,并輔以對比性視覺示例。此外,我們匯總了常用數(shù)據集與評估指標,為基準測試提供了實用參考。

盡管進展迅速,根本性挑戰(zhàn)依然存在,例如生成流程的可擴展性、長序列中的時間一致性,以及對真實世界動態(tài)的適應能力。我們指出了若干開放研究方向,包括:跨模態(tài)的統(tǒng)一表示、稀疏監(jiān)督下的高效訓練,以及融入物理約束以增強真實感。

我們希望本綜述不僅能為初學者提供全面概覽,也能為未來研究奠定基礎,推動構建更加連貫、可控且物理可信的多模態(tài)生成系統(tǒng)。

原文鏈接:https://arxiv.org/pdf/2503.04641

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
退休夫婦花10萬“郵輪養(yǎng)老”:船上住15年,包吃包打掃,環(huán)游世界4圈,比房租便宜得多!

退休夫婦花10萬“郵輪養(yǎng)老”:船上住15年,包吃包打掃,環(huán)游世界4圈,比房租便宜得多!

背包旅行
2026-01-23 10:33:42
趙薇胃癌傳聞真相大白,再迎壞消息連累李湘

趙薇胃癌傳聞真相大白,再迎壞消息連累李湘

觀察者海風
2026-01-26 20:24:53
詹姆斯今年至今末節(jié)得分還是聯(lián)盟第一!公牛球迷為他倒戈!

詹姆斯今年至今末節(jié)得分還是聯(lián)盟第一!公牛球迷為他倒戈!

氧氣是個地鐵
2026-01-27 14:30:05
日本!暴跌開始了!

日本!暴跌開始了!

大嘴說天下
2026-01-26 20:16:55
愛火:一場非關消耗的持久燃燒

愛火:一場非關消耗的持久燃燒

疾跑的小蝸牛
2026-01-27 22:57:37
李瑋峰指出,王鈺棟面對日本后衛(wèi)對抗成功率低,對歐洲后衛(wèi)更不行

李瑋峰指出,王鈺棟面對日本后衛(wèi)對抗成功率低,對歐洲后衛(wèi)更不行

足球分析員
2026-01-27 11:05:03
不管你信不信,男性過了61歲后,基本都有這7個現(xiàn)狀,要坦然接受

不管你信不信,男性過了61歲后,基本都有這7個現(xiàn)狀,要坦然接受

健康之光
2026-01-11 12:40:02
終于來了!芬蘭總理落地北京說了兩句話,特朗普怕啥來啥

終于來了!芬蘭總理落地北京說了兩句話,特朗普怕啥來啥

黑翼天使
2026-01-28 04:02:55
數(shù)據驚人!汽油消耗量暴跌得嚇人,未來油價會大幅降嗎?

數(shù)據驚人!汽油消耗量暴跌得嚇人,未來油價會大幅降嗎?

超喜歡我的狗子
2026-01-25 16:42:57
“8大癥狀說明你已經老了”,你占了幾項?我全占了?。?>
    </a>
        <h3>
      <a href=社評
2026-01-02 12:24:58
煥新Model Y亮相,你會考慮購買嗎

煥新Model Y亮相,你會考慮購買嗎

沙雕小琳琳
2026-01-28 01:59:15
銀價一個月內狂飆50%,白銀基金緊急停牌,有銀飾商家宣布閉店

銀價一個月內狂飆50%,白銀基金緊急停牌,有銀飾商家宣布閉店

21世紀經濟報道
2026-01-27 14:41:30
媒體人:重慶銅梁龍足球俱樂部的外援中衛(wèi)薩達烏斯卡斯即將離隊

媒體人:重慶銅梁龍足球俱樂部的外援中衛(wèi)薩達烏斯卡斯即將離隊

格斗聯(lián)盟
2026-01-27 20:11:05
舒淇在節(jié)目里第一次承認,她和馮德倫為了要孩子已經折騰了九年。

舒淇在節(jié)目里第一次承認,她和馮德倫為了要孩子已經折騰了九年。

歲月有情1314
2025-11-29 15:40:25
馬斯克預測世界大戰(zhàn)時間,大戰(zhàn)最可能爆發(fā)在兩地區(qū)

馬斯克預測世界大戰(zhàn)時間,大戰(zhàn)最可能爆發(fā)在兩地區(qū)

妙知
2025-12-29 00:08:32
印度報告尼帕病毒疫情:護士A參加婚禮誤飲蝙蝠污染的新鮮椰棗汁,疑傳染共同上夜班的同事B

印度報告尼帕病毒疫情:護士A參加婚禮誤飲蝙蝠污染的新鮮椰棗汁,疑傳染共同上夜班的同事B

縱相新聞
2026-01-27 16:17:01
千萬別姐弟戀,很累!

千萬別姐弟戀,很累!

果粉之家
2026-01-06 11:26:21
真的累了?瓜帥暫時沒能擺脫“四大皆空”問題,曼城穩(wěn)定打折扣

真的累了?瓜帥暫時沒能擺脫“四大皆空”問題,曼城穩(wěn)定打折扣

里芃芃體育
2026-01-28 03:00:03
美籍華人14小時飛越萬里來武漢求醫(yī) 中國醫(yī)生高效救治及時挽救患者視力

美籍華人14小時飛越萬里來武漢求醫(yī) 中國醫(yī)生高效救治及時挽救患者視力

極目新聞
2026-01-27 09:59:07
山西某村口一起交通事故!致人當場死亡!

山西某村口一起交通事故!致人當場死亡!

秀容通
2026-01-27 19:22:28
2026-01-28 05:07:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數(shù) 18關注度
往期回顧 全部

科技要聞

馬化騰3年年會講話透露了哪些關鍵信息

頭條要聞

美報告稱中國是其19世紀以來面對過的最強大國家

頭條要聞

美報告稱中國是其19世紀以來面對過的最強大國家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學?

娛樂要聞

張雨綺風波持續(xù)發(fā)酵,曝多個商務被取消

財經要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

態(tài)度原創(chuàng)

家居
健康
數(shù)碼
教育
藝術

家居要聞

現(xiàn)代古典 中性又顯韻味

耳石脫落為何讓人天旋地轉+惡心?

數(shù)碼要聞

這事你怎么看 索尼與TCL簽署意向備忘錄 網友:Sony變Tony了

教育要聞

對話陳妤頡:閃閃發(fā)光的賽道,追逐夢想

藝術要聞

震撼!19世紀油畫巨匠的作品美得不可思議!

無障礙瀏覽 進入關懷版