国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

一個模型統(tǒng)一4D世界生成與重建,港科大One4D框架來了

0
分享至



本文第一作者密振興,香港科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院人工智能方向博士生,研究方向是多模態(tài)理解與生成,視頻生成和世界模型,目前正在尋找工業(yè)界全職職位。

一、背景介紹

近年來,視頻擴(kuò)散模型在 “真實(shí)感、動態(tài)性、可控性” 上進(jìn)展飛快,但它們大多仍停留在純 RGB 空間。模型能生成好看的視頻,卻缺少對三維幾何的顯式建模。這讓許多世界模型(world model)導(dǎo)向的應(yīng)用(空間推理、具身智能、機(jī)器人、自動駕駛仿真等)難以落地,因?yàn)檫@些任務(wù)不僅需要像素,還需要完整地模擬 4D 世界。

來自香港科技大學(xué)(HKUST)的研究團(tuán)隊(duì)提出 One4D,一個統(tǒng)一的 4D 生成與 4D 重建框架。One4D 構(gòu)造了一個同步輸出多模態(tài)的視頻擴(kuò)散模型,能夠用一個模型同步輸出 RGB 視頻與 Pointmap(XYZ)幾何視頻,并支持從單張圖像到 4D 生成、從稀疏幀到 4D 生成 + 重建、以及從完整視頻到 4D 重建等多種任務(wù)形態(tài)。



  • 論文標(biāo)題:One4D: Unified 4D Generation and Reconstruction via Decoupled LoRA Control
  • 論文地址:https://arxiv.org/abs/2511.18922
  • Github:https://github.com/MiZhenxing/One4D
  • 項(xiàng)目主頁:https://mizhenxing.github.io/One4D

二、One4D 算法設(shè)計(jì)

One4D 的核心目標(biāo)是用強(qiáng)大的視頻生成模型(比如Wan Video)統(tǒng)一 4D 生成與 4D 重建,輸出對齊的 RGB 和幾何多模態(tài)結(jié)果。論文亮點(diǎn)有:

1. 多模態(tài)輸出:RGB + Pointmap;

2. DLC:解耦 LoRA 控制,穩(wěn)住 RGB 同時學(xué)幾何對齊;

3. UMC:統(tǒng)一掩碼條件,一套模型覆蓋生成和重建任務(wù)。

具體來說,One4D 將動態(tài) 4D 場景表示為兩種同步的輸出模態(tài)。(1) RGB frames(外觀);(2) Pointmaps(XYZ),即與 RGB 視頻對齊的 3 通道幾何視頻,每個像素存 XYZ 值,可進(jìn)一步導(dǎo)出 Depth 并結(jié)合后處理估計(jì)相機(jī)軌跡,最終可視化為 4D 點(diǎn)云和相機(jī)。

并且,One4D 在一個框架內(nèi)支持三種輸入:單張圖到 4D 生成,稀疏視頻幀到 4D 生成 + 重建,完整視頻到 4D 重建。

1. DLC:解耦 LoRA 控制

在基于視頻擴(kuò)散模型的 “RGB + 幾何” 多模態(tài)聯(lián)合建模里,一個常見做法是把模態(tài)在通道維拼接。但在低資源微調(diào)時,這會導(dǎo)致嚴(yán)重的跨模態(tài)干擾,幾何學(xué)不好,基礎(chǔ)模型的 RGB 質(zhì)量也容易被拖垮。而將兩個模態(tài)在長寬維度拼接,共享參數(shù),也會導(dǎo)致跨模態(tài)干擾,幾何精度不高,而且與 RGB 無法保持對齊。

One4D 提出 Decoupled LoRA Control(DLC) 來專門解決這個問題,設(shè)計(jì)目標(biāo)包括:

(1) 低資源微調(diào)也盡量保住底座視頻模型的強(qiáng)先驗(yàn);(2) 解耦 RGB 與幾何生成,減少互相干擾;(3) 仍要保留必要的跨模態(tài)通信,確保像素級對齊一致。

具體做法是:

1. 為 RGB 與 Pointmap 分別掛載模態(tài)專屬 LoRA,并且形成兩條解耦計(jì)算分支,共享凍結(jié)的 base 參數(shù),但 forward 分開跑。確保兩個模態(tài)能夠相對獨(dú)立。

2. 再用少量 zero-init 的 control links 連接對應(yīng)層,讓兩個模態(tài)從 0 開始逐步學(xué)會互相控制,從而實(shí)現(xiàn)精確的像素級對齊。



從直觀上理解 DLC 的設(shè)計(jì), RGB 分支努力保持視頻美學(xué)與運(yùn)動先驗(yàn),幾何分支專心擬合幾何視頻的分布,少量控制連接負(fù)責(zé)對齊同步。這也正是 One4D 強(qiáng)調(diào)的多模態(tài)輸出同步生成的關(guān)鍵。

2. UMC:統(tǒng)一掩碼條件

為了使用同一個視頻模型統(tǒng)一 4D 的生成和重建,One4D 基于Wan Video的多任務(wù)框架,提出了 Unified Masked Conditioning(UMC),把不同類型的條件如單幀、稀疏幀、全視頻,統(tǒng)一打包成一個條件視頻,缺失幀用 0 填充,并使用一個 mask 張量指定哪些幀需要生成。單張圖對應(yīng)純生成,稀疏幀對應(yīng)混合生成 + 重建,全視頻對應(yīng)純重建。在UMC的具體實(shí)現(xiàn)上,RGB 分支的條件視頻通過 VAE 編碼之后,連接到 RGB 的 latent states 上。而 XYZ 分支不直接使用這個條件視頻,控制信號是通過 DLC 從 RGB 傳遞給 XYZ,這保證了 XYZ 分支能夠更好地去適應(yīng)新模態(tài)。UMC 的設(shè)計(jì)讓 One4D 具備一個非常實(shí)用的能力,同一個擴(kuò)散骨干,同時做 4D 生成和 4D 重建。One4D 模型不需要為不同任務(wù)改結(jié)構(gòu),只需改變輸入幀的稀疏度,就可以在不同生成與重建任務(wù)之間平滑切換。



3. 訓(xùn)練數(shù)據(jù)

訓(xùn)練 One4D,需要獲得大規(guī)模 “外觀 - 幾何” 配對數(shù)據(jù)。One4D 的數(shù)據(jù)構(gòu)建遵循兩個原則:幾何要準(zhǔn)、分布要真實(shí)。因此我們采用合成數(shù)據(jù) + 真實(shí)數(shù)據(jù)混合策略。

合成數(shù)據(jù)通過游戲引擎渲染動態(tài)場景,天然提供每幀的幾何真值,用于為 Pointmap(XYZ)提供穩(wěn)定監(jiān)督,幫助模型學(xué)到可靠的時序幾何一致性。

真實(shí)數(shù)據(jù),收集自公開視頻數(shù)據(jù)的真實(shí)場景視頻,以覆蓋復(fù)雜光照、材質(zhì)、運(yùn)動模式。由于真實(shí)視頻通常缺少幾何真值,我們使用現(xiàn)有的 4D 重建方法 Geo4D 生成幾何標(biāo)注,從而把真實(shí)世界外觀分布引入訓(xùn)練。

這套數(shù)據(jù)策略帶來的直接收益是,合成數(shù)據(jù)提供幾何精度與穩(wěn)定性,真實(shí)數(shù)據(jù)提供視覺多樣性與真實(shí)分布,從而讓 One4D 在保持視頻質(zhì)感的同時,也能輸出可用、對齊、時序一致的 4D 幾何結(jié)果。One4D 使用 34K 條視頻在 8 張 NVIDIA H800 GPU 上訓(xùn)練 5500 步,就得到了很好的效果。

三、實(shí)驗(yàn)結(jié)果

1. 單圖到 4D 生成

論文將 One4D 與 4DNeX 做了單圖到 4D 的對比,評價指標(biāo)有:

用戶偏好(User study):在一致性、動態(tài)性、美學(xué)、深度質(zhì)量、整體 4D 連貫性等維度上,One4D 全面領(lǐng)先。



VBench:動態(tài)性(Dynamic)顯著提升(55.7 vs 25.6),同時 I2V consistency 仍保持可比水平。



這些結(jié)果支持了 One4D 的優(yōu)勢,輸出的多模態(tài)結(jié)果有更真實(shí)的 RGB 動態(tài)、更干凈的深度、更完整連貫的 4D 點(diǎn)云與相機(jī)軌跡。在不犧牲 RGB 視頻質(zhì)量的前提下,仍然能學(xué)到準(zhǔn)確、細(xì)粒度的 4D 幾何結(jié)構(gòu)。更多對比視頻請移步項(xiàng)目主頁:https://mizhenxing.github.io/One4D



2. 完整視頻到 4D 重建

One4D 并不只在 4D 生成任務(wù)上優(yōu)勢顯著,它還是一個重建模型,在完整視頻 4D 重建上也保持了不錯的性能。在深度重建評測數(shù)據(jù)集 Sintel 和 Bonn 上,One4D 的表現(xiàn)明顯超過一些只做重建的方法如 MonST3R 和 CUT3R。即使我們的方法使用 Geo4D 構(gòu)造了訓(xùn)練數(shù)據(jù),它也取得了與只做重建的 Geo4D 相近的效果。更多對比視頻請移步項(xiàng)目主頁:https://mizhenxing.github.io/One4D





在相機(jī)軌跡評估數(shù)據(jù)集 Sintel 和 TUM 上,One4D 的相機(jī)估計(jì)能力也保持了可用精度,充分證明了 One4D 統(tǒng)一重建與生成的能力。



3. 稀疏視頻幀到 4D 生成

在稀疏視頻幀設(shè)置下,One4D 的輸入僅是首尾幀以及少量中間幀,此時模型需要生成缺失 RGB 幀并補(bǔ)全完整幾何序列。實(shí)驗(yàn)證明,即使在極稀疏條件下,One4D 仍能得到合理的 4D 結(jié)構(gòu)。這意味著 One4D 不止能做重建,而是真正具備生成動態(tài) 4D 場景的能力。



四、總結(jié)

One4D 讓視頻擴(kuò)散模型不再只會生成 RGB,而是能夠同步生成外觀(RGB)與幾何(Pointmap / 深度 / 相機(jī)軌跡),在同一套框架中統(tǒng)一了 4D 生成和重建任務(wù)。它通過 UMC 與 DLC 解決了多任務(wù)切換與多模態(tài)聯(lián)合訓(xùn)練中最關(guān)鍵的穩(wěn)定性與對齊問題。One4D 推動視頻生成走向生成可用于理解與交互的 4D 世界,為下一代世界模型與多模態(tài)內(nèi)容創(chuàng)作提供了更實(shí)用的基礎(chǔ)能力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
2026年,你敢不敢用一年的時間重啟人生

2026年,你敢不敢用一年的時間重啟人生

洞見
2026-01-06 21:17:51
利雅得勝利丟球后,40歲C羅在替補(bǔ)席面帶微笑做特殊手勢引發(fā)熱議

利雅得勝利丟球后,40歲C羅在替補(bǔ)席面帶微笑做特殊手勢引發(fā)熱議

凌空倒鉤
2026-01-13 07:25:26
U23國足與泰國的比賽沒開踢!就提前收到一個喜訊,事關(guān)能否贏球

U23國足與泰國的比賽沒開踢!就提前收到一個喜訊,事關(guān)能否贏球

振剛說足球
2026-01-12 16:50:31
6800元買的古錢幣,多年后同一家機(jī)構(gòu)鑒定變“假貨”?男子起訴賣家和鑒定機(jī)構(gòu),法院判決公布→

6800元買的古錢幣,多年后同一家機(jī)構(gòu)鑒定變“假貨”?男子起訴賣家和鑒定機(jī)構(gòu),法院判決公布→

封面新聞
2026-01-13 00:37:07
西方花了30多年,終于用“中國崩潰論”把自己整崩潰了

西方花了30多年,終于用“中國崩潰論”把自己整崩潰了

阿器談史
2025-12-03 23:15:31
46歲蕭亞軒因縱欲過度付出慘痛代價,牡丹花下的悲?。?>
    </a>
        <h3>
      <a href=可樂談情感
2026-01-13 00:26:42
以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

夢錄的西方史話
2025-12-31 13:44:44
易夢玲:你可以質(zhì)疑我的臉,但不要質(zhì)疑一個42歲男人的審美!

易夢玲:你可以質(zhì)疑我的臉,但不要質(zhì)疑一個42歲男人的審美!

糊咖娛樂
2025-11-22 15:07:53
同學(xué)53歲就病逝了,參加完她的葬禮后,我對余生做出一個重大決定

同學(xué)53歲就病逝了,參加完她的葬禮后,我對余生做出一個重大決定

人間百態(tài)大全
2026-01-13 06:45:03
國家發(fā)改委原副主任扶持公司上市,原始股十三年后獲利數(shù)千萬

國家發(fā)改委原副主任扶持公司上市,原始股十三年后獲利數(shù)千萬

南方都市報
2026-01-12 22:21:05
22歲女醫(yī)學(xué)生遭前男友殺害,臨終遺言曝光:林某強(qiáng),我沒有對不起你

22歲女醫(yī)學(xué)生遭前男友殺害,臨終遺言曝光:林某強(qiáng),我沒有對不起你

大風(fēng)新聞
2026-01-12 12:32:19
溥儀在“偽滿”的權(quán)力有多大?別被他裝孫子的一面給騙了

溥儀在“偽滿”的權(quán)力有多大?別被他裝孫子的一面給騙了

掠影后有感
2026-01-09 11:08:09
彭總養(yǎng)大的兒子,22歲當(dāng)上師長,毛澤東說他必反,彭總不信

彭總養(yǎng)大的兒子,22歲當(dāng)上師長,毛澤東說他必反,彭總不信

鶴羽說個事
2026-01-06 11:11:19
正式出爐!勇士4換1方案得到小波特!庫里迎鋒線新星搭檔

正式出爐!勇士4換1方案得到小波特!庫里迎鋒線新星搭檔

湖人侃球師
2026-01-13 06:44:22
閆學(xué)晶被資方追責(zé)!酸黃瓜牽扯趙家班多人,宋曉峰、趙四都快哭了

閆學(xué)晶被資方追責(zé)!酸黃瓜牽扯趙家班多人,宋曉峰、趙四都快哭了

阿纂看事
2026-01-10 17:28:59
教育部黨組決定:趙宏偉、張吉雄履新職

教育部黨組決定:趙宏偉、張吉雄履新職

新京報
2026-01-12 13:45:00
哈國突然斷氣,中國稀土受挫,美國 9 億拿下七成礦權(quán),地緣棋局再變

哈國突然斷氣,中國稀土受挫,美國 9 億拿下七成礦權(quán),地緣棋局再變

花小貓的美食日常
2026-01-12 05:45:02
重磅!中央明確養(yǎng)老金改革方向,2026年起公平養(yǎng)老邁出關(guān)鍵一步

重磅!中央明確養(yǎng)老金改革方向,2026年起公平養(yǎng)老邁出關(guān)鍵一步

天天熱點(diǎn)見聞
2026-01-13 05:15:58
人民網(wǎng)銳評中戲新疆班!言語犀利句句戳人心窩,誰在說謊一目了然

人民網(wǎng)銳評中戲新疆班!言語犀利句句戳人心窩,誰在說謊一目了然

李健政觀察
2026-01-13 13:34:01
你見過最奇怪的體質(zhì)是什么?網(wǎng)友:基因注定只能生女兒

你見過最奇怪的體質(zhì)是什么?網(wǎng)友:基因注定只能生女兒

另子維愛讀史
2026-01-12 20:08:01
2026-01-13 14:48:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12107文章數(shù) 142535關(guān)注度
往期回顧 全部

科技要聞

每年10億美元!谷歌大模型注入Siri

頭條要聞

媒體:巴基斯坦靠殲-10一鳴驚人后 北約成員國求保護(hù)

頭條要聞

媒體:巴基斯坦靠殲-10一鳴驚人后 北約成員國求保護(hù)

體育要聞

CBA還能眾籌換帥?

娛樂要聞

周杰倫以球員身份參加澳網(wǎng),C位海報公開

財(cái)經(jīng)要聞

中國一口氣申報20萬顆衛(wèi)星,意味著什么?

汽車要聞

限時9.99萬元起 2026款啟辰大V DD-i虎鯨上市

態(tài)度原創(chuàng)

時尚
教育
親子
房產(chǎn)
本地

走過那個夏天,甜茶終于站上金球獎之巔

教育要聞

5個信號,只要中一個,就說明你家孩子被老師賞識了

親子要聞

孩子不就是著涼了嘛,干嘛要查血?

房產(chǎn)要聞

重磅調(diào)規(guī)!417畝商改住+教育地塊!??谖骱0队忠l(fā)!

本地新聞

云游內(nèi)蒙|到巴彥淖爾去,赴一場塞上江南的邀約

無障礙瀏覽 進(jìn)入關(guān)懷版