国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

NeurIPS 2025 | TC-Light:面向具身場(chǎng)景的生成式渲染器

0
分享至

TC-Light 是由中科院自動(dòng)化所張兆翔教授團(tuán)隊(duì)研發(fā)的生成式渲染器,能夠?qū)呱碛?xùn)練任務(wù)中復(fù)雜和劇烈運(yùn)動(dòng)的長(zhǎng)視頻序列進(jìn)行逼真的光照與紋理重渲染,同時(shí)具備良好的時(shí)序一致性和低計(jì)算成本開(kāi)銷,使得它能夠幫助減少 Sim2Real Gap 以及實(shí)現(xiàn) Real2Real 的數(shù)據(jù)增強(qiáng),幫助獲得具身智能訓(xùn)練所需的海量高質(zhì)量數(shù)據(jù)。


論文題目: TC-Light: Temporally Coherent Generative Rendering for Realistic World Transfer 論文鏈接: https://arxiv.org/abs/2506.18904 代碼鏈接: https://github.com/Linketic/TC-Light 項(xiàng)目主頁(yè): https://dekuliutesla.github.io/tclight/
一、研究背景

光線及其與周圍環(huán)境的交互共同塑造了人類以及具身智能體感知數(shù)字世界和現(xiàn)實(shí)世界的基本方式,在不同光照條件下對(duì)世界的觀測(cè)使得我們理解光線與物質(zhì)的交互關(guān)系,使得我們形成對(duì)周邊環(huán)境物質(zhì)和幾何屬性的基本判斷,并且也使得我們能夠在不同的光照條件下都能夠魯棒且正確地完成與世界的交互。

然而,在現(xiàn)實(shí)環(huán)境中采集不同光照與場(chǎng)景條件下的數(shù)據(jù)代價(jià)高昂,而仿真環(huán)境中盡管可以獲得近乎無(wú)限的數(shù)據(jù),但受限于算力資源,通常需要對(duì)光線的多次折射衍射以及紋理精度進(jìn)行近似和簡(jiǎn)化,使得視覺(jué)真實(shí)性無(wú)可避免地受到損失,在視覺(jué)層面產(chǎn)生 Sim2Real Gap。而如果能夠借助生成式模型根據(jù)所需的光照條件對(duì)現(xiàn)實(shí)或仿真環(huán)境下采集到的視頻數(shù)據(jù)進(jìn)行重渲染,不僅能夠幫助獲得增加已有真實(shí)數(shù)據(jù)的多樣性,并且能夠彌合計(jì)算誤差帶來(lái)的 CG 感,使得從仿真器中得到視覺(jué)上高度真實(shí)的傳感器數(shù)據(jù),包括 RL-CycleGAN 在內(nèi)的許多工作已經(jīng)證實(shí),這一策略能夠幫助減少將具身模型遷移到真實(shí)環(huán)境中所需微調(diào)的數(shù)據(jù)量和訓(xùn)練量。

盡管這一任務(wù)意義重大,但實(shí)際解決過(guò)程面臨許多挑戰(zhàn)。用于訓(xùn)練的視頻數(shù)據(jù)往往伴隨復(fù)雜的運(yùn)動(dòng)以及前景物體的頻繁進(jìn)出,同時(shí)視頻序列有著較長(zhǎng)的長(zhǎng)度以及較高的分辨率。我們的定量和定性實(shí)驗(yàn)證據(jù)(參見(jiàn)論文實(shí)驗(yàn)部分及 Project Page)表明,在這些復(fù)雜且困難的輸入條件下,已有的算法要么受制于訓(xùn)練所用視頻數(shù)據(jù)的分布(如 COSMOS-Transfer1,Relighting4D),要么難以承受巨大的計(jì)算開(kāi)銷(如 Light-A-Video, RelightVid),要么難以保證良好的時(shí)序一致性(如 VidToMe, RAVE 等)。


圖 1 TC-Light 效果展示

為了推動(dòng)這一問(wèn)題的解決,我們提出了 TC-Light 算法,在提升視頻生成模型計(jì)算效率的同時(shí),通過(guò)兩階段在線快速優(yōu)化提升輸出結(jié)果的一致性,如圖 1 和視頻Demo所示所示,本算法在保持重渲染真實(shí)性的同時(shí),時(shí)序一致性和真實(shí)性相比于已有算法取得了顯著提高。下面對(duì)算法細(xì)節(jié)進(jìn)行詳細(xì)介紹。

二、TC-Light 算法介紹 2.1 零樣本時(shí)序模型擴(kuò)展

TC-Light 首先使用視頻擴(kuò)散模型根據(jù)文本指令對(duì)輸入視頻進(jìn)行初步的重渲染。這里我們基于預(yù)訓(xùn)練好的 SOTA 圖像模型 IC-Light 以及 VidToMe 架構(gòu)進(jìn)行拓展,同時(shí)引入我們所提出的 Decayed Multi-Axis Denoising 模塊增強(qiáng)時(shí)序一致性。

具體而言,VidToMe 在模型的自注意力模塊前后分別對(duì)來(lái)自不同幀的相似 token 進(jìn)行聚合和拆分,從而增強(qiáng)時(shí)序一致性并減少計(jì)算開(kāi)銷;如圖 2 中 (a) 所示,類似 Slicedit,Decayed Multi-Axis Denoising 模塊將輸入視頻分別視作圖像 (x-y 平面) 的序列和時(shí)空切片(y-t 平面)的序列,分別用輸入的文本指令和空文本指令進(jìn)行去噪,并對(duì)兩組噪聲進(jìn)行整合,從而使用原視頻的運(yùn)動(dòng)信息指導(dǎo)去噪過(guò)程。不同于 Slicedit,我們?cè)?AIN 模塊對(duì)兩組噪聲的統(tǒng)計(jì)特性進(jìn)行了對(duì)齊,同時(shí)時(shí)空切片部分的噪聲權(quán)重隨去噪步數(shù)指數(shù)下降,從而避免原視頻光照和紋理分布對(duì)重渲染結(jié)果的過(guò)度影響。


圖 2 TC-Light 管線示意圖 2.2 兩階段時(shí)序一致性優(yōu)化策略

盡管通過(guò)引入前一小節(jié)的模型,視頻生成式重渲染結(jié)果的一致性得到了有效改善,但輸出結(jié)果仍然存在紋理和光照的跳變。因此我們進(jìn)一步引入兩階段的時(shí)序一致性優(yōu)化策略,這同時(shí)也是 TC-Light 的核心模塊。在第一階段,如圖 2 中 (b) 所示,我們?yōu)槊恳粠?Appearance Embedding 以調(diào)整曝光度,并根據(jù) MemFlow 從輸入視頻估計(jì)的光流或仿真器給出的光流優(yōu)化幀間一致性,從而對(duì)齊全局光照。這一階段的優(yōu)化過(guò)程非常快速,A100 上 300 幀 960x540 分辨率只需要數(shù)十秒的時(shí)間即可完成。

在第二階段,我們進(jìn)一步對(duì)光照和紋理細(xì)節(jié)進(jìn)行優(yōu)化。如圖 2 中 (c) 所示,這里我們首先根據(jù)光流以及可能提供的每個(gè)像素在世界系下的位置信息,快速將視頻 壓縮為碼本 (也即圖中的 Unique Video Tensor),即:


其中 κ(x,y,t) 為視頻幀給定像素依據(jù)光流及空間信息得到的碼本索引,這一基于時(shí)空先驗(yàn)的壓縮方式在原視頻上近乎可以保持無(wú)損。不同于 Vector Quantization 僅考慮顏色相似性的做法,這一壓縮方案保證了被聚合的像素之間的時(shí)空關(guān)聯(lián)性,使得對(duì)應(yīng)同一個(gè)碼本值的不同像素具有相似的時(shí)空一致性優(yōu)化目標(biāo)和梯度。隨后,我們以碼本 作為優(yōu)化目標(biāo),以解碼后的幀間一致性作為主要優(yōu)化目標(biāo),并且以 TV Loss 抑制噪聲,同時(shí)以 SSIM Loss 使得與一階段優(yōu)化結(jié)果保持一定程度的結(jié)構(gòu)相似性。實(shí)驗(yàn)結(jié)果表明,這一階段的優(yōu)化能顯著改善時(shí)序一致性,同時(shí)非??焖?,A100 上 300 幀 960x540 分辨率通常只花費(fèi) 2 分鐘左右,且由于以壓縮后的碼本作為優(yōu)化目標(biāo),不僅避免了以往工作以 NeRF 或 3DGS 為載體帶來(lái)的 10-30 分鐘的訓(xùn)練代價(jià),顯存開(kāi)銷上也能得到優(yōu)化。

三、實(shí)驗(yàn)與分析


表 1 與主流算法的定量性能比較,其中 VidToMe 和 Slicedit 的基模型都換成了 IC-Light 以進(jìn)行公平比較。Ours-light 指不用 Multi-Axis Denoising 模塊的結(jié)果,相當(dāng)于對(duì) VidToMe 直接應(yīng)用兩階段優(yōu)化算法。

為了驗(yàn)證算法在長(zhǎng)動(dòng)態(tài)序列的重渲染表現(xiàn),我們從 CARLA、Waymo、AgiBot-DigitalWorld、DROID 等數(shù)據(jù)集收集了 58 個(gè)序列進(jìn)行綜合評(píng)測(cè),結(jié)果如表 1 所示??梢钥吹轿覀兊乃惴朔艘延兴惴ㄔ跁r(shí)序一致性和計(jì)算開(kāi)銷等方面的問(wèn)題,取得了最佳的綜合性能表現(xiàn)。圖 3 的可視化對(duì)比也表明,我們的算法在保持內(nèi)容細(xì)節(jié)的同時(shí)得到了高質(zhì)量的重渲染性能表現(xiàn)。


圖 3 一致性與生成質(zhì)量可視化對(duì)比。TC-Light 避免了 (a) 中像 Slicedit 和 COSMOS-Transfer1 那樣不自然的重渲染結(jié)果和 (b) 中展現(xiàn)出的模糊失真,或 (c) 中像 IC-Light 和 VidToMe 那樣的時(shí)序不一致性。

此外,我們也在有 GT 數(shù)據(jù)的仿真數(shù)據(jù)集 Virtual KITTI 上進(jìn)行了比較,從而可以使用 SSIM 和 LPIPS 等指標(biāo)替換 CLIP-T 等代理指標(biāo)獲得更客觀的性能評(píng)估。表 2 的結(jié)果同樣表明,我們的算法很好地取得了計(jì)算開(kāi)銷和性能之間的平衡,取得了最佳的重渲染效果。


表 2 Virtual KITTI 數(shù)據(jù)集上與主流算法的定量性能比較 四、總結(jié)

TC-Light 作為一種新的生成式渲染器,克服了具身環(huán)境下視覺(jué)傳感器數(shù)據(jù)重渲染面對(duì)的時(shí)序一致性和長(zhǎng)序列計(jì)算開(kāi)銷兩大挑戰(zhàn),在性能表現(xiàn)上優(yōu)于現(xiàn)有技術(shù),不僅為 Sim2Real 和 Real2Real 數(shù)據(jù)擴(kuò)展帶來(lái)了新的思路,也為視頻編輯領(lǐng)域帶來(lái)了新的模型范式。TC-Light 的論文和代碼均已開(kāi)源,希望能夠相關(guān)領(lǐng)域帶來(lái)不同的思考和啟發(fā)。

來(lái)源:公眾號(hào)【機(jī)器之心】

llustration From IconScout By IconScout Store

-The End-

本周上新!

掃碼觀看!

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃

TechBeat是由將門(mén)創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛(ài)的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長(zhǎng)。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //

// 前沿資訊解說(shuō)/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情

關(guān)于我“門(mén)”

將門(mén)是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過(guò)連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。

將門(mén)成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門(mén)”:

bp@thejiangmen.com


點(diǎn)擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
周鴻祎力挺“龍蝦”:不進(jìn)步才是最大安全隱患

周鴻祎力挺“龍蝦”:不進(jìn)步才是最大安全隱患

中國(guó)經(jīng)濟(jì)網(wǎng)
2026-03-12 22:30:03
全球僅生產(chǎn)2枚!爆炸威力比“小男孩”大3000多倍,美國(guó)至今忌憚

全球僅生產(chǎn)2枚!爆炸威力比“小男孩”大3000多倍,美國(guó)至今忌憚

通文知史
2026-03-12 18:30:51
梅奔不演了 F1中國(guó)站沖刺排位賽毫無(wú)懸念

梅奔不演了 F1中國(guó)站沖刺排位賽毫無(wú)懸念

五星體育
2026-03-13 16:39:38
WTT冠軍賽!再爆大冷,世界冠軍被淘汰,蒯曼、申裕斌皆3-1晉級(jí)

WTT冠軍賽!再爆大冷,世界冠軍被淘汰,蒯曼、申裕斌皆3-1晉級(jí)

林子說(shuō)事
2026-03-13 12:13:15
意足壇俱樂(lè)部老板財(cái)富榜:科莫老板哈托諾家族385億歐居首

意足壇俱樂(lè)部老板財(cái)富榜:科莫老板哈托諾家族385億歐居首

懂球帝
2026-03-13 10:43:17
2026年美加墨世界杯阿根廷最強(qiáng)陣容預(yù)測(cè)!奪冠幾乎不可能了?

2026年美加墨世界杯阿根廷最強(qiáng)陣容預(yù)測(cè)!奪冠幾乎不可能了?

體壇八點(diǎn)半的那些事兒
2026-03-13 18:50:31
83分之夜卻拒絕刷分!阿德巴約最后時(shí)刻大喊“別犯規(guī)”引熱議

83分之夜卻拒絕刷分!阿德巴約最后時(shí)刻大喊“別犯規(guī)”引熱議

大眼瞄世界
2026-03-13 10:04:29
一場(chǎng)生日,戳穿37歲奚夢(mèng)瑤婚姻現(xiàn)狀,一月前就有大瓜傳出

一場(chǎng)生日,戳穿37歲奚夢(mèng)瑤婚姻現(xiàn)狀,一月前就有大瓜傳出

洲洲影視娛評(píng)
2026-03-12 18:19:35
美伊沖突升級(jí)致臺(tái)灣能源告急,臺(tái)當(dāng)局向大陸求援,國(guó)臺(tái)辦明確答復(fù)

美伊沖突升級(jí)致臺(tái)灣能源告急,臺(tái)當(dāng)局向大陸求援,國(guó)臺(tái)辦明確答復(fù)

風(fēng)眼軍情
2026-03-11 20:33:18
韓媒:薩德發(fā)射車全被拉走,若雷達(dá)走了,那意味著戰(zhàn)局的徹底崩壞

韓媒:薩德發(fā)射車全被拉走,若雷達(dá)走了,那意味著戰(zhàn)局的徹底崩壞

嘯鷹評(píng)
2026-03-11 18:26:58
美國(guó)為何對(duì)伊朗開(kāi)戰(zhàn),是否被以色列拖下水?特朗普因小失大

美國(guó)為何對(duì)伊朗開(kāi)戰(zhàn),是否被以色列拖下水?特朗普因小失大

青松解局
2026-03-13 20:04:33
超45萬(wàn)手買(mǎi)單封板!600691,強(qiáng)勢(shì)2連漲停!

超45萬(wàn)手買(mǎi)單封板!600691,強(qiáng)勢(shì)2連漲停!

證券時(shí)報(bào)e公司
2026-03-13 10:02:08
為了綁定足壇頂流姆巴佩,歐美名媛究竟付出了多大代價(jià)?

為了綁定足壇頂流姆巴佩,歐美名媛究竟付出了多大代價(jià)?

羅氏八卦
2026-03-13 18:35:03
大S中學(xué)顏值曝光,五官普通、目測(cè)體重120斤,小玥兒長(zhǎng)得和媽媽一個(gè)模子

大S中學(xué)顏值曝光,五官普通、目測(cè)體重120斤,小玥兒長(zhǎng)得和媽媽一個(gè)模子

不八卦掌門(mén)人
2026-03-13 11:19:21
五角大樓首席技術(shù)官:有一個(gè)AI已經(jīng)產(chǎn)生了“靈魂”,甚至有自己的“憲法”

五角大樓首席技術(shù)官:有一個(gè)AI已經(jīng)產(chǎn)生了“靈魂”,甚至有自己的“憲法”

可達(dá)鴨面面觀
2026-03-13 18:01:15
今天18點(diǎn),亞洲杯誕生首個(gè)4強(qiáng)!中國(guó)女足明天出戰(zhàn),傳來(lái)2個(gè)好消息

今天18點(diǎn),亞洲杯誕生首個(gè)4強(qiáng)!中國(guó)女足明天出戰(zhàn),傳來(lái)2個(gè)好消息

大魚(yú)簡(jiǎn)科
2026-03-13 12:34:59
苗苗終于曬三胎,母女四個(gè)坐一張椅子,小女兒露臉顏值比哥姐還高

苗苗終于曬三胎,母女四個(gè)坐一張椅子,小女兒露臉顏值比哥姐還高

八怪娛
2026-03-13 19:19:30
烏克蘭攻擊俄南部最大石油港!俄空軍基地傳出十次爆炸

烏克蘭攻擊俄南部最大石油港!俄空軍基地傳出十次爆炸

項(xiàng)鵬飛
2026-03-13 18:17:39
人大代表:中國(guó)芯片不注重長(zhǎng)期攻堅(jiān),不注重基礎(chǔ)研究,只想賺快錢(qián)

人大代表:中國(guó)芯片不注重長(zhǎng)期攻堅(jiān),不注重基礎(chǔ)研究,只想賺快錢(qián)

Thurman在昆明
2026-03-13 19:43:05
霍爾木茲海峽風(fēng)云突變,巴基斯坦亮出底牌,強(qiáng)勢(shì)護(hù)航油輪通過(guò)

霍爾木茲海峽風(fēng)云突變,巴基斯坦亮出底牌,強(qiáng)勢(shì)護(hù)航油輪通過(guò)

書(shū)紀(jì)文譚
2026-03-13 12:56:34
2026-03-13 20:28:49
將門(mén)創(chuàng)投 incentive-icons
將門(mén)創(chuàng)投
加速及投資技術(shù)驅(qū)動(dòng)型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

龍蝦熱卷到AI硬件 “無(wú)腦”硬件或被淘汰

頭條要聞

貴州茅臺(tái)副總經(jīng)理蔣焰被查

頭條要聞

貴州茅臺(tái)副總經(jīng)理蔣焰被查

體育要聞

叕戰(zhàn)奧運(yùn),張雨霏要做回“小將”

娛樂(lè)要聞

小S復(fù)工錄制 感謝賈永婕陪大S走到最后

財(cái)經(jīng)要聞

2月M2同增9% 前兩個(gè)月存款增加9.26萬(wàn)億

汽車要聞

大眾汽車與小鵬首款聯(lián)合開(kāi)發(fā)車型與眾08正式量產(chǎn)

態(tài)度原創(chuàng)

健康
藝術(shù)
親子
房產(chǎn)
軍事航空

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車上班嗎?

藝術(shù)要聞

吳冠中:歷代畫(huà)竹大都缺乏厚度與深度

親子要聞

萌娃對(duì)老媽的年齡感到震驚,他的話太逗了

房產(chǎn)要聞

不容易啊!??诮K于又要賣(mài)地了!

軍事要聞

伊朗稱襲擊"林肯"號(hào)航母致其撤走

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版