国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

北大彭宇新團(tuán)隊(duì)提出NS-Diff,使擴(kuò)散模型學(xué)會(huì)流體與剛體力學(xué)

0
分享至



本文是北京大學(xué)彭宇新教授團(tuán)隊(duì)在文本生成視頻領(lǐng)域的最新研究成果,相關(guān)論文已被 CVPR 2026 接收



  • 論文標(biāo)題:NS-Diff: Fluid Navier–Stokes Guided Video Diffusion via Reinforcement Learning
  • 論文鏈接:http://39.108.48.32/mipl/download_paper.php?fileId=202601
  • 開源代碼:https://github.com/PKU-ICST-MIPL/NS-Diff_CVPR2026
  • 實(shí)驗(yàn)室網(wǎng)址:https://www.wict.pku.edu.cn/mipl

背景與動(dòng)機(jī)

想象一下,當(dāng)你讓 AI 生成一段「牛奶倒入咖啡產(chǎn)生絲滑旋渦」的視頻時(shí),卻發(fā)現(xiàn) AI 根本無法生成出你想要的「絲滑旋渦」。雖然如今的 Sora、Wan 等視頻生成模型已經(jīng)能做出如電影般華麗的畫面,但它們往往只是「畫皮難畫骨」—— 因?yàn)?AI 并不真正懂得現(xiàn)實(shí)世界的物理定律,導(dǎo)致生成的視頻經(jīng)常出現(xiàn)違背常識(shí)的「穿幫」鏡頭。

在物理世界中,液體的流動(dòng)遵循著復(fù)雜的納維 - 斯托克斯(Navier-Stokes)方程,而剛體的運(yùn)動(dòng)則有著嚴(yán)謹(jǐn)?shù)能壽E規(guī)律。實(shí)現(xiàn)視頻生成從「視覺真實(shí)」向「物理真實(shí)」的跨越,是當(dāng)前 AIGC 領(lǐng)域的重大挑戰(zhàn)。

針對(duì)這一難題,北京大學(xué)彭宇新教授團(tuán)隊(duì)提出了給擴(kuò)散模型裝上「物理引擎」的新方案 ——NS-Diff。該研究將物理約束與強(qiáng)化學(xué)習(xí)相結(jié)合,通過物理動(dòng)力學(xué)檢測(cè)器和物理?xiàng)l件注入模塊,讓 AI 像人類一樣在生成畫面的同時(shí),腦子里還緊繃著一根「物理定律」的弦。

實(shí)驗(yàn)表明,NS-Diff 將視頻中的運(yùn)動(dòng)急動(dòng)度(jerk)誤差降低了 43%,流體發(fā)散度降低了 33%,使 AI 生成的每一幀畫面不僅好看,而且遵循物理規(guī)律。這一成果表明將經(jīng)典物理約束融入視頻生成大模型,是解決視頻生成中物理失真問題的有效途徑。

技術(shù)方案



圖 1. 物理引導(dǎo)的視頻生成強(qiáng)化學(xué)習(xí)框架 NS-Diff

本文提出了一種物理引導(dǎo)的視頻生成強(qiáng)化學(xué)習(xí)框架 NS-Diff,將物理約束融入視頻擴(kuò)散過程中,以提升生成視頻的物理真實(shí)感。其主要貢獻(xiàn)包括:(1)噪聲魯棒的物理動(dòng)力學(xué)檢測(cè)器:設(shè)計(jì)了可在含噪潛在幀中精準(zhǔn)分析運(yùn)動(dòng)信息的檢測(cè)器,實(shí)現(xiàn)對(duì)剛體與流體區(qū)域的有效區(qū)分。(2)物理?xiàng)l件潛在注入模塊:將速度場(chǎng)、形變梯度等關(guān)鍵物理信息編碼,并通過交叉注意力機(jī)制注入 DiT 去噪器,從而實(shí)現(xiàn)對(duì)生成過程的物理引導(dǎo)。(3)強(qiáng)化學(xué)習(xí)優(yōu)化模塊:引入強(qiáng)化學(xué)習(xí),通過策略梯度對(duì)流體施加簡化的納維 - 斯托克斯約束,對(duì)剛體施加最小化急動(dòng)度(Jerk)原則,確保了視頻生成中動(dòng)態(tài)過程的物理合理性。具體如下:

1. 噪聲魯棒的物理動(dòng)力學(xué)檢測(cè)器

實(shí)現(xiàn)物理引導(dǎo)去噪的關(guān)鍵在于高噪聲環(huán)境下對(duì)運(yùn)動(dòng)和材料屬性的精準(zhǔn)估計(jì)。由于去噪過程在隱空間(latent space)中運(yùn)行,直接在 RGB 幀上使用 ARFlow 是不可行的。為此,本文設(shè)計(jì)了一種結(jié)合隱空間解碼的運(yùn)動(dòng)估計(jì)方案,具體流程如下:

















2. 物理?xiàng)l件潛在注入









3. 物理引導(dǎo)的強(qiáng)化學(xué)習(xí)優(yōu)化















4. 物理引導(dǎo)的自適應(yīng)激活







實(shí)驗(yàn)結(jié)果

1. 實(shí)驗(yàn)設(shè)置

本文在 PhysVideoBench 以及 UCF-101(包含 13,320 個(gè)真實(shí)世界人類動(dòng)作視頻)和 WebVid-10M(包含 1000 萬個(gè)帶有文本描述的互聯(lián)網(wǎng)視頻)。本文從物理合理性和視覺質(zhì)量兩個(gè)角度對(duì)本文方法進(jìn)行評(píng)估。

(1)物理指標(biāo):



2)視覺指標(biāo):

  • VBench:綜合視頻質(zhì)量指標(biāo)。本文遵循 VideoJam 的方法計(jì)算視頻外觀和運(yùn)動(dòng)質(zhì)量。
  • Fréchet Video Distance(FVD):衡量真實(shí)視頻與生成視頻之間的分布距離。
  • Frame Consistency:相鄰幀的 CLIP 圖像嵌入之間的平均余弦相似度,反映了時(shí)間上的連貫性。

2. 對(duì)比實(shí)驗(yàn)結(jié)果



表 1. PhysVideoBench 數(shù)據(jù)集結(jié)果

在 PhysVideoBench 上,NS-Diff 在所有指標(biāo)上均實(shí)現(xiàn)了最佳性能。通過潛空間注入(Latent Injection)以及 Jerk / 散度損失(Jerk/divergence losses)引入物理先驗(yàn),提升了運(yùn)動(dòng)的真實(shí)性,尤其是在剛體和流體區(qū)域。相比于在給定用戶外力情況下模擬剛體動(dòng)力學(xué)的 PhysGen,NS-Diff 在不需要預(yù)定義外力或模擬的情況下實(shí)現(xiàn)了更好的泛化能力,同時(shí)保持了更高的保真度和更低的散度誤差。實(shí)驗(yàn)表明,本文的方法將 Jerk 誤差降低了 43%,流體散度降低了 33%,并使 FVD 提升了 22.7%,實(shí)現(xiàn)了更高的物理合理性和視覺質(zhì)量。



表 2. UCF-101 數(shù)據(jù)集結(jié)果

在 UCF-101 基準(zhǔn)測(cè)試中,本文的 NS-Diff 模型表現(xiàn)出色。具體而言,NS-Diff DiT 1B 版本的 FVD 為 106,幀一致性(Frame Consistency)達(dá)到 0.94;而 NS-Diff DiT 11B 版本則進(jìn)一步將 FVD 降低至 85,幀一致性提升至 0.95。這表明本文的方法不僅提升了運(yùn)動(dòng)的物理準(zhǔn)確度,還顯著增強(qiáng)了生成視頻的時(shí)間連貫性。



表 3. WebVid-10M 數(shù)據(jù)集結(jié)果

為了評(píng)估物理引導(dǎo)學(xué)習(xí)框架在受限基準(zhǔn)測(cè)試之外的開放世界場(chǎng)景中的泛化能力,本文在 WebVid-10M 數(shù)據(jù)集上進(jìn)行了文本生成視頻(Text-to-Video)合成測(cè)試。實(shí)驗(yàn)旨在測(cè)試物理約束(剛體 / 流體動(dòng)力學(xué))在面對(duì)包含新穎物體交互和環(huán)境的未知文本描述時(shí),是否仍能保持合理性。本方法在運(yùn)動(dòng)質(zhì)量(FVD)和文圖對(duì)齊(CLIPSIM)兩個(gè)指標(biāo)上均優(yōu)于 VideoFactory。



圖 2. 可視化對(duì)比結(jié)果

圖 2 展示了 NS-Diff 與 ModelScope、PhysGen、Wan2.1 以及 OpenSora2 的視覺效果對(duì)比。結(jié)果分析表明,本文方法生成的視頻在剛體和流體運(yùn)動(dòng)方面表現(xiàn)得更加真實(shí),顯著減少了諸如物體無故出現(xiàn)或消失、以及非自然的拆分或合并等不符合物理規(guī)律的偽影。此外,本文方法還大幅提升了幀間一致性,在處理籃球投籃、火山熔巖流、玻璃破碎等物理密集型場(chǎng)景時(shí),能夠比對(duì)比模型展現(xiàn)出更高的時(shí)間連貫性和運(yùn)動(dòng)可信度。

結(jié)論

本文提出了一種基于強(qiáng)化學(xué)習(xí)的物理引導(dǎo)視頻擴(kuò)散框架 NS-Diff。該框架通過抗噪物理動(dòng)力學(xué)檢測(cè)器,實(shí)現(xiàn)了對(duì)視頻潛空間中剛體與流體區(qū)域的精準(zhǔn)識(shí)別。利用物理?xiàng)l件潛空間注入技術(shù),速度場(chǎng)、變形梯度及材料掩碼被有效整合至去噪流程中。此外,本文方法通過強(qiáng)化學(xué)習(xí)優(yōu)化機(jī)制,將納維 - 斯托克斯方程與最小急動(dòng)度(Minimum-Jerk)原則轉(zhuǎn)化為訓(xùn)練約束,強(qiáng)制模型遵循物理運(yùn)動(dòng)規(guī)律。實(shí)驗(yàn)結(jié)果表明,NS-Diff 在 PhysVideoBench、UCF-101 等多個(gè)基準(zhǔn)數(shù)據(jù)集上超過現(xiàn)有方法,在顯著降低物理運(yùn)動(dòng)誤差的同時(shí),確保了視覺生成質(zhì)量。研究表明,將經(jīng)典物理約束深度融合于生成模型,是解決視頻生成中物理失真問題的有效途徑。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
小毛打醬油 浙江雙煞快廢了!于金永該讓位姚浩洋 依木蘭眼神太狠

小毛打醬油 浙江雙煞快廢了!于金永該讓位姚浩洋 依木蘭眼神太狠

刀鋒體育
2026-03-26 10:43:52
巴拿馬籍船在華被查44艘,滯留暴漲3倍,船東日虧數(shù)十萬

巴拿馬籍船在華被查44艘,滯留暴漲3倍,船東日虧數(shù)十萬

觀察者海風(fēng)
2026-03-25 23:03:11
張雪峰離世!北京蘇州房產(chǎn)不在名下,1400名員工等安撫,好友停工

張雪峰離世!北京蘇州房產(chǎn)不在名下,1400名員工等安撫,好友停工

大中國
2026-03-26 13:30:16
張雪峰猝死事件發(fā)酵!網(wǎng)傳內(nèi)蒙一公司老板開會(huì),出資全員急救培訓(xùn)

張雪峰猝死事件發(fā)酵!網(wǎng)傳內(nèi)蒙一公司老板開會(huì),出資全員急救培訓(xùn)

火山詩話
2026-03-26 10:42:17
巴西記者:等到有撲克牌世界杯的時(shí)候,內(nèi)馬爾就能入選巴西隊(duì)

巴西記者:等到有撲克牌世界杯的時(shí)候,內(nèi)馬爾就能入選巴西隊(duì)

懂球帝
2026-03-26 12:27:11
楊瀚森帶不動(dòng)CBA隊(duì)友,混音輸給馬刺,數(shù)據(jù)顯示中國新星不用背鍋

楊瀚森帶不動(dòng)CBA隊(duì)友,混音輸給馬刺,數(shù)據(jù)顯示中國新星不用背鍋

姜大叔侃球
2026-03-26 10:42:36
巴斯夫(廣東)一體化基地全面投產(chǎn),黃坤明等中外嘉賓共同啟動(dòng)

巴斯夫(廣東)一體化基地全面投產(chǎn),黃坤明等中外嘉賓共同啟動(dòng)

廣東發(fā)布
2026-03-26 10:57:43
北京今日傍晚北風(fēng)漸起,周末有弱降水

北京今日傍晚北風(fēng)漸起,周末有弱降水

北青網(wǎng)-北京青年報(bào)
2026-03-26 13:27:04
女孩當(dāng)小姐,一晚要提供4到5次上門服務(wù),被親人點(diǎn)到不赴約

女孩當(dāng)小姐,一晚要提供4到5次上門服務(wù),被親人點(diǎn)到不赴約

情感藝術(shù)家
2026-02-26 10:48:00
美軍第82空降師3000人出兵,危急時(shí)刻,伊朗特種兵亮劍56沖和FPV

美軍第82空降師3000人出兵,危急時(shí)刻,伊朗特種兵亮劍56沖和FPV

軍機(jī)Talk
2026-03-25 17:17:57
美軍發(fā)布戰(zhàn)果,摧毀中國產(chǎn)戰(zhàn)機(jī),伊朗空軍損失殆盡

美軍發(fā)布戰(zhàn)果,摧毀中國產(chǎn)戰(zhàn)機(jī),伊朗空軍損失殆盡

愛吃醋的貓咪
2026-03-22 22:29:08
老師穿短裙蕾絲襪上課,學(xué)生連頭都不敢抬!老師穿衣底線到底在哪

老師穿短裙蕾絲襪上課,學(xué)生連頭都不敢抬!老師穿衣底線到底在哪

小羽叨叨叨
2026-03-26 13:24:34
清算終于開始了!一個(gè)要求,震動(dòng)?xùn)|京:中國要求日本限期內(nèi)歸還

清算終于開始了!一個(gè)要求,震動(dòng)?xùn)|京:中國要求日本限期內(nèi)歸還

壹知眠羊
2026-01-28 22:03:28
馮鞏在人民日?qǐng)?bào)撰文

馮鞏在人民日?qǐng)?bào)撰文

草莓解說體育
2026-03-26 14:13:16
逃難的林沖殺了收留他的王倫,這樣的人進(jìn)不了任何人的圈子

逃難的林沖殺了收留他的王倫,這樣的人進(jìn)不了任何人的圈子

涼湫瑾言
2026-03-23 13:29:51
戲都沒演明白還當(dāng)評(píng)委,自己都沒拿過獎(jiǎng),坐在評(píng)審團(tuán)位置不心虛嗎

戲都沒演明白還當(dāng)評(píng)委,自己都沒拿過獎(jiǎng),坐在評(píng)審團(tuán)位置不心虛嗎

娛樂圈筆娛君
2026-03-25 10:46:06
養(yǎng)生|大便后你用幾張紙?用紙量判斷你的身體情況

養(yǎng)生|大便后你用幾張紙?用紙量判斷你的身體情況

A活著
2026-03-24 19:25:23
賈馬爾-穆雷生涯第4次單場(chǎng)得分50+,掘金隊(duì)史僅次于約基奇

賈馬爾-穆雷生涯第4次單場(chǎng)得分50+,掘金隊(duì)史僅次于約基奇

懂球帝
2026-03-26 13:21:12
首次全流程展示!國產(chǎn)無人機(jī)蜂群作戰(zhàn)系統(tǒng)震撼亮相

首次全流程展示!國產(chǎn)無人機(jī)蜂群作戰(zhàn)系統(tǒng)震撼亮相

環(huán)球網(wǎng)資訊
2026-03-25 14:26:17
第81輪反擊來了!飛彈直擊以軍集結(jié)地

第81輪反擊來了!飛彈直擊以軍集結(jié)地

星火聊天下
2026-03-26 07:27:33
2026-03-26 14:52:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12604文章數(shù) 142593關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時(shí)盡力摧毀伊設(shè)施

頭條要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時(shí)盡力摧毀伊設(shè)施

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂要聞

張雪峰家人首發(fā)聲 不設(shè)追思會(huì)喪事從簡

財(cái)經(jīng)要聞

黃仁勛:芯片公司的時(shí)代已經(jīng)結(jié)束了

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

旅游
親子
家居
藝術(shù)
數(shù)碼

旅游要聞

淡季旺銷!南明住宿業(yè)今年前兩月營收斬獲1.18億元

親子要聞

躺平的孩子意外覺醒了,在父母學(xué)會(huì)當(dāng)“烏龜”!

家居要聞

傍海而居 靜觀蝴蝶海

藝術(shù)要聞

哪一座橋不是風(fēng)景?

數(shù)碼要聞

配件制造商清單泄露:2026款iPad將搭載A18芯片

無障礙瀏覽 進(jìn)入關(guān)懷版