国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

教會視頻擴散模型「理解科學現(xiàn)象」:從初始幀生成整個物理演化

0
分享至



作者 | 論文團隊

編輯 | ScienceAI

近年來,Stable Diffusion、CogVideoX 等視頻生成模型在自然場景中表現(xiàn)驚艷,但面對科學現(xiàn)象 —— 如流體模擬或氣象過程 —— 卻常?!竵y畫」:如圖一所示,生成的流體很容易產生違背物理直覺的現(xiàn)象,比如氣旋逆向旋轉或整體平移等等。

上述問題的根源在于,這些模型缺乏對科學規(guī)律的內在理解。它們學習到的只是像素分布,而非支配這些分布的動力學方程。更糟的是,科學數(shù)據具有稀缺性,且缺少語言描述(不像「a dog is running」那樣易于提示),導致傳統(tǒng)「文本提示 — 圖像生成」范式在科學視頻生成任務中失效。



圖一:現(xiàn)有的視頻擴散模型生成效果。

因此,在擴散模型不斷重塑視覺生成的今天,一個全新的問題正在浮現(xiàn):當 AI 可以生成美麗的自然視頻時,能否同樣生成「真實的科學現(xiàn)象」?

這正是來自東方理工與上海交大的研究團隊在最新研究中提出的挑戰(zhàn)。他們在論文《Latent Knowledge-Guided Video Diffusion for Scientific Phenomena Generation from a Single Initial Frame》中,提出了一種讓視頻擴散模型學習「潛在科學知識」的全新框架,使模型能夠僅憑一幀初始圖像,就生成更為貼近物理規(guī)律的科學現(xiàn)象演化過程—— 例如流體運動、臺風路徑、湍流結構等。

不同于以往依靠語言提示或大規(guī)模視覺數(shù)據的生成方式,這項方法讓模型在「看懂科學」的基礎上自己推演后續(xù)的演化軌跡,在生成式 AI 中注入了「物理直覺(physical intuition)」。該研究已被人工智能頂會 AAAI 2026 正式接收。



圖二:整體算法框架。該方法通過參數(shù)高效的微調將潛在的物理現(xiàn)象知識融入視頻擴散模型中,從而在數(shù)據受限的場景下實現(xiàn)更貼近物理規(guī)律的視頻生成。

方法介紹

如圖二所示,整個方法核心可分為三步:潛在知識提取 → 偽語言提示生成 → 知識引導視頻生成。

第一步:從一幀中提取「潛在科學知識」。研究的起點是極具挑戰(zhàn)性的設定:模型只能獲得一幀初始圖像。在這種情況下,它必須「推斷」出后續(xù)的動態(tài)演化。為此,作者設計了兩種互補的知識提取模塊:

  • 靜態(tài)知識(Static Knowledge)—— 通過預訓練的 Masked Autoencoder (MAE) 提取。這一步相當于讓模型「看懂」一幀圖像中隱含的結構規(guī)律,例如流場邊界、溫度梯度、云層形態(tài)等。不同于一般視覺自監(jiān)督方法中隨意的旋轉、噪聲擾動,研究者刻意避免破壞物理連續(xù)性的增強方式,使 MAE 能在「科學一致性」條件下學習。
  • 動態(tài)知識(Dynamic Knowledge)— 通過 光流預測網絡(Optical Flow Predictor, OFP) 提取,用以捕捉物理系統(tǒng)的運動趨勢,如流體方向或旋渦遷移。這一模塊讓模型「想象」科學現(xiàn)象的運動軌跡,從而獲得對動力學過程的隱式理解。通過這兩個模塊,模型獲得了一種「潛在物理直覺」:它不僅看到靜態(tài)狀態(tài),還能感受到變化的方向。

第二步:讓科學知識「說話」—— 偽語言提示生成。擴散模型通常依賴文字提示(prompt)來控制生成,但在科學領域,「語言提示」幾乎無法定義。例如,沒有人能準確描述「一個雷諾數(shù)為 10? 的流場如何演化」。為此,研究者創(chuàng)新性地利用了 CLIP 模型的跨模態(tài)對齊特性。他們將前一步提取的視覺特征與科學知識特征輸入 CLIP 的視覺空間中,并通過一種四元數(shù)網絡(Quaternion Network)進行投影,把這些潛在特征轉換成偽語言提示嵌入(pseudo-language embeddings)。

這一步的關鍵思想是,避開文字局限,通過跨模態(tài)特征對齊與多維信息融合,使科學知識轉化為可被擴散模型解析的引導信號。四元數(shù)網絡使模型能在多維空間中同時處理圖像、靜態(tài)知識、動態(tài)知識與頻率信息,從而生成能夠引導擴散模型的語義性信號。研究者還將頻域(Frequency Domain)特征注入提示生成過程,讓模型在「空間 - 頻率」兩個維度理解科學規(guī)律。

第三步:知識引導下的視頻生成。在擁有這些「偽語言提示」后,研究者將其注入 Stable Video Diffusion (SVD) 或 CogVideoX 的注意力層,通過 LoRA(Low-Rank Adaptation) 的方式進行輕量微調。在訓練階段,模型從真實的科學視頻(如流體仿真、臺風演化)中學習如何從噪聲逐步重建出物理一致的視頻序列;在推理階段,它只需要輸入一幀圖像,就能借助潛在知識推演出整個動態(tài)過程 —— 實現(xiàn)從「初態(tài)」到「演化」的全程科學生成。這種機制讓模型不再僅僅是圖像生成器,而是一個能夠模擬科學規(guī)律的世界現(xiàn)象生成器(World Phenomena Simulator)。

模型結果

研究團隊在流體力學仿真數(shù)據和真實臺風觀測數(shù)據上進行了大規(guī)模實驗,結合數(shù)值精度指標和物理精度指標進行評估。該模型的輸出不僅呈現(xiàn)效果更優(yōu),更關鍵的是,它生成得更「科學」。

在實驗中,研究者分別使用了四種典型的流體模擬場景:Rayleigh-Bénard Convection(瑞利 - 貝納德對流)、Cylinder Flow(圓柱繞流)、DamBreak(潰壩流)和 DepthCharge(深水爆炸 / 水下爆炸)。這些都是流體力學中經典而復雜的物理過程。此外,研究者還將方法應用于真實衛(wèi)星觀測的臺風數(shù)據,選取了 4 個臺風事件(202001、202009、202102、202204),讓模型在僅看到一幀初始衛(wèi)星圖像的情況下,推演整個風暴演化。



圖三:臺風現(xiàn)象生成效果對比。



圖四:流體現(xiàn)象生成效果對比。

定性上看,如圖三和圖四所示,傳統(tǒng)視頻擴散模型(如 Stable Video Diffusion 或 CogVideoX)往往會「畫出」違背物理規(guī)律的畫面。在相同的初始幀下,傳統(tǒng)模型生成的流體場常出現(xiàn)「靜止渦旋」或「反重力液面」,而本研究的模型則能自然還原出連續(xù)的流動與下泄過程?,F(xiàn)有模型生成的臺風中心漂移、風眼逆轉、云層斷裂;而新方法生成的視頻不僅結構連貫,而且旋轉方向、云帶卷吸、能量分布都更好的保持了物理合理性。



表一:對流體模擬數(shù)據(左)和真實臺風數(shù)據(右)進行定量評估。

定量上評估,除了傳統(tǒng)的 RMSE 和 SSIM 指標,為了驗證生成結果是否「符合科學」,研究團隊設還基于六項物理一致性指標,從不同角度評估生成視頻是否尊重物理規(guī)律:

  • RMSE:像素層誤差,衡量整體偏差;
  • SSIM:結構相似性,衡量圖像紋理保持程度;
  • SFE(Stream Function Error):流函數(shù)誤差,檢驗流體走向與真實場是否一致;
  • SE(Smoothness Error):平滑度誤差,考察流場演化是否連貫;
  • GS(Gradient Smoothness):梯度平滑度,評估空間變化是否自然;
  • CS(Continuity Score):連續(xù)性得分,檢驗是否違反質量守恒;
  • QCE(Q-Criterion Error):渦度判據誤差,衡量渦旋結構是否被保持;
  • VE(Vorticity Error):旋渦誤差,檢查流體旋轉強度的一致性。

如表一所示,在所有這些指標上,新模型都顯著超越了主流方法。例如,在流體模擬任務中,Q-Criterion 誤差降低了一個數(shù)量級,意味著生成視頻的渦旋結構幾乎與真實物理場完全重合;而在臺風預測任務中,SSIM 提升超過 10%,RMSE 降低 20% 以上,證明生成結果更加貼近真實觀測。

總結

綜上所述,這項研究展示了生成式 AI 在科學建模方向上的一次有意義的探索。通過讓視頻擴散模型學習潛在的科學知識,研究團隊讓 AI 不再只是「畫出」自然現(xiàn)象,而能「推演」出它們的演化邏輯。

在從一幀圖像生成出完整科學過程的同時,模型也學會了遵守能量守恒、流體連續(xù)性等自然規(guī)律。這種從「視覺生成」到「科學生成」的轉變,意味著生成模型開始具備理解物理世界的潛能。未來,這一方向有望在氣象預測、流體仿真、地球系統(tǒng)建模等領域發(fā)揮更大作用,讓 AI 真正成為科學家的助手,而不僅是藝術家的畫筆。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
長期吃阿托伐他汀和阿司匹林,出現(xiàn)3種情況及時停藥,別心存僥幸

長期吃阿托伐他汀和阿司匹林,出現(xiàn)3種情況及時停藥,別心存僥幸

瑛派兒老黃
2025-12-19 19:32:16
并非迷信!今日冬至,牢記:1不晚、2不吃、3不做、4不拜,早了解

并非迷信!今日冬至,牢記:1不晚、2不吃、3不做、4不拜,早了解

阿龍美食記
2025-12-21 03:51:12
對華合約全部撕毀!中國又一伙伴背后捅刀,騙走20億倒向美國

對華合約全部撕毀!中國又一伙伴背后捅刀,騙走20億倒向美國

離離言幾許
2025-12-20 19:56:40
還沒打委內瑞拉,美先炸第3國,美軍不宣而戰(zhàn),100枚導彈連夜空襲

還沒打委內瑞拉,美先炸第3國,美軍不宣而戰(zhàn),100枚導彈連夜空襲

影孖看世界
2025-12-20 20:47:49
警方通報:任某被刑拘!在居民區(qū)做出危險行為!

警方通報:任某被刑拘!在居民區(qū)做出危險行為!

看看新聞Knews
2025-12-20 20:16:44
美國對臺軍售捅馬蜂窩,中國反手大舉賣武器,反美國家搶瘋了。

美國對臺軍售捅馬蜂窩,中國反手大舉賣武器,反美國家搶瘋了。

百態(tài)人間
2025-11-21 17:02:27
非洲唯一發(fā)達國家垮掉,只需一個「偉人」

非洲唯一發(fā)達國家垮掉,只需一個「偉人」

家傳編輯部
2025-12-08 20:18:50
3連冠!谷愛凌創(chuàng)歷史,被外國網友批評:享受美國福利卻代表中國

3連冠!谷愛凌創(chuàng)歷史,被外國網友批評:享受美國福利卻代表中國

侃球熊弟
2025-12-19 19:28:01
冬天寧可少吃牛羊肉,也要多吃它,強筋壯骨、補虛弱,錯過可惜了

冬天寧可少吃牛羊肉,也要多吃它,強筋壯骨、補虛弱,錯過可惜了

江江食研社
2025-12-19 20:30:04
第一批免簽去俄羅斯的中產傻眼了

第一批免簽去俄羅斯的中產傻眼了

風向觀察
2025-12-16 18:26:08
茼蒿立大功!醫(yī)生調查發(fā)現(xiàn):茼蒿對這5種疾病有好處,建議常吃

茼蒿立大功!醫(yī)生調查發(fā)現(xiàn):茼蒿對這5種疾病有好處,建議常吃

阿纂看事
2025-10-13 15:36:03
壽命短的男性,常有“2大2白1斑”,如果沒有,說明身體很健康

壽命短的男性,常有“2大2白1斑”,如果沒有,說明身體很健康

軒轅島
2025-12-20 11:45:03
金價真的是一夜變天,12月20日最新報價,全國金價竟然差這么多?

金價真的是一夜變天,12月20日最新報價,全國金價竟然差這么多?

戶外釣魚哥阿旱
2025-12-20 15:43:34
B費:我們不能把所有問題歸咎于C羅,他在禁區(qū)內仍是頂級殺手

B費:我們不能把所有問題歸咎于C羅,他在禁區(qū)內仍是頂級殺手

懂球帝
2025-12-20 07:46:21
104比88大勝16分!CBA第一爭冠熱門冒尖:他們沖擊第4冠穩(wěn)了?

104比88大勝16分!CBA第一爭冠熱門冒尖:他們沖擊第4冠穩(wěn)了?

籃球快餐車
2025-12-21 02:19:55
微胖:女人的多重煩惱

微胖:女人的多重煩惱

疾跑的小蝸牛
2025-12-16 16:53:48
為了防止其它國家給柬埔寨運輸武器彈藥,泰國直接封鎖了泰國灣!

為了防止其它國家給柬埔寨運輸武器彈藥,泰國直接封鎖了泰國灣!

荊楚寰宇文樞
2025-12-17 22:13:04
博主:申花門將鮑亞雄、前鋒費爾南多無限接近加盟云南玉昆

博主:申花門將鮑亞雄、前鋒費爾南多無限接近加盟云南玉昆

懂球帝
2025-12-20 11:16:27
33分5板6助4帽,隊史第一人!你再這么打下去,擺爛要變成爭冠了

33分5板6助4帽,隊史第一人!你再這么打下去,擺爛要變成爭冠了

鍋子籃球
2025-12-20 13:00:07
央視曝光固態(tài)電池重大消息!

央視曝光固態(tài)電池重大消息!

電動知家
2025-12-18 10:41:13
2025-12-21 06:24:49
ScienceAI incentive-icons
ScienceAI
關注人工智能與其他前沿技術
1185文章數(shù) 221關注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時刻"還未到來

頭條要聞

高市早苗擔心被邊緣化 要趕在特朗普訪華前行動

頭條要聞

高市早苗擔心被邊緣化 要趕在特朗普訪華前行動

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會陣容曝光,豪華陣仗

財經要聞

求解“地方財政困難”

汽車要聞

嵐圖推進L3量產測試 已完成11萬公里實際道路驗證

態(tài)度原創(chuàng)

數(shù)碼
藝術
旅游
健康
教育

數(shù)碼要聞

一屏多用:華為Mate X7 / XTs折疊屏手機“變身”智能手卡

藝術要聞

中國老香煙品牌,你知道多少?

旅游要聞

不止紅墻白雪!故宮淡季爆火,藏著中國文旅升級的大信號

這些新療法,讓化療不再那么痛苦

教育要聞

中產留學家庭起飛三件套!

無障礙瀏覽 進入關懷版