国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

「視頻世界模型」新突破:AI連續(xù)生成5分鐘,畫面也不崩

0
分享至



當(dāng) Sora 讓世界看到了 AI 生成視頻的驚艷效果,一個更深層的問題浮出水面:如何讓生成的視頻不只是「看起來像」,而是真正理解并遵循物理世界的規(guī)律?這正是「視頻世界模型」(Video World Model)要解決的核心挑戰(zhàn)。當(dāng)生成時長從幾秒擴展到幾分鐘,模型不僅要畫面逼真,更要在長時間尺度上保持結(jié)構(gòu)、行為與物理規(guī)律的一致性。然而,誤差累積與語義漂移往往導(dǎo)致長視頻出現(xiàn)畫面退化與邏輯崩壞 —— 這已成為衡量世界模型能力的關(guān)鍵瓶頸。

圍繞這一挑戰(zhàn),上海人工智能實驗室聯(lián)合復(fù)旦大學(xué)、南京大學(xué)、南洋理工大學(xué) S-Lab 等單位提出了LongVie 2—— 一個能夠生成長達5 分鐘高保真、可控視頻的世界模型框架



LongVie 2 可自回歸生成 3-5 分鐘的超長可控視頻

  • 論文:https://arxiv.org/pdf/2512.13604
  • 項目主頁:https://vchitect.github.io/LongVie2-project/
  • GitHub:https://github.com/Vchitect/LongVie
  • 視頻演示:https://www.youtube.com/watch?v=ln1kMNYj50Y


https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg

什么是理想的視頻世界模型?

一個理想的視頻世界模型,不應(yīng)只是「生成得更久」,而應(yīng)同時具備以下三項核心能力:

  • 全面可控性(Comprehensive Controllability):能夠在長時間生成過程中穩(wěn)定響應(yīng)多種控制信號,保持場景結(jié)構(gòu)與運動意圖不漂移;
  • 長期視覺保真(Long-term Fidelity):隨著時間推進,畫面質(zhì)量不發(fā)生明顯退化,不出現(xiàn)紋理崩塌或細節(jié)丟失;
  • 長程上下文一致性(Long-context Consistency):跨片段、跨時間保持語義、身份與物理規(guī)律的一致,避免「換世界式」斷裂。

現(xiàn)有世界模型的瓶頸在哪里?

本文系統(tǒng)調(diào)研了當(dāng)前主流的視頻世界模型,發(fā)現(xiàn)一個共同問題:隨著生成時長的增加,模型的可控性、視覺保真度與時間一致性會同步下降。



現(xiàn)有模型在長時間生成時的退化問題

LongVie 2:三階段遞進式訓(xùn)練

為系統(tǒng)性解決上述挑戰(zhàn),LongVie 2 設(shè)計了一套逐層遞進的三階段訓(xùn)練策略,從控制、穩(wěn)定性到時間一致性層層強化:



LongVie 2 三階段訓(xùn)練流程

階段一:Dense & Sparse 多模態(tài)控制

通過引入稠密信號(如深度圖)與稀疏信號(如關(guān)鍵點軌跡),為模型提供穩(wěn)定且可解釋的世界約束。這使生成過程不再完全依賴隱式記憶,從源頭提升長程可控性。

階段二:退化感知訓(xùn)練(Degradation-aware Training)

長視頻生成中,質(zhì)量衰減幾乎不可避免。LongVie 2 的核心創(chuàng)新在于:在訓(xùn)練階段主動「制造困難」——



退化感知訓(xùn)練示意圖

  • 利用 VAE 的多次 encode-decode 模擬重建誤差;
  • 通過 加噪 + Diffusion 去噪 構(gòu)造退化圖像。

以此作為訓(xùn)練信號,使模型學(xué)會在不完美輸入下保持穩(wěn)定生成,顯著增強長期視覺保真度。

階段三:歷史上下文建模

在生成過程中顯式引入歷史片段信息,并通過針對性 loss 約束相鄰片段的銜接,使跨片段過渡更加自然順暢,有效緩解長視頻中的語義斷裂與邏輯跳變問題。



三階段訓(xùn)練效果對比

一圖看懂 LongVie 2 框架

通過多模態(tài)控制、退化感知訓(xùn)練與歷史上下文建模的協(xié)同設(shè)計,LongVie 2 將長視頻生成從「片段拼接」提升為持續(xù)演化的世界建模過程:



LongVie 2 整體框架

從左至右,LongVie 2 首先將跨片段的稠密(深度)與稀疏(關(guān)鍵點)控制視頻做全局歸一化,并為所有片段采用統(tǒng)一的噪聲初始化。隨后在每一片段生成時,將全局歸一化后的控制信號、上一片段的末幀與文本提示送入模型,逐步生成完整的長視頻。

LongVie 2 能力展示

該研究將LongVie 2與 Go-With-The-Flow 和 Diffusion As Shader 進行了對比。結(jié)果顯示,LongVie 2 在可控性方面表現(xiàn)顯著優(yōu)于現(xiàn)有方法:



與現(xiàn)有方法的可控性對比


https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg


https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg

消融實驗也充分驗證了三階段訓(xùn)練的有效性:



消融實驗結(jié)果

LongVGenBench

首個可控超長視頻評測基準(zhǔn)

當(dāng)前缺乏面向可控長視頻生成的標(biāo)準(zhǔn)化評測。為此,本文提出LongVGenBench—— 首個專為超長視頻生成設(shè)計的基準(zhǔn)數(shù)據(jù)集,包含100 個時長超過 1 分鐘的高分辨率視頻,覆蓋真實世界與合成環(huán)境的多樣場景,旨在推動該方向的系統(tǒng)研究與公平評測。

定量評估與用戶主觀測評結(jié)果顯示,LongVie 2 在多項指標(biāo)上達到SOTA 水平,并獲得最高用戶偏好度:





定量評測結(jié)果與用戶研究

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
人沒本事,一看就知:沒本事的人,每到春節(jié),就會有3個通病

人沒本事,一看就知:沒本事的人,每到春節(jié),就會有3個通病

聚焦最新動態(tài)
2026-02-28 09:53:49
以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

八斗小先生
2025-12-26 09:33:27
英媒爆出猛料:中國或違反聯(lián)合國規(guī)定,運送超高音速導(dǎo)彈給伊朗!

英媒爆出猛料:中國或違反聯(lián)合國規(guī)定,運送超高音速導(dǎo)彈給伊朗!

始于初見見
2026-03-02 19:33:23
2萬余名旅客滯留 阿聯(lián)酋政府將承擔(dān)因此產(chǎn)生費用

2萬余名旅客滯留 阿聯(lián)酋政府將承擔(dān)因此產(chǎn)生費用

看看新聞Knews
2026-03-01 18:15:18
繞道阿曼!迪拜機場關(guān)閉后,滯留游客曲線回國:轉(zhuǎn)機3次,耗時四五十個小時

繞道阿曼!迪拜機場關(guān)閉后,滯留游客曲線回國:轉(zhuǎn)機3次,耗時四五十個小時

每日經(jīng)濟新聞
2026-03-02 18:10:27
正月十五元宵節(jié),這8個“禁忌”要牢記,趕走霉運,年頭旺到年尾

正月十五元宵節(jié),這8個“禁忌”要牢記,趕走霉運,年頭旺到年尾

簡食記工作號
2026-03-01 00:13:00
伊朗的援軍到了!以色列再征兵10萬,關(guān)鍵時刻,普京對中國做承諾

伊朗的援軍到了!以色列再征兵10萬,關(guān)鍵時刻,普京對中國做承諾

軍機Talk
2026-03-02 09:50:33
周雨彤中東度假失聯(lián)!賬號停更,工作室沉默,粉絲著急,后續(xù)來了

周雨彤中東度假失聯(lián)!賬號停更,工作室沉默,粉絲著急,后續(xù)來了

胡一舸南游y
2026-03-02 19:16:02
河南洛陽一女子過年離家,智能馬桶17天耗水超200噸,當(dāng)事人:馬桶晝夜不停自動工作

河南洛陽一女子過年離家,智能馬桶17天耗水超200噸,當(dāng)事人:馬桶晝夜不停自動工作

黃河新聞網(wǎng)呂梁
2026-02-28 14:27:42
兩戰(zhàn)全勝后!男籃陣容大清洗,郭士強扶正雙王炸,4人基本出局!

兩戰(zhàn)全勝后!男籃陣容大清洗,郭士強扶正雙王炸,4人基本出局!

緋雨兒
2026-03-02 11:31:31
曾經(jīng)的女神啊,可惜嫁給外國人了…

曾經(jīng)的女神啊,可惜嫁給外國人了…

喜歡歷史的阿繁
2026-03-03 01:07:01
突然大跌,15萬人爆倉!伊朗發(fā)射高超音速導(dǎo)彈,并封鎖霍爾木茲海峽,油價或飆升,國內(nèi)金飾克價突破1600元

突然大跌,15萬人爆倉!伊朗發(fā)射高超音速導(dǎo)彈,并封鎖霍爾木茲海峽,油價或飆升,國內(nèi)金飾克價突破1600元

每日經(jīng)濟新聞
2026-03-01 01:03:36
國家安全部:NFC可能成為信息泄露乃至危害國家安全的渠道

國家安全部:NFC可能成為信息泄露乃至危害國家安全的渠道

上觀新聞
2026-02-02 07:09:04
美國女足前隊長:谷愛凌代表中國參賽是極其聰明的商業(yè)決策

美國女足前隊長:谷愛凌代表中國參賽是極其聰明的商業(yè)決策

魔都姐姐雜談
2026-03-02 08:25:44
馬斯克變性女兒亮相米蘭時裝周,姿勢怪異男相明顯,堪稱辣眼睛

馬斯克變性女兒亮相米蘭時裝周,姿勢怪異男相明顯,堪稱辣眼睛

電影偵探社
2026-03-01 16:36:05
蘋果中國官網(wǎng)上線新款iPhone 17e,起售價4499元

蘋果中國官網(wǎng)上線新款iPhone 17e,起售價4499元

界面新聞
2026-03-02 22:21:17
來搞笑的?超級杯花名冊漏洞百出:照片古早且粗糙,譯名疊詞

來搞笑的?超級杯花名冊漏洞百出:照片古早且粗糙,譯名疊詞

懂球帝
2026-03-02 22:29:12
全軍啟用預(yù)備役人員證

全軍啟用預(yù)備役人員證

界面新聞
2026-03-01 10:34:50
中國核工業(yè)集團,總工程師羅琦,突然從一個極重要位置上被撤下來

中國核工業(yè)集團,總工程師羅琦,突然從一個極重要位置上被撤下來

百態(tài)人間
2026-02-25 15:36:52
為什么中國專家永遠誤判美國的戰(zhàn)爭行為

為什么中國專家永遠誤判美國的戰(zhàn)爭行為

凱利經(jīng)濟觀察
2026-03-02 13:32:11
2026-03-03 06:23:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12395文章數(shù) 142575關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

媒體:拉里賈尼走向前臺 四大關(guān)鍵變量將決定伊朗命運

頭條要聞

媒體:拉里賈尼走向前臺 四大關(guān)鍵變量將決定伊朗命運

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

時尚
本地
游戲
親子
旅游

今年春天一定要擁有的4件衣服,太好看了!

本地新聞

津南好·四時總相宜

外媒給《寶可夢》新作60分:不夠有趣的縫合怪

親子要聞

開學(xué)了!珠海香洲:筑牢安全防線,保障托育機構(gòu)順利開園復(fù)托

旅游要聞

不用遠行!重慶家門口的花海,治愈所有疲憊

無障礙瀏覽 進入關(guān)懷版