国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

「視頻世界模型」新突破:AI連續(xù)生成5分鐘,畫面也不崩

0
分享至



當(dāng) Sora 讓世界看到了 AI 生成視頻的驚艷效果,一個更深層的問題浮出水面:如何讓生成的視頻不只是「看起來像」,而是真正理解并遵循物理世界的規(guī)律?這正是「視頻世界模型」(Video World Model)要解決的核心挑戰(zhàn)。當(dāng)生成時長從幾秒擴(kuò)展到幾分鐘,模型不僅要畫面逼真,更要在長時間尺度上保持結(jié)構(gòu)、行為與物理規(guī)律的一致性。然而,誤差累積與語義漂移往往導(dǎo)致長視頻出現(xiàn)畫面退化與邏輯崩壞 —— 這已成為衡量世界模型能力的關(guān)鍵瓶頸。

圍繞這一挑戰(zhàn),上海人工智能實(shí)驗(yàn)室聯(lián)合復(fù)旦大學(xué)、南京大學(xué)、南洋理工大學(xué) S-Lab 等單位提出了LongVie 2—— 一個能夠生成長達(dá)5 分鐘高保真、可控視頻的世界模型框架



LongVie 2 可自回歸生成 3-5 分鐘的超長可控視頻

  • 論文:https://arxiv.org/pdf/2512.13604
  • 項目主頁:https://vchitect.github.io/LongVie2-project/
  • GitHub:https://github.com/Vchitect/LongVie
  • 視頻演示:https://www.youtube.com/watch?v=ln1kMNYj50Y


https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg

什么是理想的視頻世界模型?

一個理想的視頻世界模型,不應(yīng)只是「生成得更久」,而應(yīng)同時具備以下三項核心能力:

  • 全面可控性(Comprehensive Controllability):能夠在長時間生成過程中穩(wěn)定響應(yīng)多種控制信號,保持場景結(jié)構(gòu)與運(yùn)動意圖不漂移;
  • 長期視覺保真(Long-term Fidelity):隨著時間推進(jìn),畫面質(zhì)量不發(fā)生明顯退化,不出現(xiàn)紋理崩塌或細(xì)節(jié)丟失;
  • 長程上下文一致性(Long-context Consistency):跨片段、跨時間保持語義、身份與物理規(guī)律的一致,避免「換世界式」斷裂。

現(xiàn)有世界模型的瓶頸在哪里?

本文系統(tǒng)調(diào)研了當(dāng)前主流的視頻世界模型,發(fā)現(xiàn)一個共同問題:隨著生成時長的增加,模型的可控性、視覺保真度與時間一致性會同步下降。



現(xiàn)有模型在長時間生成時的退化問題

LongVie 2:三階段遞進(jìn)式訓(xùn)練

為系統(tǒng)性解決上述挑戰(zhàn),LongVie 2 設(shè)計了一套逐層遞進(jìn)的三階段訓(xùn)練策略,從控制、穩(wěn)定性到時間一致性層層強(qiáng)化:



LongVie 2 三階段訓(xùn)練流程

階段一:Dense & Sparse 多模態(tài)控制

通過引入稠密信號(如深度圖)與稀疏信號(如關(guān)鍵點(diǎn)軌跡),為模型提供穩(wěn)定且可解釋的世界約束。這使生成過程不再完全依賴隱式記憶,從源頭提升長程可控性。

階段二:退化感知訓(xùn)練(Degradation-aware Training)

長視頻生成中,質(zhì)量衰減幾乎不可避免。LongVie 2 的核心創(chuàng)新在于:在訓(xùn)練階段主動「制造困難」——



退化感知訓(xùn)練示意圖

  • 利用 VAE 的多次 encode-decode 模擬重建誤差;
  • 通過 加噪 + Diffusion 去噪 構(gòu)造退化圖像。

以此作為訓(xùn)練信號,使模型學(xué)會在不完美輸入下保持穩(wěn)定生成,顯著增強(qiáng)長期視覺保真度。

階段三:歷史上下文建模

在生成過程中顯式引入歷史片段信息,并通過針對性 loss 約束相鄰片段的銜接,使跨片段過渡更加自然順暢,有效緩解長視頻中的語義斷裂與邏輯跳變問題。



三階段訓(xùn)練效果對比

一圖看懂 LongVie 2 框架

通過多模態(tài)控制、退化感知訓(xùn)練與歷史上下文建模的協(xié)同設(shè)計,LongVie 2 將長視頻生成從「片段拼接」提升為持續(xù)演化的世界建模過程:



LongVie 2 整體框架

從左至右,LongVie 2 首先將跨片段的稠密(深度)與稀疏(關(guān)鍵點(diǎn))控制視頻做全局歸一化,并為所有片段采用統(tǒng)一的噪聲初始化。隨后在每一片段生成時,將全局歸一化后的控制信號、上一片段的末幀與文本提示送入模型,逐步生成完整的長視頻。

LongVie 2 能力展示

該研究將LongVie 2與 Go-With-The-Flow 和 Diffusion As Shader 進(jìn)行了對比。結(jié)果顯示,LongVie 2 在可控性方面表現(xiàn)顯著優(yōu)于現(xiàn)有方法:



與現(xiàn)有方法的可控性對比


https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg


https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg

消融實(shí)驗(yàn)也充分驗(yàn)證了三階段訓(xùn)練的有效性:



消融實(shí)驗(yàn)結(jié)果

LongVGenBench

首個可控超長視頻評測基準(zhǔn)

當(dāng)前缺乏面向可控長視頻生成的標(biāo)準(zhǔn)化評測。為此,本文提出LongVGenBench—— 首個專為超長視頻生成設(shè)計的基準(zhǔn)數(shù)據(jù)集,包含100 個時長超過 1 分鐘的高分辨率視頻,覆蓋真實(shí)世界與合成環(huán)境的多樣場景,旨在推動該方向的系統(tǒng)研究與公平評測。

定量評估與用戶主觀測評結(jié)果顯示,LongVie 2 在多項指標(biāo)上達(dá)到SOTA 水平,并獲得最高用戶偏好度:





定量評測結(jié)果與用戶研究

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
菲律賓警方逮捕一名中國籍博彩業(yè)頭目 涉嫌對園區(qū)員工實(shí)施酷刑

菲律賓警方逮捕一名中國籍博彩業(yè)頭目 涉嫌對園區(qū)員工實(shí)施酷刑

紅星新聞
2025-12-31 14:50:21
35歲金晨近照曝光翻車了!腫脹的像發(fā)面饅頭,越來越像網(wǎng)紅了

35歲金晨近照曝光翻車了!腫脹的像發(fā)面饅頭,越來越像網(wǎng)紅了

小徐講八卦
2025-12-30 07:31:30
突發(fā)暴跌!全線跳水

突發(fā)暴跌!全線跳水

證券時報
2025-12-31 14:27:02
扎哈羅娃:俄將用非外交手段回應(yīng)“普京官邸遇襲”

扎哈羅娃:俄將用非外交手段回應(yīng)“普京官邸遇襲”

參考消息
2025-12-30 21:54:05
綜合能力非常突出!快船鋒線新秀能夠在攻防兩端起到關(guān)鍵的作用?

綜合能力非常突出!快船鋒線新秀能夠在攻防兩端起到關(guān)鍵的作用?

稻谷與小麥
2025-12-31 22:59:20
英超最新積分戰(zhàn)報:曼聯(lián)爆冷,維拉潰敗,切爾西掉鏈子

英超最新積分戰(zhàn)報:曼聯(lián)爆冷,維拉潰敗,切爾西掉鏈子

足球狗說
2025-12-31 06:27:16
劉德華用電飯煲煮火鍋的畫面,青菜、素丸子,太清湯寡水了吧

劉德華用電飯煲煮火鍋的畫面,青菜、素丸子,太清湯寡水了吧

手工制作阿殲
2025-12-31 01:41:33
剛剛,全線暴跌!

剛剛,全線暴跌!

數(shù)據(jù)寶
2025-12-31 21:50:46
伊朗爆發(fā)抗議游行 高層被斬首削弱控制,伊朗民眾走上街頭

伊朗爆發(fā)抗議游行 高層被斬首削弱控制,伊朗民眾走上街頭

火星人的想法
2025-12-31 06:00:03
大陸一錘定音,美武器禁入臺省,賴清德天塌了,國民黨4人現(xiàn)原形

大陸一錘定音,美武器禁入臺省,賴清德天塌了,國民黨4人現(xiàn)原形

文雅筆墨
2025-12-31 11:56:06
陜甘之戰(zhàn)——漢人最偉大的一場巔峰戰(zhàn)役,帶領(lǐng)華夏重回世界之巔

陜甘之戰(zhàn)——漢人最偉大的一場巔峰戰(zhàn)役,帶領(lǐng)華夏重回世界之巔

小豫講故事
2025-12-31 06:00:06
突發(fā)公告:他倆官宣離婚!“分手費(fèi)”估算4.46億

突發(fā)公告:他倆官宣離婚!“分手費(fèi)”估算4.46億

魯中晨報
2025-12-31 09:01:01
解放軍圍臺三天,美軍不裝了,雙航母已到西太,隨時能南北夾擊?

解放軍圍臺三天,美軍不裝了,雙航母已到西太,隨時能南北夾擊?

博覽歷史
2025-12-31 18:47:49
天門女司機(jī)墜河身亡進(jìn)展:女子車牌號被曝,網(wǎng)友認(rèn)為諧音聽著不順

天門女司機(jī)墜河身亡進(jìn)展:女子車牌號被曝,網(wǎng)友認(rèn)為諧音聽著不順

奇思妙想草葉君
2025-12-31 14:43:05
再見濃眉,再見特雷楊!5隊史詩級交易接近達(dá)成,4個當(dāng)家球星換隊

再見濃眉,再見特雷楊!5隊史詩級交易接近達(dá)成,4個當(dāng)家球星換隊

毒舌NBA
2025-12-31 09:31:38
遼寧被上海胖揍!張陳治鋒亮眼 莫蘭德低迷 威爾斯穩(wěn)健輸出

遼寧被上海胖揍!張陳治鋒亮眼 莫蘭德低迷 威爾斯穩(wěn)健輸出

胖子噴球
2025-12-31 20:23:27
2025十佳運(yùn)動員出爐:全紅嬋落榜,孫穎莎位列第四,他意外上榜

2025十佳運(yùn)動員出爐:全紅嬋落榜,孫穎莎位列第四,他意外上榜

阿纂看事
2025-12-30 09:22:12
40集年代大??!白宇領(lǐng)銜,丁勇岱左小青助陣,可以告別劇荒了

40集年代大??!白宇領(lǐng)銜,丁勇岱左小青助陣,可以告別劇荒了

悅君兮君不知
2025-12-30 22:25:26
房價跌不跌不重要了!銀行人透底:80%的買房人正在往這些坑里跳

房價跌不跌不重要了!銀行人透底:80%的買房人正在往這些坑里跳

今朝牛馬
2025-12-31 19:50:31
福原愛不再沉默,公開當(dāng)年離婚真相,在婆家處處忍耐,精神出問題

福原愛不再沉默,公開當(dāng)年離婚真相,在婆家處處忍耐,精神出問題

眼底星碎
2025-12-31 02:40:23
2025-12-31 23:59:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12031文章數(shù) 142525關(guān)注度
往期回顧 全部

科技要聞

老羅,演砸了,也封神了?

頭條要聞

快手稱打卡365天可領(lǐng)3650元 男子堅持300天"被迫"中斷

頭條要聞

快手稱打卡365天可領(lǐng)3650元 男子堅持300天"被迫"中斷

體育要聞

上海大勝遼寧5連勝 張鎮(zhèn)麟弗格戰(zhàn)舊主合砍28分

娛樂要聞

官宣才兩天就翻車?七七被連環(huán)爆料

財經(jīng)要聞

高培勇:分配制度改革是提振消費(fèi)的抓手

汽車要聞

凱迪拉克純電中型SUV 售價不足24萬/33寸曲面屏

態(tài)度原創(chuàng)

家居
親子
本地
健康
公開課

家居要聞

無形有行 自然與靈感詩意

親子要聞

以為只是孩子會得ADHD,沒想到啊,羅永浩自曝ADHD困擾

本地新聞

即將過去的2025年,對重慶的影響竟然如此深遠(yuǎn)

元旦舉家出行,注意防流感

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版