国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

斯坦福與NVIDIA聯(lián)手:視頻生成實(shí)現(xiàn)短時(shí)技巧與長劇情雙模態(tài)學(xué)習(xí)

0
分享至


這項(xiàng)由斯坦福大學(xué)聯(lián)合NVIDIA研究團(tuán)隊(duì)完成的研究發(fā)表于2026年2月的預(yù)印本論文中,論文編號(hào)為arXiv:2602.24289v1,有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。

想象你正在教一個(gè)學(xué)生制作電影。如果只給他看5秒鐘的短片段,他能學(xué)會(huì)拍攝技巧和畫面質(zhì)量,但永遠(yuǎn)學(xué)不會(huì)如何構(gòu)建一個(gè)完整的故事情節(jié)。相反,如果只給他看完整的長電影,雖然能理解劇情發(fā)展,但由于長電影數(shù)量稀少,他很難掌握精細(xì)的拍攝手法。這正是當(dāng)前AI視頻生成面臨的核心困境。

目前的AI視頻生成技術(shù)遇到了一個(gè)看似矛盾的問題。互聯(lián)網(wǎng)上充斥著大量幾秒鐘的短視頻片段,這些素材豐富多樣、畫質(zhì)清晰,是訓(xùn)練AI掌握精細(xì)動(dòng)作和高質(zhì)量畫面的絕佳材料。然而,當(dāng)我們需要AI生成分鐘級(jí)的長視頻時(shí),問題就出現(xiàn)了。高質(zhì)量的長視頻在網(wǎng)絡(luò)上極其稀少,而且制作和篩選成本極高。這就像是讓廚師用大量精美的配菜樣品來學(xué)做整桌宴席一樣困難。

傳統(tǒng)的解決方案是將不同長度的視頻混合在一起訓(xùn)練AI,期望它能夠在不同時(shí)間尺度間自然插值。但研究團(tuán)隊(duì)發(fā)現(xiàn),這種做法存在根本性缺陷。他們用一個(gè)精妙的比喻解釋了這個(gè)問題:將低分辨率圖片放大到高分辨率,本質(zhì)上是在相同內(nèi)容基礎(chǔ)上的細(xì)節(jié)插值。但將5秒視頻擴(kuò)展到1分鐘,卻是完全不同的創(chuàng)作過程,需要添加新的事件、因果關(guān)系和敘事結(jié)構(gòu),這更像是從短篇小說擴(kuò)展為長篇小說的創(chuàng)作過程。

研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新的訓(xùn)練策略,他們稱之為"模式尋求遇見均值尋求"。這個(gè)看似抽象的名稱背后,隱藏著一個(gè)巧妙的教學(xué)理念。他們讓AI系統(tǒng)同時(shí)擁有兩個(gè)"大腦":一個(gè)專門負(fù)責(zé)學(xué)習(xí)長視頻的整體敘事結(jié)構(gòu),另一個(gè)專門負(fù)責(zé)保持局部畫面的精致質(zhì)量。

具體來說,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)解耦擴(kuò)散變換器架構(gòu)。這個(gè)系統(tǒng)就像一個(gè)有經(jīng)驗(yàn)的電影導(dǎo)演,擁有一個(gè)統(tǒng)一的"視覺理解中心",但配備了兩個(gè)專門的"決策頭腦"。第一個(gè)頭腦叫做流匹配頭,它專門從稀有的長視頻中學(xué)習(xí)如何構(gòu)建連貫的故事線和場(chǎng)景轉(zhuǎn)換。第二個(gè)頭腦叫做分布匹配頭,它的任務(wù)是確保生成視頻的每個(gè)短片段都能達(dá)到專業(yè)短視頻老師的質(zhì)量標(biāo)準(zhǔn)。

這種設(shè)計(jì)的精妙之處在于解決了兩種學(xué)習(xí)目標(biāo)之間的沖突。流匹配頭采用的是"均值尋求"策略,這意味著它會(huì)嘗試找到最符合平均水平的敘事發(fā)展模式,確保故事的連貫性。而分布匹配頭采用"模式尋求"策略,它會(huì)努力匹配最優(yōu)秀的短視頻樣本的質(zhì)量峰值,而不是追求平均水平。

為了實(shí)現(xiàn)這個(gè)目標(biāo),研究團(tuán)隊(duì)采用了一種滑動(dòng)窗口的訓(xùn)練方法。他們將生成的長視頻分解成多個(gè)重疊的短片段,然后讓每個(gè)片段都與一個(gè)凍結(jié)的短視頻專家模型進(jìn)行比較學(xué)習(xí)。這就像是讓學(xué)生寫長篇小說時(shí),每個(gè)段落都要接受專業(yè)寫作老師的指導(dǎo),確保文筆質(zhì)量不會(huì)因?yàn)槠鲩L而下降。

在訓(xùn)練過程中,系統(tǒng)會(huì)同時(shí)優(yōu)化兩個(gè)目標(biāo)。一方面,它使用真實(shí)的長視頻數(shù)據(jù)來訓(xùn)練流匹配頭,學(xué)習(xí)如何在分鐘級(jí)別維持故事的連貫性和視覺一致性。另一方面,它會(huì)將生成的長視頻切分成短片段,然后使用反向KL散度讓這些片段與短視頻老師的輸出分布保持一致。

這種訓(xùn)練策略的一個(gè)重要優(yōu)勢(shì)是,它不需要額外的短視頻訓(xùn)練數(shù)據(jù)。系統(tǒng)完全依靠自己生成的內(nèi)容來進(jìn)行短片段質(zhì)量的對(duì)比學(xué)習(xí),這大大減少了數(shù)據(jù)需求。同時(shí),由于分布匹配頭采用了類似于分布匹配蒸餾的技術(shù),它可以在推理時(shí)實(shí)現(xiàn)快速的少步驟采樣,顯著提升生成效率。

研究團(tuán)隊(duì)在實(shí)際應(yīng)用中發(fā)現(xiàn),這種方法能夠有效解決傳統(tǒng)長視頻生成中的兩大痛點(diǎn)。首先是"模糊化問題",即隨著視頻長度增加,畫面質(zhì)量逐漸下降,細(xì)節(jié)變得模糊不清。其次是"連貫性問題",即長視頻中容易出現(xiàn)場(chǎng)景跳躍、人物身份混亂等邏輯錯(cuò)誤。

實(shí)驗(yàn)結(jié)果顯示,在生成30秒長度的視頻時(shí),這種新方法在多項(xiàng)評(píng)估指標(biāo)上都取得了最佳表現(xiàn)。在主體一致性方面得分0.9682,背景一致性0.9548,運(yùn)動(dòng)平滑度0.9863,動(dòng)態(tài)程度0.9453,美學(xué)質(zhì)量0.5735,圖像質(zhì)量0.6982,多模態(tài)一致性75.42。相比之下,傳統(tǒng)的長上下文監(jiān)督微調(diào)方法雖然在某些一致性指標(biāo)上表現(xiàn)不錯(cuò),但在圖像質(zhì)量和美學(xué)質(zhì)量方面明顯不足。

特別值得注意的是,這種方法只需要4個(gè)推理步驟就能生成高質(zhì)量的長視頻,而傳統(tǒng)方法通常需要50個(gè)步驟。這種效率提升使得實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的長視頻生成成為可能,為實(shí)際應(yīng)用開辟了新的可能性。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),驗(yàn)證了每個(gè)組件的重要性。他們發(fā)現(xiàn),如果移除解耦的雙頭設(shè)計(jì),將兩種學(xué)習(xí)目標(biāo)強(qiáng)加給同一個(gè)預(yù)測(cè)器,會(huì)導(dǎo)致性能顯著下降。這證實(shí)了他們關(guān)于梯度干擾問題的理論分析。同時(shí),如果完全移除滑動(dòng)窗口分布匹配,系統(tǒng)就會(huì)退化為純粹的監(jiān)督微調(diào)方法,雖然能保持長程連貫性,但畫面質(zhì)量會(huì)明顯下降。

在實(shí)際生成的視頻樣本中,研究團(tuán)隊(duì)展示了各種場(chǎng)景的生成效果。從自然風(fēng)光的延時(shí)攝影,到城市街道的漫步視角,再到人物活動(dòng)的連續(xù)記錄,新方法都能在保持高質(zhì)量畫面細(xì)節(jié)的同時(shí),確保整個(gè)視頻的敘事連貫性。相比之下,傳統(tǒng)方法要么產(chǎn)生模糊的長視頻,要么在自回歸生成過程中累積錯(cuò)誤,導(dǎo)致畫面質(zhì)量隨時(shí)間嚴(yán)重衰減。

這項(xiàng)研究的意義不僅在于技術(shù)上的突破,更在于為AI視頻生成領(lǐng)域提供了一種新的思維范式。它證明了在數(shù)據(jù)稀缺的情況下,通過巧妙的架構(gòu)設(shè)計(jì)和訓(xùn)練策略,仍然可以實(shí)現(xiàn)高質(zhì)量的長視頻生成。這種方法對(duì)于需要生成長形式內(nèi)容的應(yīng)用場(chǎng)景,如虛擬世界建模、長篇故事視頻制作、可控視頻編輯等,都具有重要的實(shí)用價(jià)值。

研究團(tuán)隊(duì)還指出,這種方法與現(xiàn)有的因果自回歸視頻生成方法是互補(bǔ)的,可以作為基礎(chǔ)模型進(jìn)一步發(fā)展。未來的研究方向包括將這種雙向長上下文模型蒸餾為因果采樣器,或者結(jié)合更長上下文的位置編碼方案來實(shí)現(xiàn)更長時(shí)間尺度的視頻生成。

簡(jiǎn)而言之,這項(xiàng)研究通過讓AI同時(shí)學(xué)習(xí)"技法"和"敘事",成功解決了長視頻生成中質(zhì)量與連貫性難以兼得的根本矛盾。它為未來的視頻AI開辟了一條既實(shí)用又高效的發(fā)展道路,讓我們距離真正智能的視頻創(chuàng)作工具又近了一步。

Q&A

Q1:解耦擴(kuò)散變換器是如何工作的?

A:解耦擴(kuò)散變換器就像一個(gè)有兩個(gè)專門大腦的視頻制作專家。它有一個(gè)統(tǒng)一的視覺理解中心,配備兩個(gè)專門的決策頭腦:流匹配頭負(fù)責(zé)從長視頻中學(xué)習(xí)故事結(jié)構(gòu),分布匹配頭確保每個(gè)短片段都達(dá)到高質(zhì)量標(biāo)準(zhǔn)。這種設(shè)計(jì)避免了不同學(xué)習(xí)目標(biāo)之間的沖突。

Q2:為什么傳統(tǒng)的混合長度訓(xùn)練方法效果不好?

A:傳統(tǒng)方法就像期望廚師用配菜樣品學(xué)會(huì)做整桌宴席。研究發(fā)現(xiàn),將5秒視頻擴(kuò)展到1分鐘不是簡(jiǎn)單的細(xì)節(jié)插值,而是需要添加新事件和故事結(jié)構(gòu)的創(chuàng)作過程。混合訓(xùn)練會(huì)讓模型在追求長程連貫和局部質(zhì)量之間產(chǎn)生梯度干擾,最終兩者都做不好。

Q3:這種新方法生成視頻需要多長時(shí)間?

A:新方法只需要4個(gè)推理步驟就能生成高質(zhì)量長視頻,而傳統(tǒng)方法通常需要50個(gè)步驟。這意味著生成速度提升了10倍以上,使得實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的長視頻生成成為可能,大大提高了實(shí)際應(yīng)用的可行性。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
上海已有多人中招!有人損失近50000元,刷短視頻時(shí)突然彈出,警方緊急提醒:千萬別點(diǎn)!

上海已有多人中招!有人損失近50000元,刷短視頻時(shí)突然彈出,警方緊急提醒:千萬別點(diǎn)!

網(wǎng)絡(luò)辟謠
2026-03-02 10:32:08
陳楚生大年初二海南走親戚,全程不喝酒接地氣,妻子出鏡直發(fā)漂亮

陳楚生大年初二海南走親戚,全程不喝酒接地氣,妻子出鏡直發(fā)漂亮

老吳教育課堂
2026-03-01 17:57:28
外媒:美國駐巴基斯坦使館所在區(qū)域發(fā)生槍擊事件

外媒:美國駐巴基斯坦使館所在區(qū)域發(fā)生槍擊事件

參考消息
2026-03-01 20:58:54
多位明星被困中東!周雨彤失聯(lián),蔣麗莎曬轟炸警報(bào),李茂一夜未眠

多位明星被困中東!周雨彤失聯(lián),蔣麗莎曬轟炸警報(bào),李茂一夜未眠

叨嘮
2026-03-02 21:23:58
香港大學(xué)漕河涇基地揭牌,港大在滬形成“一校三地、多點(diǎn)協(xié)同”布局

香港大學(xué)漕河涇基地揭牌,港大在滬形成“一校三地、多點(diǎn)協(xié)同”布局

澎湃新聞
2026-03-01 22:10:28
婚禮當(dāng)天撕戶口本后續(xù):原因曝光,新郎已報(bào)警,稱新娘才是受害者

婚禮當(dāng)天撕戶口本后續(xù):原因曝光,新郎已報(bào)警,稱新娘才是受害者

墨印齋
2026-03-02 12:33:46
中俄關(guān)系正在發(fā)生微妙變化!俄國專家:我們眼中只有利益了

中俄關(guān)系正在發(fā)生微妙變化!俄國專家:我們眼中只有利益了

混沌錄
2026-03-02 22:45:06
功夫大哥肢解大兒子續(xù)命

功夫大哥肢解大兒子續(xù)命

毒舌扒姨太
2026-03-02 22:47:22
畸形審美?這4位男演員長相平平,卻總當(dāng)主角演帥哥,實(shí)在不理解

畸形審美?這4位男演員長相平平,卻總當(dāng)主角演帥哥,實(shí)在不理解

淚滿過眼
2026-02-25 05:03:57
致敬傳奇,英超官方在本輪賽前為英超歷史出場(chǎng)王米爾納頒獎(jiǎng)

致敬傳奇,英超官方在本輪賽前為英超歷史出場(chǎng)王米爾納頒獎(jiǎng)

懂球帝
2026-03-02 20:21:23
俄媒:按照普京指示,俄緊急情況部派伊爾-76運(yùn)輸機(jī)接回俄駐以色列外交人員

俄媒:按照普京指示,俄緊急情況部派伊爾-76運(yùn)輸機(jī)接回俄駐以色列外交人員

環(huán)球網(wǎng)資訊
2026-03-02 10:21:21
曝國家級(jí)運(yùn)動(dòng)員滕志強(qiáng)去世!僅35歲,知情人透露細(xì)節(jié),兒子剛兩歲

曝國家級(jí)運(yùn)動(dòng)員滕志強(qiáng)去世!僅35歲,知情人透露細(xì)節(jié),兒子剛兩歲

裕豐娛間說
2026-03-02 10:15:34
歷史上唯一一位“女狀元”,白天處理政務(wù),晚上淪為玩物

歷史上唯一一位“女狀元”,白天處理政務(wù),晚上淪為玩物

談史論天地
2026-02-23 10:39:15
村里紅白事從不回,男子母親離世,鄰居等著看笑話,結(jié)果長了見識(shí)

村里紅白事從不回,男子母親離世,鄰居等著看笑話,結(jié)果長了見識(shí)

子芫伴你成長
2026-02-23 12:21:40
網(wǎng)傳新能源汽車開征“里程稅” 收費(fèi)0.12元/公里 多地回應(yīng)

網(wǎng)傳新能源汽車開征“里程稅” 收費(fèi)0.12元/公里 多地回應(yīng)

快科技
2026-02-27 21:58:15
他接受紀(jì)律審查和監(jiān)察調(diào)查

他接受紀(jì)律審查和監(jiān)察調(diào)查

錫望
2026-03-02 12:47:11
兩極反轉(zhuǎn)!網(wǎng)友被父母的老式旅游折服了!評(píng)論區(qū)全部是真香現(xiàn)場(chǎng)

兩極反轉(zhuǎn)!網(wǎng)友被父母的老式旅游折服了!評(píng)論區(qū)全部是真香現(xiàn)場(chǎng)

另子維愛讀史
2026-02-26 21:36:17
《純真年代》大結(jié)局:傻人費(fèi)霆逆襲贏麻了,心機(jī)女凌漪結(jié)局太解氣

《純真年代》大結(jié)局:傻人費(fèi)霆逆襲贏麻了,心機(jī)女凌漪結(jié)局太解氣

東方不敗然多多
2026-03-02 17:15:42
教父級(jí)基金經(jīng)理清倉了。。

教父級(jí)基金經(jīng)理清倉了。。

格隆匯
2026-03-02 15:38:27
美國“無法接受”,馬斯克贊不絕口,這位中國年輕人實(shí)在強(qiáng)得可怕

美國“無法接受”,馬斯克贊不絕口,這位中國年輕人實(shí)在強(qiáng)得可怕

卷史
2026-02-27 19:40:42
2026-03-02 23:56:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7408文章數(shù) 553關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

媒體:拉里賈尼走向前臺(tái) 四大關(guān)鍵變量將決定伊朗命運(yùn)

頭條要聞

媒體:拉里賈尼走向前臺(tái) 四大關(guān)鍵變量將決定伊朗命運(yùn)

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

藝術(shù)
親子
教育
公開課
軍事航空

藝術(shù)要聞

簡(jiǎn)約的風(fēng)景畫,美國畫家Ben Bauer作品

親子要聞

45歲這年,我這個(gè)二胎媽媽決定做一件“瘋狂”的事

教育要聞

特別猛,但在留學(xué)生心中存在感很低的英國大學(xué)!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國中央司令部透露對(duì)伊朗動(dòng)武全部武器裝備清單

無障礙瀏覽 進(jìn)入關(guān)懷版