国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

CineTrans: 首個轉(zhuǎn)場可控多鏡頭視頻生成模型,打破閉源技術(shù)壁壘

0
分享至



本文一作吳曉雪目前是復(fù)旦-上海人工智能實驗室的聯(lián)培博士生,目前的研究方向是可控多鏡頭生成、長視頻生成。

隨著視頻生成模型的快速發(fā)展,其在畫面質(zhì)量、條件控制、美學(xué)表現(xiàn)上都已表現(xiàn)出影視級效果。然而,影視級長視頻往往并非為單個鏡頭的無限延續(xù),而是具有轉(zhuǎn)場的多鏡頭序列(Multi-shot Sequence)。閉源模型 Sora2、Veo3 中多鏡頭視頻已經(jīng)能夠表現(xiàn)出驚艷的效果。

如何使生成的視頻帶有自然的轉(zhuǎn)場,如何指定轉(zhuǎn)場的位置,如何令多個鏡頭形成豐富的語義流信號,是視頻生成模型在未來所面臨的新挑戰(zhàn)。

針對這些問題,來自上海人工智能實驗室的研究團隊提出了一種基于掩碼機制的全新方法 CineTrans。

基于對注意力特性的觀察,CineTrans 提出塊對角掩碼的通用機制,使視頻生成模型能高效地自動化轉(zhuǎn)場。為了進一步提升轉(zhuǎn)場模型的效果和準(zhǔn)確性,作者設(shè)計了詳細的多鏡頭視頻生產(chǎn)管線,并收集了一個高質(zhì)量、多鏡頭數(shù)據(jù)集 Cine250K,大幅提升多鏡頭轉(zhuǎn)場視頻生成的效果。作為首個時間級可控的自動化轉(zhuǎn)場模型,CineTrans 為這一領(lǐng)域的眾多后續(xù)方法提供了關(guān)鍵技術(shù)。

本文將深入介紹這篇被 ICLR 2026 接收的工作。



  • 論文標(biāo)題:CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models
  • 論文鏈接:https://arxiv.org/pdf/2508.11484
  • 項目鏈接:https://uknowsth.github.io/CineTrans/
  • 代碼鏈接:https://github.com/Vchitect/CineTrans
  • 數(shù)據(jù)集鏈接:https://huggingface.co/datasets/NumlockUknowSth/Cine250K

來看看 CineTrans 的效果:







Multi-Shot Case 觀測:

擴散模型是如何理解多鏡頭的

首先思考:在鏡頭轉(zhuǎn)場情境中,相比于單鏡頭視頻,模型在處理多鏡頭序列時有何不同。對于這點,作者假設(shè),對于兩個相鄰幀之間的相關(guān)性,過渡點與非過渡點之間存在顯著差異,前者需要在像素級(pixel-level)差異的前提下保證語義級(semantic-level)的一致性,后者則需要實現(xiàn)視覺連貫性。

而在 Attention Layer 中,所有 visual token 的交互是平等的,但 Q 對于不同 K、V 的關(guān)注度則會有所不同,這表明了使用 Attention Map 作為重要觀測工具的可能性。

作者對大規(guī)模預(yù)訓(xùn)練模型中概率出現(xiàn)的 Multi-Shot Case 進行觀測,如預(yù)期地發(fā)現(xiàn),某些 Layer 表現(xiàn)出較強的鏡頭內(nèi)關(guān)聯(lián)(Intra-shot)和較弱的鏡頭間關(guān)聯(lián)(Inter-shot)。更具體地說,Attention Map 矩陣呈現(xiàn)塊對角結(jié)構(gòu)。經(jīng)過量化(intra-shot vs. inter-shot probability 26.88, r=0.71),這一點被進一步證實。



此外,作者還在某些 Layer 發(fā)現(xiàn)了所有 visual token 對第一幀信息的高度關(guān)注。這啟發(fā)了利用 Attention 內(nèi)部隱式理解達成外部條件顯式轉(zhuǎn)場控制的方法設(shè)計。



CineTrans:

基于掩碼的控制方法

基于前文的觀察,作者提出了塊對角掩碼架構(gòu)(Block-Diagonal Mask Mechanism),并將第一幀作為錨點(Anchor),符合 Diffusion Model 本身的特性,意圖在不破壞模型本身結(jié)構(gòu)和先驗知識的前提下實現(xiàn)預(yù)定義的轉(zhuǎn)場時間控制。

將該掩碼應(yīng)用在部分 Attention Layer 中,作者發(fā)現(xiàn),即使在未經(jīng)訓(xùn)練(training-free)的情況下,模型也能在保持視覺質(zhì)量的同時實現(xiàn)較強的時間級控制效果。





包括逐鏡頭生成(Shot-by-Shot)與端到端生成(End-to-End)的以往工作都可視作從兩個維度解決多鏡頭問題:

  • 轉(zhuǎn)場的發(fā)生:確保視頻中的兩幀發(fā)生明顯的像素級跳變,鏡頭邊界不出現(xiàn)局部崩壞、粘連的情況。
  • 轉(zhuǎn)場前后的一致性維持:確保發(fā)生轉(zhuǎn)場前后的畫面內(nèi)容在語義上呈現(xiàn)強關(guān)聯(lián),令畫面的切換不會打斷觀看者的體驗。

逐鏡頭的生成通過分別合成每個鏡頭自然保證的轉(zhuǎn)場的發(fā)生,但將一致性的依賴至于模型外部(external),例如條件注入(conditioning)、關(guān)鍵幀生成(keyframe);端到端的生成通過 visual token 在前向過程中完全交互來維持整體一致性,但并不顯式區(qū)分鏡頭間與鏡頭內(nèi),從而需要大規(guī)模訓(xùn)練才能讓模型學(xué)會 multi-shot 的概念,且缺乏明確的時間級控制手段。

相比之下,CineTrans 通過選擇性的掩碼策略在這兩個維度實現(xiàn)了一種平衡方案:

  • 全局信息交互:通過第一幀的 anchor 與未經(jīng)掩碼的 full attention,visual token 進行全局交互,實現(xiàn)來自模型內(nèi)部(internal)的一致性保證。
  • 鏡頭內(nèi)局部交互:在塊對角掩碼的作用下,鏡頭間的交互被限制,相鄰鏡頭之間的像素信息自然形成跳變,在保持全局一致性的前提下形成穩(wěn)定的轉(zhuǎn)場。

進一步地,在通過多鏡頭視頻數(shù)據(jù)集微調(diào)以后,CineTrans 也具備了電影級剪輯的先驗知識,將轉(zhuǎn)場前后的鏡頭關(guān)聯(lián)理解內(nèi)化在模型參數(shù)中,實現(xiàn)更具備電影美學(xué)的轉(zhuǎn)場效果。此外,為了更豐富的內(nèi)容表現(xiàn),CineTrans 也在 video-text cross attention 結(jié)構(gòu)中使用了 shot-level 的掩碼機制,實現(xiàn)內(nèi)容上的細粒度控制。



Cine250K:

豐富的多鏡頭數(shù)據(jù)集

文章還提出了 Cine250K,這也是 CineTrans 微調(diào)所采用的多鏡頭數(shù)據(jù)。Cine250K 經(jīng)過了精細的設(shè)計,捕捉人類剪輯序列中的先驗知識,提供優(yōu)秀美學(xué)表現(xiàn)、精確鏡頭標(biāo)簽、層級細節(jié)標(biāo)注的視頻數(shù)據(jù)。其構(gòu)建過程主要由三個階段構(gòu)成:

  • 分割縫合階段(Split & Stitch):經(jīng)過鏡頭切換識別后,基于鏡頭間相鄰幀之間的語義相似性將視頻縫合起來,并刪除軟過渡的幀,明確鏡頭界限,奠定模型間鏡頭一致性的基調(diào),提供時間級鏡頭標(biāo)注。
  • 篩選階段(Selection):基于鏡頭數(shù)量、視頻基本信息、美學(xué)表現(xiàn)等進行篩選。
  • 多層級標(biāo)注(Caption):為了細粒度語義控制,對逐個鏡頭進行內(nèi)容、風(fēng)格、氛圍多個維度的標(biāo)注,同時得到總體信息,為多粒度控制提供可能。

經(jīng)過處理,最后得到了約 25 萬個經(jīng)過精細處理的多鏡頭視頻-文本對,它提供了豐富的剪輯藝術(shù)先驗信息,對多鏡頭生成任務(wù)來說,具有重要意義。

實驗結(jié)果評估與分析

文中將 CineTrans 的轉(zhuǎn)場效果與多種 Multi-shot 生成方法進行對比,包括逐鏡頭生成方法(StoryDiffusion + CogVideoXI2V)、大規(guī)模預(yù)訓(xùn)練方法(HunyuanVideo)和定制化方法(Cinematron LoRA)。結(jié)果表現(xiàn)出了大幅度超過基線的轉(zhuǎn)場控制得分(Transition Control Score),以及在 Unet 和 DiT 架構(gòu)上的泛化性。



此外,為了更好地比較鏡頭間一致性,作者還提出了基于 JS 散度的新指標(biāo),以衡量真實剪輯的數(shù)據(jù)與生成數(shù)據(jù)的分布差異。經(jīng)過可視化,CineTrans 生成的視頻在一致性分布也最接近人類剪輯的視頻數(shù)據(jù),表現(xiàn)出了貼近人類剪輯習(xí)慣的多鏡頭生成能力。



總結(jié)與展望

利用擴散模型本身對多鏡頭序列的理解構(gòu)建掩碼,CineTrans 實現(xiàn)了符合模型先驗的時間級轉(zhuǎn)場控制,同時保持了鏡頭間一致性與視頻質(zhì)量。作為從逐鏡頭生成轉(zhuǎn)向端到端生成的重要工作,它在轉(zhuǎn)場與一致性之間的權(quán)衡問題上給出了一個行之有效的答案,為未來針對鏡頭設(shè)計、更多剪輯藝術(shù)先驗的多鏡頭視頻探索打下了堅實的基礎(chǔ)。

目前,CineTrans 的代碼、模型權(quán)重、數(shù)據(jù)集已在 GitHub 開源,歡迎社區(qū)進一步研究與使用。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
一夜蒸發(fā) 310 億美元!Claude 新工具干翻 IBM 搖錢樹,AI 正在「清零」人類工位

一夜蒸發(fā) 310 億美元!Claude 新工具干翻 IBM 搖錢樹,AI 正在「清零」人類工位

AppSo
2026-02-24 12:20:50
朝鮮勞動黨九大,崔龍海的退出

朝鮮勞動黨九大,崔龍海的退出

周邊問題研究所
2026-02-24 14:14:10
返程上海遭遇虹橋站打車難:超1200人在線排隊,有人打貨拉拉回家,或騎兩小時共享單車

返程上海遭遇虹橋站打車難:超1200人在線排隊,有人打貨拉拉回家,或騎兩小時共享單車

齊魯壹點
2026-02-24 17:55:12
姚晨過年回家被“連罵三天”事件,撕開了中國人的統(tǒng)一春節(jié)噩夢!

姚晨過年回家被“連罵三天”事件,撕開了中國人的統(tǒng)一春節(jié)噩夢!

脆皮先生
2026-02-23 19:35:34
消失的 29 斤羊肉去哪了?暗訪揭開烤全羊行業(yè)黑幕

消失的 29 斤羊肉去哪了?暗訪揭開烤全羊行業(yè)黑幕

復(fù)轉(zhuǎn)小能手
2026-02-24 17:32:12
全線崩盤!“超級風(fēng)暴”來了

全線崩盤!“超級風(fēng)暴”來了

魏家東
2026-02-24 09:09:26
電飯煲按下去的那一刻,北方的面食時代就結(jié)束了

電飯煲按下去的那一刻,北方的面食時代就結(jié)束了

富貴說
2026-02-22 21:14:55
侃爺夫婦:一個不穿鞋賣鞋,一個敢穿到出圈,畫風(fēng)絕了

侃爺夫婦:一個不穿鞋賣鞋,一個敢穿到出圈,畫風(fēng)絕了

述家娛記
2026-02-23 21:23:16
被打女孩至今半昏迷!打人夫妻徹底栽了,網(wǎng)友:比唐山打人案更狠

被打女孩至今半昏迷!打人夫妻徹底栽了,網(wǎng)友:比唐山打人案更狠

愛寫的櫻桃
2026-02-23 22:06:50
36斤活羊烤完剩6.9斤后續(xù)!花了1188元,商家曝原因,顧客已舉報

36斤活羊烤完剩6.9斤后續(xù)!花了1188元,商家曝原因,顧客已舉報

南方健哥
2026-02-24 05:22:18
3-0橫掃晉級!中國女乒22歲第三巨頭崛起:追趕孫穎莎王曼昱?

3-0橫掃晉級!中國女乒22歲第三巨頭崛起:追趕孫穎莎王曼昱?

李喜林籃球絕殺
2026-02-23 20:35:54
籃協(xié)即將換屆,王治郅或成新掌門人?答案早已明確,姚明無可奈何

籃協(xié)即將換屆,王治郅或成新掌門人?答案早已明確,姚明無可奈何

萌蘭聊個球
2026-02-24 15:23:54
哥哥高考復(fù)讀5年,錄取滑檔仍要復(fù)讀,母親發(fā)現(xiàn)5張高校錄取通知書

哥哥高考復(fù)讀5年,錄取滑檔仍要復(fù)讀,母親發(fā)現(xiàn)5張高校錄取通知書

小秋情感說
2026-02-24 09:54:03
恭喜汪小菲又當(dāng)爸爸!產(chǎn)房照曝光兒子好帥氣,馬筱梅抱孩子很溫柔

恭喜汪小菲又當(dāng)爸爸!產(chǎn)房照曝光兒子好帥氣,馬筱梅抱孩子很溫柔

娛樂圈圈圓
2026-02-24 15:30:08
王楠執(zhí)教突遭舉報!上任即翻車,郭斌最擔(dān)心的事還是來了

王楠執(zhí)教突遭舉報!上任即翻車,郭斌最擔(dān)心的事還是來了

卿子書
2026-02-24 09:04:42
王健林投資約1億!在廣州建造了一座大型“壽桃”建筑!還申報了吉尼斯世界記錄?

王健林投資約1億!在廣州建造了一座大型“壽桃”建筑!還申報了吉尼斯世界記錄?

建筑師雜志
2026-02-23 13:02:22
馬筱梅生子!孩子小名曝光,張?zhí)m公布生產(chǎn)細節(jié),卻被質(zhì)疑太偏心!

馬筱梅生子!孩子小名曝光,張?zhí)m公布生產(chǎn)細節(jié),卻被質(zhì)疑太偏心!

古希臘掌管月桂的神
2026-02-24 13:45:04
火箭大勝爵士升西部第三:杜蘭特18+12助攻加盟新高 小賈31+9

火箭大勝爵士升西部第三:杜蘭特18+12助攻加盟新高 小賈31+9

醉臥浮生
2026-02-24 12:54:22
宇樹去年賣了5500臺機器人,深挖后發(fā)現(xiàn):買主根本不是普通人

宇樹去年賣了5500臺機器人,深挖后發(fā)現(xiàn):買主根本不是普通人

離離言幾許
2026-02-22 20:45:23
WTT新加坡大滿貫:國乒再贏3場輸1戰(zhàn)!陳幸同率先晉級女單16強

WTT新加坡大滿貫:國乒再贏3場輸1戰(zhàn)!陳幸同率先晉級女單16強

全言作品
2026-02-24 15:01:38
2026-02-24 21:56:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12344文章數(shù) 142569關(guān)注度
往期回顧 全部

科技要聞

宇樹科技發(fā)布四足機器人Unitree As2

頭條要聞

特朗普:是否對伊朗動武 最終決定權(quán)在我手中

頭條要聞

特朗普:是否對伊朗動武 最終決定權(quán)在我手中

體育要聞

蘇翊鳴總結(jié)米蘭征程:我仍是那個熱愛單板滑雪的少年

娛樂要聞

汪小菲官宣三胎出生:承諾會照顧好3個孩子

財經(jīng)要聞

縣城消費「限時繁榮」了十天

汽車要聞

入門即滿配 威蘭達AIR版上市 13.78萬元起

態(tài)度原創(chuàng)

手機
時尚
旅游
數(shù)碼
軍事航空

手機要聞

小米旗艦海外版,官方欽點真徠卡

50+的女性,大衣、直筒褲、皮草這么穿,冬天保暖顯瘦兩不誤

旅游要聞

預(yù)約“秒空” 數(shù)據(jù)躍升 四川博物館如何點燃馬年新春“文博熱”?

數(shù)碼要聞

榮耀Magicbook Pro 14 2026將發(fā)布,能打破續(xù)航焦慮?

軍事要聞

美軍參聯(lián)會主席警告:對伊朗動武可能帶來重大風(fēng)險

無障礙瀏覽 進入關(guān)懷版