国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

1B模型當(dāng)多鏡頭導(dǎo)演?大連理工&快手可靈開源力作MultiShotMaster

0
分享至



該論文由大連理工大學(xué)、快手可靈團隊、香港中文大學(xué)聯(lián)合完成,第一作者王清和是大連理工大學(xué)在讀三年級博士,研究方向為視頻生成,師從盧湖川、賈旭教授,目前在快手可靈團隊實習(xí)。個人主頁:https://qinghew.github.io/

近期,可靈 3.0、Seedance 2.0 等產(chǎn)品的多鏡頭敘事能力相繼爆火,可支持一次生成多個導(dǎo)演級鏡頭,標(biāo)志著視頻生成領(lǐng)域已經(jīng)從傳統(tǒng)的單鏡頭生成邁入了多鏡頭視頻生成的時代。然而,對于預(yù)算有限的開發(fā)者,10B 參數(shù)量以上的大模型開發(fā)成本較高,100B 以上的大模型更令人望而卻步

近期,大連理工與快手可靈團隊推出了MultiShotMaster——一個高度可控的多鏡頭視頻生成框架,該論文向研究社區(qū)展示了即使在 1B 左右的小參數(shù)量級模型上,也可以實現(xiàn)導(dǎo)演級的鏡頭調(diào)度和連貫敘事,且支持多圖參考、主體運動控制。



目前,該論文已錄用至CVPR 2026,基于 Wan 1.3B 和 14B 的多鏡頭模型的訓(xùn)練和推理代碼已開源:

  • 項目主頁:https://qinghew.github.io/MultiShotMaster/
  • 代碼鏈接:https://github.com/KlingAIResearch/MultiShotMaster
  • 論文鏈接:https://arxiv.org/abs/2512.03041

開源版 MultiShotMaster 能力展示

MultiShotMaster-14B 720p 效果



MultiShotMaster-1.3B 480p 效果

值得一提的是,開源版 MultiShotMaster 斬獲了AAAI CVM Workshop 競賽冠軍。該競賽由北大等高校舉辦、華為贊助,重點考核世界知識一致性、相機移動一致性、跨鏡頭 ID 一致性三個層面,充分印證了該模型在多鏡頭生成與連貫敘事方面的卓越性能。



MultiShotMaster 框架

“單鏡頭” 到 “多鏡頭” 的進化

MultiShotMaster 首先調(diào)整了傳統(tǒng)的單鏡頭文生視頻模型架構(gòu),使之能夠生成多鏡頭視頻。

具體而言,考慮到鏡頭間的內(nèi)容突變,每個鏡頭需單獨通過 3DVAE 編碼,然后在時序上級聯(lián)起來,并在 Temporal Attention 處融合。由于鏡頭之間不僅存在內(nèi)容突變,還需保證敘事的先后順序,作者提出多鏡頭敘事 RoPE,即基于原始的 3D RoPE 在鏡頭切換處施加相位偏移:



這顯式地標(biāo)記了鏡頭邊界且維持了原鏡頭間的敘事順序,讓模型能夠精準(zhǔn)識別鏡頭邊界,從而支持用戶自由設(shè)定鏡頭的數(shù)量和時長。此外,構(gòu)建了總分式提示詞結(jié)構(gòu),全局提示詞描述角色外觀、環(huán)境及風(fēng)格,鏡頭級提示詞描述角色交互、場景布局、相機運鏡。在鏡頭級 Cross Attention 中,每個鏡頭的視頻只與全局提示詞、對應(yīng)鏡頭的提示詞交互,從而防止跨鏡頭信息泄露。



時空位置感知的參考注入

用戶通常期望視頻生成模型具有更多的可控性,例如使用參考圖、控制主體運動布局等能力。為此,作者用 VAE 編碼參考圖像,使之與視頻 tokens 落入同一特征空間。

考慮到 3D-RoPE 會使時空距離更近的 tokens 在 Attention 中增強交互,作者設(shè)計了時空位置感知的 RoPE,將指定時空區(qū)域的 RoPE 重采樣為更細(xì)粒度的 RoPE 分配給參考 tokens。



在時序注意力中,干凈的參考 tokens 會將視覺信息傳遞給噪聲視頻 tokens 以實現(xiàn)參考圖像(主體/背景)指定時空位置的注入。當(dāng)用戶期望控制同一主體的運動軌跡時,可以通過復(fù)制多次同一角色的 Token 并分配不同的時空 RoPE。

此外,為了管理上下文信息流,防止不必要的 token 交互,作者設(shè)計了多鏡頭-多主體 Attention Mask,允許跨鏡頭的視頻 tokens 交互,限制每個鏡頭的視頻 tokens 僅能與視頻內(nèi)的參考 tokens 交互。

值得注意的是,MultiShotMaster 沒有引入外部參數(shù),而是利用、改進視頻生成模型原有的 3D-RoPE,從而實現(xiàn)了可控的多鏡頭視頻生成,支持文本驅(qū)動的鏡頭間一致性、可靈活配置的鏡頭數(shù)量和時長、運動可控的主體定制化、背景可定制的場景一致性。這一多功能框架為多樣化多鏡頭視頻內(nèi)容創(chuàng)作提供了新的可能性,使用戶能夠打造高度定制化的視頻敘事。

MultiShotMaster - 實驗版 1B 模型(384×672)效果

MultiShotMaster 訓(xùn)練數(shù)據(jù)構(gòu)建流程



數(shù)據(jù)構(gòu)建流程:

  1. 采用鏡頭切換檢測模型 TransNet V2 將長視頻裁切成短片段,使用場景分割模型 SceneSeg 將同一場景內(nèi)的片段聚合到一起,然后從中采樣多鏡頭視頻。
  2. 引入總分式提示詞結(jié)構(gòu),使用 Gemini-2.5-Flash 生成全局描述和每個鏡頭的描述。
  3. 整合 YOLOv11、ByteTrack 和 SAM 來檢測、追蹤和分割主體圖像,然后利用 Gemini-2.5-Flash 根據(jù)主體外觀合并跨鏡頭的跟蹤結(jié)果。
  4. 使用 OmniEraser 獲得干凈的背景參考圖。

實驗結(jié)果

除了對比現(xiàn)有的 SOTA 多鏡頭視頻生成模型之外,由于目前沒有支持參考圖輸入的多鏡頭視頻生成模型,作者對比了支持參考圖輸入的單鏡頭模型 Phantom、VACE,拼接他們逐個生成的鏡頭用于比較。

可以看出,在定量和定性的比較中,MultiShotMaster 在鏡頭間一致性、切鏡準(zhǔn)確性、敘事連貫性、參考圖一致性上都展現(xiàn)出了卓越的性能。

定性實驗結(jié)果:



定量實驗結(jié)果:



總結(jié)

MultiShotMaster 通過對 RoPE 的創(chuàng)新性改進,實現(xiàn)了高度可控的多鏡頭視頻生成。其引入的多鏡頭敘事 RoPE 與時空位置感知 RoPE,在無需引入額外參數(shù)的情況下,實現(xiàn)了對鏡頭邊界、角色一致性及運動軌跡的精細(xì)化操控。在僅約 1B 參數(shù)的模型規(guī)模下即可展現(xiàn)出了卓越的敘事連貫性與跨鏡頭一致性,驗證了其實現(xiàn)導(dǎo)演級控制的巨大潛力。

同時,自動化的多鏡頭數(shù)據(jù)標(biāo)注流程及開源模型也將為社區(qū)的研究提供強力支持,有望推動 AI 視頻創(chuàng)作進入一個敘事更連貫、表達更自由的新階段。

更多細(xì)節(jié)請參閱原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
2026年變壓器十大品牌推薦:安全與長壽是核心,精準(zhǔn)選型指南

2026年變壓器十大品牌推薦:安全與長壽是核心,精準(zhǔn)選型指南

中關(guān)村在線
2026-03-06 10:22:41
美專家:美國僅憑轟炸無法實現(xiàn)對伊朗目標(biāo)

美專家:美國僅憑轟炸無法實現(xiàn)對伊朗目標(biāo)

參考消息
2026-03-07 15:04:14
美軍準(zhǔn)備發(fā)起“滅國大轟炸”,9千萬伊朗人進入最艱難時刻

美軍準(zhǔn)備發(fā)起“滅國大轟炸”,9千萬伊朗人進入最艱難時刻

別人都叫我阿腈
2026-03-06 20:51:16
半導(dǎo)體再迎大利空?

半導(dǎo)體再迎大利空?

格隆匯
2026-03-07 18:09:12
伊朗集裝箱船改造的航母被擊沉? 伊軍指揮官:這幾天只是清庫存,會亮從未公開的大殺器

伊朗集裝箱船改造的航母被擊沉? 伊軍指揮官:這幾天只是清庫存,會亮從未公開的大殺器

紅星新聞
2026-03-06 14:00:17
湖人大勝!東契奇44+9+5,最后2秒,老詹起身走入球員通道

湖人大勝!東契奇44+9+5,最后2秒,老詹起身走入球員通道

擔(dān)酒
2026-03-07 13:58:32
塔帥:被淘汰感覺很糟糕我們不想經(jīng)歷;薩利巴出戰(zhàn)存疑

塔帥:被淘汰感覺很糟糕我們不想經(jīng)歷;薩利巴出戰(zhàn)存疑

懂球帝
2026-03-07 07:10:06
中國人民解放軍國防部突然改口,不再稱臺軍,直接定性為臺獨武裝

中國人民解放軍國防部突然改口,不再稱臺軍,直接定性為臺獨武裝

Ck的蜜糖
2026-03-06 19:21:36
澳大利亞驚現(xiàn)封閉亂倫家族:4代人近親繁衍38名成員全是亂倫產(chǎn)物

澳大利亞驚現(xiàn)封閉亂倫家族:4代人近親繁衍38名成員全是亂倫產(chǎn)物

第7情感
2026-02-23 20:45:16
莫雷加德談國乒實力:世界第1,希望自己能成為足夠強大的對手

莫雷加德談國乒實力:世界第1,希望自己能成為足夠強大的對手

乒談
2026-03-07 12:50:34
1965年飛行員高長吉違令擊落對岸偵察機,主席批示后結(jié)局令人感慨

1965年飛行員高長吉違令擊落對岸偵察機,主席批示后結(jié)局令人感慨

嘮叨說歷史
2026-03-04 10:46:38
上海男子愛上江西51歲老太,相差18歲戀愛九年不結(jié)婚

上海男子愛上江西51歲老太,相差18歲戀愛九年不結(jié)婚

浩舞纆畫
2026-03-05 18:41:23
央八首播!34集諜戰(zhàn)巨制來襲,僅播出一天,收視率直接登頂

央八首播!34集諜戰(zhàn)巨制來襲,僅播出一天,收視率直接登頂

樂楓電影
2026-03-07 15:39:58
悲報:或因中日關(guān)系緊張,木村拓哉原定出演《九龍城寨》續(xù)集,開拍前突然被臨時換掉!

悲報:或因中日關(guān)系緊張,木村拓哉原定出演《九龍城寨》續(xù)集,開拍前突然被臨時換掉!

日本物語
2026-03-07 20:35:30
下一周(3.9)持有這些個股的要小心了?。ǜ絺€股)

下一周(3.9)持有這些個股的要小心了!(附個股)

股市皆大事
2026-03-07 14:23:53
事實的真相:一個從不焦慮的人,往往生活在極度的淺薄中。

事實的真相:一個從不焦慮的人,往往生活在極度的淺薄中。

松果正念袁老師
2026-02-25 19:45:39
2戰(zhàn)三分10中1,宮魯鳴用29歲花瓶替代李緣?球迷:不會是關(guān)系戶吧

2戰(zhàn)三分10中1,宮魯鳴用29歲花瓶替代李緣?球迷:不會是關(guān)系戶吧

弄月公子
2026-03-06 22:53:05
蓮花CEO回應(yīng)戴攝像頭諷刺車頂激光雷達設(shè)計丑陋爭議

蓮花CEO回應(yīng)戴攝像頭諷刺車頂激光雷達設(shè)計丑陋爭議

藍鯨新聞
2026-03-07 09:38:05
首戰(zhàn)貢獻2助攻,王東升:可以繼續(xù)否定我,我會繼續(xù)做我自己

首戰(zhàn)貢獻2助攻,王東升:可以繼續(xù)否定我,我會繼續(xù)做我自己

懂球帝
2026-03-07 13:50:07
教育部部長懷進鵬:要讓孩子身上有汗眼里有光健康第一

教育部部長懷進鵬:要讓孩子身上有汗眼里有光健康第一

極目新聞
2026-03-07 11:45:50
2026-03-07 21:51:01
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12431文章數(shù) 142578關(guān)注度
往期回顧 全部

科技要聞

OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

頭條要聞

特朗普:伊朗今天將遭到極其猛烈的打擊

頭條要聞

特朗普:伊朗今天將遭到極其猛烈的打擊

體育要聞

塔圖姆298天走完這段路 只用27分鐘征服這座城

娛樂要聞

田亮一家新年全家福!森碟變清純少女

財經(jīng)要聞

針對"不敢休、不讓休"怪圈 國家出手了

汽車要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

教育
健康
旅游
本地
公開課

教育要聞

打開政府工作報告看新詞,英語還能這樣學(xué)

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

旅游要聞

文旅部:2025年入境旅游人次超過1.5億,同比增超17%

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版