国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

CVPR 2026 | 從「單幀」到「分鏡」:STAGE重新定義AI電影敘事

0
分享至



從 Sora,可靈到 seedance 2.0,AI 視頻生成的浪潮正席卷而來,其驚人的視覺質量讓人嘆為觀止。然而,當我們嘗試用它創(chuàng)作一個真正的 “故事” 時,一個普遍的瓶頸浮出水面:連貫性。

為了攻克這一難題,我們提出了 STAGE,一個以 “電影分鏡” 為核心的全新敘事生成框架。它不再預測孤立的關鍵幀,而是直接生成每個鏡頭的 “起始 - 結束幀對”,為多鏡頭視頻的創(chuàng)作提供了前所未有的結構化控制力。



目前,該論文已錄用至CVPR 2026,相關數據集和模型訓練訓練和推理代碼將逐步開源:

  • 論文標題:STAGE: Storyboard-Anchored Generation for Cinematic Multi-shot Narrative
  • 作者單位:北京郵電大學、北京大學、北京智源人工智能研究院
  • 代碼鏈接:https://github.com/escapistmost/Storyboard-Anchored-Generation

一、前言:AI 視頻生成,從 “做動圖” 到 “拍電影” 還差多遠?

究其原因,一個好故事并非一堆漂亮鏡頭的簡單拼接,而是一個有結構、有邏輯的敘事整體。

目前,主流的多鏡頭視頻生成方法大致分為兩派:

  1. 端到端 “一鏡到底”:計算成本極高,且過程像 “開盲盒”,難以控制,稍有不慎就滿盤皆輸。
  2. 關鍵幀 “分步走”:先生成幾個關鍵畫面作為 “路標”,再讓視頻模型去 “腦補” 中間過程。這種方法更靈活,但問題也隨之而來。

這些方法生成的視頻,常常在鏡頭切換時出現(xiàn) “災難性” 的斷裂:前一秒主角還穿著紅衣,后一秒就換了顏色;或者一個流暢的開箱動作,在特寫鏡頭里卻變成了 “瞬移”(如下圖中的戒指盒)。這些 “穿幫鏡頭” 的根源在于,模型只知道每個鏡頭 “大概長啥樣”,卻不懂得鏡頭與鏡頭之間該如何 “銜接”。



現(xiàn)有方法(上)在鏡頭切換時常出現(xiàn)動作不連貫、物體不一致的問題。STAGE(下)通過預測結構化的 “分鏡”,實現(xiàn)了電影級的平滑過渡。

問題的本質是:我們一直在讓 AI “畫單幀”,而不是 “拍分鏡”。一個真正的導演,腦海里不僅有高潮畫面,更有每個鏡頭的起與承、轉與合。

二、核心洞察:用 “起始 - 結束幀對” 重構敘事骨架

多鏡頭敘事的關鍵,不應是幾個孤立的、稀疏的關鍵幀,而應是一個結構化的電影分鏡 (Storyboard)?;诖?,我們提出了一個創(chuàng)新性的想法:

將關鍵幀生成任務,重新定義為 “起始 - 結束幀對 (Start-End Frame Pairs)” 的預測任務。

也就是說,對于每一個鏡頭,我們不再只預測一個代表性的畫面,而是直接預測出它的 “第一幀” 和 “最后一幀”。這個看似簡單的改變,卻帶來了三大優(yōu)勢:

  1. 長程敘事有 “骨架”:所有鏡頭的起始 / 結束幀串聯(lián)起來,形成了一個穩(wěn)固的視覺骨架,確保了角色、場景在整個故事中的長期一致性。
  2. 鏡頭內部有 “航向”:一個鏡頭的起始幀和結束幀,明確定義了該鏡頭內部的動態(tài)變化,無論是人物走位還是鏡頭推拉,都有了清晰的起點和終點。
  3. 鏡頭銜接有 “電影感”:上一個鏡頭的 “結束幀” 和下一個鏡頭的 “起始幀” 之間的關系,直接對 “轉場” 這一電影語言進行建模,讓 “剪輯點” 變得平滑而有邏輯。

正是基于這一觀察,設計了全新的多鏡頭敘事生成工作流 ——STAGE(SToryboard-AnchoredGEneration)。

三、技術核心:STEP2,一個懂得 “拍分鏡” 的 AI 導演

STAGE 工作流的核心,是我們提出的起始 - 結束幀對預測模型 ——STEP2 (STart-End frame-Pair Prediction model)。它就像一位 AI 導演,能將文字劇本精準地翻譯成一系列可執(zhí)行的視覺分鏡。



為了讓這位 “AI 導演” 足夠專業(yè),我們?yōu)樗鋫淞巳蠓▽殻?/p>

1. 多鏡頭記憶包 (Multi-shot Memory Pack):過目不忘,確保角色不 “穿越”

為了在生成第 N 個鏡頭時還記得第一個鏡頭里主角長什么樣,我們設計了一個高效的記憶壓縮機制。它能將所有歷史鏡頭的視覺信息壓縮成一個緊湊的 “記憶包”,在保證長期一致性的同時,避免了巨大的計算開銷。

2. 雙重編碼策略 (Dual-Encoding Strategy):運鏡連貫,確保動作不 “瞬移”

為了保證單個鏡頭內部的邏輯自洽(例如,一個平滑的推鏡頭),我們將一個鏡頭的起始幀和結束幀 “捆綁” 在一起進行聯(lián)合編碼。這讓模型在生成之初就對整個鏡頭的動態(tài)了然于胸。

3. 兩階段訓練方案 (Two-stage Training Scheme):從 “會拍” 到 “拍得好”

光會拍還不夠,還要有 “品味”。我們借鑒了電影學院的教學模式:第一階段(SFT 監(jiān)督微調):先讓模型在海量的電影片段上學習基礎的鏡頭語言,做到 “會拍”。第二階段(DPO 偏好對齊):再用人類精選的 “好 / 壞” 鏡頭轉場案例進行 “閱片” 訓練,讓模型學會什么是 “高級的、電影感的” 轉場,最終實現(xiàn) “拍得好”。

四、數據基石:讓模型學會 “分鏡” 的起點

要讓 AI 學會電影語言,一本好的 “教科書” 必不可少。然而,現(xiàn)有數據集都只關注單幀,無法滿足我們對 “分鏡” 和 “轉場” 的訓練需求。為此,我們構建了大規(guī)模的 ConStoryBoard 數據集。我們從公開電影中篩選了 10 萬個高質量多鏡頭片段,并為每個鏡頭都進行了精細化標注,包括:起始 - 結束幀對,故事進展描述,鏡頭尺度、機位、運鏡等電影學屬性。更進一步,我們還從中人工挑選出最優(yōu)的轉場案例,構建了包含人類偏好的子集 ConStoryBoard-HP,專門用于第二階段的 “品味” 訓練。

五、實驗結果:不僅更連貫,還更懂 “電影感”

我們將 STAGE 與多種 SOTA 多鏡頭生成方法進行了全面對比。

視覺對比



在 “火車上的女人” 這一主題下,其他方法出現(xiàn)了場景不一致(CineTrans)、風格失真(StoryDiffusion)、動作斷裂(VideoGen-of-Thought)等問題。STAGE 則完美保持了人物和環(huán)境的一致性,并實現(xiàn)了流暢的敘事。

定量指標



動態(tài)展示









六、意義與展望:讓 AI 學會用鏡頭講故事

這項工作傳遞了一個清晰的信號:多鏡頭視頻生成的未來,在于結構化的敘事控制,而不僅僅是像素的堆砌。通過引入 “分鏡” 這一電影工業(yè)的核心概念,STAGE 為 AI 視頻生成開辟了一條從 “技術炫技” 邁向 “藝術創(chuàng)作” 的新路徑。它讓模型不再是一個只會畫畫的 “美工”,而更像一個懂得如何用鏡頭組織故事的 “導演”。

我們相信,當 AI 真正開始學會 “拍電影”,而不僅僅是 “做動圖” 時,一個由 AI 輔助創(chuàng)作的、真正屬于每個人的電影時代,才算真正到來。

更多細節(jié)請參閱原論文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
上海樓市失控了....

上海樓市失控了....

新浪財經
2026-03-27 00:18:46
特朗普撤回通牒,伊朗打來電話,希望中方伸出援手,王毅斬釘截鐵

特朗普撤回通牒,伊朗打來電話,希望中方伸出援手,王毅斬釘截鐵

華史談
2026-03-26 23:37:39
事關?;?!剛剛,特朗普最新發(fā)聲!伊朗,大消息!

事關停火!剛剛,特朗普最新發(fā)聲!伊朗,大消息!

證券時報
2026-03-27 00:56:03
扎哈羅娃警告日本:任何試圖向烏提供致命武器之舉,都將招致強硬回應

扎哈羅娃警告日本:任何試圖向烏提供致命武器之舉,都將招致強硬回應

環(huán)球網資訊
2026-03-26 08:55:12
劉強東章澤天的大姑娘!感覺像爸爸多一點

劉強東章澤天的大姑娘!感覺像爸爸多一點

可樂談情感
2026-03-27 03:08:27
20億美元還不夠!中企對巴拿馬索賠漲價,巴政府內部已經亂套了

20億美元還不夠!中企對巴拿馬索賠漲價,巴政府內部已經亂套了

悄悄史話
2026-03-26 14:09:05
人社部明確:事業(yè)編制改革啟動,3100萬人的“鐵飯碗”要變了

人社部明確:事業(yè)編制改革啟動,3100萬人的“鐵飯碗”要變了

慧眼看世界哈哈
2026-03-24 06:36:05
長護險制度全面推開!國家醫(yī)保局:參保人無論來自農村還是城市,從同一個資金池報銷費用

長護險制度全面推開!國家醫(yī)保局:參保人無論來自農村還是城市,從同一個資金池報銷費用

紅星新聞
2026-03-26 11:28:05
國民黨內訌開始,馬英九拒絕電話、倒向美國?大陸發(fā)布統(tǒng)一后安排

國民黨內訌開始,馬英九拒絕電話、倒向美國?大陸發(fā)布統(tǒng)一后安排

一家說
2026-03-27 01:31:09
張雪峰的病,速效救心丸能救嗎?

張雪峰的病,速效救心丸能救嗎?

中國新聞周刊
2026-03-25 16:23:30
伊朗注意了,美軍可能聲東擊西!第82空降師實力有多強?

伊朗注意了,美軍可能聲東擊西!第82空降師實力有多強?

科普100克克
2026-03-27 01:06:44
0.028%!無罪判決率跌至谷底,為何國際水平是我們的35倍?

0.028%!無罪判決率跌至谷底,為何國際水平是我們的35倍?

深析古今
2026-03-25 01:10:47
伊朗官媒發(fā)布《為眾人復仇》AI短片:一枚伊朗導彈在哈梅內伊等人注視下,精準炸毀幻化成羊頭惡魔的美國自由女神像

伊朗官媒發(fā)布《為眾人復仇》AI短片:一枚伊朗導彈在哈梅內伊等人注視下,精準炸毀幻化成羊頭惡魔的美國自由女神像

大象新聞
2026-03-26 09:45:03
航班在美國發(fā)生事故后加拿大航空公司CEO僅用英語發(fā)表講話,加總理批:我非常失望

航班在美國發(fā)生事故后加拿大航空公司CEO僅用英語發(fā)表講話,加總理批:我非常失望

環(huán)球網資訊
2026-03-26 18:26:42
突發(fā),雷軍辭職董事長!

突發(fā),雷軍辭職董事長!

品牌頭版
2026-03-26 14:46:17
很多人都患過“帶狀皰疹”,卻不知它和“老年癡呆”有關!了解下

很多人都患過“帶狀皰疹”,卻不知它和“老年癡呆”有關!了解下

岐黃傳人孫大夫
2026-03-26 20:45:03
美國記者挖坑提問:萬一臺灣不想被統(tǒng)一怎么辦?被中方精準反殺

美國記者挖坑提問:萬一臺灣不想被統(tǒng)一怎么辦?被中方精準反殺

雪中風車
2026-02-23 19:34:34
美國懵了,能摧毀伊朗電力的石墨炸彈,竟讓中國兩座城市聯(lián)手廢了

美國懵了,能摧毀伊朗電力的石墨炸彈,竟讓中國兩座城市聯(lián)手廢了

瑛派兒老黃
2026-03-25 23:46:07
生死12分鐘!廣東一男子踢球時心臟驟停 一群醫(yī)生沖上前接力心肺復蘇救回一命

生死12分鐘!廣東一男子踢球時心臟驟停 一群醫(yī)生沖上前接力心肺復蘇救回一命

閃電新聞
2026-03-26 11:46:05
中國首創(chuàng)!打一針降血脂基因治療獲突破

中國首創(chuàng)!打一針降血脂基因治療獲突破

醫(yī)學界
2026-03-26 19:17:50
2026-03-27 04:51:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12608文章數 142594關注度
往期回顧 全部

科技要聞

美團發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

房產
健康
數碼
教育
時尚

房產要聞

突發(fā),三亞又有大批征遷補償方案出爐!

轉頭就暈的耳石癥,能開車上班嗎?

數碼要聞

英特爾發(fā)Q1.26版Arc Pro專業(yè)顯卡驅動,支持B70 / B65顯卡

教育要聞

2026年高考可能“扎堆報考”的五大專業(yè):就業(yè)缺口大,穩(wěn)定且高薪

400萬人愛過的女孩,被黃謠網暴180天后

無障礙瀏覽 進入關懷版