国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI「看不懂」、「做不好」視頻的問題,混元用「MTSS」解決了

0
分享至



導讀:騰訊混元團隊提出了 Multi-Stream Scene Script(MTSS),一種全新的視頻描述范式 —— 將傳統(tǒng)的 "一段話描述整個視頻" 升級為 "多流結(jié)構(gòu)化劇本",通過 Stream Factorization 和 Relational Grounding 兩大核心原則,讓視頻描述既忠實又可擴展,在視頻理解和生成任務(wù)中均取得顯著提升。



  • 論文標題:Script-a-Video: Deep Structured Audio-visual Captions via Factorized Streams and Relational Grounding
  • 論文鏈接:https://arxiv.org/abs/2604.11244

多分鏡、ID 保持、音畫同出…… 當視頻生成模型開始具備這些核心能力時,一個容易被忽略的瓶頸開始浮出水面:你拿什么來描述一段視頻,才能獲得更好的效果?

當前主流的做法,是把視覺、聽覺、人物、場景、鏡頭運動等所有信息,全部揉進一段密密麻麻的自然語言段落里 —— 這就是所謂的 Monolithic Caption,我們姑且叫它「流水賬」式描述。

這種寫法的問題,其實和寫劇本一樣直觀:把演員表、分鏡表、音效表全寫在一篇散文里,導演沒法用,演員看不懂,后期更沒法改。

那有沒有可能,給視頻寫一份真正的、更高效的「結(jié)構(gòu)化劇本」?

騰訊混元團隊給出的答案是:MTSS——Multi-Stream Scene Script。



「流水賬」到底差在哪?

三個繞不開的問題

要理解 MTSS 為什么值得關(guān)注,得先看看傳統(tǒng) Monolithic Caption 在實際應(yīng)用中到底碰到了什么墻。

  • 語義冗余與歧義。 同一角色在不同鏡頭中被反復描述,容易產(chǎn)生不一致的身份引用。一段話里出現(xiàn)三次 "穿西裝的男人",到底是不是同一個人?模型不確定,生成出來也就容易串。
  • 可擴展性差。 想改一個局部細節(jié) —— 比如換個鏡頭運動、加一段音效 —— 可能需要重寫整段描述才能保持敘事連貫性。牽一發(fā)動全身,效率極低。
  • 對小模型不友好。 密集交織的信息增加了認知負擔,小參數(shù)模型很難從中有效學習。大模型或許還能湊合理解,換成 7B 級別的開源模型,表現(xiàn)就斷崖式下跌。

這些不是理論上的困難 —— 當你想要實現(xiàn)多分鏡生成、跨鏡頭身份保持、音畫同出時,「流水賬」就成了最大的瓶頸。

不寫流水賬,改寫分鏡劇本:

「MTSS」怎么設(shè)計的?

MTSS 的核心思想非常直觀:不寫流水賬,改寫 JSON 格式的分鏡頭劇本。它的兩大核心設(shè)計原則:Stream Factorization 與 Relational Grounding。



Stream Factorization:把一段視頻拆成四條并行的信息流

MTSS 將復雜的音視頻動態(tài)剝離開來,變成四個專門的、并行的信息流,并互相引用,實現(xiàn)了對視頻信息更本質(zhì)的表達方式:Reference Stream(資產(chǎn)信息)—— 特征錨點核心;Event Stream(事件信息)—— 發(fā)生了什么;Shot Stream(鏡頭信息)—— 如何呈現(xiàn);Global Stream(全局信息)—— 全局信息

Relational Grounding:讓四條流 "活" 起來

僅僅分解是不夠的 —— 孤立的信息流無法形成連貫的腳本。MTSS 通過 Relational Grounding 在兩個維度上重新建立聯(lián)系:身份錨定實現(xiàn)實體全局引用,時間錨定實現(xiàn)多軌道并行對齊。

這樣一來,修改任何一條流中的局部信息(如改變一個角色的臺詞),不會影響其他流的內(nèi)容,真正實現(xiàn)了「局部編輯,全局一致」。

與 Monolithic Caption 的效果對比

與傳統(tǒng) Monolithic Caption 相比,MTSS 具備以下核心優(yōu)勢:

  • 符合視頻數(shù)據(jù)本質(zhì)形式:解耦 身份(Who)、事件(What)、呈現(xiàn)(How)等,并彼此精準關(guān)聯(lián)。
  • 全局一致性:全局身份信息統(tǒng)一管理與引用,避免反復的冗余描述帶來誤差。
  • 易擴展、易理解:從時間和空間對視頻進行結(jié)構(gòu)化拆解,降低理解難度,實現(xiàn)局部編輯。
  • 專業(yè)剪輯技巧表達:支持 ReactionShot("說話人 - 聽眾" 模式)、L-Cut(聲音延續(xù))、J-Cut(聲音先行)等專業(yè)剪輯技巧。



理解與生成兩手抓:

MTSS 到底有多能打?

說一千道一萬,不如數(shù)據(jù)說話。針對 MTSS 范式設(shè)計的有效性驗證,團隊在視頻理解和視頻生成兩個賽道上都進行了詳盡的實驗和評估。

視頻理解:格式一換,效果就來

在實驗設(shè)計上,團隊同時評估了 Zero-shot Prompting(直接讓模型輸出 MTSS 格式)和 Supervised Fine-tuning(在 MTSS 數(shù)據(jù)上微調(diào))兩種使用方式,從而將「格式本身的優(yōu)勢」和「訓練帶來的優(yōu)勢」進行了有效分離。

  • 遵循 MTSS 范式,Zero-shot Prompting 即可帶來普遍提升
  • MTSS 范式設(shè)計顯著降低認知負擔,使得小模型效果提升更加顯著
  • 適當?shù)?SFT 能夠釋放 MTSS 范式設(shè)計的最大潛力
  • MTSS 對推理的提升幅度遠超對描述任務(wù)本身的提升
  • One More Thing:MTSS 作為 "認知腳手架" 縮小模型差距





視頻生成:從「理解端的描述格式」到「生成端的控制接口」

隨著視頻生成模型發(fā)展至具備多分鏡、ID 注入保持、音畫同出等核心能力,如何高效地讓視頻生成模型具備這些能力,數(shù)據(jù)表達是最關(guān)鍵變量之一。

為了驗證 MTSS 范式對視頻生成模型的有效性和高效性,團隊以音畫同出的開源模型 LTX-2 為基礎(chǔ),進行了適配訓練驗證。主要改動包括:Shot-Aware Structured Attention(鏡頭感知結(jié)構(gòu)化注意力)Identity Customization(身份定制模塊)。



效果分析:

  • 多分鏡:MTSS 的 Shot 時間戳提供了有效的分鏡信號,輕量級的 Attention 模塊即可帶來強有力的約束。
  • ID 注入保持:MTSS 的分流設(shè)計與跨鏡頭 Reference Grounding 機制對 ID 注入保持 提升顯著。
  • 音畫同出:MTSS Event Stream 中顯式的 “l(fā)ine” 字段和 “description” 字段為音頻生成提供了清晰的 "說什么" 和 "怎么說" 的指令,從根本上改變了音頻輸出的性質(zhì),從近乎隨機的環(huán)境噪聲轉(zhuǎn)變?yōu)檎Z義正確的對話。

結(jié)語:從「流水賬」到「劇本時代」

長期以來,視頻理解、視頻生成領(lǐng)域一直試圖讓模型通過海量的 "糙數(shù)據(jù)" 自己去領(lǐng)悟視頻規(guī)律。然而,MTSS 工作證明了:更接近數(shù)據(jù)本質(zhì)的表達范式能釋放出遠超架構(gòu)微調(diào)的紅利。

MTSS 不僅是一種 Caption 數(shù)據(jù)格式,它更像是一個友好的 "認知腳手架",幫助人類和模型更輕易地理解視頻、生成視頻。

雖然我們?nèi)匀幻媾R視角劇烈變化時仍有角色身份維持的挑戰(zhàn),但 MTSS 無疑為下一代可控、超長、多鏡頭聯(lián)合音視頻生成大模型指明了一條極具潛力的數(shù)據(jù)工程道路。告別 "流水賬",迎接 "劇本時代",視頻大模型正在進入更加專業(yè)化的工業(yè)級工作流。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
記住這家叛國的A股上市公司!

記住這家叛國的A股上市公司!

仰望星空的一粒沙子
2026-04-27 16:09:13
演員陸毅嘴唇發(fā)紫,被網(wǎng)友提醒去醫(yī)院體檢;陸毅聽勸后回應(yīng):心臟沒問題,體重卻超標了,身高1米8,體重180斤,“我是方的”

演員陸毅嘴唇發(fā)紫,被網(wǎng)友提醒去醫(yī)院體檢;陸毅聽勸后回應(yīng):心臟沒問題,體重卻超標了,身高1米8,體重180斤,“我是方的”

浙江之聲
2026-04-27 13:09:03
交通運輸部:“五一”假期高速流量或創(chuàng)歷史同期新高,北京、成都等地周邊路網(wǎng)壓力明顯

交通運輸部:“五一”假期高速流量或創(chuàng)歷史同期新高,北京、成都等地周邊路網(wǎng)壓力明顯

紅星新聞
2026-04-28 15:10:42
要搶七?!森林狼又傷一位...約基奇這動作有爭議。!

要搶七?!森林狼又傷一位...約基奇這動作有爭議。。

柚子說球
2026-04-28 14:08:17
35歲女子去做私處緊縮,縫針斷在肉里,醫(yī)生徒手掏了半小時沒找著

35歲女子去做私處緊縮,縫針斷在肉里,醫(yī)生徒手掏了半小時沒找著

離離言幾許
2026-04-21 19:53:18
西班牙第一季度失業(yè)率為10.83%

西班牙第一季度失業(yè)率為10.83%

每日經(jīng)濟新聞
2026-04-28 15:10:08
張凌赫《歸鸞》片場暈倒后傷情升級!因低血糖失力重摔,兩度起身失敗全靠林允托舉

張凌赫《歸鸞》片場暈倒后傷情升級!因低血糖失力重摔,兩度起身失敗全靠林允托舉

小椰的奶奶
2026-04-28 15:45:54
第二個“恒大”出現(xiàn)!年收入超6000億,老板跟許家印“稱兄道弟”

第二個“恒大”出現(xiàn)!年收入超6000億,老板跟許家印“稱兄道弟”

蜉蝣說
2026-04-28 11:12:03
來了!蘋果新 CEO 特努斯將親自發(fā)布折疊屏 iPhone Ultra

來了!蘋果新 CEO 特努斯將親自發(fā)布折疊屏 iPhone Ultra

XCiOS俱樂部
2026-04-27 09:24:06
這條新聞在今天看來,諷刺至極!

這條新聞在今天看來,諷刺至極!

胖胖說他不胖
2026-04-27 09:00:43
華為余承東:尊界新車價格在200萬左右

華為余承東:尊界新車價格在200萬左右

界面新聞
2026-04-26 13:08:56
曼聯(lián)改寫英超大局!2-1后差2分進歐冠,幫熱刺保級,阿森納利好

曼聯(lián)改寫英超大局!2-1后差2分進歐冠,幫熱刺保級,阿森納利好

體育知多少
2026-04-28 06:23:36
五一還敢隨便出門嗎?3個好消息2個壞消息,看完再決定要不要出門

五一還敢隨便出門嗎?3個好消息2個壞消息,看完再決定要不要出門

復轉(zhuǎn)這些年
2026-04-27 19:32:30
今晚開播!CCTV8黃金檔又一部好劇來襲!陣容好強

今晚開播!CCTV8黃金檔又一部好劇來襲!陣容好強

奇怪的鯊魚們
2026-04-28 16:43:13
嫌棄國企老公沒本事,女子離婚帶42萬存款追夢,結(jié)局讓人捧腹!

嫌棄國企老公沒本事,女子離婚帶42萬存款追夢,結(jié)局讓人捧腹!

塵埃里的看客
2026-04-27 15:53:46
上海女博士在家8年未出門,警察破門后,看到屋內(nèi)景象頓時傻眼了

上海女博士在家8年未出門,警察破門后,看到屋內(nèi)景象頓時傻眼了

詭譎怪談
2025-05-02 00:08:52
4秒58!上海小將趙一程創(chuàng)造新的世界紀錄!

4秒58!上海小將趙一程創(chuàng)造新的世界紀錄!

澎湃新聞
2026-04-28 15:13:06
美國現(xiàn)任防長曾談中美開戰(zhàn):11艘航母打擊中國,20分鐘后1艘不剩

美國現(xiàn)任防長曾談中美開戰(zhàn):11艘航母打擊中國,20分鐘后1艘不剩

蜉蝣說
2026-04-28 11:14:47
俄羅斯人大量涌入中國,卻發(fā)現(xiàn)中俄差距越來越大

俄羅斯人大量涌入中國,卻發(fā)現(xiàn)中俄差距越來越大

杰絲聊古今
2026-04-28 03:43:50
文旅部集中整治景區(qū)擺渡車,點名龍虎山、長白山、稻城亞丁等

文旅部集中整治景區(qū)擺渡車,點名龍虎山、長白山、稻城亞丁等

南方都市報
2026-04-27 16:21:12
2026-04-28 18:31:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12881文章數(shù) 142638關(guān)注度
往期回顧 全部

科技要聞

10億周活目標落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

14歲男生殺害女同學被判無期 聽到宣判時幾乎面無表情

頭條要聞

14歲男生殺害女同學被判無期 聽到宣判時幾乎面無表情

體育要聞

季后賽最新局勢:雷霆4-0晉級首隊 4隊3-1

娛樂要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財經(jīng)要聞

政治局會議:加強算力網(wǎng)等規(guī)劃建設(shè)

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長在未來審美點上

態(tài)度原創(chuàng)

房產(chǎn)
數(shù)碼
健康
親子
軍事航空

房產(chǎn)要聞

紅利爆發(fā)!海南,沖到全國人口增量第4。

數(shù)碼要聞

2026旗艦天花板?HyperX暗影精靈MAX 300W+性能深度解析

干細胞治療燒燙傷三大優(yōu)勢!

親子要聞

2026-2027年全球母嬰市場及中國母嬰產(chǎn)業(yè)出海機遇報告

軍事要聞

德國總理默茨:美國正遭受伊朗領(lǐng)導層的羞辱

無障礙瀏覽 進入關(guān)懷版