国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

浙大聯(lián)手字節(jié):開(kāi)源大規(guī)模指令跟隨視頻編輯數(shù)據(jù)集OpenVE-3M

0
分享至



本文的作者分別來(lái)自浙江大學(xué)和字節(jié)跳動(dòng)。第一作者何昊陽(yáng)是來(lái)自浙江大學(xué)的博士生,研究方向聚焦于視頻生成與編輯。通訊作者為浙江大學(xué)謝磊教授。

亮點(diǎn)總結(jié)

  1. 作者提出了一個(gè)大規(guī)模、高質(zhì)量、多類(lèi)別的指令跟隨的視頻編輯數(shù)據(jù)集 OpenVE-3M,共包含 3M 樣本對(duì),分為空間對(duì)齊和非空間對(duì)齊 2 大類(lèi)別共 8 小類(lèi)別。
  2. 作者提出了穩(wěn)定的高質(zhì)量、多類(lèi)別的指令跟隨視頻編輯數(shù)據(jù)構(gòu)造管線(xiàn),確保編輯質(zhì)量的同時(shí)具有多樣性,促進(jìn)社區(qū)研究。
  3. 作者提出了一個(gè)高效且有效的指令跟隨視頻編輯模型 OpenVE-Edit,僅 5B 的參數(shù)量實(shí)現(xiàn)了 SoTA 并超過(guò)了現(xiàn)有開(kāi)源 14B 模型效果。
  4. 作者提出了一個(gè)通用的、多類(lèi)別且充滿(mǎn)挑戰(zhàn)的指令跟隨視頻編輯評(píng)測(cè)集,它從 3 個(gè)關(guān)鍵維度評(píng)估模型在各個(gè)類(lèi)別上的性能并與人類(lèi)評(píng)價(jià)高度對(duì)齊。



  • 論文標(biāo)題:OpenVE-3M: A Large-Scale High-Quality Dataset for Instruction-Guided Video Editing
  • 論文鏈接:https://arxiv.org/abs/2512.07826
  • 項(xiàng)目主頁(yè):https://lewandofskee.github.io/projects/OpenVE/

1. 研究動(dòng)機(jī)

現(xiàn)有指令遵循的視頻編輯數(shù)據(jù)集如 InsViE-1M、Senorita-2M、Ditto-1M 主要存在數(shù)據(jù)集規(guī)模小、編輯類(lèi)型少、編輯指令短和編輯質(zhì)量差四個(gè)問(wèn)題。表 1 展示了現(xiàn)有開(kāi)源視頻編輯數(shù)據(jù)集的定量分析,其中盡管 VIVID 有 10M 的數(shù)據(jù)規(guī)模,但是其只提供了掩碼視頻而沒(méi)有編輯后視頻導(dǎo)致無(wú)法直接訓(xùn)練。而 InsViE-1M、Senorita-2M、Ditto-1M 三個(gè)數(shù)據(jù)集只有 1 或 2M 的樣本數(shù),并且編輯種類(lèi)較少。



表 1: 與當(dāng)前指令跟隨視頻編輯數(shù)據(jù)集的比較。Cat./Avg. Ins. Lgth 分別指類(lèi)別 / 平均指令長(zhǎng)度

圖 2 (a) 展示了編輯指令長(zhǎng)度的分布,InsViE-1M、Senorita-2M 的平均編輯指令的單詞長(zhǎng)度較少平均只有 4 個(gè)單詞,無(wú)法很好的提供準(zhǔn)確的編輯指令信息影響編輯效果。為了判斷指令跟隨的視頻編輯數(shù)據(jù)集的質(zhì)量,作者將原始視頻、編輯后視頻和編輯指令輸入至 Gemini 2.5 Pro 中并在 Consistency & Detail Fidelity, and Visual Quality & Stability 三個(gè)層面進(jìn)行 1 到 5 打分,其中后兩者的得分不應(yīng)該超過(guò)前者。將每個(gè)數(shù)據(jù)集中的每個(gè)類(lèi)別隨機(jī)挑選 50 個(gè)編輯對(duì)進(jìn)行評(píng)測(cè),最終得分分布如圖 2 (b) 所示。

InsViE-1M、Senorita-2M 數(shù)據(jù)集盡管在 5 分也有較高的分布,但是其為 1 分的 bad case 占比也很高,導(dǎo)致數(shù)據(jù)集的平均質(zhì)量得分偏低。Ditto 數(shù)據(jù)集也有著不錯(cuò)的質(zhì)量但是其主要編輯類(lèi)型為風(fēng)格的變換,編輯種類(lèi)還不夠豐富。綜上所述,目前還缺少大規(guī)模、高質(zhì)量、多種類(lèi)的指令跟隨的視頻編輯數(shù)據(jù)集。



圖 2: OpenVE-3M 與當(dāng)前開(kāi)源視頻編輯數(shù)據(jù)集的視頻統(tǒng)計(jì)數(shù)據(jù)比較

因此,作者提出了一個(gè)大規(guī)模、高質(zhì)量、多類(lèi)別的指令跟隨視頻編輯數(shù)據(jù)集 OpenVE-3M。其共包含 3M 個(gè)樣本,分為空間對(duì)齊和非空間對(duì)齊兩類(lèi),其中空間對(duì)齊指的是編輯后視頻和原始視頻在空間和時(shí)序上具有一致的運(yùn)動(dòng)包括 Global Style, Background Change, Local Change, Local Remove, Local Add, and Subtitles Edit 共 6 類(lèi),非空間對(duì)齊指的是編輯后視頻和原始視頻在空間和時(shí)序上具有一致的主體但不一致的運(yùn)動(dòng)包括 Camera Multi-Shot Edit and Creative Edit 共 2 類(lèi)。所有類(lèi)別的可視化例子如圖 1 所示。此外 OpenVE-3M 還具有最長(zhǎng)的平均指令長(zhǎng)度 40.6,分布均勻的視頻幀數(shù)以及最高的視頻編輯質(zhì)量總平均分 3.86。



圖 1: 在同一個(gè)視頻中演示來(lái)自所提出的 OpenVE-3M 數(shù)據(jù)集的八個(gè)不同類(lèi)別



圖 3: OpenVE-3M 的類(lèi)別和幀計(jì)數(shù)統(tǒng)計(jì)

2. OpenVE-3M 數(shù)據(jù)集構(gòu)建



圖 4: 數(shù)據(jù)管道概述。第一階段:旨在構(gòu)建視頻語(yǔ)料庫(kù)并執(zhí)行各種預(yù)處理步驟,為第二階段做準(zhǔn)備。第二階段:重點(diǎn)在于利用一系列模型和工具,為每個(gè)類(lèi)別生成編輯對(duì)。第三階段:涉及對(duì)第二階段生成的所有編輯對(duì)進(jìn)行細(xì)粒度過(guò)濾,以?xún)H保留高質(zhì)量樣本。

a. 第一階段:視頻預(yù)處理



圖 5: Stage1 視頻數(shù)據(jù)預(yù)處理管道

b. 第二階段:基于分類(lèi)法的視頻編輯和指令生成



圖 6: Stage2 視頻編輯數(shù)據(jù)構(gòu)建流程的詳細(xì)工作流程: Global Style, Local Change, Background Change, and Local Add



圖 7: Stage2 視頻編輯數(shù)據(jù)構(gòu)建流程的詳細(xì)工作流程: Local Remove, Subtitles Edit, Camera Multi-shot Edit, and Creative Edit

c. 第三階段:高質(zhì)量視頻編輯對(duì)過(guò)濾

對(duì)于所有類(lèi)別的合成數(shù)據(jù)對(duì)作者針對(duì)每個(gè)類(lèi)別精細(xì)設(shè)計(jì)了數(shù)據(jù)過(guò)濾管道。首先是每個(gè)類(lèi)別視頻編輯提示詞的精細(xì)構(gòu)建,共包含 3 大主要評(píng)測(cè)指標(biāo):指令遵循、Consistency & Detail Fidelity 和 Visual Quality & Stability,每個(gè)指標(biāo)評(píng)分 1-5 分進(jìn)行打分。

其中關(guān)鍵的是以指令遵循指標(biāo)為得分上限,即后面兩個(gè)指標(biāo)的得分不能超過(guò)指令遵循指標(biāo)。因?yàn)橛性S多視頻編輯數(shù)據(jù)盡管視頻質(zhì)量高但完全沒(méi)有被編輯,因此作者希望指令遵循是首要評(píng)判標(biāo)準(zhǔn)。隨后作者將編輯指令、編輯前視頻和編輯后視頻輸入到 VLMs 中進(jìn)行打分。在此,作者人工挑選并打分了 300 個(gè)視頻編輯對(duì)并與 3 個(gè) VLMs 模型打分結(jié)果進(jìn)行對(duì)比。將視頻編輯對(duì)平均得分超過(guò) 3 分定義為正樣本、小于等于 3 分為負(fù)樣本。最終計(jì)算 Qwen3-VL-A3B 模型準(zhǔn)確率為 61%,Intern3.5-VL-38B 模型準(zhǔn)確率為 66%,Seed1.6-VL 準(zhǔn)確率為 70%,Gemini2.5-Pro 準(zhǔn)確率為 69%。但是受限于 Seed1.6-VL 和 Gemini2.5-Pro 的 API TPM 的限制,作者最終選用 Intern3.5-VL-38B 模型用于打分并過(guò)濾所有得分大于 3 分的視頻編輯對(duì)。

3. OpenVE-Edit 指令跟隨視頻編輯模型



圖 8: OpenVE-Edit 的整體架構(gòu)。(a) OpenVE-Edit 的架構(gòu)。(b) MoE-Connector 模塊的詳細(xì)結(jié)構(gòu)。

OpenVE-Edit 創(chuàng)新點(diǎn):

  • 僅用 T5 特征只能得到字面意思的指令編輯表示而不能獲取更高維度的指令與視覺(jué)語(yǔ)義空間關(guān)系表示。因此,作者將輸入原始視頻和編輯指令一同輸入到多模態(tài)大模型中,這使模型能夠捕捉更高維度編輯指令和視覺(jué)特征之間的語(yǔ)義與空間關(guān)系。
  • 為了應(yīng)對(duì)多樣化視頻編輯的各種不同需求,任務(wù)異質(zhì)性在使用單一模型時(shí)會(huì)導(dǎo)致參數(shù)效率低下,因?yàn)楣蚕韰?shù)會(huì)將易受干擾的表征內(nèi)化,從而導(dǎo)致專(zhuān)業(yè)化程度不理想并增加參數(shù)數(shù)量。因此,基于多任務(wù)感知的 MoE-Connector 模塊被設(shè)計(jì)用于同時(shí)應(yīng)對(duì)圖像和視頻不同編輯類(lèi)型。
  • 由于現(xiàn)有的視頻生成模型都已經(jīng)經(jīng)過(guò)大規(guī)模的數(shù)據(jù)預(yù)訓(xùn)練,而 MoE-Connector 在訓(xùn)練開(kāi)始時(shí)是隨機(jī)初始化的。如果它直接輸出一堆無(wú)意義的「噪聲」視覺(jué)特征給下游模型,很可能會(huì)嚴(yán)重干擾下游模型的穩(wěn)定狀態(tài),導(dǎo)致訓(xùn)練崩潰或收斂緩慢。因此,為了降低訓(xùn)練難度,提高訓(xùn)練效率,受 ControlNet 工作的啟發(fā),作者將 MoE-Connector 最后一個(gè) MLP 層初始化權(quán)重為全零。并將其輸出的特征與原本編輯指令通過(guò) T5 得到的特征在通道維度拼接起來(lái)。這樣,T5 特征在訓(xùn)練的第 0 步完全不會(huì)被新加的模塊所影響。

4. OpenVE-Bench 指令跟隨視頻編輯評(píng)測(cè)

現(xiàn)在還沒(méi)有一個(gè)通用的并且與人類(lèi)評(píng)價(jià)高度對(duì)齊的指令跟隨的視頻編輯評(píng)測(cè)。因此,作者提出了 OpenVE-Bench,一個(gè)人工精心挑選包含 8 類(lèi)別共 431 條編輯對(duì)的評(píng)測(cè)集,并且對(duì)于每個(gè)類(lèi)別均精心設(shè)計(jì)了 Instruction Consistency & Detail Fidelity, and Visual Quality & Stability 三個(gè)關(guān)鍵評(píng)測(cè) Prompt,最終將編輯指令、原始視頻、編輯后視頻共同輸入給 VLM 得到編輯分?jǐn)?shù)。

5. 實(shí)驗(yàn)結(jié)果

a. 定量結(jié)果

作者對(duì)比了目前所有的視頻編輯開(kāi)源模型 VACE、OmniVideo、InsViE、ICVE、Lucy-Edit、DITTO 和閉源模型 Runway Aleph,在使用 80G 顯存 GPU 復(fù)現(xiàn)開(kāi)源模型過(guò)程中。OmniVideo 僅能生成 640*352 分辨率,17 幀的視頻,其他分辨率和幀數(shù)都會(huì)導(dǎo)致視頻異常。ICVE 模型僅能在 480*768 分辨率生成最多 41 幀的視頻,更多幀數(shù)的生成會(huì)導(dǎo)致顯存爆炸,因此使用 384*240 以保證所有幀被編輯。其他的模型都按照其訓(xùn)練的分辨率和輸入視頻的幀數(shù)對(duì)應(yīng)進(jìn)行生成。另外由于 Runway Aleph 費(fèi)用的限制,作者在每類(lèi)評(píng)測(cè)集上僅挑選 30 個(gè)樣本進(jìn)行測(cè)試與評(píng)分。

表 2 和 3 展示了現(xiàn)在所有指令跟隨視頻編輯模型在 OpenVE-Bench 上的評(píng)測(cè)結(jié)果。閉源的 Runway Aleph 模型在 Seed1.6VL 和 Gemini 2.5 Pro 兩個(gè)評(píng)測(cè)模型上均取得了最出色的效果并且遠(yuǎn)超現(xiàn)有開(kāi)源模型。開(kāi)源的 VACE、OmniVideo 和 InsViE 由于模型參數(shù)的限制或者數(shù)據(jù)集的限制結(jié)果較差。Lucy-Edit 在 5B 的參數(shù)量下取得了比較平均的效果。ICVE 在 13B 參數(shù)量下取得了不錯(cuò)的效果,但高分辨率的編輯僅支持更少的幀數(shù)。DITTO 由于數(shù)據(jù)集主要為 global style 類(lèi)型,因此其在這一指標(biāo)上得分較高。作者的 OpenVE-Edit 僅 5B 的參數(shù)量取得了 2.41 的總指標(biāo),實(shí)現(xiàn)較小的參數(shù)量下超越了現(xiàn)有所有開(kāi)源模型效果。



b. 定性結(jié)果

圖 9 展示了作者的方法和現(xiàn)有開(kāi)源 SOTA 方法的定性對(duì)比。選取了當(dāng)前開(kāi)源模型里最好的三個(gè)模型做對(duì)比。在左邊的 Background Change 的例子里,Lucy-Edit 盡管實(shí)現(xiàn)了背景的變換,但是小狗沒(méi)有保持與原視頻一致。ICVE 錯(cuò)誤的擦除了女人并且男人的長(zhǎng)相也發(fā)生了變化。Ditto 錯(cuò)把墻上的畫(huà)當(dāng)作前景并且小狗的顏色變深。作者的方法能夠在前景所有主體保持一致性的同時(shí)背景按照編輯指令改變。右邊 Local Change 的例子中,Lucy-Edit 錯(cuò)誤的將三個(gè)人的衣服全部編輯。ICVE 錯(cuò)誤的對(duì)左邊兩個(gè)人編輯,并且人也發(fā)生了變化。Ditto 不僅編輯錯(cuò)了對(duì)象還錯(cuò)誤地將背景改變了。作者的方法只按照編輯指令改變了對(duì)應(yīng)女人的衣服并且保持其他男人和背景的一致性。



圖 9: 與當(dāng)前 SoTA 方法的定性比較結(jié)果,并舉例說(shuō)明背景變化(左)和局部變化(右)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
孫殿英風(fēng)評(píng)變好,這意味著什么?

孫殿英風(fēng)評(píng)變好,這意味著什么?

十柱
2025-12-18 15:14:26
77年我把公社會(huì)計(jì)肚子搞大,她被調(diào)回省再?zèng)]消息,我以為緣分盡了

77年我把公社會(huì)計(jì)肚子搞大,她被調(diào)回省再?zèng)]消息,我以為緣分盡了

蕭竹輕語(yǔ)
2025-12-11 18:42:00
3厘米縫衣針裹在被中扎入寶寶脊柱 ,醫(yī)生:針的位置極其刁鉆,周?chē)紳M(mǎn)重要血管和神經(jīng)

3厘米縫衣針裹在被中扎入寶寶脊柱 ,醫(yī)生:針的位置極其刁鉆,周?chē)紳M(mǎn)重要血管和神經(jīng)

觀威海
2025-12-18 10:46:02
索尼將退出中國(guó),補(bǔ)償方案也是值得學(xué)習(xí)

索尼將退出中國(guó),補(bǔ)償方案也是值得學(xué)習(xí)

比爾蓋凱
2025-12-18 22:32:52
潮汕大佬賴(lài)海民:30年只守深圳,憑“慢工”熬成500億舊改王

潮汕大佬賴(lài)海民:30年只守深圳,憑“慢工”熬成500億舊改王

林子說(shuō)事
2025-12-19 10:14:00
上訴了!上訴了!傾家族之力想保一條命?金毛還想逆風(fēng)翻盤(pán)?

上訴了!上訴了!傾家族之力想保一條命?金毛還想逆風(fēng)翻盤(pán)?

魔都姐姐雜談
2025-12-17 08:58:26
王志文:不要對(duì)水平太低的人太好,認(rèn)知水平越低,越不懂你的好

王志文:不要對(duì)水平太低的人太好,認(rèn)知水平越低,越不懂你的好

杏花煙雨江南的碧園
2025-12-03 13:10:03
美記:看到克萊獨(dú)自一人回?fù)魧?duì)手的挑釁,庫(kù)里心里十分難受

美記:看到克萊獨(dú)自一人回?fù)魧?duì)手的挑釁,庫(kù)里心里十分難受

移動(dòng)擋拆
2025-12-19 07:17:01
關(guān)于楊蘭蘭,終于破解出幾條她的關(guān)鍵信息

關(guān)于楊蘭蘭,終于破解出幾條她的關(guān)鍵信息

詩(shī)意世界
2025-12-19 12:00:03
爺爺操作神了!外孫、孫子考上985就獎(jiǎng)3000元,孫子卻只考上大專(zhuān)

爺爺操作神了!外孫、孫子考上985就獎(jiǎng)3000元,孫子卻只考上大專(zhuān)

火山詩(shī)話(huà)
2025-12-18 14:29:53
21號(hào)冬至吃餃子,切記:4餡不上桌,福氣不進(jìn)門(mén),分別指的是什么

21號(hào)冬至吃餃子,切記:4餡不上桌,福氣不進(jìn)門(mén),分別指的是什么

阿龍美食記
2025-12-18 21:23:12
這都贏不了?開(kāi)拓者2分28秒領(lǐng)先15分遭國(guó)王一波流抹平分差進(jìn)加時(shí)

這都贏不了?開(kāi)拓者2分28秒領(lǐng)先15分遭國(guó)王一波流抹平分差進(jìn)加時(shí)

懂球帝
2025-12-19 14:05:11
震驚!南博最大的受害者不是龐叔令后人,而是前博物館館長(zhǎng)姚遷…

震驚!南博最大的受害者不是龐叔令后人,而是前博物館館長(zhǎng)姚遷…

火山詩(shī)話(huà)
2025-12-19 06:05:11
著名播音員鐘瑞在加拿大病逝!丈夫宋世雄的三件禮物溫暖她一生

著名播音員鐘瑞在加拿大病逝!丈夫宋世雄的三件禮物溫暖她一生

銀河史記
2025-12-16 16:18:24
外媒:在中國(guó)支持下,委內(nèi)瑞拉派出軍艦,護(hù)送油輪突破美國(guó)封鎖

外媒:在中國(guó)支持下,委內(nèi)瑞拉派出軍艦,護(hù)送油輪突破美國(guó)封鎖

頭條爆料007
2025-12-19 08:27:51
浪子回頭!曾凡博與北京隊(duì)完成簽約,重返CBA

浪子回頭!曾凡博與北京隊(duì)完成簽約,重返CBA

體育哲人
2025-12-19 12:42:10
算盤(pán)打錯(cuò)了!李湘為王詩(shī)齡打通豪門(mén)人脈,反被何超瓊 “打臉”?

算盤(pán)打錯(cuò)了!李湘為王詩(shī)齡打通豪門(mén)人脈,反被何超瓊 “打臉”?

代軍哥哥談娛樂(lè)
2025-12-18 12:06:37
社會(huì)主義中國(guó)不能允許如此大規(guī)模當(dāng)?shù)?>
    </a>
        <h3>
      <a href=凱利經(jīng)濟(jì)觀察
2025-12-18 09:35:23
泰國(guó)軍方發(fā)言人:鏟平所有電詐園區(qū)

泰國(guó)軍方發(fā)言人:鏟平所有電詐園區(qū)

Ck的蜜糖
2025-12-16 15:25:09
43歲王心凌的“括號(hào)臀”又辣又撩,彎腰那一刻,網(wǎng)友:這誰(shuí)hold得住!

43歲王心凌的“括號(hào)臀”又辣又撩,彎腰那一刻,網(wǎng)友:這誰(shuí)hold得住!

健身迷
2025-10-08 09:57:23
2025-12-19 14:16:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
11953文章數(shù) 142513關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

團(tuán)播女生私下賣(mài)力維護(hù)"大哥":經(jīng)常擦邊 有女生會(huì)被約走

頭條要聞

團(tuán)播女生私下賣(mài)力維護(hù)"大哥":經(jīng)常擦邊 有女生會(huì)被約走

體育要聞

沒(méi)有塔圖姆,還有塔禿姆

娛樂(lè)要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無(wú)期

汽車(chē)要聞

最便宜GLS 2026款奔馳GLS經(jīng)典版售96.8萬(wàn)

態(tài)度原創(chuàng)

旅游
游戲
本地
親子
房產(chǎn)

旅游要聞

北京周末可往返!賞冰雪、涮暖鍋、逛大集……官方推薦攻略來(lái)了→

經(jīng)典劇情RPG神作《空之軌跡 the 1st》冬促來(lái)襲!

本地新聞

云游安徽|訪(fǎng)黃山云海古村,讀一城山水風(fēng)骨

親子要聞

很多家長(zhǎng)問(wèn)支具鋁板是什么,名字叫指鋁板,網(wǎng)上都能搜到

房產(chǎn)要聞

萬(wàn)科·三亞嘉瀾地,萬(wàn)科高端旅居系1號(hào)作品全球發(fā)布

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版