網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

浙大聯(lián)手字節(jié)：開源大規(guī)模指令跟隨視頻編輯數(shù)據(jù)集OpenVE-3M

2025-12-17 14:39:20　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

本文的作者分別來自浙江大學(xué)和字節(jié)跳動(dòng)。第一作者何昊陽是來自浙江大學(xué)的博士生，研究方向聚焦于視頻生成與編輯。通訊作者為浙江大學(xué)謝磊教授。

亮點(diǎn)總結(jié)

作者提出了一個(gè)大規(guī)模、高質(zhì)量、多類別的指令跟隨的視頻編輯數(shù)據(jù)集 OpenVE-3M，共包含 3M 樣本對(duì)，分為空間對(duì)齊和非空間對(duì)齊 2 大類別共 8 小類別。
作者提出了穩(wěn)定的高質(zhì)量、多類別的指令跟隨視頻編輯數(shù)據(jù)構(gòu)造管線，確保編輯質(zhì)量的同時(shí)具有多樣性，促進(jìn)社區(qū)研究。
作者提出了一個(gè)高效且有效的指令跟隨視頻編輯模型 OpenVE-Edit，僅 5B 的參數(shù)量實(shí)現(xiàn)了 SoTA 并超過了現(xiàn)有開源 14B 模型效果。
作者提出了一個(gè)通用的、多類別且充滿挑戰(zhàn)的指令跟隨視頻編輯評(píng)測(cè)集，它從 3 個(gè)關(guān)鍵維度評(píng)估模型在各個(gè)類別上的性能并與人類評(píng)價(jià)高度對(duì)齊。

論文標(biāo)題：OpenVE-3M: A Large-Scale High-Quality Dataset for Instruction-Guided Video Editing
論文鏈接：https://arxiv.org/abs/2512.07826
項(xiàng)目主頁：https://lewandofskee.github.io/projects/OpenVE/

1. 研究動(dòng)機(jī)

現(xiàn)有指令遵循的視頻編輯數(shù)據(jù)集如 InsViE-1M、Senorita-2M、Ditto-1M 主要存在數(shù)據(jù)集規(guī)模小、編輯類型少、編輯指令短和編輯質(zhì)量差四個(gè)問題。表 1 展示了現(xiàn)有開源視頻編輯數(shù)據(jù)集的定量分析，其中盡管 VIVID 有 10M 的數(shù)據(jù)規(guī)模，但是其只提供了掩碼視頻而沒有編輯后視頻導(dǎo)致無法直接訓(xùn)練。而 InsViE-1M、Senorita-2M、Ditto-1M 三個(gè)數(shù)據(jù)集只有 1 或 2M 的樣本數(shù)，并且編輯種類較少。

表 1: 與當(dāng)前指令跟隨視頻編輯數(shù)據(jù)集的比較。Cat./Avg. Ins. Lgth 分別指類別 / 平均指令長(zhǎng)度

圖 2 (a) 展示了編輯指令長(zhǎng)度的分布，InsViE-1M、Senorita-2M 的平均編輯指令的單詞長(zhǎng)度較少平均只有 4 個(gè)單詞，無法很好的提供準(zhǔn)確的編輯指令信息影響編輯效果。為了判斷指令跟隨的視頻編輯數(shù)據(jù)集的質(zhì)量，作者將原始視頻、編輯后視頻和編輯指令輸入至 Gemini 2.5 Pro 中并在 Consistency & Detail Fidelity, and Visual Quality & Stability 三個(gè)層面進(jìn)行 1 到 5 打分，其中后兩者的得分不應(yīng)該超過前者。將每個(gè)數(shù)據(jù)集中的每個(gè)類別隨機(jī)挑選 50 個(gè)編輯對(duì)進(jìn)行評(píng)測(cè)，最終得分分布如圖 2 (b) 所示。

InsViE-1M、Senorita-2M 數(shù)據(jù)集盡管在 5 分也有較高的分布，但是其為 1 分的 bad case 占比也很高，導(dǎo)致數(shù)據(jù)集的平均質(zhì)量得分偏低。Ditto 數(shù)據(jù)集也有著不錯(cuò)的質(zhì)量但是其主要編輯類型為風(fēng)格的變換，編輯種類還不夠豐富。綜上所述，目前還缺少大規(guī)模、高質(zhì)量、多種類的指令跟隨的視頻編輯數(shù)據(jù)集。

圖 2: OpenVE-3M 與當(dāng)前開源視頻編輯數(shù)據(jù)集的視頻統(tǒng)計(jì)數(shù)據(jù)比較

因此，作者提出了一個(gè)大規(guī)模、高質(zhì)量、多類別的指令跟隨視頻編輯數(shù)據(jù)集 OpenVE-3M。其共包含 3M 個(gè)樣本，分為空間對(duì)齊和非空間對(duì)齊兩類，其中空間對(duì)齊指的是編輯后視頻和原始視頻在空間和時(shí)序上具有一致的運(yùn)動(dòng)包括 Global Style, Background Change, Local Change, Local Remove, Local Add, and Subtitles Edit 共 6 類，非空間對(duì)齊指的是編輯后視頻和原始視頻在空間和時(shí)序上具有一致的主體但不一致的運(yùn)動(dòng)包括 Camera Multi-Shot Edit and Creative Edit 共 2 類。所有類別的可視化例子如圖 1 所示。此外 OpenVE-3M 還具有最長(zhǎng)的平均指令長(zhǎng)度 40.6，分布均勻的視頻幀數(shù)以及最高的視頻編輯質(zhì)量總平均分 3.86。

圖 1: 在同一個(gè)視頻中演示來自所提出的 OpenVE-3M 數(shù)據(jù)集的八個(gè)不同類別

圖 3: OpenVE-3M 的類別和幀計(jì)數(shù)統(tǒng)計(jì)

2. OpenVE-3M 數(shù)據(jù)集構(gòu)建

圖 4: 數(shù)據(jù)管道概述。第一階段：旨在構(gòu)建視頻語料庫并執(zhí)行各種預(yù)處理步驟，為第二階段做準(zhǔn)備。第二階段：重點(diǎn)在于利用一系列模型和工具，為每個(gè)類別生成編輯對(duì)。第三階段：涉及對(duì)第二階段生成的所有編輯對(duì)進(jìn)行細(xì)粒度過濾，以僅保留高質(zhì)量樣本。

a. 第一階段：視頻預(yù)處理

圖 5: Stage1 視頻數(shù)據(jù)預(yù)處理管道

b. 第二階段：基于分類法的視頻編輯和指令生成

圖 6: Stage2 視頻編輯數(shù)據(jù)構(gòu)建流程的詳細(xì)工作流程: Global Style, Local Change, Background Change, and Local Add

圖 7: Stage2 視頻編輯數(shù)據(jù)構(gòu)建流程的詳細(xì)工作流程: Local Remove, Subtitles Edit, Camera Multi-shot Edit, and Creative Edit

c. 第三階段：高質(zhì)量視頻編輯對(duì)過濾

對(duì)于所有類別的合成數(shù)據(jù)對(duì)作者針對(duì)每個(gè)類別精細(xì)設(shè)計(jì)了數(shù)據(jù)過濾管道。首先是每個(gè)類別視頻編輯提示詞的精細(xì)構(gòu)建，共包含 3 大主要評(píng)測(cè)指標(biāo)：指令遵循、Consistency & Detail Fidelity 和 Visual Quality & Stability，每個(gè)指標(biāo)評(píng)分 1-5 分進(jìn)行打分。

其中關(guān)鍵的是以指令遵循指標(biāo)為得分上限，即后面兩個(gè)指標(biāo)的得分不能超過指令遵循指標(biāo)。因?yàn)橛性S多視頻編輯數(shù)據(jù)盡管視頻質(zhì)量高但完全沒有被編輯，因此作者希望指令遵循是首要評(píng)判標(biāo)準(zhǔn)。隨后作者將編輯指令、編輯前視頻和編輯后視頻輸入到 VLMs 中進(jìn)行打分。在此，作者人工挑選并打分了 300 個(gè)視頻編輯對(duì)并與 3 個(gè) VLMs 模型打分結(jié)果進(jìn)行對(duì)比。將視頻編輯對(duì)平均得分超過 3 分定義為正樣本、小于等于 3 分為負(fù)樣本。最終計(jì)算 Qwen3-VL-A3B 模型準(zhǔn)確率為 61%，Intern3.5-VL-38B 模型準(zhǔn)確率為 66%，Seed1.6-VL 準(zhǔn)確率為 70%，Gemini2.5-Pro 準(zhǔn)確率為 69%。但是受限于 Seed1.6-VL 和 Gemini2.5-Pro 的 API TPM 的限制，作者最終選用 Intern3.5-VL-38B 模型用于打分并過濾所有得分大于 3 分的視頻編輯對(duì)。

3. OpenVE-Edit 指令跟隨視頻編輯模型

圖 8: OpenVE-Edit 的整體架構(gòu)。(a) OpenVE-Edit 的架構(gòu)。(b) MoE-Connector 模塊的詳細(xì)結(jié)構(gòu)。

OpenVE-Edit 創(chuàng)新點(diǎn)：

僅用 T5 特征只能得到字面意思的指令編輯表示而不能獲取更高維度的指令與視覺語義空間關(guān)系表示。因此，作者將輸入原始視頻和編輯指令一同輸入到多模態(tài)大模型中，這使模型能夠捕捉更高維度編輯指令和視覺特征之間的語義與空間關(guān)系。
為了應(yīng)對(duì)多樣化視頻編輯的各種不同需求，任務(wù)異質(zhì)性在使用單一模型時(shí)會(huì)導(dǎo)致參數(shù)效率低下，因?yàn)楣蚕韰?shù)會(huì)將易受干擾的表征內(nèi)化，從而導(dǎo)致專業(yè)化程度不理想并增加參數(shù)數(shù)量。因此，基于多任務(wù)感知的 MoE-Connector 模塊被設(shè)計(jì)用于同時(shí)應(yīng)對(duì)圖像和視頻不同編輯類型。
由于現(xiàn)有的視頻生成模型都已經(jīng)經(jīng)過大規(guī)模的數(shù)據(jù)預(yù)訓(xùn)練，而 MoE-Connector 在訓(xùn)練開始時(shí)是隨機(jī)初始化的。如果它直接輸出一堆無意義的「噪聲」視覺特征給下游模型，很可能會(huì)嚴(yán)重干擾下游模型的穩(wěn)定狀態(tài)，導(dǎo)致訓(xùn)練崩潰或收斂緩慢。因此，為了降低訓(xùn)練難度，提高訓(xùn)練效率，受 ControlNet 工作的啟發(fā)，作者將 MoE-Connector 最后一個(gè) MLP 層初始化權(quán)重為全零。并將其輸出的特征與原本編輯指令通過 T5 得到的特征在通道維度拼接起來。這樣，T5 特征在訓(xùn)練的第 0 步完全不會(huì)被新加的模塊所影響。

4. OpenVE-Bench 指令跟隨視頻編輯評(píng)測(cè)

現(xiàn)在還沒有一個(gè)通用的并且與人類評(píng)價(jià)高度對(duì)齊的指令跟隨的視頻編輯評(píng)測(cè)。因此，作者提出了 OpenVE-Bench，一個(gè)人工精心挑選包含 8 類別共 431 條編輯對(duì)的評(píng)測(cè)集，并且對(duì)于每個(gè)類別均精心設(shè)計(jì)了 Instruction Consistency & Detail Fidelity, and Visual Quality & Stability 三個(gè)關(guān)鍵評(píng)測(cè) Prompt，最終將編輯指令、原始視頻、編輯后視頻共同輸入給 VLM 得到編輯分?jǐn)?shù)。

5. 實(shí)驗(yàn)結(jié)果

a. 定量結(jié)果

作者對(duì)比了目前所有的視頻編輯開源模型 VACE、OmniVideo、InsViE、ICVE、Lucy-Edit、DITTO 和閉源模型 Runway Aleph，在使用 80G 顯存 GPU 復(fù)現(xiàn)開源模型過程中。OmniVideo 僅能生成 640*352 分辨率，17 幀的視頻，其他分辨率和幀數(shù)都會(huì)導(dǎo)致視頻異常。ICVE 模型僅能在 480*768 分辨率生成最多 41 幀的視頻，更多幀數(shù)的生成會(huì)導(dǎo)致顯存爆炸，因此使用 384*240 以保證所有幀被編輯。其他的模型都按照其訓(xùn)練的分辨率和輸入視頻的幀數(shù)對(duì)應(yīng)進(jìn)行生成。另外由于 Runway Aleph 費(fèi)用的限制，作者在每類評(píng)測(cè)集上僅挑選 30 個(gè)樣本進(jìn)行測(cè)試與評(píng)分。

表 2 和 3 展示了現(xiàn)在所有指令跟隨視頻編輯模型在 OpenVE-Bench 上的評(píng)測(cè)結(jié)果。閉源的 Runway Aleph 模型在 Seed1.6VL 和 Gemini 2.5 Pro 兩個(gè)評(píng)測(cè)模型上均取得了最出色的效果并且遠(yuǎn)超現(xiàn)有開源模型。開源的 VACE、OmniVideo 和 InsViE 由于模型參數(shù)的限制或者數(shù)據(jù)集的限制結(jié)果較差。Lucy-Edit 在 5B 的參數(shù)量下取得了比較平均的效果。ICVE 在 13B 參數(shù)量下取得了不錯(cuò)的效果，但高分辨率的編輯僅支持更少的幀數(shù)。DITTO 由于數(shù)據(jù)集主要為 global style 類型，因此其在這一指標(biāo)上得分較高。作者的 OpenVE-Edit 僅 5B 的參數(shù)量取得了 2.41 的總指標(biāo)，實(shí)現(xiàn)較小的參數(shù)量下超越了現(xiàn)有所有開源模型效果。

b. 定性結(jié)果

圖 9 展示了作者的方法和現(xiàn)有開源 SOTA 方法的定性對(duì)比。選取了當(dāng)前開源模型里最好的三個(gè)模型做對(duì)比。在左邊的 Background Change 的例子里，Lucy-Edit 盡管實(shí)現(xiàn)了背景的變換，但是小狗沒有保持與原視頻一致。ICVE 錯(cuò)誤的擦除了女人并且男人的長(zhǎng)相也發(fā)生了變化。Ditto 錯(cuò)把墻上的畫當(dāng)作前景并且小狗的顏色變深。作者的方法能夠在前景所有主體保持一致性的同時(shí)背景按照編輯指令改變。右邊 Local Change 的例子中，Lucy-Edit 錯(cuò)誤的將三個(gè)人的衣服全部編輯。ICVE 錯(cuò)誤的對(duì)左邊兩個(gè)人編輯，并且人也發(fā)生了變化。Ditto 不僅編輯錯(cuò)了對(duì)象還錯(cuò)誤地將背景改變了。作者的方法只按照編輯指令改變了對(duì)應(yīng)女人的衣服并且保持其他男人和背景的一致性。

圖 9: 與當(dāng)前 SoTA 方法的定性比較結(jié)果，并舉例說明背景變化（左）和局部變化（右）。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.