国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

VideoCoF推出創(chuàng)新視頻編輯技術(shù),無需Mask實現(xiàn)高精度時序推理!

0
分享至



本文第一作者是 UTS 博士生楊向鵬,主要研究方向是視頻生成和世界模型;第二作者是謝集,浙江大學(xué)的四年級本科生,主要研究方向統(tǒng)一多模態(tài)大模型和視頻生成。通訊作者是吳強教授,主要研究方向為計算機視覺和模式識別。

現(xiàn)有的視頻編輯模型往往面臨「魚與熊掌不可兼得」的困境:專家模型精度高但依賴 Mask,通用模型雖免 Mask 但定位不準(zhǔn)。來自悉尼科技大學(xué)和浙江大學(xué)的研究團隊提出了一種全新的視頻編輯框架 VideoCoF,受 LLM「思維鏈」啟發(fā),通過「看 - 推理 - 編輯」的流程,僅需 50k 訓(xùn)練數(shù)據(jù),就在多項任務(wù)上取得了 SOTA 效果,并完美支持長視頻外推!

目前,模型、代碼均已開源,4 步編輯一條視頻,訓(xùn)練數(shù)據(jù) VideoCoF-50k 預(yù)計本周內(nèi)開源!



  • 論文鏈接: https://arxiv.org/abs/2512.07469
  • 項目主頁: https://videocof.github.io/
  • 代碼 / 模型: https://github.com/knightyxp/VideoCoF
  • Demo鏈接: https://huggingface.co/spaces/XiangpengYang/VideoCoF

痛點:精度與通用的「兩難困境」

在 AIGC 時代,視頻編輯已經(jīng)有了長足進(jìn)步,但仍存在一個明顯的痛點:

  • 專家模型(Expert Models):像醫(yī)生做手術(shù)一樣精準(zhǔn),但往往需要用戶提供繁瑣的 Mask,因此阻礙了自動化和統(tǒng)一化。
  • 通用上下文學(xué)習(xí)模型(Unified In-Context Models):雖然不需要 Mask,但在面對復(fù)雜的空間關(guān)系(比如「右邊的那個男孩」)時,往往「眼神不好」,定位不準(zhǔn)。

能不能既要高精度,又不要 Mask?

VideoCoF 給出了肯定的答案。

核心創(chuàng)新:像人一樣「先思考,后動手」

VideoCoF 的核心靈感來自于大語言模型(LLM)中的思維鏈(Chain-of-Thought)。研究團隊認(rèn)為,視頻生成模型也應(yīng)該具備類似的推理能力。

為此,他們提出了Chain of Frames (CoF) 機制,將視頻編輯過程重構(gòu)為三個階段:

  1. Seeing(看):輸入原始視頻。
  2. Reasoning(推理):模型先預(yù)測出「推理幀」(Reasoning Frame),即用高亮區(qū)域明確指出「哪里需要編輯」。
  3. Editing(編輯):基于推理結(jié)果,精準(zhǔn)生成目標(biāo)視頻。



這種顯式的推理過程,讓模型學(xué)會了主動建立編輯指令與畫面區(qū)域的對應(yīng)關(guān)系,從而實現(xiàn)了無需 Mask 的高精度編輯。

時序 RoPE 對齊,實現(xiàn)長視頻外推



除了推理能力,視頻編輯的另一個難題是長度限制。很多模型只能編輯短視頻,一旦視頻變長,動作就會變形或崩壞。

VideoCoF 引入了獨特的RoPE(旋轉(zhuǎn)位置編碼)對齊策略:

  • 巧妙的對齊了原視頻 [1,F] 和編輯視頻 [1,F] 時間索引,同時將推理幀的時間索引設(shè)置為 0,避免了推理幀與編輯幀的索引沖突;
  • 實現(xiàn)了「訓(xùn)練短視頻(33 幀),推理長視頻(140 + 幀)」 的能力。

這意味著,你用極小的成本訓(xùn)練出的模型,可以在推理時處理遠(yuǎn)超訓(xùn)練長度的視頻,且保持動作流暢、無紋理突變和偽影。



實驗驗證:50k 數(shù)據(jù)「四兩撥千斤」,性能全面 SOTA

除了架構(gòu)設(shè)計的精妙,VideoCoF 最令人印象深刻的當(dāng)屬其驚人的數(shù)據(jù)效率。

為了驗證效果,研究團隊構(gòu)建了一個包含添加、刪除、替換及風(fēng)格遷移的高質(zhì)量實例級數(shù)據(jù)集,并在VideoCoF-Bench上進(jìn)行了嚴(yán)格測評。

1.以小博大:50k vs 100 萬

  • VideoCoF:僅使用 50k (5 萬) 視頻對進(jìn)行微調(diào)。
  • 基線模型 (ICVE):依賴龐大的 100 萬 視頻預(yù)訓(xùn)練 + 15 萬 微調(diào)數(shù)據(jù)。

盡管訓(xùn)練數(shù)據(jù)量僅為基線的1/20,VideoCoF 卻實現(xiàn)了性能的反超:

  • 指令遵循 (Instruct Follow):得分高達(dá)8.97(滿分 10),顯著優(yōu)于 ICVE (7.79) 和 VACE (7.47)。這意味著模型能更精準(zhǔn)地 “聽懂人話”,不會漏掉指令細(xì)節(jié)。
  • 成功率 (Success Ratio):達(dá)到了76.36%,大幅領(lǐng)先于商業(yè)模型 Lucy Edit (29.64%) 和 ICVE (57.76%)。



2.為什么「推理」如此重要?(消融實驗)

VideoCoF 的核心在于「先推理,再編輯」。那么,如果去掉推理幀,直接讓模型硬算,效果會怎樣?

研究團隊進(jìn)行了詳細(xì)的消融實驗(Ablation Study)。結(jié)果顯示,相比于沒有推理環(huán)節(jié)的Naive Temporal in Context基線:

  • 引入CoF (Chain of Frames)后,指令遵循能力提升了近 1 分,成功率提升了 10% 以上。
  • 引入RoPE 索引解耦后,長視頻外推的保真度(Preservation)和時序一致性(CLIP-F)均有顯著提升。

這有力地證明了:顯式的時序推理(See-Reason-Edit)不僅是錦上添花,更是實現(xiàn)高精度視頻編輯的關(guān)鍵。

3.推理幀長什么樣?「五彩斑斕的灰」才是最優(yōu)解

除了「要不要推理」,VideoCoF 團隊還深入研究了「推理幀到底該長什么樣」,是像分割模型那樣用黑白掩碼?還是像圈圖那樣用紅圈?

在 Table 3 的消融實驗中,團隊對比了三種形式:

  • 純黑背景 (Black BG):效果最差,因為擴散模型往往對極端的純黑 / 純白像素不敏感。
  • 紅色高亮 (Red Highlight):效果中規(guī)中矩。
  • 灰色高亮 (Gray Highlight):表現(xiàn)優(yōu)于紅色。

最終殺器:漸變灰 (Progressive Gray) 。VideoCoF 發(fā)現(xiàn),推理幀不應(yīng)只是一個靜態(tài)的「定位圖」,而應(yīng)充當(dāng)從「源視頻」到「編輯視頻」的時序過渡橋梁。

因此,團隊設(shè)計了一種透明度漸變(如 0% → 25% → 50% → 75%)的灰色掩碼。這種設(shè)計不僅明確了「哪里要改」,更給模型一種「變化正在發(fā)生」的動態(tài)暗示。

實驗結(jié)果(Table 3)顯示,相比于靜態(tài)的紅 / 黑掩碼,漸變灰設(shè)計直接將指令遵循得分(Instruct Follow)從 7.5/7.8 拉升到了 8.97,證明了細(xì)節(jié)設(shè)計對模型性能的巨大影響。





效果展示:萬物皆可改

VideoCoF 展現(xiàn)了強大的通用編輯能力,無論是增刪改查,還是局部風(fēng)格遷移,都能精準(zhǔn)搞定:

  1. 多實例移除 (Multi-Instance Removal):「移除左邊穿米色褲子的年輕女性」 —— 指哪打哪,背景自動補全,絕不誤傷旁人;
  2. 物體添加 (Object Addition):「在草地上憑空加一只白色的薩摩耶」 —— 從無到有,光影透視完美融合,仿佛它原本就在那里;
  3. 多實例物體替換:無論是給人換一件牛仔外套,還是更換性別年齡,從老頭換成女孩, 可以輕松完成;
  4. 局部風(fēng)格遷移:給兔子換個「銅色皮膚」,把路牌從「School」改成「Hospital」,細(xì)節(jié)紋理都能完美保留。


https://mp.weixin.qq.com/s/e0X_0oF46oYJNqyAI3qetQ?click_id=11

總結(jié)

VideoCoF 是一項通過「時序推理」統(tǒng)一視頻編輯任務(wù)的開創(chuàng)性工作。它不僅解決了無 Mask 編輯的精度問題,還通過高效的數(shù)據(jù)利用(僅 50k 樣本)和巧妙的 RoPE 設(shè)計,實現(xiàn)了低成本、高性能、長視頻支持的視頻編輯。對于社區(qū)而言,VideoCoF 證明了 Better Reasoning > More Data,為未來的視頻生成與編輯研究提供了新的思路。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
連續(xù)10個漲停,你以為贏了?后面緊跟著12個跌停

連續(xù)10個漲停,你以為贏了?后面緊跟著12個跌停

月滿大江流
2025-12-23 18:55:47
納悶了,中國對運送售臺武器的船只進(jìn)行攔截查扣,天會塌下來嗎?

納悶了,中國對運送售臺武器的船只進(jìn)行攔截查扣,天會塌下來嗎?

南權(quán)先生
2025-12-22 16:59:52
怎么這么多年了,國內(nèi)二手車還是這副德行?

怎么這么多年了,國內(nèi)二手車還是這副德行?

差評XPIN
2025-12-22 00:06:42
泰山學(xué)院公維章教授在濟南考察古跡時突然去世,年僅56歲,主要從事敦煌學(xué)研究

泰山學(xué)院公維章教授在濟南考察古跡時突然去世,年僅56歲,主要從事敦煌學(xué)研究

極目新聞
2025-12-23 10:07:05
楊鳴:現(xiàn)在這個形勢教練工作不好干,祝大家照顧好自己身體

楊鳴:現(xiàn)在這個形勢教練工作不好干,祝大家照顧好自己身體

懂球帝
2025-12-23 15:25:10
追夢格林一家近照,二婚娶女明星,生第5個娃,賺2.5億不缺錢

追夢格林一家近照,二婚娶女明星,生第5個娃,賺2.5億不缺錢

大西體育
2025-12-23 15:57:40
廣東兩小將喜憂參半!王洪澤打成籃板癡漢,陳家政鎖防守卻拒投!

廣東兩小將喜憂參半!王洪澤打成籃板癡漢,陳家政鎖防守卻拒投!

細(xì)話籃球
2025-12-23 22:27:20
喪心病狂!妻兒三人被殺案最新:丈夫曝駭人細(xì)節(jié),想問發(fā)小一句話

喪心病狂!妻兒三人被殺案最新:丈夫曝駭人細(xì)節(jié),想問發(fā)小一句話

阿纂看事
2025-12-23 14:49:23
優(yōu)衣庫這件男款灰毛衣,直接把“高級松弛感”焊身上了!

優(yōu)衣庫這件男款灰毛衣,直接把“高級松弛感”焊身上了!

車窗起霧q
2025-12-11 19:49:23
【2025.12.22】肖戰(zhàn)王源是鄰居?《二十不惑》還有會第3部?徐璐最近資源?為什么星光大賞這么寒磣?

【2025.12.22】肖戰(zhàn)王源是鄰居?《二十不惑》還有會第3部?徐璐最近資源?為什么星光大賞這么寒磣?

娛樂真爆姐
2025-12-23 22:51:21
張學(xué)良三個兒子瘋的瘋,死的死,都以為張家就要絕后,結(jié)局如何?

張學(xué)良三個兒子瘋的瘋,死的死,都以為張家就要絕后,結(jié)局如何?

古書記史
2025-12-12 11:32:56
徐正源告別儀式險落淚!鳳凰山感人視頻,球迷:五年風(fēng)雨感恩相遇

徐正源告別儀式險落淚!鳳凰山感人視頻,球迷:五年風(fēng)雨感恩相遇

奧拜爾
2025-12-23 17:17:16
Lisa舞臺爭議:藝術(shù)表達(dá)還是低俗表演?

Lisa舞臺爭議:藝術(shù)表達(dá)還是低俗表演?

娛曉曉
2025-12-22 17:02:07
女友嫌我家窮提出分手,15年后,我就任市委書記,在聚會上遇見她

女友嫌我家窮提出分手,15年后,我就任市委書記,在聚會上遇見她

紅豆講堂
2025-12-13 10:20:07
如果中國攔截美國售臺武器,天會塌下來嗎?會,但那是美臺的天!

如果中國攔截美國售臺武器,天會塌下來嗎?會,但那是美臺的天!

陳博世財經(jīng)
2025-12-22 10:54:48
廣東3新援隱患大!奎因三分不穩(wěn),薩姆納突破不穩(wěn),焦泊喬又崩了

廣東3新援隱患大!奎因三分不穩(wěn),薩姆納突破不穩(wěn),焦泊喬又崩了

細(xì)話籃球
2025-12-23 22:13:09
馬克龍背叛默茨,準(zhǔn)備與俄領(lǐng)導(dǎo)人會談;魯比奧猛批歐洲喪失價值觀

馬克龍背叛默茨,準(zhǔn)備與俄領(lǐng)導(dǎo)人會談;魯比奧猛批歐洲喪失價值觀

山河路口
2025-12-22 13:35:28
大清這艘“破船”為啥能撐到1895年?就靠這兩場滅國之戰(zhàn)嚇住歐洲

大清這艘“破船”為啥能撐到1895年?就靠這兩場滅國之戰(zhàn)嚇住歐洲

歷史按察使司
2025-12-23 08:43:28
鄭麗文被反將一軍,盧秀燕突然宣示2028,野心大發(fā)叫囂“國家論”

鄭麗文被反將一軍,盧秀燕突然宣示2028,野心大發(fā)叫囂“國家論”

策略述
2025-12-05 17:00:01
韓媒高呼安洗瑩成羽壇GOAT!直言將沖擊更高目標(biāo):無懼15分新規(guī)

韓媒高呼安洗瑩成羽壇GOAT!直言將沖擊更高目標(biāo):無懼15分新規(guī)

顏小白的籃球夢
2025-12-23 19:06:33
2025-12-23 23:43:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11980文章數(shù) 142518關(guān)注度
往期回顧 全部

科技要聞

慘烈90分鐘!快手驚魂:遭遇最強黑產(chǎn)攻擊

頭條要聞

美國全面禁售外國無人機 消費者正瘋狂囤貨大疆無人機

頭條要聞

美國全面禁售外國無人機 消費者正瘋狂囤貨大疆無人機

體育要聞

楊瀚森連續(xù)5場DNP!開拓者遭活塞雙殺

娛樂要聞

朱孝天回應(yīng)阿信感謝,自曝沒再收到邀約

財經(jīng)要聞

祥源系百億產(chǎn)品爆雷 浙金中心18人被拘

汽車要聞

四款新車集中發(fā)布 星途正式走進(jìn)3.0時代

態(tài)度原創(chuàng)

藝術(shù)
時尚
本地
健康
手機

藝術(shù)要聞

朱總理的詩句驚艷眾人,張家界竟藏有這樣的美景!

今年流行“毛衣+外套”,這樣穿時髦又好看!

本地新聞

云游安徽|宣城何以動人心,百年塔影一城徽韻

這些新療法,讓化療不再那么痛苦

手機要聞

iQOO Z11 Turbo突然官宣:驍龍8 Gen5+7600mAh,牙膏被擠爆了!

無障礙瀏覽 進(jìn)入關(guān)懷版