国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

當(dāng)視頻難以被表征:UCSD、HKUST等機構(gòu)聯(lián)合提出FlowRVS

0
分享至



本文第一作者為王贊毅,本科畢業(yè)于西安交通大學(xué),現(xiàn)為加州大學(xué)圣迭戈分校(UCSD)ECE 系碩士一年級學(xué)生。其主要研究方向為:視頻理解,生成式建模。本工作為作者在國家電網(wǎng)思極 AI 實驗室(SGIT AI Lab) 實習(xí)期間的成果。

長期以來,計算機視覺領(lǐng)域陷入了一個 “表征(Representation)” 的執(zhí)念。我們習(xí)慣設(shè)計各種精巧的 Encoder,試圖將動態(tài)世界壓縮成一組特征向量。然而,視頻作為現(xiàn)實的高維投影,其熵值之高、動態(tài)之復(fù)雜,讓這種試圖 “定格” 的表征顯得力不從心。特別是在指代視頻分割(RVOS)中,傳統(tǒng) “先定位、后分割” 范式遭遇了信息坍縮的瓶頸 —— 一旦特征被壓縮,細(xì)粒度的時空對應(yīng)關(guān)系便隨之瓦解。

如果換一種思路呢?如果不再執(zhí)著于 “壓縮” 和 “表征”,而是利用生成式模型對物理規(guī)律的深刻理解去‘重演’這個過程,是否能實現(xiàn)降維打擊?在剛剛公布的 ICLR 2026 中,來自SGIT AI Lab,UCSD, HKUST等機構(gòu)的研究團隊給出了肯定的答案。他們提出的FlowRVS,跳出了傳統(tǒng)‘凍結(jié)骨干提取特征 + 獨立解碼器預(yù)測’的桎梏。不同于以往將大模型僅僅視為一個特征提取器(Feature Extractor),F(xiàn)lowRVS 徹底釋放了 DiT(Diffusion Transformer)全參數(shù)的生成能力,將分割任務(wù)重塑為一個在潛空間中、直接從視頻流向 Mask 的條件流匹配過程。這不僅是 SOTA 的提升,更是一種視覺感知范式的代際轉(zhuǎn)換。



  • 論文標(biāo)題:Deforming Videos to Masks: Flow Matching for Referring Video Segmentation
  • 論文鏈接:https://arxiv.org/abs/2510.06139
  • 代碼鏈接:https://github.com/xmz111/FlowRVS

生成式建模:從 “壓縮” 到 “仿真” 的降維打擊

"What I cannot create, I cannot understand." — Richard Feynman

這句物理學(xué)界的至理名言,或許是 FlowRVS 最底層的注腳。極致的生成,本身就是極致的理解。視頻理解的本質(zhì)困難在于其極高的不確定性與時空連續(xù)性。傳統(tǒng)的判別式模型往往試圖在這些不確定的像素中強行劃定邊界,這就像是在湍急的河流中試圖用網(wǎng)兜住每一滴水,費力且由于遮擋或運動模糊而常常失效。

相比之下,Sora, Wan 2.1, 以及最近大火的 Seedance2 等生成式模型之所以強大,是因為它們在預(yù)訓(xùn)練過程中通過學(xué)習(xí) “如何生成視頻”,掌握了物體恒常性、光影變化乃至物理運動的元知識。這種 “World Simulator” 級別的先驗,恰恰是解決復(fù)雜視覺判別任務(wù)的終極答案。試想,Seedance 2 能夠生成長達(dá)數(shù)分鐘、且符合人體動力學(xué)的復(fù)雜舞蹈,這證明了 生成模型足以捕捉極高維度的時空演變規(guī)律。FlowRVS 的核心洞察正基于此:與其訓(xùn)練一個模型去死記硬背像素的分類,不如利用 T2V 模型已有的生成能力,引導(dǎo)視頻特征 “自然生長” 出目標(biāo)的分割掩碼。這本質(zhì)上是同一套物理法則在不同方向上的應(yīng)用。

確立了利用生成式模型的大方向,僅僅是推開了真理的大門,而通往最優(yōu)解的路徑依然迷霧重重?;厮?Table 2 的消融實驗,我們看到的是一條從直覺出發(fā),在碰壁中不斷修正,最終回歸物理本質(zhì)的探索軌跡。

最初的構(gòu)想往往是最樸素的:既然目標(biāo)是分割,能否直接訓(xùn)練模型將高維視頻特征 “壓縮” 為二值 Mask?這種 “一步映射(One-step Prediction)” 看似最符合判別式任務(wù)的習(xí)慣,但實驗結(jié)果卻相當(dāng)殘酷(J&F 38.9)。事實證明,試圖讓模型在一步之內(nèi)跨越如此巨大的信息鴻溝,如同要求它從懸崖直接跳入谷底,劇烈的特征坍縮導(dǎo)致了訓(xùn)練的極度不穩(wěn)定。



既然直接映射行不通,那么模仿 Sora 等主流生成模型,從高斯噪聲開始生成 Mask 呢?這種 “從噪聲出發(fā)(Noise-to-Mask)” 的范式將視頻降級為輔助條件,試圖在一張白紙上 “幻視” 出分割結(jié)果。然而,這一嘗試帶來了災(zāi)難性的 32.3 分。這個全場最低分揭示了一個被忽視的常識:視頻本身包含了極高熵的空間和紋理細(xì)節(jié),舍棄這些寶貴的先驗,強行從零開始生成,無異于買櫝還珠,舍近求遠(yuǎn)。

真正的轉(zhuǎn)機,出現(xiàn)在對 “殘差” 思維的回歸上。當(dāng)不再強求模型憑空預(yù)測絕對的 Mask,而是轉(zhuǎn)而預(yù)測相對于視頻特征的 “變化量(速度)” 時,性能瞬間躍升至 50.8。這一數(shù)據(jù)的暴漲成為了至關(guān)重要的路標(biāo) —— 它證明了保留視頻本身作為基底(Source)的巨大價值。既然預(yù)測 “一步變化” 如此有效,那么將其擴展為連續(xù)的、平滑的變形過程,便是順理成章的進化方向。順著這一邏輯,F(xiàn)lowRVS 最終確立了Video-to-Mask Flow的范式:直接以視頻為流的起點,學(xué)習(xí)一個確定性的 ODE 軌跡,引導(dǎo)高維特征平滑地 “流淌” 為目標(biāo) Mask。這種范式完全解鎖了預(yù)訓(xùn)練模型的錢呢。最終 60.6 的 SOTA 成績,不僅是分?jǐn)?shù)的勝利,更是對 “如何正確利用視頻信息” 這一物理本質(zhì)的深刻回歸。



非對稱的流:當(dāng) “生成” 遇到 “判別”

如果說將判別任務(wù)重構(gòu)為生成任務(wù)是 FlowRVS 的 “第一性原理”,那么如何處理這兩個過程在物理形態(tài)上的根本差異,則是決定模型生死的關(guān)鍵細(xì)節(jié)。讓我們把目光投向論文中的 Figure 3—— 這張圖揭示了一個被長期忽視的拓?fù)鋵W(xué)矛盾。標(biāo)準(zhǔn)的視頻生成(如 Sora 或 Wan)是一個語義的發(fā)散過程(Divergent Process)”。模型從一個單純的高斯噪聲出發(fā),就像宇宙大爆炸一樣,可以在潛空間中向任意方向擴散,最終坍縮成無數(shù)種合理的視頻 —— 一只貓可以跑向左邊,也可以跑向右邊,只要符合物理規(guī)律即可。在這種發(fā)散場中,每一加噪步(Timestep)的重要性相對均衡,模型享受著 “探索” 的自由。



然而,RVOS 這樣的判別式任務(wù)是一個收斂過程(Convergent Process)。輸入是蘊含了億萬像素信息的復(fù)雜視頻,目標(biāo)卻是唯一確定的二值掩碼(Mask)。這就好比要將奔涌的江河強行收束進原本的源頭。在這個過程中,t=0(流的起點)擁有著至高無上的決定權(quán)。

BBS:搶占 t=0 的 “決策權(quán)”

在傳統(tǒng)的 Flow Matching 訓(xùn)練中,時間t 是均勻采樣的(Uniform Sampling)。這意味著模型會花費同樣多的算力去學(xué)習(xí) t=0.9 時的微調(diào)(此時 Mask 輪廓已經(jīng)基本成型),和 t=0.1 時的初始變形。但在 RVOS 的收斂漏斗中,這完全是資源錯配。

t=0 時刻,是視頻特征與文本指令發(fā)生劇烈化學(xué)反應(yīng)的 “奇點”。文本必須在這一瞬間,從視頻紛繁復(fù)雜的萬千物體中,精準(zhǔn)地 “抓住” 那只 “較小的猴子”。如果在這一步失之毫厘,后續(xù)的流場無論如何精細(xì)演化,都將是謬以千里的徒勞。

FlowRVS 提出的 邊界偏置采樣(BBS) 正是基于這一物理直覺。它打破了均質(zhì)流的假設(shè),強行扭曲了訓(xùn)練的時間分布,讓模型在訓(xùn)練初期瘋狂地 “死磕” 起點(Oversampling start point)。實驗數(shù)據(jù)證明了這一直覺的準(zhǔn)確性:僅僅引入 BBS,性能就暴漲了 10 個點。這說明,對于收斂任務(wù),“出發(fā)的方向” 遠(yuǎn)比 “路途的修飾” 重要。

多步不如一步?判別任務(wù)的物理必然

最后,我們不得不面對一個看似矛盾的現(xiàn)象:我們費盡周折引入了 ODE 求解器和 Flow Matching,但在最終推理時,竟然發(fā)現(xiàn)與傳統(tǒng)判別模型一樣的 “一步推理(1-step)” 效果反而優(yōu)于精細(xì)的多步求解。

這并非 Flow Matching 的失敗,恰恰相反,這正是唯一 target 的判別式任務(wù)的物理必然。

標(biāo)準(zhǔn)的視頻生成是一個隨文本指令的 “探索” 過程 —— 從一個噪聲出發(fā),終點是不確定的,模型需要在多步迭代中慢慢 “畫” 出細(xì)節(jié),每一步都充滿了隨機性與創(chuàng)造性。但 RVOS 截然不同,它是一個極致的收斂過程。無論輸入視頻多么復(fù)雜,對于給定的文本指令,目標(biāo)的 Mask 是唯一、固定且確定的(Deterministic)。

在這種強約束下,F(xiàn)low Matching 訓(xùn)練出的向量場不再需要去 “探索” 路徑。因為終點已經(jīng)鎖死,模型學(xué)到的流場實際上就是一個直指終點的 “坍縮” 向量。當(dāng) BBS 策略確保了起點的精準(zhǔn)后,這條從高維視頻到低維 Mask 的軌跡變得筆直而確定。既然方向已經(jīng)如此清晰且唯一,我們自然不需要分多步去小心翼翼地逼近 —— 直接沿著切線邁出一步,就能精準(zhǔn) “撞線”。這正是生成式框架在判別任務(wù)中展現(xiàn)出的獨特魅力:用生成的手段訓(xùn)練,卻獲得了回歸的極速推理。

看見 “熵減”:不僅僅是 SOTA

當(dāng)我們將 FlowRVS 的性能量化時,數(shù)字確實令人振奮:在最考驗動作理解的 MeViS 基準(zhǔn)上,F(xiàn)lowRVS 刷新了 SOTA 記錄(51.1 J&F),基于 WAN2.1 T2V 1.3B 的模型即便與那些使用了更大參數(shù)量的模型相比也毫不遜色。更令人驚訝的是它的零樣本(Zero-shot)能力 —— 在從未見過的 Ref-DAVIS17 數(shù)據(jù)集上,僅憑 T2V 底座的通用知識,它就跑出了 73.3 的高分。但數(shù)字背后,F(xiàn)lowRVS 真正的魅力在于其處理視頻時的 “確定性”。既然我們將 RVOS 視為一個收斂過程,那么這種物理直覺在實際場景中究竟帶來了哪些代際優(yōu)勢?



1. 穿越迷霧的 “物理直覺”

傳統(tǒng)的判別式模型往往在逐幀檢測,一旦物體被遮擋或環(huán)境變得混沌(如煙霧、強光、陰影),“檢測框” 往往會發(fā)生抖動甚至丟失。但在 FlowRVS 的視角里,視頻是一個整體的流場。即便在嚴(yán)重的遮擋(Occlusion)或非剛體形變下,分割 Mask 依然像膠水一樣緊緊吸附在物體表面。這說明模型并非在機械地匹配像素,而是利用 T2V 底座中蘊含的物理規(guī)律,理解了物體的 “恒常性”。

2. 極速推理的秘密:被拉直的時空

得益于對視頻全局建模的特性,F(xiàn)lowRVS 在超長序列的處理上展現(xiàn)出了傳統(tǒng)模型難以企及的穩(wěn)定性。在長達(dá) 81 幀的超長測試中,F(xiàn)lowRVS 的推理效率幾乎沒有波動。更重要的是,它徹底解決了長距離追蹤中的 “軌跡漂移” 難題,在更長幀數(shù)與視頻(200 幀,25s)下依舊能保持讓人驚訝的外推能力。

這種穩(wěn)定性源自于 Flow Matching 訓(xùn)練出的流場具有極強的方向確定性,模型表現(xiàn)出了一種近乎 “直覺” 的預(yù)測力:即便物體的動作超出了訓(xùn)練集的分布范疇(如 “翻跟頭的狗”,“打籃球的人”),它依然能憑借對物理運動軌跡的理解,順著流場的方向完成精準(zhǔn)分割 。這種從已知推向未知的泛化紅利,證明了 FlowRVS 捕捉到的是視頻運動的本質(zhì)規(guī)律,而非簡單的模式記憶。

萬流歸宗:Flow Matching 的跨模態(tài)大一統(tǒng)

FlowRVS 的成功,不僅是一個 Vision 任務(wù)的勝利,更是對 Flow Matching 理論普適性的又一次有力實證。

無論是 Seedance 2 將音頻律動映射為肢體動作,還是 Sora 將文本映射為光影像素,亦或是 FlowRVS 將視頻像素映射為語義掩碼,其數(shù)學(xué)本質(zhì)都是一致的:利用向量場(Vector Field)構(gòu)建兩個概率分布之間的最優(yōu)傳輸(Optimal Transport)路徑。

在 Flow Matching 的視角下,模態(tài)的壁壘被打破了。Input 可以是噪聲、是視頻、是音頻;Output 可以是圖像、是 Mask、是深度圖,甚至是 3D 動作。 FlowRVS 證明了,只要我們能定義好源分布(Source)和目標(biāo)分布(Target),F(xiàn)low Matching 就能在兩者之間架起一座確定性的橋梁。

這或許預(yù)示著視覺感知的未來:我們不再需要為檢測、分割、生成分別設(shè)計特異化的架構(gòu)(Encoder-Decoder, R-CNN...),所有的任務(wù),終將被統(tǒng)一在一個簡潔優(yōu)美的 ODE 方程之中。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
美國打伊朗到底圖什么?八成中國人以為是搶石油……

美國打伊朗到底圖什么?八成中國人以為是搶石油……

基本常識
2026-03-02 23:53:16
1.76億獨生子女,迎來一個壞消息,以后可能真的沒親戚了

1.76億獨生子女,迎來一個壞消息,以后可能真的沒親戚了

老特有話說
2026-03-01 21:57:03
中國為何還在觀望?一旦卷入沖突,恐怕沒誰能在貿(mào)易和經(jīng)濟上幫咱

中國為何還在觀望?一旦卷入沖突,恐怕沒誰能在貿(mào)易和經(jīng)濟上幫咱

風(fēng)眼軍情
2026-03-02 19:11:49
短劇變天!真人劇虧損率超90%,頭部演員被欠薪

短劇變天!真人劇虧損率超90%,頭部演員被欠薪

新腕兒
2026-03-02 18:39:39
王毅外長和伊朗通話后,中國油輪獲免死金牌?日本陷入能源危機?

王毅外長和伊朗通話后,中國油輪獲免死金牌?日本陷入能源危機?

知法而形
2026-03-03 10:05:46
李雨桐實名舉報薛之謙涉嫌重婚罪,稱其還殺了自己孩子

李雨桐實名舉報薛之謙涉嫌重婚罪,稱其還殺了自己孩子

映射生活的身影
2026-03-03 09:52:39
4位名人被困中東!轟炸聲中徹夜未眠,航班全取消,只能焦慮等待

4位名人被困中東!轟炸聲中徹夜未眠,航班全取消,只能焦慮等待

娛說瑜悅
2026-03-02 14:18:06
今年元宵節(jié)不一般!紅月亮+月全食,記好時間地點,錯過再等46年

今年元宵節(jié)不一般!紅月亮+月全食,記好時間地點,錯過再等46年

市井覓食記
2026-03-03 11:20:40
滯留迪拜母女為回國,花36萬元買12張機票:擔(dān)心航班取消,連續(xù)3天的票都買了!中歐航線票價也“狂飆”:幾千元漲到兩三萬

滯留迪拜母女為回國,花36萬元買12張機票:擔(dān)心航班取消,連續(xù)3天的票都買了!中歐航線票價也“狂飆”:幾千元漲到兩三萬

每日經(jīng)濟新聞
2026-03-03 19:17:58
海瀾之家被“全軍拉黑”!中標(biāo)后拒簽合同,200億撐不起一單軍需

海瀾之家被“全軍拉黑”!中標(biāo)后拒簽合同,200億撐不起一單軍需

牛鍋巴小釩
2026-03-03 00:56:41
被炸死的內(nèi)賈德突然現(xiàn)身,特朗普放出了魔鬼

被炸死的內(nèi)賈德突然現(xiàn)身,特朗普放出了魔鬼

生活魔術(shù)專家
2026-03-03 01:37:43
突然大跌,15萬人爆倉!伊朗發(fā)射高超音速導(dǎo)彈,并封鎖霍爾木茲海峽,油價或飆升,國內(nèi)金飾克價突破1600元

突然大跌,15萬人爆倉!伊朗發(fā)射高超音速導(dǎo)彈,并封鎖霍爾木茲海峽,油價或飆升,國內(nèi)金飾克價突破1600元

每日經(jīng)濟新聞
2026-03-01 01:03:36
美軍三架F-15E被擊落,到底誰干的?

美軍三架F-15E被擊落,到底誰干的?

樞密院十號
2026-03-03 09:41:25
與孔令輝分手12年,馬蘇坦白:那晚被黑人馱肩照,終為人生買個單

與孔令輝分手12年,馬蘇坦白:那晚被黑人馱肩照,終為人生買個單

喜歡歷史的阿繁
2026-03-03 07:26:03
末節(jié)21罰對3罰??!7倍差距?。≮A的不好意思了.....

末節(jié)21罰對3罰??!7倍差距啊!贏的不好意思了.....

柚子說球
2026-03-03 18:40:26
3-0爆冷!中國隊升至榜首奪冠條件曝光

3-0爆冷!中國隊升至榜首奪冠條件曝光

郭夷包工頭
2026-03-03 15:17:24
北京明天后天有小雪,最新預(yù)報來了

北京明天后天有小雪,最新預(yù)報來了

北青網(wǎng)-北京青年報
2026-03-03 14:05:22
蘇聯(lián)“人猿雜交”實驗:5名女孩與11只猩猩參與,結(jié)局如何?

蘇聯(lián)“人猿雜交”實驗:5名女孩與11只猩猩參與,結(jié)局如何?

談史論天地
2026-02-28 13:35:18
新華社消息|伊朗伊斯蘭革命衛(wèi)隊稱將擊毀試圖通過霍爾木茲海峽的船只

新華社消息|伊朗伊斯蘭革命衛(wèi)隊稱將擊毀試圖通過霍爾木茲海峽的船只

新華社
2026-03-03 09:52:49
陳思誠連續(xù)13年為佟麗婭慶生,今年稱呼變了味,背后全是現(xiàn)實

陳思誠連續(xù)13年為佟麗婭慶生,今年稱呼變了味,背后全是現(xiàn)實

鄉(xiāng)野小珥
2026-03-03 14:30:27
2026-03-03 20:35:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12402文章數(shù) 142577關(guān)注度
往期回顧 全部

科技要聞

擁抱AI的"牛馬":邊提效邊自嘲"自費"上班

頭條要聞

有分析稱中方或采取更大膽行動宣示領(lǐng)土主張 中方回應(yīng)

頭條要聞

有分析稱中方或采取更大膽行動宣示領(lǐng)土主張 中方回應(yīng)

體育要聞

35輪后積分-7,他們遭遇史上最早的降級

娛樂要聞

謝娜霸氣護夫:喊話薛之謙給張杰道歉

財經(jīng)要聞

特朗普“不惜一切”!全球股債齊崩

汽車要聞

第一梯隊輔助駕駛加持 iCAR V27定檔3月13日上市

態(tài)度原創(chuàng)

藝術(shù)
家居
手機
數(shù)碼
軍事航空

藝術(shù)要聞

Nihad Aghazada:當(dāng)代阿塞拜疆畫家

家居要聞

萬物互聯(lián) 享科技福祉

手機要聞

4499元買iPhone 17e到底值不值:屏幕刷新率仍用60Hz

數(shù)碼要聞

榮耀MagicOS公布煥新狀態(tài)欄,在線征集用戶意見

軍事要聞

伊朗:擊中美空軍基地大樓

無障礙瀏覽 進入關(guān)懷版