国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

視頻深度估計新SOTA來了,163倍數(shù)據(jù)效率解鎖生成式先驗

0
分享至



視頻擴(kuò)散模型(拿來做深度估計)簡直是降維打擊(overqualified)!

近日,一項剛在 arXiv 亮相的視頻深度估計新工作,在推特(X)上收獲了開源社區(qū)的不少關(guān)注。知名 AI 資訊博主AK (@_akhaliq)進(jìn)行了跟進(jìn)轉(zhuǎn)發(fā);也有同行博主探討了視頻擴(kuò)散模型在深度估計任務(wù)中的強(qiáng)大潛力,并留意到了該工作在 ScanNet 上 5.5 AbsRel 的準(zhǔn)確度、極高的數(shù)據(jù)效率以及對超長視頻時序閃爍的改善。

面對社區(qū)的熱情反饋,研究團(tuán)隊保持了學(xué)者的嚴(yán)謹(jǐn),并表示:這其實是對預(yù)訓(xùn)練生成式先驗一次順理成章的探索。為了方便大家親自驗證,不僅推理管線,團(tuán)隊已將整套訓(xùn)練代碼毫無保留地完全開源,希望能為社區(qū)提供一個扎實、可復(fù)現(xiàn)的基線 。



這項工作正是由香港科技大學(xué)(廣州)陳穎聰教授領(lǐng)銜的 EnVision Research 實驗室,聯(lián)合加州大學(xué)圣地亞哥分校、普林斯頓大學(xué)等頂尖機(jī)構(gòu),正式推出了全新的視頻深度估計框架——DVD (Deterministic Video Depth Estimation with Generative Priors)。論文共同第一作者為來自港科大(廣州)的張鴻飛、陳浩東、廖晨非與何晶。

在3D場景理解與自動駕駛等應(yīng)用中,視頻深度估計一直是不可或缺的核心基石。然而,如何在動態(tài)視頻中兼顧極致的幾何細(xì)節(jié)與長時序的穩(wěn)定性,始終是困擾整個計算機(jī)視覺界的難題。熟悉深度估計的讀者可能知道,EnVision Research 此前在圖像深度估計領(lǐng)域推出的代表作Lotus備受社區(qū)矚目(目前在 GitHub 上已攬獲近 800 Stars),而此次發(fā)布的 DVD 模型,正是將這種確定性適配在視頻深度估計領(lǐng)域的強(qiáng)勢拓展與跨越式升維。

DVD 是首個將預(yù)訓(xùn)練視頻擴(kuò)散模型(Video Diffusion Models)確定性地適配為“單次前向回歸器”(Single-pass depth regressors)的創(chuàng)新框架。它徹底擺脫了傳統(tǒng)生成式模型由于隨機(jī)采樣帶來的幾何幻覺,同時避免了判別式模型為了消除語義歧義而對海量標(biāo)注數(shù)據(jù)的貪婪渴求。

實驗證明,DVD 僅使用了 36.7 萬幀的特定任務(wù)訓(xùn)練數(shù)據(jù)——對比 Video Depth Anything (VDA) 高達(dá) 6000 萬幀的數(shù)據(jù)量,數(shù)據(jù)效率提升了驚人的 163 倍!進(jìn)一步地說,DVD 成功解鎖了視頻基礎(chǔ)模型中蘊(yùn)含的深厚幾何先驗,在零樣本(Zero-shot)性能上全面超越了現(xiàn)有 SOTA。



  • 論文鏈接:https://arxiv.org/abs/2603.12250
  • 項目主頁:https://dvd-project.github.io/
  • 代碼鏈接:https://github.com/EnVision-Research/DVD

1 背景介紹

在 DVD 誕生之前,主流的視頻深度估計方法主要陷入了兩種范式的固有缺陷中,形成了一個基礎(chǔ)性的“權(quán)衡悖論”(Trade-off):

  • 生成式模型(Generative Models,如 DepthCrafter):這類方法利用預(yù)訓(xùn)練的視頻基礎(chǔ)模型來捕獲豐富的時空先驗,零樣本泛化能力強(qiáng) 。但是,由于它們依賴隨機(jī)采樣機(jī)制,會引入時序上的不確定性。這種生成性質(zhì)往往優(yōu)先考慮“視覺合理性”而非“幾何準(zhǔn)確性”,從而導(dǎo)致嚴(yán)重的幾何幻覺(Geometric Hallucinations),無法在時間上保持精確且全局一致的幾何結(jié)構(gòu)。
  • 判別式模型(Discriminative Models,如 Video Depth Anything, VDA):這類基于 ViT 的模型具有極高的推理效率和確定性輸出。然而,由于它們完全依賴密集的注釋來學(xué)習(xí)幾何,常常會陷入語義歧義(Semantic Ambiguity),例如將運(yùn)動模糊或無紋理區(qū)域誤判為結(jié)構(gòu)邊界。為了克服這種歧義,它們只能依賴極其龐大且多樣化的下游標(biāo)注數(shù)據(jù)進(jìn)行暴力堆砌。

研究團(tuán)隊敏銳地提出一個核心問題:能否設(shè)計一種視頻深度估計框架,既能有效平衡判別式模型的結(jié)構(gòu)穩(wěn)定性與生成式模型的豐富時空先驗,又能保持高效和可擴(kuò)展性?

這就是 DVD 提出的初衷。



2 DVD 方法

為了打破上述僵局,DVD 摒棄了傳統(tǒng)的隨機(jī)生成范式,開創(chuàng)性地實現(xiàn)了預(yù)訓(xùn)練視頻擴(kuò)散模型的確定性適配,直接學(xué)習(xí)從 RGB 潛變量到深度潛變量的映射。



然而,將確定性適配從靜態(tài)圖像擴(kuò)展到動態(tài)視頻面臨著獨(dú)特的挑戰(zhàn):樸素的回歸不僅容易導(dǎo)致模糊,還會遭受結(jié)構(gòu)不穩(wěn)定性等問題。為此,DVD 提出了三大核心設(shè)計:

2.1 將時間步作為結(jié)構(gòu)錨點 (Timestep as a Structural Anchor)

在生成式預(yù)訓(xùn)練中,時間步 $t$ 參數(shù)化了信噪比,指導(dǎo)模型關(guān)注全局結(jié)構(gòu)或局部細(xì)節(jié)。DVD 創(chuàng)造性地將時間步從一個噪聲指示器重塑為一個結(jié)構(gòu)錨點(Structural Anchor)。通過將其固定在一個最佳狀態(tài)(如 $\tau=0.5$),模型能夠完美平衡低頻的全局穩(wěn)定性與高頻的空間細(xì)節(jié),避免了幾何過度平滑。



2.2 潛在流形校正 (Latent Manifold Rectification, LMR)

當(dāng)我們使用逐點回歸目標(biāo)訓(xùn)練模型時,極易引發(fā)“均值塌陷(Mean Collapse)”,導(dǎo)致模型在面對模糊或遮擋區(qū)域時洗去高頻結(jié)構(gòu)細(xì)節(jié)。在時空設(shè)置下,這種退化會累積成嚴(yán)重的邊界侵蝕和運(yùn)動閃爍。

為此,DVD 引入了 LMR——一種無額外參數(shù)的監(jiān)督策略。LMR 強(qiáng)制對齊預(yù)測潛變量與目標(biāo)潛變量的空間梯度(Spatial Gradient)和時序光流(Temporal Flow)。這一機(jī)制成功恢復(fù)了被回歸抹平的銳利邊界和連貫的運(yùn)動動態(tài)。



2.3 全局仿射一致性 (Global Affine Coherence)

處理長視頻時,顯存限制要求必須采用滑動窗口推理,這往往會導(dǎo)致生成式模型出現(xiàn)隨機(jī)尺度漂移。

研究團(tuán)隊在 DVD 中發(fā)現(xiàn)了一個固有的特性:VAE 解碼主要引起全局仿射變化,而非局部空間失真。因此,窗口間的差異可以很好地用線性尺度偏移變換來近似。基于這種“全局仿射一致性”,DVD 設(shè)計了一個閉式最小二乘求解器。只需通過重疊區(qū)域計算全局縮放 $s$ 和平移 $t$,即可無縫對齊相鄰窗口,完全無需復(fù)雜的潛在拼接或時間對齊模塊。



3 實驗結(jié)果

DVD 在多個真實世界基準(zhǔn)測試中進(jìn)行了廣泛的零樣本評估,其實驗結(jié)果令人振奮:

3.1 登頂?shù)男?SOTA 幾何保真度與時序連貫性





在 ScanNet 和 KITTI 等標(biāo)準(zhǔn)數(shù)據(jù)集上,DVD 一致優(yōu)于最先進(jìn)的生成式(如 DepthCrafter)和判別式(如 VDA)基線模型,取得了最低的絕對相對誤差(AbsRel)。并且,LMR 機(jī)制顯著提升了精細(xì)邊界的準(zhǔn)確性,例如將 ScanNet 的 B-F1 分?jǐn)?shù)提升至 0.259。



3.2 令人信服的數(shù)據(jù)與推理效率



DVD 的一大核心優(yōu)勢在于用極少的數(shù)據(jù)解鎖高保真深度。僅使用 36.7 萬幀訓(xùn)練的 DVD,其性能就超越了使用 6000 萬幀數(shù)據(jù)的 VDA(數(shù)據(jù)量不到其1/160)。同時,由于避開了迭代采樣的計算瓶頸,DVD 保持了與 VDA 相當(dāng)?shù)耐评硭俣?,并提供了更高的?zhǔn)確率。

3.3 強(qiáng)大的長視頻擴(kuò)展性



面對包含數(shù)千幀的復(fù)雜長視頻,生成式方法受到嚴(yán)重的尺度漂移困擾,判別式基線持續(xù)表現(xiàn)出語義歧義。而 DVD 憑借無參數(shù)的仿射對齊機(jī)制,確保了嚴(yán)格的結(jié)構(gòu)持久性和高保真度,在長視頻推理中展現(xiàn)出了卓越的穩(wěn)定性。



4 結(jié)論

DVD (Deterministic Video Depth Estimation) 框架的提出,是首個確定性適配預(yù)訓(xùn)練視頻擴(kuò)散先驗以用于單次深度估計的框架。

通過“時間步驅(qū)動的結(jié)構(gòu)錨點”、“對抗時空均值塌陷的潛在流形校正 (LMR)”以及“用于長視頻仿射對齊的全局仿射一致性”三大核心設(shè)計,DVD 成功解決了“歧義與幻覺”的兩難困境。更重要的是,它證明了:我們無需再盲目堆砌上千萬級別的特定任務(wù)標(biāo)注數(shù)據(jù),僅需通過巧妙的策略,就能以163 倍的極高數(shù)據(jù)效率解鎖基礎(chǔ)模型中令人驚嘆的世界幾何先驗。

這項工作為動態(tài) 3D 場景理解和未來的感知技術(shù),確立了一條高度可擴(kuò)展且數(shù)據(jù)高效的全新范式。

論文、代碼及模型權(quán)重均已全部開源,歡迎廣大研究人員前往項目主頁體驗!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
危險信號!特朗普,徹底被架空了!

危險信號!特朗普,徹底被架空了!

大嘴說天下
2026-03-30 18:13:30
張雪峰經(jīng)典名言 100 條(完整版)

張雪峰經(jīng)典名言 100 條(完整版)

新浪財經(jīng)
2026-03-25 06:17:25
當(dāng)不成總統(tǒng)了?美國迎三大噩耗,百萬人逼宮,他承認(rèn)對中國上頭了

當(dāng)不成總統(tǒng)了?美國迎三大噩耗,百萬人逼宮,他承認(rèn)對中國上頭了

知法而形
2026-03-29 11:53:37
突然暴跌后,段永平盯上這家公司!

突然暴跌后,段永平盯上這家公司!

新浪財經(jīng)
2026-03-30 15:16:02
連奪六天冠軍,沈騰吳京都壓不住,中國觀眾將助力《鏢人》被超越

連奪六天冠軍,沈騰吳京都壓不住,中國觀眾將助力《鏢人》被超越

影視高原說
2026-03-28 18:27:58
14分對43分!騎士隱患暴露,哈登加盟四支球隊,始終找不到保羅

14分對43分!騎士隱患暴露,哈登加盟四支球隊,始終找不到保羅

巴叔GO聊體育
2026-03-30 16:25:05
1974年女兵王季遲請假奔喪,政委見親屬王樹聲,隱藏身份曝光

1974年女兵王季遲請假奔喪,政委見親屬王樹聲,隱藏身份曝光

磊子講史
2026-03-24 14:38:24
CBA本季三分本土首人:賀希寧狂轟101三分 成深圳+中國男籃大腿

CBA本季三分本土首人:賀希寧狂轟101三分 成深圳+中國男籃大腿

醉臥浮生
2026-03-30 13:18:56
美國的錢在中國叫“美元”,人民幣在國外叫什么?今天總算知道了

美國的錢在中國叫“美元”,人民幣在國外叫什么?今天總算知道了

小舟談歷史
2026-03-28 05:45:51
日方稱愿意解決與中國的外交緊張關(guān)系,中方表態(tài):不能一邊要求對話,一邊損害對方的核心利益,應(yīng)以實際行動展現(xiàn)對話誠意

日方稱愿意解決與中國的外交緊張關(guān)系,中方表態(tài):不能一邊要求對話,一邊損害對方的核心利益,應(yīng)以實際行動展現(xiàn)對話誠意

大象新聞
2026-03-30 16:49:02
郭麒麟白嫖網(wǎng)紅外賣媛!

郭麒麟白嫖網(wǎng)紅外賣媛!

八卦瘋叔
2026-03-28 09:58:03
400臺中國大巴出口沙特!誰家車

400臺中國大巴出口沙特!誰家車

方得網(wǎng)商用車
2026-03-30 10:42:47
當(dāng)你知道某些真相后,有些東西再也無法直視了!網(wǎng)友:真得少吃

當(dāng)你知道某些真相后,有些東西再也無法直視了!網(wǎng)友:真得少吃

夜深愛雜談
2026-03-28 18:18:32
龐麥郎轉(zhuǎn)發(fā)李榮浩維權(quán)微博并提及華晨宇,疑似重提《我的滑板鞋》版權(quán)糾紛,華晨宇工作室發(fā)布?xì)v史聲明:冷飯又炒,不再回應(yīng)

龐麥郎轉(zhuǎn)發(fā)李榮浩維權(quán)微博并提及華晨宇,疑似重提《我的滑板鞋》版權(quán)糾紛,華晨宇工作室發(fā)布?xì)v史聲明:冷飯又炒,不再回應(yīng)

瀟湘晨報
2026-03-30 13:42:12
有投資者用“龍蝦”智能體炒股月賺90%

有投資者用“龍蝦”智能體炒股月賺90%

每日經(jīng)濟(jì)新聞
2026-03-30 17:38:07
南非奧運(yùn)冠軍斥性別檢測“是對女性不尊重”,特朗普發(fā)文祝賀新規(guī)

南非奧運(yùn)冠軍斥性別檢測“是對女性不尊重”,特朗普發(fā)文祝賀新規(guī)

我是盲流
2026-03-30 07:35:11
蘋果突然給3億舊iPhone發(fā)"死亡通知":不升級就等被偷

蘋果突然給3億舊iPhone發(fā)"死亡通知":不升級就等被偷

算力游俠
2026-03-28 10:47:23
臺灣攔不住!大陸官宣定調(diào):廈金大橋照常施工,直通金門一步到位

臺灣攔不??!大陸官宣定調(diào):廈金大橋照常施工,直通金門一步到位

安珈使者啊
2026-03-29 09:55:55
張雪峰離世才3天,52歲吳京就出現(xiàn)身體警報,網(wǎng)友急勸他去醫(yī)院

張雪峰離世才3天,52歲吳京就出現(xiàn)身體警報,網(wǎng)友急勸他去醫(yī)院

樂天閑聊
2026-03-28 19:37:35
全球最小國家,只有32個女人,人均收入53萬,渴望被中國原諒

全球最小國家,只有32個女人,人均收入53萬,渴望被中國原諒

壹知眠羊
2026-03-18 07:10:00
2026-03-30 19:39:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12640文章數(shù) 142599關(guān)注度
往期回顧 全部

科技要聞

一句謊言引發(fā)的硅谷血案

頭條要聞

河南女子舉報母親去世后被結(jié)婚 官方通報

頭條要聞

河南女子舉報母親去世后被結(jié)婚 官方通報

體育要聞

想進(jìn)世界杯,意大利還要過他這一關(guān)

娛樂要聞

單依純凌晨發(fā)長文道歉!李榮浩再回應(yīng)

財經(jīng)要聞

本輪地緣沖突,A股憑什么走出獨(dú)立行情

汽車要聞

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態(tài)度原創(chuàng)

健康
教育
藝術(shù)
數(shù)碼
家居

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

教育要聞

一模二模三模,哪次最接近高考?90%的家長都搞錯了。#教育##高三##新學(xué)期超給力#

藝術(shù)要聞

600 年前的「產(chǎn)亡孤魂」,藏著中國女性最痛的記憶

數(shù)碼要聞

榮耀MagicBook 14/16筆記本開啟預(yù)約:Pro性能釋放高達(dá)80W

家居要聞

東方法式美學(xué) 現(xiàn)代簡約

無障礙瀏覽 進(jìn)入關(guān)懷版