国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

浙大彭思達團隊 × 理想最新研究:直面高分辨率深度的細節(jié)缺失

0
分享至


InfiniDepth一種基于隱式神經(jīng)表達的單目深度估計方法,支持任意分辨率預(yù)測。

作者丨鄭佳美

編輯丨岑峰

在單目深度估計中,分辨率越來越高已經(jīng)是一個很常見的趨勢。很多方法可以輸出 2K 甚至 4K 的深度結(jié)果,看起來也確實比低分辨率更細致。

但在實際使用中,這類高分辨率深度并不總是好用。尤其是在三維重建、新視角合成等對幾何一致性要求較高的任務(wù)中,物體邊緣容易發(fā)虛,細小結(jié)構(gòu)經(jīng)常對不齊,結(jié)果并沒有隨著分辨率提升而明顯改善。類似的問題在自動駕駛和機器人導(dǎo)航場景中同樣存在,幾何誤差會影響障礙物邊界判斷和可通行區(qū)域估計,從而增加后續(xù)規(guī)劃與決策的不確定性。

一個很重要的原因在于,現(xiàn)有方法大多仍在固定分辨率下預(yù)測深度,再通過插值將結(jié)果放大到更高分辨率。這樣做雖然能夠得到更大的輸出尺寸,但在細節(jié)區(qū)域,本質(zhì)上只是放大了原有的預(yù)測誤差。

而對于依賴深度信息進行環(huán)境建模的自動駕駛系統(tǒng)而言,這種誤差不僅影響局部幾何質(zhì)量,還會進一步影響路徑規(guī)劃和決策的穩(wěn)定性。久而久之,人們開始意識到,高分辨率深度面臨的瓶頸,可能并不只是模型不夠復(fù)雜,而是預(yù)測深度的方式本身存在局限。

基于這樣的觀察,浙江大學(xué)彭思達團隊聯(lián)合理想研究團隊,提出了論文《InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields》。這項工作并未急于在既有框架上追求更高指標,而是從深度的表示方式本身出發(fā),重新思考高分辨率條件下深度應(yīng)如何被建模和使用。

圍繞這一思路,研究團隊設(shè)計了一系列覆蓋合成數(shù)據(jù)、真實數(shù)據(jù)以及三維下游任務(wù)的實驗,將這種表示方式放到不同場景中加以檢驗,從而更細致地觀察其在細節(jié)區(qū)域和復(fù)雜幾何結(jié)構(gòu)中的實際表現(xiàn)。


論文地址:https://arxiv.org/pdf/2601.03252

01
當深度不再受分辨率限制

研究團隊通過一系列覆蓋合成數(shù)據(jù)、真實數(shù)據(jù)以及下游三維任務(wù)的實驗,系統(tǒng)驗證了InfiniDepth在高分辨率深度估計、細粒度幾何建模以及大視角渲染方面的有效性。

首先,在研究團隊構(gòu)建的 Synth4K 數(shù)據(jù)集上,對模型進行了零樣本相對深度評測。Synth4K 由五個子數(shù)據(jù)集組成,分別來自不同高質(zhì)量游戲場景,每個子集包含數(shù)百張分辨率為 3840×2160 的 RGB 圖像及對應(yīng)高精度深度圖,能夠真實反映高分辨率場景中的邊緣結(jié)構(gòu)、薄物體以及復(fù)雜曲面。


在評測過程中,研究人員同時報告了全圖區(qū)域和高頻細節(jié)區(qū)域的結(jié)果,并采用 δ0.5、δ1 和 δ2 作為評價指標。在全圖區(qū)域內(nèi),InfiniDepth 在五個子數(shù)據(jù)集上均取得了最優(yōu)表現(xiàn)。

例如,Synth4K-1上,InfiniDepth的δ1達到89.0%,明顯高于 DepthAnything 的 83.8% 和MoGe-2 的 84.2%;在Synth4K-3 上,其 δ1提升至 93.9%,相比DepthPro和Marigold 等方法仍具有顯著優(yōu)勢;在 Synth4K-5 上,InfiniDepth 的 δ1 達到 96.3%,在所有對比方法中排名第一。這些結(jié)果表明,在整體區(qū)域內(nèi),該方法在高分辨率條件下具備穩(wěn)定而一致的精度優(yōu)勢。


在進一步針對高頻細節(jié)區(qū)域的評測中,研究人員僅在由多尺度拉普拉斯算子篩選出的幾何變化劇烈區(qū)域計算指標。結(jié)果顯示,所有方法在高頻區(qū)域的性能都會明顯下降,但InfiniDepth的下降幅度最小,且在多數(shù)子集上仍保持領(lǐng)先。

例如,在Synth4K-1 的高頻區(qū)域內(nèi),其δ1達到67.5%,而 DepthAnything 和 DepthAnythingV2 分別僅為 61.3% 和 60.6%;在 Synth4K-3 的高頻區(qū)域中,InfiniDepth 的 δ1 為 69.0%,相比 MoGe-2 的 63.4% 有明顯提升。整體來看,InfiniDepth在高頻區(qū)域的δ1指標通常比主流方法高出約58個百分點,表明這個方法在邊緣、薄結(jié)構(gòu)和局部幾何變化區(qū)域具有更強的表達能力。

值得一提的是,這類高頻區(qū)域本身并非只存在于合成數(shù)據(jù)中,而是廣泛出現(xiàn)在真實世界的復(fù)雜場景中。在自動駕駛環(huán)境下,路緣、護欄、交通標志桿等關(guān)鍵元素往往具有細長、邊界清晰且?guī)缀巫兓黠@的特點,其深度估計精度直接影響車輛對道路結(jié)構(gòu)和可行駛空間的理解能力。因此,在這些區(qū)域中保持穩(wěn)定的幾何表達,對于提升復(fù)雜道路環(huán)境下的感知可靠性具有實際意義。

研究團隊還特別指出,這種性能差異并非來自后處理技巧。對于 Synth4K 的 4K 輸出,絕大多數(shù)對比方法需要先在較低分辨率下預(yù)測深度,再通過插值方式上采樣到 4K,而InfiniDepth 由于采用連續(xù)深度表示,可以直接在 4K坐標位置預(yù)測深度值,因此其在高分辨率評測中的優(yōu)勢反映的是模型原生的分辨率擴展能力。


在真實世界數(shù)據(jù)集上的零樣本相對深度評測中,研究人員在KITTI、ETH3D、NYUv2、ScanNet和DIODE五個數(shù)據(jù)集上報告了 δ1 指標。結(jié)果顯示,InfiniDepth在這些數(shù)據(jù)集上的表現(xiàn)與當前主流方法整體處于同一水平。

例如,在ETH3D上,其 δ1 達到 99.1%,略高于MoGe-2的99.0%;在KITTI 上,其 δ1 為 97.9%,與DepthPro和MoGe等方法基本持平;在NYUv2和ScanNet 上,InfiniDepth的表現(xiàn)也未出現(xiàn)明顯退化。這些結(jié)果說明,即便模型只使用合成數(shù)據(jù)訓(xùn)練,其連續(xù)深度表示并未對真實數(shù)據(jù)的泛化能力造成負面影響。這種對訓(xùn)練數(shù)據(jù)分布變化不敏感的特性,在自動駕駛和移動機器人等實際部署場景中尤為關(guān)鍵,因為真實環(huán)境往往與訓(xùn)練條件存在較大差異,對感知系統(tǒng)的穩(wěn)定性提出了更高要求。


在尺度深度估計實驗中,研究團隊將 InfiniDepth 與稀疏深度提示機制結(jié)合,并在 Synth4K 以及真實數(shù)據(jù)集上采用更嚴格的 δ0.01、δ0.02 和 δ0.04 指標進行評測。

在 Synth4K 的全圖區(qū)域中,InfiniDepth-Metric 在 Synth4K-1 上的δ0.01 達到 78.0%,相比PromptDA 的 65.0% 提升顯著;在 Synth4K-3 上,其 δ0.01 達到 83.8%,同樣領(lǐng)先于所有對比方法。在高頻細節(jié)區(qū)域內(nèi),這一優(yōu)勢更加明顯,例如在 Synth4K-3 的高頻區(qū)域中,InfiniDepth-Metric 的 δ0.01 為 37.2%,而 PromptDA 僅為 24.7%,PriorDA 和 Omni-DC 的表現(xiàn)更低。這表明,在細節(jié)區(qū)域和高精度尺度估計任務(wù)中,連續(xù)深度表示能夠帶來更顯著的收益。


在真實數(shù)據(jù)集的尺度深度評測中,研究人員同樣觀察到一致趨勢。在 KITTI 和 ETH3D 上,InfiniDepth-Metric 的 δ0.01 指標分別達到 63.9% 和 96.7%,均優(yōu)于現(xiàn)有方法;在 DIODE 數(shù)據(jù)集上,其 δ0.01 達到 98.4%,在對比方法中排名第一。這說明該方法在引入稀疏深度約束后,能夠在真實場景中實現(xiàn)高精度且穩(wěn)定的尺度深度預(yù)測。


此外,在單視圖新視角合成實驗中,研究團隊將 InfiniDepth 預(yù)測的深度用于構(gòu)建三維點云并驅(qū)動高斯渲染。實驗結(jié)果表明,相比采用像素對齊深度的方法,在大視角變化條件下,基于該方法構(gòu)建的點云分布更加均勻,生成的新視角圖像中幾何空洞和斷裂明顯減少,整體結(jié)構(gòu)更加完整。這說明連續(xù)深度表示能夠為三維建模提供更加穩(wěn)定和一致的幾何基礎(chǔ)。

這種更可靠的三維幾何結(jié)構(gòu)不僅有利于視覺重建和渲染任務(wù),在自動駕駛和機器人系統(tǒng)中同樣具有現(xiàn)實意義。更準確的空間幾何信息有助于系統(tǒng)對周圍環(huán)境形成更清晰的空間認知,從而為后續(xù)的導(dǎo)航規(guī)劃與決策提供更加穩(wěn)定的感知支撐。


02
把深度放進三維里再看一次

這些實驗結(jié)果來源于研究團隊圍繞深度表示方式是否限制分辨率擴展性與幾何細節(jié)恢復(fù)能力這一核心問題所設(shè)計的系統(tǒng)實驗。

研究人員指出,現(xiàn)有單目深度估計方法普遍在固定像素網(wǎng)格上進行深度預(yù)測,輸出分辨率與訓(xùn)練分辨率強相關(guān),高分辨率結(jié)果通常依賴插值或上采樣,從而不可避免地損失高頻幾何信息。為驗證這一問題是否源于表示方式本身,研究團隊提出將深度建模為連續(xù)空間中的映射關(guān)系,使模型能夠在任意圖像坐標位置直接預(yù)測深度值。


數(shù)據(jù)設(shè)計上,為避免真實數(shù)據(jù)集中深度標注稀疏、分辨率有限和噪聲較大的問題對實驗結(jié)論產(chǎn)生干擾,研究人員構(gòu)建了 Synth4K 數(shù)據(jù)集,并進一步引入高頻細節(jié)掩碼,通過多尺度拉普拉斯能量篩選出幾何變化最為劇烈的區(qū)域,從而實現(xiàn)對模型細節(jié)恢復(fù)能力的定量評估。


實驗設(shè)置上,所有對比方法均使用相同分辨率的輸入圖像,并在評測階段統(tǒng)一對齊尺度;對于 4K 輸出,基線方法的結(jié)果通過上采樣獲得,而 InfiniDepth 直接在 4K 網(wǎng)格坐標位置進行深度預(yù)測,以確保實驗對比集中反映深度表示和解碼方式的差異。在訓(xùn)練階段,研究人員并未對整張深度圖逐像素監(jiān)督,而是隨機采樣大量坐標與對應(yīng)深度值進行訓(xùn)練,這一策略既符合連續(xù)深度建模的設(shè)定,也使得高分辨率監(jiān)督更加靈活。


為驗證各個模塊的貢獻,研究團隊進一步設(shè)計了系統(tǒng)的消融實驗。當移除連續(xù)深度表示、回退到傳統(tǒng)離散網(wǎng)格預(yù)測方式時,模型在 Synth4K 和真實數(shù)據(jù)集上的高精度指標普遍下降 8 到 12個百分點;當去除多尺度局部特征查詢與融合機制時,模型在細節(jié)區(qū)域的性能同樣出現(xiàn)一致性退化。這些結(jié)果從定量角度證明,連續(xù)表示和多尺度局部查詢是 InfiniDepth 性能提升的關(guān)鍵因素。


新視角合成相關(guān)實驗中,研究人員進一步分析了像素對齊深度在三維反投影過程中造成點云密度不均的問題,并基于連續(xù)深度表示所支持的幾何分析能力,根據(jù)不同區(qū)域?qū)?yīng)的表面覆蓋情況分配采樣密度,從而在三維空間中生成更加均勻的表面點分布。實驗結(jié)果表明,這一策略在大視角變化條件下能夠有效減少孔洞和幾何斷裂。


03
不同場景下的一致性結(jié)論

綜合上述實驗可以看出,InfiniDepth 的研究意義不僅體現(xiàn)在指標上的提升,更在于研究團隊通過多數(shù)據(jù)集、多指標和多任務(wù)的定量實驗,清楚地表明高分辨率深度估計中幾何細節(jié)恢復(fù)能力的主要瓶頸來源于深度表示方式本身。在 Synth4K 這一高分辨率基準上,高頻細節(jié)區(qū)域中普遍達到 5 至 10個百分點的性能提升,直接說明了依賴插值的高分辨率預(yù)測在幾何建模上的局限性。

同時,真實數(shù)據(jù)集上的零樣本評測結(jié)果表明,連續(xù)深度表示并未削弱模型的泛化能力,而在引入稀疏深度約束后,其在高精度尺度深度估計中的優(yōu)勢進一步放大。結(jié)合新視角合成實驗可以看到,這種表示方式不僅提升了二維深度圖在細節(jié)上的一致性,也為三維點云構(gòu)建和渲染提供了更加穩(wěn)定的幾何基礎(chǔ)。

在此基礎(chǔ)上,這類連續(xù)深度表示所帶來的穩(wěn)定幾何結(jié)構(gòu),使深度信息能夠更自然地被用于后續(xù)的三維建模與環(huán)境理解。在自動駕駛和機器人系統(tǒng)中,這種高分辨率且一致的深度感知,有助于提升復(fù)雜場景下空間建模和導(dǎo)航?jīng)Q策的可靠性。

總體而言,研究團隊通過在高分辨率合成數(shù)據(jù)、真實世界數(shù)據(jù)以及下游三維任務(wù)上的系統(tǒng)實驗,用具體數(shù)據(jù)和指標證明了連續(xù)隱式深度表示在分辨率擴展性、幾何細節(jié)恢復(fù)能力以及大視角渲染方面的綜合優(yōu)勢,為單目深度估計的后續(xù)研究提供了清晰而可驗證的方向。

04
研究背后的工作者

本論文的通訊作者彭思達,現(xiàn)任浙江大學(xué)軟件學(xué)院研究員。他于 2023 年在浙江大學(xué)計算機科學(xué)與技術(shù)學(xué)院獲得博士學(xué)位,師從周曉巍教授和鮑虎軍教授,本科畢業(yè)于浙江大學(xué)信息工程專業(yè)。

彭思達教授在三維視覺、神經(jīng)隱式表示以及深度感知等研究方向上具有扎實的研究積累和持續(xù)的學(xué)術(shù)貢獻,已在多項國際頂級會議和期刊上發(fā)表高水平論文,并在多項學(xué)術(shù)評選中獲得重要榮譽,包括2025 China3DV年度杰出青年學(xué)者獎2024 CCF優(yōu)秀博士論文獎。

此外,他在 GitHub 上分享的個人科研經(jīng)驗與學(xué)習(xí)資料獲得約9.7K星標關(guān)注,致力于推動空間智能與幾何感知領(lǐng)域的基礎(chǔ)研究與應(yīng)用落地。

彭思達教授的研究興趣從神經(jīng)隱式深度估計進一步拓展至動態(tài)場景建模、空間智能體訓(xùn)練以及大規(guī)模三維重建等方向,強調(diào)解決具有實際應(yīng)用價值且尚未充分解決的核心問題,推動新技術(shù)在真實行業(yè)場景中的落地與影響。


參考鏈接:https://pengsida.net/

未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
陳都靈太嫩了

陳都靈太嫩了

阿廢冷眼觀察所
2026-02-28 11:28:38
美容院老板娘大實話:脫了衣服,女人的差距根本不在臉上!

美容院老板娘大實話:脫了衣服,女人的差距根本不在臉上!

夜深愛雜談
2026-03-08 21:28:24
拜仁轟6-1卻要哭了?1場傷3人!5000萬飛翼淚灑賽場+世界杯或夢碎

拜仁轟6-1卻要哭了?1場傷3人!5000萬飛翼淚灑賽場+世界杯或夢碎

我愛英超
2026-03-11 06:21:21
中網(wǎng)友瘋傳張娜拉去世!公司職員也被發(fā)現(xiàn)死亡!經(jīng)紀公司回應(yīng)

中網(wǎng)友瘋傳張娜拉去世!公司職員也被發(fā)現(xiàn)死亡!經(jīng)紀公司回應(yīng)

陌上桃花開的
2026-03-10 17:51:41
炒完糧食,就是全球金融大崩盤了

炒完糧食,就是全球金融大崩盤了

月滿大江流
2026-03-10 14:02:38
上海這夜!瘦到認不出的蔣欣 大氣優(yōu)雅的吳越 敗給兩個70歲老太太

上海這夜!瘦到認不出的蔣欣 大氣優(yōu)雅的吳越 敗給兩個70歲老太太

阿纂看事
2026-03-09 18:55:52
「俠客島」美國打伊朗,歐洲為啥“不跟”?

「俠客島」美國打伊朗,歐洲為啥“不跟”?

海外網(wǎng)
2026-03-10 19:32:05
上海人最近太爽了吧!出門偶遇明星像開盲盒!周冠宇回家,胡彥斌野餐...這也太頂了!

上海人最近太爽了吧!出門偶遇明星像開盲盒!周冠宇回家,胡彥斌野餐...這也太頂了!

新民晚報
2026-03-10 14:05:11
演都不演了?朱易取關(guān)蘇翊鳴僅3天,令人擔心的一幕還是發(fā)生了

演都不演了?朱易取關(guān)蘇翊鳴僅3天,令人擔心的一幕還是發(fā)生了

科學(xué)發(fā)掘
2026-03-11 06:03:58
1-1!96分鐘絕平,亞馬爾點射救主,巴薩全身而退,劍指歐冠8強

1-1!96分鐘絕平,亞馬爾點射救主,巴薩全身而退,劍指歐冠8強

我的護球最獨特
2026-03-11 05:59:00
杭州已有第一批“養(yǎng)龍蝦”的人!有人養(yǎng)了不到10天就離不開了,還對家里堆成山的泡泡瑪特定了個目標

杭州已有第一批“養(yǎng)龍蝦”的人!有人養(yǎng)了不到10天就離不開了,還對家里堆成山的泡泡瑪特定了個目標

都市快報橙柿互動
2026-03-10 11:19:02
全網(wǎng)售罄、多地斷貨!老板懵了:以前堆成山都賣不掉,結(jié)果現(xiàn)在價格暴漲

全網(wǎng)售罄、多地斷貨!老板懵了:以前堆成山都賣不掉,結(jié)果現(xiàn)在價格暴漲

掌上春城
2026-03-10 20:24:37
歐冠之夜:馬競5-2熱刺 拜仁6-1亞特蘭大 紐卡1-1巴薩 利物浦0-1

歐冠之夜:馬競5-2熱刺 拜仁6-1亞特蘭大 紐卡1-1巴薩 利物浦0-1

狍子歪解體壇
2026-03-11 06:09:57
千古仁君宋仁宗

千古仁君宋仁宗

尚曦讀史
2024-10-06 07:39:06
《逐玉》熱播,女主田曦薇扛的豬被浙江網(wǎng)友一眼認出:金華兩頭烏!本地人認證:真的很好吃

《逐玉》熱播,女主田曦薇扛的豬被浙江網(wǎng)友一眼認出:金華兩頭烏!本地人認證:真的很好吃

極目新聞
2026-03-10 17:14:59
關(guān)于和伊朗談判,特朗普最新表態(tài)!

關(guān)于和伊朗談判,特朗普最新表態(tài)!

每日經(jīng)濟新聞
2026-03-10 21:15:06
知情人士稱美政府要求以色列停止襲擊伊朗能源設(shè)施

知情人士稱美政府要求以色列停止襲擊伊朗能源設(shè)施

極目新聞
2026-03-11 06:54:22
伊朗開啟復(fù)仇!以色列首都已全面停電,小哈梅內(nèi)伊比想象中更強硬

伊朗開啟復(fù)仇!以色列首都已全面停電,小哈梅內(nèi)伊比想象中更強硬

派大星紀錄片
2026-03-10 12:01:56
伊朗導(dǎo)彈,為何越打越猛?

伊朗導(dǎo)彈,為何越打越猛?

極目新聞
2026-03-10 15:06:53
淚目!伊朗女足球員母親:告訴我女兒,讓她留在澳大利亞,別回來

淚目!伊朗女足球員母親:告訴我女兒,讓她留在澳大利亞,別回來

風(fēng)過鄉(xiāng)
2026-03-11 06:44:18
2026-03-11 08:07:00
AI科技評論 incentive-icons
AI科技評論
點評學(xué)術(shù),服務(wù)AI
7111文章數(shù) 20739關(guān)注度
往期回顧 全部

科技要聞

蔚來今年要少虧150億,沖擊年度盈利

頭條要聞

"一對老夫妻雙雙129歲相戀100年"視頻引熱議 當?shù)鼗貞?yīng)

頭條要聞

"一對老夫妻雙雙129歲相戀100年"視頻引熱議 當?shù)鼗貞?yīng)

體育要聞

加蘭沒那么差,但鱸魚會用嗎?

娛樂要聞

《逐玉》注水風(fēng)波升級!315評論區(qū)淪陷

財經(jīng)要聞

“龍蝦補貼”密集出爐 最高1000萬!

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

家居
時尚
本地
教育
公開課

家居要聞

自然肌理 溫度質(zhì)感婚房

看來看去這些才是適合普通人的穿搭!不花哨、不繁瑣,提氣質(zhì)

本地新聞

云游中國|候鳥高顏值亮相!沉浸式打卡青海濕地

教育要聞

初中競賽題,化簡,說難的建議多學(xué)學(xué)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版