国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

NVIDIA團(tuán)隊(duì)讓立體視覺(jué)AI實(shí)現(xiàn)"真正"實(shí)時(shí)運(yùn)行:速度提升10倍

0
分享至


這項(xiàng)由NVIDIA公司的Bowen Wen、Shaurya Dewan和Stan Birchfield共同完成的研究發(fā)表于2025年12月的arXiv預(yù)印本服務(wù)器,論文編號(hào)為arXiv:2512.11130v1。有興趣深入了解的讀者可以通過(guò)該編號(hào)查詢完整論文。

在人工智能的世界里,有一項(xiàng)技術(shù)就像人類(lèi)的雙眼一樣重要——立體視覺(jué)匹配。當(dāng)我們用雙眼看世界時(shí),大腦會(huì)自動(dòng)計(jì)算出物體的距離和深度,這個(gè)過(guò)程看似簡(jiǎn)單,但在AI領(lǐng)域卻是個(gè)巨大的挑戰(zhàn)。傳統(tǒng)的AI立體視覺(jué)系統(tǒng)面臨著一個(gè)讓人頭疼的兩難選擇:要么精確但慢得像蝸牛,要么快但準(zhǔn)確性堪憂。

NVIDIA的研究團(tuán)隊(duì)就像是解決這個(gè)難題的"建筑師",他們開(kāi)發(fā)出了一套名為Fast-FoundationStereo的新系統(tǒng)。這個(gè)系統(tǒng)的神奇之處在于,它能夠在保持高精度的同時(shí),將處理速度提升整整10倍,真正實(shí)現(xiàn)了"魚(yú)和熊掌兼得"。

這項(xiàng)突破性研究的意義遠(yuǎn)超技術(shù)本身。想象一下自動(dòng)駕駛汽車(chē)需要在瞬間判斷前方物體的距離,或者增強(qiáng)現(xiàn)實(shí)設(shè)備需要實(shí)時(shí)理解周?chē)h(huán)境的三維結(jié)構(gòu)。在這些應(yīng)用場(chǎng)景中,既要快速又要準(zhǔn)確的立體視覺(jué)就顯得至關(guān)重要。過(guò)去,研究人員不得不在速度和精度之間做出艱難選擇,但這項(xiàng)研究徹底改變了游戲規(guī)則。

研究團(tuán)隊(duì)采用了一種"分而治之"的策略,就像拆解一個(gè)復(fù)雜機(jī)器,然后對(duì)每個(gè)部件進(jìn)行專(zhuān)門(mén)的優(yōu)化。他們將整個(gè)立體視覺(jué)系統(tǒng)分解為三個(gè)核心組件:特征提取、成本過(guò)濾和視差細(xì)化,然后針對(duì)每個(gè)組件的特點(diǎn)制定了不同的加速方案。

更令人興奮的是,他們還構(gòu)建了一個(gè)包含140萬(wàn)對(duì)真實(shí)世界立體圖像的數(shù)據(jù)集,這些圖像都通過(guò)自動(dòng)化的偽標(biāo)注流程進(jìn)行了處理。這就像為AI提供了更豐富、更真實(shí)的"教材",讓它能夠更好地理解真實(shí)世界中的復(fù)雜場(chǎng)景。

一、立體視覺(jué)的現(xiàn)實(shí)困境:速度與精度的永恒博弈

立體視覺(jué)匹配技術(shù)的發(fā)展歷程就像一場(chǎng)馬拉松比賽,已經(jīng)持續(xù)了整整50年。在這個(gè)漫長(zhǎng)的征程中,研究人員們就像兩支不同的隊(duì)伍,朝著截然不同的方向奔跑。

第一支隊(duì)伍專(zhuān)注于追求極致的精度和泛化能力。這些研究者就像藝術(shù)家一樣,不惜代價(jià)地打造出能夠"零樣本泛化"的模型。所謂零樣本泛化,就是AI系統(tǒng)能夠像人類(lèi)一樣,在從未見(jiàn)過(guò)的新環(huán)境中依然表現(xiàn)出色。這類(lèi)系統(tǒng)通常借助強(qiáng)大的視覺(jué)基礎(chǔ)模型,比如DepthAnythingV2或DINO模型,這些模型就像擁有豐富閱歷的老師,為立體視覺(jué)系統(tǒng)提供深厚的先驗(yàn)知識(shí)。

然而,這種追求完美的代價(jià)是巨大的計(jì)算開(kāi)銷(xiāo)。這些系統(tǒng)運(yùn)行起來(lái)就像駕駛一輛裝滿高科技設(shè)備的坦克——功能強(qiáng)大但行動(dòng)緩慢。它們往往采用復(fù)雜的Transformer架構(gòu)來(lái)執(zhí)行自注意力機(jī)制,處理長(zhǎng)距離的上下文信息,這個(gè)過(guò)程消耗的計(jì)算資源就像燃燒金錢(qián)一樣昂貴。

另一支隊(duì)伍則走向了完全相反的道路,他們專(zhuān)注于實(shí)時(shí)性能。這些研究者就像賽車(chē)設(shè)計(jì)師,竭盡全力減輕系統(tǒng)重量,提升運(yùn)行速度。他們的解決方案通常采用輕量級(jí)的骨干網(wǎng)絡(luò)、二維卷積層和局部迭代細(xì)化模塊,整個(gè)系統(tǒng)就像一輛精簡(jiǎn)的跑車(chē),能夠達(dá)到令人印象深刻的幀率。

但這種速度的提升是以犧牲泛化能力為代價(jià)的。這些快速系統(tǒng)就像只在特定賽道上訓(xùn)練的賽車(chē)手,一旦離開(kāi)熟悉的環(huán)境就會(huì)表現(xiàn)失常。它們通常需要針對(duì)特定領(lǐng)域進(jìn)行微調(diào),無(wú)法像基礎(chǔ)模型那樣處理各種復(fù)雜的真實(shí)世界場(chǎng)景。更令人頭疼的是,獲取高質(zhì)量的稠密深度標(biāo)注數(shù)據(jù)就像尋找珍稀寶石一樣困難且昂貴,這進(jìn)一步限制了這些高效方法在通用環(huán)境中的應(yīng)用。

這種兩極分化的現(xiàn)狀就像一道無(wú)法跨越的鴻溝,將立體視覺(jué)研究分割成了兩個(gè)互不相容的陣營(yíng)。實(shí)際應(yīng)用中的開(kāi)發(fā)者們往往陷入進(jìn)退兩難的境地:選擇精確但緩慢的系統(tǒng)意味著無(wú)法滿足實(shí)時(shí)應(yīng)用的需求,而選擇快速但不夠魯棒的系統(tǒng)又可能在復(fù)雜的真實(shí)環(huán)境中出現(xiàn)嚴(yán)重的性能下降。

二、分而治之的智慧:三管齊下的加速策略

NVIDIA研究團(tuán)隊(duì)的解決方案就像一個(gè)精明的指揮官,面對(duì)復(fù)雜的戰(zhàn)場(chǎng)不是蠻力沖鋒,而是將任務(wù)分解成多個(gè)可管理的小目標(biāo),然后逐一擊破。他們將FoundationStereo這個(gè)強(qiáng)大但笨重的系統(tǒng)比作一臺(tái)復(fù)雜的機(jī)器,然后對(duì)其三個(gè)核心組件進(jìn)行了針對(duì)性的改造。

在特征提取這個(gè)環(huán)節(jié),原始的FoundationStereo就像配備了兩個(gè)不同引擎的混合動(dòng)力車(chē)。一個(gè)是DepthAnythingV2引擎,專(zhuān)門(mén)提供豐富的單目先驗(yàn)知識(shí),就像一個(gè)經(jīng)驗(yàn)豐富的老司機(jī);另一個(gè)是側(cè)調(diào)CNN引擎,負(fù)責(zé)將單目特征適配到雙目立體設(shè)置中,就像一個(gè)專(zhuān)業(yè)的導(dǎo)航系統(tǒng)。雖然這種雙引擎設(shè)計(jì)功能強(qiáng)大,但運(yùn)行起來(lái)就像同時(shí)開(kāi)啟兩臺(tái)耗能設(shè)備,計(jì)算開(kāi)銷(xiāo)巨大。

研究團(tuán)隊(duì)采用了知識(shí)蒸餾技術(shù)來(lái)解決這個(gè)問(wèn)題。知識(shí)蒸餾就像是讓一個(gè)優(yōu)秀的老師將自己畢生的經(jīng)驗(yàn)傳授給一個(gè)年輕但天賦異稟的學(xué)生。在這個(gè)過(guò)程中,原始的雙模塊系統(tǒng)充當(dāng)"老師"的角色,生成多層級(jí)的特征金字塔作為"教材",而新的單一學(xué)生模塊則通過(guò)最小化均方誤差損失來(lái)"學(xué)習(xí)"這些知識(shí)。

為了提供不同速度和精度權(quán)衡的選擇,研究團(tuán)隊(duì)訓(xùn)練了多個(gè)不同架構(gòu)的學(xué)生模型變體。這就像制造不同排量的汽車(chē)引擎,用戶可以根據(jù)自己的需求選擇合適的版本。通過(guò)這種方式,他們成功地將雙模塊的復(fù)雜性壓縮到了單一的高效模塊中,同時(shí)保持了原有的豐富先驗(yàn)知識(shí)。

在成本過(guò)濾環(huán)節(jié),挑戰(zhàn)變得更加復(fù)雜。原始系統(tǒng)采用了雙分支架構(gòu):一個(gè)是包含軸向-平面卷積層的三維沙漏架構(gòu),另一個(gè)是將成本體積標(biāo)記化并執(zhí)行多頭自注意力的視差Transformer分支。直接對(duì)這些模塊進(jìn)行剪枝就像用鈍刀切肉,效果微乎其微,因?yàn)槌杀倔w積的通道維度本身就很小。

研究團(tuán)隊(duì)選擇了神經(jīng)架構(gòu)搜索這一更加智能的方法。他們將成本過(guò)濾模塊分解成一系列操作塊,就像將一個(gè)復(fù)雜的生產(chǎn)線分解成多個(gè)工作站。每個(gè)工作站都有多種候選配置,包括不同的三維卷積層、三維反卷積層、軸向-平面卷積層、殘差連接的三維卷積層,以及特征引導(dǎo)的體積激發(fā)層。

最巧妙的是,他們采用了分塊蒸餾和評(píng)估的策略。與傳統(tǒng)的需要訓(xùn)練完整模型的搜索方法不同,他們讓每個(gè)候選塊獨(dú)立學(xué)習(xí)模仿對(duì)應(yīng)教師塊的輸出。這就像讓每個(gè)工作站的工人獨(dú)立練習(xí)技能,而不需要等待整條生產(chǎn)線組裝完成。這種方法將訓(xùn)練復(fù)雜度從指數(shù)級(jí)的O(n^N)降低到了線性的O(n),大大提高了搜索效率。

最后,他們使用整數(shù)線性規(guī)劃來(lái)解決最優(yōu)塊組合的選擇問(wèn)題。這個(gè)過(guò)程就像解一個(gè)復(fù)雜的數(shù)學(xué)謎題,在給定的運(yùn)行時(shí)間預(yù)算約束下,尋找能夠最小化性能損失的塊組合。通過(guò)調(diào)整不同的時(shí)間預(yù)算,他們能夠生成一系列在速度和精度之間取得不同平衡的模型變體。

在視差細(xì)化這個(gè)最后環(huán)節(jié),原始的ConvGRU模塊存在大量的循環(huán)依賴關(guān)系。研究團(tuán)隊(duì)首先構(gòu)建了一個(gè)循環(huán)依賴圖來(lái)識(shí)別層間的相互依賴關(guān)系,就像繪制一張復(fù)雜的地鐵線路圖。然后,他們?cè)谶@個(gè)圖的指導(dǎo)下,使用結(jié)構(gòu)化剪枝技術(shù)來(lái)消除冗余。

剪枝過(guò)程使用一階泰勒展開(kāi)來(lái)評(píng)估參數(shù)的重要性,就像用顯微鏡檢查每個(gè)零件的作用。那些重要性最低的參數(shù)會(huì)被移除,但關(guān)鍵的是,那些預(yù)測(cè)視差圖和卷積上采樣掩碼的最終層會(huì)保持固定的輸出通道維度,確保系統(tǒng)的核心功能不受影響。剪枝之后,系統(tǒng)會(huì)進(jìn)行端到端的重新訓(xùn)練來(lái)恢復(fù)性能,整個(gè)過(guò)程就像給一臺(tái)精密機(jī)器進(jìn)行減重手術(shù)后的康復(fù)訓(xùn)練。

三、真實(shí)世界的智慧:自動(dòng)化偽標(biāo)注的創(chuàng)新

獲取高質(zhì)量的真實(shí)世界立體圖像標(biāo)注數(shù)據(jù)一直是這個(gè)領(lǐng)域的老大難問(wèn)題,就像在沙漠中尋找綠洲一樣稀少珍貴。傳統(tǒng)的方法往往依賴于合成數(shù)據(jù)集,但這些數(shù)據(jù)就像溫室里的花朵,雖然整齊美觀,卻缺乏真實(shí)世界的復(fù)雜性和多樣性。

NVIDIA研究團(tuán)隊(duì)設(shè)計(jì)了一套精巧的自動(dòng)化偽標(biāo)注流水線,就像建造了一條智能的生產(chǎn)線。這條生產(chǎn)線的原材料是來(lái)自Stereo4D數(shù)據(jù)集的真實(shí)立體圖像對(duì),這些圖像包含了互聯(lián)網(wǎng)上豐富多樣的真實(shí)場(chǎng)景,從繁忙的街道到寧?kù)o的鄉(xiāng)村,從室內(nèi)環(huán)境到戶外風(fēng)景。

整個(gè)偽標(biāo)注過(guò)程就像一個(gè)細(xì)致的質(zhì)量檢驗(yàn)員在工作。首先,教師模型FoundationStereo會(huì)對(duì)左圖像生成視差圖,這就像一個(gè)有經(jīng)驗(yàn)的專(zhuān)家給出初步判斷。與此同時(shí),單目深度估計(jì)器會(huì)對(duì)同一圖像生成對(duì)應(yīng)的深度圖,這就像第二個(gè)專(zhuān)家從不同角度給出意見(jiàn)。

關(guān)鍵的創(chuàng)新在于幾何一致性檢查。研究團(tuán)隊(duì)將視差圖和深度圖都轉(zhuǎn)換成法向量圖,這個(gè)過(guò)程就像將兩張不同格式的地圖轉(zhuǎn)換成相同的坐標(biāo)系統(tǒng)。他們使用相同的相機(jī)參數(shù)進(jìn)行三維反投影,然后使用Sobel算子計(jì)算法向量,最后通過(guò)計(jì)算兩個(gè)法向量圖之間的逐像素余弦相似度來(lái)評(píng)估幾何一致性。

這種法向量比較的方法比直接在深度或視差空間中進(jìn)行比較更加魯棒,就像通過(guò)比較建筑物的結(jié)構(gòu)特征而不是顏色來(lái)判斷兩張照片是否拍攝的是同一棟建筑。這種方法特別適合處理真實(shí)世界圖像中極其多樣的深度范圍和可能存在的噪聲預(yù)測(cè)。

研究團(tuán)隊(duì)還特別考慮了天空區(qū)域的特殊性。天空在立體視覺(jué)中是個(gè)特殊的存在,因?yàn)樗纳疃仁菬o(wú)限的,而且在常見(jiàn)的合成訓(xùn)練數(shù)據(jù)集中往往被低估。他們使用開(kāi)放詞匯分割模型來(lái)自動(dòng)檢測(cè)天空區(qū)域,在相似度計(jì)算中排除這些區(qū)域,最終將天空的視差值設(shè)置為零。

通過(guò)這套精心設(shè)計(jì)的流水線,研究團(tuán)隊(duì)從大量的互聯(lián)網(wǎng)立體視頻中篩選出了140萬(wàn)對(duì)高質(zhì)量的立體圖像對(duì)。這個(gè)過(guò)程就像從海灘上的無(wú)數(shù)沙粒中精選出珍貴的珍珠,每一對(duì)圖像都經(jīng)過(guò)了嚴(yán)格的質(zhì)量檢驗(yàn)。這些自動(dòng)標(biāo)注的數(shù)據(jù)補(bǔ)充了合成訓(xùn)練數(shù)據(jù),為知識(shí)蒸餾過(guò)程提供了更加豐富和真實(shí)的訓(xùn)練素材。

更重要的是,這種輸出空間的蒸餾與之前步驟中的特征空間蒸餾形成了互補(bǔ),就像從不同角度加固一座建筑的基礎(chǔ)。特征空間蒸餾確保了學(xué)生模型能夠?qū)W習(xí)到教師模型的內(nèi)在表示能力,而輸出空間蒸餾則確保了學(xué)生模型能夠在真實(shí)世界的復(fù)雜場(chǎng)景中產(chǎn)生可靠的預(yù)測(cè)結(jié)果。

四、令人矚目的成果:性能與效率的完美平衡

當(dāng)研究團(tuán)隊(duì)將他們的Fast-FoundationStereo系統(tǒng)投入到真實(shí)世界的測(cè)試中時(shí),結(jié)果令人刮目相看。在多個(gè)公認(rèn)的基準(zhǔn)數(shù)據(jù)集上,這個(gè)系統(tǒng)就像一個(gè)全能型運(yùn)動(dòng)員,不僅在速度項(xiàng)目上遙遙領(lǐng)先,在精度項(xiàng)目上也表現(xiàn)出色。

在Middlebury、ETH3D、KITTI 2012和KITTI 2015這些權(quán)威測(cè)試集上,F(xiàn)ast-FoundationStereo顯示出了壓倒性的優(yōu)勢(shì)。與其他實(shí)時(shí)方法相比,它的表現(xiàn)就像專(zhuān)業(yè)選手對(duì)戰(zhàn)業(yè)余愛(ài)好者一樣懸殊。即使是那些在相同數(shù)據(jù)集上訓(xùn)練過(guò)的競(jìng)爭(zhēng)對(duì)手,包括研究團(tuán)隊(duì)提供的偽標(biāo)注數(shù)據(jù),也無(wú)法達(dá)到Fast-FoundationStereo的水平。

更令人印象深刻的是,這個(gè)系統(tǒng)在某些情況下甚至超越了那些計(jì)算密集型的慢速模型。在處理一些特殊場(chǎng)景時(shí),比如反光的門(mén)表面或者半透明的紙巾盒,F(xiàn)ast-FoundationStereo的表現(xiàn)甚至比FoundationStereo和MonSter這樣的重量級(jí)選手更加出色。這就像一個(gè)輕量級(jí)拳手偶爾能夠擊敗重量級(jí)冠軍一樣令人驚訝。

在處理非朗伯表面(即那些不遵循理想反射定律的表面,如鏡面、透明物體等)時(shí),F(xiàn)ast-FoundationStereo同樣表現(xiàn)出了強(qiáng)大的魯棒性。在Booster數(shù)據(jù)集上的測(cè)試結(jié)果顯示,它不僅遠(yuǎn)遠(yuǎn)超過(guò)了其他實(shí)時(shí)方法,甚至能夠與那些專(zhuān)門(mén)針對(duì)復(fù)雜表面設(shè)計(jì)的計(jì)算密集型模型相提并論。

運(yùn)行時(shí)間的對(duì)比更是讓人印象深刻。在相同的硬件平臺(tái)(NVIDIA 3090 GPU)上,F(xiàn)ast-FoundationStereo的運(yùn)行時(shí)間僅為49毫秒,而如果使用TensorRT進(jìn)行進(jìn)一步優(yōu)化,這個(gè)時(shí)間可以壓縮到21毫秒。相比之下,原始的FoundationStereo需要496毫秒,這意味著Fast-FoundationStereo實(shí)現(xiàn)了超過(guò)10倍的速度提升。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)來(lái)驗(yàn)證每個(gè)組件的貢獻(xiàn)。特征骨干的知識(shí)蒸餾顯著提升了零樣本泛化性能,特別是在處理半透明玻璃門(mén)等挑戰(zhàn)性場(chǎng)景時(shí)效果尤為明顯。成本過(guò)濾的分塊搜索策略不僅大大降低了搜索復(fù)雜度,還能夠在不同的延遲預(yù)算約束下自動(dòng)發(fā)現(xiàn)最優(yōu)的架構(gòu)組合。視差細(xì)化模塊的結(jié)構(gòu)化剪枝則展現(xiàn)了原始模塊中存在的大量冗余,通過(guò)剪枝和重新訓(xùn)練能夠在幾乎不影響精度的情況下顯著提升速度。

偽標(biāo)注數(shù)據(jù)的效果同樣令人鼓舞。不僅Fast-FoundationStereo從中受益,其他實(shí)時(shí)方法如RT-IGEV和LightStereo-L在使用這些數(shù)據(jù)訓(xùn)練后也獲得了顯著的性能提升。這表明研究團(tuán)隊(duì)提出的自動(dòng)化偽標(biāo)注流水線具有廣泛的適用性,可以為整個(gè)立體視覺(jué)社區(qū)提供價(jià)值。

運(yùn)行時(shí)間的詳細(xì)分析顯示,三個(gè)核心組件都得到了大幅度的加速。特征提取、成本過(guò)濾和視差細(xì)化的處理時(shí)間都比原始版本顯著減少,這種全方位的優(yōu)化確保了系統(tǒng)的整體性能提升。

五、技術(shù)突破的深層價(jià)值與未來(lái)展望

Fast-FoundationStereo的成功不僅僅是一個(gè)技術(shù)指標(biāo)的提升,它代表了立體視覺(jué)領(lǐng)域的一個(gè)重要轉(zhuǎn)折點(diǎn)。這項(xiàng)研究就像在兩座孤島之間建起了一座橋梁,將追求極致精度的基礎(chǔ)模型陣營(yíng)和注重實(shí)時(shí)性能的高效算法陣營(yíng)連接起來(lái)。

從技術(shù)層面來(lái)看,這項(xiàng)研究證明了一個(gè)重要的理念:通過(guò)智能的系統(tǒng)設(shè)計(jì),我們可以在不犧牲核心能力的前提下實(shí)現(xiàn)大幅度的性能優(yōu)化。分而治之的策略展現(xiàn)了工程優(yōu)化的精髓——識(shí)別系統(tǒng)瓶頸,針對(duì)性地解決問(wèn)題,而不是簡(jiǎn)單的暴力優(yōu)化。知識(shí)蒸餾技術(shù)的成功應(yīng)用表明,深度學(xué)習(xí)模型中蘊(yùn)含的知識(shí)是可以被有效轉(zhuǎn)移的,這為未來(lái)的模型壓縮和加速研究開(kāi)辟了新的思路。

神經(jīng)架構(gòu)搜索在成本過(guò)濾模塊上的創(chuàng)新應(yīng)用特別值得關(guān)注。傳統(tǒng)的架構(gòu)搜索往往需要消耗巨大的計(jì)算資源,而分塊蒸餾和組合優(yōu)化的方法將搜索復(fù)雜度從指數(shù)級(jí)降低到線性級(jí),這種效率的提升為自動(dòng)化神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)在更廣泛領(lǐng)域的應(yīng)用奠定了基礎(chǔ)。

自動(dòng)化偽標(biāo)注流水線的成功也具有深遠(yuǎn)的意義。在機(jī)器學(xué)習(xí)領(lǐng)域,數(shù)據(jù)的獲取往往是最大的瓶頸,特別是需要精確標(biāo)注的視覺(jué)任務(wù)。這項(xiàng)研究展示了如何巧妙地利用多種互補(bǔ)的信息源來(lái)生成高質(zhì)量的訓(xùn)練數(shù)據(jù),這種方法論可以推廣到其他需要大量標(biāo)注數(shù)據(jù)的任務(wù)中。

從應(yīng)用角度來(lái)看,F(xiàn)ast-FoundationStereo為實(shí)時(shí)立體視覺(jué)應(yīng)用打開(kāi)了新的可能性。自動(dòng)駕駛汽車(chē)可以獲得更準(zhǔn)確的深度感知能力,同時(shí)滿足實(shí)時(shí)決策的嚴(yán)格時(shí)間要求。增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)設(shè)備可以提供更真實(shí)的環(huán)境理解,而不需要昂貴的專(zhuān)用硬件。機(jī)器人系統(tǒng)可以在復(fù)雜的真實(shí)環(huán)境中進(jìn)行更精確的空間定位和物體操作。

這項(xiàng)研究也為學(xué)術(shù)界提供了寶貴的經(jīng)驗(yàn)。它展示了如何在追求學(xué)術(shù)創(chuàng)新的同時(shí)兼顧工程實(shí)用性,如何通過(guò)系統(tǒng)性的方法解決復(fù)雜的多目標(biāo)優(yōu)化問(wèn)題。更重要的是,它證明了開(kāi)放的研究態(tài)度和數(shù)據(jù)分享對(duì)整個(gè)社區(qū)發(fā)展的重要性——研究團(tuán)隊(duì)承諾將開(kāi)源代碼、模型和偽標(biāo)簽,這種做法將加速整個(gè)領(lǐng)域的發(fā)展。

展望未來(lái),這項(xiàng)研究還指出了幾個(gè)值得探索的方向。量化技術(shù)的應(yīng)用被提到作為進(jìn)一步提升推理速度的正交方向,這可能使得Fast-FoundationStereo能夠在更加資源受限的邊緣設(shè)備上運(yùn)行。多模態(tài)融合也是一個(gè)有趣的方向,將立體視覺(jué)與其他傳感器信息結(jié)合可能會(huì)帶來(lái)更強(qiáng)大的環(huán)境感知能力。

說(shuō)到底,F(xiàn)ast-FoundationStereo的成功證明了一個(gè)簡(jiǎn)單而深刻的道理:真正的技術(shù)突破往往來(lái)自于對(duì)問(wèn)題本質(zhì)的深入理解和創(chuàng)新思維的巧妙運(yùn)用。研究團(tuán)隊(duì)沒(méi)有選擇簡(jiǎn)單的取舍,而是通過(guò)精巧的設(shè)計(jì)實(shí)現(xiàn)了看似不可能的平衡。這種"既要又要"的追求精神,正是推動(dòng)科技進(jìn)步的重要驅(qū)動(dòng)力。

對(duì)于普通人來(lái)說(shuō),這項(xiàng)研究的意義在于它讓我們離一個(gè)更智能、更便利的世界又近了一步。當(dāng)自動(dòng)駕駛汽車(chē)能夠更準(zhǔn)確地感知周?chē)h(huán)境時(shí),我們的出行會(huì)更安全。當(dāng)AR眼鏡能夠?qū)崟r(shí)理解三維空間時(shí),我們的工作和娛樂(lè)體驗(yàn)會(huì)更豐富。當(dāng)服務(wù)機(jī)器人能夠更好地理解空間關(guān)系時(shí),它們就能更好地融入我們的日常生活。

這項(xiàng)由NVIDIA團(tuán)隊(duì)完成的研究,不僅在技術(shù)上實(shí)現(xiàn)了重要突破,更在理念上為整個(gè)人工智能領(lǐng)域提供了寶貴的啟示:真正的創(chuàng)新不是非此即彼的選擇,而是在看似矛盾的需求中找到巧妙的平衡點(diǎn)。

Q&A

Q1:Fast-FoundationStereo相比傳統(tǒng)立體視覺(jué)系統(tǒng)有什么優(yōu)勢(shì)?

A:Fast-FoundationStereo最大的優(yōu)勢(shì)是實(shí)現(xiàn)了速度和精度的完美平衡。傳統(tǒng)系統(tǒng)要么精確但慢(如FoundationStereo需要496毫秒),要么快但不夠準(zhǔn)確。而Fast-FoundationStereo只需49毫秒就能達(dá)到接近甚至超越慢速系統(tǒng)的精度,實(shí)現(xiàn)了超過(guò)10倍的速度提升,同時(shí)在多個(gè)權(quán)威測(cè)試集上都遠(yuǎn)超其他實(shí)時(shí)方法。

Q2:分而治之的加速策略是如何工作的?

A:這個(gè)策略將立體視覺(jué)系統(tǒng)分解為三個(gè)核心組件分別優(yōu)化:特征提取部分使用知識(shí)蒸餾將雙模塊壓縮為單模塊;成本過(guò)濾部分采用分塊神經(jīng)架構(gòu)搜索自動(dòng)發(fā)現(xiàn)最優(yōu)組合;視差細(xì)化部分使用結(jié)構(gòu)化剪枝消除冗余。每個(gè)組件都針對(duì)其特點(diǎn)采用最適合的優(yōu)化方法,避免了簡(jiǎn)單粗暴的整體優(yōu)化。

Q3:自動(dòng)偽標(biāo)注技術(shù)能保證數(shù)據(jù)質(zhì)量嗎?

A:能夠保證。研究團(tuán)隊(duì)設(shè)計(jì)了一套精巧的質(zhì)量控制流程:首先讓立體視覺(jué)模型和單目深度模型分別對(duì)同一圖像給出預(yù)測(cè),然后將兩個(gè)結(jié)果轉(zhuǎn)換為法向量圖進(jìn)行幾何一致性比較,只有通過(guò)一致性檢驗(yàn)的圖像對(duì)才會(huì)被保留。這種方法比直接比較深度值更可靠,最終從大量數(shù)據(jù)中精選出140萬(wàn)對(duì)高質(zhì)量的真實(shí)世界立體圖像。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
誰(shuí)能想到,馬云對(duì)美團(tuán)王興的復(fù)仇,一等就是整整十年

誰(shuí)能想到,馬云對(duì)美團(tuán)王興的復(fù)仇,一等就是整整十年

流蘇晚晴
2025-12-29 18:31:44
最高返現(xiàn)60%!惠民保年末銷(xiāo)售亂象調(diào)查:業(yè)務(wù)員“貼錢(qián)”沖考核,誰(shuí)在“賠本賺吆喝”?

最高返現(xiàn)60%!惠民保年末銷(xiāo)售亂象調(diào)查:業(yè)務(wù)員“貼錢(qián)”沖考核,誰(shuí)在“賠本賺吆喝”?

每日經(jīng)濟(jì)新聞
2025-12-31 18:44:06
扛不住了?委內(nèi)瑞拉開(kāi)始關(guān)停

扛不住了?委內(nèi)瑞拉開(kāi)始關(guān)停

陸棄
2025-12-31 08:05:03
1960年代,許世友想要安徽一個(gè)湖,省委書(shū)記拍桌子:手伸太長(zhǎng)!結(jié)局誰(shuí)也沒(méi)想到

1960年代,許世友想要安徽一個(gè)湖,省委書(shū)記拍桌子:手伸太長(zhǎng)!結(jié)局誰(shuí)也沒(méi)想到

源溯歷史
2025-12-22 12:14:11
雷軍公布小米汽車(chē)新年福利

雷軍公布小米汽車(chē)新年福利

每日經(jīng)濟(jì)新聞
2026-01-01 08:25:06
央行再次“降息”后,這3類(lèi)存款反而更香了!聰明人已經(jīng)開(kāi)始操作

央行再次“降息”后,這3類(lèi)存款反而更香了!聰明人已經(jīng)開(kāi)始操作

小白鴿財(cái)經(jīng)
2026-01-01 07:05:03
中國(guó)為何不依照韓國(guó)人身份證上的漢字來(lái)翻譯韓國(guó)人名字?

中國(guó)為何不依照韓國(guó)人身份證上的漢字來(lái)翻譯韓國(guó)人名字?

亭里說(shuō)事
2025-12-31 09:32:01
上海一小區(qū)內(nèi)吊車(chē)吊臂轟然砸落!居民嚇壞:就聽(tīng)見(jiàn)‘轟’的一聲…

上海一小區(qū)內(nèi)吊車(chē)吊臂轟然砸落!居民嚇壞:就聽(tīng)見(jiàn)‘轟’的一聲…

上海圈
2025-12-31 18:45:49
阿嬌的瓜又炸了,聊天記錄曝光,顛覆想象

阿嬌的瓜又炸了,聊天記錄曝光,顛覆想象

聽(tīng)風(fēng)聽(tīng)你
2024-12-25 22:41:20
高德和交警聯(lián)網(wǎng)了嗎?網(wǎng)友:高德敢聯(lián)網(wǎng),就會(huì)失去大量客戶

高德和交警聯(lián)網(wǎng)了嗎?網(wǎng)友:高德敢聯(lián)網(wǎng),就會(huì)失去大量客戶

夜深?lèi)?ài)雜談
2025-12-15 23:14:05
2026年“國(guó)補(bǔ)”細(xì)則來(lái)了!1月1日早8點(diǎn)啟動(dòng)首輪報(bào)名,仍舊要“搖號(hào)”

2026年“國(guó)補(bǔ)”細(xì)則來(lái)了!1月1日早8點(diǎn)啟動(dòng)首輪報(bào)名,仍舊要“搖號(hào)”

上觀新聞
2025-12-31 22:33:11
小米新車(chē)駛出交付中心撞上消防設(shè)施 如何理賠?消防栓內(nèi)咋沒(méi)水?多方回應(yīng)

小米新車(chē)駛出交付中心撞上消防設(shè)施 如何理賠?消防栓內(nèi)咋沒(méi)水?多方回應(yīng)

大風(fēng)新聞
2025-12-31 12:26:05
長(zhǎng)沙樓市勢(shì)如破竹,長(zhǎng)沙待售二手房從72665套減少到了71519套

長(zhǎng)沙樓市勢(shì)如破竹,長(zhǎng)沙待售二手房從72665套減少到了71519套

有事問(wèn)彭叔
2025-12-30 17:49:30
徹底脫胎換骨!目前喜迎5連勝的快船,或有望挑戰(zhàn)一波10連勝!

徹底脫胎換骨!目前喜迎5連勝的快船,或有望挑戰(zhàn)一波10連勝!

田先生籃球
2025-12-31 21:09:26
俄公布普京官邸遭無(wú)人機(jī)襲擊 細(xì)節(jié)

俄公布普京官邸遭無(wú)人機(jī)襲擊 細(xì)節(jié)

每日經(jīng)濟(jì)新聞
2025-12-31 18:53:10
特朗普恐怕沒(méi)料到,大批軍火還沒(méi)運(yùn)抵臺(tái)島,中方一招直打美國(guó)七寸

特朗普恐怕沒(méi)料到,大批軍火還沒(méi)運(yùn)抵臺(tái)島,中方一招直打美國(guó)七寸

夢(mèng)史
2025-12-31 11:35:21
36歲哈登又發(fā)威,皮爾斯用19年書(shū)寫(xiě)的生涯紀(jì)錄,被你強(qiáng)勢(shì)打破

36歲哈登又發(fā)威,皮爾斯用19年書(shū)寫(xiě)的生涯紀(jì)錄,被你強(qiáng)勢(shì)打破

大西體育
2025-12-31 15:44:37
老人去世后被發(fā)現(xiàn)與小38歲保姆結(jié)婚,財(cái)產(chǎn)被過(guò)給保姆兒子,二審維持原判:房產(chǎn)歸養(yǎng)女所有

老人去世后被發(fā)現(xiàn)與小38歲保姆結(jié)婚,財(cái)產(chǎn)被過(guò)給保姆兒子,二審維持原判:房產(chǎn)歸養(yǎng)女所有

揚(yáng)子晚報(bào)
2025-12-31 17:39:21
普京官邸遇襲后中國(guó)表態(tài),俄羅斯的苦肉計(jì)瞞不了中國(guó)?

普京官邸遇襲后中國(guó)表態(tài),俄羅斯的苦肉計(jì)瞞不了中國(guó)?

王姐懶人家常菜
2026-01-01 07:49:38
【澳洲甲公開(kāi)課】新年第一炮,奧克蘭對(duì)陣紐卡噴氣機(jī),附贈(zèng)英超、英冠私房菜

【澳洲甲公開(kāi)課】新年第一炮,奧克蘭對(duì)陣紐卡噴氣機(jī),附贈(zèng)英超、英冠私房菜

一生紅白
2026-01-01 09:17:43
2026-01-01 09:32:49
至頂AI實(shí)驗(yàn)室 incentive-icons
至頂AI實(shí)驗(yàn)室
一個(gè)專(zhuān)注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
895文章數(shù) 151關(guān)注度
往期回顧 全部

科技要聞

老羅,演砸了,也封神了?

頭條要聞

牛彈琴:2026第一天 世界最關(guān)注三件事

頭條要聞

牛彈琴:2026第一天 世界最關(guān)注三件事

體育要聞

楊瀚森為球迷送上新年祝福:深知自身差距 亦在全力追趕

娛樂(lè)要聞

官宣才兩天就翻車(chē)?七七被連環(huán)爆料

財(cái)經(jīng)要聞

高培勇:分配制度改革是提振消費(fèi)的抓手

汽車(chē)要聞

凱迪拉克純電中型SUV 售價(jià)不足24萬(wàn)/33寸曲面屏

態(tài)度原創(chuàng)

時(shí)尚
數(shù)碼
游戲
公開(kāi)課
軍事航空

小黑靴不流行了?今年冬天最火的靴子竟然是它

數(shù)碼要聞

不可思議:銳龍7 9800X3D成功超頻7335MHz!創(chuàng)下新世界記錄

宮崎英高:FromSoftware并沒(méi)有發(fā)明魂系游戲

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

沉浸式感受"正義使命-2025"演習(xí)現(xiàn)場(chǎng)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版