国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

300萬對樣本、200萬對實拍:深度估計的數(shù)據(jù)荒,終于被打破

0
分享至



機器之心編輯部

做深度估計、深度補全的人,大概都有過這樣一個瞬間。

模型在 NYU Depth V2 這樣的經(jīng)典 benchmark 上跑出了漂亮的分數(shù),指標也足夠好看??梢坏┌淹粋€模型部署到真實機器人上,問題立刻暴露出來:深度圖邊緣發(fā)糊、遠處漂移,遇到反光材質(zhì)幾乎直接失效。

你第一反應(yīng)往往是實現(xiàn)出了 bug,于是從代碼到訓(xùn)練流程排查一遍??勺罱K你會發(fā)現(xiàn),代碼沒問題。

問題出在數(shù)據(jù)。

其實,這不是個例,而是這個方向長期存在的困境之一。

深度估計和深度補全的學(xué)術(shù)進展,在某種程度上是被數(shù)據(jù)集的天花板壓著走的。過去十幾年,社區(qū)高度依賴幾個經(jīng)典數(shù)據(jù)集:NYU Depth V2 以公寓和辦公室場景為主,室內(nèi)覆蓋有限;KITTI 面向自動駕駛,室外道路場景扎實,但對具身智能幾乎沒有直接用處;ScanNet 在室內(nèi)重建方向貢獻巨大,但它的幀序列格式并非為配對深度訓(xùn)練設(shè)計;ETH3D、DIML 各有側(cè)重,規(guī)模都不足以支撐當下大模型時代的訓(xùn)練需求。

雖然現(xiàn)在有合成數(shù)據(jù)集可以填補數(shù)據(jù)短缺問題,但合成數(shù)據(jù)在渲染材質(zhì)和真實場景之間有一道肉眼可辨的鴻溝。模型在合成數(shù)據(jù)上學(xué)到的深度先驗,遇到真實世界的反光金屬、透明玻璃、復(fù)雜紋理,往往直接崩壞。

這道鴻溝,沒有大規(guī)模真實數(shù)據(jù),系統(tǒng)性的解法很難實現(xiàn)。直到 3 月底,這個局面終于出現(xiàn)了松動。

螞蟻靈波完成了一件在這個領(lǐng)域久違的動作:一次性開源約 300 萬對高質(zhì)量 RGB - 深度數(shù)據(jù) ——LingBot-Depth-Dataset。每條樣本同時包含 RGB 圖像、傳感器原始深度以及對應(yīng)的真值深度,為訓(xùn)練提供了完整的對照信號。

整個數(shù)據(jù)集規(guī)模達到2.71TB,其中包括約200 萬對真實采集的 RGB-D 數(shù)據(jù)和 100 萬對高質(zhì)量渲染數(shù)據(jù);在真實數(shù)據(jù)部分,覆蓋了 Orbbec 335、335L,RealSense D405、D415、D435、D455 共6 款市場主流深度相機,以盡可能還原不同硬件條件下的真實感知分布。

該數(shù)據(jù)集以 CC BY-NC-SA 4.0 協(xié)議開源,允許學(xué)術(shù)與非商業(yè)場景下的自由使用與再創(chuàng)作。



  • 魔搭社區(qū) ModelScope:https://modelscope.cn/datasets/Robbyant/LingBot-Depth-Dataset
  • HuggingFace:https://huggingface.co/datasets/robbyant/mdm_depth

事實上,該數(shù)據(jù)集的有效性早已在模型層面得到驗證。螞蟻靈波在今年 1 月開源的具身智能感知模型 LingBot-Depth,正是基于這套數(shù)據(jù)訓(xùn)練而成的。

從實際效果來看,LingBot-Depth 可在不更換硬件的前提下顯著提升透明、反光等復(fù)雜材質(zhì)場景的深度輸出質(zhì)量,并且在深度精度和像素覆蓋率這兩項核心指標上,已經(jīng)全面優(yōu)于目前市面上頂尖的工業(yè)級 RGB-D 相機。

正是在這樣的前提下,螞蟻靈波選擇將這套數(shù)據(jù)完整開源,將內(nèi)部驗證過的數(shù)據(jù),向整個社區(qū)開放。



基于 LingBot-Depth-Dataset 數(shù)據(jù)集構(gòu)建的 LingBot-Depth,在傳統(tǒng)深度傳感器易失效的復(fù)雜場景中,仍可輸出具備真實尺度的高精度深度結(jié)果

LingBot-Depth 相關(guān)鏈接:

  • Hugging Face:https://huggingface.co/robbyant/lingbot-depth
  • ModelScope:https://modelscope.cn/models/robbyant/lingbot-depth
  • Tech Report:https://arxiv.org/abs/2601.17895

為什么真實數(shù)據(jù)規(guī)模如此關(guān)鍵?

要理解 LingBot-Depth-Dataset 的價值,需要先理解真實采集的深度數(shù)據(jù)為什么難以獲得。

采集成本是第一道門檻。高質(zhì)量的 RGB-D 數(shù)據(jù)采集需要將 RGB 相機與深度傳感器進行時間同步和空間標定,標定精度直接影響深度圖與彩色圖的像素對齊質(zhì)量。大規(guī)模部署多臺設(shè)備、在多個場景下系統(tǒng)性采集,工程復(fù)雜度遠高于普通視頻采集。此外,不同場景(強光、弱光、反射表面、透明材質(zhì))對傳感器性能的影響差異顯著,需要針對性處理。

傳感器原始深度圖存在固有缺陷。結(jié)構(gòu)光和 ToF 傳感器采集到的原始深度圖通常包含大量無效像素(空洞),邊緣處存在飛點(flying pixels),在反射或透明表面上深度值失效。這意味著原始傳感器深度圖不能直接作為訓(xùn)練真值,需要額外的處理步驟來生成稠密、精確的真值深度圖,而這個處理本身就是一個有技術(shù)門檻的問題。

標注真值的獲取難度高。不同于圖像分類可以用人工標注、或者利用網(wǎng)絡(luò)弱監(jiān)督,深度真值必須依賴物理測量或精密的多傳感器融合。激光雷達可以提供高精度稀疏點云,但需要與相機精確標定和時間同步;結(jié)構(gòu)光系統(tǒng)精度有限且對光照敏感;立體匹配可以提供稠密深度但在紋理平坦區(qū)域容易失效。沒有哪種單一方案是完美的,大規(guī)模采集必須在精度、成本和覆蓋度之間做權(quán)衡。

版權(quán)與開放意愿是另一道隱性門檻。工業(yè)界在大規(guī)模數(shù)據(jù)采集上投入了大量資源,但數(shù)據(jù)往往被視為競爭護城河而非公共資源。許多團隊擁有規(guī)??捎^的內(nèi)部數(shù)據(jù)集,卻從未考慮開放。這造成了一種奇特的局面:學(xué)術(shù)界對數(shù)據(jù)的渴望與工業(yè)界對數(shù)據(jù)的占有之間存在巨大落差,而學(xué)術(shù)研究所依賴的數(shù)據(jù)集,往往是多年前某個團隊順手做的副產(chǎn)品。

正因為以上這些原因,大規(guī)模真實場景 RGB-D 數(shù)據(jù)集在開源社區(qū)中至今仍屬稀缺資源。

300 萬對 RGB-D:一次量級躍遷

螞蟻靈波一口氣開源 300 萬對 RGB-D 樣本,在當前開源社區(qū)中,這已是規(guī)模最大的真實場景 RGB-D 數(shù)據(jù)集之一。

整個數(shù)據(jù)集并不是簡單的數(shù)據(jù)堆疊,而是圍繞真實世界深度感知任務(wù),做了一次結(jié)構(gòu)化設(shè)計,由四個子集構(gòu)成:

RobbyReal:1,400,000 對多設(shè)備采集的真實室內(nèi)場景數(shù)據(jù),構(gòu)成了數(shù)據(jù)集的核心主體。

這部分數(shù)據(jù)覆蓋了 Orbbec 335、335L,RealSense D405、D415、D435、D455 共 6 款市場主流深度相機。這些設(shè)備在測距范圍、噪聲模式、邊緣表現(xiàn)以及對不同材質(zhì)的響應(yīng)上存在顯著差異。這一設(shè)計的意義在于:將跨設(shè)備差異提前引入訓(xùn)練分布。

傳統(tǒng)數(shù)據(jù)集往往綁定單一設(shè)備,模型在該設(shè)備上表現(xiàn)良好,但一旦遷移到其他硬件環(huán)境,性能會明顯下降。而 LingBot-Depth-Dataset 通過多設(shè)備數(shù)據(jù),讓模型在訓(xùn)練階段就接觸到不同傳感器特性,從而提升跨設(shè)備泛化能力。

對于需要實際部署在機器人、AR 設(shè)備或工業(yè)系統(tǒng)中的模型來說,這一點直接決定了其工程可用性。



RobbyReal數(shù)據(jù)集示例

RobbyVla:580,960 對數(shù)據(jù),來自機器人在視覺 - 語言 - 動作(VLA)操作任務(wù)執(zhí)行過程中的實際采集。

傳統(tǒng)深度數(shù)據(jù)集的采集邏輯是人拿著相機掃場景,視角自然、連續(xù),物體在中遠距離。而機器人操作任務(wù)的視角截然不同:拍攝目標物體時距離往往只有 20-50cm,物體邊緣的深度精度決定抓取成敗;桌面操作場景的光照復(fù)雜,金屬、玻璃、透明塑料等材質(zhì)的深度測量本身就是難點。

這些特性讓 RobbyVla 數(shù)據(jù)具備了現(xiàn)有數(shù)據(jù)集無法替代的價值:它是在真實具身任務(wù)約束下采集的深度數(shù)據(jù),場景分布與機器人學(xué)習任務(wù)高度對齊。對于想要訓(xùn)練空間感知能力服務(wù)于操作任務(wù)的研究者而言,這批數(shù)據(jù)可以直接減少分布外泛化的損耗。



RobbyVla數(shù)據(jù)集示例

RobbySim: 999,264 對仿真渲染數(shù)據(jù),基于雙相機視角生成。

單相機渲染容易引入系統(tǒng)性的視角偏差,雙相機設(shè)置在生成過程中引入了視差約束,生成的深度圖在幾何一致性上更可靠。



RobbySim數(shù)據(jù)集示例

RobbySimVal驗證集(38,976 對)則提供了標準化的仿真場景評估基準,便于研究者在不消耗真實數(shù)據(jù)的前提下快速評估模型在仿真域的表現(xiàn)。



RobbySimVal 驗證集示例

除了數(shù)量龐大,螞蟻靈波在數(shù)據(jù)集質(zhì)量上同樣設(shè)定了極高標準。從原始采集到真值構(gòu)建,LingBot-Depth-Dataset 并未簡單依賴傳感器輸出,而是對深度數(shù)據(jù)進行了系統(tǒng)化處理與校正。

每條樣本包含一張 RGB 圖像、傳感器原始深度圖以及真值深度圖

通過提供原始觀測 + 真值的完整對照信號,模型不僅可以學(xué)習深度預(yù)測,還可以學(xué)習如何從噪聲數(shù)據(jù)中恢復(fù)真實結(jié)構(gòu)。

同時,數(shù)據(jù)在標注過程中遵循統(tǒng)一規(guī)范,對精度和一致性進行了嚴格控制,避免了由于標簽噪聲帶來的訓(xùn)練偏差。這一點在深度學(xué)習中尤為關(guān)鍵,錯誤的深度標簽,往往比沒有標簽更具破壞性。

也正是在這樣的數(shù)量和質(zhì)量保障下,LingBot-Depth-Dataset 的價值不再只是可用的數(shù)據(jù)集,而開始具備更基礎(chǔ)性的意義。

過去幾年,行業(yè)的關(guān)注點更多集中在模型上,更大的參數(shù)規(guī)模、更復(fù)雜的架構(gòu)、更強的推理能力。但一個越來越清晰的共識是,模型能力的上限,正在越來越多地由數(shù)據(jù)所決定。尤其是在 AI 從語言走向物理世界的過程中,數(shù)據(jù)的重要性被放大:世界模型需要可交互的環(huán)境數(shù)據(jù),機器人依賴長尾且真實的場景分布,多模態(tài)系統(tǒng)則必須對齊來自不同感知通道的信號。在這樣的背景下,大規(guī)模、高質(zhì)量、結(jié)構(gòu)化的數(shù)據(jù)集,正在成為新的競爭核心。

而 LingBot-Depth-Dataset 的出現(xiàn),本質(zhì)上推動的是一件更底層的轉(zhuǎn)變,讓深度感知,從一個依賴理想條件的實驗室問題,逐步走向可落地、可復(fù)用的工程問題。

深度估計、補全這個方向,長期處于一種尷尬的狀態(tài):下游需求(機器人、AR、自動駕駛)增長快,但基礎(chǔ)數(shù)據(jù)資源的開放程度遠不及視覺識別、NLP 等方向。NYUv2 在十多年后仍是標準評測集,某種程度上是因為沒有更好的替代品出現(xiàn),而非它本身足夠好。

就像 ImageNet 重塑了視覺,模擬環(huán)境推動了自動駕駛。對于具身智能而言,高質(zhì)量的空間感知數(shù)據(jù),可能正是那個尚未被充分填補的缺口,而 LingBot-Depth-Dataset 很有可能成為深度估計 / 深度補全領(lǐng)域的新一代 benchmark 基礎(chǔ)。

開源或許不會立刻帶來性能爆炸。但它正在改變一件更底層的事情:我們終于開始擁有,足夠接近真實世界的深度數(shù)據(jù)。

螞蟻靈波在這層基礎(chǔ)設(shè)施上的開源投入,對整個領(lǐng)域而言,每一個不需要從頭采集數(shù)據(jù)的研究團隊,可以把精力放在更高層的問題上。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
《瘋狂動物城2》定檔4月3日,創(chuàng)下中國進口片票房新紀錄!

《瘋狂動物城2》定檔4月3日,創(chuàng)下中國進口片票房新紀錄!

小椰的奶奶
2026-04-02 14:23:48
重返月球!NASA“阿爾忒彌斯二號”成功發(fā)射,舉世歡呼

重返月球!NASA“阿爾忒彌斯二號”成功發(fā)射,舉世歡呼

大洛杉磯LA
2026-04-02 07:11:53
剛打完比賽,面對記者不合時宜的提問,王曼昱堅決懟了回去!

剛打完比賽,面對記者不合時宜的提問,王曼昱堅決懟了回去!

光輝記
2026-04-03 10:36:01
向太也沒想到,自己那指望不上的兒子向佐,如今竟把老臉都丟光了

向太也沒想到,自己那指望不上的兒子向佐,如今竟把老臉都丟光了

顧史
2026-03-31 20:58:46
記者親測賈國龍新品牌“天邊砂鍋燜面”:人均50元,部分門店由西貝換牌

記者親測賈國龍新品牌“天邊砂鍋燜面”:人均50元,部分門店由西貝換牌

第一財經(jīng)資訊
2026-04-02 17:32:19
FZ 三月榜單TOP19| 瀨戶:壞了!這是沖著我來的??!

FZ 三月榜單TOP19| 瀨戶:壞了!這是沖著我來的??!

孤獨的獨角獸影視
2026-04-02 09:15:11
洪秀柱撰文支持鄭麗文訪問大陸,和平統(tǒng)一本就是兩岸顛撲不破的共識

洪秀柱撰文支持鄭麗文訪問大陸,和平統(tǒng)一本就是兩岸顛撲不破的共識

極目新聞
2026-04-02 18:04:08
落入第三檔!國足亞洲杯上上簽分組:沙特+敘利亞+新加坡,沖八強

落入第三檔!國足亞洲杯上上簽分組:沙特+敘利亞+新加坡,沖八強

男足的小球童
2026-04-02 17:02:55
金建希后半輩子有著落了,尹錫悅利用看守所漏洞,狂攬12億韓元

金建希后半輩子有著落了,尹錫悅利用看守所漏洞,狂攬12億韓元

王姐懶人家常菜
2026-04-02 19:41:18
戰(zhàn)后伊朗會怎樣?分析人士:更加憤怒和桀驁不馴,影響力或擴展到中東以外

戰(zhàn)后伊朗會怎樣?分析人士:更加憤怒和桀驁不馴,影響力或擴展到中東以外

紅星新聞
2026-04-02 18:29:11
隨著日本6-0,朝鮮8-0,U20女足亞洲杯最新積分榜出爐:中國領(lǐng)跑

隨著日本6-0,朝鮮8-0,U20女足亞洲杯最新積分榜出爐:中國領(lǐng)跑

側(cè)身凌空斬
2026-04-02 23:01:25
大漲超930點!伊朗:襲擊美國科技巨頭!

大漲超930點!伊朗:襲擊美國科技巨頭!

數(shù)據(jù)寶
2026-04-03 10:55:09
跟低學(xué)歷妹子談戀愛是啥體驗?網(wǎng)友:低社會化人群被女版黃毛拿下

跟低學(xué)歷妹子談戀愛是啥體驗?網(wǎng)友:低社會化人群被女版黃毛拿下

帶你感受人間冷暖
2026-03-28 16:48:21
伊朗再襲巴林的亞馬遜云計算中心

伊朗再襲巴林的亞馬遜云計算中心

界面新聞
2026-04-02 23:23:29
為啥大廠全在死磕AI編程?試完千問新模型后我悟了。。

為啥大廠全在死磕AI編程?試完千問新模型后我悟了。。

差評XPIN
2026-04-03 00:08:08
鄭麗文行程安排費心思,首訪南京卻落地上海,臨行前透露原因

鄭麗文行程安排費心思,首訪南京卻落地上海,臨行前透露原因

TVB的四小花
2026-04-02 09:30:55
直播間標題被指“內(nèi)涵”張雪機車,凱越機車緊急回應(yīng):從未否定雪總曾是凱越的靈魂,其離開前持股近36%

直播間標題被指“內(nèi)涵”張雪機車,凱越機車緊急回應(yīng):從未否定雪總曾是凱越的靈魂,其離開前持股近36%

每日經(jīng)濟新聞
2026-04-02 18:54:18
酒精含量從50變?yōu)?21,包頭這杯“司法特調(diào)”究竟有多上頭?

酒精含量從50變?yōu)?21,包頭這杯“司法特調(diào)”究竟有多上頭?

有戲
2026-04-01 21:55:35
銀行取錢新規(guī)來了,2026執(zhí)行,個人存取5萬以上現(xiàn)金,不再說用途

銀行取錢新規(guī)來了,2026執(zhí)行,個人存取5萬以上現(xiàn)金,不再說用途

混沌錄
2026-04-02 20:11:05
不打伊朗了?特朗普通告全世界,戰(zhàn)爭費由22國承擔,朝鮮發(fā)出警告

不打伊朗了?特朗普通告全世界,戰(zhàn)爭費由22國承擔,朝鮮發(fā)出警告

聊歷史的阿稼
2026-04-01 09:54:30
2026-04-03 12:08:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12669文章數(shù) 142605關(guān)注度
往期回顧 全部

科技要聞

SpaceX沖刺2萬億美元估值,馬斯克野心太大

頭條要聞

牛彈琴:美國干了一件令人發(fā)指的事 全世界都無法接受

頭條要聞

牛彈琴:美國干了一件令人發(fā)指的事 全世界都無法接受

體育要聞

沖擊世界杯失敗,80歲老帥一氣之下病倒了

娛樂要聞

《浪姐7》最新人氣TOP 曾沛慈斷層第一

財經(jīng)要聞

專家稱長期攝入“飄香劑”存在健康隱患

汽車要聞

你介意和遠房親戚長得很像嗎?

態(tài)度原創(chuàng)

教育
時尚
房產(chǎn)
家居
公開課

教育要聞

教育部:義務(wù)教育學(xué)校嚴禁設(shè)立重點班、實驗班、快慢班。(新華社)

為什么“這個顏色”成為今年頂流?這樣穿好看又治愈

房產(chǎn)要聞

理科生的浪漫,都藏在細節(jié)里!中交·藍色港灣這場交付太硬核!

家居要聞

溫馨多元 愛的具象化

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版