国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

通研院團(tuán)隊(duì)打造SceneVerse++「最大規(guī)模」真實(shí)3D場(chǎng)景數(shù)據(jù)

0
分享至



第一作者為北京通用人工智能研究院(BIGAI)研究員陳以新,合作者來自 BIGAI、北京大學(xué)、清華大學(xué)、北京郵電大學(xué)、北京理工大學(xué),通訊作者為 BIGAI 研究員黃思遠(yuǎn)。

在具身智能、機(jī)器人與增強(qiáng)現(xiàn)實(shí)等方向持續(xù)推進(jìn)的今天,3D 場(chǎng)景理解能力正成為空間智能的核心基礎(chǔ)設(shè)施。然而,一個(gè)長(zhǎng)期存在卻始終未被解決的問題是:

當(dāng)高質(zhì)量 3D 標(biāo)注數(shù)據(jù)日益稀缺,我們能否用「海量」互聯(lián)網(wǎng)視頻構(gòu)建高精度、可擴(kuò)展的真實(shí)場(chǎng)景數(shù)據(jù),提升 3D 場(chǎng)景理解的多任務(wù)表現(xiàn)?

近期,來自北京通用人工智能研究院的研究團(tuán)隊(duì)在被 CVPR 2026 高分接收的論文中,系統(tǒng)性地回答了這一問題。



  • 論文鏈接: https://arxiv.org/abs/2604.01907
  • 項(xiàng)目主頁:https://sv-pp.github.io/
  • 數(shù)據(jù)鏈接:https://huggingface.co/datasets/bigai/SceneVersepp



圖 1 SceneVerse++ 總覽:從無標(biāo)注互聯(lián)網(wǎng)視頻出發(fā),經(jīng)自動(dòng)化引擎生成的數(shù)據(jù)可用于提升 3D 檢測(cè)、空間 VQA 與 VLN 等下游任務(wù)的模型表現(xiàn)。

研究團(tuán)隊(duì)提出了一整套面向 3D 場(chǎng)景理解的自動(dòng)化數(shù)據(jù)引擎,從無標(biāo)注視頻出發(fā),依次完成數(shù)據(jù)預(yù)處理與篩選、結(jié)構(gòu)化建圖(SfM)、稠密重建、實(shí)例分割、語義描述生成,并進(jìn)一步派生出空間問答(Spatial VQA)與視覺語言導(dǎo)航(VLN)所需的結(jié)構(gòu)化數(shù)據(jù)。

基于該數(shù)據(jù)引擎,團(tuán)隊(duì)構(gòu)建了迄今最大規(guī)模的真實(shí)室內(nèi) 3D 場(chǎng)景數(shù)據(jù)集 SceneVerse++,共 6687 個(gè)場(chǎng)景,在場(chǎng)景數(shù)量、場(chǎng)景面積、物體種類與物體數(shù)量上均顯著超越 ScanNet、ARKitScenes 與 MultiScan 等既有真實(shí)數(shù)據(jù)集。

在三項(xiàng)代表性下游任務(wù),3D 目標(biāo)檢測(cè)與實(shí)例分割、3D 空間視覺問答(VQA)、3D 視覺語言導(dǎo)航(VLN)上,SceneVerse++ 均帶來顯著的零樣本與微調(diào)性能提升,并首次系統(tǒng)揭示了自動(dòng)化數(shù)據(jù)生成流程中各子模塊對(duì)下游任務(wù)的關(guān)鍵影響。

這項(xiàng)研究不僅交付了一個(gè)可直接使用的數(shù)據(jù)集,更重要的是為「用互聯(lián)網(wǎng)規(guī)模的無標(biāo)注數(shù)據(jù)驅(qū)動(dòng) 3D 空間智能」提供了可復(fù)現(xiàn)的路線圖和未來發(fā)展方向。

3D 場(chǎng)景理解的最大瓶頸:真實(shí)、高質(zhì)量且多樣的數(shù)據(jù)

3D 場(chǎng)景理解是具身智能、機(jī)器人與增強(qiáng)現(xiàn)實(shí)的共同基礎(chǔ),近年來從幾何感知(深度估計(jì)、相機(jī)位姿估計(jì))到語義理解(3D 目標(biāo)檢測(cè)、實(shí)例分割),再到高層推理(3D 視覺定位、空間推理)都取得了顯著進(jìn)展。

然而與 2D 數(shù)據(jù)不同,高質(zhì)量 3D 場(chǎng)景數(shù)據(jù)的獲取與標(biāo)注代價(jià)極高:通常需要 RGB-D 設(shè)備或 LiDAR 采集、三維重建、再人工標(biāo)注場(chǎng)景結(jié)構(gòu)與類別。

自 ScanNet 以來,3D 場(chǎng)景數(shù)據(jù)的規(guī)模并未真正出現(xiàn)量級(jí)上的飛躍;后續(xù)工作或以精度為代價(jià)提升場(chǎng)景數(shù)量(如 ARKitScenes),或在有限規(guī)模上提升質(zhì)量(如 ScanNet++)。模型持續(xù)迭代,數(shù)據(jù)卻面臨瓶頸,成為制約 3D 場(chǎng)景理解發(fā)展的核心矛盾。

本文的核心觀點(diǎn)是:用精心設(shè)計(jì)的自動(dòng)化數(shù)據(jù)引擎,從無標(biāo)注視頻中恢復(fù)與現(xiàn)有數(shù)據(jù)集同樣的 3D 場(chǎng)景表示,并生成可直接用于訓(xùn)練的多任務(wù)標(biāo)注。

SceneVerse++:來自互聯(lián)網(wǎng)視頻的真實(shí) 3D 場(chǎng)景數(shù)據(jù)集

研究團(tuán)隊(duì)聚焦于靜態(tài)室內(nèi)場(chǎng)景,把互聯(lián)網(wǎng)上的 Room Tour 視頻作為原始素材。相較于傳統(tǒng)掃描數(shù)據(jù),這類視頻具有更強(qiáng)的多樣性與規(guī)模潛力,同時(shí)也帶來了更復(fù)雜的建模挑戰(zhàn)。

整個(gè)數(shù)據(jù)管線由以下模塊組成:

  • 鏡頭切分與過濾:使用 TransNetV2 對(duì)長(zhǎng)視頻進(jìn)行鏡頭檢測(cè),剔除過短片段、純黑屏、畫面噪聲、人物主體以及室外場(chǎng)景,保留適合 3D 重建的室內(nèi)內(nèi)容;
  • 基于視差的關(guān)鍵幀抽?。?/strong>相較于均勻采樣,采用基于視差的關(guān)鍵幀選擇,既保證三角化穩(wěn)定,又控制冗余,對(duì)長(zhǎng)視頻尤其友好;
  • 密集像素匹配與全局光束法平差:通過密集像素匹配 + BA 得到穩(wěn)健的相機(jī)位姿與稀疏點(diǎn)云;并針對(duì) 300 幀以上的長(zhǎng)視頻引入了優(yōu)化的偽軌跡像素與相對(duì)圖像相似度策略,有效緩解像素匹配模型的假陽性偏差;
  • 質(zhì)量把關(guān):對(duì)空間覆蓋過小、內(nèi)容過空或 SfM 結(jié)果異常的場(chǎng)景進(jìn)行過濾。為確保下游任務(wù)的數(shù)據(jù)質(zhì)量,采用人工復(fù)核(每個(gè)場(chǎng)景 10 秒以內(nèi)),代價(jià)可控。

最終,從 8217 段互聯(lián)網(wǎng)視頻出發(fā),團(tuán)隊(duì)得到6687 個(gè)真實(shí)室內(nèi) 3D 場(chǎng)景,規(guī)模已超越同類真實(shí)數(shù)據(jù)集,并且由于素材來自長(zhǎng)視頻,SceneVerse++ 天然包含多樓層、多房間、大范圍的復(fù)雜場(chǎng)景,這是傳統(tǒng)房間級(jí)或?qū)嶒?yàn)室級(jí)掃描數(shù)據(jù)所不具備的。



圖 2 SceneVerse++ 與 ScanNet、ARKitScenes、MultiScan 的統(tǒng)計(jì)對(duì)比:在場(chǎng)景數(shù)量、場(chǎng)景面積、物體類別數(shù)與物體數(shù)量四項(xiàng)指標(biāo)上全面領(lǐng)先。

核心模塊一:自動(dòng)化 3D 重建與實(shí)例分割數(shù)據(jù)引擎

僅有 SfM 稀疏點(diǎn)云并不足以支撐下游任務(wù)。團(tuán)隊(duì)在 SfM 之上設(shè)計(jì)了一套同時(shí)兼顧質(zhì)量與效率的稠密重建 + 實(shí)例分割管線(如圖 3)。

核心目標(biāo)是解決一個(gè)基礎(chǔ)問題:如何從普通視頻中,自動(dòng)恢復(fù)一個(gè)「完整且?guī)?biāo)注」的 3D 場(chǎng)景?



圖 3 數(shù)據(jù)生成管線總覽:左上為基于度量深度的稠密重建,左下為 2D→3D 掩碼提升與語義標(biāo)簽生成,右側(cè)為最終的重建網(wǎng)格與實(shí)例分割結(jié)果。

  • 稠密重建:以 SfM 稀疏點(diǎn)為先驗(yàn),通過 Prior Depth Anything 預(yù)測(cè)稠密度量深度圖,隨后在 TSDF 表示下完成融合,得到水密網(wǎng)格;并以半徑 / 統(tǒng)計(jì)濾波去除浮點(diǎn)噪聲。相比端到端方法,該流水線在保持穩(wěn)定幾何質(zhì)量的同時(shí),顯著降低了大場(chǎng)景的計(jì)算開銷。
  • 實(shí)例分割:先用在每一幀獲得 2D 分割掩碼,再基于相鄰幀視圖一致性 + 空間一致性將 2D 掩碼聚合到 3D 空間;最后用 DescribeAnything 與 Qwen-VL 自動(dòng)生成實(shí)例的文本描述與 ScanNet 類別標(biāo)簽。這套 2D→3D 提升方案在避免重復(fù)實(shí)例的同時(shí),擺脫了對(duì)每場(chǎng)景優(yōu)化的重度依賴。

核心模塊二:面向空間 VQA 的結(jié)構(gòu)化問答生成

在 3D 場(chǎng)景理解之上,團(tuán)隊(duì)希望進(jìn)一步推動(dòng)大模型的空間推理能力:這些數(shù)據(jù),能不能直接用來訓(xùn)練模型的「空間理解能力」?

基于 SceneVerse++ 的幾何 + 語義標(biāo)注,他們構(gòu)建了 3D 場(chǎng)景圖(scene graph):每個(gè)節(jié)點(diǎn)表示一個(gè) 3D 物體實(shí)例,邊表示成對(duì)空間關(guān)系。結(jié)合 VLM-3R 的任務(wù)模板,自動(dòng)生成七類空間問答樣本,涵蓋:

  • 物體計(jì)數(shù)、物體尺寸(Object Counting / Object Size)
  • 相對(duì)距離、相對(duì)方向、絕對(duì)距離(Relative Distance / Relative Direction / Absolute Distance)
  • 房間尺寸(Room Size)
  • 路線規(guī)劃(Route Planning)

管線輸出總計(jì)632K 條空間 VQA 樣本(391K 多選題 + 241K 填數(shù)題),可直接用于 VSI-Bench 格式下的訓(xùn)練與評(píng)估。

核心模塊三:從真實(shí) Room Tour 視頻到可訓(xùn)練的 VLN 數(shù)據(jù)

視覺語言導(dǎo)航(VLN)任務(wù)的目標(biāo),是讓智能體「看著畫面,聽著指令,在環(huán)境中移動(dòng)」。 現(xiàn)實(shí)問題是:真實(shí)視頻雖然豐富,卻并不天然適合做導(dǎo)航數(shù)據(jù)。

真實(shí)的 Room Tour 視頻最接近人類自然探索方式,但其相機(jī)軌跡充滿冗余旋轉(zhuǎn)、回頭看、非前向視角等非導(dǎo)航行為,與 R2R 這類基準(zhǔn)中的短路徑 - 目標(biāo)導(dǎo)向軌跡存在顯著差異。



圖 4 VLN 數(shù)據(jù)生成三段式管線:路徑預(yù)處理 → 動(dòng)作編碼 → 指令生成。

團(tuán)隊(duì)據(jù)此設(shè)計(jì)了三階段流水線:

  • 路徑預(yù)處理:移除冗余局部旋轉(zhuǎn)、切分過長(zhǎng)路徑為若干子路徑,使其適合生成自然語言指令;
  • 動(dòng)作編碼:從 SfM 相機(jī)位姿投影到地面坐標(biāo),離散化為 R2R 風(fēng)格的前進(jìn)步長(zhǎng)(25/50/75 cm)與旋轉(zhuǎn)角度(15°/30°/45°),并過濾掉「只看不走」的動(dòng)作;
  • 指令生成:以 Chain-of-Thought 方式讓 VLM 先描述局部動(dòng)作,再生成整段路徑的自然語言指令;每條軌跡生成三種風(fēng)格化的指令以增強(qiáng)多樣性。

該管線最終在 SceneVerse++ 上產(chǎn)出9631 條軌跡、平均長(zhǎng)度 12.8 米、平均 15 步,共 7189 個(gè)不同場(chǎng)景下的 21567 條指令,為 VLN 研究提供了大規(guī)模、高質(zhì)量的真實(shí)視頻軌跡資源。

實(shí)驗(yàn)結(jié)果:三項(xiàng)任務(wù)全面提升,首次系統(tǒng)量化數(shù)據(jù)引擎的價(jià)值

1. 3D 目標(biāo)檢測(cè)與實(shí)例分割

作者以SpatialLM(基于 MLLM,原始模型在 12000+ 室內(nèi)合成場(chǎng)景上預(yù)訓(xùn)練)作為 3D 目標(biāo)檢測(cè)代表,以Mask3D(基于圖分割 segment 的實(shí)例分割模型)作為 3D 實(shí)例分割代表,分別在 ARKitScenes 與 ScanNet 兩個(gè)真實(shí)世界基準(zhǔn)上進(jìn)行零樣本與微調(diào)評(píng)估,所有模型架構(gòu)保持一致。

(a) 3D 目標(biāo)檢測(cè):如表 1 所示,SceneVerse++ 作為預(yù)訓(xùn)練數(shù)據(jù)在 ScanNet 零樣本上取得 F1@30.9 的表現(xiàn),更關(guān)鍵的是,在 ScanNet 上完成微調(diào)后,SceneVerse++ 預(yù)訓(xùn)練模型取得 F1@0.25 = 58.6、F1@0.5 = 45.4,較 SpatialLM 原合成預(yù)訓(xùn)練 + ScanNet 微調(diào)的 38.0 / 28.7 分別提升 +20.6 / +16.7 分,表明互聯(lián)網(wǎng)真實(shí)視頻比合成數(shù)據(jù)更能提供貼合真實(shí)世界分布的初始化;同時(shí),僅在 ScanNet 上訓(xùn)練(無預(yù)訓(xùn)練)僅得 F1@0.25 = 2.9,表明連接 3D 編碼器與 MLLM 的適配器必須依賴大規(guī)模預(yù)訓(xùn)練。



表 1 SpatialLM 在 3D 目標(biāo)檢測(cè)上的評(píng)估:在相同模型結(jié)構(gòu)下,SceneVerse++ 預(yù)訓(xùn)練 + ScanNet 微調(diào)取得 F1@0.25 = 58.6 / F1@0.5 = 45.4,相對(duì)基線大幅領(lǐng)先。

(b) 3D 實(shí)例分割:如表 2 所示,單獨(dú)用 SceneVerse++ 預(yù)訓(xùn)練的 Mask3D 難以遷移到 ScanNet(AP25 僅 15.4),但在 ScanNet 上微調(diào)后,各項(xiàng)指標(biāo)均有提升(AP25 36.1 → 38.5,AP 22.8 → 23.6)。這一差異揭示了一個(gè)關(guān)鍵現(xiàn)象:Mask3D 嚴(yán)重依賴基于圖分割預(yù)計(jì)算的 segment,對(duì)傳感器、重建流程的分布漂移高度敏感;相比之下,SpatialLM 這類直接作用于體素 / RGB 的模型表現(xiàn)出更穩(wěn)健的可擴(kuò)展性。



表 2 Mask3D 在 3D 實(shí)例分割上的評(píng)估:SceneVerse++ 預(yù)訓(xùn)練 + ScanNet 微調(diào)相比從頭訓(xùn)練提升 +2.4/+1.1/+0.8 (AP25/AP50/AP),但僅用 SceneVerse++ 預(yù)訓(xùn)練難以零樣本遷移,反映了該模型對(duì)數(shù)據(jù)特定偏差的強(qiáng)依賴。

2. 3D 空間視覺問答

3D 空間視覺問答的評(píng)估在VSI-Bench上進(jìn)行,作者在Qwen2.5-VL-3B / 7B兩個(gè)規(guī)模上用 LoRA 微調(diào),訓(xùn)練數(shù)據(jù)分為四組對(duì)照:

(1) 零樣本(-);

(2) 僅 SceneVerse++(SV++,202K 樣本);

(3) 僅 VLM-3R 的 ScanNet+ScanNet++ 數(shù)據(jù)(SN, SN++,206K,域內(nèi));

(4) 兩者合并訓(xùn)練(All)。

同時(shí)在全集與 ARKitScenes 子集上分別報(bào)告結(jié)果,后者對(duì) SV++ 與 SN/SN++ 均為域外,便于比較跨域泛化能力。



表 3 VSI-Bench 結(jié)果(各類任務(wù)準(zhǔn)確率 %):SV++ 相較零樣本在 3B / 7B 上平均提升 +14.9 / +9.8;與 SN,SN++ 合并后在全集與 ARKit 子集上同時(shí)登頂。

  • 生成數(shù)據(jù)對(duì)于空間推理能力有普遍增強(qiáng):Qwen2.5-VL-3B 全集平均從 27.9 → 42.8(+14.9),7B 從 36.6 → 46.4(+9.8);在物體計(jì)數(shù) Obj.Cnt.(25.2 → 61.8)、物體尺寸 Obj.Size(16.5 → 49.8)、相對(duì)距離 Rel.Dist.(37.2 → 49.3)上均有大幅躍升,證明互聯(lián)網(wǎng)視頻生成數(shù)據(jù)與仿真室內(nèi)掃描數(shù)據(jù)在空間推理能力上的提升效果相當(dāng)。
  • 跨域泛化顯著:在 ARKitScenes 子集(對(duì) SV++ 與 SN/SN++ 均是域外)上,SV++ 與 SN,SN++ 表現(xiàn)相當(dāng)甚至略優(yōu)(3B:48.0 vs. 49.0;7B:49.1 vs. 48.8),說明互聯(lián)網(wǎng)視頻提供的先驗(yàn)對(duì)真實(shí)場(chǎng)景具有良好泛化性。
  • 類別差異:SceneVerse++ 在相對(duì)距離(Rel.Dist.),相對(duì)方向(Rel.Dir.) 等通用空間知識(shí)類別上提升最明顯;在物體計(jì)數(shù)(Obj.Cnt.)、房間尺寸(Room Size) 等依賴域特定分布的類別上弱于 SN/SN++,這與圖 2 中場(chǎng)景 / 物體分布差異吻合。
  • 訓(xùn)練動(dòng)態(tài)揭示過擬合風(fēng)險(xiǎn):作者可視化訓(xùn)練過程發(fā)現(xiàn),域內(nèi)訓(xùn)練和測(cè)試(SN,SN++) 在訓(xùn)練后期仍在全集上持續(xù)上升,而域外訓(xùn)練和測(cè)試則在一個(gè)拐點(diǎn)后趨穩(wěn),反映出 SN,SN++ 容易過擬合到域內(nèi)特有線索,這與同期工作關(guān)于 VSI-Bench 非視覺捷徑的分析一致。



圖 5 訓(xùn)練過程對(duì)比:上為在全集上的測(cè)試,下為在 ARKitScenes 子集測(cè)試,發(fā)現(xiàn)域內(nèi)訓(xùn)練和測(cè)試(上)呈現(xiàn)過擬合現(xiàn)象。

3. 3D 視覺語言導(dǎo)航

評(píng)估基于標(biāo)準(zhǔn)Room-to-Room (R2R)基準(zhǔn)(Matterport3D 環(huán)境),所有實(shí)驗(yàn)使用相同訓(xùn)練輪次以確保公平。指標(biāo)包含SR(成功率)、OS(Oracle 成功率)、SPL(路徑長(zhǎng)度加權(quán)成功率)、Dist(距目標(biāo)距離)、PL(軌跡長(zhǎng)度)。

作者進(jìn)一步對(duì)數(shù)據(jù)管線中的兩個(gè)核心模塊進(jìn)行消融:TR(軌跡優(yōu)化,Trajectory Refinement)與 IE(指令增強(qiáng),Instruction Enrichment)。



表 4 在 R2R 基準(zhǔn)上的 VLN 評(píng)估:SceneVerse++ 預(yù)訓(xùn)練 + R2R 微調(diào)將 SR 從 0.088 提升至 0.228;去除 TR 或 IE 任一模塊均導(dǎo)致顯著下降。

  • 真實(shí)視頻顯著提升導(dǎo)航能力:僅用 SceneVerse++ 預(yù)訓(xùn)練就能在 R2R 零樣本將 SR 從 0.088 提升至 0.107;由于真實(shí)視頻包含豐富的自由探索行為,PL 從 5.22 激增至 14.1,反映其軌跡更復(fù)雜、更貼近真實(shí)人類運(yùn)動(dòng)。
  • 微調(diào)后全面提升:SceneVerse++ 預(yù)訓(xùn)練 + R2R 微調(diào)達(dá)到 SR 0.228 / OS 0.315 / SPL 0.191 / Dist 7.65,相較無預(yù)訓(xùn)練基線(SR 0.088)絕對(duì)提升 +14.0 個(gè)百分點(diǎn)(+159%);同時(shí) Dist 下降、SPL 提升,證明大規(guī)模真實(shí)視頻先驗(yàn)顯著改善了導(dǎo)航效率與路徑合理性。
  • 樸素混合不是最優(yōu):直接把 R2R 與 SceneVerse++ 混合訓(xùn)練(R2R+SV++)僅得 SR 0.188,低于先 SV++ 預(yù)訓(xùn)練、再 R2R 微調(diào)的 0.228,說明真實(shí)視頻與仿真環(huán)境存在視覺域差,需要通過預(yù)訓(xùn)練 → 微調(diào)的兩階段策略彌合。
  • 軌跡優(yōu)化(TR)不可或缺:w/o TR 時(shí),SR 從 0.228 降至 0.177(-5.1%),PL 也偏離 R2R 范式(11.95 vs. 11.64);缺少對(duì)原始冗余回頭軌跡的清洗,模型難以學(xué)到目標(biāo)導(dǎo)向的導(dǎo)航模式。
  • 指令增強(qiáng)(IE)更為關(guān)鍵:w/o IE 下降幅度更大 —— 零樣本 SR 僅 0.022,微調(diào)后也只有 0.074;缺少 CoT + 多樣化指令生成,模型幾乎無法把視覺動(dòng)作與自然語言對(duì)齊。

結(jié)論:原始互聯(lián)網(wǎng)視頻不能直接用于 VLN 訓(xùn)練,必須配合任務(wù)對(duì)齊的數(shù)據(jù)處理(TR + IE);數(shù)據(jù)質(zhì)量的提升比單純堆量更能帶來性能收益。

更重要的啟示:自動(dòng)化數(shù)據(jù)引擎應(yīng)當(dāng)被視作一等研究對(duì)象

除發(fā)布數(shù)據(jù)集之外,本文還系統(tǒng)性討論了當(dāng)前「從互聯(lián)網(wǎng)視頻到 3D 任務(wù)數(shù)據(jù)」管線中的若干共性問題:

  • 模型的可擴(kuò)展性 (scalable) 差異:直接作用于原始模態(tài)的模型(3D 體素、RGB-MLLM)在擴(kuò)大數(shù)據(jù)規(guī)模時(shí)表現(xiàn)更穩(wěn)健;依賴任務(wù)特定中間表示(如預(yù)計(jì)算分割 segments)的模型對(duì)分布漂移更敏感。
  • 基準(zhǔn)偏差與公平評(píng)估:現(xiàn)有基準(zhǔn)可能包含固有偏差,無法真實(shí)反映模型能力。未來評(píng)估應(yīng)更強(qiáng)調(diào)零樣本測(cè)試、減少數(shù)據(jù)污染,并開發(fā)更能衡量 in-the-wild 3D 理解與泛化能力的基準(zhǔn)。
  • 子模塊協(xié)同的重要性:SfM、實(shí)例分割、語言落地等子模塊往往在小規(guī)?;鶞?zhǔn)上訓(xùn)練,組合后會(huì)產(chǎn)生誤差累積。未來子模塊的開發(fā)和評(píng)估不應(yīng)只看單任務(wù)指標(biāo),還應(yīng)把其對(duì)自動(dòng)化數(shù)據(jù)管線的貢獻(xiàn)作為重要的衡量指標(biāo)。

總結(jié):邁向 3D 空間智能的「數(shù)據(jù)基建」

本文通過 SceneVerse++ 展示了用精心設(shè)計(jì)的自動(dòng)化數(shù)據(jù)引擎從互聯(lián)網(wǎng)視頻中規(guī)?;筛哔|(zhì)量 3D 場(chǎng)景理解數(shù)據(jù)的可行性。該工作同時(shí)覆蓋了低層感知(檢測(cè) / 分割)、空間推理(VQA)與具身導(dǎo)航(VLN)三大代表性任務(wù),在多個(gè)真實(shí)基準(zhǔn)上都取得了顯著且穩(wěn)健的性能提升。

研究團(tuán)隊(duì)進(jìn)一步指出了未來 3D 空間智能發(fā)展的關(guān)鍵方向,包括繼續(xù)擴(kuò)大互聯(lián)網(wǎng)視頻的規(guī)模與多樣性,提升子模塊(SfM、重建、分割、grounding)在 in-the-wild 視頻上的魯棒性與協(xié)同性,構(gòu)建更公平的評(píng)估體系以衡量模型的真實(shí) 3D 理解能力。

在 3D 數(shù)據(jù)長(zhǎng)期稀缺的背景下,利用「無標(biāo)注視頻」將是推動(dòng)具身智能體、3D VLM 以及下一代空間基礎(chǔ)模型的關(guān)鍵路徑。

感興趣的讀者可訪問項(xiàng)目主頁https://sv-pp.github.io/獲取更多實(shí)驗(yàn)細(xì)節(jié)與可視化資源。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
保密觀:某縣司法局工作人員劉某,假期值班時(shí)收到4份涉密電報(bào),將報(bào)頭及文件全文拍照,上傳至微信群請(qǐng)示領(lǐng)導(dǎo),造成涉密信息失控

保密觀:某縣司法局工作人員劉某,假期值班時(shí)收到4份涉密電報(bào),將報(bào)頭及文件全文拍照,上傳至微信群請(qǐng)示領(lǐng)導(dǎo),造成涉密信息失控

極目新聞
2026-04-30 07:35:23
奧尼爾:討厭看湖人隊(duì)打球,因?yàn)榈阶詈箅A段,他們總是想打英雄球

奧尼爾:討厭看湖人隊(duì)打球,因?yàn)榈阶詈箅A段,他們總是想打英雄球

好火子
2026-04-30 22:37:39
娛圈“采花高手”們的瓜!

娛圈“采花高手”們的瓜!

文刀萬
2026-04-02 18:00:09
大瓜!公募總經(jīng)理和99年的美女財(cái)經(jīng)記者!

大瓜!公募總經(jīng)理和99年的美女財(cái)經(jīng)記者!

挖掘機(jī)007
2026-04-30 11:17:46
千名學(xué)者聯(lián)名要求美國(guó)西北大學(xué)為致華裔神經(jīng)科學(xué)家吳瑛自殺道歉

千名學(xué)者聯(lián)名要求美國(guó)西北大學(xué)為致華裔神經(jīng)科學(xué)家吳瑛自殺道歉

TOP大學(xué)來了
2026-04-30 01:24:35
1-2,1-0!西甲贏麻了!5隊(duì)有望直通歐冠,德甲存希望,期待絕殺

1-2,1-0!西甲贏麻了!5隊(duì)有望直通歐冠,德甲存希望,期待絕殺

小徐講八卦
2026-05-01 06:16:23
兒童繪本居然有床戲!尺度大膽細(xì)節(jié)露骨,兒童讀物底線何在?

兒童繪本居然有床戲!尺度大膽細(xì)節(jié)露骨,兒童讀物底線何在?

今朝牛馬
2026-04-28 22:43:44
有一種“反噬”叫張碧晨和華晨宇,分手7年,兩人的境遇天翻地覆

有一種“反噬”叫張碧晨和華晨宇,分手7年,兩人的境遇天翻地覆

暖心萌阿菇?jīng)?/span>
2026-05-01 01:20:35
沉默45年后,中國(guó)第二輪“嚴(yán)打”終于來了!但這次的目標(biāo)變了。

沉默45年后,中國(guó)第二輪“嚴(yán)打”終于來了!但這次的目標(biāo)變了。

李博世財(cái)經(jīng)
2026-04-30 10:04:09
蘇提達(dá)王后細(xì)節(jié)絕了!主動(dòng)牽手泰王反被緊握,詩妮娜貴妃遺憾出局

蘇提達(dá)王后細(xì)節(jié)絕了!主動(dòng)牽手泰王反被緊握,詩妮娜貴妃遺憾出局

原夢(mèng)叁生
2026-04-30 23:58:07
長(zhǎng)江電力2025年?duì)I收862.42億元、歸母凈利345.03億元,同比分別增長(zhǎng)2.07%、6.17%

長(zhǎng)江電力2025年?duì)I收862.42億元、歸母凈利345.03億元,同比分別增長(zhǎng)2.07%、6.17%

金融界
2026-04-30 21:53:32
第11位下課主帥誕生 英超再遇“瘋狂換帥季”

第11位下課主帥誕生 英超再遇“瘋狂換帥季”

體壇周報(bào)
2026-04-30 20:03:15
海南夫妻英勇救人,榮譽(yù)不止官媒點(diǎn)贊,醫(yī)院認(rèn)定更暖心

海南夫妻英勇救人,榮譽(yù)不止官媒點(diǎn)贊,醫(yī)院認(rèn)定更暖心

奇思妙想草葉君
2026-04-30 20:08:05
霍啟山捧場(chǎng)楊受成長(zhǎng)子夜店,倆闊少把酒言歡,58歲楊其龍樣子滄桑

霍啟山捧場(chǎng)楊受成長(zhǎng)子夜店,倆闊少把酒言歡,58歲楊其龍樣子滄桑

樹娃
2026-04-30 14:14:16
44歲陳震北京車展現(xiàn)狀:從網(wǎng)紅到無人問津不冤

44歲陳震北京車展現(xiàn)狀:從網(wǎng)紅到無人問津不冤

微風(fēng)輕拂面
2026-04-27 20:59:00
葉新萍已被查實(shí),舉報(bào)人再爆院長(zhǎng)兒子:一個(gè)人占了整個(gè)科室的福利

葉新萍已被查實(shí),舉報(bào)人再爆院長(zhǎng)兒子:一個(gè)人占了整個(gè)科室的福利

娛樂圈見解說
2026-05-01 00:33:10
連續(xù)三天嫖娼一次嫖倆,花800元?dú)У粢皇峙窈门疲麍D什么?

連續(xù)三天嫖娼一次嫖倆,花800元?dú)У粢皇峙窈门?,他圖什么?

街上的行人很刺眼
2026-04-25 10:55:49
為什么整個(gè)亞洲只有中國(guó)有山姆超市?

為什么整個(gè)亞洲只有中國(guó)有山姆超市?

流蘇晚晴
2026-04-30 18:50:00
華為請(qǐng)他代言,27分鐘賣了一萬多臺(tái)車,整個(gè)車圈都傻了

華為請(qǐng)他代言,27分鐘賣了一萬多臺(tái)車,整個(gè)車圈都傻了

茶余飯好
2026-04-29 11:14:32
美股三大指數(shù)集體收漲 高通漲超15%

美股三大指數(shù)集體收漲 高通漲超15%

財(cái)聯(lián)社
2026-05-01 04:02:11
2026-05-01 07:28:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12898文章數(shù) 142639關(guān)注度
往期回顧 全部

科技要聞

9000億美元估值,Anthropic即將反超OpenAI

頭條要聞

英國(guó)國(guó)王給特朗普送了口鐘 還貼臉開大"有需要盡管敲"

頭條要聞

英國(guó)國(guó)王給特朗普送了口鐘 還貼臉開大"有需要盡管敲"

體育要聞

季后賽場(chǎng)均5.4分,他憑啥在騎士打首發(fā)?

娛樂要聞

孫楊博士學(xué)歷有問題?官方含糊其辭

財(cái)經(jīng)要聞

易會(huì)滿被“雙開”!

汽車要聞

專訪捷途汪如生:捷途雙線作戰(zhàn) 全球化全面落地

態(tài)度原創(chuàng)

本地
旅游
房產(chǎn)
親子
手機(jī)

本地新聞

用青花瓷的方式,打開西溪濕地

旅游要聞

人文|古城梧州看騎樓

房產(chǎn)要聞

熬了6年,漲了2億,三亞核心區(qū)這塊地再次上架

親子要聞

接不到活的月嫂越來越多

手機(jī)要聞

華碩創(chuàng)X 2026驍龍X2 Elite二合一創(chuàng)作本上架,12999元

無障礙瀏覽 進(jìn)入關(guān)懷版