網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

通研院團(tuán)隊(duì)打造SceneVerse++「最大規(guī)模」真實(shí)3D場(chǎng)景數(shù)據(jù)

2026-04-30 16:19:08　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

第一作者為北京通用人工智能研究院（BIGAI）研究員陳以新，合作者來自 BIGAI、北京大學(xué)、清華大學(xué)、北京郵電大學(xué)、北京理工大學(xué)，通訊作者為 BIGAI 研究員黃思遠(yuǎn)。

在具身智能、機(jī)器人與增強(qiáng)現(xiàn)實(shí)等方向持續(xù)推進(jìn)的今天，3D 場(chǎng)景理解能力正成為空間智能的核心基礎(chǔ)設(shè)施。然而，一個(gè)長(zhǎng)期存在卻始終未被解決的問題是：

當(dāng)高質(zhì)量 3D 標(biāo)注數(shù)據(jù)日益稀缺，我們能否用「海量」互聯(lián)網(wǎng)視頻構(gòu)建高精度、可擴(kuò)展的真實(shí)場(chǎng)景數(shù)據(jù)，提升 3D 場(chǎng)景理解的多任務(wù)表現(xiàn)？

近期，來自北京通用人工智能研究院的研究團(tuán)隊(duì)在被 CVPR 2026 高分接收的論文中，系統(tǒng)性地回答了這一問題。

論文鏈接： https://arxiv.org/abs/2604.01907
項(xiàng)目主頁：https://sv-pp.github.io/
數(shù)據(jù)鏈接：https://huggingface.co/datasets/bigai/SceneVersepp

圖 1 SceneVerse++ 總覽：從無標(biāo)注互聯(lián)網(wǎng)視頻出發(fā)，經(jīng)自動(dòng)化引擎生成的數(shù)據(jù)可用于提升 3D 檢測(cè)、空間 VQA 與 VLN 等下游任務(wù)的模型表現(xiàn)。

研究團(tuán)隊(duì)提出了一整套面向 3D 場(chǎng)景理解的自動(dòng)化數(shù)據(jù)引擎，從無標(biāo)注視頻出發(fā)，依次完成數(shù)據(jù)預(yù)處理與篩選、結(jié)構(gòu)化建圖（SfM）、稠密重建、實(shí)例分割、語義描述生成，并進(jìn)一步派生出空間問答（Spatial VQA）與視覺語言導(dǎo)航（VLN）所需的結(jié)構(gòu)化數(shù)據(jù)。

基于該數(shù)據(jù)引擎，團(tuán)隊(duì)構(gòu)建了迄今最大規(guī)模的真實(shí)室內(nèi) 3D 場(chǎng)景數(shù)據(jù)集 SceneVerse++，共 6687 個(gè)場(chǎng)景，在場(chǎng)景數(shù)量、場(chǎng)景面積、物體種類與物體數(shù)量上均顯著超越 ScanNet、ARKitScenes 與 MultiScan 等既有真實(shí)數(shù)據(jù)集。

在三項(xiàng)代表性下游任務(wù)，3D 目標(biāo)檢測(cè)與實(shí)例分割、3D 空間視覺問答（VQA）、3D 視覺語言導(dǎo)航（VLN）上，SceneVerse++ 均帶來顯著的零樣本與微調(diào)性能提升，并首次系統(tǒng)揭示了自動(dòng)化數(shù)據(jù)生成流程中各子模塊對(duì)下游任務(wù)的關(guān)鍵影響。

這項(xiàng)研究不僅交付了一個(gè)可直接使用的數(shù)據(jù)集，更重要的是為「用互聯(lián)網(wǎng)規(guī)模的無標(biāo)注數(shù)據(jù)驅(qū)動(dòng) 3D 空間智能」提供了可復(fù)現(xiàn)的路線圖和未來發(fā)展方向。

3D 場(chǎng)景理解的最大瓶頸：真實(shí)、高質(zhì)量且多樣的數(shù)據(jù)

3D 場(chǎng)景理解是具身智能、機(jī)器人與增強(qiáng)現(xiàn)實(shí)的共同基礎(chǔ)，近年來從幾何感知（深度估計(jì)、相機(jī)位姿估計(jì)）到語義理解（3D 目標(biāo)檢測(cè)、實(shí)例分割），再到高層推理（3D 視覺定位、空間推理）都取得了顯著進(jìn)展。

然而與 2D 數(shù)據(jù)不同，高質(zhì)量 3D 場(chǎng)景數(shù)據(jù)的獲取與標(biāo)注代價(jià)極高：通常需要 RGB-D 設(shè)備或 LiDAR 采集、三維重建、再人工標(biāo)注場(chǎng)景結(jié)構(gòu)與類別。

自 ScanNet 以來，3D 場(chǎng)景數(shù)據(jù)的規(guī)模并未真正出現(xiàn)量級(jí)上的飛躍；后續(xù)工作或以精度為代價(jià)提升場(chǎng)景數(shù)量（如 ARKitScenes），或在有限規(guī)模上提升質(zhì)量（如 ScanNet++）。模型持續(xù)迭代，數(shù)據(jù)卻面臨瓶頸，成為制約 3D 場(chǎng)景理解發(fā)展的核心矛盾。

本文的核心觀點(diǎn)是：用精心設(shè)計(jì)的自動(dòng)化數(shù)據(jù)引擎，從無標(biāo)注視頻中恢復(fù)與現(xiàn)有數(shù)據(jù)集同樣的 3D 場(chǎng)景表示，并生成可直接用于訓(xùn)練的多任務(wù)標(biāo)注。

SceneVerse++：來自互聯(lián)網(wǎng)視頻的真實(shí) 3D 場(chǎng)景數(shù)據(jù)集

研究團(tuán)隊(duì)聚焦于靜態(tài)室內(nèi)場(chǎng)景，把互聯(lián)網(wǎng)上的 Room Tour 視頻作為原始素材。相較于傳統(tǒng)掃描數(shù)據(jù)，這類視頻具有更強(qiáng)的多樣性與規(guī)模潛力，同時(shí)也帶來了更復(fù)雜的建模挑戰(zhàn)。

整個(gè)數(shù)據(jù)管線由以下模塊組成：

鏡頭切分與過濾：使用 TransNetV2 對(duì)長(zhǎng)視頻進(jìn)行鏡頭檢測(cè)，剔除過短片段、純黑屏、畫面噪聲、人物主體以及室外場(chǎng)景，保留適合 3D 重建的室內(nèi)內(nèi)容；
基于視差的關(guān)鍵幀抽?。?/strong>相較于均勻采樣，采用基于視差的關(guān)鍵幀選擇，既保證三角化穩(wěn)定，又控制冗余，對(duì)長(zhǎng)視頻尤其友好；
密集像素匹配與全局光束法平差：通過密集像素匹配 + BA 得到穩(wěn)健的相機(jī)位姿與稀疏點(diǎn)云；并針對(duì) 300 幀以上的長(zhǎng)視頻引入了優(yōu)化的偽軌跡像素與相對(duì)圖像相似度策略，有效緩解像素匹配模型的假陽性偏差；
質(zhì)量把關(guān)：對(duì)空間覆蓋過小、內(nèi)容過空或 SfM 結(jié)果異常的場(chǎng)景進(jìn)行過濾。為確保下游任務(wù)的數(shù)據(jù)質(zhì)量，采用人工復(fù)核（每個(gè)場(chǎng)景 10 秒以內(nèi)），代價(jià)可控。

最終，從 8217 段互聯(lián)網(wǎng)視頻出發(fā)，團(tuán)隊(duì)得到6687 個(gè)真實(shí)室內(nèi) 3D 場(chǎng)景，規(guī)模已超越同類真實(shí)數(shù)據(jù)集，并且由于素材來自長(zhǎng)視頻，SceneVerse++ 天然包含多樓層、多房間、大范圍的復(fù)雜場(chǎng)景，這是傳統(tǒng)房間級(jí)或?qū)嶒?yàn)室級(jí)掃描數(shù)據(jù)所不具備的。

圖 2 SceneVerse++ 與 ScanNet、ARKitScenes、MultiScan 的統(tǒng)計(jì)對(duì)比：在場(chǎng)景數(shù)量、場(chǎng)景面積、物體類別數(shù)與物體數(shù)量四項(xiàng)指標(biāo)上全面領(lǐng)先。

核心模塊一：自動(dòng)化 3D 重建與實(shí)例分割數(shù)據(jù)引擎

僅有 SfM 稀疏點(diǎn)云并不足以支撐下游任務(wù)。團(tuán)隊(duì)在 SfM 之上設(shè)計(jì)了一套同時(shí)兼顧質(zhì)量與效率的稠密重建 + 實(shí)例分割管線（如圖 3）。

核心目標(biāo)是解決一個(gè)基礎(chǔ)問題：如何從普通視頻中，自動(dòng)恢復(fù)一個(gè)「完整且?guī)?biāo)注」的 3D 場(chǎng)景？

圖 3 數(shù)據(jù)生成管線總覽：左上為基于度量深度的稠密重建，左下為 2D→3D 掩碼提升與語義標(biāo)簽生成，右側(cè)為最終的重建網(wǎng)格與實(shí)例分割結(jié)果。

稠密重建：以 SfM 稀疏點(diǎn)為先驗(yàn)，通過 Prior Depth Anything 預(yù)測(cè)稠密度量深度圖，隨后在 TSDF 表示下完成融合，得到水密網(wǎng)格；并以半徑 / 統(tǒng)計(jì)濾波去除浮點(diǎn)噪聲。相比端到端方法，該流水線在保持穩(wěn)定幾何質(zhì)量的同時(shí)，顯著降低了大場(chǎng)景的計(jì)算開銷。
實(shí)例分割：先用在每一幀獲得 2D 分割掩碼，再基于相鄰幀視圖一致性 + 空間一致性將 2D 掩碼聚合到 3D 空間；最后用 DescribeAnything 與 Qwen-VL 自動(dòng)生成實(shí)例的文本描述與 ScanNet 類別標(biāo)簽。這套 2D→3D 提升方案在避免重復(fù)實(shí)例的同時(shí)，擺脫了對(duì)每場(chǎng)景優(yōu)化的重度依賴。

核心模塊二：面向空間 VQA 的結(jié)構(gòu)化問答生成

在 3D 場(chǎng)景理解之上，團(tuán)隊(duì)希望進(jìn)一步推動(dòng)大模型的空間推理能力：這些數(shù)據(jù)，能不能直接用來訓(xùn)練模型的「空間理解能力」？

基于 SceneVerse++ 的幾何 + 語義標(biāo)注，他們構(gòu)建了 3D 場(chǎng)景圖（scene graph）：每個(gè)節(jié)點(diǎn)表示一個(gè) 3D 物體實(shí)例，邊表示成對(duì)空間關(guān)系。結(jié)合 VLM-3R 的任務(wù)模板，自動(dòng)生成七類空間問答樣本，涵蓋：

物體計(jì)數(shù)、物體尺寸（Object Counting / Object Size）
相對(duì)距離、相對(duì)方向、絕對(duì)距離（Relative Distance / Relative Direction / Absolute Distance）
房間尺寸（Room Size）
路線規(guī)劃（Route Planning）

管線輸出總計(jì)632K 條空間 VQA 樣本（391K 多選題 + 241K 填數(shù)題），可直接用于 VSI-Bench 格式下的訓(xùn)練與評(píng)估。

核心模塊三：從真實(shí) Room Tour 視頻到可訓(xùn)練的 VLN 數(shù)據(jù)

視覺語言導(dǎo)航（VLN）任務(wù)的目標(biāo)，是讓智能體「看著畫面，聽著指令，在環(huán)境中移動(dòng)」。現(xiàn)實(shí)問題是：真實(shí)視頻雖然豐富，卻并不天然適合做導(dǎo)航數(shù)據(jù)。

真實(shí)的 Room Tour 視頻最接近人類自然探索方式，但其相機(jī)軌跡充滿冗余旋轉(zhuǎn)、回頭看、非前向視角等非導(dǎo)航行為，與 R2R 這類基準(zhǔn)中的短路徑 - 目標(biāo)導(dǎo)向軌跡存在顯著差異。

圖 4 VLN 數(shù)據(jù)生成三段式管線：路徑預(yù)處理 → 動(dòng)作編碼 → 指令生成。

團(tuán)隊(duì)據(jù)此設(shè)計(jì)了三階段流水線：

路徑預(yù)處理：移除冗余局部旋轉(zhuǎn)、切分過長(zhǎng)路徑為若干子路徑，使其適合生成自然語言指令；
動(dòng)作編碼：從 SfM 相機(jī)位姿投影到地面坐標(biāo)，離散化為 R2R 風(fēng)格的前進(jìn)步長(zhǎng)（25/50/75 cm）與旋轉(zhuǎn)角度（15°/30°/45°），并過濾掉「只看不走」的動(dòng)作；
指令生成：以 Chain-of-Thought 方式讓 VLM 先描述局部動(dòng)作，再生成整段路徑的自然語言指令；每條軌跡生成三種風(fēng)格化的指令以增強(qiáng)多樣性。

該管線最終在 SceneVerse++ 上產(chǎn)出9631 條軌跡、平均長(zhǎng)度 12.8 米、平均 15 步，共 7189 個(gè)不同場(chǎng)景下的 21567 條指令，為 VLN 研究提供了大規(guī)模、高質(zhì)量的真實(shí)視頻軌跡資源。

實(shí)驗(yàn)結(jié)果：三項(xiàng)任務(wù)全面提升，首次系統(tǒng)量化數(shù)據(jù)引擎的價(jià)值

1. 3D 目標(biāo)檢測(cè)與實(shí)例分割

作者以SpatialLM（基于 MLLM，原始模型在 12000+ 室內(nèi)合成場(chǎng)景上預(yù)訓(xùn)練）作為 3D 目標(biāo)檢測(cè)代表，以Mask3D（基于圖分割 segment 的實(shí)例分割模型）作為 3D 實(shí)例分割代表，分別在 ARKitScenes 與 ScanNet 兩個(gè)真實(shí)世界基準(zhǔn)上進(jìn)行零樣本與微調(diào)評(píng)估，所有模型架構(gòu)保持一致。

(a) 3D 目標(biāo)檢測(cè)：如表 1 所示，SceneVerse++ 作為預(yù)訓(xùn)練數(shù)據(jù)在 ScanNet 零樣本上取得 F1@30.9 的表現(xiàn)，更關(guān)鍵的是，在 ScanNet 上完成微調(diào)后，SceneVerse++ 預(yù)訓(xùn)練模型取得 F1@0.25 = 58.6、F1@0.5 = 45.4，較 SpatialLM 原合成預(yù)訓(xùn)練 + ScanNet 微調(diào)的 38.0 / 28.7 分別提升 +20.6 / +16.7 分，表明互聯(lián)網(wǎng)真實(shí)視頻比合成數(shù)據(jù)更能提供貼合真實(shí)世界分布的初始化；同時(shí)，僅在 ScanNet 上訓(xùn)練（無預(yù)訓(xùn)練）僅得 F1@0.25 = 2.9，表明連接 3D 編碼器與 MLLM 的適配器必須依賴大規(guī)模預(yù)訓(xùn)練。

表 1 SpatialLM 在 3D 目標(biāo)檢測(cè)上的評(píng)估：在相同模型結(jié)構(gòu)下，SceneVerse++ 預(yù)訓(xùn)練 + ScanNet 微調(diào)取得 F1@0.25 = 58.6 / F1@0.5 = 45.4，相對(duì)基線大幅領(lǐng)先。

(b) 3D 實(shí)例分割：如表 2 所示，單獨(dú)用 SceneVerse++ 預(yù)訓(xùn)練的 Mask3D 難以遷移到 ScanNet（AP25 僅 15.4），但在 ScanNet 上微調(diào)后，各項(xiàng)指標(biāo)均有提升（AP25 36.1 → 38.5，AP 22.8 → 23.6）。這一差異揭示了一個(gè)關(guān)鍵現(xiàn)象：Mask3D 嚴(yán)重依賴基于圖分割預(yù)計(jì)算的 segment，對(duì)傳感器、重建流程的分布漂移高度敏感；相比之下，SpatialLM 這類直接作用于體素 / RGB 的模型表現(xiàn)出更穩(wěn)健的可擴(kuò)展性。

表 2 Mask3D 在 3D 實(shí)例分割上的評(píng)估：SceneVerse++ 預(yù)訓(xùn)練 + ScanNet 微調(diào)相比從頭訓(xùn)練提升 +2.4/+1.1/+0.8 (AP25/AP50/AP)，但僅用 SceneVerse++ 預(yù)訓(xùn)練難以零樣本遷移，反映了該模型對(duì)數(shù)據(jù)特定偏差的強(qiáng)依賴。

2. 3D 空間視覺問答

3D 空間視覺問答的評(píng)估在VSI-Bench上進(jìn)行，作者在Qwen2.5-VL-3B / 7B兩個(gè)規(guī)模上用 LoRA 微調(diào)，訓(xùn)練數(shù)據(jù)分為四組對(duì)照：

(1) 零樣本（-）；

(2) 僅 SceneVerse++（SV++，202K 樣本）；

(3) 僅 VLM-3R 的 ScanNet+ScanNet++ 數(shù)據(jù)（SN, SN++，206K，域內(nèi)）；

(4) 兩者合并訓(xùn)練（All）。

同時(shí)在全集與 ARKitScenes 子集上分別報(bào)告結(jié)果，后者對(duì) SV++ 與 SN/SN++ 均為域外，便于比較跨域泛化能力。

表 3 VSI-Bench 結(jié)果（各類任務(wù)準(zhǔn)確率 %）：SV++ 相較零樣本在 3B / 7B 上平均提升 +14.9 / +9.8；與 SN,SN++ 合并后在全集與 ARKit 子集上同時(shí)登頂。

生成數(shù)據(jù)對(duì)于空間推理能力有普遍增強(qiáng)：Qwen2.5-VL-3B 全集平均從 27.9 → 42.8（+14.9），7B 從 36.6 → 46.4（+9.8）；在物體計(jì)數(shù) Obj.Cnt.（25.2 → 61.8）、物體尺寸 Obj.Size（16.5 → 49.8）、相對(duì)距離 Rel.Dist.（37.2 → 49.3）上均有大幅躍升，證明互聯(lián)網(wǎng)視頻生成數(shù)據(jù)與仿真室內(nèi)掃描數(shù)據(jù)在空間推理能力上的提升效果相當(dāng)。
跨域泛化顯著：在 ARKitScenes 子集（對(duì) SV++ 與 SN/SN++ 均是域外）上，SV++ 與 SN,SN++ 表現(xiàn)相當(dāng)甚至略優(yōu)（3B：48.0 vs. 49.0；7B：49.1 vs. 48.8），說明互聯(lián)網(wǎng)視頻提供的先驗(yàn)對(duì)真實(shí)場(chǎng)景具有良好泛化性。
類別差異：SceneVerse++ 在相對(duì)距離（Rel.Dist.），相對(duì)方向（Rel.Dir.）等通用空間知識(shí)類別上提升最明顯；在物體計(jì)數(shù)（Obj.Cnt.）、房間尺寸（Room Size）等依賴域特定分布的類別上弱于 SN/SN++，這與圖 2 中場(chǎng)景 / 物體分布差異吻合。
訓(xùn)練動(dòng)態(tài)揭示過擬合風(fēng)險(xiǎn)：作者可視化訓(xùn)練過程發(fā)現(xiàn)，域內(nèi)訓(xùn)練和測(cè)試（SN,SN++）在訓(xùn)練后期仍在全集上持續(xù)上升，而域外訓(xùn)練和測(cè)試則在一個(gè)拐點(diǎn)后趨穩(wěn)，反映出 SN,SN++ 容易過擬合到域內(nèi)特有線索，這與同期工作關(guān)于 VSI-Bench 非視覺捷徑的分析一致。

圖 5 訓(xùn)練過程對(duì)比：上為在全集上的測(cè)試，下為在 ARKitScenes 子集測(cè)試，發(fā)現(xiàn)域內(nèi)訓(xùn)練和測(cè)試（上）呈現(xiàn)過擬合現(xiàn)象。

3. 3D 視覺語言導(dǎo)航

評(píng)估基于標(biāo)準(zhǔn)Room-to-Room (R2R)基準(zhǔn)（Matterport3D 環(huán)境），所有實(shí)驗(yàn)使用相同訓(xùn)練輪次以確保公平。指標(biāo)包含SR（成功率）、OS（Oracle 成功率）、SPL（路徑長(zhǎng)度加權(quán)成功率）、Dist（距目標(biāo)距離）、PL（軌跡長(zhǎng)度）。

作者進(jìn)一步對(duì)數(shù)據(jù)管線中的兩個(gè)核心模塊進(jìn)行消融：TR（軌跡優(yōu)化，Trajectory Refinement）與 IE（指令增強(qiáng)，Instruction Enrichment）。

表 4 在 R2R 基準(zhǔn)上的 VLN 評(píng)估：SceneVerse++ 預(yù)訓(xùn)練 + R2R 微調(diào)將 SR 從 0.088 提升至 0.228；去除 TR 或 IE 任一模塊均導(dǎo)致顯著下降。

真實(shí)視頻顯著提升導(dǎo)航能力：僅用 SceneVerse++ 預(yù)訓(xùn)練就能在 R2R 零樣本將 SR 從 0.088 提升至 0.107；由于真實(shí)視頻包含豐富的自由探索行為，PL 從 5.22 激增至 14.1，反映其軌跡更復(fù)雜、更貼近真實(shí)人類運(yùn)動(dòng)。
微調(diào)后全面提升：SceneVerse++ 預(yù)訓(xùn)練 + R2R 微調(diào)達(dá)到 SR 0.228 / OS 0.315 / SPL 0.191 / Dist 7.65，相較無預(yù)訓(xùn)練基線（SR 0.088）絕對(duì)提升 +14.0 個(gè)百分點(diǎn)（+159%）；同時(shí) Dist 下降、SPL 提升，證明大規(guī)模真實(shí)視頻先驗(yàn)顯著改善了導(dǎo)航效率與路徑合理性。
樸素混合不是最優(yōu)：直接把 R2R 與 SceneVerse++ 混合訓(xùn)練（R2R+SV++）僅得 SR 0.188，低于先 SV++ 預(yù)訓(xùn)練、再 R2R 微調(diào)的 0.228，說明真實(shí)視頻與仿真環(huán)境存在視覺域差，需要通過預(yù)訓(xùn)練 → 微調(diào)的兩階段策略彌合。
軌跡優(yōu)化（TR）不可或缺：w/o TR 時(shí)，SR 從 0.228 降至 0.177（-5.1%），PL 也偏離 R2R 范式（11.95 vs. 11.64）；缺少對(duì)原始冗余回頭軌跡的清洗，模型難以學(xué)到目標(biāo)導(dǎo)向的導(dǎo)航模式。
指令增強(qiáng)（IE）更為關(guān)鍵：w/o IE 下降幅度更大 —— 零樣本 SR 僅 0.022，微調(diào)后也只有 0.074；缺少 CoT + 多樣化指令生成，模型幾乎無法把視覺動(dòng)作與自然語言對(duì)齊。

結(jié)論：原始互聯(lián)網(wǎng)視頻不能直接用于 VLN 訓(xùn)練，必須配合任務(wù)對(duì)齊的數(shù)據(jù)處理（TR + IE）；數(shù)據(jù)質(zhì)量的提升比單純堆量更能帶來性能收益。

更重要的啟示：自動(dòng)化數(shù)據(jù)引擎應(yīng)當(dāng)被視作一等研究對(duì)象

除發(fā)布數(shù)據(jù)集之外，本文還系統(tǒng)性討論了當(dāng)前「從互聯(lián)網(wǎng)視頻到 3D 任務(wù)數(shù)據(jù)」管線中的若干共性問題：

模型的可擴(kuò)展性 (scalable) 差異：直接作用于原始模態(tài)的模型（3D 體素、RGB-MLLM）在擴(kuò)大數(shù)據(jù)規(guī)模時(shí)表現(xiàn)更穩(wěn)健；依賴任務(wù)特定中間表示（如預(yù)計(jì)算分割 segments）的模型對(duì)分布漂移更敏感。
基準(zhǔn)偏差與公平評(píng)估：現(xiàn)有基準(zhǔn)可能包含固有偏差，無法真實(shí)反映模型能力。未來評(píng)估應(yīng)更強(qiáng)調(diào)零樣本測(cè)試、減少數(shù)據(jù)污染，并開發(fā)更能衡量 in-the-wild 3D 理解與泛化能力的基準(zhǔn)。
子模塊協(xié)同的重要性：SfM、實(shí)例分割、語言落地等子模塊往往在小規(guī)?；鶞?zhǔn)上訓(xùn)練，組合后會(huì)產(chǎn)生誤差累積。未來子模塊的開發(fā)和評(píng)估不應(yīng)只看單任務(wù)指標(biāo)，還應(yīng)把其對(duì)自動(dòng)化數(shù)據(jù)管線的貢獻(xiàn)作為重要的衡量指標(biāo)。

總結(jié)：邁向 3D 空間智能的「數(shù)據(jù)基建」

本文通過 SceneVerse++ 展示了用精心設(shè)計(jì)的自動(dòng)化數(shù)據(jù)引擎從互聯(lián)網(wǎng)視頻中規(guī)?；筛哔|(zhì)量 3D 場(chǎng)景理解數(shù)據(jù)的可行性。該工作同時(shí)覆蓋了低層感知（檢測(cè) / 分割）、空間推理（VQA）與具身導(dǎo)航（VLN）三大代表性任務(wù)，在多個(gè)真實(shí)基準(zhǔn)上都取得了顯著且穩(wěn)健的性能提升。

研究團(tuán)隊(duì)進(jìn)一步指出了未來 3D 空間智能發(fā)展的關(guān)鍵方向，包括繼續(xù)擴(kuò)大互聯(lián)網(wǎng)視頻的規(guī)模與多樣性，提升子模塊（SfM、重建、分割、grounding）在 in-the-wild 視頻上的魯棒性與協(xié)同性，構(gòu)建更公平的評(píng)估體系以衡量模型的真實(shí) 3D 理解能力。

在 3D 數(shù)據(jù)長(zhǎng)期稀缺的背景下，利用「無標(biāo)注視頻」將是推動(dòng)具身智能體、3D VLM 以及下一代空間基礎(chǔ)模型的關(guān)鍵路徑。

感興趣的讀者可訪問項(xiàng)目主頁https://sv-pp.github.io/獲取更多實(shí)驗(yàn)細(xì)節(jié)與可視化資源。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁下載網(wǎng)易新聞客戶端

相關(guān)推薦

熱點(diǎn)推薦

VL-LN Bench：模擬「邊走邊問找具體目標(biāo)」的真實(shí)導(dǎo)航場(chǎng)景

機(jī)器之心Pro 2026-02-02 17:10:55
0 跟貼 0

300萬對(duì)樣本、200萬對(duì)實(shí)拍：深度估計(jì)的數(shù)據(jù)荒，終于被打破

機(jī)器之心Pro 2026-03-31 11:08:33
0 跟貼 0

大模型外掛三維物體知識(shí)庫(kù)來了，大幅增強(qiáng)機(jī)器人長(zhǎng)程自主操作能力

DeepTech深科技 2026-04-30 14:08:45
0 跟貼 0

論文一作是假人，經(jīng)費(fèi)來自虛構(gòu)宇宙！這篇一眼假的釣魚文，把全世界AI都給騙了

英國(guó)那些事兒 2026-04-30 23:25:28
0 跟貼 0

GPU神話松動(dòng)，AI真正的戰(zhàn)場(chǎng)變了

虎嗅APP 2026-05-01 01:19:11
0 跟貼 0

我在騰訊ima里，養(yǎng)了一個(gè)最佳員工

智東西 2026-04-30 18:51:51
0 跟貼 0

00后小哥復(fù)刻Claude最強(qiáng)神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

F-22戰(zhàn)斗機(jī)啟動(dòng)引擎，一股青煙噴涌而出

裝甲鏟史官 2026-01-25 12:20:23
0 跟貼 0

美軍越野車涉水測(cè)試，引擎完全淹沒照樣行駛

裝甲鏟史官 2026-04-29 11:51:27
145 跟貼 145

Moltbot作者被Claude刁難后：MiniMax M2.1是最優(yōu)秀的開源模型

量子位 2026-01-29 13:17:17
13 跟貼 13

美國(guó)飛機(jī)，裝備12個(gè)引擎，資本面前無可阻擋

搞笑協(xié)會(huì)鴨 2026-04-29 11:52:29
3 跟貼 3

四川小伙做的導(dǎo)彈車模型，準(zhǔn)備開出去測(cè)試，結(jié)果被拉走了！

星君搞笑怪 2026-04-29 16:01:55
12 跟貼 12

AMG CLE回歸V8：限量30臺(tái)的硬核邏輯

字節(jié)漫游指南 2026-04-30 17:23:52
0 跟貼 0

游戲與AI的協(xié)同進(jìn)化進(jìn)入關(guān)鍵期

經(jīng)濟(jì)觀察報(bào) 2026-04-30 17:38:03
0 跟貼 0

擺在桌面的客機(jī)引擎，航發(fā)模型新境界

裝甲鏟史官 2026-03-01 11:29:59
0 跟貼 0

三維地圖講解——花蕊夫人的飄零身世，及后蜀叛亂

地圖里的歷史 2026-04-29 14:40:19
0 跟貼 0

工地高手巧連模板，這手法真到位，絕對(duì)工地高手

無雙師兄 2026-04-29 10:42:09
1 跟貼 1

津門虎和青島海牛比賽有內(nèi)容，平民外援在中超就為爭(zhēng)數(shù)據(jù)#天津津門虎 #青島海牛 #云南玉昆 #潘談中超

Leslie潘偉力 2026-04-29 07:59:31
17 跟貼 17

上海迪士尼回應(yīng)游客勸阻吸煙被打：園區(qū)沒有禁煙；被打男子發(fā)聲：對(duì)方已賠錢和解

中國(guó)新聞周刊 2026-04-27 14:25:00
15170 跟貼 15170

浙江男子花860萬買了套排屋，收房時(shí)傻眼，院子里有一個(gè)“凸起”，業(yè)主：跟老家的廁所一樣，開放商：不利因素已公示

極目新聞 2026-04-30 10:33:16
7365 跟貼 7365

國(guó)防部回應(yīng)外界推測(cè)中國(guó)對(duì)日將有大動(dòng)作

北京青年報(bào) 2026-04-30 16:41:25
5268 跟貼 5268

DeepSeek“開眼”背后的技術(shù)，公開了！

智東西 2026-04-30 22:35:23
1 跟貼 1

全面進(jìn)階！比亞迪大唐靜態(tài)解析，25 萬起售有多香

跟我視駕 2026-04-28 21:29:40
94 跟貼 94

中國(guó)船員滯留霍爾木茲60天：獎(jiǎng)發(fā)到位大部分愿繼續(xù)干

瀟湘晨報(bào) 2026-04-30 16:26:46
11978 跟貼 11978

剛剛，DeepSeek多模態(tài)技術(shù)范式公布，以視覺原語思考

機(jī)器之心Pro 2026-04-30 19:46:01
1 跟貼 1

男子在山里航拍，發(fā)現(xiàn)多人為摘洋槐花砍槐樹，幾十棵粗樹被鋸斷

星視頻 2026-04-30 13:26:30
107 跟貼 107

陽臺(tái)外貼滿“吵”！深圳一小區(qū)居民抓狂：凌晨睡不了，孩子被迫回老家

南方都市報(bào) 2026-04-30 15:18:54
449 跟貼 449

堵！堵！堵！蘇B大軍出動(dòng)了！

江南晚報(bào) 2026-04-30 18:58:38
133 跟貼 133

物業(yè)費(fèi)收不齊，虧損止不?。阂荒瓿?00個(gè)物業(yè)撤場(chǎng)，困局何解？

新京報(bào) 2026-04-30 09:46:07
832 跟貼 832

漢字有缺點(diǎn)？諾貝爾獎(jiǎng)得主羅素指出：漢字存在三大缺陷

心中的麥田 2026-04-30 21:36:37
1 跟貼 1

62歲天津大爺，“chua一下”就火了

中國(guó)新聞周刊 2026-04-30 11:20:55
820 跟貼 820

長(zhǎng)坂坡趙云強(qiáng)過巔峰呂布？數(shù)據(jù)不說謊，戰(zhàn)神光環(huán)碎了一地！

老表是個(gè)手藝人 2026-04-30 17:46:49
1 跟貼 1

和Anthropic CEO一起發(fā)過Nature，他用Claude Code復(fù)活三年?duì)€尾代碼

新智元 2026-04-29 11:35:48
2 跟貼 2

衛(wèi)冕冠軍趙心童10比13不敵墨菲止步八強(qiáng)，“克魯斯堡魔咒”仍在延續(xù)，吳宜澤闖進(jìn)四強(qiáng)，成為中國(guó)軍團(tuán)獨(dú)苗

魯中晨報(bào) 2026-04-30 09:07:20
774 跟貼 774

哈啰“臻有錢”平臺(tái)被指利率踩紅線、隱形收費(fèi)多

紅星新聞 2026-04-30 14:27:43
232 跟貼 232

2025年農(nóng)民工月均收入5075元，比上年增加114元

新京報(bào) 2026-04-30 15:06:03
3399 跟貼 3399

洛陽白馬寺發(fā)布鄭重聲明：不少游客因通過非官方第三方渠道購(gòu)買非法倒賣的預(yù)約門票，導(dǎo)致無法正常入寺，切勿輕信

極目新聞 2026-04-29 18:10:47
903 跟貼 903

Power BI數(shù)據(jù)準(zhǔn)備：90%分析師踩過的5個(gè)坑

硅嶼手記 2026-04-29 19:25:32
0 跟貼 0

海關(guān)總署：即日起允許符合要求的西班牙開心果和無花果干進(jìn)口

證券時(shí)報(bào) 2026-04-30 14:40:08
357 跟貼 357

上海將建世界最高無軸摩天輪“上海之門”，預(yù)計(jì)今年年底開工

澎湃新聞 2026-04-29 22:34:28
521 跟貼 521

保密觀：某縣司法局工作人員劉某，假期值班時(shí)收到4份涉密電報(bào)，將報(bào)頭及文件全文拍照，上傳至微信群請(qǐng)示領(lǐng)導(dǎo)，造成涉密信息失控
極目新聞
2026-04-30 07:35:23

奧尼爾：討厭看湖人隊(duì)打球，因?yàn)榈阶詈箅A段，他們總是想打英雄球
好火子
2026-04-30 22:37:39

娛圈“采花高手”們的瓜！
文刀萬
2026-04-02 18:00:09

大瓜！公募總經(jīng)理和99年的美女財(cái)經(jīng)記者！
挖掘機(jī)007
2026-04-30 11:17:46

千名學(xué)者聯(lián)名要求美國(guó)西北大學(xué)為致華裔神經(jīng)科學(xué)家吳瑛自殺道歉
TOP大學(xué)來了
2026-04-30 01:24:35

1-2，1-0！西甲贏麻了！5隊(duì)有望直通歐冠，德甲存希望，期待絕殺
小徐講八卦
2026-05-01 06:16:23

兒童繪本居然有床戲！尺度大膽細(xì)節(jié)露骨，兒童讀物底線何在？
今朝牛馬
2026-04-28 22:43:44

有一種“反噬”叫張碧晨和華晨宇，分手7年，兩人的境遇天翻地覆
暖心萌阿菇?jīng)?/span>
2026-05-01 01:20:35

沉默45年后，中國(guó)第二輪“嚴(yán)打”終于來了！但這次的目標(biāo)變了。
李博世財(cái)經(jīng)
2026-04-30 10:04:09

蘇提達(dá)王后細(xì)節(jié)絕了！主動(dòng)牽手泰王反被緊握，詩妮娜貴妃遺憾出局
原夢(mèng)叁生
2026-04-30 23:58:07

長(zhǎng)江電力2025年?duì)I收862.42億元、歸母凈利345.03億元，同比分別增長(zhǎng)2.07%、6.17%
金融界
2026-04-30 21:53:32

第11位下課主帥誕生英超再遇“瘋狂換帥季”
體壇周報(bào)
2026-04-30 20:03:15

海南夫妻英勇救人，榮譽(yù)不止官媒點(diǎn)贊，醫(yī)院認(rèn)定更暖心
奇思妙想草葉君
2026-04-30 20:08:05

霍啟山捧場(chǎng)楊受成長(zhǎng)子夜店，倆闊少把酒言歡，58歲楊其龍樣子滄桑
樹娃
2026-04-30 14:14:16

44歲陳震北京車展現(xiàn)狀：從網(wǎng)紅到無人問津不冤
微風(fēng)輕拂面
2026-04-27 20:59:00

葉新萍已被查實(shí)，舉報(bào)人再爆院長(zhǎng)兒子：一個(gè)人占了整個(gè)科室的福利
娛樂圈見解說
2026-05-01 00:33:10

連續(xù)三天嫖娼一次嫖倆，花800元?dú)У粢皇峙窈门?，他圖什么？
街上的行人很刺眼
2026-04-25 10:55:49

為什么整個(gè)亞洲只有中國(guó)有山姆超市？
流蘇晚晴
2026-04-30 18:50:00

華為請(qǐng)他代言，27分鐘賣了一萬多臺(tái)車，整個(gè)車圈都傻了
茶余飯好
2026-04-29 11:14:32

美股三大指數(shù)集體收漲高通漲超15%
財(cái)聯(lián)社
2026-05-01 04:02:11

2026-05-01 07:28:49

機(jī)器之心Pro

專業(yè)的人工智能媒體

12898文章數(shù) 142639關(guān)注度

往期回顧全部

科技要聞

9000億美元估值，Anthropic即將反超OpenAI

四巨頭財(cái)報(bào)齊發(fā)：AI已經(jīng)不只是風(fēng)口

法庭對(duì)峙，誰背信棄義、誰輸不起？

“我簡(jiǎn)直是個(gè)冤大頭！”馬斯克舌戰(zhàn)OpenAI律師

今晨庭審紀(jì)實(shí)|馬斯克當(dāng)庭講述OpenAI被偷走

頭條要聞

英國(guó)國(guó)王給特朗普送了口鐘還貼臉開大"有需要盡管敲"

搞權(quán)色、錢色交易被"雙開"的易會(huì)滿通過上市審批謀利

朝鮮展示在俄烏戰(zhàn)場(chǎng)繳獲的武器包括豹2坦克普京發(fā)聲

廣州一段路泊位最高收132元/天市民收萬元罰單也不停

大連男子2859.2克黃金被扣押30年最新進(jìn)展來了

頭條要聞

英國(guó)國(guó)王給特朗普送了口鐘還貼臉開大"有需要盡管敲"

搞權(quán)色、錢色交易被"雙開"的易會(huì)滿通過上市審批謀利

朝鮮展示在俄烏戰(zhàn)場(chǎng)繳獲的武器包括豹2坦克普京發(fā)聲

廣州一段路泊位最高收132元/天市民收萬元罰單也不停

大連男子2859.2克黃金被扣押30年最新進(jìn)展來了

體育要聞

季后賽場(chǎng)均5.4分，他憑啥在騎士打首發(fā)？

名記Shams：杜蘭特將繼續(xù)缺席G6 骨挫傷至少還需再休一周

阿斯：克羅斯將很快回歸皇馬，與俱樂部選帥工作無關(guān)

孫楊博士入學(xué)資格遭質(zhì)疑，上海體育大學(xué)：正調(diào)查跟進(jìn)

連贏3場(chǎng)！國(guó)羽女隊(duì)3-0完勝馬來西亞，強(qiáng)勢(shì)躋身尤伯杯四強(qiáng)

娛樂要聞

孫楊博士學(xué)歷有問題？官方含糊其辭

吳宣儀母親與樂華談判視頻首曝光

55歲古天樂隱婚傳聞刷屏！女方遭沖擊

哈里王子正式宣布，將制定自己的王室規(guī)則

昔日夫妻變仇人！陳妍希申請(qǐng)強(qiáng)制執(zhí)行

財(cái)經(jīng)要聞

易會(huì)滿被“雙開”！

從“貴婦”洗衣液到抗衰保健品，江西富豪攜年入34億的若羽臣IPO

招行換帥，不拘一格

揭秘！監(jiān)管層開出A股保薦代表人2026年首單“禁業(yè)”罰所涉何案？

GPU神話松動(dòng)，AI真正的戰(zhàn)場(chǎng)變了

汽車要聞

專訪捷途汪如生：捷途雙線作戰(zhàn) 全球化全面落地

對(duì)話于騫：從無人駕駛到通用物理AI，輕舟智航要"不斷革自己的命”

越真誠(chéng)越聰明享界S9/S9T如何討好新一代豪華用戶

605km續(xù)航/有快充吉利銀河星艦7 EV北京車展亮相

博越十周年冠軍版亮相 10萬級(jí)燃油SUV王者慶生

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

旅游

房產(chǎn)

親子

手機(jī)

本地新聞

用青花瓷的方式，打開西溪濕地

云游中國(guó)｜逛世界風(fēng)箏都留學(xué)生探秘中國(guó)傳統(tǒng)文化

SAGA GIRLS 2026女團(tuán)選秀

春色滿城關(guān)不?。座N梅浪漫盛放，吳山藏了一片四月雪

旅游要聞

人文|古城梧州看騎樓

上海市文旅局局長(zhǎng)歡迎市民報(bào)名赴金門、馬祖旅游

上海旅游業(yè)者“踩線團(tuán)”赴金門交流，金門考察團(tuán)同日抵廈

歸隱博山峪口，休閑農(nóng)家樂超愜意

房產(chǎn)要聞

熬了6年，漲了2億，三亞核心區(qū)這塊地再次上架

CBD+省名校+準(zhǔn)現(xiàn)房!國(guó)興絕版地段，驚現(xiàn)爆款新盤!

80億投資！浙商總部基地+?？诒闭?，金沙灣這是要起飛??！

紅利爆發(fā)！海南，沖到全國(guó)人口增量第4??！

親子要聞

接不到活的月嫂越來越多

夏天戲水那個(gè)小朋友會(huì)拒絕遙控船 #遙控船 #戲水玩具 #兒童玩具 #玩具推薦 #讓孩子遠(yuǎn)離手機(jī)

4月30日，國(guó)際不打小孩日，今天請(qǐng)緊急收住巴掌，放過家里的小孩，也放過崩潰的自己

今天家長(zhǎng)們千萬別動(dòng)手！4月30日是“國(guó)際不打小孩日”

6歲女童臉上長(zhǎng)痘后來月經(jīng)，確診中樞性性早熟，不及時(shí)干預(yù)身高很難超過1米5

手機(jī)要聞

華碩創(chuàng)X 2026驍龍X2 Elite二合一創(chuàng)作本上架，12999元

華為Pura 90 Pro Max體驗(yàn)：AI拍片，比2億長(zhǎng)焦還狠

聯(lián)想旗下摩托羅拉推出Moto G37手機(jī)

追覓AURORA手機(jī)全球亮相定義下一代個(gè)人智能終端

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

通研院團(tuán)隊(duì)打造SceneVerse++「最大規(guī)模」真實(shí)3D場(chǎng)景數(shù)據(jù)

9000億美元估值，Anthropic即將反超OpenAI

英國(guó)國(guó)王給特朗普送了口鐘 還貼臉開大"有需要盡管敲"

英國(guó)國(guó)王給特朗普送了口鐘 還貼臉開大"有需要盡管敲"

季后賽場(chǎng)均5.4分，他憑啥在騎士打首發(fā)？

孫楊博士學(xué)歷有問題？官方含糊其辭

易會(huì)滿被“雙開”！

專訪捷途汪如生：捷途雙線作戰(zhàn) 全球化全面落地

態(tài)度原創(chuàng)

用青花瓷的方式，打開西溪濕地

人文|古城梧州看騎樓

熬了6年，漲了2億，三亞核心區(qū)這塊地再次上架

接不到活的月嫂越來越多

華碩創(chuàng)X 2026驍龍X2 Elite二合一創(chuàng)作本上架，12999元

9000億美元估值，Anthropic即將反超OpenAI

英國(guó)國(guó)王給特朗普送了口鐘還貼臉開大"有需要盡管敲"

英國(guó)國(guó)王給特朗普送了口鐘還貼臉開大"有需要盡管敲"

季后賽場(chǎng)均5.4分，他憑啥在騎士打首發(fā)？

孫楊博士學(xué)歷有問題？官方含糊其辭

易會(huì)滿被“雙開”！

用青花瓷的方式，打開西溪濕地

熬了6年，漲了2億，三亞核心區(qū)這塊地再次上架