網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

通研院團(tuán)隊(duì)打造SceneVerse++「最大規(guī)?！拐鎸?shí)3D場(chǎng)景數(shù)據(jù)

2026-04-30 16:19:08　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

第一作者為北京通用人工智能研究院（BIGAI）研究員陳以新，合作者來(lái)自 BIGAI、北京大學(xué)、清華大學(xué)、北京郵電大學(xué)、北京理工大學(xué)，通訊作者為 BIGAI 研究員黃思遠(yuǎn)。

在具身智能、機(jī)器人與增強(qiáng)現(xiàn)實(shí)等方向持續(xù)推進(jìn)的今天，3D 場(chǎng)景理解能力正成為空間智能的核心基礎(chǔ)設(shè)施。然而，一個(gè)長(zhǎng)期存在卻始終未被解決的問題是：

當(dāng)高質(zhì)量 3D 標(biāo)注數(shù)據(jù)日益稀缺，我們能否用「海量」互聯(lián)網(wǎng)視頻構(gòu)建高精度、可擴(kuò)展的真實(shí)場(chǎng)景數(shù)據(jù)，提升 3D 場(chǎng)景理解的多任務(wù)表現(xiàn)？

近期，來(lái)自北京通用人工智能研究院的研究團(tuán)隊(duì)在被 CVPR 2026 高分接收的論文中，系統(tǒng)性地回答了這一問題。

論文鏈接： https://arxiv.org/abs/2604.01907
項(xiàng)目主頁(yè)：https://sv-pp.github.io/
數(shù)據(jù)鏈接：https://huggingface.co/datasets/bigai/SceneVersepp

圖 1 SceneVerse++ 總覽：從無(wú)標(biāo)注互聯(lián)網(wǎng)視頻出發(fā)，經(jīng)自動(dòng)化引擎生成的數(shù)據(jù)可用于提升 3D 檢測(cè)、空間 VQA 與 VLN 等下游任務(wù)的模型表現(xiàn)。

研究團(tuán)隊(duì)提出了一整套面向 3D 場(chǎng)景理解的自動(dòng)化數(shù)據(jù)引擎，從無(wú)標(biāo)注視頻出發(fā)，依次完成數(shù)據(jù)預(yù)處理與篩選、結(jié)構(gòu)化建圖（SfM）、稠密重建、實(shí)例分割、語(yǔ)義描述生成，并進(jìn)一步派生出空間問答（Spatial VQA）與視覺語(yǔ)言導(dǎo)航（VLN）所需的結(jié)構(gòu)化數(shù)據(jù)。

基于該數(shù)據(jù)引擎，團(tuán)隊(duì)構(gòu)建了迄今最大規(guī)模的真實(shí)室內(nèi) 3D 場(chǎng)景數(shù)據(jù)集 SceneVerse++，共 6687 個(gè)場(chǎng)景，在場(chǎng)景數(shù)量、場(chǎng)景面積、物體種類與物體數(shù)量上均顯著超越 ScanNet、ARKitScenes 與 MultiScan 等既有真實(shí)數(shù)據(jù)集。

在三項(xiàng)代表性下游任務(wù)，3D 目標(biāo)檢測(cè)與實(shí)例分割、3D 空間視覺問答（VQA）、3D 視覺語(yǔ)言導(dǎo)航（VLN）上，SceneVerse++ 均帶來(lái)顯著的零樣本與微調(diào)性能提升，并首次系統(tǒng)揭示了自動(dòng)化數(shù)據(jù)生成流程中各子模塊對(duì)下游任務(wù)的關(guān)鍵影響。

這項(xiàng)研究不僅交付了一個(gè)可直接使用的數(shù)據(jù)集，更重要的是為「用互聯(lián)網(wǎng)規(guī)模的無(wú)標(biāo)注數(shù)據(jù)驅(qū)動(dòng) 3D 空間智能」提供了可復(fù)現(xiàn)的路線圖和未來(lái)發(fā)展方向。

3D 場(chǎng)景理解的最大瓶頸：真實(shí)、高質(zhì)量且多樣的數(shù)據(jù)

3D 場(chǎng)景理解是具身智能、機(jī)器人與增強(qiáng)現(xiàn)實(shí)的共同基礎(chǔ)，近年來(lái)從幾何感知（深度估計(jì)、相機(jī)位姿估計(jì)）到語(yǔ)義理解（3D 目標(biāo)檢測(cè)、實(shí)例分割），再到高層推理（3D 視覺定位、空間推理）都取得了顯著進(jìn)展。

然而與 2D 數(shù)據(jù)不同，高質(zhì)量 3D 場(chǎng)景數(shù)據(jù)的獲取與標(biāo)注代價(jià)極高：通常需要 RGB-D 設(shè)備或 LiDAR 采集、三維重建、再人工標(biāo)注場(chǎng)景結(jié)構(gòu)與類別。

自 ScanNet 以來(lái)，3D 場(chǎng)景數(shù)據(jù)的規(guī)模并未真正出現(xiàn)量級(jí)上的飛躍；后續(xù)工作或以精度為代價(jià)提升場(chǎng)景數(shù)量（如 ARKitScenes），或在有限規(guī)模上提升質(zhì)量（如 ScanNet++）。模型持續(xù)迭代，數(shù)據(jù)卻面臨瓶頸，成為制約 3D 場(chǎng)景理解發(fā)展的核心矛盾。

本文的核心觀點(diǎn)是：用精心設(shè)計(jì)的自動(dòng)化數(shù)據(jù)引擎，從無(wú)標(biāo)注視頻中恢復(fù)與現(xiàn)有數(shù)據(jù)集同樣的 3D 場(chǎng)景表示，并生成可直接用于訓(xùn)練的多任務(wù)標(biāo)注。

SceneVerse++：來(lái)自互聯(lián)網(wǎng)視頻的真實(shí) 3D 場(chǎng)景數(shù)據(jù)集

研究團(tuán)隊(duì)聚焦于靜態(tài)室內(nèi)場(chǎng)景，把互聯(lián)網(wǎng)上的 Room Tour 視頻作為原始素材。相較于傳統(tǒng)掃描數(shù)據(jù)，這類視頻具有更強(qiáng)的多樣性與規(guī)模潛力，同時(shí)也帶來(lái)了更復(fù)雜的建模挑戰(zhàn)。

整個(gè)數(shù)據(jù)管線由以下模塊組成：

鏡頭切分與過(guò)濾：使用 TransNetV2 對(duì)長(zhǎng)視頻進(jìn)行鏡頭檢測(cè)，剔除過(guò)短片段、純黑屏、畫面噪聲、人物主體以及室外場(chǎng)景，保留適合 3D 重建的室內(nèi)內(nèi)容；
基于視差的關(guān)鍵幀抽?。?/strong>相較于均勻采樣，采用基于視差的關(guān)鍵幀選擇，既保證三角化穩(wěn)定，又控制冗余，對(duì)長(zhǎng)視頻尤其友好；
密集像素匹配與全局光束法平差：通過(guò)密集像素匹配 + BA 得到穩(wěn)健的相機(jī)位姿與稀疏點(diǎn)云；并針對(duì) 300 幀以上的長(zhǎng)視頻引入了優(yōu)化的偽軌跡像素與相對(duì)圖像相似度策略，有效緩解像素匹配模型的假陽(yáng)性偏差；
質(zhì)量把關(guān)：對(duì)空間覆蓋過(guò)小、內(nèi)容過(guò)空或 SfM 結(jié)果異常的場(chǎng)景進(jìn)行過(guò)濾。為確保下游任務(wù)的數(shù)據(jù)質(zhì)量，采用人工復(fù)核（每個(gè)場(chǎng)景 10 秒以內(nèi)），代價(jià)可控。

最終，從 8217 段互聯(lián)網(wǎng)視頻出發(fā)，團(tuán)隊(duì)得到6687 個(gè)真實(shí)室內(nèi) 3D 場(chǎng)景，規(guī)模已超越同類真實(shí)數(shù)據(jù)集，并且由于素材來(lái)自長(zhǎng)視頻，SceneVerse++ 天然包含多樓層、多房間、大范圍的復(fù)雜場(chǎng)景，這是傳統(tǒng)房間級(jí)或?qū)嶒?yàn)室級(jí)掃描數(shù)據(jù)所不具備的。

圖 2 SceneVerse++ 與 ScanNet、ARKitScenes、MultiScan 的統(tǒng)計(jì)對(duì)比：在場(chǎng)景數(shù)量、場(chǎng)景面積、物體類別數(shù)與物體數(shù)量四項(xiàng)指標(biāo)上全面領(lǐng)先。

核心模塊一：自動(dòng)化 3D 重建與實(shí)例分割數(shù)據(jù)引擎

僅有 SfM 稀疏點(diǎn)云并不足以支撐下游任務(wù)。團(tuán)隊(duì)在 SfM 之上設(shè)計(jì)了一套同時(shí)兼顧質(zhì)量與效率的稠密重建 + 實(shí)例分割管線（如圖 3）。

核心目標(biāo)是解決一個(gè)基礎(chǔ)問題：如何從普通視頻中，自動(dòng)恢復(fù)一個(gè)「完整且?guī)?biāo)注」的 3D 場(chǎng)景？

圖 3 數(shù)據(jù)生成管線總覽：左上為基于度量深度的稠密重建，左下為 2D→3D 掩碼提升與語(yǔ)義標(biāo)簽生成，右側(cè)為最終的重建網(wǎng)格與實(shí)例分割結(jié)果。

稠密重建：以 SfM 稀疏點(diǎn)為先驗(yàn)，通過(guò) Prior Depth Anything 預(yù)測(cè)稠密度量深度圖，隨后在 TSDF 表示下完成融合，得到水密網(wǎng)格；并以半徑 / 統(tǒng)計(jì)濾波去除浮點(diǎn)噪聲。相比端到端方法，該流水線在保持穩(wěn)定幾何質(zhì)量的同時(shí)，顯著降低了大場(chǎng)景的計(jì)算開銷。
實(shí)例分割：先用在每一幀獲得 2D 分割掩碼，再基于相鄰幀視圖一致性 + 空間一致性將 2D 掩碼聚合到 3D 空間；最后用 DescribeAnything 與 Qwen-VL 自動(dòng)生成實(shí)例的文本描述與 ScanNet 類別標(biāo)簽。這套 2D→3D 提升方案在避免重復(fù)實(shí)例的同時(shí)，擺脫了對(duì)每場(chǎng)景優(yōu)化的重度依賴。

核心模塊二：面向空間 VQA 的結(jié)構(gòu)化問答生成

在 3D 場(chǎng)景理解之上，團(tuán)隊(duì)希望進(jìn)一步推動(dòng)大模型的空間推理能力：這些數(shù)據(jù)，能不能直接用來(lái)訓(xùn)練模型的「空間理解能力」？

基于 SceneVerse++ 的幾何 + 語(yǔ)義標(biāo)注，他們構(gòu)建了 3D 場(chǎng)景圖（scene graph）：每個(gè)節(jié)點(diǎn)表示一個(gè) 3D 物體實(shí)例，邊表示成對(duì)空間關(guān)系。結(jié)合 VLM-3R 的任務(wù)模板，自動(dòng)生成七類空間問答樣本，涵蓋：

物體計(jì)數(shù)、物體尺寸（Object Counting / Object Size）
相對(duì)距離、相對(duì)方向、絕對(duì)距離（Relative Distance / Relative Direction / Absolute Distance）
房間尺寸（Room Size）
路線規(guī)劃（Route Planning）

管線輸出總計(jì)632K 條空間 VQA 樣本（391K 多選題 + 241K 填數(shù)題），可直接用于 VSI-Bench 格式下的訓(xùn)練與評(píng)估。

核心模塊三：從真實(shí) Room Tour 視頻到可訓(xùn)練的 VLN 數(shù)據(jù)

視覺語(yǔ)言導(dǎo)航（VLN）任務(wù)的目標(biāo)，是讓智能體「看著畫面，聽著指令，在環(huán)境中移動(dòng)」。現(xiàn)實(shí)問題是：真實(shí)視頻雖然豐富，卻并不天然適合做導(dǎo)航數(shù)據(jù)。

真實(shí)的 Room Tour 視頻最接近人類自然探索方式，但其相機(jī)軌跡充滿冗余旋轉(zhuǎn)、回頭看、非前向視角等非導(dǎo)航行為，與 R2R 這類基準(zhǔn)中的短路徑 - 目標(biāo)導(dǎo)向軌跡存在顯著差異。

圖 4 VLN 數(shù)據(jù)生成三段式管線：路徑預(yù)處理 → 動(dòng)作編碼 → 指令生成。

團(tuán)隊(duì)據(jù)此設(shè)計(jì)了三階段流水線：

路徑預(yù)處理：移除冗余局部旋轉(zhuǎn)、切分過(guò)長(zhǎng)路徑為若干子路徑，使其適合生成自然語(yǔ)言指令；
動(dòng)作編碼：從 SfM 相機(jī)位姿投影到地面坐標(biāo)，離散化為 R2R 風(fēng)格的前進(jìn)步長(zhǎng)（25/50/75 cm）與旋轉(zhuǎn)角度（15°/30°/45°），并過(guò)濾掉「只看不走」的動(dòng)作；
指令生成：以 Chain-of-Thought 方式讓 VLM 先描述局部動(dòng)作，再生成整段路徑的自然語(yǔ)言指令；每條軌跡生成三種風(fēng)格化的指令以增強(qiáng)多樣性。

該管線最終在 SceneVerse++ 上產(chǎn)出9631 條軌跡、平均長(zhǎng)度 12.8 米、平均 15 步，共 7189 個(gè)不同場(chǎng)景下的 21567 條指令，為 VLN 研究提供了大規(guī)模、高質(zhì)量的真實(shí)視頻軌跡資源。

實(shí)驗(yàn)結(jié)果：三項(xiàng)任務(wù)全面提升，首次系統(tǒng)量化數(shù)據(jù)引擎的價(jià)值

1. 3D 目標(biāo)檢測(cè)與實(shí)例分割

作者以SpatialLM（基于 MLLM，原始模型在 12000+ 室內(nèi)合成場(chǎng)景上預(yù)訓(xùn)練）作為 3D 目標(biāo)檢測(cè)代表，以Mask3D（基于圖分割 segment 的實(shí)例分割模型）作為 3D 實(shí)例分割代表，分別在 ARKitScenes 與 ScanNet 兩個(gè)真實(shí)世界基準(zhǔn)上進(jìn)行零樣本與微調(diào)評(píng)估，所有模型架構(gòu)保持一致。

(a) 3D 目標(biāo)檢測(cè)：如表 1 所示，SceneVerse++ 作為預(yù)訓(xùn)練數(shù)據(jù)在 ScanNet 零樣本上取得 F1@30.9 的表現(xiàn)，更關(guān)鍵的是，在 ScanNet 上完成微調(diào)后，SceneVerse++ 預(yù)訓(xùn)練模型取得 F1@0.25 = 58.6、F1@0.5 = 45.4，較 SpatialLM 原合成預(yù)訓(xùn)練 + ScanNet 微調(diào)的 38.0 / 28.7 分別提升 +20.6 / +16.7 分，表明互聯(lián)網(wǎng)真實(shí)視頻比合成數(shù)據(jù)更能提供貼合真實(shí)世界分布的初始化；同時(shí)，僅在 ScanNet 上訓(xùn)練（無(wú)預(yù)訓(xùn)練）僅得 F1@0.25 = 2.9，表明連接 3D 編碼器與 MLLM 的適配器必須依賴大規(guī)模預(yù)訓(xùn)練。

表 1 SpatialLM 在 3D 目標(biāo)檢測(cè)上的評(píng)估：在相同模型結(jié)構(gòu)下，SceneVerse++ 預(yù)訓(xùn)練 + ScanNet 微調(diào)取得 F1@0.25 = 58.6 / F1@0.5 = 45.4，相對(duì)基線大幅領(lǐng)先。

(b) 3D 實(shí)例分割：如表 2 所示，單獨(dú)用 SceneVerse++ 預(yù)訓(xùn)練的 Mask3D 難以遷移到 ScanNet（AP25 僅 15.4），但在 ScanNet 上微調(diào)后，各項(xiàng)指標(biāo)均有提升（AP25 36.1 → 38.5，AP 22.8 → 23.6）。這一差異揭示了一個(gè)關(guān)鍵現(xiàn)象：Mask3D 嚴(yán)重依賴基于圖分割預(yù)計(jì)算的 segment，對(duì)傳感器、重建流程的分布漂移高度敏感；相比之下，SpatialLM 這類直接作用于體素 / RGB 的模型表現(xiàn)出更穩(wěn)健的可擴(kuò)展性。

表 2 Mask3D 在 3D 實(shí)例分割上的評(píng)估：SceneVerse++ 預(yù)訓(xùn)練 + ScanNet 微調(diào)相比從頭訓(xùn)練提升 +2.4/+1.1/+0.8 (AP25/AP50/AP)，但僅用 SceneVerse++ 預(yù)訓(xùn)練難以零樣本遷移，反映了該模型對(duì)數(shù)據(jù)特定偏差的強(qiáng)依賴。

2. 3D 空間視覺問答

3D 空間視覺問答的評(píng)估在VSI-Bench上進(jìn)行，作者在Qwen2.5-VL-3B / 7B兩個(gè)規(guī)模上用 LoRA 微調(diào)，訓(xùn)練數(shù)據(jù)分為四組對(duì)照：

(1) 零樣本（-）；

(2) 僅 SceneVerse++（SV++，202K 樣本）；

(3) 僅 VLM-3R 的 ScanNet+ScanNet++ 數(shù)據(jù)（SN, SN++，206K，域內(nèi)）；

(4) 兩者合并訓(xùn)練（All）。

同時(shí)在全集與 ARKitScenes 子集上分別報(bào)告結(jié)果，后者對(duì) SV++ 與 SN/SN++ 均為域外，便于比較跨域泛化能力。

表 3 VSI-Bench 結(jié)果（各類任務(wù)準(zhǔn)確率 %）：SV++ 相較零樣本在 3B / 7B 上平均提升 +14.9 / +9.8；與 SN,SN++ 合并后在全集與 ARKit 子集上同時(shí)登頂。

生成數(shù)據(jù)對(duì)于空間推理能力有普遍增強(qiáng)：Qwen2.5-VL-3B 全集平均從 27.9 → 42.8（+14.9），7B 從 36.6 → 46.4（+9.8）；在物體計(jì)數(shù) Obj.Cnt.（25.2 → 61.8）、物體尺寸 Obj.Size（16.5 → 49.8）、相對(duì)距離 Rel.Dist.（37.2 → 49.3）上均有大幅躍升，證明互聯(lián)網(wǎng)視頻生成數(shù)據(jù)與仿真室內(nèi)掃描數(shù)據(jù)在空間推理能力上的提升效果相當(dāng)。
跨域泛化顯著：在 ARKitScenes 子集（對(duì) SV++ 與 SN/SN++ 均是域外）上，SV++ 與 SN,SN++ 表現(xiàn)相當(dāng)甚至略優(yōu)（3B：48.0 vs. 49.0；7B：49.1 vs. 48.8），說(shuō)明互聯(lián)網(wǎng)視頻提供的先驗(yàn)對(duì)真實(shí)場(chǎng)景具有良好泛化性。
類別差異：SceneVerse++ 在相對(duì)距離（Rel.Dist.），相對(duì)方向（Rel.Dir.）等通用空間知識(shí)類別上提升最明顯；在物體計(jì)數(shù)（Obj.Cnt.）、房間尺寸（Room Size）等依賴域特定分布的類別上弱于 SN/SN++，這與圖 2 中場(chǎng)景 / 物體分布差異吻合。
訓(xùn)練動(dòng)態(tài)揭示過(guò)擬合風(fēng)險(xiǎn)：作者可視化訓(xùn)練過(guò)程發(fā)現(xiàn)，域內(nèi)訓(xùn)練和測(cè)試（SN,SN++）在訓(xùn)練后期仍在全集上持續(xù)上升，而域外訓(xùn)練和測(cè)試則在一個(gè)拐點(diǎn)后趨穩(wěn)，反映出 SN,SN++ 容易過(guò)擬合到域內(nèi)特有線索，這與同期工作關(guān)于 VSI-Bench 非視覺捷徑的分析一致。

圖 5 訓(xùn)練過(guò)程對(duì)比：上為在全集上的測(cè)試，下為在 ARKitScenes 子集測(cè)試，發(fā)現(xiàn)域內(nèi)訓(xùn)練和測(cè)試（上）呈現(xiàn)過(guò)擬合現(xiàn)象。

3. 3D 視覺語(yǔ)言導(dǎo)航

評(píng)估基于標(biāo)準(zhǔn)Room-to-Room (R2R)基準(zhǔn)（Matterport3D 環(huán)境），所有實(shí)驗(yàn)使用相同訓(xùn)練輪次以確保公平。指標(biāo)包含SR（成功率）、OS（Oracle 成功率）、SPL（路徑長(zhǎng)度加權(quán)成功率）、Dist（距目標(biāo)距離）、PL（軌跡長(zhǎng)度）。

作者進(jìn)一步對(duì)數(shù)據(jù)管線中的兩個(gè)核心模塊進(jìn)行消融：TR（軌跡優(yōu)化，Trajectory Refinement）與 IE（指令增強(qiáng)，Instruction Enrichment）。

表 4 在 R2R 基準(zhǔn)上的 VLN 評(píng)估：SceneVerse++ 預(yù)訓(xùn)練 + R2R 微調(diào)將 SR 從 0.088 提升至 0.228；去除 TR 或 IE 任一模塊均導(dǎo)致顯著下降。

真實(shí)視頻顯著提升導(dǎo)航能力：僅用 SceneVerse++ 預(yù)訓(xùn)練就能在 R2R 零樣本將 SR 從 0.088 提升至 0.107；由于真實(shí)視頻包含豐富的自由探索行為，PL 從 5.22 激增至 14.1，反映其軌跡更復(fù)雜、更貼近真實(shí)人類運(yùn)動(dòng)。
微調(diào)后全面提升：SceneVerse++ 預(yù)訓(xùn)練 + R2R 微調(diào)達(dá)到 SR 0.228 / OS 0.315 / SPL 0.191 / Dist 7.65，相較無(wú)預(yù)訓(xùn)練基線（SR 0.088）絕對(duì)提升 +14.0 個(gè)百分點(diǎn)（+159%）；同時(shí) Dist 下降、SPL 提升，證明大規(guī)模真實(shí)視頻先驗(yàn)顯著改善了導(dǎo)航效率與路徑合理性。
樸素混合不是最優(yōu)：直接把 R2R 與 SceneVerse++ 混合訓(xùn)練（R2R+SV++）僅得 SR 0.188，低于先 SV++ 預(yù)訓(xùn)練、再 R2R 微調(diào)的 0.228，說(shuō)明真實(shí)視頻與仿真環(huán)境存在視覺域差，需要通過(guò)預(yù)訓(xùn)練 → 微調(diào)的兩階段策略彌合。
軌跡優(yōu)化（TR）不可或缺：w/o TR 時(shí)，SR 從 0.228 降至 0.177（-5.1%），PL 也偏離 R2R 范式（11.95 vs. 11.64）；缺少對(duì)原始冗余回頭軌跡的清洗，模型難以學(xué)到目標(biāo)導(dǎo)向的導(dǎo)航模式。
指令增強(qiáng)（IE）更為關(guān)鍵：w/o IE 下降幅度更大 —— 零樣本 SR 僅 0.022，微調(diào)后也只有 0.074；缺少 CoT + 多樣化指令生成，模型幾乎無(wú)法把視覺動(dòng)作與自然語(yǔ)言對(duì)齊。

結(jié)論：原始互聯(lián)網(wǎng)視頻不能直接用于 VLN 訓(xùn)練，必須配合任務(wù)對(duì)齊的數(shù)據(jù)處理（TR + IE）；數(shù)據(jù)質(zhì)量的提升比單純堆量更能帶來(lái)性能收益。

更重要的啟示：自動(dòng)化數(shù)據(jù)引擎應(yīng)當(dāng)被視作一等研究對(duì)象

除發(fā)布數(shù)據(jù)集之外，本文還系統(tǒng)性討論了當(dāng)前「從互聯(lián)網(wǎng)視頻到 3D 任務(wù)數(shù)據(jù)」管線中的若干共性問題：

模型的可擴(kuò)展性 (scalable) 差異：直接作用于原始模態(tài)的模型（3D 體素、RGB-MLLM）在擴(kuò)大數(shù)據(jù)規(guī)模時(shí)表現(xiàn)更穩(wěn)?。灰蕾嚾蝿?wù)特定中間表示（如預(yù)計(jì)算分割 segments）的模型對(duì)分布漂移更敏感。
基準(zhǔn)偏差與公平評(píng)估：現(xiàn)有基準(zhǔn)可能包含固有偏差，無(wú)法真實(shí)反映模型能力。未來(lái)評(píng)估應(yīng)更強(qiáng)調(diào)零樣本測(cè)試、減少數(shù)據(jù)污染，并開發(fā)更能衡量 in-the-wild 3D 理解與泛化能力的基準(zhǔn)。
子模塊協(xié)同的重要性：SfM、實(shí)例分割、語(yǔ)言落地等子模塊往往在小規(guī)?；鶞?zhǔn)上訓(xùn)練，組合后會(huì)產(chǎn)生誤差累積。未來(lái)子模塊的開發(fā)和評(píng)估不應(yīng)只看單任務(wù)指標(biāo)，還應(yīng)把其對(duì)自動(dòng)化數(shù)據(jù)管線的貢獻(xiàn)作為重要的衡量指標(biāo)。

總結(jié)：邁向 3D 空間智能的「數(shù)據(jù)基建」

本文通過(guò) SceneVerse++ 展示了用精心設(shè)計(jì)的自動(dòng)化數(shù)據(jù)引擎從互聯(lián)網(wǎng)視頻中規(guī)模化生成高質(zhì)量 3D 場(chǎng)景理解數(shù)據(jù)的可行性。該工作同時(shí)覆蓋了低層感知（檢測(cè) / 分割）、空間推理（VQA）與具身導(dǎo)航（VLN）三大代表性任務(wù)，在多個(gè)真實(shí)基準(zhǔn)上都取得了顯著且穩(wěn)健的性能提升。

研究團(tuán)隊(duì)進(jìn)一步指出了未來(lái) 3D 空間智能發(fā)展的關(guān)鍵方向，包括繼續(xù)擴(kuò)大互聯(lián)網(wǎng)視頻的規(guī)模與多樣性，提升子模塊（SfM、重建、分割、grounding）在 in-the-wild 視頻上的魯棒性與協(xié)同性，構(gòu)建更公平的評(píng)估體系以衡量模型的真實(shí) 3D 理解能力。

在 3D 數(shù)據(jù)長(zhǎng)期稀缺的背景下，利用「無(wú)標(biāo)注視頻」將是推動(dòng)具身智能體、3D VLM 以及下一代空間基礎(chǔ)模型的關(guān)鍵路徑。

感興趣的讀者可訪問項(xiàng)目主頁(yè)https://sv-pp.github.io/獲取更多實(shí)驗(yàn)細(xì)節(jié)與可視化資源。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁(yè) 下載網(wǎng)易新聞客戶端

相關(guān)推薦

熱點(diǎn)推薦

具身智能的數(shù)據(jù)難題，終于有了可規(guī)?；慕夥?/a>

量子位 2025-12-18 14:13:03
1 跟貼 1

VL-LN Bench：模擬「邊走邊問找具體目標(biāo)」的真實(shí)導(dǎo)航場(chǎng)景

機(jī)器之心Pro 2026-02-02 17:10:55
0 跟貼 0

300萬(wàn)對(duì)樣本、200萬(wàn)對(duì)實(shí)拍：深度估計(jì)的數(shù)據(jù)荒，終于被打破

機(jī)器之心Pro 2026-03-31 11:08:33
0 跟貼 0

大模型解剖圖火了，30多個(gè)開源模型架構(gòu)差異一目了然，還可接入AI

DeepTech深科技 2026-03-16 17:33:15
31 跟貼 31

6小時(shí)，200美元，0人類代碼：Anthropic把AI編程推過(guò)了臨界點(diǎn)

新智元 2026-03-31 12:34:21
78 跟貼 78

DeepSeek版Claude Code登頂熱榜：8700星，鯨魚哥火了

機(jī)器之心Pro 2026-05-06 14:09:00
0 跟貼 0

剛剛，GPT-5.5 Instant 發(fā)布，奧特曼還邀請(qǐng)馬斯克參加 AI 辦的派對(duì)

愛范兒 2026-05-06 09:33:20
0 跟貼 0

物理AI的「原生」時(shí)刻：原力靈機(jī)發(fā)布具身大模型DM0

機(jī)器之心Pro 2026-03-11 16:32:04
0 跟貼 0

Luma Uni-1.1 API開放,圖像模型第三,文字渲染直逼GPT image 2

機(jī)器之心Pro 2026-05-06 14:19:28
0 跟貼 0

Agent-World：擴(kuò)展真實(shí)世界環(huán)境，讓智能體與環(huán)境協(xié)同進(jìn)化！

機(jī)器之心Pro 2026-05-06 12:40:24
0 跟貼 0

LLM數(shù)據(jù)量大管飽，機(jī)器人數(shù)據(jù)卻連1%的起跑線都沒夠到？

量子位 2026-04-13 20:54:19
0 跟貼 0

美機(jī)構(gòu)評(píng)估中國(guó)頂尖大模型：有成本優(yōu)勢(shì)，但與美存在8個(gè)月技術(shù)差距

大風(fēng)新聞 2026-05-06 08:05:03
33 跟貼 33

馬斯克訴OpenAI庭審第一周：承認(rèn)xAI蒸餾了OpenAI的模型

DeepTech深科技 2026-05-06 14:04:09
0 跟貼 0

“豆包收費(fèi)”開啟，中國(guó)大模型商業(yè)化的機(jī)會(huì)與現(xiàn)實(shí)約束

鈦媒體APP 2026-05-06 10:57:10
0 跟貼 0

Jim Fan解讀機(jī)器人“終局之戰(zhàn)”：人類將在2040年徹底解鎖“機(jī)器人技術(shù)樹”

華爾街見聞官方 2026-05-06 14:12:50
0 跟貼 0

00后小哥復(fù)刻Claude最強(qiáng)神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

馬斯克訴OpenAI庭審手記：庭審第一周的現(xiàn)場(chǎng)、證詞和幕后

DeepTech深科技 2026-05-06 14:11:54
0 跟貼 0

F-22戰(zhàn)斗機(jī)啟動(dòng)引擎，一股青煙噴涌而出

裝甲鏟史官 2026-01-25 12:20:23
0 跟貼 0

美軍越野車涉水測(cè)試，引擎完全淹沒照樣行駛

裝甲鏟史官 2026-04-29 11:51:27
811 跟貼 811

Moltbot作者被Claude刁難后：MiniMax M2.1是最優(yōu)秀的開源模型

量子位 2026-01-29 13:17:17
13 跟貼 13

媒體：中國(guó)史無(wú)前例下"阻斷禁令" 美媒迅速捕捉到信號(hào)

國(guó)是直通車 2026-05-05 23:12:13
19034 跟貼 19034

經(jīng)典聲浪歸來(lái)！國(guó)際汽聯(lián)明確：F1賽車將重回V8時(shí)代

快科技 2026-05-06 09:06:06
13 跟貼 13

不用引擎也能運(yùn)汽車？非洲硬核過(guò)河方式火了

兩個(gè)腦花 2026-05-05 15:47:44
16 跟貼 16

三維地圖講解——郭威黃袍加身，及后漢滅亡的始末

地圖里的歷史 2026-05-02 17:45:00
0 跟貼 0

一支車隊(duì)十年電動(dòng)方程式，為何突然要自己造引擎

籃壇第一線 2026-05-05 23:59:45
0 跟貼 0

五款比龐蒂亞克GTO便宜的美式肌肉車

碳基打工人 2026-05-06 04:25:14
0 跟貼 0

將坦克的引擎安裝到拖拉機(jī)上，踩下油門的時(shí)候場(chǎng)面差點(diǎn)失控！

大王爆笑社 2026-05-05 10:02:06
1 跟貼 1

小長(zhǎng)假里看中國(guó)｜從“單點(diǎn)火爆”到“全域共贏”，點(diǎn)燃縣域文旅新引擎

中國(guó)日?qǐng)?bào)網(wǎng) 2026-05-05 17:17:46
1 跟貼 1

擺在桌面的客機(jī)引擎，航發(fā)模型新境界

裝甲鏟史官 2026-03-01 11:29:59
0 跟貼 0

這手藝逼真到離譜，手工復(fù)刻人民幣模板，后果不敢想

書香愛生活 2026-05-02 21:02:00
0 跟貼 0

中山大學(xué)通報(bào)“附屬醫(yī)院康某某相關(guān)學(xué)術(shù)論文圖片及數(shù)據(jù)存疑”：已正式啟動(dòng)調(diào)查程序

環(huán)球網(wǎng)資訊 2026-05-05 14:54:11
854 跟貼 854

印度人民建房子的場(chǎng)景

杰出清蓮 2026-05-05 08:53:25
1 跟貼 1

函數(shù)圖像的理解：中考易錯(cuò)題，競(jìng)賽題，你能做出來(lái)嗎？

馬老師數(shù)學(xué)課堂 2026-05-04 19:03:40
0 跟貼 0

數(shù)據(jù)根本統(tǒng)計(jì)不到，但這才是梅西最牛的傳球！

足球印象CC 2026-05-03 18:30:21
23 跟貼 23

三維地圖講解——一個(gè)女嬰的誕生竟與大唐王朝的興衰緊密連接

地圖里的歷史 2026-05-05 17:47:00
0 跟貼 0

中國(guó)限定配色+顏值實(shí)力雙炸#全新路虎衛(wèi)士靜態(tài)體驗(yàn)

太平洋汽車 2026-05-06 09:37:35
0 跟貼 0

景區(qū)裝電梯無(wú)痛爬山被質(zhì)疑過(guò)度開發(fā)

極目新聞 2026-05-02 17:18:12
3832 跟貼 3832

NASA坐不住了，將直播公布3I_ATLAS高清圖像

萬(wàn)物研究 2026-05-05 14:19:32
1 跟貼 1

印度網(wǎng)友：真希望我們的古代文本也有這么朗朗上口的韻律給孩子

為了更好 2026-05-02 03:43:01
4 跟貼 4

凌晨2點(diǎn)半開門，廣東一排骨飯大排長(zhǎng)龍！局長(zhǎng)帶人現(xiàn)場(chǎng)刮姜洗碗

南方都市報(bào) 2026-05-06 08:58:57
255 跟貼 255

以色列前總理貝內(nèi)特：伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)
一種觀點(diǎn)
2026-05-05 19:24:58

1-2出局 35歲悲情巨星遺憾揮別！闖蕩17年歐冠0冠西甲0冠
葉青足球世界
2026-05-06 07:54:58

偉偉道來(lái) | 伊朗的反應(yīng)為何如此激烈
經(jīng)濟(jì)觀察報(bào)
2026-05-06 11:40:46

吳宜澤透露拿到獎(jiǎng)金后準(zhǔn)備在英國(guó)買房，50萬(wàn)英鎊獎(jiǎng)金需交稅超23萬(wàn)鎊，實(shí)際到手約26.5萬(wàn)鎊
大風(fēng)新聞
2026-05-06 11:53:02

定了！斯諾克巨星邀請(qǐng)賽5月9日開桿，吳宜澤領(lǐng)銜，6世界冠軍出戰(zhàn)
劉姚堯的文字城堡
2026-05-06 08:31:36

女性跑步：暴露這個(gè)隱私，是性感嗎？
馬拉松跑步健身
2026-05-05 19:18:07

吳宜澤社媒回復(fù)趙心童、丁俊暉：一起加油，永遠(yuǎn)的大哥
懂球帝
2026-05-05 19:39:09

在中國(guó)人民公安大學(xué)，穿了四年警服，畢業(yè)五年后，我們宿舍四個(gè)人，沒一個(gè)在出現(xiàn)場(chǎng)
侃故事的阿慶
2026-05-06 09:21:32

被延長(zhǎng)的搶救時(shí)間，被卡住的工傷認(rèn)定
新京報(bào)
2026-05-06 11:03:07

51歲女子包養(yǎng)24歲男孩，嫌男孩不行被殺，2014年男孩說(shuō)她索取無(wú)度
漢史趣聞
2026-05-05 11:40:36

世錦賽慶功宴！新科冠軍吳宜澤休閑裝亮相網(wǎng)友：艾倫不來(lái)，誰(shuí)敢動(dòng)筷子
畫夕
2026-05-05 14:38:17

廣州第一爛尾樓兩千家庭半生遺憾！
說(shuō)故事的阿襲
2026-05-05 20:20:30

8.84億的美國(guó)工廠說(shuō)關(guān)就關(guān)？曹德旺：美國(guó)不講理，我就不陪玩了
番外行
2026-05-06 10:29:59

伯納烏大地震！皇馬放話出售姆巴佩，天價(jià)報(bào)價(jià)就接
奶蓋熊本熊
2026-05-06 00:00:36

《陳翔六點(diǎn)半》人走茶涼，賺不到錢球球退出，根本原因早就注定了
汪巗的創(chuàng)業(yè)之路
2026-05-06 12:26:17

47歲高圓圓在公園被抓拍，麒麟臂、涼拖鞋，活脫脫一個(gè)買菜大姐
胖松松與瘦二毛
2026-05-06 12:40:53

八卦瘋叔
2026-05-06 11:04:32

連線四川華鎣女游客玩秋千身亡目擊者：其撞到瀑布凸出處大石
南方都市報(bào)
2026-05-06 12:38:05

中美同時(shí)向全球下達(dá)禁令，各國(guó)都傻眼了！美媒：中國(guó)此舉史無(wú)前例
福建睿平
2026-05-06 08:56:38

男子和妻子的弟媳纏綿，怕妻子聽到聲音，2017年弟媳竟被他捂死了
漢史趣聞
2026-05-05 11:36:31

2026-05-06 14:55:00

機(jī)器之心Pro

專業(yè)的人工智能媒體

12925文章數(shù) 142643關(guān)注度

往期回顧全部

科技要聞

“馬斯克不懂AI”：OpenAI當(dāng)庭戳老底

告別廢話文學(xué)與幻覺！GPT-5.5 Instant發(fā)布

傳蘋果考慮讓英特爾、三星代工設(shè)備處理器

OpenAI/Anthropic同日被曝拉攏華爾街建合資公司

在中國(guó)市場(chǎng)搞「付費(fèi)訂閱」，豆包咋想的？

頭條要聞

男子購(gòu)百萬(wàn)保險(xiǎn)被邀免費(fèi)游老撾花數(shù)十萬(wàn)買"熊膽"心虛

懸崖秋千體驗(yàn)者稱后怕：工作人員勸其"膽子要放大"

媒體:伊朗表達(dá)出同歸于盡的決絕態(tài)度特朗普再次退縮

48小時(shí)內(nèi)"拔管"可獲百萬(wàn)賠償兒子堅(jiān)持救父"人財(cái)兩失"

王毅與魯比奧通話內(nèi)容披露臺(tái)當(dāng)局陷前所未有戰(zhàn)略焦慮

頭條要聞

男子購(gòu)百萬(wàn)保險(xiǎn)被邀免費(fèi)游老撾花數(shù)十萬(wàn)買"熊膽"心虛

懸崖秋千體驗(yàn)者稱后怕：工作人員勸其"膽子要放大"

媒體:伊朗表達(dá)出同歸于盡的決絕態(tài)度特朗普再次退縮

48小時(shí)內(nèi)"拔管"可獲百萬(wàn)賠償兒子堅(jiān)持救父"人財(cái)兩失"

王毅與魯比奧通話內(nèi)容披露臺(tái)當(dāng)局陷前所未有戰(zhàn)略焦慮

體育要聞

活塞1比0騎士：坎寧安不再是一個(gè)人了

SGA18分雷霆1-0湖人勒布朗27+4+6里夫斯16中3

阿森納2-1淘汰馬競(jìng) 20年后再進(jìn)歐冠決賽薩卡制勝

坎寧安23+7活塞擊退騎士1-0，哈里斯20+8哈登22+8+7

中超-費(fèi)利佩94分鐘倒鉤絕殺！蓉城1-0鐵人 7連勝領(lǐng)跑

娛樂要聞

神仙友誼！楊紫連續(xù)10年為張一山慶生

周潤(rùn)發(fā)爆猛料：梁家輝以前是我“小弟”

何炅瞞著謝娜現(xiàn)身演唱會(huì)，現(xiàn)場(chǎng)發(fā)言一度抹淚

黃曉明剛帶娃去過(guò)，Angelababy后腳也來(lái)了？

張婉婷曬宋寧峰帶娃出游，網(wǎng)友：不離了？

財(cái)經(jīng)要聞

人形機(jī)器人七小龍:誰(shuí)真能賣誰(shuí)在講故事?

李嘉誠(chéng)拋售英國(guó)電訊資產(chǎn) 套現(xiàn)約455億港元

美證監(jiān)會(huì)擬允許上市公司以半年報(bào)替代季報(bào)

五一節(jié)后市場(chǎng)將會(huì)怎么走？十大券商策略來(lái)了

午評(píng)：科創(chuàng)50指數(shù)大漲超8% 海光信息、寒武紀(jì)等權(quán)重股集體走強(qiáng)

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無(wú)論能源形式領(lǐng)克都要快樂

智己4月銷量破萬(wàn) 1-4月累計(jì)銷量同比大漲130%

油耗2L級(jí)/價(jià)格不到8萬(wàn) 第四代逸動(dòng)藍(lán)鯨超擎太懂家用了

仰望U9Xtreme超2000萬(wàn)成交

預(yù)售20.99萬(wàn)元起新款領(lǐng)克10正式下線

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

手機(jī)

數(shù)碼

藝術(shù)

健康

本地新聞

用青花瓷的方式，打開西溪濕地

云游中國(guó)｜逛世界風(fēng)箏都留學(xué)生探秘中國(guó)傳統(tǒng)文化

SAGA GIRLS 2026女團(tuán)選秀

春色滿城關(guān)不住｜白鵑梅浪漫盛放，吳山藏了一片四月雪

手機(jī)要聞

谷歌推送5月Pixel手機(jī)更新，修復(fù)無(wú)線充電慢、相機(jī)卡死等問題

華為6.39英寸闊直板機(jī)再曝：搭載9系旗艦芯、比例接近16:10

首發(fā)2億RYYB長(zhǎng)焦+XMAGE智拍！華為Pura 90 Pro Max手機(jī)全面評(píng)測(cè)：新手也能直出大片

CounterPoint報(bào)告2026Q1全球手機(jī)收入份額：蘋果鯨吞48%

數(shù)碼要聞

七彩虹戰(zhàn)斧B860M超級(jí)黑刃主板圖賞：899元的“千元旗艦”

AMD蘇姿豐：CPU地位正不斷抬升 AMD已進(jìn)入新一輪高增長(zhǎng)通道

蘇姿豐稱AMD已向核心客戶送樣MI450 GPU

維信諾攜全尺寸創(chuàng)新成果閃耀SID DW 2026

藝術(shù)要聞

震撼！康斯坦丁攝影作品里的性感曲線讓人驚艷！

這些勞動(dòng)圖畫最美！

你絕對(duì)想不到！全球美女竟是這樣的驚艷！

中國(guó)女性最私密的創(chuàng)傷，終于有人敢拍了

干細(xì)胞治燒燙傷面臨這些“瓶頸”

藍(lán)莓也有粉色的，專家：不等于營(yíng)養(yǎng)價(jià)值高

谷雨時(shí)節(jié)，建議你多吃這些食物

驚蟄節(jié)氣，疏肝潤(rùn)燥正當(dāng)時(shí)

如何保護(hù)心臟健康？來(lái)看醫(yī)生怎么說(shuō)

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

通研院團(tuán)隊(duì)打造SceneVerse++「最大規(guī)?！拐鎸?shí)3D場(chǎng)景數(shù)據(jù)

“馬斯克不懂AI”：OpenAI當(dāng)庭戳老底

男子購(gòu)百萬(wàn)保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬(wàn)買"熊膽"心虛

男子購(gòu)百萬(wàn)保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬(wàn)買"熊膽"心虛

活塞1比0騎士：坎寧安不再是一個(gè)人了

神仙友誼！楊紫連續(xù)10年為張一山慶生

人形機(jī)器人七小龍:誰(shuí)真能賣 誰(shuí)在講故事?

領(lǐng)克10/領(lǐng)克10+ 無(wú)論能源形式 領(lǐng)克都要快樂

態(tài)度原創(chuàng)

用青花瓷的方式，打開西溪濕地

谷歌推送5月Pixel手機(jī)更新，修復(fù)無(wú)線充電慢、相機(jī)卡死等問題

七彩虹戰(zhàn)斧B860M超級(jí)黑刃主板圖賞：899元的“千元旗艦”

震撼！康斯坦丁攝影作品里的性感曲線讓人驚艷！

干細(xì)胞治燒燙傷面臨這些“瓶頸”

通研院團(tuán)隊(duì)打造SceneVerse++「最大規(guī)?！拐鎸?shí)3D場(chǎng)景數(shù)據(jù)

男子購(gòu)百萬(wàn)保險(xiǎn)被邀免費(fèi)游老撾花數(shù)十萬(wàn)買"熊膽"心虛

男子購(gòu)百萬(wàn)保險(xiǎn)被邀免費(fèi)游老撾花數(shù)十萬(wàn)買"熊膽"心虛

人形機(jī)器人七小龍:誰(shuí)真能賣誰(shuí)在講故事?

領(lǐng)克10/領(lǐng)克10+ 無(wú)論能源形式領(lǐng)克都要快樂

用青花瓷的方式，打開西溪濕地

谷歌推送5月Pixel手機(jī)更新，修復(fù)無(wú)線充電慢、相機(jī)卡死等問題

震撼！康斯坦丁攝影作品里的性感曲線讓人驚艷！