国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

通研院團(tuán)隊(duì)打造SceneVerse++「最大規(guī)?!拐鎸?shí)3D場(chǎng)景數(shù)據(jù)

0
分享至



第一作者為北京通用人工智能研究院(BIGAI)研究員陳以新,合作者來(lái)自 BIGAI、北京大學(xué)、清華大學(xué)、北京郵電大學(xué)、北京理工大學(xué),通訊作者為 BIGAI 研究員黃思遠(yuǎn)。

在具身智能、機(jī)器人與增強(qiáng)現(xiàn)實(shí)等方向持續(xù)推進(jìn)的今天,3D 場(chǎng)景理解能力正成為空間智能的核心基礎(chǔ)設(shè)施。然而,一個(gè)長(zhǎng)期存在卻始終未被解決的問題是:

當(dāng)高質(zhì)量 3D 標(biāo)注數(shù)據(jù)日益稀缺,我們能否用「海量」互聯(lián)網(wǎng)視頻構(gòu)建高精度、可擴(kuò)展的真實(shí)場(chǎng)景數(shù)據(jù),提升 3D 場(chǎng)景理解的多任務(wù)表現(xiàn)?

近期,來(lái)自北京通用人工智能研究院的研究團(tuán)隊(duì)在被 CVPR 2026 高分接收的論文中,系統(tǒng)性地回答了這一問題。



  • 論文鏈接: https://arxiv.org/abs/2604.01907
  • 項(xiàng)目主頁(yè):https://sv-pp.github.io/
  • 數(shù)據(jù)鏈接:https://huggingface.co/datasets/bigai/SceneVersepp



圖 1 SceneVerse++ 總覽:從無(wú)標(biāo)注互聯(lián)網(wǎng)視頻出發(fā),經(jīng)自動(dòng)化引擎生成的數(shù)據(jù)可用于提升 3D 檢測(cè)、空間 VQA 與 VLN 等下游任務(wù)的模型表現(xiàn)。

研究團(tuán)隊(duì)提出了一整套面向 3D 場(chǎng)景理解的自動(dòng)化數(shù)據(jù)引擎,從無(wú)標(biāo)注視頻出發(fā),依次完成數(shù)據(jù)預(yù)處理與篩選、結(jié)構(gòu)化建圖(SfM)、稠密重建、實(shí)例分割、語(yǔ)義描述生成,并進(jìn)一步派生出空間問答(Spatial VQA)與視覺語(yǔ)言導(dǎo)航(VLN)所需的結(jié)構(gòu)化數(shù)據(jù)。

基于該數(shù)據(jù)引擎,團(tuán)隊(duì)構(gòu)建了迄今最大規(guī)模的真實(shí)室內(nèi) 3D 場(chǎng)景數(shù)據(jù)集 SceneVerse++,共 6687 個(gè)場(chǎng)景,在場(chǎng)景數(shù)量、場(chǎng)景面積、物體種類與物體數(shù)量上均顯著超越 ScanNet、ARKitScenes 與 MultiScan 等既有真實(shí)數(shù)據(jù)集。

在三項(xiàng)代表性下游任務(wù),3D 目標(biāo)檢測(cè)與實(shí)例分割、3D 空間視覺問答(VQA)、3D 視覺語(yǔ)言導(dǎo)航(VLN)上,SceneVerse++ 均帶來(lái)顯著的零樣本與微調(diào)性能提升,并首次系統(tǒng)揭示了自動(dòng)化數(shù)據(jù)生成流程中各子模塊對(duì)下游任務(wù)的關(guān)鍵影響。

這項(xiàng)研究不僅交付了一個(gè)可直接使用的數(shù)據(jù)集,更重要的是為「用互聯(lián)網(wǎng)規(guī)模的無(wú)標(biāo)注數(shù)據(jù)驅(qū)動(dòng) 3D 空間智能」提供了可復(fù)現(xiàn)的路線圖和未來(lái)發(fā)展方向。

3D 場(chǎng)景理解的最大瓶頸:真實(shí)、高質(zhì)量且多樣的數(shù)據(jù)

3D 場(chǎng)景理解是具身智能、機(jī)器人與增強(qiáng)現(xiàn)實(shí)的共同基礎(chǔ),近年來(lái)從幾何感知(深度估計(jì)、相機(jī)位姿估計(jì))到語(yǔ)義理解(3D 目標(biāo)檢測(cè)、實(shí)例分割),再到高層推理(3D 視覺定位、空間推理)都取得了顯著進(jìn)展。

然而與 2D 數(shù)據(jù)不同,高質(zhì)量 3D 場(chǎng)景數(shù)據(jù)的獲取與標(biāo)注代價(jià)極高:通常需要 RGB-D 設(shè)備或 LiDAR 采集、三維重建、再人工標(biāo)注場(chǎng)景結(jié)構(gòu)與類別。

自 ScanNet 以來(lái),3D 場(chǎng)景數(shù)據(jù)的規(guī)模并未真正出現(xiàn)量級(jí)上的飛躍;后續(xù)工作或以精度為代價(jià)提升場(chǎng)景數(shù)量(如 ARKitScenes),或在有限規(guī)模上提升質(zhì)量(如 ScanNet++)。模型持續(xù)迭代,數(shù)據(jù)卻面臨瓶頸,成為制約 3D 場(chǎng)景理解發(fā)展的核心矛盾。

本文的核心觀點(diǎn)是:用精心設(shè)計(jì)的自動(dòng)化數(shù)據(jù)引擎,從無(wú)標(biāo)注視頻中恢復(fù)與現(xiàn)有數(shù)據(jù)集同樣的 3D 場(chǎng)景表示,并生成可直接用于訓(xùn)練的多任務(wù)標(biāo)注。

SceneVerse++:來(lái)自互聯(lián)網(wǎng)視頻的真實(shí) 3D 場(chǎng)景數(shù)據(jù)集

研究團(tuán)隊(duì)聚焦于靜態(tài)室內(nèi)場(chǎng)景,把互聯(lián)網(wǎng)上的 Room Tour 視頻作為原始素材。相較于傳統(tǒng)掃描數(shù)據(jù),這類視頻具有更強(qiáng)的多樣性與規(guī)模潛力,同時(shí)也帶來(lái)了更復(fù)雜的建模挑戰(zhàn)。

整個(gè)數(shù)據(jù)管線由以下模塊組成:

  • 鏡頭切分與過(guò)濾:使用 TransNetV2 對(duì)長(zhǎng)視頻進(jìn)行鏡頭檢測(cè),剔除過(guò)短片段、純黑屏、畫面噪聲、人物主體以及室外場(chǎng)景,保留適合 3D 重建的室內(nèi)內(nèi)容;
  • 基于視差的關(guān)鍵幀抽?。?/strong>相較于均勻采樣,采用基于視差的關(guān)鍵幀選擇,既保證三角化穩(wěn)定,又控制冗余,對(duì)長(zhǎng)視頻尤其友好;
  • 密集像素匹配與全局光束法平差:通過(guò)密集像素匹配 + BA 得到穩(wěn)健的相機(jī)位姿與稀疏點(diǎn)云;并針對(duì) 300 幀以上的長(zhǎng)視頻引入了優(yōu)化的偽軌跡像素與相對(duì)圖像相似度策略,有效緩解像素匹配模型的假陽(yáng)性偏差;
  • 質(zhì)量把關(guān):對(duì)空間覆蓋過(guò)小、內(nèi)容過(guò)空或 SfM 結(jié)果異常的場(chǎng)景進(jìn)行過(guò)濾。為確保下游任務(wù)的數(shù)據(jù)質(zhì)量,采用人工復(fù)核(每個(gè)場(chǎng)景 10 秒以內(nèi)),代價(jià)可控。

最終,從 8217 段互聯(lián)網(wǎng)視頻出發(fā),團(tuán)隊(duì)得到6687 個(gè)真實(shí)室內(nèi) 3D 場(chǎng)景,規(guī)模已超越同類真實(shí)數(shù)據(jù)集,并且由于素材來(lái)自長(zhǎng)視頻,SceneVerse++ 天然包含多樓層、多房間、大范圍的復(fù)雜場(chǎng)景,這是傳統(tǒng)房間級(jí)或?qū)嶒?yàn)室級(jí)掃描數(shù)據(jù)所不具備的。



圖 2 SceneVerse++ 與 ScanNet、ARKitScenes、MultiScan 的統(tǒng)計(jì)對(duì)比:在場(chǎng)景數(shù)量、場(chǎng)景面積、物體類別數(shù)與物體數(shù)量四項(xiàng)指標(biāo)上全面領(lǐng)先。

核心模塊一:自動(dòng)化 3D 重建與實(shí)例分割數(shù)據(jù)引擎

僅有 SfM 稀疏點(diǎn)云并不足以支撐下游任務(wù)。團(tuán)隊(duì)在 SfM 之上設(shè)計(jì)了一套同時(shí)兼顧質(zhì)量與效率的稠密重建 + 實(shí)例分割管線(如圖 3)。

核心目標(biāo)是解決一個(gè)基礎(chǔ)問題:如何從普通視頻中,自動(dòng)恢復(fù)一個(gè)「完整且?guī)?biāo)注」的 3D 場(chǎng)景?



圖 3 數(shù)據(jù)生成管線總覽:左上為基于度量深度的稠密重建,左下為 2D→3D 掩碼提升與語(yǔ)義標(biāo)簽生成,右側(cè)為最終的重建網(wǎng)格與實(shí)例分割結(jié)果。

  • 稠密重建:以 SfM 稀疏點(diǎn)為先驗(yàn),通過(guò) Prior Depth Anything 預(yù)測(cè)稠密度量深度圖,隨后在 TSDF 表示下完成融合,得到水密網(wǎng)格;并以半徑 / 統(tǒng)計(jì)濾波去除浮點(diǎn)噪聲。相比端到端方法,該流水線在保持穩(wěn)定幾何質(zhì)量的同時(shí),顯著降低了大場(chǎng)景的計(jì)算開銷。
  • 實(shí)例分割:先用在每一幀獲得 2D 分割掩碼,再基于相鄰幀視圖一致性 + 空間一致性將 2D 掩碼聚合到 3D 空間;最后用 DescribeAnything 與 Qwen-VL 自動(dòng)生成實(shí)例的文本描述與 ScanNet 類別標(biāo)簽。這套 2D→3D 提升方案在避免重復(fù)實(shí)例的同時(shí),擺脫了對(duì)每場(chǎng)景優(yōu)化的重度依賴。

核心模塊二:面向空間 VQA 的結(jié)構(gòu)化問答生成

在 3D 場(chǎng)景理解之上,團(tuán)隊(duì)希望進(jìn)一步推動(dòng)大模型的空間推理能力:這些數(shù)據(jù),能不能直接用來(lái)訓(xùn)練模型的「空間理解能力」?

基于 SceneVerse++ 的幾何 + 語(yǔ)義標(biāo)注,他們構(gòu)建了 3D 場(chǎng)景圖(scene graph):每個(gè)節(jié)點(diǎn)表示一個(gè) 3D 物體實(shí)例,邊表示成對(duì)空間關(guān)系。結(jié)合 VLM-3R 的任務(wù)模板,自動(dòng)生成七類空間問答樣本,涵蓋:

  • 物體計(jì)數(shù)、物體尺寸(Object Counting / Object Size)
  • 相對(duì)距離、相對(duì)方向、絕對(duì)距離(Relative Distance / Relative Direction / Absolute Distance)
  • 房間尺寸(Room Size)
  • 路線規(guī)劃(Route Planning)

管線輸出總計(jì)632K 條空間 VQA 樣本(391K 多選題 + 241K 填數(shù)題),可直接用于 VSI-Bench 格式下的訓(xùn)練與評(píng)估。

核心模塊三:從真實(shí) Room Tour 視頻到可訓(xùn)練的 VLN 數(shù)據(jù)

視覺語(yǔ)言導(dǎo)航(VLN)任務(wù)的目標(biāo),是讓智能體「看著畫面,聽著指令,在環(huán)境中移動(dòng)」。 現(xiàn)實(shí)問題是:真實(shí)視頻雖然豐富,卻并不天然適合做導(dǎo)航數(shù)據(jù)。

真實(shí)的 Room Tour 視頻最接近人類自然探索方式,但其相機(jī)軌跡充滿冗余旋轉(zhuǎn)、回頭看、非前向視角等非導(dǎo)航行為,與 R2R 這類基準(zhǔn)中的短路徑 - 目標(biāo)導(dǎo)向軌跡存在顯著差異。



圖 4 VLN 數(shù)據(jù)生成三段式管線:路徑預(yù)處理 → 動(dòng)作編碼 → 指令生成。

團(tuán)隊(duì)據(jù)此設(shè)計(jì)了三階段流水線:

  • 路徑預(yù)處理:移除冗余局部旋轉(zhuǎn)、切分過(guò)長(zhǎng)路徑為若干子路徑,使其適合生成自然語(yǔ)言指令;
  • 動(dòng)作編碼:從 SfM 相機(jī)位姿投影到地面坐標(biāo),離散化為 R2R 風(fēng)格的前進(jìn)步長(zhǎng)(25/50/75 cm)與旋轉(zhuǎn)角度(15°/30°/45°),并過(guò)濾掉「只看不走」的動(dòng)作;
  • 指令生成:以 Chain-of-Thought 方式讓 VLM 先描述局部動(dòng)作,再生成整段路徑的自然語(yǔ)言指令;每條軌跡生成三種風(fēng)格化的指令以增強(qiáng)多樣性。

該管線最終在 SceneVerse++ 上產(chǎn)出9631 條軌跡、平均長(zhǎng)度 12.8 米、平均 15 步,共 7189 個(gè)不同場(chǎng)景下的 21567 條指令,為 VLN 研究提供了大規(guī)模、高質(zhì)量的真實(shí)視頻軌跡資源。

實(shí)驗(yàn)結(jié)果:三項(xiàng)任務(wù)全面提升,首次系統(tǒng)量化數(shù)據(jù)引擎的價(jià)值

1. 3D 目標(biāo)檢測(cè)與實(shí)例分割

作者以SpatialLM(基于 MLLM,原始模型在 12000+ 室內(nèi)合成場(chǎng)景上預(yù)訓(xùn)練)作為 3D 目標(biāo)檢測(cè)代表,以Mask3D(基于圖分割 segment 的實(shí)例分割模型)作為 3D 實(shí)例分割代表,分別在 ARKitScenes 與 ScanNet 兩個(gè)真實(shí)世界基準(zhǔn)上進(jìn)行零樣本與微調(diào)評(píng)估,所有模型架構(gòu)保持一致。

(a) 3D 目標(biāo)檢測(cè):如表 1 所示,SceneVerse++ 作為預(yù)訓(xùn)練數(shù)據(jù)在 ScanNet 零樣本上取得 F1@30.9 的表現(xiàn),更關(guān)鍵的是,在 ScanNet 上完成微調(diào)后,SceneVerse++ 預(yù)訓(xùn)練模型取得 F1@0.25 = 58.6、F1@0.5 = 45.4,較 SpatialLM 原合成預(yù)訓(xùn)練 + ScanNet 微調(diào)的 38.0 / 28.7 分別提升 +20.6 / +16.7 分,表明互聯(lián)網(wǎng)真實(shí)視頻比合成數(shù)據(jù)更能提供貼合真實(shí)世界分布的初始化;同時(shí),僅在 ScanNet 上訓(xùn)練(無(wú)預(yù)訓(xùn)練)僅得 F1@0.25 = 2.9,表明連接 3D 編碼器與 MLLM 的適配器必須依賴大規(guī)模預(yù)訓(xùn)練。



表 1 SpatialLM 在 3D 目標(biāo)檢測(cè)上的評(píng)估:在相同模型結(jié)構(gòu)下,SceneVerse++ 預(yù)訓(xùn)練 + ScanNet 微調(diào)取得 F1@0.25 = 58.6 / F1@0.5 = 45.4,相對(duì)基線大幅領(lǐng)先。

(b) 3D 實(shí)例分割:如表 2 所示,單獨(dú)用 SceneVerse++ 預(yù)訓(xùn)練的 Mask3D 難以遷移到 ScanNet(AP25 僅 15.4),但在 ScanNet 上微調(diào)后,各項(xiàng)指標(biāo)均有提升(AP25 36.1 → 38.5,AP 22.8 → 23.6)。這一差異揭示了一個(gè)關(guān)鍵現(xiàn)象:Mask3D 嚴(yán)重依賴基于圖分割預(yù)計(jì)算的 segment,對(duì)傳感器、重建流程的分布漂移高度敏感;相比之下,SpatialLM 這類直接作用于體素 / RGB 的模型表現(xiàn)出更穩(wěn)健的可擴(kuò)展性。



表 2 Mask3D 在 3D 實(shí)例分割上的評(píng)估:SceneVerse++ 預(yù)訓(xùn)練 + ScanNet 微調(diào)相比從頭訓(xùn)練提升 +2.4/+1.1/+0.8 (AP25/AP50/AP),但僅用 SceneVerse++ 預(yù)訓(xùn)練難以零樣本遷移,反映了該模型對(duì)數(shù)據(jù)特定偏差的強(qiáng)依賴。

2. 3D 空間視覺問答

3D 空間視覺問答的評(píng)估在VSI-Bench上進(jìn)行,作者在Qwen2.5-VL-3B / 7B兩個(gè)規(guī)模上用 LoRA 微調(diào),訓(xùn)練數(shù)據(jù)分為四組對(duì)照:

(1) 零樣本(-);

(2) 僅 SceneVerse++(SV++,202K 樣本);

(3) 僅 VLM-3R 的 ScanNet+ScanNet++ 數(shù)據(jù)(SN, SN++,206K,域內(nèi));

(4) 兩者合并訓(xùn)練(All)。

同時(shí)在全集與 ARKitScenes 子集上分別報(bào)告結(jié)果,后者對(duì) SV++ 與 SN/SN++ 均為域外,便于比較跨域泛化能力。



表 3 VSI-Bench 結(jié)果(各類任務(wù)準(zhǔn)確率 %):SV++ 相較零樣本在 3B / 7B 上平均提升 +14.9 / +9.8;與 SN,SN++ 合并后在全集與 ARKit 子集上同時(shí)登頂。

  • 生成數(shù)據(jù)對(duì)于空間推理能力有普遍增強(qiáng):Qwen2.5-VL-3B 全集平均從 27.9 → 42.8(+14.9),7B 從 36.6 → 46.4(+9.8);在物體計(jì)數(shù) Obj.Cnt.(25.2 → 61.8)、物體尺寸 Obj.Size(16.5 → 49.8)、相對(duì)距離 Rel.Dist.(37.2 → 49.3)上均有大幅躍升,證明互聯(lián)網(wǎng)視頻生成數(shù)據(jù)與仿真室內(nèi)掃描數(shù)據(jù)在空間推理能力上的提升效果相當(dāng)。
  • 跨域泛化顯著:在 ARKitScenes 子集(對(duì) SV++ 與 SN/SN++ 均是域外)上,SV++ 與 SN,SN++ 表現(xiàn)相當(dāng)甚至略優(yōu)(3B:48.0 vs. 49.0;7B:49.1 vs. 48.8),說(shuō)明互聯(lián)網(wǎng)視頻提供的先驗(yàn)對(duì)真實(shí)場(chǎng)景具有良好泛化性。
  • 類別差異:SceneVerse++ 在相對(duì)距離(Rel.Dist.),相對(duì)方向(Rel.Dir.) 等通用空間知識(shí)類別上提升最明顯;在物體計(jì)數(shù)(Obj.Cnt.)、房間尺寸(Room Size) 等依賴域特定分布的類別上弱于 SN/SN++,這與圖 2 中場(chǎng)景 / 物體分布差異吻合。
  • 訓(xùn)練動(dòng)態(tài)揭示過(guò)擬合風(fēng)險(xiǎn):作者可視化訓(xùn)練過(guò)程發(fā)現(xiàn),域內(nèi)訓(xùn)練和測(cè)試(SN,SN++) 在訓(xùn)練后期仍在全集上持續(xù)上升,而域外訓(xùn)練和測(cè)試則在一個(gè)拐點(diǎn)后趨穩(wěn),反映出 SN,SN++ 容易過(guò)擬合到域內(nèi)特有線索,這與同期工作關(guān)于 VSI-Bench 非視覺捷徑的分析一致。



圖 5 訓(xùn)練過(guò)程對(duì)比:上為在全集上的測(cè)試,下為在 ARKitScenes 子集測(cè)試,發(fā)現(xiàn)域內(nèi)訓(xùn)練和測(cè)試(上)呈現(xiàn)過(guò)擬合現(xiàn)象。

3. 3D 視覺語(yǔ)言導(dǎo)航

評(píng)估基于標(biāo)準(zhǔn)Room-to-Room (R2R)基準(zhǔn)(Matterport3D 環(huán)境),所有實(shí)驗(yàn)使用相同訓(xùn)練輪次以確保公平。指標(biāo)包含SR(成功率)、OS(Oracle 成功率)、SPL(路徑長(zhǎng)度加權(quán)成功率)、Dist(距目標(biāo)距離)、PL(軌跡長(zhǎng)度)。

作者進(jìn)一步對(duì)數(shù)據(jù)管線中的兩個(gè)核心模塊進(jìn)行消融:TR(軌跡優(yōu)化,Trajectory Refinement)與 IE(指令增強(qiáng),Instruction Enrichment)。



表 4 在 R2R 基準(zhǔn)上的 VLN 評(píng)估:SceneVerse++ 預(yù)訓(xùn)練 + R2R 微調(diào)將 SR 從 0.088 提升至 0.228;去除 TR 或 IE 任一模塊均導(dǎo)致顯著下降。

  • 真實(shí)視頻顯著提升導(dǎo)航能力:僅用 SceneVerse++ 預(yù)訓(xùn)練就能在 R2R 零樣本將 SR 從 0.088 提升至 0.107;由于真實(shí)視頻包含豐富的自由探索行為,PL 從 5.22 激增至 14.1,反映其軌跡更復(fù)雜、更貼近真實(shí)人類運(yùn)動(dòng)。
  • 微調(diào)后全面提升:SceneVerse++ 預(yù)訓(xùn)練 + R2R 微調(diào)達(dá)到 SR 0.228 / OS 0.315 / SPL 0.191 / Dist 7.65,相較無(wú)預(yù)訓(xùn)練基線(SR 0.088)絕對(duì)提升 +14.0 個(gè)百分點(diǎn)(+159%);同時(shí) Dist 下降、SPL 提升,證明大規(guī)模真實(shí)視頻先驗(yàn)顯著改善了導(dǎo)航效率與路徑合理性。
  • 樸素混合不是最優(yōu):直接把 R2R 與 SceneVerse++ 混合訓(xùn)練(R2R+SV++)僅得 SR 0.188,低于先 SV++ 預(yù)訓(xùn)練、再 R2R 微調(diào)的 0.228,說(shuō)明真實(shí)視頻與仿真環(huán)境存在視覺域差,需要通過(guò)預(yù)訓(xùn)練 → 微調(diào)的兩階段策略彌合。
  • 軌跡優(yōu)化(TR)不可或缺:w/o TR 時(shí),SR 從 0.228 降至 0.177(-5.1%),PL 也偏離 R2R 范式(11.95 vs. 11.64);缺少對(duì)原始冗余回頭軌跡的清洗,模型難以學(xué)到目標(biāo)導(dǎo)向的導(dǎo)航模式。
  • 指令增強(qiáng)(IE)更為關(guān)鍵:w/o IE 下降幅度更大 —— 零樣本 SR 僅 0.022,微調(diào)后也只有 0.074;缺少 CoT + 多樣化指令生成,模型幾乎無(wú)法把視覺動(dòng)作與自然語(yǔ)言對(duì)齊。

結(jié)論:原始互聯(lián)網(wǎng)視頻不能直接用于 VLN 訓(xùn)練,必須配合任務(wù)對(duì)齊的數(shù)據(jù)處理(TR + IE);數(shù)據(jù)質(zhì)量的提升比單純堆量更能帶來(lái)性能收益。

更重要的啟示:自動(dòng)化數(shù)據(jù)引擎應(yīng)當(dāng)被視作一等研究對(duì)象

除發(fā)布數(shù)據(jù)集之外,本文還系統(tǒng)性討論了當(dāng)前「從互聯(lián)網(wǎng)視頻到 3D 任務(wù)數(shù)據(jù)」管線中的若干共性問題:

  • 模型的可擴(kuò)展性 (scalable) 差異:直接作用于原始模態(tài)的模型(3D 體素、RGB-MLLM)在擴(kuò)大數(shù)據(jù)規(guī)模時(shí)表現(xiàn)更穩(wěn)?。灰蕾嚾蝿?wù)特定中間表示(如預(yù)計(jì)算分割 segments)的模型對(duì)分布漂移更敏感。
  • 基準(zhǔn)偏差與公平評(píng)估:現(xiàn)有基準(zhǔn)可能包含固有偏差,無(wú)法真實(shí)反映模型能力。未來(lái)評(píng)估應(yīng)更強(qiáng)調(diào)零樣本測(cè)試、減少數(shù)據(jù)污染,并開發(fā)更能衡量 in-the-wild 3D 理解與泛化能力的基準(zhǔn)。
  • 子模塊協(xié)同的重要性:SfM、實(shí)例分割、語(yǔ)言落地等子模塊往往在小規(guī)?;鶞?zhǔn)上訓(xùn)練,組合后會(huì)產(chǎn)生誤差累積。未來(lái)子模塊的開發(fā)和評(píng)估不應(yīng)只看單任務(wù)指標(biāo),還應(yīng)把其對(duì)自動(dòng)化數(shù)據(jù)管線的貢獻(xiàn)作為重要的衡量指標(biāo)。

總結(jié):邁向 3D 空間智能的「數(shù)據(jù)基建」

本文通過(guò) SceneVerse++ 展示了用精心設(shè)計(jì)的自動(dòng)化數(shù)據(jù)引擎從互聯(lián)網(wǎng)視頻中規(guī)模化生成高質(zhì)量 3D 場(chǎng)景理解數(shù)據(jù)的可行性。該工作同時(shí)覆蓋了低層感知(檢測(cè) / 分割)、空間推理(VQA)與具身導(dǎo)航(VLN)三大代表性任務(wù),在多個(gè)真實(shí)基準(zhǔn)上都取得了顯著且穩(wěn)健的性能提升。

研究團(tuán)隊(duì)進(jìn)一步指出了未來(lái) 3D 空間智能發(fā)展的關(guān)鍵方向,包括繼續(xù)擴(kuò)大互聯(lián)網(wǎng)視頻的規(guī)模與多樣性,提升子模塊(SfM、重建、分割、grounding)在 in-the-wild 視頻上的魯棒性與協(xié)同性,構(gòu)建更公平的評(píng)估體系以衡量模型的真實(shí) 3D 理解能力。

在 3D 數(shù)據(jù)長(zhǎng)期稀缺的背景下,利用「無(wú)標(biāo)注視頻」將是推動(dòng)具身智能體、3D VLM 以及下一代空間基礎(chǔ)模型的關(guān)鍵路徑。

感興趣的讀者可訪問項(xiàng)目主頁(yè)https://sv-pp.github.io/獲取更多實(shí)驗(yàn)細(xì)節(jié)與可視化資源。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

一種觀點(diǎn)
2026-05-05 19:24:58
1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

葉青足球世界
2026-05-06 07:54:58
偉偉道來(lái) | 伊朗的反應(yīng)為何如此激烈

偉偉道來(lái) | 伊朗的反應(yīng)為何如此激烈

經(jīng)濟(jì)觀察報(bào)
2026-05-06 11:40:46
吳宜澤透露拿到獎(jiǎng)金后準(zhǔn)備在英國(guó)買房,50萬(wàn)英鎊獎(jiǎng)金需交稅超23萬(wàn)鎊,實(shí)際到手約26.5萬(wàn)鎊

吳宜澤透露拿到獎(jiǎng)金后準(zhǔn)備在英國(guó)買房,50萬(wàn)英鎊獎(jiǎng)金需交稅超23萬(wàn)鎊,實(shí)際到手約26.5萬(wàn)鎊

大風(fēng)新聞
2026-05-06 11:53:02
定了!斯諾克巨星邀請(qǐng)賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

定了!斯諾克巨星邀請(qǐng)賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

劉姚堯的文字城堡
2026-05-06 08:31:36
女性跑步:暴露這個(gè)隱私,是性感嗎?

女性跑步:暴露這個(gè)隱私,是性感嗎?

馬拉松跑步健身
2026-05-05 19:18:07
吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

懂球帝
2026-05-05 19:39:09
在中國(guó)人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個(gè)人,沒一個(gè)在出現(xiàn)場(chǎng)

在中國(guó)人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個(gè)人,沒一個(gè)在出現(xiàn)場(chǎng)

侃故事的阿慶
2026-05-06 09:21:32
被延長(zhǎng)的搶救時(shí)間,被卡住的工傷認(rèn)定

被延長(zhǎng)的搶救時(shí)間,被卡住的工傷認(rèn)定

新京報(bào)
2026-05-06 11:03:07
51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說(shuō)她索取無(wú)度

51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說(shuō)她索取無(wú)度

漢史趣聞
2026-05-05 11:40:36
世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來(lái),誰(shuí)敢動(dòng)筷子

世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來(lái),誰(shuí)敢動(dòng)筷子

畫夕
2026-05-05 14:38:17
廣州第一爛尾樓 兩千家庭半生遺憾!

廣州第一爛尾樓 兩千家庭半生遺憾!

說(shuō)故事的阿襲
2026-05-05 20:20:30
8.84億的美國(guó)工廠說(shuō)關(guān)就關(guān)?曹德旺:美國(guó)不講理,我就不陪玩了

8.84億的美國(guó)工廠說(shuō)關(guān)就關(guān)?曹德旺:美國(guó)不講理,我就不陪玩了

番外行
2026-05-06 10:29:59
伯納烏大地震!皇馬放話出售姆巴佩,天價(jià)報(bào)價(jià)就接

伯納烏大地震!皇馬放話出售姆巴佩,天價(jià)報(bào)價(jià)就接

奶蓋熊本熊
2026-05-06 00:00:36
《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

汪巗的創(chuàng)業(yè)之路
2026-05-06 12:26:17
47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買菜大姐

47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買菜大姐

胖松松與瘦二毛
2026-05-06 12:40:53
張亮兒子17歲當(dāng)?shù)耍。?>
    </a>
        <h3>
      <a href=八卦瘋叔
2026-05-06 11:04:32
連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

南方都市報(bào)
2026-05-06 12:38:05
中美同時(shí)向全球下達(dá)禁令,各國(guó)都傻眼了!美媒:中國(guó)此舉史無(wú)前例

中美同時(shí)向全球下達(dá)禁令,各國(guó)都傻眼了!美媒:中國(guó)此舉史無(wú)前例

福建睿平
2026-05-06 08:56:38
男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

漢史趣聞
2026-05-05 11:36:31
2026-05-06 14:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12925文章數(shù) 142643關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

頭條要聞

男子購(gòu)百萬(wàn)保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬(wàn)買"熊膽"心虛

頭條要聞

男子購(gòu)百萬(wàn)保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬(wàn)買"熊膽"心虛

體育要聞

活塞1比0騎士:坎寧安不再是一個(gè)人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財(cái)經(jīng)要聞

人形機(jī)器人七小龍:誰(shuí)真能賣 誰(shuí)在講故事?

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無(wú)論能源形式 領(lǐng)克都要快樂

態(tài)度原創(chuàng)

本地
手機(jī)
數(shù)碼
藝術(shù)
健康

本地新聞

用青花瓷的方式,打開西溪濕地

手機(jī)要聞

谷歌推送5月Pixel手機(jī)更新,修復(fù)無(wú)線充電慢、相機(jī)卡死等問題

數(shù)碼要聞

七彩虹戰(zhàn)斧B860M超級(jí)黑刃主板圖賞:899元的“千元旗艦”

藝術(shù)要聞

震撼!康斯坦丁攝影作品里的性感曲線讓人驚艷!

干細(xì)胞治燒燙傷面臨這些“瓶頸”

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版