国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

景不動(dòng)人動(dòng),OST-Bench揭示多模態(tài)大模型在線(xiàn)時(shí)空理解短板

0
分享至



多模態(tài)大語(yǔ)言模型(MLLMs)已在視覺(jué)與語(yǔ)言模態(tài)融合的感知與推理任務(wù)中展現(xiàn)出強(qiáng)大能力。而上海人工智能實(shí)驗(yàn)室、上海交通大學(xué)、香港大學(xué)、香港中文大學(xué)的研究者們提出的的 OST-Bench, 則是從智能體探索場(chǎng)景的動(dòng)態(tài)在線(xiàn)視角出發(fā),為大模型的能力提出了新的挑戰(zhàn)。

對(duì)比離線(xiàn) / 靜態(tài)的空間智能基準(zhǔn),OST-Bench 更精準(zhǔn)地反映了具身感知在真實(shí)世界中的核心挑戰(zhàn)。代碼和數(shù)據(jù)均已開(kāi)源。



  • 論文鏈接:https://arxiv.org/abs/2507.07984
  • 項(xiàng)目主頁(yè):https://rbler1234.github.io/OSTBench.github.io/
  • Hugging Face 數(shù)據(jù)集:https://huggingface.co/datasets/rbler/OST-Bench
  • GitHub 代碼庫(kù):https://github.com/InternRobotics/OST-Bench

離線(xiàn)鳥(niǎo)瞰全景 VS 在線(xiàn)移步換景

在現(xiàn)實(shí)世界中,我們的視野范圍是有限的,我們的眼睛在某一時(shí)刻只能聚焦于一個(gè)局部的場(chǎng)景。隨著不斷的探索,移步換景,我們對(duì)于全局場(chǎng)景逐步地形成一個(gè)更為清晰的認(rèn)識(shí);與此同時(shí),基于當(dāng)前以及歷史的觀測(cè),我們也能感知自身的位置變化以及與之前見(jiàn)過(guò)的物體的位置關(guān)系 (「我離那把椅子越來(lái)越遠(yuǎn)」「棕色的枕頭現(xiàn)在在我的右后方」)。

和現(xiàn)實(shí)中的人類(lèi)一樣,在真實(shí)世界部署的智能體通常無(wú)法一次性獲取全局環(huán)境,而是依賴(lài)連續(xù)輸入的局部觀測(cè),需要在不斷「移步換景」中完成在線(xiàn)感知、記憶維護(hù)與時(shí)空推理。這對(duì)導(dǎo)航、移動(dòng)操控等具身任務(wù)尤為關(guān)鍵:比如在導(dǎo)航中,模型需要在當(dāng)前時(shí)刻判斷「剛才見(jiàn)到的目標(biāo)現(xiàn)在在我左后方」,并據(jù)此決定行動(dòng)。

隨著多模態(tài)大模型在各類(lèi)基準(zhǔn)上不斷刷新紀(jì)錄,人們開(kāi)始關(guān)注它們?cè)?strong>真實(shí)世界設(shè)定下的表現(xiàn)。在時(shí)間維度,希望模型具備在線(xiàn)理解能力;在空間維度,希望模型能夠基于 2d 觀測(cè)構(gòu)建 3d 空間布局認(rèn)知。

然而,以往的空間智能評(píng)測(cè)多為離線(xiàn)、固定輸入長(zhǎng)度,而涌現(xiàn)的一些在線(xiàn)視頻評(píng)測(cè)基準(zhǔn)往往只考察局部或語(yǔ)義層面的空間感知。OST-Bench 則更貼近真實(shí)世界場(chǎng)景,相比以往基準(zhǔn)具有兩大核心特點(diǎn):

  1. 在線(xiàn)設(shè)定:模型必須在不斷增長(zhǎng)的觀測(cè)中進(jìn)行實(shí)時(shí)感知、記憶與推理;
  2. 跨時(shí)空理解:需要同時(shí)結(jié)合當(dāng)前畫(huà)面與歷史信息,完成面向時(shí)間跨度的復(fù)雜空間推理

視頻演示

正如下圖所示,與傳統(tǒng)離線(xiàn)空間基準(zhǔn)相比,在線(xiàn)設(shè)定對(duì)模型提出了更高、更接近真實(shí)世界的要求。



基準(zhǔn)介紹:「移步換景」為大模型帶來(lái)了哪些新難題?

傳統(tǒng)的靜態(tài)場(chǎng)景理解主要關(guān)注物體屬性及其靜態(tài)關(guān)系。而探索的智能體中不斷改變自身位置和視角,帶來(lái)持續(xù)更新的信息類(lèi)型與更豐富的問(wèn)題形態(tài)。研究團(tuán)隊(duì)據(jù)此將動(dòng)態(tài)場(chǎng)景理解劃分為三大信息類(lèi)別:智能體空間狀態(tài)、智能體可見(jiàn)信息、智能體 - 物體空間關(guān)系。基于這三類(lèi)信息,研究團(tuán)隊(duì)進(jìn)一步設(shè)計(jì)了15 個(gè)子任務(wù),覆蓋判斷(JUD)、估算(EST)、計(jì)數(shù)(CNT)、時(shí)間定位(TEMP)四類(lèi)題型?;谝?guī)則生成 + 人工篩選,生成了基準(zhǔn)的 10k 條測(cè)試集數(shù)據(jù) (1.4k 個(gè)場(chǎng)景) 以及用于微調(diào)的 50k 條訓(xùn)練集數(shù)據(jù) (7k 個(gè)場(chǎng)景)。



實(shí)驗(yàn)結(jié)果:大模型的在線(xiàn)場(chǎng)景時(shí)空理解答卷







  1. 主流大模型陷入困境:當(dāng)前主流多模態(tài)大模型與人類(lèi)存在顯著性能差距,暴露出跨時(shí)空信息推理的能力短板 (上面表 1 / 表 2)。模型的準(zhǔn)確率隨著探索步數(shù)的持續(xù)下降說(shuō)明現(xiàn)有范式難以適應(yīng)長(zhǎng)時(shí)序的在線(xiàn)設(shè)定。
  2. 空間增強(qiáng)模型能做好嗎?結(jié)果可能沒(méi)那么樂(lè)觀。「空間建?!箼C(jī)制的模型(如 Spatial-MLLM、VLM-3R 和 LLaVA-3D),與其基座模型相比沒(méi)有預(yù)期的顯著提升,反而在部分任務(wù)上明顯退步,并伴隨指令遵循能力的下降。總體來(lái)看,空間增強(qiáng)模型雖然在特定數(shù)據(jù)分布中表現(xiàn)良好,但在更開(kāi)放、更復(fù)雜的在線(xiàn)場(chǎng)景中仍難以穩(wěn)健發(fā)揮。這也進(jìn)一步體現(xiàn)體現(xiàn)了 OST-Bench 在揭示模型真實(shí)能力邊界方面的價(jià)值。



深入分析:大模型的表現(xiàn)診斷書(shū)

1.共性問(wèn)題聚焦——大模型遇到難題更喜歡走捷徑?

通過(guò)錯(cuò)誤統(tǒng)計(jì)我們發(fā)現(xiàn)模型的犯錯(cuò)集中在推理步驟,而在對(duì)錯(cuò)誤案例的深入分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)一個(gè)十分典型的共性現(xiàn)象:在面對(duì)復(fù)雜時(shí)空推理問(wèn)題時(shí),對(duì)比主動(dòng)回溯歷史信息或檢索關(guān)鍵線(xiàn)索,模型更傾向于「就地猜測(cè)」—— 僅依據(jù)當(dāng)前片段中的有限信息做出草率推斷,而非進(jìn)行真正的時(shí)空整合推理。

研究團(tuán)隊(duì)將這種現(xiàn)象稱(chēng)為「時(shí)空推理捷徑(Spatio-temporal Reasoning Shortcut)」:模型看似給出了合理答案,但推理過(guò)程并無(wú)充分依據(jù),往往只是 「表面合理」。





綠 / 紅色代表模型推理正確 / 錯(cuò)誤的地方

2.跨視角推理測(cè)評(píng)子集——對(duì)于 MLLM 的專(zhuān)項(xiàng)補(bǔ)考

為了更精確地定位模型的能力邊界,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)針對(duì)性子集。和之前的測(cè)評(píng)不同,這次 (1) 按難度分級(jí):研究團(tuán)隊(duì)按是否需要多步的復(fù)雜推理 (如下圖) 以及是否提前提出關(guān)鍵幀,將問(wèn)題劃分為四個(gè)難度等級(jí)。對(duì)比單步關(guān)聯(lián),多步空間關(guān)聯(lián)任務(wù)要求更強(qiáng)的推理能力;對(duì)比只有關(guān)鍵幀輸入,全視頻輸入則需在冗長(zhǎng)觀察中識(shí)別用于解答的關(guān)鍵幀。

(2) 補(bǔ)考的結(jié)果表明:復(fù)雜線(xiàn)索條件下的空間推理能力不足與長(zhǎng)期記憶檢索機(jī)制薄弱是當(dāng)前模型在在線(xiàn)時(shí)空理解任務(wù)中準(zhǔn)確率受限的兩大關(guān)鍵因素。



3.微調(diào)實(shí)驗(yàn)——提前「預(yù)習(xí)」在 OST-Bench 的幫助有多大?

為了評(píng)估模型能力的上限,研究團(tuán)隊(duì)基于來(lái)自 7000 個(gè)場(chǎng)景的 5 萬(wàn)條問(wèn)答數(shù)據(jù)對(duì)多種模型進(jìn)行了微調(diào)實(shí)驗(yàn)。所有模型的分?jǐn)?shù)均提升了超過(guò) 10%,證明「提前預(yù)習(xí)突擊」確實(shí)有效。然而,團(tuán)隊(duì)也發(fā)現(xiàn)真正涉及復(fù)雜時(shí)空推理的任務(wù)仍難以突破 50% 的準(zhǔn)確率,說(shuō)明單純微調(diào)并不能觸及問(wèn)題本質(zhì);此外,模型在部分題型上呈現(xiàn)出明顯的「背答案」傾向而非真正理解。微調(diào)后的模型還容易「變得不聽(tīng)話(huà)」,無(wú)法穩(wěn)定遵守格式對(duì)自己的答案進(jìn)行解釋。

現(xiàn)象表明:微調(diào)可以帶來(lái)提升,但這種提升更像是「題海戰(zhàn)術(shù)式的熟練」,而非 「機(jī)制上的理解進(jìn)步」。在這門(mén)課上,沒(méi)有結(jié)構(gòu)和范式的突破,僅靠刷數(shù)據(jù)是無(wú)法真正拿高分的。要攻克 OST-Bench,必須依賴(lài)更強(qiáng)的模型設(shè)計(jì)或訓(xùn)練策略。

總結(jié)

OST-Bench 提出了一個(gè)在線(xiàn)的時(shí)空?qǐng)鼍袄斫饣鶞?zhǔn),通過(guò)對(duì)于多個(gè)多模態(tài)大模型的評(píng)估,揭示了當(dāng)前模型在面對(duì)「在線(xiàn)時(shí)空理解」任務(wù)時(shí)的深層短板,也為未來(lái)模型的發(fā)展指明了方向:突破復(fù)雜空間推理能力與長(zhǎng)期記憶機(jī)制,將是下一代多模態(tài)模型邁向真實(shí)智能世界的關(guān)鍵一步。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
敘利亞前總統(tǒng)一家流亡俄羅斯近況曝光:平靜孤獨(dú),但衣食上乘,常前往阿聯(lián)酋度假,希望遷往阿聯(lián)酋

敘利亞前總統(tǒng)一家流亡俄羅斯近況曝光:平靜孤獨(dú),但衣食上乘,常前往阿聯(lián)酋度假,希望遷往阿聯(lián)酋

觀威海
2025-12-17 17:34:04
關(guān)于楊蘭蘭,終于破解出幾條她的關(guān)鍵信息

關(guān)于楊蘭蘭,終于破解出幾條她的關(guān)鍵信息

熱點(diǎn)菌本君
2025-10-01 17:24:05
果粉情何以堪!蘋(píng)果將對(duì)iPhone 18外形大調(diào)整:棄藥丸狀挖孔 改用左上角單打孔

果粉情何以堪!蘋(píng)果將對(duì)iPhone 18外形大調(diào)整:棄藥丸狀挖孔 改用左上角單打孔

快科技
2025-12-18 07:24:04
《大生意人》99%觀眾沒(méi)看懂,李欽為何要?dú)У衾罴??不是恨古平?>
    </a>
        <h3>
      <a href=竹英的成長(zhǎng)計(jì)劃
2025-12-18 18:35:29
丁嘉麗:我這輩子最后悔的決定,就是捧紅孫紅雷這個(gè)“白眼狼”

丁嘉麗:我這輩子最后悔的決定,就是捧紅孫紅雷這個(gè)“白眼狼”

小熊侃史
2025-12-17 09:46:44
不是,誰(shuí)教你們這么拍劉亦菲的?

不是,誰(shuí)教你們這么拍劉亦菲的?

4A廣告網(wǎng)
2025-12-18 21:22:28
清華留美學(xué)者趙通,給美獻(xiàn)4條“毒計(jì)”針對(duì)祖國(guó),招招狠毒

清華留美學(xué)者趙通,給美獻(xiàn)4條“毒計(jì)”針對(duì)祖國(guó),招招狠毒

小莜讀史
2025-12-13 17:55:59
66歲山口百惠近況曝光!O型腿明顯,走路彎腰駝背,變化大

66歲山口百惠近況曝光!O型腿明顯,走路彎腰駝背,變化大

小熊侃史
2025-12-18 10:51:22
年僅33歲!厄瓜多爾國(guó)腳遭槍擊,夫妻二人均不幸離世

年僅33歲!厄瓜多爾國(guó)腳遭槍擊,夫妻二人均不幸離世

全景體育V
2025-12-18 20:51:15
日本美女主播閃婚小泉進(jìn)次郎,身材火辣顏值高,不雅視頻引爆全網(wǎng)

日本美女主播閃婚小泉進(jìn)次郎,身材火辣顏值高,不雅視頻引爆全網(wǎng)

來(lái)科點(diǎn)譜
2025-12-18 09:00:07
泰國(guó)下手這么狠,幾個(gè)大國(guó)都默契地當(dāng)啞巴!細(xì)看才明白期中的奧秘

泰國(guó)下手這么狠,幾個(gè)大國(guó)都默契地當(dāng)啞巴!細(xì)看才明白期中的奧秘

沒(méi)有偏旁的常慶
2025-12-18 11:30:12
全紅嬋與王俊凱合體僅5天,惡心的一幕發(fā)生了,關(guān)系藏不住了?

全紅嬋與王俊凱合體僅5天,惡心的一幕發(fā)生了,關(guān)系藏不住了?

趣文說(shuō)娛
2025-12-18 18:10:01
山姆斷貨王,真的太太太好吃了

山姆斷貨王,真的太太太好吃了

背包旅行
2025-12-18 15:10:11
老人二婚后第一次同房有什么感受?62歲阿姨直言:他給我太多驚喜

老人二婚后第一次同房有什么感受?62歲阿姨直言:他給我太多驚喜

烙任情感
2025-12-17 10:12:17
2015年,谷俊山被判死緩,朱德外孫對(duì)他的評(píng)價(jià)一針見(jiàn)血

2015年,谷俊山被判死緩,朱德外孫對(duì)他的評(píng)價(jià)一針見(jiàn)血

歷史龍?jiān)w
2025-12-03 13:50:04
記者:蔣圣龍接受微創(chuàng)穿刺手術(shù),從腎臟部位抽出了6管積液

記者:蔣圣龍接受微創(chuàng)穿刺手術(shù),從腎臟部位抽出了6管積液

懂球帝
2025-12-18 08:17:04
每天堅(jiān)持5個(gè)動(dòng)作勝過(guò)跑步1小時(shí),消除腹部贅肉、腰背酸痛也改善了

每天堅(jiān)持5個(gè)動(dòng)作勝過(guò)跑步1小時(shí),消除腹部贅肉、腰背酸痛也改善了

瑜伽解剖學(xué)
2025-12-16 12:23:11
楊虎城的后人今何在:長(zhǎng)子省委書(shū)記,倆女兒廳級(jí),孫子移民加拿大

楊虎城的后人今何在:長(zhǎng)子省委書(shū)記,倆女兒廳級(jí),孫子移民加拿大

抽象派大師
2025-12-14 03:12:02
笑了!柬泰沖突后,泰國(guó)駐華大使館微博下面,全是一樣的評(píng)論

笑了!柬泰沖突后,泰國(guó)駐華大使館微博下面,全是一樣的評(píng)論

消失的電波
2025-12-15 14:10:23
我國(guó)一小縣城水塘被抽干后,發(fā)現(xiàn)世界第九大奇跡!專(zhuān)家無(wú)法解釋?zhuān)?>
    </a>
        <h3>
      <a href=墨蘭史書(shū)
2025-12-14 06:10:03
2025-12-18 22:51:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
11950文章數(shù) 142513關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

在野黨參議員問(wèn)了句日本"存亡危機(jī)" 高市早苗瞬間冷臉

頭條要聞

在野黨參議員問(wèn)了句日本"存亡危機(jī)" 高市早苗瞬間冷臉

體育要聞

紐約尼克斯,板正的球隊(duì)

娛樂(lè)要聞

絲芭放大招了!實(shí)名舉報(bào)鞠婧祎經(jīng)濟(jì)犯罪

財(cái)經(jīng)要聞

尹艷林:呼吁加快2.5億新市民落戶(hù)進(jìn)程

汽車(chē)要聞

在零下30℃的考場(chǎng)里 凡爾賽C5 X和508L拿到了"穩(wěn)"的證明

態(tài)度原創(chuàng)

健康
時(shí)尚
藝術(shù)
教育
軍事航空

這些新療法,讓化療不再那么痛苦

鞋子專(zhuān)場(chǎng)||穿了五年十年,掏心窩子說(shuō),最常穿的還是這一雙!

藝術(shù)要聞

卡洛斯·杜蘭:不只是薩金特的老師!

教育要聞

所謂教育,不過(guò)是三分說(shuō),七分等

軍事要聞

福建艦入列后首過(guò)臺(tái)海 臺(tái)方談為何"甲板上沒(méi)有艦載機(jī)"

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版