国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

景不動人動,OST-Bench揭示多模態(tài)大模型在線時空理解短板

0
分享至



多模態(tài)大語言模型(MLLMs)已在視覺與語言模態(tài)融合的感知與推理任務中展現(xiàn)出強大能力。而上海人工智能實驗室、上海交通大學、香港大學、香港中文大學的研究者們提出的的 OST-Bench, 則是從智能體探索場景的動態(tài)在線視角出發(fā),為大模型的能力提出了新的挑戰(zhàn)。

對比離線 / 靜態(tài)的空間智能基準,OST-Bench 更精準地反映了具身感知在真實世界中的核心挑戰(zhàn)。代碼和數(shù)據(jù)均已開源。



  • 論文鏈接:https://arxiv.org/abs/2507.07984
  • 項目主頁:https://rbler1234.github.io/OSTBench.github.io/
  • Hugging Face 數(shù)據(jù)集:https://huggingface.co/datasets/rbler/OST-Bench
  • GitHub 代碼庫:https://github.com/InternRobotics/OST-Bench

離線鳥瞰全景 VS 在線移步換景

在現(xiàn)實世界中,我們的視野范圍是有限的,我們的眼睛在某一時刻只能聚焦于一個局部的場景。隨著不斷的探索,移步換景,我們對于全局場景逐步地形成一個更為清晰的認識;與此同時,基于當前以及歷史的觀測,我們也能感知自身的位置變化以及與之前見過的物體的位置關系 (「我離那把椅子越來越遠」「棕色的枕頭現(xiàn)在在我的右后方」)。

和現(xiàn)實中的人類一樣,在真實世界部署的智能體通常無法一次性獲取全局環(huán)境,而是依賴連續(xù)輸入的局部觀測,需要在不斷「移步換景」中完成在線感知、記憶維護與時空推理。這對導航、移動操控等具身任務尤為關鍵:比如在導航中,模型需要在當前時刻判斷「剛才見到的目標現(xiàn)在在我左后方」,并據(jù)此決定行動。

隨著多模態(tài)大模型在各類基準上不斷刷新紀錄,人們開始關注它們在真實世界設定下的表現(xiàn)。在時間維度,希望模型具備在線理解能力;在空間維度,希望模型能夠基于 2d 觀測構建 3d 空間布局認知。

然而,以往的空間智能評測多為離線、固定輸入長度,而涌現(xiàn)的一些在線視頻評測基準往往只考察局部或語義層面的空間感知。OST-Bench 則更貼近真實世界場景,相比以往基準具有兩大核心特點:

  1. 在線設定:模型必須在不斷增長的觀測中進行實時感知、記憶與推理;
  2. 跨時空理解:需要同時結合當前畫面與歷史信息,完成面向時間跨度的復雜空間推理

視頻演示

正如下圖所示,與傳統(tǒng)離線空間基準相比,在線設定對模型提出了更高、更接近真實世界的要求。



基準介紹:「移步換景」為大模型帶來了哪些新難題?

傳統(tǒng)的靜態(tài)場景理解主要關注物體屬性及其靜態(tài)關系。而探索的智能體中不斷改變自身位置和視角,帶來持續(xù)更新的信息類型與更豐富的問題形態(tài)。研究團隊據(jù)此將動態(tài)場景理解劃分為三大信息類別:智能體空間狀態(tài)、智能體可見信息、智能體 - 物體空間關系。基于這三類信息,研究團隊進一步設計了15 個子任務,覆蓋判斷(JUD)、估算(EST)、計數(shù)(CNT)、時間定位(TEMP)四類題型。基于規(guī)則生成 + 人工篩選,生成了基準的 10k 條測試集數(shù)據(jù) (1.4k 個場景) 以及用于微調的 50k 條訓練集數(shù)據(jù) (7k 個場景)。



實驗結果:大模型的在線場景時空理解答卷







  1. 主流大模型陷入困境:當前主流多模態(tài)大模型與人類存在顯著性能差距,暴露出跨時空信息推理的能力短板 (上面表 1 / 表 2)。模型的準確率隨著探索步數(shù)的持續(xù)下降說明現(xiàn)有范式難以適應長時序的在線設定。
  2. 空間增強模型能做好嗎?結果可能沒那么樂觀。「空間建?!箼C制的模型(如 Spatial-MLLM、VLM-3R 和 LLaVA-3D),與其基座模型相比沒有預期的顯著提升,反而在部分任務上明顯退步,并伴隨指令遵循能力的下降??傮w來看,空間增強模型雖然在特定數(shù)據(jù)分布中表現(xiàn)良好,但在更開放、更復雜的在線場景中仍難以穩(wěn)健發(fā)揮。這也進一步體現(xiàn)體現(xiàn)了 OST-Bench 在揭示模型真實能力邊界方面的價值。



深入分析:大模型的表現(xiàn)診斷書

1.共性問題聚焦——大模型遇到難題更喜歡走捷徑?

通過錯誤統(tǒng)計我們發(fā)現(xiàn)模型的犯錯集中在推理步驟,而在對錯誤案例的深入分析中,研究團隊發(fā)現(xiàn)一個十分典型的共性現(xiàn)象:在面對復雜時空推理問題時,對比主動回溯歷史信息或檢索關鍵線索,模型更傾向于「就地猜測」—— 僅依據(jù)當前片段中的有限信息做出草率推斷,而非進行真正的時空整合推理。

研究團隊將這種現(xiàn)象稱為「時空推理捷徑(Spatio-temporal Reasoning Shortcut)」:模型看似給出了合理答案,但推理過程并無充分依據(jù),往往只是 「表面合理」。





綠 / 紅色代表模型推理正確 / 錯誤的地方

2.跨視角推理測評子集——對于 MLLM 的專項補考

為了更精確地定位模型的能力邊界,研究團隊設計了一個針對性子集。和之前的測評不同,這次 (1) 按難度分級:研究團隊按是否需要多步的復雜推理 (如下圖) 以及是否提前提出關鍵幀,將問題劃分為四個難度等級。對比單步關聯(lián),多步空間關聯(lián)任務要求更強的推理能力;對比只有關鍵幀輸入,全視頻輸入則需在冗長觀察中識別用于解答的關鍵幀。

(2) 補考的結果表明:復雜線索條件下的空間推理能力不足與長期記憶檢索機制薄弱是當前模型在在線時空理解任務中準確率受限的兩大關鍵因素。



3.微調實驗——提前「預習」在 OST-Bench 的幫助有多大?

為了評估模型能力的上限,研究團隊基于來自 7000 個場景的 5 萬條問答數(shù)據(jù)對多種模型進行了微調實驗。所有模型的分數(shù)均提升了超過 10%,證明「提前預習突擊」確實有效。然而,團隊也發(fā)現(xiàn)真正涉及復雜時空推理的任務仍難以突破 50% 的準確率,說明單純微調并不能觸及問題本質;此外,模型在部分題型上呈現(xiàn)出明顯的「背答案」傾向而非真正理解。微調后的模型還容易「變得不聽話」,無法穩(wěn)定遵守格式對自己的答案進行解釋。

現(xiàn)象表明:微調可以帶來提升,但這種提升更像是「題海戰(zhàn)術式的熟練」,而非 「機制上的理解進步」。在這門課上,沒有結構和范式的突破,僅靠刷數(shù)據(jù)是無法真正拿高分的。要攻克 OST-Bench,必須依賴更強的模型設計或訓練策略。

總結

OST-Bench 提出了一個在線的時空場景理解基準,通過對于多個多模態(tài)大模型的評估,揭示了當前模型在面對「在線時空理解」任務時的深層短板,也為未來模型的發(fā)展指明了方向:突破復雜空間推理能力與長期記憶機制,將是下一代多模態(tài)模型邁向真實智能世界的關鍵一步。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
再吹捧這種國產爛片,內娛真沒救了

再吹捧這種國產爛片,內娛真沒救了

娛樂圈十三太保
2026-02-28 17:22:44
主人開出服務區(qū)40公里后才發(fā)現(xiàn)沒帶狗, 回去找時看到難忘的一幕

主人開出服務區(qū)40公里后才發(fā)現(xiàn)沒帶狗, 回去找時看到難忘的一幕

觀察鑒娛
2026-02-28 10:20:09
2014年,北京女博士李香蓉因接受不了新郎身份,在車內將其幾刀刺死

2014年,北京女博士李香蓉因接受不了新郎身份,在車內將其幾刀刺死

紅豆講堂
2024-10-14 15:30:03
亞馬爾新女友太美了!她是巴薩忠實球迷 與亞馬爾前任曾是閨蜜

亞馬爾新女友太美了!她是巴薩忠實球迷 與亞馬爾前任曾是閨蜜

Emily說個球
2026-02-28 21:52:51
建業(yè)集團董事長胡葆森滯留香港

建業(yè)集團董事長胡葆森滯留香港

地產微資訊
2026-02-28 12:39:40
震撼!曾精確預言911的盲眼神婆預測今年8大事件,有一條暗指中國

震撼!曾精確預言911的盲眼神婆預測今年8大事件,有一條暗指中國

刀刃故事
2024-11-22 01:55:03
馬筱梅產子四天,S媽委托律師發(fā)聲,汪小菲帶玥兒給弟弟買禮物

馬筱梅產子四天,S媽委托律師發(fā)聲,汪小菲帶玥兒給弟弟買禮物

歲月輕紗
2026-02-28 20:27:17
有色板塊全面爆發(fā):金銀領漲后,資金必然擴散到這3個金屬子行業(yè)

有色板塊全面爆發(fā):金銀領漲后,資金必然擴散到這3個金屬子行業(yè)

小白鴿財經
2026-02-28 20:30:03
日本教室的鐘表,一天24小時?

日本教室的鐘表,一天24小時?

日本物語
2026-02-28 20:34:30
女子替父親請假兩小時,父親竟因此被開除,絕情臭豆腐店發(fā)布道歉聲明

女子替父親請假兩小時,父親竟因此被開除,絕情臭豆腐店發(fā)布道歉聲明

極目新聞
2026-02-28 19:50:15
普陀山不是隨便去的!這幾件事不懂,不僅容易白跑,還惹麻煩

普陀山不是隨便去的!這幾件事不懂,不僅容易白跑,還惹麻煩

千秋文化
2026-02-24 20:22:32
美以試圖斬首伊朗?中國早有預料,趕在行動前發(fā)布了一則特殊公告

美以試圖斬首伊朗?中國早有預料,趕在行動前發(fā)布了一則特殊公告

Ck的蜜糖
2026-03-01 05:50:33
日本公開一幅祝允明真跡!這才是真草書,字字都是“金字塔尖”!

日本公開一幅祝允明真跡!這才是真草書,字字都是“金字塔尖”!

書畫博學
2026-01-15 09:27:02
中美局勢可能發(fā)生大反轉,最先超過美國的竟不是經濟

中美局勢可能發(fā)生大反轉,最先超過美國的竟不是經濟

華人星光
2026-01-07 13:32:47
感謝美國:五毛一度的中國電,換個姿勢就能賣11元

感謝美國:五毛一度的中國電,換個姿勢就能賣11元

星海情報局
2026-02-28 18:00:35
僅19分鐘!全面被壓制!林詩棟/黃友政0-3勒布倫兄弟無緣奪冠!

僅19分鐘!全面被壓制!林詩棟/黃友政0-3勒布倫兄弟無緣奪冠!

籃球資訊達人
2026-02-28 22:56:32
不留遺產,拒絕見面,沒有微信,這一次,向華強撕碎了向佑的體面

不留遺產,拒絕見面,沒有微信,這一次,向華強撕碎了向佑的體面

叨嘮
2026-02-26 22:49:36
剛剛,伊朗公布戰(zhàn)果!券商電話會議擠爆了,最新解讀來了!

剛剛,伊朗公布戰(zhàn)果!券商電話會議擠爆了,最新解讀來了!

證券時報
2026-03-01 00:30:09
黎明前的驚雷:一個時代的落幕與中東秩序的重塑

黎明前的驚雷:一個時代的落幕與中東秩序的重塑

高博新視野
2026-01-05 18:13:59
阿斯:前巴薩球員穆尼爾航班遭取消滯留伊朗;阿丹已提前撤離

阿斯:前巴薩球員穆尼爾航班遭取消滯留伊朗;阿丹已提前撤離

懂球帝
2026-02-28 22:08:28
2026-03-01 06:52:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12382文章數(shù) 142573關注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

以官員稱哈梅內伊身亡 遺體在其官邸廢墟中被找到

頭條要聞

以官員稱哈梅內伊身亡 遺體在其官邸廢墟中被找到

體育要聞

球隊主力全報銷?頂風擺爛演都不演了

娛樂要聞

周杰倫兒子正面照曝光,與父親好像

財經要聞

沖突爆發(fā) 市場變天?

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

房產
手機
時尚
健康
本地

房產要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

手機要聞

小米17 Ultra徠卡海外版發(fā)布,竟賣1999歐元!

這6款發(fā)色居然這么火?50張圖可以直接給tony

轉頭就暈的耳石癥,能開車上班嗎?

本地新聞

津南好·四時總相宜

無障礙瀏覽 進入關懷版