国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

空間智能終極挑戰(zhàn)MMSI-Video-Bench來了,頂級(jí)大模型全軍覆沒

0
分享至



空間理解能力是多模態(tài)大語言模型(MLLMs)走向真實(shí)物理世界,成為 “通用型智能助手” 的關(guān)鍵基礎(chǔ)。但現(xiàn)有的空間智能評(píng)測基準(zhǔn)往往有兩類問題:一類高度依賴模板生成,限制了問題的多樣性;另一類僅聚焦于某一種空間任務(wù)與受限場景,因此很難全面檢驗(yàn)?zāi)P驮谡鎸?shí)世界中對(duì)空間的理解與推理能力。

要真正走入現(xiàn)實(shí)世界,模型不僅需要看得見,更要看得懂空間: 它需要在復(fù)雜、多變的真實(shí)場景中理解空間布局、感知運(yùn)動(dòng)變化、進(jìn)行時(shí)空推理,并基于這些信息做出合理決策,與環(huán)境產(chǎn)生有效交互。

為此,上海人工智能實(shí)驗(yàn)室 InternRobotics 團(tuán)隊(duì)近日推出了一套全面而硬核的空間智能視頻基準(zhǔn) —— MMSI-Video-Bench,對(duì)當(dāng)前主流多模態(tài)大模型精心打造了一場挑戰(zhàn)系數(shù)極高的 “空間智能大考”。

本工作由上海人工智能實(shí)驗(yàn)室、上海交通大學(xué)、香港中文大學(xué)、浙江大學(xué)、香港大學(xué)、北京航空航天大學(xué)、西安交通大學(xué)、復(fù)旦大學(xué)、加州大學(xué)洛杉機(jī)分校 的研究者們共同完成。



  • 項(xiàng)目主頁: https://rbler1234.github.io/MMSI-VIdeo-Bench.github.io/
  • ArXiv 論文: https://arxiv.org/abs/2512.10863
  • Hugging Face 數(shù)據(jù)集: https://huggingface.co/datasets/rbler/MMSI-Video-Bench
  • GitHub 代碼庫: https://github.com/InternRobotics/MMSI-Video-Bench

該基準(zhǔn)具有以下顯著特點(diǎn):

(1)全面且系統(tǒng)的題型設(shè)計(jì)

MMSI-Video-Bench 首先從視頻本身的時(shí)空信息理解出發(fā),對(duì)模型的基礎(chǔ)空間感知能力進(jìn)行系統(tǒng)考察,主要包括:

  • 空間構(gòu)建(Spatial Construction):聚焦于對(duì)全局空間布局的理解,涵蓋實(shí)體與場景的空間狀態(tài)屬性,以及 相機(jī)、實(shí)體與場景之間的兩兩空間位置關(guān)系。
  • 運(yùn)動(dòng)理解(Motion Understanding):考察模型對(duì)長時(shí)運(yùn)動(dòng)過程的感知與理解能力,包括實(shí)體運(yùn)動(dòng)、相機(jī)運(yùn)動(dòng),以及多實(shí)體之間的交互運(yùn)動(dòng)。

在此基礎(chǔ)上,MMSI-Video-Bench 進(jìn)一步評(píng)測模型基于時(shí)空信息進(jìn)行高層決策的能力,具體包括:

  • 基于視頻信息進(jìn)行推理與行動(dòng)的規(guī)劃能力(Planning)
  • 對(duì)未來狀態(tài)進(jìn)行推斷與想象的預(yù)測想象能力(Prediction)

由于真實(shí)世界的觀測在時(shí)間上不一定是連續(xù)的,在空間上單一視角的信息不一定是完備的,MMSI-Video-Bench 進(jìn)一步擴(kuò)展了任務(wù)范疇,以更真實(shí)地覆蓋現(xiàn)實(shí)場景中的復(fù)雜情形,考察模型跨視頻的推理能力,這包含了跨時(shí)間的記憶更新能力(Memory Update);多視角信息的整合能力(Multi-View Integration)。

通過上述多層次、多維度的題型設(shè)計(jì),MMSI-Video-Bench 構(gòu)建了一個(gè)覆蓋感知、推理與決策全過程的空間智能評(píng)測體系



MMSI-Video-Bench 由五大任務(wù)類型,13 個(gè)子類問題構(gòu)成

(2)極具挑戰(zhàn)性的問題設(shè)計(jì)

MMSI-Video-Bench 基準(zhǔn)的所有問題由11 位平均研究年限超過 2.5 年的 3D 視覺研究員親自把關(guān)精細(xì)設(shè)計(jì),嚴(yán)格驗(yàn)收打磨,確保了基準(zhǔn)每一個(gè)問題清晰準(zhǔn)確,具有挑戰(zhàn)性。所有模型均表現(xiàn)吃力,即便是最表現(xiàn)最好的 Gemini 3 Pro,也只有 38% 的準(zhǔn)確率,相比其它的空間智能基準(zhǔn),具有目前最高的人類–AI 性能差距 (約 60%)。

(3) 豐富多樣的視頻數(shù)據(jù)來源

基準(zhǔn)的視頻數(shù)據(jù)來源于 25 個(gè)公開數(shù)據(jù)集 以及 1 個(gè)自建數(shù)據(jù)集,包含了機(jī)器人操作、從單房間到多層樓宇的室內(nèi)場景、室外建筑與街景、自然風(fēng)光、體育活動(dòng)以及電影片段等多種拍攝類型,全面反映了真實(shí)世界中復(fù)雜多樣、多尺度的空間場景

(4) 特定領(lǐng)域針對(duì)性的能力測評(píng)

此外,受益于場景類型的豐富以及任務(wù)類型的全面性,MMSI-Video-Bench 可以劃分出室內(nèi)場景感知(Indoor Scene Perception)/機(jī)器人(Robot) /定位(Grounding) 三大子基準(zhǔn),方便針對(duì)性測評(píng)模型特定能力。



MMSI-Video-Bench 的標(biāo)注流程 和 比例 / 視頻時(shí)長 / 詞云分布

空間智能大考:揭示模型能力邊界與瓶頸

(1)空間智能大考模型成績單

研究團(tuán)隊(duì)對(duì) 25 個(gè)主流多模態(tài)模型 進(jìn)行了評(píng)測,整體得分普遍偏低。即便是表現(xiàn)最優(yōu)的 Gemini 3 Pro(38.0),與人類水平 (96.4) 之間仍存在接近 60%的顯著差距。

與已有空間智能基準(zhǔn)的結(jié)論一致,實(shí)驗(yàn)結(jié)果再次暴露了當(dāng)前模型在空間構(gòu)建能力上的不足。更為關(guān)鍵的是,得益于 MMSI-Video-Bench 在任務(wù)設(shè)計(jì)上的全面性,研究團(tuán)隊(duì)進(jìn)一步發(fā)現(xiàn):模型在 運(yùn)動(dòng)理解、規(guī)劃、預(yù)測以及跨視頻推理 等能力上同樣存在明顯瓶頸。

在所有任務(wù)類型中,預(yù)測(Prediction) 是最具挑戰(zhàn)性的主任務(wù), 相機(jī)–實(shí)體之間的空間關(guān)系建模 是難度最高的細(xì)分類別。此外,研究團(tuán)隊(duì)發(fā)現(xiàn),即便是經(jīng)過專門空間任務(wù)微調(diào)的模型,其能力也未能有效泛化到 MMSI-Video-Bench。



不同模型在 MMSI-Video-Bench 上的表現(xiàn)

(2)錯(cuò)誤分析揭示模型瓶頸

為進(jìn)一步定位模型性能受限的關(guān)鍵原因,研究團(tuán)隊(duì)對(duì)模型的推理結(jié)果進(jìn)行了系統(tǒng)化復(fù)盤,并將錯(cuò)誤歸納為五大類型:

  • 細(xì)致定位錯(cuò)誤 (Detailed Grounding Error):模型在精細(xì)視覺感知層面出現(xiàn)失效,常見表現(xiàn)包括目標(biāo)遺漏混淆,或 “時(shí)間點(diǎn) - 事件” 對(duì)應(yīng)關(guān)系感知錯(cuò)誤。
  • ID 匹配錯(cuò)誤 (ID Mapping Error):模型在跨幀過程中難以保持一致的實(shí)體身份跟蹤。
  • 潛在邏輯推斷錯(cuò)誤 (Latent Logical Inference Error):模型在需要依賴隱含線索或常識(shí)知識(shí)的推理任務(wù)中失敗。
  • 提示輸入對(duì)齊錯(cuò)誤 (Prompt Alignment Error):模型未能將提示信息(如背景假設(shè)、新增條件或輔助圖像)與視頻信息正確結(jié)合進(jìn)行推理。
  • 幾何推理錯(cuò)誤 (Geometric Reasoning Error):模型在空間幾何關(guān)系理解上存在偏差,對(duì)于相對(duì)位置或距離關(guān)系(如前后左右、遠(yuǎn)近)出現(xiàn)錯(cuò)誤推斷。



MMSI-Video-Bench 的五種錯(cuò)誤類型示例

研究團(tuán)隊(duì)選取 Gemini-2.5-Flash、GPT-4o、O3、QwenVL2.5-72B 四個(gè)具有代表性的模型進(jìn)行了系統(tǒng)的錯(cuò)誤分析和統(tǒng)計(jì),結(jié)果如圖所示。幾何推理錯(cuò)誤是最為普遍、影響最大的錯(cuò)誤類型,而進(jìn)一步的細(xì)分分析表明:

  • 空間構(gòu)建任務(wù) 的低表現(xiàn)主要源于幾何推理能力不足;
  • 運(yùn)動(dòng)理解任務(wù) 中,模型難以在 快速、細(xì)微或長時(shí)間跨度的運(yùn)動(dòng) 中保持精確定位;
  • 在 規(guī)劃與預(yù)測任務(wù) 中,除幾何推理錯(cuò)誤外,模型往往無法有效理解提示輸入,并將其與視頻信息進(jìn)行聯(lián)合推理;
  • 跨視頻推理任務(wù) 的失敗主要源于 多目標(biāo)跨視頻定位的復(fù)雜性,以及模型難以利用潛在線索(如持續(xù)鎖定同一目標(biāo))完成推理。



MMSI-Video-Bench 的五種錯(cuò)誤類型分布

(3)空間線索與推理提示難以彌補(bǔ)核心能力不足

研究團(tuán)隊(duì)進(jìn)一步探索了兩種提升模型性能的策略:

  • 引入3D 空間線索以輔助模型理解,如圖所示,通過使用高性能的 3D 重建模型從視頻幀重建 3D 場景,并多視角渲染生成 2D 全局圖像作為額外輸入,給予模型 3D 空間線索輔助模型的理解推理;



3D 空間線索輔助方法

  • 采用思維鏈(Chain-of-Thought)技術(shù),提示引導(dǎo)模型進(jìn)行更規(guī)范的推理過程。上述方法均 未能帶來顯著的性能提升,這些結(jié)果進(jìn)一步揭示了兩個(gè)關(guān)鍵事實(shí):
  • 如何設(shè)計(jì)模型真正 “可理解、可利用” 的空間線索,仍是一個(gè)開放且極具挑戰(zhàn)性的問題;
  • 當(dāng)前模型的失敗 并非由于缺乏顯式推理步驟,而是受限于 底層推理能力本身仍然不足。



3D 空間線索輔助與思維鏈提示下的模型性能變化

結(jié)語

MMSI-Video-Bench 是一個(gè)高質(zhì)量、高挑戰(zhàn)性且系統(tǒng)全面的視頻空間智能評(píng)測基準(zhǔn),系統(tǒng)性地評(píng)估了多模態(tài)大模型在視頻理解中的空間認(rèn)知、推理與決策能力,評(píng)測結(jié)果清晰揭示了當(dāng)前模型在多項(xiàng)核心任務(wù)上與人類表現(xiàn)之間仍存在顯著差距?;谏钊攵?xì)致的實(shí)驗(yàn)分析,研究進(jìn)一步明確了現(xiàn)階段模型的關(guān)鍵能力瓶頸,并為未來空間智能模型的技術(shù)演進(jìn)指明了研究方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
供電局提醒:7種電器不用就拔插頭,不然電費(fèi)翻倍還危險(xiǎn)

供電局提醒:7種電器不用就拔插頭,不然電費(fèi)翻倍還危險(xiǎn)

叮當(dāng)當(dāng)科技
2026-01-03 11:07:42
盧秀燕盼1月確定臺(tái)中市長人選,鈕則勛分析:展現(xiàn)其迫切與憂慮

盧秀燕盼1月確定臺(tái)中市長人選,鈕則勛分析:展現(xiàn)其迫切與憂慮

海峽導(dǎo)報(bào)社
2026-01-11 10:12:04
果然是核動(dòng)力,美媒斷言中國新航母:人類史上最大,2艘同時(shí)開建

果然是核動(dòng)力,美媒斷言中國新航母:人類史上最大,2艘同時(shí)開建

軍霆說
2026-01-11 03:02:04
中國終于成功了!17米鋼管,中國用13年,終于打破國外壟斷

中國終于成功了!17米鋼管,中國用13年,終于打破國外壟斷

趣文說娛
2026-01-09 18:56:33
歐媒:中國都上桌了,500年來頭一次,瓜分世界怎能沒有歐洲的份

歐媒:中國都上桌了,500年來頭一次,瓜分世界怎能沒有歐洲的份

阿器談史
2025-12-25 21:09:35
回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

就一點(diǎn)
2025-11-22 10:36:39
親眼目睹藏族少女天葬之行,參加全過程后心悸:顛覆我對(duì)生死的認(rèn)知

親眼目睹藏族少女天葬之行,參加全過程后心悸:顛覆我對(duì)生死的認(rèn)知

古怪奇談錄
2025-09-09 14:36:35
大學(xué)副校長,擬任正廳級(jí)領(lǐng)導(dǎo)干部

大學(xué)副校長,擬任正廳級(jí)領(lǐng)導(dǎo)干部

麥可思研究
2026-01-11 09:04:06
36歲便慷慨就義的瞿秋白,建國后毛主席為何會(huì)有 “以后少紀(jì)念他” 這樣的評(píng)價(jià)?

36歲便慷慨就義的瞿秋白,建國后毛主席為何會(huì)有 “以后少紀(jì)念他” 這樣的評(píng)價(jià)?

桃煙讀史
2025-12-31 21:38:26
26年春晚首次彩排,16位大咖亮相,看到他們出現(xiàn),今年是真穩(wěn)了

26年春晚首次彩排,16位大咖亮相,看到他們出現(xiàn),今年是真穩(wěn)了

洲洲影視娛評(píng)
2026-01-10 20:05:52
哈梅內(nèi)伊開始大范圍斷網(wǎng),革命衛(wèi)隊(duì)將與中俄軍演,伊朗進(jìn)入關(guān)鍵期

哈梅內(nèi)伊開始大范圍斷網(wǎng),革命衛(wèi)隊(duì)將與中俄軍演,伊朗進(jìn)入關(guān)鍵期

溫讀史
2026-01-10 07:33:53
一天內(nèi),兩位38歲寶爸運(yùn)動(dòng)后倒下!其中一位還是羽毛球教練!醫(yī)生:大概率是這個(gè)原因

一天內(nèi),兩位38歲寶爸運(yùn)動(dòng)后倒下!其中一位還是羽毛球教練!醫(yī)生:大概率是這個(gè)原因

環(huán)球網(wǎng)資訊
2026-01-10 07:46:12
重要通知!即將預(yù)約,馬年幣鈔兌換大變!取消現(xiàn)金?

重要通知!即將預(yù)約,馬年幣鈔兌換大變!取消現(xiàn)金?

天天紀(jì)念幣
2026-01-11 10:03:34
89歲謝賢前女友大曝隱私!兩人差49歲,男方早已結(jié)扎,3年沒碰她

89歲謝賢前女友大曝隱私!兩人差49歲,男方早已結(jié)扎,3年沒碰她

心靜物娛
2026-01-11 10:08:04
他是道德上的小人,卻是政治上的巨人

他是道德上的小人,卻是政治上的巨人

小豫講故事
2026-01-10 06:00:08
僅剩一步之遙,中方報(bào)告披露,只要給把螺絲刀日本百天內(nèi)就可擁核

僅剩一步之遙,中方報(bào)告披露,只要給把螺絲刀日本百天內(nèi)就可擁核

通文知史
2026-01-09 19:00:03
婆婆將我20萬陪嫁卡拿走,說幫我存,我直接掛失,當(dāng)晚小叔子上門

婆婆將我20萬陪嫁卡拿走,說幫我存,我直接掛失,當(dāng)晚小叔子上門

船長與船1
2025-12-15 10:03:13
肝癌不痛不癢?醫(yī)生提醒:喝水后如果存在3個(gè)表現(xiàn),建議盡早做CT

肝癌不痛不癢?醫(yī)生提醒:喝水后如果存在3個(gè)表現(xiàn),建議盡早做CT

健康之光
2026-01-11 08:50:03
U23國足戰(zhàn)術(shù)有變!王鈺棟或替補(bǔ)待命,兩大王牌或首發(fā)出場

U23國足戰(zhàn)術(shù)有變!王鈺棟或替補(bǔ)待命,兩大王牌或首發(fā)出場

徽派體育
2026-01-10 22:27:43
安德烈·基里連科表現(xiàn)最巔峰的五年

安德烈·基里連科表現(xiàn)最巔峰的五年

董先森愛籃球
2026-01-11 10:18:58
2026-01-11 11:19:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12088文章數(shù) 142534關(guān)注度
往期回顧 全部

科技要聞

“我們與美國的差距也許還在拉大”

頭條要聞

牛彈琴:特朗普沒想到 抓馬杜羅后全球情緒總體很穩(wěn)定

頭條要聞

牛彈琴:特朗普沒想到 抓馬杜羅后全球情緒總體很穩(wěn)定

體育要聞

詹皇曬照不滿打手沒哨 裁判報(bào)告最后兩分鐘無誤判

娛樂要聞

網(wǎng)友偶遇賈玲張小斐崇禮滑雪

財(cái)經(jīng)要聞

外賣平臺(tái)"燒錢搶存量市場"迎來終局?

汽車要聞

2026款宋Pro DM-i長續(xù)航補(bǔ)貼后9.98萬起

態(tài)度原創(chuàng)

本地
教育
藝術(shù)
手機(jī)
時(shí)尚

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

教育要聞

拋物線旋轉(zhuǎn)問題,一個(gè)視頻學(xué)會(huì)!

藝術(shù)要聞

毛主席信函引發(fā)書法守舊與創(chuàng)新的深思

手機(jī)要聞

恭喜小米17 Pro系列!恭喜華為Mate 80!友商加油

動(dòng)物紋回潮,那很狂野了

無障礙瀏覽 進(jìn)入關(guān)懷版