国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI能否「圣地巡禮」?多模態(tài)大模型全新評(píng)估基準(zhǔn)VIR-Bench來了

0
分享至



大家或許都有過這樣的體驗(yàn):

看完一部喜歡的動(dòng)漫,總會(huì)心血來潮地想去 “圣地巡禮”;刷到別人剪輯精美的旅行 vlog,也會(huì)忍不住收藏起來,想著哪天親自走一遍同樣的路線。旅行與影像的結(jié)合,總是能勾起人們的探索欲望。那么,如果 AI 能自動(dòng)看懂這些旅行視頻,幫你解析出 “去了哪些地方”“順序是怎樣的”,甚至還能一鍵生成屬于你的旅行計(jì)劃,會(huì)不會(huì)很有趣?這不僅僅是阿宅的想象,更是多模態(tài)大模型在真實(shí)世界應(yīng)用中的一個(gè)重要場(chǎng)景。



正是在這樣的啟發(fā)下,來自日本早稻田大學(xué),CyberAgent 和奈良先端科學(xué)技術(shù)大學(xué)院大學(xué)的團(tuán)隊(duì)提出了一個(gè)全新的多模態(tài)大模型評(píng)估基準(zhǔn) VIR-Bench ,旨在評(píng)測(cè) AI 是否真的能理解旅行視頻中的地理位置與時(shí)間順序,從而支撐更復(fù)雜、更實(shí)用的應(yīng)用。用一句話來概括,這項(xiàng)研究就是在追問:“我從哪里來?我要到哪里去?”



  • 論文地址:https://www.arxiv.org/abs/2509.19002
  • GitHub:https://github.com/nlp-waseda/VIR-Bench

VIR-Bench 是什么?任務(wù)設(shè)計(jì)與數(shù)據(jù)集構(gòu)建

任務(wù)目標(biāo):行程還原(Itinerary Reconstruction)

在 VIR-Bench 中,給定一個(gè)旅行 vlog(在日本拍攝),模型要輸出訪問順序圖(visiting order graph),也就是 “我去了哪些地點(diǎn)、按什么順序、地點(diǎn)之間有哪些包含關(guān)系” 的結(jié)構(gòu)化表示。

更具體地,這個(gè)訪問順序圖是一個(gè)有向圖,其中:

  • 節(jié)點(diǎn)表示被訪問的地點(diǎn),按層次分為 Prefecture,City,和 POI(Point of Interest)三層級(jí)。
  • 包含邊(Inclusion edge) 表示層次上的 “大地理單元包含小地理單元” 關(guān)系(例如某 POI 在某個(gè) City 里,某個(gè) City 在某個(gè) Prefecture 里)。
  • 轉(zhuǎn)移邊(Transition edge) 表示時(shí)間順序上的移動(dòng):從一個(gè)節(jié)點(diǎn)移動(dòng)到下一個(gè)節(jié)點(diǎn)(同層級(jí))表示旅行順序。



這意味著模型不僅要識(shí)別出 “我去過的地點(diǎn)”,還要判斷這些地點(diǎn)之間的時(shí)間順序,地理空間關(guān)系,進(jìn)而構(gòu)建出整個(gè)旅行路徑的結(jié)構(gòu)。此外,由于旅行視頻往往是自拍視角 / 行進(jìn)視角 / 風(fēng)光視角等交錯(cuò)出現(xiàn),模型需要在多樣視角、非連續(xù)畫面中“拼圖式” 理解,這進(jìn)一步提升了任務(wù)難度。

為便于模型訓(xùn)練與評(píng)測(cè),作者將這一復(fù)雜任務(wù)拆解為兩個(gè)子任務(wù):

1. 節(jié)點(diǎn)預(yù)測(cè):給定視頻,模型列出所有被訪問的 Prefecture、City、POI。

2. 邊緣預(yù)測(cè):給定視頻 + 節(jié)點(diǎn)集合(節(jié)點(diǎn)標(biāo)簽順序被打亂),模型要判斷哪些節(jié)點(diǎn)之間存在包含邊,哪些節(jié)點(diǎn)之間存在轉(zhuǎn)移邊。即預(yù)測(cè)邊的集合。

通過這種分解方式,我們可以分別評(píng)估模型的地理識(shí)別能力與時(shí)序推理能力,以及它們?cè)趯?shí)際組合時(shí)的協(xié)同性。

數(shù)據(jù)集構(gòu)建:200 個(gè)旅行視頻 + 訪問順序圖

為了支撐上述任務(wù),作者構(gòu)建了一個(gè)規(guī)模適中的專用數(shù)據(jù)集:

  • 視頻數(shù)量:200 個(gè)旅行 vlog(都在日本拍攝) 。
  • 地點(diǎn)覆蓋:共標(biāo)注出 3,689 個(gè) POI,分布在日本 43 個(gè)都道府縣(幾乎覆蓋全日本) 。
  • 標(biāo)注方式:每個(gè)視頻由人工注釋者識(shí)別每個(gè) POI 的起止時(shí)間、Google Maps 鏈接,并通過雙人校驗(yàn)后自動(dòng)構(gòu)建最終的訪問順序圖。

作者在論文中還附上了詳細(xì)注釋指南、數(shù)據(jù)分布統(tǒng)計(jì)等信息(可見 Appendix 部分)。

實(shí)驗(yàn)結(jié)果與洞察:當(dāng)前模型面臨的挑戰(zhàn)



在實(shí)驗(yàn)中,作者發(fā)現(xiàn)開源模型整體上仍然落后于商用模型,尤其是在 POI 節(jié)點(diǎn)識(shí)別 和 轉(zhuǎn)移邊預(yù)測(cè) 這兩個(gè)子任務(wù)上差距尤為明顯。進(jìn)一步的分析顯示,轉(zhuǎn)移邊預(yù)測(cè)幾乎是所有模型的 “最難關(guān)”:不少模型要么直接誤解了任務(wù)要求,要么忽視了層級(jí)結(jié)構(gòu)的約束(只有同層級(jí)節(jié)點(diǎn)之間可以有轉(zhuǎn)移邊),結(jié)果往往接近隨機(jī)水平。

另一方面,模型規(guī)模的擴(kuò)展對(duì)性能提升具有顯著作用,尤其體現(xiàn)在邊緣預(yù)測(cè)上;而是否具備地理相關(guān)的預(yù)訓(xùn)練,則成為 POI 節(jié)點(diǎn)預(yù)測(cè)精度差異的關(guān)鍵因素。值得注意的是,思維鏈推理(Chain-of-Thought) 的效果在不同子任務(wù)中差別很大:在節(jié)點(diǎn)預(yù)測(cè)中提升有限,但在邊緣預(yù)測(cè)中卻能帶來顯著的改善。如果再進(jìn)一步結(jié)合音頻信息(例如 Gemini-2.5-Pro 的多模態(tài)輸入),效果提升尤為突出。

Ablation 實(shí)驗(yàn)也為我們揭示了模型性能提升的幾個(gè)關(guān)鍵方向:增加輸入幀數(shù)可以讓模型捕捉更完整的旅行線索,更長(zhǎng)的推理過程能幫助模型逐步還原旅行順序,而音頻的利用則能提供額外的語義提示。三者結(jié)合,共同推動(dòng)了模型在復(fù)雜時(shí)空理解任務(wù)上的進(jìn)步。

然而,即便有這些改進(jìn),整體性能仍遠(yuǎn)未達(dá)到可用水平。即使是當(dāng)前得分最高的 Gemini-2.5-Pro,在預(yù)測(cè)結(jié)果中依然存在大量錯(cuò)誤,這進(jìn)一步凸顯了多模態(tài)大模型在長(zhǎng)程地理與時(shí)間理解上的巨大挑戰(zhàn)。



表1: 節(jié)點(diǎn)預(yù)測(cè)的評(píng)估結(jié)果



表2: 邊緣預(yù)測(cè)的評(píng)估結(jié)果

總而言之,VIR-Bench 不僅是一個(gè)新的評(píng)測(cè)基準(zhǔn),更是為未來諸多應(yīng)用打開了一扇窗口。通過在旅行視頻中重建行程順序,它逼迫模型同時(shí)理解 “地理位置 + 時(shí)間順序”,這與機(jī)器人如何理解世界、規(guī)劃路徑,以及自動(dòng)駕駛系統(tǒng)如何在動(dòng)態(tài)環(huán)境中進(jìn)行決策高度契合。

這一研究讓我們看清:當(dāng)前的大模型在長(zhǎng)程推理和時(shí)空理解上仍有明顯不足,但也指明了進(jìn)化的方向 —— 更強(qiáng)的地理空間感知、更可靠的時(shí)間推理,以及多模態(tài)信息的深度融合。當(dāng)這些能力逐漸成熟,AI 將不再只是 “看視頻”,而是真正具備 “在世界中行動(dòng)” 的潛力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美專家預(yù)測(cè):如果中國(guó)軍隊(duì)出現(xiàn)在烏克蘭,三天就能結(jié)束戰(zhàn)斗?

美專家預(yù)測(cè):如果中國(guó)軍隊(duì)出現(xiàn)在烏克蘭,三天就能結(jié)束戰(zhàn)斗?

議紀(jì)史
2026-02-27 14:40:03
全線大漲!伊朗,突傳重磅!美國(guó),最新宣布!

全線大漲!伊朗,突傳重磅!美國(guó),最新宣布!

數(shù)據(jù)寶
2026-02-28 12:22:05
男子在300公里高速沿途累計(jì)發(fā)現(xiàn)62具貓狗尸體,其中不少身穿寵物衣服,推測(cè)系帶貓狗上高速不放車內(nèi)遭遇意外

男子在300公里高速沿途累計(jì)發(fā)現(xiàn)62具貓狗尸體,其中不少身穿寵物衣服,推測(cè)系帶貓狗上高速不放車內(nèi)遭遇意外

大風(fēng)新聞
2026-02-28 11:54:08
《夜王》在香港賣瘋了?看完全片,我極其冷靜地,寫下這篇文章

《夜王》在香港賣瘋了?看完全片,我極其冷靜地,寫下這篇文章

小丸子的娛樂圈
2026-02-27 14:56:37
2010年,重慶局長(zhǎng)文強(qiáng)執(zhí)行死刑前最后4小時(shí),保護(hù)傘文強(qiáng)雙面人生

2010年,重慶局長(zhǎng)文強(qiáng)執(zhí)行死刑前最后4小時(shí),保護(hù)傘文強(qiáng)雙面人生

北風(fēng)那個(gè)吹呀吹
2024-03-17 19:44:19
為什么說要得饒人處且饒人?網(wǎng)友:卡里幾千萬,為了5塊錢命沒了

為什么說要得饒人處且饒人?網(wǎng)友:卡里幾千萬,為了5塊錢命沒了

另子維愛讀史
2026-02-25 23:23:26
湖南村民被群毆!鋼管朝頭猛砸,原因曝光網(wǎng)友一邊倒:力挺肇事者

湖南村民被群毆!鋼管朝頭猛砸,原因曝光網(wǎng)友一邊倒:力挺肇事者

社會(huì)日日鮮
2026-02-27 16:27:42
以色列特拉維夫一建筑冒起濃煙

以色列特拉維夫一建筑冒起濃煙

環(huán)球網(wǎng)資訊
2026-02-28 15:55:59
普陀山不是隨便去的!這幾件事不懂,不僅容易白跑,還惹麻煩

普陀山不是隨便去的!這幾件事不懂,不僅容易白跑,還惹麻煩

千秋文化
2026-02-24 20:22:32
以色列宣布襲擊伊朗

以色列宣布襲擊伊朗

界面新聞
2026-02-28 14:22:46
速成車已開始反噬了,不知車企有沒有后悔?外資車趁機(jī)落井下石

速成車已開始反噬了,不知車企有沒有后悔?外資車趁機(jī)落井下石

柏銘銳談
2026-02-25 22:43:09
伊朗的投降王牌:只要美國(guó)松綁,出賣中國(guó)利益絕不會(huì)有半點(diǎn)猶豫

伊朗的投降王牌:只要美國(guó)松綁,出賣中國(guó)利益絕不會(huì)有半點(diǎn)猶豫

老范談史
2026-02-28 06:45:51
“王一博聊天記錄”熱搜爆了,樂華娛樂緊急聲明:嚴(yán)重失實(shí)!

“王一博聊天記錄”熱搜爆了,樂華娛樂緊急聲明:嚴(yán)重失實(shí)!

上觀新聞
2026-02-28 09:37:41
新加坡大滿貫賽:太遺憾!國(guó)乒女單1:3被淘汰,單局得2分無緣晉級(jí)

新加坡大滿貫賽:太遺憾!國(guó)乒女單1:3被淘汰,單局得2分無緣晉級(jí)

國(guó)乒二三事
2026-02-28 07:37:17
那條救了中國(guó)人餐桌的魚,你可能根本不知道它的故事

那條救了中國(guó)人餐桌的魚,你可能根本不知道它的故事

富貴說
2026-02-26 20:49:42
人可以狠心到什么程度?看網(wǎng)友講述,發(fā)現(xiàn)我真做不到這般絕

人可以狠心到什么程度?看網(wǎng)友講述,發(fā)現(xiàn)我真做不到這般絕

侃神評(píng)故事
2026-02-27 07:40:03
以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國(guó)并不會(huì)第一個(gè)翻臉

以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國(guó)并不會(huì)第一個(gè)翻臉

八斗小先生
2025-12-26 09:33:27
孫志浩患癌晚期,賈靜雯的女兒得50億遺產(chǎn),修杰楷“隔山”吃肥肉

孫志浩患癌晚期,賈靜雯的女兒得50億遺產(chǎn),修杰楷“隔山”吃肥肉

我心縱橫天地間
2026-02-27 22:01:41
想廢約基奇!季后賽快到了要清理對(duì)手?太臟!雷霆主帥還顛倒黑白

想廢約基奇!季后賽快到了要清理對(duì)手?太臟!雷霆主帥還顛倒黑白

你的籃球頻道
2026-02-28 14:51:35
馬斯克一語成真,全球爭(zhēng)搶的不是芯片,而是中國(guó)20萬一臺(tái)的變壓器

馬斯克一語成真,全球爭(zhēng)搶的不是芯片,而是中國(guó)20萬一臺(tái)的變壓器

議紀(jì)史
2026-02-27 15:15:03
2026-02-28 16:28:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12382文章數(shù) 142573關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

最高領(lǐng)袖辦公室附近遭襲 媒體:伊朗領(lǐng)導(dǎo)體系仍具韌性

頭條要聞

最高領(lǐng)袖辦公室附近遭襲 媒體:伊朗領(lǐng)導(dǎo)體系仍具韌性

體育要聞

球隊(duì)主力全報(bào)銷?頂風(fēng)擺爛演都不演了

娛樂要聞

疑似王一博被爆私密聊天記錄

財(cái)經(jīng)要聞

沈明高提共富建議 百姓持科技股國(guó)家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

本地
游戲
家居
公開課
軍事航空

本地新聞

津南好·四時(shí)總相宜

《無主之地4》新DLC發(fā)布 新強(qiáng)敵與超珍戰(zhàn)利品登場(chǎng)

家居要聞

素色肌理 品意式格調(diào)

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

新華社:美國(guó)伊朗要打了嗎

無障礙瀏覽 進(jìn)入關(guān)懷版