国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI能否「圣地巡禮」?多模態(tài)大模型全新評(píng)估基準(zhǔn)VIR-Bench來(lái)了

0
分享至



大家或許都有過(guò)這樣的體驗(yàn):

看完一部喜歡的動(dòng)漫,總會(huì)心血來(lái)潮地想去 “圣地巡禮”;刷到別人剪輯精美的旅行 vlog,也會(huì)忍不住收藏起來(lái),想著哪天親自走一遍同樣的路線。旅行與影像的結(jié)合,總是能勾起人們的探索欲望。那么,如果 AI 能自動(dòng)看懂這些旅行視頻,幫你解析出 “去了哪些地方”“順序是怎樣的”,甚至還能一鍵生成屬于你的旅行計(jì)劃,會(huì)不會(huì)很有趣?這不僅僅是阿宅的想象,更是多模態(tài)大模型在真實(shí)世界應(yīng)用中的一個(gè)重要場(chǎng)景。



正是在這樣的啟發(fā)下,來(lái)自日本早稻田大學(xué),CyberAgent 和奈良先端科學(xué)技術(shù)大學(xué)院大學(xué)的團(tuán)隊(duì)提出了一個(gè)全新的多模態(tài)大模型評(píng)估基準(zhǔn) VIR-Bench ,旨在評(píng)測(cè) AI 是否真的能理解旅行視頻中的地理位置與時(shí)間順序,從而支撐更復(fù)雜、更實(shí)用的應(yīng)用。用一句話來(lái)概括,這項(xiàng)研究就是在追問(wèn):“我從哪里來(lái)?我要到哪里去?”



  • 論文地址:https://www.arxiv.org/abs/2509.19002
  • GitHub:https://github.com/nlp-waseda/VIR-Bench

VIR-Bench 是什么?任務(wù)設(shè)計(jì)與數(shù)據(jù)集構(gòu)建

任務(wù)目標(biāo):行程還原(Itinerary Reconstruction)

在 VIR-Bench 中,給定一個(gè)旅行 vlog(在日本拍攝),模型要輸出訪問(wèn)順序圖(visiting order graph),也就是 “我去了哪些地點(diǎn)、按什么順序、地點(diǎn)之間有哪些包含關(guān)系” 的結(jié)構(gòu)化表示。

更具體地,這個(gè)訪問(wèn)順序圖是一個(gè)有向圖,其中:

  • 節(jié)點(diǎn)表示被訪問(wèn)的地點(diǎn),按層次分為 Prefecture,City,和 POI(Point of Interest)三層級(jí)。
  • 包含邊(Inclusion edge) 表示層次上的 “大地理單元包含小地理單元” 關(guān)系(例如某 POI 在某個(gè) City 里,某個(gè) City 在某個(gè) Prefecture 里)。
  • 轉(zhuǎn)移邊(Transition edge) 表示時(shí)間順序上的移動(dòng):從一個(gè)節(jié)點(diǎn)移動(dòng)到下一個(gè)節(jié)點(diǎn)(同層級(jí))表示旅行順序。



這意味著模型不僅要識(shí)別出 “我去過(guò)的地點(diǎn)”,還要判斷這些地點(diǎn)之間的時(shí)間順序,地理空間關(guān)系,進(jìn)而構(gòu)建出整個(gè)旅行路徑的結(jié)構(gòu)。此外,由于旅行視頻往往是自拍視角 / 行進(jìn)視角 / 風(fēng)光視角等交錯(cuò)出現(xiàn),模型需要在多樣視角、非連續(xù)畫(huà)面中“拼圖式” 理解,這進(jìn)一步提升了任務(wù)難度。

為便于模型訓(xùn)練與評(píng)測(cè),作者將這一復(fù)雜任務(wù)拆解為兩個(gè)子任務(wù):

1. 節(jié)點(diǎn)預(yù)測(cè):給定視頻,模型列出所有被訪問(wèn)的 Prefecture、City、POI。

2. 邊緣預(yù)測(cè):給定視頻 + 節(jié)點(diǎn)集合(節(jié)點(diǎn)標(biāo)簽順序被打亂),模型要判斷哪些節(jié)點(diǎn)之間存在包含邊,哪些節(jié)點(diǎn)之間存在轉(zhuǎn)移邊。即預(yù)測(cè)邊的集合。

通過(guò)這種分解方式,我們可以分別評(píng)估模型的地理識(shí)別能力與時(shí)序推理能力,以及它們?cè)趯?shí)際組合時(shí)的協(xié)同性。

數(shù)據(jù)集構(gòu)建:200 個(gè)旅行視頻 + 訪問(wèn)順序圖

為了支撐上述任務(wù),作者構(gòu)建了一個(gè)規(guī)模適中的專用數(shù)據(jù)集:

  • 視頻數(shù)量:200 個(gè)旅行 vlog(都在日本拍攝) 。
  • 地點(diǎn)覆蓋:共標(biāo)注出 3,689 個(gè) POI,分布在日本 43 個(gè)都道府縣(幾乎覆蓋全日本) 。
  • 標(biāo)注方式:每個(gè)視頻由人工注釋者識(shí)別每個(gè) POI 的起止時(shí)間、Google Maps 鏈接,并通過(guò)雙人校驗(yàn)后自動(dòng)構(gòu)建最終的訪問(wèn)順序圖。

作者在論文中還附上了詳細(xì)注釋指南、數(shù)據(jù)分布統(tǒng)計(jì)等信息(可見(jiàn) Appendix 部分)。

實(shí)驗(yàn)結(jié)果與洞察:當(dāng)前模型面臨的挑戰(zhàn)



在實(shí)驗(yàn)中,作者發(fā)現(xiàn)開(kāi)源模型整體上仍然落后于商用模型,尤其是在 POI 節(jié)點(diǎn)識(shí)別 和 轉(zhuǎn)移邊預(yù)測(cè) 這兩個(gè)子任務(wù)上差距尤為明顯。進(jìn)一步的分析顯示,轉(zhuǎn)移邊預(yù)測(cè)幾乎是所有模型的 “最難關(guān)”:不少模型要么直接誤解了任務(wù)要求,要么忽視了層級(jí)結(jié)構(gòu)的約束(只有同層級(jí)節(jié)點(diǎn)之間可以有轉(zhuǎn)移邊),結(jié)果往往接近隨機(jī)水平。

另一方面,模型規(guī)模的擴(kuò)展對(duì)性能提升具有顯著作用,尤其體現(xiàn)在邊緣預(yù)測(cè)上;而是否具備地理相關(guān)的預(yù)訓(xùn)練,則成為 POI 節(jié)點(diǎn)預(yù)測(cè)精度差異的關(guān)鍵因素。值得注意的是,思維鏈推理(Chain-of-Thought) 的效果在不同子任務(wù)中差別很大:在節(jié)點(diǎn)預(yù)測(cè)中提升有限,但在邊緣預(yù)測(cè)中卻能帶來(lái)顯著的改善。如果再進(jìn)一步結(jié)合音頻信息(例如 Gemini-2.5-Pro 的多模態(tài)輸入),效果提升尤為突出。

Ablation 實(shí)驗(yàn)也為我們揭示了模型性能提升的幾個(gè)關(guān)鍵方向:增加輸入幀數(shù)可以讓模型捕捉更完整的旅行線索,更長(zhǎng)的推理過(guò)程能幫助模型逐步還原旅行順序,而音頻的利用則能提供額外的語(yǔ)義提示。三者結(jié)合,共同推動(dòng)了模型在復(fù)雜時(shí)空理解任務(wù)上的進(jìn)步。

然而,即便有這些改進(jìn),整體性能仍遠(yuǎn)未達(dá)到可用水平。即使是當(dāng)前得分最高的 Gemini-2.5-Pro,在預(yù)測(cè)結(jié)果中依然存在大量錯(cuò)誤,這進(jìn)一步凸顯了多模態(tài)大模型在長(zhǎng)程地理與時(shí)間理解上的巨大挑戰(zhàn)。



表1: 節(jié)點(diǎn)預(yù)測(cè)的評(píng)估結(jié)果



表2: 邊緣預(yù)測(cè)的評(píng)估結(jié)果

總而言之,VIR-Bench 不僅是一個(gè)新的評(píng)測(cè)基準(zhǔn),更是為未來(lái)諸多應(yīng)用打開(kāi)了一扇窗口。通過(guò)在旅行視頻中重建行程順序,它逼迫模型同時(shí)理解 “地理位置 + 時(shí)間順序”,這與機(jī)器人如何理解世界、規(guī)劃路徑,以及自動(dòng)駕駛系統(tǒng)如何在動(dòng)態(tài)環(huán)境中進(jìn)行決策高度契合。

這一研究讓我們看清:當(dāng)前的大模型在長(zhǎng)程推理和時(shí)空理解上仍有明顯不足,但也指明了進(jìn)化的方向 —— 更強(qiáng)的地理空間感知、更可靠的時(shí)間推理,以及多模態(tài)信息的深度融合。當(dāng)這些能力逐漸成熟,AI 將不再只是 “看視頻”,而是真正具備 “在世界中行動(dòng)” 的潛力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
王祉怡2-1因達(dá)農(nóng)進(jìn)決賽,對(duì)手渾身是球,提供戰(zhàn)勝安洗瑩的新打法

王祉怡2-1因達(dá)農(nóng)進(jìn)決賽,對(duì)手渾身是球,提供戰(zhàn)勝安洗瑩的新打法

真理是我親戚
2025-12-20 12:44:26
王陽(yáng):盡管我和蔣欣有過(guò)戀情,但余生絕不會(huì)辜負(fù)苦等我6年的高斯

王陽(yáng):盡管我和蔣欣有過(guò)戀情,但余生絕不會(huì)辜負(fù)苦等我6年的高斯

小熊侃史
2025-12-20 10:55:51
牛股尾盤(pán)瞬間閃崩12個(gè)點(diǎn),33萬(wàn)股民懵了!網(wǎng)友調(diào)侃:炒股千萬(wàn)別用曲面屏;多次嚴(yán)重異動(dòng)為何不停牌?公司回應(yīng)

牛股尾盤(pán)瞬間閃崩12個(gè)點(diǎn),33萬(wàn)股民懵了!網(wǎng)友調(diào)侃:炒股千萬(wàn)別用曲面屏;多次嚴(yán)重異動(dòng)為何不停牌?公司回應(yīng)

每日經(jīng)濟(jì)新聞
2025-12-20 16:38:14
我外交部突然發(fā)出警告,如果外媒消息屬實(shí),中日事態(tài)將會(huì)相當(dāng)嚴(yán)重

我外交部突然發(fā)出警告,如果外媒消息屬實(shí),中日事態(tài)將會(huì)相當(dāng)嚴(yán)重

芊芊子吟
2025-12-20 14:07:18
丁嘉麗:我這輩子最后悔的決定,就是捧紅孫紅雷這個(gè)“白眼狼”

丁嘉麗:我這輩子最后悔的決定,就是捧紅孫紅雷這個(gè)“白眼狼”

小熊侃史
2025-12-17 09:46:44
年度最佳運(yùn)動(dòng)員:王楚欽奪魁,孫穎莎獲三大獎(jiǎng),但群眾眼睛雪亮

年度最佳運(yùn)動(dòng)員:王楚欽奪魁,孫穎莎獲三大獎(jiǎng),但群眾眼睛雪亮

白面書(shū)誏
2025-12-18 17:16:17
68歲青島市人大常委會(huì)原主任被查,今年已有61名中管干部落馬

68歲青島市人大常委會(huì)原主任被查,今年已有61名中管干部落馬

上觀新聞
2025-12-19 18:57:02
日本加息落地:暴跌沒(méi)有,麻煩在后頭

日本加息落地:暴跌沒(méi)有,麻煩在后頭

吳曉波頻道
2025-12-20 08:31:19
1984年,葉劍英病情危重,中央已安排追悼會(huì),危機(jī)時(shí)刻鐘南山一舉扭轉(zhuǎn)局面

1984年,葉劍英病情危重,中央已安排追悼會(huì),危機(jī)時(shí)刻鐘南山一舉扭轉(zhuǎn)局面

文史明鑒
2025-12-19 18:18:20
不賣!不摘!旅順一棵35年樹(shù)齡的圓棗樹(shù)成8種鳥(niǎo)類專屬“冬糧倉(cāng)”

不賣!不摘!旅順一棵35年樹(shù)齡的圓棗樹(shù)成8種鳥(niǎo)類專屬“冬糧倉(cāng)”

半島晨報(bào)
2025-12-20 09:39:58
上海城投(集團(tuán))有限公司原黨委副書(shū)記楊茂鐸被查

上海城投(集團(tuán))有限公司原黨委副書(shū)記楊茂鐸被查

界面新聞
2025-12-19 22:32:12
男子日租房?jī)?nèi)吸食“笑氣”后跳樓身亡 父母起訴經(jīng)營(yíng)者索賠近30萬(wàn)元 一審被駁回

男子日租房?jī)?nèi)吸食“笑氣”后跳樓身亡 父母起訴經(jīng)營(yíng)者索賠近30萬(wàn)元 一審被駁回

紅星新聞
2025-12-20 18:05:19
方舒女兒:母親因屠洪剛舍棄糟糠之夫,她的優(yōu)秀為爸爸爭(zhēng)了口氣

方舒女兒:母親因屠洪剛舍棄糟糠之夫,她的優(yōu)秀為爸爸爭(zhēng)了口氣

白面書(shū)誏
2025-12-10 16:23:20
征服中年女人,不要用套路。兩個(gè)核心需求滿足一個(gè)她就認(rèn)定你!

征服中年女人,不要用套路。兩個(gè)核心需求滿足一個(gè)她就認(rèn)定你!

游戲收藏指南
2025-12-11 08:55:51
優(yōu)質(zhì)“蛋白質(zhì)”排行榜!牛奶倒數(shù)第一,蝦肉才排第5,建議了解

優(yōu)質(zhì)“蛋白質(zhì)”排行榜!牛奶倒數(shù)第一,蝦肉才排第5,建議了解

岐黃傳人孫大夫
2025-12-20 10:00:03
錢可以買來(lái)忠誠(chéng)

錢可以買來(lái)忠誠(chéng)

求實(shí)處
2025-12-19 23:32:45
臺(tái)灣統(tǒng)一方式可能出人意料:77年前毛主席的奇謀,是最佳解決方案

臺(tái)灣統(tǒng)一方式可能出人意料:77年前毛主席的奇謀,是最佳解決方案

抽象派大師
2025-12-20 16:56:28
45歲張柏芝稱已立好遺囑,“照片和衣服也挑好了,我隨時(shí)都可以走”

45歲張柏芝稱已立好遺囑,“照片和衣服也挑好了,我隨時(shí)都可以走”

都市快報(bào)橙柿互動(dòng)
2025-12-20 16:12:30
南博流出畫(huà)卷簽字院長(zhǎng)回應(yīng):非經(jīng)我手鑒定,以調(diào)查為準(zhǔn)

南博流出畫(huà)卷簽字院長(zhǎng)回應(yīng):非經(jīng)我手鑒定,以調(diào)查為準(zhǔn)

正在新聞
2025-12-19 23:41:52
天吶!原來(lái)大錢是這么來(lái)的!網(wǎng)友:難怪我螺絲打到冒煙都賺不到錢

天吶!原來(lái)大錢是這么來(lái)的!網(wǎng)友:難怪我螺絲打到冒煙都賺不到錢

夜深愛(ài)雜談
2025-12-20 17:40:11
2025-12-20 22:23:01
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142514關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來(lái)

頭條要聞

網(wǎng)友稱"燒傷超人阿寶"補(bǔ)繳稅款84萬(wàn)余元 當(dāng)事人發(fā)聲

頭條要聞

網(wǎng)友稱"燒傷超人阿寶"補(bǔ)繳稅款84萬(wàn)余元 當(dāng)事人發(fā)聲

體育要聞

我開(kāi)了20年大巴,現(xiàn)在是一名西甲主帥

娛樂(lè)要聞

2026央視跨年晚會(huì)陣容曝光,豪華陣仗

財(cái)經(jīng)要聞

求解“地方財(cái)政困難”

汽車要聞

嵐圖推進(jìn)L3量產(chǎn)測(cè)試 已完成11萬(wàn)公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

親子
時(shí)尚
藝術(shù)
健康
公開(kāi)課

親子要聞

韓紅為小洛熙發(fā)聲:錯(cuò)得太離譜!尸檢報(bào)告曝光,5月嬰兒本可痊愈

真愛(ài)大牌 || 用了5年才敢說(shuō),多虧它幫我守住了發(fā)際線

藝術(shù)要聞

新地標(biāo)!溫州豎起一座“五指山”

這些新療法,讓化療不再那么痛苦

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版