国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI能否「圣地巡禮」?多模態(tài)大模型全新評(píng)估基準(zhǔn)VIR-Bench來(lái)了

0
分享至



大家或許都有過(guò)這樣的體驗(yàn):

看完一部喜歡的動(dòng)漫,總會(huì)心血來(lái)潮地想去 “圣地巡禮”;刷到別人剪輯精美的旅行 vlog,也會(huì)忍不住收藏起來(lái),想著哪天親自走一遍同樣的路線(xiàn)。旅行與影像的結(jié)合,總是能勾起人們的探索欲望。那么,如果 AI 能自動(dòng)看懂這些旅行視頻,幫你解析出 “去了哪些地方”“順序是怎樣的”,甚至還能一鍵生成屬于你的旅行計(jì)劃,會(huì)不會(huì)很有趣?這不僅僅是阿宅的想象,更是多模態(tài)大模型在真實(shí)世界應(yīng)用中的一個(gè)重要場(chǎng)景。



正是在這樣的啟發(fā)下,來(lái)自日本早稻田大學(xué),CyberAgent 和奈良先端科學(xué)技術(shù)大學(xué)院大學(xué)的團(tuán)隊(duì)提出了一個(gè)全新的多模態(tài)大模型評(píng)估基準(zhǔn) VIR-Bench ,旨在評(píng)測(cè) AI 是否真的能理解旅行視頻中的地理位置與時(shí)間順序,從而支撐更復(fù)雜、更實(shí)用的應(yīng)用。用一句話(huà)來(lái)概括,這項(xiàng)研究就是在追問(wèn):“我從哪里來(lái)?我要到哪里去?”



  • 論文地址:https://www.arxiv.org/abs/2509.19002
  • GitHub:https://github.com/nlp-waseda/VIR-Bench

VIR-Bench 是什么?任務(wù)設(shè)計(jì)與數(shù)據(jù)集構(gòu)建

任務(wù)目標(biāo):行程還原(Itinerary Reconstruction)

在 VIR-Bench 中,給定一個(gè)旅行 vlog(在日本拍攝),模型要輸出訪(fǎng)問(wèn)順序圖(visiting order graph),也就是 “我去了哪些地點(diǎn)、按什么順序、地點(diǎn)之間有哪些包含關(guān)系” 的結(jié)構(gòu)化表示。

更具體地,這個(gè)訪(fǎng)問(wèn)順序圖是一個(gè)有向圖,其中:

  • 節(jié)點(diǎn)表示被訪(fǎng)問(wèn)的地點(diǎn),按層次分為 Prefecture,City,和 POI(Point of Interest)三層級(jí)。
  • 包含邊(Inclusion edge) 表示層次上的 “大地理單元包含小地理單元” 關(guān)系(例如某 POI 在某個(gè) City 里,某個(gè) City 在某個(gè) Prefecture 里)。
  • 轉(zhuǎn)移邊(Transition edge) 表示時(shí)間順序上的移動(dòng):從一個(gè)節(jié)點(diǎn)移動(dòng)到下一個(gè)節(jié)點(diǎn)(同層級(jí))表示旅行順序。



這意味著模型不僅要識(shí)別出 “我去過(guò)的地點(diǎn)”,還要判斷這些地點(diǎn)之間的時(shí)間順序,地理空間關(guān)系,進(jìn)而構(gòu)建出整個(gè)旅行路徑的結(jié)構(gòu)。此外,由于旅行視頻往往是自拍視角 / 行進(jìn)視角 / 風(fēng)光視角等交錯(cuò)出現(xiàn),模型需要在多樣視角、非連續(xù)畫(huà)面中“拼圖式” 理解,這進(jìn)一步提升了任務(wù)難度。

為便于模型訓(xùn)練與評(píng)測(cè),作者將這一復(fù)雜任務(wù)拆解為兩個(gè)子任務(wù):

1. 節(jié)點(diǎn)預(yù)測(cè):給定視頻,模型列出所有被訪(fǎng)問(wèn)的 Prefecture、City、POI。

2. 邊緣預(yù)測(cè):給定視頻 + 節(jié)點(diǎn)集合(節(jié)點(diǎn)標(biāo)簽順序被打亂),模型要判斷哪些節(jié)點(diǎn)之間存在包含邊,哪些節(jié)點(diǎn)之間存在轉(zhuǎn)移邊。即預(yù)測(cè)邊的集合。

通過(guò)這種分解方式,我們可以分別評(píng)估模型的地理識(shí)別能力與時(shí)序推理能力,以及它們?cè)趯?shí)際組合時(shí)的協(xié)同性。

數(shù)據(jù)集構(gòu)建:200 個(gè)旅行視頻 + 訪(fǎng)問(wèn)順序圖

為了支撐上述任務(wù),作者構(gòu)建了一個(gè)規(guī)模適中的專(zhuān)用數(shù)據(jù)集:

  • 視頻數(shù)量:200 個(gè)旅行 vlog(都在日本拍攝) 。
  • 地點(diǎn)覆蓋:共標(biāo)注出 3,689 個(gè) POI,分布在日本 43 個(gè)都道府縣(幾乎覆蓋全日本) 。
  • 標(biāo)注方式:每個(gè)視頻由人工注釋者識(shí)別每個(gè) POI 的起止時(shí)間、Google Maps 鏈接,并通過(guò)雙人校驗(yàn)后自動(dòng)構(gòu)建最終的訪(fǎng)問(wèn)順序圖。

作者在論文中還附上了詳細(xì)注釋指南、數(shù)據(jù)分布統(tǒng)計(jì)等信息(可見(jiàn) Appendix 部分)。

實(shí)驗(yàn)結(jié)果與洞察:當(dāng)前模型面臨的挑戰(zhàn)



在實(shí)驗(yàn)中,作者發(fā)現(xiàn)開(kāi)源模型整體上仍然落后于商用模型,尤其是在 POI 節(jié)點(diǎn)識(shí)別 和 轉(zhuǎn)移邊預(yù)測(cè) 這兩個(gè)子任務(wù)上差距尤為明顯。進(jìn)一步的分析顯示,轉(zhuǎn)移邊預(yù)測(cè)幾乎是所有模型的 “最難關(guān)”:不少模型要么直接誤解了任務(wù)要求,要么忽視了層級(jí)結(jié)構(gòu)的約束(只有同層級(jí)節(jié)點(diǎn)之間可以有轉(zhuǎn)移邊),結(jié)果往往接近隨機(jī)水平。

另一方面,模型規(guī)模的擴(kuò)展對(duì)性能提升具有顯著作用,尤其體現(xiàn)在邊緣預(yù)測(cè)上;而是否具備地理相關(guān)的預(yù)訓(xùn)練,則成為 POI 節(jié)點(diǎn)預(yù)測(cè)精度差異的關(guān)鍵因素。值得注意的是,思維鏈推理(Chain-of-Thought) 的效果在不同子任務(wù)中差別很大:在節(jié)點(diǎn)預(yù)測(cè)中提升有限,但在邊緣預(yù)測(cè)中卻能帶來(lái)顯著的改善。如果再進(jìn)一步結(jié)合音頻信息(例如 Gemini-2.5-Pro 的多模態(tài)輸入),效果提升尤為突出。

Ablation 實(shí)驗(yàn)也為我們揭示了模型性能提升的幾個(gè)關(guān)鍵方向:增加輸入幀數(shù)可以讓模型捕捉更完整的旅行線(xiàn)索,更長(zhǎng)的推理過(guò)程能幫助模型逐步還原旅行順序,而音頻的利用則能提供額外的語(yǔ)義提示。三者結(jié)合,共同推動(dòng)了模型在復(fù)雜時(shí)空理解任務(wù)上的進(jìn)步。

然而,即便有這些改進(jìn),整體性能仍遠(yuǎn)未達(dá)到可用水平。即使是當(dāng)前得分最高的 Gemini-2.5-Pro,在預(yù)測(cè)結(jié)果中依然存在大量錯(cuò)誤,這進(jìn)一步凸顯了多模態(tài)大模型在長(zhǎng)程地理與時(shí)間理解上的巨大挑戰(zhàn)。



表1: 節(jié)點(diǎn)預(yù)測(cè)的評(píng)估結(jié)果



表2: 邊緣預(yù)測(cè)的評(píng)估結(jié)果

總而言之,VIR-Bench 不僅是一個(gè)新的評(píng)測(cè)基準(zhǔn),更是為未來(lái)諸多應(yīng)用打開(kāi)了一扇窗口。通過(guò)在旅行視頻中重建行程順序,它逼迫模型同時(shí)理解 “地理位置 + 時(shí)間順序”,這與機(jī)器人如何理解世界、規(guī)劃路徑,以及自動(dòng)駕駛系統(tǒng)如何在動(dòng)態(tài)環(huán)境中進(jìn)行決策高度契合。

這一研究讓我們看清:當(dāng)前的大模型在長(zhǎng)程推理和時(shí)空理解上仍有明顯不足,但也指明了進(jìn)化的方向 —— 更強(qiáng)的地理空間感知、更可靠的時(shí)間推理,以及多模態(tài)信息的深度融合。當(dāng)這些能力逐漸成熟,AI 將不再只是 “看視頻”,而是真正具備 “在世界中行動(dòng)” 的潛力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中央5臺(tái)直播乒乓球時(shí)間表:3月1日CCTV5節(jié)目單,國(guó)乒沖擊冠軍!

中央5臺(tái)直播乒乓球時(shí)間表:3月1日CCTV5節(jié)目單,國(guó)乒沖擊冠軍!

皮皮觀天下
2026-03-01 04:59:08
在美華人感慨:凡是移民美國(guó)的華人精英,不出兩代,就變成普通人

在美華人感慨:凡是移民美國(guó)的華人精英,不出兩代,就變成普通人

鯨探所長(zhǎng)
2026-02-26 19:27:43
男子向7歲兒子撒謊去走親戚,回京上班后內(nèi)心不舍,折返老家700公里接孩子:不該欺騙孩子,也不想讓他留下童年創(chuàng)傷

男子向7歲兒子撒謊去走親戚,回京上班后內(nèi)心不舍,折返老家700公里接孩子:不該欺騙孩子,也不想讓他留下童年創(chuàng)傷

觀威海
2026-02-27 18:27:11
伊朗媒體稱(chēng)至少35枚導(dǎo)彈“成功襲擊”以色列

伊朗媒體稱(chēng)至少35枚導(dǎo)彈“成功襲擊”以色列

界面新聞
2026-02-28 21:43:27
1:0!哈蘭德缺陣,新援一擊制勝,曼城斬6連勝,壓力甩給了阿森納

1:0!哈蘭德缺陣,新援一擊制勝,曼城斬6連勝,壓力甩給了阿森納

阿超他的體育圈
2026-03-01 03:43:42
伊朗發(fā)射法塔赫高超音速導(dǎo)彈

伊朗發(fā)射法塔赫高超音速導(dǎo)彈

界面新聞
2026-02-28 23:51:14
“就地避險(xiǎn),等候通知”,伊朗華聯(lián)會(huì)聯(lián)絡(luò)員最新發(fā)聲:有300多在伊華人聯(lián)系撤離,已自費(fèi)準(zhǔn)備多輛大巴

“就地避險(xiǎn),等候通知”,伊朗華聯(lián)會(huì)聯(lián)絡(luò)員最新發(fā)聲:有300多在伊華人聯(lián)系撤離,已自費(fèi)準(zhǔn)備多輛大巴

極目新聞
2026-02-28 18:30:16
伊朗宣布啟動(dòng)“誠(chéng)實(shí)承諾4號(hào)”大規(guī)模軍事行動(dòng)

伊朗宣布啟動(dòng)“誠(chéng)實(shí)承諾4號(hào)”大規(guī)模軍事行動(dòng)

每日經(jīng)濟(jì)新聞
2026-02-28 18:47:10
飛往迪拜、利雅得等方向的國(guó)內(nèi)三大航司航班返航

飛往迪拜、利雅得等方向的國(guó)內(nèi)三大航司航班返航

看看新聞Knews
2026-03-01 00:35:03
美伊開(kāi)戰(zhàn),卻被中國(guó)衛(wèi)星盯死!“天眼”24小時(shí)掃描,美軍零秘密

美伊開(kāi)戰(zhàn),卻被中國(guó)衛(wèi)星盯死!“天眼”24小時(shí)掃描,美軍零秘密

書(shū)紀(jì)文譚
2026-02-28 19:28:21
SpaceX貨運(yùn)龍飛船圓滿(mǎn)完成CRS-33任務(wù)

SpaceX貨運(yùn)龍飛船圓滿(mǎn)完成CRS-33任務(wù)

NASA愛(ài)好者
2026-02-28 03:27:08
50歲陳坤與董潔牽手一月后現(xiàn)狀曝光,網(wǎng)友不意外

50歲陳坤與董潔牽手一月后現(xiàn)狀曝光,網(wǎng)友不意外

阿坹武器裝備科普
2026-02-26 12:00:47
卸下頭巾,奔赴街頭:伊朗女孩的勇氣與抗?fàn)?>
    </a>
        <h3>
      <a href=老馬拉車(chē)莫少裝
2026-01-14 18:36:52
剛剛,中東炸了,全球市場(chǎng)要變天!

剛剛,中東炸了,全球市場(chǎng)要變天!

鳳凰網(wǎng)財(cái)經(jīng)
2026-02-28 18:40:07
美國(guó)正式下場(chǎng)了,大場(chǎng)面來(lái)了,伊朗的表現(xiàn)可以名譽(yù)平反了吧

美國(guó)正式下場(chǎng)了,大場(chǎng)面來(lái)了,伊朗的表現(xiàn)可以名譽(yù)平反了吧

明人明察
2026-02-28 19:47:41
因遭受美國(guó)和以色列的軍事襲擊,伊朗全國(guó)足球賽事停擺

因遭受美國(guó)和以色列的軍事襲擊,伊朗全國(guó)足球賽事停擺

懂球帝
2026-02-28 21:46:40
伊朗最高領(lǐng)袖哈梅內(nèi)伊將很快發(fā)表講話(huà)

伊朗最高領(lǐng)袖哈梅內(nèi)伊將很快發(fā)表講話(huà)

齊魯壹點(diǎn)
2026-02-28 23:51:35
打臉全聯(lián)盟!原來(lái)火箭真正的建隊(duì)基石,是被罵了一賽季的謝潑德!

打臉全聯(lián)盟!原來(lái)火箭真正的建隊(duì)基石,是被罵了一賽季的謝潑德!

田先生籃球
2026-02-28 12:26:37
伊朗革命衛(wèi)隊(duì)宣布大規(guī)模軍事行動(dòng)

伊朗革命衛(wèi)隊(duì)宣布大規(guī)模軍事行動(dòng)

界面新聞
2026-02-28 18:18:55
中國(guó)男籃vs中國(guó)臺(tái)北前瞻:趙睿領(lǐng)銜三控衛(wèi)+胡金秋成關(guān)鍵 劍指連勝

中國(guó)男籃vs中國(guó)臺(tái)北前瞻:趙睿領(lǐng)銜三控衛(wèi)+胡金秋成關(guān)鍵 劍指連勝

醉臥浮生
2026-03-01 04:59:46
2026-03-01 05:36:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
12382文章數(shù) 142573關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話(huà)

頭條要聞

伊朗媒體公布反擊美軍軍事行動(dòng)結(jié)果

頭條要聞

伊朗媒體公布反擊美軍軍事行動(dòng)結(jié)果

體育要聞

球隊(duì)主力全報(bào)銷(xiāo)?頂風(fēng)擺爛演都不演了

娛樂(lè)要聞

周杰倫兒子正面照曝光,與父親好像

財(cái)經(jīng)要聞

沖突爆發(fā) 市場(chǎng)變天?

汽車(chē)要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

本地
藝術(shù)
親子
健康
時(shí)尚

本地新聞

津南好·四時(shí)總相宜

藝術(shù)要聞

驚艷!這位天使般的女子與油畫(huà)讓人心動(dòng)不已!

親子要聞

嬰兒吃的“洋”輔食,九成靠代工貼牌?涉及上市公司

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車(chē)上班嗎?

這6款發(fā)色居然這么火?50張圖可以直接給tony

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版