国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

VL-LN Bench:模擬「邊走邊問(wèn)找具體目標(biāo)」的真實(shí)導(dǎo)航場(chǎng)景

0
分享至



本工作由上海人工智能實(shí)驗(yàn)室、中國(guó)科學(xué)技術(shù)大學(xué)、浙江大學(xué)、香港大學(xué) 的研究者們共同完成。


https://mp.weixin.qq.com/s/Sbac5L2fUbnF2TBBW8O1xg?click_id=48



  • 論文標(biāo)題:VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs
  • 項(xiàng)目主頁(yè):https://0309hws.github.io/VL-LN.github.io/
  • ArXiv 論文:https://arxiv.org/abs/2512.22342
  • Hugging Face 數(shù)據(jù)集: https://huggingface.co/datasets/InternRobotics/VL-LN-Bench
  • Hugging Face 模型:https://huggingface.co/InternRobotics/VL-LN-Bench-basemodel
  • GitHub 代碼庫(kù):https://github.com/InternRobotics/VL-LN

交互式實(shí)例導(dǎo)航任務(wù)

(Interactive Instance Goal Navigation, IIGN)

如果將一臺(tái)在視覺(jué)語(yǔ)言導(dǎo)航(VLN)任務(wù)中表現(xiàn)優(yōu)異的機(jī)器人直接搬進(jìn)家庭場(chǎng)景,往往會(huì)遇到不少實(shí)際問(wèn)題。

首先是使用門(mén)檻偏高:傳統(tǒng) VLN 需要用戶給出又長(zhǎng)又精確的路線式指令,例如 “從門(mén)口直走三步,看到門(mén)右轉(zhuǎn),再往前……”,這會(huì)顯著增加溝通成本,降低日常使用體驗(yàn)。

相比之下,人們更期待一種更自然的交互方式,比如只用隨口一句 “找到我的背包” 即可。這樣的設(shè)定更接近目標(biāo)物體導(dǎo)航(ObjectNav)任務(wù),但它也存在明顯不足:機(jī)器人只會(huì)找到場(chǎng)景內(nèi)任意一個(gè)背包交差,而無(wú)法定位用戶真正需要的書(shū)包,這顯然無(wú)法滿足需求。

正因?yàn)檎鎸?shí)場(chǎng)景里用戶的表達(dá)常常簡(jiǎn)短且含糊,而機(jī)器人又必須把目標(biāo)精確落實(shí)到某一個(gè)具體實(shí)例上,交互式實(shí)例導(dǎo)航才顯得格外關(guān)鍵。機(jī)器人既不能指望用戶一開(kāi)始就把所有信息交代清楚,也不能用 “找到同類就算完成” 的方式草草應(yīng)付;相反,它應(yīng)在探索過(guò)程中主動(dòng)提問(wèn)、逐步澄清歧義,像人一樣把 “到底是哪一個(gè)” 問(wèn)明白,再高效準(zhǔn)確地完成用戶的需求。



交互式實(shí)例導(dǎo)航示例:用戶要求機(jī)器人找到場(chǎng)景中某一張凳子(綠框),但存在大量相似干擾項(xiàng)(紅框),因此機(jī)器人需在探索中結(jié)合觀察主動(dòng)提問(wèn),逐步縮小候選范圍,直到鎖定目標(biāo)。

構(gòu)建 VL-LN 基準(zhǔn):

面向 IIGN 任務(wù)的自動(dòng)化數(shù)據(jù)收集及評(píng)測(cè)

語(yǔ)言交互是人們?nèi)粘=换プ畛R?jiàn)的形式之一,具身智能體要更好地融入人類生活也需要具有進(jìn)行這種高效的信息交流形式的能力。不同于傳統(tǒng) VLN 僅僅聚焦 “導(dǎo)航動(dòng)作(Navigation)執(zhí)行得好不好”,VL-LN 還關(guān)注機(jī)器人能否在導(dǎo)航過(guò)程中與人類進(jìn)行高效的語(yǔ)言交互(Language+Navigation)來(lái)提升任務(wù)的成功率與效率。

為此,VL-LN 面向交互式實(shí)例導(dǎo)航任務(wù)構(gòu)建了一套自動(dòng)化數(shù)據(jù)收集管線,并依托 InternVLA-N1 標(biāo)準(zhǔn)化模型訓(xùn)練評(píng)測(cè)。

自動(dòng)化數(shù)據(jù)收集管線



交互式實(shí)例導(dǎo)航數(shù)據(jù)收集流程

數(shù)據(jù)收集包含三個(gè)步驟,作者首先整理了場(chǎng)景元數(shù)據(jù),進(jìn)而生成能用于在線采樣的序列(episode)數(shù)據(jù),最后在規(guī)則驅(qū)動(dòng)的交互機(jī)制下批量采集交互導(dǎo)航訓(xùn)練軌跡(trajectory),具體內(nèi)容包括:

場(chǎng)景元數(shù)據(jù)處理:基于 MMScan 對(duì) MP3D 場(chǎng)景的標(biāo)注信息,將按房間分散的物體信息整合成全屋級(jí)的元數(shù)據(jù),主要包括兩個(gè)字典:目標(biāo)實(shí)例字典(instance dictionary,存儲(chǔ)每個(gè)物體的空間關(guān)系、屬性等基本信息)和區(qū)域字典(region dictionary,存儲(chǔ)房間的位置、物體等信息)

序列生成:每個(gè)有效序列由起始位姿、導(dǎo)航指令、目標(biāo)實(shí)例的可停止視點(diǎn)三個(gè)主要信息組成。針對(duì)每一個(gè)目標(biāo)實(shí)例作者均提供兩個(gè)版本的導(dǎo)航指令。一種導(dǎo)航指令只有目標(biāo)實(shí)例的類別(Partial instruction,用于交互式實(shí)例導(dǎo)航任務(wù),必須靠對(duì)話消歧),另一種導(dǎo)航指令是能在場(chǎng)景內(nèi)唯一鎖定目標(biāo)實(shí)例的完整描述(Full instruction,可用于評(píng)測(cè)訓(xùn)練非交互的任務(wù))。可停止視點(diǎn)(view point)指機(jī)器人在導(dǎo)航過(guò)程中可以合法停止并判定 “已找到目標(biāo)” 的一組視點(diǎn)位置。

交互導(dǎo)航軌跡采集:該階段主要采用一個(gè)集成了基于邊界點(diǎn)的探索算法(Frontier-Based Exploration)與目標(biāo)實(shí)例分割器的智能體。在數(shù)據(jù)采集過(guò)程中,智能體除探索未知區(qū)域外,還會(huì)按規(guī)則主動(dòng)提出三類問(wèn)題:屬性(目標(biāo)實(shí)例長(zhǎng)什么樣?)、路線(如何到達(dá)目標(biāo)?)和目標(biāo)消歧(是否為眼前的實(shí)例?),從而生成相應(yīng)的交互式導(dǎo)航軌跡。

通過(guò)該流程,作者構(gòu)建了大規(guī)模交互式實(shí)例導(dǎo)航數(shù)據(jù)以支撐模型訓(xùn)練。下圖給出了數(shù)據(jù)的總體統(tǒng)計(jì)。作為首個(gè)大規(guī)模交互式實(shí)例導(dǎo)航數(shù)據(jù)集,其主要優(yōu)勢(shì)在于:

  • 規(guī)模:40k導(dǎo)航序列,相比現(xiàn)有交互導(dǎo)航數(shù)據(jù)集(約7k)提升一個(gè)量級(jí)
  • 多樣性:覆蓋150+物體類別與3類問(wèn)答(屬性 / 位置 / 消歧),自由組合形成豐富訓(xùn)練樣本;
  • 難度覆蓋:包含長(zhǎng)時(shí)程軌跡(steps > 300)與多輪對(duì)話樣本(dialog turns > 5),覆蓋復(fù)雜困難場(chǎng)景。



第一行分別展示了每條軌跡的路徑步數(shù)、對(duì)話輪數(shù)和每輪對(duì)話長(zhǎng)度的頻率直方圖;第二行展示了問(wèn)題類型與目標(biāo)類型的統(tǒng)計(jì)結(jié)果,以及對(duì)話中高頻詞的詞云圖。

NPC 支撐的自動(dòng)化在線評(píng)測(cè)基準(zhǔn)

為了評(píng)測(cè)智能體完成交互式實(shí)例導(dǎo)航(IIGN)的能力,并與非交互式實(shí)例導(dǎo)航(IGN)進(jìn)行對(duì)比,VL-LN 基準(zhǔn)提供了可用于測(cè)試兩類任務(wù)的測(cè)試集。針對(duì)交互式實(shí)例導(dǎo)航的自動(dòng)化評(píng)測(cè),VL-LN 還實(shí)現(xiàn)了一個(gè)由 GPT-4o 驅(qū)動(dòng)的 NPC,它能夠回答智能體在導(dǎo)航過(guò)程中提出的問(wèn)題。此外,為了評(píng)估智能體提問(wèn)效率,VL-LN 定義新的指標(biāo) MSP(Mean Success Progress),用于衡量主動(dòng)對(duì)話帶來(lái)的增益。

從結(jié)果到原因:

交互式實(shí)例導(dǎo)航的能力與挑戰(zhàn)

通過(guò)使用不同的數(shù)據(jù)對(duì) Qwen2.5-VL-7B-Instruct 進(jìn)行微調(diào),作者訓(xùn)練了三個(gè)模型。具體訓(xùn)練所使用的數(shù)據(jù)如下:

  • VLLN-O (object):VLN + ObjectNav 軌跡數(shù)據(jù)
  • VLLN-I (instance):VLN + ObjectNav + IGN 軌跡數(shù)據(jù)
  • VLLN-D (dialog):VLN + ObjectNav + IIGN 軌跡數(shù)據(jù)(論文的核心模型)

評(píng)測(cè)同時(shí)覆蓋兩類任務(wù):

  • IIGN(交互式實(shí)例導(dǎo)航):允許提問(wèn)(對(duì)話輪數(shù)限制在 5 輪)
  • IGN(實(shí)例導(dǎo)航):不允許對(duì)話,但提供足以唯一鎖定目標(biāo)實(shí)例的全量指令

實(shí)驗(yàn)結(jié)果如下表所示



為了進(jìn)一步確定模型在交互式實(shí)例導(dǎo)航任務(wù)上的性能和瓶頸,研究團(tuán)隊(duì)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行系統(tǒng)性復(fù)盤(pán),并將實(shí)驗(yàn)結(jié)論總結(jié)如下:



VL-LN Bench 錯(cuò)誤類型分布



不同對(duì)話輪次上限下的 IIGN 性能

對(duì)話消歧在任務(wù)存在歧義時(shí)顯著提升成功率:在 IIGN 與 IGN 上,具備提問(wèn)能力的 VLLN-D 成功率均高于僅會(huì)探索的 VLLN-I,成功率分別提升6.0%2.6%。在對(duì)話輪次上限消融中,隨著上限由0增至5,VLLN-D 的 SR 由15.4%提升至20.2%

物體 — 圖像對(duì)齊是核心瓶頸:無(wú)論在 IIGN 還是 IGN 任務(wù)中,約 70% 的失敗都源于目標(biāo)未被成功檢測(cè),說(shuō)明性能瓶頸主要不在導(dǎo)航策略,而在于目標(biāo)實(shí)例與圖像觀測(cè)之間的對(duì)齊能力。

相較于全量信息設(shè)置,問(wèn)答機(jī)制帶來(lái)的信息增益仍然有限:VLLN-D 在 IIGN 上的成功率為 20.2%,低于其在無(wú)法提問(wèn)、但具備全量信息的 IGN 上的 21.8%,說(shuō)明對(duì)當(dāng)前模型而言,對(duì)話帶來(lái)的增益仍弱于信息補(bǔ)全帶來(lái)的增益。

與人類仍有顯著差距:論文設(shè)置人類 IIGN 測(cè)試(一人負(fù)責(zé)提問(wèn)與探索,另一人負(fù)責(zé)回答),結(jié)果顯示人類平均僅需2輪對(duì)話即可達(dá)到93%成功率,表明當(dāng)前模型與人類水平仍存在巨大差距。

結(jié)語(yǔ)

VL-LN Bench 是一個(gè)面向長(zhǎng)時(shí)程交互式實(shí)例導(dǎo)航(IIGN)任務(wù)的高質(zhì)量、高挑戰(zhàn)且體系完備的評(píng)測(cè)基準(zhǔn),可系統(tǒng)評(píng)估智能體在 3D 環(huán)境中的長(zhǎng)程探索、實(shí)例級(jí)目標(biāo)識(shí)別與對(duì)話消歧能力。

與此同時(shí),基準(zhǔn)配套自動(dòng)化數(shù)據(jù)采集管線與 NPC 評(píng)測(cè)機(jī)制,為交互式導(dǎo)航能力的訓(xùn)練與評(píng)估提供了一條可規(guī)模化、可復(fù)現(xiàn)的標(biāo)準(zhǔn)化路徑。評(píng)測(cè)結(jié)果清晰表明:引入主動(dòng)對(duì)話能夠顯著提升智能體在 IIGN 與 IGN 任務(wù)中的整體表現(xiàn),但同時(shí)也揭示了當(dāng)前方法在實(shí)例級(jí)感知對(duì)齊與高信息增益提問(wèn)策略等關(guān)鍵環(huán)節(jié)上仍存在明顯短板,為未來(lái)面向空間智能體的 “會(huì)走” 到 “會(huì)邊走邊問(wèn)” 的技術(shù)演進(jìn)提供了研究方向與啟發(fā)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“嘌呤”不讀 piāo líng!動(dòng)不動(dòng)說(shuō)自己高嘌呤的人注意了

“嘌呤”不讀 piāo líng!動(dòng)不動(dòng)說(shuō)自己高嘌呤的人注意了

未央看點(diǎn)
2026-04-09 00:53:14
解放軍唯一的一次烏龍,一野和二野打了一個(gè)晚上,各自傷亡多少人

解放軍唯一的一次烏龍,一野和二野打了一個(gè)晚上,各自傷亡多少人

舊史新譚
2026-04-05 17:00:22
上海八旬老太95萬(wàn)元畢生積蓄被掏空!快遞員干兒子被判12年,作案手法曝光

上海八旬老太95萬(wàn)元畢生積蓄被掏空!快遞員干兒子被判12年,作案手法曝光

上觀新聞
2026-04-11 12:49:05
俄副外長(zhǎng):俄羅斯不會(huì)拋棄古巴

俄副外長(zhǎng):俄羅斯不會(huì)拋棄古巴

財(cái)聯(lián)社
2026-04-10 09:22:04
價(jià)格腰斬,300萬(wàn)跌至150萬(wàn)!以前中產(chǎn)眼里的稀缺資產(chǎn)已成燙手山芋

價(jià)格腰斬,300萬(wàn)跌至150萬(wàn)!以前中產(chǎn)眼里的稀缺資產(chǎn)已成燙手山芋

小熊侃史
2026-04-08 09:49:28
萬(wàn)萬(wàn)沒(méi)想到!伊朗談判當(dāng)天,美國(guó)喊話:中國(guó)有“義不容辭之責(zé)”

萬(wàn)萬(wàn)沒(méi)想到!伊朗談判當(dāng)天,美國(guó)喊話:中國(guó)有“義不容辭之責(zé)”

幾人盡棄
2026-04-11 14:22:49
【英國(guó)】警察眼睛都直了,中國(guó)動(dòng)漫迷帶“大黃劍/咖喱棒”過(guò)海關(guān)

【英國(guó)】警察眼睛都直了,中國(guó)動(dòng)漫迷帶“大黃劍/咖喱棒”過(guò)海關(guān)

魯曉芙看歐洲
2026-04-10 06:08:42
“我女兒敢這樣,腿給砸斷”,寶媽曬2個(gè)女兒出門(mén),裝束讓人怒了

“我女兒敢這樣,腿給砸斷”,寶媽曬2個(gè)女兒出門(mén),裝束讓人怒了

蝴蝶花雨話教育
2026-04-10 13:01:09
見(jiàn)特朗普公開(kāi)威脅,美國(guó)政客集體下場(chǎng):?;鹨矝](méi)用,必須罷免總統(tǒng)

見(jiàn)特朗普公開(kāi)威脅,美國(guó)政客集體下場(chǎng):?;鹨矝](méi)用,必須罷免總統(tǒng)

娛樂(lè)圈的筆娛君
2026-04-11 15:48:41
奧利塞僅差一球,拜仁有望有統(tǒng)計(jì)以來(lái)首次兩人聯(lián)賽參與30+球

奧利塞僅差一球,拜仁有望有統(tǒng)計(jì)以來(lái)首次兩人聯(lián)賽參與30+球

懂球帝
2026-04-11 13:24:21
出獄后的雷政富滄桑感襲面而來(lái),前后對(duì)比引人唏噓

出獄后的雷政富滄桑感襲面而來(lái),前后對(duì)比引人唏噓

霹靂炮
2026-03-14 22:49:47
兩岸談完,鄭麗文離開(kāi)人民大會(huì)堂,臨走前達(dá)成共識(shí),島內(nèi)傳出雜音

兩岸談完,鄭麗文離開(kāi)人民大會(huì)堂,臨走前達(dá)成共識(shí),島內(nèi)傳出雜音

趙釔是個(gè)熱血青年
2026-04-11 14:52:57
1920年,一位俄羅斯醫(yī)生突發(fā)奇想,把猴子的睪丸,植入到老頭體內(nèi)

1920年,一位俄羅斯醫(yī)生突發(fā)奇想,把猴子的睪丸,植入到老頭體內(nèi)

歲月有情1314
2026-04-07 07:26:46
趙今麥,每個(gè)男人都想擁有的女孩樣板。

趙今麥,每個(gè)男人都想擁有的女孩樣板。

野狐饞師
2026-02-17 08:50:46
歷史首人!詹姆斯解鎖43000+12000+12000神跡 總助攻歷史第四

歷史首人!詹姆斯解鎖43000+12000+12000神跡 總助攻歷史第四

醉臥浮生
2026-04-11 10:46:50
嫁大自己18歲的凌峰,八十年代號(hào)稱青島美女賀順順,如今過(guò)得咋樣

嫁大自己18歲的凌峰,八十年代號(hào)稱青島美女賀順順,如今過(guò)得咋樣

攬星河的筆記
2026-04-10 18:42:07
中島裕翔宣布與新木優(yōu)子結(jié)婚,曾被贊為“日娛最養(yǎng)眼情侶”

中島裕翔宣布與新木優(yōu)子結(jié)婚,曾被贊為“日娛最養(yǎng)眼情侶”

橙星文娛
2026-04-11 13:19:00
85花中年喪偶?。?>
    </a>
        <h3>
      <a href=85花中年喪偶!? 八卦瘋叔
2026-04-09 11:00:41
忍你很久了!徹底撕破臉!小丑也配評(píng)價(jià)我?

忍你很久了!徹底撕破臉!小丑也配評(píng)價(jià)我?

柚子說(shuō)球
2026-04-10 17:48:27
預(yù)增超321倍!PCB一季報(bào)預(yù)增王橫空出世,行業(yè)徹底沸騰。

預(yù)增超321倍!PCB一季報(bào)預(yù)增王橫空出世,行業(yè)徹底沸騰。

慧眼看世界哈哈
2026-04-11 09:57:16
2026-04-11 17:39:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12729文章數(shù) 142622關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

伊朗消息人士:美國(guó)同意解凍伊朗海外資產(chǎn)

頭條要聞

伊朗消息人士:美國(guó)同意解凍伊朗海外資產(chǎn)

體育要聞

換帥之后,他們從降級(jí)區(qū)沖到升級(jí)區(qū)

娛樂(lè)要聞

浪姐7淘汰 該走的沒(méi)走,不該走的走了

財(cái)經(jīng)要聞

從日本翻身看:這次誰(shuí)能扛住高油價(jià)?

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬(wàn)起

態(tài)度原創(chuàng)

健康
家居
數(shù)碼
本地
手機(jī)

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

家居要聞

復(fù)古風(fēng)格 自然簡(jiǎn)約

數(shù)碼要聞

中興發(fā)布27英寸自由屏:平板+電腦+電視+手機(jī)4合1

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

手機(jī)要聞

2899元買臺(tái)未來(lái)手機(jī)?iKKO手機(jī)自費(fèi)體驗(yàn):細(xì)節(jié)驚艷,但也有坑

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版