国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

中科大自適應(yīng)推理具身導(dǎo)航框架!AdaNav:基于不確定性驅(qū)動自適應(yīng)推理的視覺語言導(dǎo)航

0
分享至

文章來源:視覺語言導(dǎo)航。

  • 作者: Xin Ding , Jianyu Wei , Yifan Yang , Shiqi Jiang , Qianxi Zhang , Hao Wu , Fucheng Jia , Liang Mi , Yuxuan Yan , Weijun Wang , Yunxin Liu , Zhibo Chen , Ting Cao

  • 單位: 中國科學(xué)技術(shù)大學(xué), 微軟研究院, 南京大學(xué), 中南大學(xué), 浙江大學(xué), 清華大學(xué)人工智能產(chǎn)業(yè)研究院

  • 論文標(biāo)題:AdaNav: Adaptive Reasoning with Uncertainty for Vision-Language Navigation

  • 論文鏈接:https://arxiv.org/pdf/2509.24387v1

  • 代碼鏈接:https://github.com/xinding-sys/AdaNav

主要貢獻(xiàn)
  • 提出基于不確定性的自適應(yīng)推理框架了 AdaNav ,通過引入不確定性自適應(yīng)推理塊(UAR Block)和啟發(fā)式到強(qiáng)化學(xué)習(xí)(Heuristic-to-RL)的訓(xùn)練機(jī)制,使智能體能夠在導(dǎo)航過程中根據(jù)需要動態(tài)地觸發(fā)推理,解決了固定步長推理導(dǎo)致的性能次優(yōu)和計(jì)算開銷問題。

  • 在僅使用 6K訓(xùn)練樣本 的情況下,AdaNav在多個基準(zhǔn)測試中取得了顯著的性能提升,超過了使用百萬級數(shù)據(jù)訓(xùn)練的閉源模型。例如,在R2R val-unseen上成功率提高了20%,在RxR-CE上提高了11.7%,在真實(shí)世界場景中提高了11.4%。

  • 該框架使 推理更加困難感知和模式自適應(yīng) ,隨著訓(xùn)練的進(jìn)行,推理步驟更加集中在困難的軌跡上,且推理模式的選擇也更加合理,同時減少了平均推理步數(shù),提高了效率。

研究背景
  • 視覺語言導(dǎo)航(VLN)要求智能體能夠理解自然語言指令,并將其與連續(xù)的視覺觀察相結(jié)合,以執(zhí)行長期的導(dǎo)航軌跡。現(xiàn)有的基于視覺語言模型(VLM)的方法存在兩個主要挑戰(zhàn):一致的時間對齊和穩(wěn)健的感知-動作映射。

  • 為了應(yīng)對這些挑戰(zhàn),以往的研究引入了顯式推理,但固定步長的推理不僅計(jì)算開銷大,還會導(dǎo)致過度思考,降低導(dǎo)航質(zhì)量。理想的VLN智能體應(yīng)該能夠自適應(yīng)地推理,即根據(jù)需要決定何時以及如何推理,但實(shí)現(xiàn)這種自適應(yīng)性并緩解大語言模型(LLM)的過度自信問題通常需要大量的特定任務(wù)數(shù)據(jù)進(jìn)行監(jiān)督微調(diào),而這些數(shù)據(jù)收集成本高昂。

方法 問題定義 視覺語言導(dǎo)航
  • 環(huán)境與動作空間 :考慮一個標(biāo)準(zhǔn)的VLN設(shè)置,智能體被放置在一個3D環(huán)境 中,具有狀態(tài)空間 和動作空間 ,其中 和 分別表示角度和距離。

  • 任務(wù)目標(biāo) :給定自然語言指令 和連續(xù)的視覺觀察 ,智能體需要執(zhí)行一個軌跡 ,以達(dá)到由指令 隱式指定的目標(biāo)狀態(tài) ,目標(biāo)是最大化任務(wù)成功率:

    其中, 是指示函數(shù),表示最終狀態(tài)是否為目標(biāo)狀態(tài)。

自適應(yīng)推理導(dǎo)航
  • 推理模式與內(nèi)容 :為了提高VLN在長期和復(fù)雜環(huán)境中的性能,允許智能體在每一步 進(jìn)行顯式推理,推理模式變量 ,其中 表示不進(jìn)行推理, 是預(yù)定義的推理模式集合(如描述、總結(jié)、錯誤糾正)。推理內(nèi)容為 。

  • 聯(lián)合策略 :智能體的策略由兩部分組成:

    1. 導(dǎo)航策略 :根據(jù)導(dǎo)航相關(guān)的歷史信息 、指令 和之前的推理內(nèi)容 決定動作 。

    2. 推理策略 :決定何時進(jìn)行推理(通過 或 )以及使用哪種推理模式(通過 )。

  • 整體策略 :聯(lián)合策略為:

    其中, 表示完整的導(dǎo)航和推理歷史信息。

  • 優(yōu)化目標(biāo) :通過聯(lián)合優(yōu)化導(dǎo)航和推理策略,目標(biāo)是最大化任務(wù)性能,同時保持計(jì)算效率:

    其中, 同時考慮導(dǎo)航成功(如進(jìn)度或成功指標(biāo))和推理調(diào)用引起的延遲懲罰。

AdaNav的設(shè)計(jì)與實(shí)現(xiàn) 動機(jī)
  • 自適應(yīng)推理需要智能體能夠選擇性地決定何時推理有益以及調(diào)用哪種模式。然而,現(xiàn)有的大語言模型(LLM)對任務(wù)難度不敏感,容易過度自信。

  • 在LLM研究中,通過監(jiān)督微調(diào)引入高質(zhì)量的推理痕跡可以緩解這一問題。但對于具身智能體,收集這樣的高質(zhì)量交互痕跡成本過高。

  • 因此,AdaNav提出了一種替代方法,利用可解釋的不確定性信號動態(tài)觸發(fā)推理,無需依賴大規(guī)模推理監(jiān)督。

不確定性自適應(yīng)推理塊
  • 動作熵作為不確定性度量 :受語言推理中高熵token對單步文本生成影響較大的啟發(fā),定義動作熵 作為不確定性度量:

    其中, 是生成的token數(shù)量, 是詞匯表大小, 是時間步 時詞匯表中第 個token的概率。

  • 動作熵的有效性驗(yàn)證 :通過診斷研究發(fā)現(xiàn),失敗的軌跡具有高且持續(xù)的動作熵,而成功的軌跡保持較低的動作熵。單獨(dú)的即時動作熵不足以預(yù)測失敗,但結(jié)合歷史動作熵趨勢和當(dāng)前動作熵狀態(tài)可以提供更可靠的信號 。

  • UAR Block設(shè)計(jì) :UAR Block結(jié)合歷史動作熵 和當(dāng)前觀察 ,形成推理相關(guān)信息 ,并將其轉(zhuǎn)化為緊湊的控制向量:

    直接參數(shù)化推理模式的logits。從這個向量中,模式選擇策略為:

啟發(fā)式到強(qiáng)化學(xué)習(xí)訓(xùn)練
  • 基于不確定性的先驗(yàn) :在冷啟動階段,由于RL策略尚未學(xué)會有意義的模式選擇,因此使用基于不確定性的先驗(yàn)初始化訓(xùn)練。直觀上,較高的熵表示較高的不確定性,需要更強(qiáng)的推理。計(jì)算標(biāo)量熵分?jǐn)?shù)為過去熵的均值 ,并將其映射到包含“無推理”選項(xiàng)的推理模式上的軟先驗(yàn)分布:

    其中, 是模式特定的熵閾值, 控制先驗(yàn)的平滑度。

  • 啟發(fā)式到RL的過渡 :為了逐漸從啟發(fā)式先驗(yàn)轉(zhuǎn)移到學(xué)習(xí)到的RL策略,將先驗(yàn)分布與模型預(yù)測融合為:

    其中, 從1逐漸衰減到0,允許RL策略 逐漸接管啟發(fā)式先驗(yàn) 。因此,模式選擇策略可以表示為:

  • 獎勵設(shè)計(jì) :首先定義推理成本為基于相對推理長度的歸一化懲罰:

    其中, 是當(dāng)前步的推理長度, 是成功樣本組中最短的生成長度, 是一個常數(shù)懲罰窗口。

  • 導(dǎo)航目標(biāo)獎勵 :采用基于距離減少的常見外在獎勵,即時獎勵定義為 ,其中 表示從當(dāng)前狀態(tài) 到目標(biāo)位置 的測地線距離。

  • 整體任務(wù)獎勵 :將外在獎勵和推理成本結(jié)合起來,整體任務(wù)獎勵定義為折扣累積回報:

    其中, 是折扣因子,控制未來獎勵的權(quán)重。這種獎勵設(shè)計(jì)鼓勵智能體高效地向目標(biāo)導(dǎo)航,同時避免不必要的推理開銷。

實(shí)驗(yàn) 性能提升 實(shí)驗(yàn)設(shè)置
  • 基礎(chǔ)模型 :選擇兩個開源的VLN模型NAVID和NAVILA作為基礎(chǔ)模型,AdaNav被集成到這些模型中。

  • 訓(xùn)練數(shù)據(jù) :從R2R和RxR的訓(xùn)練集中隨機(jī)采樣3000個episode進(jìn)行訓(xùn)練。

  • 硬件配置 :使用4塊NVIDIA RTX A100 GPU進(jìn)行訓(xùn)練。

  • 基準(zhǔn)測試 :在R2R和RxR的val-unseen分割上評估導(dǎo)航性能,并在ScanQA驗(yàn)證集上評估空間場景理解能力。

實(shí)驗(yàn)結(jié)果
  • VLN-CE基準(zhǔn)測試 :與使用百萬級數(shù)據(jù)訓(xùn)練的閉源模型相比,AdaNav在僅使用6K訓(xùn)練樣本的情況下,成功率顯著提升。具體來說,在R2R val-unseen上成功率提高了20%,在RxR-CE val-unseen上提高了14.6%。

  • 跨數(shù)據(jù)集評估 :在僅使用R2R數(shù)據(jù)訓(xùn)練的情況下,AdaNav在RxR val-unseen上的零樣本評估中表現(xiàn)優(yōu)異,超過了所有閉源基線模型,展示了強(qiáng)大的泛化能力。

  • 空間場景理解 :在ScanQA驗(yàn)證集上,AdaNav不僅保持了基礎(chǔ)模型的通用場景理解能力,還略有提升,表明其在推理訓(xùn)練后增強(qiáng)了魯棒性和泛化能力。

  • 真實(shí)世界評估 :在真實(shí)世界環(huán)境中,使用25個樣本或復(fù)雜指令進(jìn)行實(shí)驗(yàn),AdaNav在會議室、家庭和辦公室三種環(huán)境中的成功率顯著提高,平均成功率提升了約11.4%。

UAR Block分析 實(shí)驗(yàn)方法
  • 訓(xùn)練數(shù)據(jù)規(guī)模 :分別使用2K、4K和6K訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,觀察UAR Block的行為變化。

  • 推理調(diào)用分析 :統(tǒng)計(jì)推理調(diào)用的頻率、分布以及不同推理模式(描述、總結(jié)、錯誤糾正)的使用情況。

  • 任務(wù)難度分類 :根據(jù)基礎(chǔ)模型的成功與否將任務(wù)分為“容易”和“困難”兩類,分析UAR Block在不同難度任務(wù)中的推理觸發(fā)行為。

實(shí)驗(yàn)結(jié)果
  • 推理頻率 :隨著訓(xùn)練數(shù)據(jù)的增加,模型傾向于減少推理調(diào)用的頻率,將推理集中在關(guān)鍵時刻,從而平衡效率和效果。

  • 推理模式選擇 :在后期步驟中,模型更傾向于使用總結(jié)和錯誤糾正模式,顯示出基于任務(wù)上下文的自適應(yīng)模式選擇能力。

  • 任務(wù)難度響應(yīng) :在基礎(chǔ)模型失敗的任務(wù)(即“困難”任務(wù))中,推理調(diào)用的頻率顯著增加,表明UAR Block能夠自適應(yīng)地將推理能力分配給更具挑戰(zhàn)性的場景。

消融研究 組件消融 實(shí)驗(yàn)方法
  • 去除UAR Block :推理以固定步長(例如每5步)或隨機(jī)方式觸發(fā),不使用自適應(yīng)控制。

  • 去除啟發(fā)式先驗(yàn) :僅依賴強(qiáng)化學(xué)習(xí)從頭開始訓(xùn)練,不使用基于不確定性的啟發(fā)式先驗(yàn)。

  • 去除強(qiáng)化學(xué)習(xí)微調(diào) :僅使用啟發(fā)式信號指導(dǎo)推理觸發(fā),不進(jìn)行進(jìn)一步的策略優(yōu)化。

實(shí)驗(yàn)結(jié)果
  • 去除UAR Block :性能顯著下降,表明自適應(yīng)推理控制對于提升導(dǎo)航性能至關(guān)重要。

  • 去除啟發(fā)式先驗(yàn) :訓(xùn)練初期性能較差,說明啟發(fā)式先驗(yàn)為訓(xùn)練提供了有效的初始引導(dǎo)。

  • 去除強(qiáng)化學(xué)習(xí)微調(diào) :性能不如完整AdaNav,表明強(qiáng)化學(xué)習(xí)微調(diào)能夠進(jìn)一步優(yōu)化推理策略,提升性能。

超參數(shù)敏感性 實(shí)驗(yàn)方法
  • 關(guān)鍵超參數(shù) :主要分析模式特定的熵閾值 和平滑因子 。

  • 實(shí)驗(yàn)設(shè)置 :分別測試不同的 (如80%、85%、90%)和 值,觀察對性能的影響。

實(shí)驗(yàn)結(jié)果
  • 熵閾值 :較低的 值(如80%)在訓(xùn)練初期提供了更寬松的推理觸發(fā)條件,有助于模型更快地學(xué)習(xí)推理模式。隨著 的增加,模型需要更高的不確定性才會觸發(fā)推理,從而提高了推理的效率。

  • 閾值增量 :適當(dāng)?shù)? 值能夠平衡不同推理模式之間的觸發(fā)條件,使模型能夠根據(jù)任務(wù)難度靈活選擇推理模式。

  • 平滑因子 :較大的 值使先驗(yàn)分布更加平滑,有助于模型在不同推理模式之間平滑過渡,但過大的 可能導(dǎo)致模型對不確定性信號不夠敏感。

結(jié)論與未來工作
  • 結(jié)論

    • AdaNav通過結(jié)合可解釋的啟發(fā)式先驗(yàn)和最優(yōu)的強(qiáng)化學(xué)習(xí),提供了一種可擴(kuò)展的、自適應(yīng)的推理方法,無需依賴昂貴的標(biāo)記推理數(shù)據(jù),即可在具身任務(wù)中實(shí)現(xiàn)高效的、困難感知的和模式自適應(yīng)的推理。

    • 該方法在多個基準(zhǔn)測試和真實(shí)世界部署中都表現(xiàn)出色,為具身智能體的推理能力提升提供了一個有前景的方向。

  • 未來工作

    • 可以進(jìn)一步探索如何在更復(fù)雜的環(huán)境和任務(wù)中應(yīng)用和優(yōu)化AdaNav,例如在多智能體交互場景中實(shí)現(xiàn)自適應(yīng)推理,或者將該框架擴(kuò)展到其他需要推理的具身任務(wù)中。

    • 此外,還可以研究如何進(jìn)一步提高推理的效率和準(zhǔn)確性,以及如何更好地利用有限的數(shù)據(jù)來訓(xùn)練更強(qiáng)大的推理模型。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
防止規(guī)模性返鄉(xiāng)滯鄉(xiāng),能采取哪些手段?

防止規(guī)模性返鄉(xiāng)滯鄉(xiāng),能采取哪些手段?

基本常識
2025-11-18 23:54:24
柬埔寨洪森慌了?全家老小齊上陣挽回局面,西哈努克家族蓄勢待發(fā)

柬埔寨洪森慌了?全家老小齊上陣挽回局面,西哈努克家族蓄勢待發(fā)

譯人行
2025-12-21 22:25:03
王金平首度提倡兩岸統(tǒng)一,前國民黨立委提“統(tǒng)一新模式”,不簡單

王金平首度提倡兩岸統(tǒng)一,前國民黨立委提“統(tǒng)一新模式”,不簡單

時時有聊
2025-12-21 17:18:25
偏偏卡在4月前“拜碼頭”?“日方開始協(xié)調(diào)高市早苗明年春季訪美”

偏偏卡在4月前“拜碼頭”?“日方開始協(xié)調(diào)高市早苗明年春季訪美”

上觀新聞
2025-12-21 04:58:06
63歲前TVB御用惡人收入插水轉(zhuǎn)行賣魚,滿頭白發(fā)被細(xì)24年女友狠撇

63歲前TVB御用惡人收入插水轉(zhuǎn)行賣魚,滿頭白發(fā)被細(xì)24年女友狠撇

粵睇先生
2025-12-22 01:18:22
茼蒿立大功!醫(yī)生調(diào)查發(fā)現(xiàn):茼蒿對這5種疾病有好處,建議常吃

茼蒿立大功!醫(yī)生調(diào)查發(fā)現(xiàn):茼蒿對這5種疾病有好處,建議常吃

阿纂看事
2025-10-13 15:36:03
拿5500萬頂薪,已缺席16場比賽!從老大到邊緣人,也許不需要你了

拿5500萬頂薪,已缺席16場比賽!從老大到邊緣人,也許不需要你了

老梁體育漫談
2025-12-22 00:41:17
家長小心了!這些「毒繪本」正在毀掉孩子,你家娃可能正在看

家長小心了!這些「毒繪本」正在毀掉孩子,你家娃可能正在看

十點(diǎn)讀書
2025-12-20 12:26:23
“寧愿她沒考上大學(xué)”,父親控訴211女兒的墮落歷程,看清了現(xiàn)實(shí)

“寧愿她沒考上大學(xué)”,父親控訴211女兒的墮落歷程,看清了現(xiàn)實(shí)

妍妍教育日記
2025-12-15 18:02:43
為什么泰國能把柬埔寨摁在地上打?因?yàn)榧砥艺呢?cái)富被洪森家拿了

為什么泰國能把柬埔寨摁在地上打?因?yàn)榧砥艺呢?cái)富被洪森家拿了

我心縱橫天地間
2025-12-17 23:11:19
哈爾濱中央大街“雪王”雪雕被拆,官方稱氣溫回升導(dǎo)致融雪影響美觀,將拆除重建

哈爾濱中央大街“雪王”雪雕被拆,官方稱氣溫回升導(dǎo)致融雪影響美觀,將拆除重建

極目新聞
2025-12-21 18:11:52
鐵幕下的堅(jiān)守:從民調(diào)看2025年美國人的援烏態(tài)度

鐵幕下的堅(jiān)守:從民調(diào)看2025年美國人的援烏態(tài)度

書生論劍
2025-12-20 23:44:37
王勵勤向現(xiàn)實(shí)妥協(xié)!公布選聘國乒領(lǐng)導(dǎo)崗位條件,排除一類特殊人才

王勵勤向現(xiàn)實(shí)妥協(xié)!公布選聘國乒領(lǐng)導(dǎo)崗位條件,排除一類特殊人才

三十年萊斯特城球迷
2025-12-20 20:37:47
“妻兒三人被發(fā)小殺害案”后天開庭,家屬:兇手曾稱要結(jié)娃娃親,作案后假裝毫不知情,開庭當(dāng)天是亡妻30歲生日

“妻兒三人被發(fā)小殺害案”后天開庭,家屬:兇手曾稱要結(jié)娃娃親,作案后假裝毫不知情,開庭當(dāng)天是亡妻30歲生日

極目新聞
2025-12-21 20:18:19
離心離德、鬧到臺面上的林詩棟蒯曼,終于被教練組拆了

離心離德、鬧到臺面上的林詩棟蒯曼,終于被教練組拆了

冥王星與一只碗
2025-12-21 22:50:25
傳奇落幕!鄭思維黃雅瓊劉雨辰陳清晨正式退役,愿未來一切順利!

傳奇落幕!鄭思維黃雅瓊劉雨辰陳清晨正式退役,愿未來一切順利!

上觀新聞
2025-12-21 23:32:04
醫(yī)生研究:茶葉一換,每年糖尿病致死少一半,這5種茶葉,多試試

醫(yī)生研究:茶葉一換,每年糖尿病致死少一半,這5種茶葉,多試試

讀懂世界歷史
2025-12-11 20:44:19
酸菜再次被關(guān)注!醫(yī)生發(fā)現(xiàn):糖尿病患者常吃酸菜,或出現(xiàn)5種變化

酸菜再次被關(guān)注!醫(yī)生發(fā)現(xiàn):糖尿病患者常吃酸菜,或出現(xiàn)5種變化

橘子約定
2025-11-28 09:39:09
聲稱拿下庫皮揚(yáng)斯克的俄軍司令庫佐夫列夫被曝消失!或已身亡

聲稱拿下庫皮揚(yáng)斯克的俄軍司令庫佐夫列夫被曝消失!或已身亡

項(xiàng)鵬飛
2025-12-21 20:34:23
房產(chǎn)證上的人去世了,繼承別再花大幾千的公證費(fèi),80塊錢就能搞定

房產(chǎn)證上的人去世了,繼承別再花大幾千的公證費(fèi),80塊錢就能搞定

室內(nèi)設(shè)計(jì)師有料兒
2025-12-07 16:05:28
2025-12-22 02:35:00
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識,交流思想
5273文章數(shù) 64595關(guān)注度
往期回顧 全部

科技要聞

生態(tài)適配已超95% 鴻蒙下一關(guān):十萬個應(yīng)用

頭條要聞

必勝客牛排口感奇怪遭質(zhì)疑"到底用的什么肉" 官方介入

頭條要聞

必勝客牛排口感奇怪遭質(zhì)疑"到底用的什么肉" 官方介入

體育要聞

勇士火箭贏球:王牌之外的答案?

娛樂要聞

星光大賞太尷尬!搶話擋鏡頭,場地還小

財(cái)經(jīng)要聞

老房子“強(qiáng)制體檢”,政府出手了

汽車要聞

-30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

態(tài)度原創(chuàng)

游戲
親子
旅游
藝術(shù)
公開課

誰說游戲里只能打怪?這游戲讓你做鬼差推因果,善惡全由你定

親子要聞

睡前說三句廢話對孩子情商發(fā)育有好處

旅游要聞

新年簽收一份蘭花香,你的風(fēng)雅旅途已到站!

藝術(shù)要聞

130米!韓國最“女性化”的摩天樓,曲線美艷

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版