国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

具身導(dǎo)航從模仿到超越!CompassNav:從路徑模仿到?jīng)Q策理解的導(dǎo)航

0
分享至

文章來源:視覺語言導(dǎo)航。

  • 作者:LinFeng Li , Jian Zhao , Yuan Xie , Xin Tan , Xuelong Li

  • 單位: 華東師范大學(xué), 中國電信人工智能研究所

  • 論文標(biāo)題:CompassNav: Steering From Path Imitation To Decision Understanding In Navigation

  • 論文鏈接:https://arxiv.org/pdf/2510.10154

  • 項(xiàng)目主頁:https://linengcs.github.io/CompassNav/

  • 代碼鏈接:https://github.com/linengcs/CompassNav

主要貢獻(xiàn)
  • 提出新的導(dǎo)航范式 :從傳統(tǒng)的路徑模仿轉(zhuǎn)變?yōu)闆Q策理解,旨在培養(yǎng)能夠真正理解導(dǎo)航?jīng)Q策的智能體,而不僅僅是模仿專家路徑。

  • 構(gòu)建Compass-Data-22k數(shù)據(jù)集 :包含22k軌跡,其中的RFT子集通過為每一步的所有可行動作標(biāo)注A*測地線距離,為決策空間提供了全景視圖。

  • 設(shè)計(jì)差距感知混合獎勵函數(shù) :根據(jù)決策確定性動態(tài)調(diào)整反饋,既能為最優(yōu)動作提供明確信號,又能鼓勵探索,與RFT子集的密集標(biāo)注緊密結(jié)合,培養(yǎng)智能體的決策能力。

  • 實(shí)現(xiàn)CompassNav框架 :采用SFT-then-RFT的訓(xùn)練方案,使7B參數(shù)的智能體在目標(biāo)導(dǎo)航基準(zhǔn)測試中達(dá)到新的最高水平,超越了更大的專有模型,并在真實(shí)物理環(huán)境中實(shí)現(xiàn)了穩(wěn)健的目標(biāo)導(dǎo)航。

研究背景
  • 目標(biāo)導(dǎo)航的重要性 :目標(biāo)導(dǎo)航是智能體在復(fù)雜、未見過的環(huán)境中自主操作的關(guān)鍵能力之一,要求智能體能夠自由探索并進(jìn)行空間推理以實(shí)現(xiàn)目標(biāo),而無需明確的、逐步的指導(dǎo)。

  • 現(xiàn)有方法的局限性 :目前主流的訓(xùn)練視覺語言大模型(LVLM)進(jìn)行導(dǎo)航的方法依賴于模仿專家軌跡,這種方法將復(fù)雜的導(dǎo)航任務(wù)簡化為單一正確路徑的序列復(fù)制,限制了智能體的探索能力和泛化能力。

Compass-Data數(shù)據(jù)集構(gòu)建 Compass-Data-RFT

創(chuàng)建一個能夠提供密集、細(xì)粒度監(jiān)督信號的數(shù)據(jù)集,以支持智能體學(xué)習(xí)決策理解,而不僅僅是模仿單一專家路徑。

  • 使用 Action Proposer Module(APM) ,在每個時(shí)間步生成可行的候選動作,這些動作以極坐標(biāo)元組(r,θ)表示,并在智能體的視野中以箭頭形式渲染。

  • 利用 Oracle A* Planner ,為每個候選動作計(jì)算到目標(biāo)的測地線距離。智能體主要沿著最優(yōu)路徑前進(jìn),但在存在多個幾乎最優(yōu)的動作(決策點(diǎn)模糊)時(shí),會探索并記錄這些替代路徑。

  • 記錄每一步中所有候選動作的測地線距離,生成多樣化的目標(biāo)中心軌跡,每一步都標(biāo)注了全景式的監(jiān)督信號,捕捉了到達(dá)目標(biāo)的多條有效路徑。

  • 數(shù)據(jù)結(jié)構(gòu) :將生成的密集標(biāo)注數(shù)據(jù)結(jié)構(gòu)化為RFT(Reinforcement Fine-Tuning)數(shù)據(jù)。每個RFT數(shù)據(jù)樣本包含標(biāo)準(zhǔn)輸入(指令提示和智能體當(dāng)前視覺觀察)以及用于獎勵建模的專門目標(biāo)對象。目標(biāo)對象包含最優(yōu)動作的ID以及該步驟所有候選動作的完整A*距離向量,為差距感知混合獎勵函數(shù)和GRPO(Group-wise Reward Policy Optimization)框架提供了必要的細(xì)粒度、分級偏好信號。

Compass-Data-SFT

解決從基礎(chǔ)LVLM(Large Vision-Language Model)直接開始RFT(Reinforcement Fine-Tuning)時(shí)面臨的“冷啟動”問題,通過知識蒸餾策略為智能體提供一個基礎(chǔ)的“推理-行動”能力。

  • 采用強(qiáng)大的教師模型Qwen-QvQ,在habitat-sim中執(zhí)行ObjectNav任務(wù),記錄其成功劇集中的完整推理過程和動作選擇。

  • 僅從教師模型的成功劇集中提取數(shù)據(jù),形成SFT(Supervised Fine-Tuning)數(shù)據(jù)集,以反映有效的探索策略。

  • 數(shù)據(jù)結(jié)構(gòu) :每個SFT訓(xùn)練實(shí)例與RFT數(shù)據(jù)具有相同的輸入結(jié)構(gòu),但目標(biāo)輸出是一個包含教師完整推理過程和決策的單個字符串,格式為 ...reasoning... k ,明確訓(xùn)練模型在采取行動之前外化其推理過程,建立基礎(chǔ)的“推理-行動”行為。

CompassNav框架 監(jiān)督式微調(diào)策略初始化

通過模仿學(xué)習(xí)培養(yǎng)智能體的基礎(chǔ)“推理-行動”能力,為后續(xù)的RFT階段提供一個良好的初始策略。

  • 使用Compass-Data-SFT-11k數(shù)據(jù)集,訓(xùn)練模型在每個時(shí)間步生成兩部分響應(yīng):推理過程和最終動作選擇,格式為 ... k 。

  • 采用 掩碼多選解碼技術(shù) ,通過在解碼器的輸出logits上應(yīng)用掩碼softmax,限制詞匯表僅包含有效候選動作的索引,確保生成的所有輸出都是可執(zhí)行的,這對于后續(xù)RFT階段的穩(wěn)定性至關(guān)重要。

  • 使用標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù)對整個教師生成的序列(包括推理標(biāo)記和最終動作標(biāo)記)進(jìn)行訓(xùn)練,以學(xué)習(xí)模仿教師模型的推理和決策過程。

差距感知混合獎勵調(diào)整策略對齊

在SFT初始化的策略基礎(chǔ)上,利用環(huán)境目標(biāo)對齊策略,通過差距感知混合獎勵函數(shù)實(shí)現(xiàn)真正的決策理解。

  • 使用GRPO(Group-wise Reward Policy Optimization)框架,對給定的輸入提示,使用策略πθ生成一組G個不同的輸出序列,并為每個生成的序列根據(jù)選擇的動作質(zhì)量分配獎勵,獎勵由差距感知混合獎勵函數(shù)計(jì)算。

  • 差距感知混合獎勵函數(shù)

    • 基礎(chǔ)分?jǐn)?shù) :通過softmax函數(shù)根據(jù)到目標(biāo)的距離對所有可用選項(xiàng)進(jìn)行連續(xù)評估,距離越短的動作得分越高,反映其相對質(zhì)量。

    • 動態(tài)獎金 :通過測量最佳和次佳選項(xiàng)之間的歸一化差距來評估當(dāng)前情況的確定性,差距越大,確定性越高,獎金也越高,但僅對最優(yōu)行動觸發(fā)。

    • 最終獎勵將基礎(chǔ)分?jǐn)?shù)與動態(tài)獎金相結(jié)合,通過調(diào)整獎勵信號的強(qiáng)度,既能在高確定性情況下提供明確的信號,又能在低確定性情況下鼓勵探索。

  • 目標(biāo)函數(shù) :GRPO目標(biāo)函數(shù)最大化生成組的預(yù)期獎勵,在計(jì)算優(yōu)勢后,通過最小化損失函數(shù)來優(yōu)化策略,同時(shí)使用KL散度項(xiàng)對策略更新進(jìn)行正則化,以保持策略與SFT階段的參考策略之間的相似性,從而鼓勵策略生成導(dǎo)致高獎勵動作的序列。

實(shí)驗(yàn) 實(shí)驗(yàn)設(shè)置
  • 數(shù)據(jù)集和任務(wù)

    • 在habitat-sim中使用HM3Dv2訓(xùn)練集生成訓(xùn)練數(shù)據(jù)。

    • 在HM3Dv1-val、HM3Dv2-val和MP3D-val三個未見驗(yàn)證集上評估智能體的泛化能力,這些驗(yàn)證集包含完全未見過的場景和目標(biāo)實(shí)例,確保對智能體在新環(huán)境中的導(dǎo)航能力進(jìn)行嚴(yán)格評估。

    • 主要任務(wù)是Object-Goal(Chaplot et al., 2020)和Instance-Image-Goal Navigation(Krantz et al., 2022)。

  • 評估指標(biāo)

    • 成功率(SR):衡量成功劇集的比例。

    • 路徑長度加權(quán)成功率(SPL):根據(jù)實(shí)際路徑與最優(yōu)路徑長度的比值對每次成功進(jìn)行加權(quán)。

  • 實(shí)現(xiàn)細(xì)節(jié)

    • CompassNav基于開源的Qwen2.5-VL-7B模型構(gòu)建。

    • 使用兩階段SFT-then-RFT訓(xùn)練方案。

    • 具體訓(xùn)練框架、超參數(shù)和硬件配置等詳細(xì)信息見附錄E。

主要結(jié)果
  • 與模塊化導(dǎo)航方法的比較

    • 上表展示了CompassNav與多種先進(jìn)模塊化系統(tǒng)(如Habitat-Web、ESC、L3MVN、InstructNav、PSL、VoroNav、Pixel-Nav、VLFM、GAMap、SG-Nav和UniGoal等)的對比結(jié)果。

    • CompassNav在HM3D和MP3D驗(yàn)證集上的成功率(SR)和成功率加權(quán)路徑長度(SPL)指標(biāo)均優(yōu)于或接近這些模塊化方法,盡管CompassNav采用的是更簡單的端到端方法,而模塊化方法通常依賴于復(fù)雜的多階段流程和顯式記憶(如語義地圖、歷史圖像等)。

    • 例如,在HM3Dv2-val驗(yàn)證集上,CompassNav的SR為56.6%,SPL為27.6%,而UniGoal的SR為54.5%,SPL為25.1%。

  • 與端到端LVLM的比較

    • 上表展示了CompassNav與各種開源和專有模型的對比結(jié)果。

    • CompassNav顯著優(yōu)于其他大型LVLM,如Qwen2-VL-7B、Qwen2.5-VL-3B、LLama3.2-11B等,甚至超過了以強(qiáng)大通用推理能力著稱的GPT-4o和Gemini-2.5-Flash等模型。

    • 例如,在ObjectNav任務(wù)上,CompassNav的SR為61.6%,SPL為27.8%,而GPT-4o的SR為52.4%,SPL為23.5%。

    • 特別地,CompassNav在HM3D-OVON基準(zhǔn)測試中超越了Nav-R1,盡管Nav-R1使用了更多的訓(xùn)練數(shù)據(jù),并且從3D專用模型開始訓(xùn)練,而CompassNav僅使用了十分之一的訓(xùn)練數(shù)據(jù),并從通用LVLM開始訓(xùn)練,這進(jìn)一步證明了CompassNav框架的有效性。

消融研究
  • SFT的有效性

    • 上表展示了從基礎(chǔ)模型直接開始RFT只能獲得有限的性能提升(SR為23.5%,SPL為6.95%),而經(jīng)過SFT初始化后再進(jìn)行RFT可以顯著提高性能(SR為35.6%,SPL為14.8%),驗(yàn)證了兩階段方法的協(xié)同作用。

    • 此外,僅在SFT階段教授模型輸出導(dǎo)航任務(wù)的動作空間實(shí)際上會降低性能(SR為17.9%,SPL為5.78%),這表明CompassNav框架中完整的SFT過程對于培養(yǎng)智能體的推理能力至關(guān)重要。

  • 獎勵函數(shù)的分析



    • 上圖和上表展示了差距感知混合獎勵函數(shù)的優(yōu)越性。

    • 與二進(jìn)制獎勵和線性歸一化最小-最大獎勵等常見基線相比,差距感知混合獎勵函數(shù)在不同導(dǎo)航場景下表現(xiàn)出更好的性能,能夠?yàn)橹悄荏w提供更有意義的學(xué)習(xí)信號,促進(jìn)其泛化能力。

    • 例如,在高確定性情況下,差距感知混合獎勵函數(shù)能夠?yàn)樽顑?yōu)動作和次優(yōu)動作之間創(chuàng)建較大的獎勵差距(如1.00與0.12),而在低確定性情況下,它能夠?yàn)榻咏膭幼鞣峙漕愃频姆菢O端分?jǐn)?shù),鼓勵探索而不是任意懲罰可行的選擇。

    • 此外,訓(xùn)練動態(tài)曲線表明,盡管二進(jìn)制和最小-最大獎勵模型在訓(xùn)練過程中能夠獲得較高的分?jǐn)?shù),但這僅僅是因?yàn)樗鼈冊谀7聠我蛔罴褎幼鞣矫姹憩F(xiàn)出色,而差距感知混合獎勵函數(shù)雖然在絕對分?jǐn)?shù)上較低,但它教會了模型評估所有選項(xiàng),從而培養(yǎng)了更通用的推理能力。

結(jié)論與未來工作
  • 結(jié)論

    • CompassNav框架通過從路徑模仿轉(zhuǎn)向決策理解,成功地將一個7B參數(shù)的LVLM轉(zhuǎn)變?yōu)榫哂行伦罡咚綄?dǎo)航能力的專家智能體。

    • 該框架不僅在模擬環(huán)境中超越了更大的專有模型,還在真實(shí)世界的部署中表現(xiàn)出了穩(wěn)健的性能,為未來低成本、智能的具身智能體研究鋪平了道路。

  • 未來工作

    • 進(jìn)一步優(yōu)化數(shù)據(jù)生成管道以提高效率和數(shù)據(jù)質(zhì)量;探索更復(fù)雜的獎勵函數(shù)設(shè)計(jì),以更好地捕捉導(dǎo)航任務(wù)中的各種因素。

    • 研究如何將外部記憶模塊與框架更有效地集成,以增強(qiáng)智能體的長期規(guī)劃和記憶能力等。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中央安全生產(chǎn)考核巡查組在廣東發(fā)現(xiàn):一幼兒園存多處嚴(yán)重風(fēng)險(xiǎn)隱患,鐵柵欄封窗、消防栓不出水

中央安全生產(chǎn)考核巡查組在廣東發(fā)現(xiàn):一幼兒園存多處嚴(yán)重風(fēng)險(xiǎn)隱患,鐵柵欄封窗、消防栓不出水

紅星新聞
2025-12-18 19:56:24
2026央視跨年晚會陣容曝光,網(wǎng)友:看完明星名單,廁所都不敢上了

2026央視跨年晚會陣容曝光,網(wǎng)友:看完明星名單,廁所都不敢上了

銀河史記
2025-12-19 12:16:50
風(fēng)流成性、揮霍無度,37歲“紙醉金迷”的王思聰,再次傳出大丑聞

風(fēng)流成性、揮霍無度,37歲“紙醉金迷”的王思聰,再次傳出大丑聞

寒士之言本尊
2025-12-21 14:39:58
南博事件再升級!《江南春》調(diào)撥人是凌波,神秘顧客也浮出水面

南博事件再升級!《江南春》調(diào)撥人是凌波,神秘顧客也浮出水面

奇思妙想草葉君
2025-12-21 13:59:16
羅永浩稱收入超99%中國人

羅永浩稱收入超99%中國人

超角度
2025-12-21 12:35:06
彭珮云同志逝世

彭珮云同志逝世

新華社
2025-12-21 17:03:03
南博事件升級!參與定"偽"的專家徐沄秋被扒,果然有情況

南博事件升級!參與定"偽"的專家徐沄秋被扒,果然有情況

鋭娛之樂
2025-12-21 08:30:41
特朗普夠狠:美軍突襲第2艘超級油輪,搶走中國購買的180萬桶石油

特朗普夠狠:美軍突襲第2艘超級油輪,搶走中國購買的180萬桶石油

南宮一二
2025-12-21 12:59:48
16GB+1TB!新機(jī)官宣:12月26日,全新上市

16GB+1TB!新機(jī)官宣:12月26日,全新上市

科技堡壘
2025-12-21 11:37:47
龐家后人對《新華社》報(bào)道的聲明:不公正、不理解、不接受

龐家后人對《新華社》報(bào)道的聲明:不公正、不理解、不接受

每日一見
2025-12-21 14:31:46
300萬人連夜注銷攜程!平臺推柬埔寨旅游惹眾怒,至今未道歉

300萬人連夜注銷攜程!平臺推柬埔寨旅游惹眾怒,至今未道歉

胡嚴(yán)亂語
2025-12-21 14:49:26
北斗、GPS同時(shí)被干擾!栗正杰:殺敵一千自損八千

北斗、GPS同時(shí)被干擾!栗正杰:殺敵一千自損八千

看看新聞Knews
2025-12-21 20:41:10
回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

就一點(diǎn)
2025-11-22 10:36:39
南京博物院的事,炸出了一個去年的視頻

南京博物院的事,炸出了一個去年的視頻

麥杰遜
2025-12-21 12:17:15
暴雷!多家門店跑路關(guān)門,老板疑失聯(lián),業(yè)主1.63億元血汗錢打水漂

暴雷!多家門店跑路關(guān)門,老板疑失聯(lián),業(yè)主1.63億元血汗錢打水漂

毒sir財(cái)經(jīng)
2025-12-21 22:18:03
高市迎來最強(qiáng)外援,強(qiáng)登釣魚島有保障?中方已警覺,連發(fā)兩個警告

高市迎來最強(qiáng)外援,強(qiáng)登釣魚島有保障?中方已警覺,連發(fā)兩個警告

博覽歷史
2025-12-21 13:57:01
華為新機(jī)突然官宣:12月21日,全面官降!

華為新機(jī)突然官宣:12月21日,全面官降!

科技堡壘
2025-12-21 11:28:59
A股:周末突發(fā)兩大核彈級利好!周一很可能迎更大級別大反彈

A股:周末突發(fā)兩大核彈級利好!周一很可能迎更大級別大反彈

股市皆大事
2025-12-21 20:28:08
星光大賞太尷尬!搶話擋鏡頭,念錯字場地還小,被嘲是燈光小賞

星光大賞太尷尬!搶話擋鏡頭,念錯字場地還小,被嘲是燈光小賞

萌神木木
2025-12-21 15:30:12
啥意思?以后中考要取消了?!

啥意思?以后中考要取消了?!

南京擇校
2025-12-21 19:25:38
2025-12-22 00:36:49
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識,交流思想
5273文章數(shù) 64595關(guān)注度
往期回顧 全部

科技要聞

生態(tài)適配已超95% 鴻蒙下一關(guān):十萬個應(yīng)用

頭條要聞

必勝客牛排口感奇怪遭質(zhì)疑"到底用的什么肉" 官方介入

頭條要聞

必勝客牛排口感奇怪遭質(zhì)疑"到底用的什么肉" 官方介入

體育要聞

勇士火箭贏球:王牌之外的答案?

娛樂要聞

星光大賞太尷尬!搶話擋鏡頭,場地還小

財(cái)經(jīng)要聞

老房子“強(qiáng)制體檢”,政府出手了

汽車要聞

-30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

態(tài)度原創(chuàng)

時(shí)尚
親子
健康
藝術(shù)
軍事航空

紅色不流行了?今年最火的穿搭居然是它

親子要聞

專訪90后三胎媽媽:賣掉杭州500萬房產(chǎn),帶孩子去內(nèi)蒙當(dāng)「牧民」

這些新療法,讓化療不再那么痛苦

藝術(shù)要聞

130米!韓國最“女性化”的摩天樓,曲線美艷

軍事要聞

石破茂:擁核絕不會給日本帶來正面影響

無障礙瀏覽 進(jìn)入關(guān)懷版