国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

具身導(dǎo)航觀行并進(jìn)!S2E:強(qiáng)化學(xué)習(xí)助力導(dǎo)航基礎(chǔ)模型突破

0
分享至

  • 作者:Honglin He, Yukai Ma, Wayne Wu, Bolei Zhou

  • 單位:加利福尼亞大學(xué)洛杉磯分校

  • 論文標(biāo)題:From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning

  • 論文鏈接:https://arxiv.org/pdf/2507.22028

  • 項(xiàng)目主頁:https://metadriverse.github.io/s2e/

  • 代碼鏈接:https://github.com/metadriverse/S2E

主要貢獻(xiàn)
  • 提出 Seeing-to-Experiencing (S2E)學(xué)習(xí)框架,將離線視頻預(yù)訓(xùn)練和模擬環(huán)境中的強(qiáng)化學(xué)習(xí)相結(jié)合,既保持了模型從大規(guī)模真實(shí)世界視頻中獲得的泛化能力,又通過強(qiáng)化學(xué)習(xí)增強(qiáng)了模型的交互性。

  • 引入 錨點(diǎn)引導(dǎo)分布匹配 (Anchor-Guided Distribution Matching,AGDM)策略用于離線預(yù)訓(xùn)練,通過基于錨點(diǎn)的監(jiān)督穩(wěn)定學(xué)習(xí)并建模多樣化的運(yùn)動(dòng)模式。

  • 提出 殘差注意力模塊 (Residual-Attention Module,RAM)用于強(qiáng)化學(xué)習(xí)階段,在模擬環(huán)境中獲得反應(yīng)性行為的同時(shí),保留模型的預(yù)訓(xùn)練知識(shí)。

  • 建立基于真實(shí)世界場景的光柵化三維高斯濺射重建的 NavBench-GS 綜合端到端評估基準(zhǔn),能夠系統(tǒng)評估導(dǎo)航基礎(chǔ)模型的泛化性和安全性。

  • 通過 大量實(shí)驗(yàn) 表明,S2E框架能夠顯著提升模型性能,緩解僅使用離線數(shù)據(jù)擴(kuò)展時(shí)的收益遞減問題,并且在真實(shí)世界的不同機(jī)器人平臺(tái)上實(shí)現(xiàn)了零樣本泛化。

研究背景
  • 導(dǎo)航基礎(chǔ)模型在大規(guī)模網(wǎng)絡(luò)規(guī)模數(shù)據(jù)上進(jìn)行訓(xùn)練,能夠使智能體在多樣化環(huán)境中泛化,但僅基于離線數(shù)據(jù)訓(xùn)練的模型在現(xiàn)實(shí)世界城市導(dǎo)航中面臨局限性,如缺乏對行為后果的推理能力和通過反事實(shí)理解進(jìn)行適應(yīng)的能力,難以應(yīng)對動(dòng)態(tài)環(huán)境中的障礙物和行人等交互性和安全性要求高的任務(wù)。

  • 以往的導(dǎo)航基礎(chǔ)模型研究主要依賴大規(guī)模網(wǎng)絡(luò)視頻和人類演示進(jìn)行預(yù)訓(xùn)練,但這些方法存在一些問題,如缺乏物理和因果關(guān)系的明確信息,導(dǎo)致模型在真實(shí)世界中的適應(yīng)性和反應(yīng)性有限。

S2E 學(xué)習(xí)框架 框架概述

S2E(Seeing-to-Experiencing)學(xué)習(xí)框架旨在通過結(jié)合離線視頻預(yù)訓(xùn)練和模擬環(huán)境中的強(qiáng)化學(xué)習(xí),訓(xùn)練出既具有泛化能力又具備交互性的導(dǎo)航基礎(chǔ)模型。該框架的核心目標(biāo)是學(xué)習(xí)一個(gè)視覺導(dǎo)航策略π,使機(jī)器人能夠從起點(diǎn)ps導(dǎo)航到目標(biāo)點(diǎn)pd。具體來說,S2E框架包含兩個(gè)關(guān)鍵部分:

  • 離線預(yù)訓(xùn)練 :通過錨點(diǎn)引導(dǎo)分布匹配(Anchor-Guided Distribution Matching,AGDM)策略對真實(shí)世界視頻數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,以學(xué)習(xí)復(fù)雜的多模態(tài)分布并穩(wěn)定學(xué)習(xí)過程。

  • 強(qiáng)化學(xué)習(xí)后訓(xùn)練 :通過殘差注意力模塊(Residual-Attention Module,RAM)在模擬環(huán)境中進(jìn)行強(qiáng)化學(xué)習(xí),以增強(qiáng)模型的交互性并保留預(yù)訓(xùn)練知識(shí)。

錨點(diǎn)引導(dǎo)分布匹配預(yù)訓(xùn)練

機(jī)器人導(dǎo)航軌跡具有多模態(tài)性,即在相同的觀察條件下,可能存在多個(gè)有效的動(dòng)作。有效建模這種多模態(tài)性對于泛化策略至關(guān)重要。然而,常見的表示方法(如離散動(dòng)作或單模態(tài)高斯分布)缺乏表達(dá)能力,而擴(kuò)散模型雖然表達(dá)能力強(qiáng),但過于靈活,難以控制,可能導(dǎo)致不安全的軌跡。



  • 方法介紹

    • 提出了一種錨點(diǎn)引導(dǎo)的高斯混合模型(GMM)來表示機(jī)器人動(dòng)作。具體來說,通過在機(jī)器人的前進(jìn)方向上均勻采樣生成多個(gè)錨點(diǎn),每個(gè)錨點(diǎn)對應(yīng)GMM中的一個(gè)高斯模式。

    • 這些錨點(diǎn)作為可解釋的高級(jí)意圖,模型通過學(xué)習(xí)這些錨點(diǎn)的分?jǐn)?shù)來反映每個(gè)意圖點(diǎn)被選為引導(dǎo)模式的概率。通過這種方式,模型能夠在保持結(jié)構(gòu)化的同時(shí),生成多樣化且目標(biāo)一致的行為。

  • 模型架構(gòu)

    • 模型接收連續(xù)的RGB幀和目標(biāo)位置作為上下文信息,并使用預(yù)定義的與具體體現(xiàn)無關(guān)的錨點(diǎn)作為查詢進(jìn)行預(yù)測。首先,通過自注意力模塊整合上下文嵌入,生成鍵(K)和值(V)。同時(shí),錨點(diǎn)特征fP作為查詢(Q)。

    • 隨后,RAM塊根據(jù)錨點(diǎn)查詢Q計(jì)算加權(quán)特征,并生成細(xì)化的錨點(diǎn)特征。最終,通過分類頭和回歸頭解碼錨點(diǎn)特征,預(yù)測分?jǐn)?shù)和歸一化的軌跡以及速度尺度。

  • 訓(xùn)練過程

    • 模型采用端到端的訓(xùn)練方式,使用兩種訓(xùn)練損失。第一種是負(fù)對數(shù)似然(NLL)損失,用于監(jiān)督分類頭和軌跡頭。

    • 通過選擇與真實(shí)軌跡方向最一致的模式進(jìn)行優(yōu)化。第二種是L2回歸損失,用于優(yōu)化速度尺度。

殘差注意力強(qiáng)化學(xué)習(xí)

如果直接對整個(gè)模型參數(shù)進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào),可能會(huì)導(dǎo)致模型對模擬數(shù)據(jù)過度擬合,從而在真實(shí)世界數(shù)據(jù)上表現(xiàn)不佳。特別是對于視覺編碼器等對領(lǐng)域變化敏感的組件,這種分布偏移可能會(huì)顯著降低性能。



  • 方法介紹

    • RAM模塊通過復(fù)制預(yù)訓(xùn)練的交叉注意力層,并在復(fù)制的層上進(jìn)行微調(diào),同時(shí)保持原始模塊凍結(jié)。

    • 這種設(shè)計(jì)通過在復(fù)制的模塊周圍添加兩個(gè)零初始化的線性層,確保在初始化時(shí),添加的適應(yīng)分支對原始模型輸出沒有影響,但在微調(diào)過程中可以平滑地進(jìn)行適應(yīng)。

  • 訓(xùn)練過程

    • 使用PPO算法進(jìn)行訓(xùn)練,定義了綜合的獎(jiǎng)勵(lì)函數(shù),包括速度方向獎(jiǎng)勵(lì)、位移懲罰、到達(dá)目標(biāo)獎(jiǎng)勵(lì)和碰撞懲罰。

    • 通過策略梯度調(diào)整RAM模塊的參數(shù),使用PPO剪輯目標(biāo)和熵正則化進(jìn)行微調(diào)。

實(shí)驗(yàn) 通過強(qiáng)化學(xué)習(xí)提升模型性能
  • 研究問題 :驗(yàn)證強(qiáng)化學(xué)習(xí)(RL)是否能在離線預(yù)訓(xùn)練的基礎(chǔ)上進(jìn)一步提升導(dǎo)航性能。

  • 模型變體

    • S2E-BC :僅使用離線預(yù)訓(xùn)練數(shù)據(jù)的行為克隆模型。

    • S2E-PPO :從頭開始使用PPO進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練的模型。

    • S2E-SFT :在預(yù)訓(xùn)練后使用監(jiān)督微調(diào)(SFT)的模型。

    • S2E-Full :結(jié)合預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)微調(diào)的完整方法。

  • 數(shù)據(jù)集 :使用不同規(guī)模的離線數(shù)據(jù)進(jìn)行訓(xùn)練,評估模型在不同數(shù)據(jù)規(guī)模下的性能。

  • 實(shí)驗(yàn)結(jié)果

    • 數(shù)據(jù)規(guī)模與性能 :S2E-BC在數(shù)據(jù)規(guī)模增加到一定程度后,性能提升有限(從100k樣本增加到200k樣本,成功率僅提高3%)。而S2E-PPO通過強(qiáng)化學(xué)習(xí)在模擬環(huán)境中學(xué)習(xí)交互性,成功率比預(yù)訓(xùn)練模型提高了21%,且未使用更多離線數(shù)據(jù)。

    • SFT與RL對比 :在增加訓(xùn)練成本的情況下,RL保持或提高了成功率,而SFT則出現(xiàn)嚴(yán)重的過擬合問題。這表明RL不僅樣本效率更高,而且在增加訓(xùn)練成本時(shí)更具魯棒性。

NavBench-GS 基準(zhǔn)測試
  • 基準(zhǔn)測試設(shè)計(jì)

    • 測試場景 :基于光柵化三維高斯濺射重建的真實(shí)世界場景,包含26個(gè)場景,每個(gè)場景包含4種任務(wù):空環(huán)境、有隨機(jī)靜態(tài)障礙物的環(huán)境、有移動(dòng)行人的環(huán)境、有障礙物和行人的環(huán)境。

    • 評估指標(biāo) :成功率(SR)、路線完成率(RC)和碰撞次數(shù)(CT)。

  • 基線方法

    • 圖像目標(biāo)方法 :GNM、ViNT、NoMaD。

    • 點(diǎn)目標(biāo)方法 :CityWalker、MBRA、ViNT*、NoMaD*(*表示使用點(diǎn)作為目標(biāo)重新訓(xùn)練的模型)。

  • 實(shí)驗(yàn)結(jié)果

    • S2E-Full性能 :S2E-Full在所有測試場景中均優(yōu)于基線方法。與S2E-BC相比,S2E-Full在障礙物場景中的成功率提高了21%,在行人場景中提高了3%,在障礙物-行人場景中提高了17%。這表明強(qiáng)化學(xué)習(xí)在增強(qiáng)策略的交互能力方面發(fā)揮了關(guān)鍵作用。

    • 與其他方法對比 :S2E-Full在成功率和碰撞避免方面均優(yōu)于其他基線方法,證明了S2E框架在復(fù)雜環(huán)境中的有效性和魯棒性。

真實(shí)世界評估
  • 實(shí)驗(yàn)設(shè)置

    • 環(huán)境類型 :空環(huán)境和有靜態(tài)障礙物的環(huán)境。

    • 機(jī)器人平臺(tái) :Unitree GO2四足機(jī)器人和COCO輪式機(jī)器人。

    • 測試路線 :共8條路線,每條路線重復(fù)3次。

  • 實(shí)驗(yàn)結(jié)果


    • S2E-Full在真實(shí)世界中展現(xiàn)了優(yōu)越的碰撞規(guī)避能力。在輪式機(jī)器人和四足機(jī)器人上,S2E-Full在成功率和碰撞避免指標(biāo)上均取得了最高性能。

    • 具體來說,輪式機(jī)器人上S2E-Full的成功率為0.42,碰撞次數(shù)為0.70;四足機(jī)器人上S2E-Full的成功率為0.50,碰撞次數(shù)為0.75。

    • 這表明通過強(qiáng)化學(xué)習(xí)在模擬環(huán)境中獲得的交互能力能夠有效地遷移到真實(shí)世界中,實(shí)現(xiàn)零樣本泛化。

消融研究 錨點(diǎn)引導(dǎo)分布匹配的有效性
  • 實(shí)驗(yàn)設(shè)置

    • 對比方法 :ViNT*(單模態(tài)匹配)和S2E-BC(錨點(diǎn)引導(dǎo)分布匹配)。

    • 測試場景 :包含障礙物和行人的復(fù)雜環(huán)境。

  • 實(shí)驗(yàn)結(jié)果

    • 性能對比 :S2E-BC在成功率上比ViNT*提高了33%,碰撞率降低。這表明錨點(diǎn)引導(dǎo)分布匹配能夠顯著提升模型在復(fù)雜環(huán)境中的性能,有效捕捉多模態(tài)分布。

殘差注意力模塊的有效性
  • 實(shí)驗(yàn)設(shè)置

    • 對比方法 :S2E-SFT(監(jiān)督微調(diào))、S2E-PPO(從頭開始的強(qiáng)化學(xué)習(xí))、S2E-FullFT(全參數(shù)微調(diào))和S2E-Full(使用RAM的強(qiáng)化學(xué)習(xí))。

    • 測試場景 :NavBench-GS中的障礙物環(huán)境。

  • 實(shí)驗(yàn)結(jié)果

    • 性能對比 :S2E-Full在成功率和碰撞次數(shù)上均優(yōu)于其他方法。具體來說,S2E-Full的成功率為0.76,碰撞次數(shù)為0.56,而S2E-SFT的成功率為0.71,碰撞次數(shù)為0.77。這表明RAM在有限模塊適應(yīng)的情況下,能夠有效地提升模型的交互能力,同時(shí)保持預(yù)訓(xùn)練知識(shí)。

結(jié)論與未來工作
  • 結(jié)論

    • S2E框架通過結(jié)合離線預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí),有效地提升了導(dǎo)航基礎(chǔ)模型在多樣化真實(shí)世界環(huán)境中的泛化能力和交互性,能夠在不同的機(jī)器人平臺(tái)上實(shí)現(xiàn)零樣本泛化,為機(jī)器人導(dǎo)航領(lǐng)域提供了一種新的、有效的學(xué)習(xí)方法。

  • 未來工作

    • 當(dāng)前系統(tǒng)缺乏3D感知能力,導(dǎo)致即使S2E-full模型有時(shí)也會(huì)出現(xiàn)碰撞失敗的情況,未來可以考慮整合深度估計(jì)或占用預(yù)測任務(wù)來推斷3D結(jié)構(gòu)線索。

    • 此外,還需要解決由于機(jī)器人機(jī)械結(jié)構(gòu)導(dǎo)致的問題,如模擬與真實(shí)機(jī)器人平臺(tái)之間的差異所引起的sim-to-real差距,以及運(yùn)動(dòng)控制不準(zhǔn)確導(dǎo)致的性能下降問題,可以通過實(shí)施更高保真度的模擬建模并結(jié)合廣泛的數(shù)據(jù)增強(qiáng)策略來有效緩解這些問題。

    • 在未來,還計(jì)劃將該框架擴(kuò)展到其他機(jī)器人應(yīng)用領(lǐng)域,例如移動(dòng)操作等。

文章來源:視覺語言導(dǎo)航。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
浙江官宣:即將舉辦城市足球聯(lián)賽

浙江官宣:即將舉辦城市足球聯(lián)賽

新京報(bào)政事兒
2025-12-21 20:13:40
海南封關(guān)首日:30克金飾省近萬元,居民排長隊(duì)買榴蓮

海南封關(guān)首日:30克金飾省近萬元,居民排長隊(duì)買榴蓮

極目新聞
2025-12-21 08:11:42
石宇奇衛(wèi)冕失??!第二局0-7崩盤手腕明顯不適 祝賀波波夫顯格局

石宇奇衛(wèi)冕失??!第二局0-7崩盤手腕明顯不適 祝賀波波夫顯格局

顏小白的籃球夢
2025-12-21 19:37:05
考古最新證實(shí):阿房宮既沒建好也沒被火燒,杜牧《阿房宮賦》所描述的阿房宮景象非寫實(shí)之作

考古最新證實(shí):阿房宮既沒建好也沒被火燒,杜牧《阿房宮賦》所描述的阿房宮景象非寫實(shí)之作

大象新聞
2025-12-21 10:49:06
羅永浩稱收入超99%中國人

羅永浩稱收入超99%中國人

超角度
2025-12-21 12:35:06
南博事件再升級(jí)!《江南春》調(diào)撥人是凌波,神秘顧客也浮出水面

南博事件再升級(jí)!《江南春》調(diào)撥人是凌波,神秘顧客也浮出水面

奇思妙想草葉君
2025-12-21 13:59:16
臉都不要了,但還是低估了他們的無恥

臉都不要了,但還是低估了他們的無恥

胖胖說他不胖
2025-12-21 11:00:20
南京博物館事件,我很擔(dān)心會(huì)走向“彭宇案”的老路

南京博物館事件,我很擔(dān)心會(huì)走向“彭宇案”的老路

人格志
2025-12-20 23:34:32
太不尋常了!日本外長公開承認(rèn)波茨坦公告,日高官求中國一件事

太不尋常了!日本外長公開承認(rèn)波茨坦公告,日高官求中國一件事

知鑒明史
2025-12-20 19:15:51
安徽省委決定:在全省開展持續(xù)深化違規(guī)吃喝問題專項(xiàng)整治,對頂風(fēng)者嚴(yán)查快辦、絕不姑息

安徽省委決定:在全省開展持續(xù)深化違規(guī)吃喝問題專項(xiàng)整治,對頂風(fēng)者嚴(yán)查快辦、絕不姑息

新京報(bào)政事兒
2025-12-21 20:13:56
日退將妄稱“美日臺(tái)聯(lián)手作戰(zhàn)”,帥化民打臉:美國沒那個(gè)意愿、日本沒那個(gè)能力

日退將妄稱“美日臺(tái)聯(lián)手作戰(zhàn)”,帥化民打臉:美國沒那個(gè)意愿、日本沒那個(gè)能力

海峽導(dǎo)報(bào)社
2025-12-21 12:36:02
陳慧琳素顏逛美國超市,臉好方,腮幫子鼓起來了,牙齒不整齊!

陳慧琳素顏逛美國超市,臉好方,腮幫子鼓起來了,牙齒不整齊!

庭小娛
2025-12-21 14:51:03
威武!倆中國女生埃及游,與當(dāng)?shù)?人互毆,完勝后獲圍觀者豎拇指

威武!倆中國女生埃及游,與當(dāng)?shù)?人互毆,完勝后獲圍觀者豎拇指

阿纂看事
2025-12-20 10:16:59
張學(xué)良三個(gè)兒子瘋的瘋,死的死,都以為張家就要絕后,結(jié)局如何?

張學(xué)良三個(gè)兒子瘋的瘋,死的死,都以為張家就要絕后,結(jié)局如何?

古書記史
2025-12-12 11:32:56
北京一副局長騎電動(dòng)車送外賣,“原以為騎手最關(guān)心社保政策,沒想到他們張口就是‘別罰我款’”

北京一副局長騎電動(dòng)車送外賣,“原以為騎手最關(guān)心社保政策,沒想到他們張口就是‘別罰我款’”

第一財(cái)經(jīng)資訊
2025-12-21 08:55:57
同仁堂假貨泛濫!央視曝光,3元成本翻20倍賣,家里有老人的速查

同仁堂假貨泛濫!央視曝光,3元成本翻20倍賣,家里有老人的速查

觀察鑒娛
2025-12-21 12:02:11
中美較量開始了:世紀(jì)號(hào)油輪事件,是特朗普對中國的敲打,中國硬核回?fù)簦?>
    </a>
        <h3>
      <a href=V記錄號(hào)
2025-12-21 14:58:44
彭珮云同志逝世

彭珮云同志逝世

新華社
2025-12-21 17:03:03
韓紅直呼“太離譜”,三甲醫(yī)生連番追問!5月齡小洛熙手術(shù)后離世仍需更多真相……

韓紅直呼“太離譜”,三甲醫(yī)生連番追問!5月齡小洛熙手術(shù)后離世仍需更多真相……

新民周刊
2025-12-21 14:48:33
這次,美國徹底把我們打醒了!

這次,美國徹底把我們打醒了!

戎評
2025-12-20 14:02:05
2025-12-21 20:40:49
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識(shí),交流思想
5273文章數(shù) 64595關(guān)注度
往期回顧 全部

科技要聞

生態(tài)適配已超95% 鴻蒙下一關(guān):十萬個(gè)應(yīng)用

頭條要聞

妻兒三人被發(fā)小入室殺害 家屬:兇手還假裝毫不知情

頭條要聞

妻兒三人被發(fā)小入室殺害 家屬:兇手還假裝毫不知情

體育要聞

勇士火箭贏球:王牌之外的答案?

娛樂要聞

星光大賞太尷尬!搶話擋鏡頭,場地還小

財(cái)經(jīng)要聞

老房子“強(qiáng)制體檢”,政府出手了

汽車要聞

-30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

態(tài)度原創(chuàng)

本地
旅游
時(shí)尚
公開課
軍事航空

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

旅游要聞

20只國寶已就位 綿陽中華大熊貓?jiān)?2月29日試運(yùn)營

紅色不流行了?今年最火的穿搭居然是它

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

石破茂:擁核絕不會(huì)給日本帶來正面影響

無障礙瀏覽 進(jìn)入關(guān)懷版