国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

深度主動推理與時間分層世界模型

0
分享至

深度主動推理與時間分層世界模型的現(xiàn)實世界機器人控制

Real-World Robot Control by Deep Active Inference With a Temporally Hierarchical World Model

https://arxiv.org/pdf/2512.01924


摘要

——在不確定的真實世界環(huán)境中,機器人必須同時執(zhí)行目標(biāo)導(dǎo)向行為和探索性行為。然而,大多數(shù)基于深度學(xué)習(xí)的控制方法忽視了探索,并在面對不確定性時表現(xiàn)不佳。為解決這一問題,我們采用深度主動推理(deep active inference)框架,該框架能夠解釋人類的目標(biāo)導(dǎo)向與探索性行為。然而,傳統(tǒng)的深度主動推理方法由于環(huán)境表征能力有限以及動作選擇計算成本過高而面臨挑戰(zhàn)。我們提出了一種新穎的深度主動推理框架,包含一個世界模型(world model)、一個動作模型(action model)和一個抽象世界模型(abstract world model)。世界模型將環(huán)境動態(tài)編碼為慢速和快速時間尺度上的隱狀態(tài)表征;動作模型利用向量量化(vector quantization)將動作序列壓縮為抽象動作;抽象世界模型則根據(jù)抽象動作預(yù)測未來的慢速狀態(tài),從而實現(xiàn)低成本的動作選擇。我們在真實機器人上對物體操作任務(wù)進行了評估。結(jié)果表明,該框架在多種操作任務(wù)中均取得了高成功率,并能在不確定環(huán)境中靈活切換目標(biāo)導(dǎo)向與探索性行為,同時使動作選擇在計算上變得可行。這些發(fā)現(xiàn)凸顯了對多時間尺度動態(tài)建模以及對動作與狀態(tài)轉(zhuǎn)移進行抽象的重要性。

I. 引言

隨著基于深度學(xué)習(xí)的機器人控制方法的最新進展,人們越來越期待實現(xiàn)能夠完成廣泛類人目標(biāo)的機器人[1]–[3]。在真實世界環(huán)境中,任務(wù)所需物體的存在與否或其排列方式常常是不確定的,而當(dāng)前的機器人難以應(yīng)對這類不確定性[4]。相比之下,人類不僅能執(zhí)行目標(biāo)導(dǎo)向的行為,還能通過探索(例如尋找物體的位置)來消除環(huán)境不確定性,從而有效適應(yīng)不確定情境[5],[6]。

為實現(xiàn)既能執(zhí)行目標(biāo)導(dǎo)向行為又能進行探索的機器人,我們聚焦于深度主動推理[7]–[10]——一種基于計算理論的深度學(xué)習(xí)框架,該理論可解釋多種認(rèn)知功能[5],[11],[12]。然而,深度主動推理面臨兩大關(guān)鍵挑戰(zhàn):(1) 其性能高度依賴于框架對環(huán)境動態(tài)的表征能力[13];(2) 計算成本過高[9],難以應(yīng)用于真實世界的機器人。

為應(yīng)對這些挑戰(zhàn),我們提出了一種由世界模型、動作模型和抽象世界模型組成的深度主動推理框架。世界模型從人類收集的機器人動作與觀測數(shù)據(jù)中學(xué)習(xí)隱狀態(tài)轉(zhuǎn)移,以表征環(huán)境動態(tài)[14]–[16]。動作模型將一連串實際動作映射到一組習(xí)得的抽象動作之一,每個抽象動作對應(yīng)一種有意義的行為(例如將物體從盤子移動到鍋中)[17]。抽象世界模型則學(xué)習(xí)世界模型所習(xí)得的狀態(tài)表征與動作模型所習(xí)得的抽象動作表征之間的關(guān)系[18]。通過利用抽象世界模型和抽象動作表征,該框架實現(xiàn)了高效的主動推理。

為評估所提方法,我們在具有不確定性的現(xiàn)實環(huán)境中開展了機器人實驗。我們考察了該框架是否能降低計算成本,使機器人成功完成涉及多個物體操作的多樣化任務(wù),并執(zhí)行探索性行為以消除環(huán)境不確定性。

II. 相關(guān)工作

A. 用于機器人控制的示教學(xué)習(xí)(Learning from Demonstration, LfD)

示教學(xué)習(xí)是一種通過模仿人類專家來訓(xùn)練機器人的方法,可為學(xué)習(xí)控制策略提供安全且任務(wù)相關(guān)的數(shù)據(jù)[19]–[24]。LfD在機器人領(lǐng)域近期取得進展的一個關(guān)鍵理念是生成多步動作序列,而非僅生成單步動作[1]–[3],[17],[25]。然而,LfD面臨的主要挑戰(zhàn)在于,即使在大量專家演示數(shù)據(jù)上訓(xùn)練,也難以泛化到具有不確定性的環(huán)境中[4]。在本研究中,我們聚焦于一種使用從動作序列中提取的量化特征的方法[17],并將這些提取出的特征視為抽象動作表征。

B. 世界模型

世界模型通過建模數(shù)據(jù)(觀測)、其潛在原因(隱狀態(tài))與動作之間的關(guān)系來捕捉環(huán)境動態(tài)。近年來,世界模型在基于模型的強化學(xué)習(xí)背景下受到廣泛關(guān)注[14],[15],尤其在人工智能體與機器人領(lǐng)域[26]。然而,當(dāng)機器人利用世界模型進行學(xué)習(xí)時,其性能受限于模型表征環(huán)境動態(tài)的能力[27],[28]。特別是,學(xué)習(xí)環(huán)境中的長期依賴關(guān)系仍是一大挑戰(zhàn)。一種解決方案是在模型結(jié)構(gòu)中引入時間層次[27],[29]–[31]。此外,通過引入能捕捉慢速動態(tài)的抽象動作表征,模型可以更高效地預(yù)測未來的觀測與狀態(tài)[18]。

可以通過區(qū)分狀態(tài)更新頻率 [27], [29], [30] 或調(diào)節(jié)狀態(tài)轉(zhuǎn)移的時間常數(shù) [16], [32], [33] 來引入時間層次結(jié)構(gòu)。在本研究中,我們采用后者,以更好地在世界模型中表征慢速動態(tài) [31]。

III. 主動推理的公式化




傳統(tǒng)的主動推理要求在任務(wù)執(zhí)行過程中計算所有可能動作序列的 EFE,這對于現(xiàn)實世界的動作空間而言是不可行的 [6]。近期的研究通過將 EFE 作為動作生成模型訓(xùn)練的損失函數(shù)來應(yīng)對這一問題 [7]–[9],但往往忽略了探索能力。在本工作中,我們提出了一種新穎的框架,既關(guān)注目標(biāo)達(dá)成性能,又兼顧探索能力,并可在任務(wù)執(zhí)行過程中可處理地計算 EFE。

IV. 方法

A. 框架

我們提出了一種基于深度主動推理的框架,該框架能夠同時實現(xiàn)目標(biāo)達(dá)成與探索。所提出的框架由一個世界模型、一個動作模型和一個抽象世界模型組成(圖1)。



  1. 世界模型:世界模型包含一個動力學(xué)模型、一個編碼器和一個解碼器,三者均被同步訓(xùn)練(圖2)。作為動力學(xué)模型,我們采用一個分層模型 [39],它由慢速狀態(tài)和快速狀態(tài)構(gòu)成。











B. 動作選擇


首先,我們根據(jù)我們的世界模型對公式 (2) 進行重新表述(詳細(xì)推導(dǎo)見附錄 I):






V. 實驗
A. 環(huán)境設(shè)置

為探究所提出的框架是否能在真實世界環(huán)境中同時實現(xiàn)目標(biāo)達(dá)成與探索行為——在該環(huán)境中可操作多個物體,且不確定性源于物體的擺放位置——我們使用圖4(左)所示的機器人進行了實驗 [43], [44]。該機器人具有六個自由度,其中之一為夾爪。一臺攝像頭(RealSense Depth Camera D435;Intel)被安裝在機器人正對面,用于捕捉機器人及其環(huán)境的視野。


從攝像頭視角看,一個簡易碟子、一個鍋和一個平底鍋分別放置在右側(cè)、中央和左側(cè),而鍋蓋則置于比中央鍋更靠近攝像頭的位置。此外,實驗環(huán)境被配置為:可能存在一個藍(lán)色小球、一個紅色小球,或兩者同時存在。因此,當(dāng)鍋蓋關(guān)閉時便會產(chǎn)生不確定性——因為此時鍋內(nèi)可能包含藍(lán)色小球、紅色小球,也可能兩者都沒有。

作為訓(xùn)練數(shù)據(jù),我們通過演示預(yù)設(shè)的八種策略模式(圖4(右))收集了物體操作數(shù)據(jù)。每次演示由兩個策略模式序列組成。對于所有有效組合(排除會導(dǎo)致無動作的組合,例如連續(xù)兩次執(zhí)行動作3),我們以主從遙操作方式控制機器人,每種組合采集五次演示。在僅含藍(lán)色小球或紅色小球的環(huán)境中,共有36種有效動作組合;在同時包含兩種小球的環(huán)境中,則有72種組合。每個序列以5 Hz的頻率記錄100個時間步的關(guān)節(jié)角度和相機圖像,因此每種策略模式大約持續(xù)50個時間步。原始RGB圖像被裁剪并調(diào)整為64×80像素。在本實驗中,機器人動作定義為絕對關(guān)節(jié)角度位置,觀測定義為相機圖像。

B. 模型組件的


C. 實驗標(biāo)準(zhǔn)


其次,我們評估了對于動作模型所學(xué)習(xí)到的每一個抽象動作,是否能從相同的初始狀態(tài)生成不同的預(yù)測結(jié)果。我們還檢驗了:當(dāng)執(zhí)行由某一特定抽象動作生成的實際動作后,所觀察到的結(jié)果是否與抽象世界模型的預(yù)測一致。

目標(biāo)達(dá)成性能:我們在多種物體配置下評估了小球操作(140次試驗)和鍋蓋操作(24次試驗)任務(wù)的成功率,例如移動特定顏色的小球或操作鍋蓋。若機器人在50個時間步內(nèi)將目標(biāo)物體放置到指定的目標(biāo)位置,則該次試驗被視為成功。

環(huán)境探索能力:我們評估了所提框架是否不僅能生成目標(biāo)導(dǎo)向行為,還能在初始狀態(tài)不確定的情況下生成探索性行為。為此,我們設(shè)置了一種場景:藍(lán)色小球初始位于平底鍋中,而鍋蓋處于關(guān)閉狀態(tài),從而導(dǎo)致無法確定紅色小球是否存在于鍋內(nèi)。在此場景中,若機器人執(zhí)行探索性行為,預(yù)期其會打開鍋蓋以消除不確定性。

D. 基線方法與消融實驗

在目標(biāo)達(dá)成性能實驗中,我們將所提框架與一個基線方法及兩種消融變體進行了比較,具體如下:

  • 目標(biāo)條件擴散策略(Goal-conditioned Diffusion Policy, GC-DP):作為基線,我們實現(xiàn)了一個基于U-Net骨干網(wǎng)絡(luò)的擴散策略 [1], [45]。在我們的實現(xiàn)中,該策略基于最近兩次觀測和一個目標(biāo)觀測,預(yù)測未來48步的動作。為穩(wěn)定動作輸出,我們對生成的動作施加了權(quán)重為0.7的指數(shù)移動平均。


  • 無抽象世界模型(No Abstract World Model, No AWM):作為另一項消融實驗,機器人在規(guī)劃時不使用抽象世界模型,而是直接在由動作模型解碼出的實際動作序列上計算EFE。

我們未對動作模型本身進行消融,因為本框架依賴該模型生成用于評估的候選動作集合(無論是抽象動作還是實際動作),因此它是核心且不可或缺的組成部分。

VI. 結(jié)果

A. 抽象世界模型的能力

我們提出的框架僅需 2.37 毫秒即可評估所有候選抽象動作,相比之下,傳統(tǒng)深度主動推理方法的順序評估耗時達(dá) 71.8 毫秒。這證明了我們所提框架具有更高的計算可行性。



B. 目標(biāo)達(dá)成性能

表I展示了我們所提框架在特定小球和鍋蓋操作任務(wù)中生成目標(biāo)導(dǎo)向動作的成功率。除“開蓋”目標(biāo)外,所提方法在所有目標(biāo)條件下均優(yōu)于基線方法及消融變體,總體成功率超過70%。作為一個定性示例,圖6說明了當(dāng)目標(biāo)是將小球從碟子移動到平底鍋時的EFE計算過程。具有最低EFE的抽象動作正確預(yù)測了期望的結(jié)果,執(zhí)行由此抽象動作派生的實際動作后,任務(wù)得以成功完成。這一整體結(jié)果證實:通過最小化EFE來選擇抽象動作,對于實現(xiàn)目標(biāo)是有效的。


我們框架中的失敗案例主要源于世界模型預(yù)測不一致,導(dǎo)致機器人誤以為某個不合適的動作會成功。例如,所提框架曾選擇抓取空無一物的動作,卻將未被抓取的目標(biāo)物體放置于指定位置。相比之下,GC-DP、非分層模型和無AWM模型均表現(xiàn)出更低的成功率。GC-DP 在抓取和放置物體時經(jīng)常失敗。兩種消融模型比完整模型面臨更多的預(yù)測不一致性,突顯了時間層次結(jié)構(gòu)和動作/狀態(tài)抽象的重要性。No AWM消融模型表現(xiàn)較低,表明動作抽象是成功的關(guān)鍵組成部分。

C. 環(huán)境探索



VII. 結(jié)論

在本研究中,我們提出了一種深度主動推理框架,該框架結(jié)合了時間層次化世界模型、基于向量量化的動作模型以及抽象世界模型。通過在時間層次結(jié)構(gòu)中捕捉動態(tài),并將動作序列編碼為抽象動作,該框架使基于主動推理的動作選擇在計算上變得可行。在真實世界物體操作任務(wù)中的實驗表明,所提框架在多種目標(biāo)導(dǎo)向場景下均優(yōu)于基線方法,并且能夠在不確定環(huán)境中從目標(biāo)導(dǎo)向行為切換至探索性行為。

盡管取得了這些有前景的結(jié)果,仍存在若干挑戰(zhàn):
1)動作模型采用了固定長度的動作序列,這可能并非最優(yōu);
2)對于訓(xùn)練數(shù)據(jù)集中未出現(xiàn)過的動作-環(huán)境組合,模型的預(yù)測能力會下降;
3)雖然我們驗證了系統(tǒng)執(zhí)行探索性動作的能力,但尚未評估此類探索在任務(wù)求解中的實際有效性,且切換至探索行為仍依賴于人工調(diào)節(jié)的超參數(shù)。

未來的工作將聚焦于擴展該框架以應(yīng)對上述局限。一個直接的步驟是在需要多步動作選擇、且必須通過探索才能完成任務(wù)的環(huán)境中評估我們的框架。其他有前景的方向包括:開發(fā)一種能在目標(biāo)導(dǎo)向與探索模式之間自適應(yīng)切換的機制,以及將動作模型擴展為可表示可變長度動作序列的形式。最終,本工作朝著長期目標(biāo)邁出了重要一步——即構(gòu)建更強大的機器人,使其能夠通過融合目標(biāo)導(dǎo)向與探索性行為,在諸如家庭服務(wù)等充滿不確定性的現(xiàn)實環(huán)境中高效運行。


附錄 II
補充實驗

為驗證我們框架的可擴展性,我們進一步在 CALVIN D 基準(zhǔn) [47] 上對其進行了評估。該基準(zhǔn)提供了大量非結(jié)構(gòu)化的人類操作數(shù)據(jù)。盡管該環(huán)境支持基于語言的目標(biāo)條件設(shè)定,我們在實驗中僅使用了基于圖像的目標(biāo)條件。

在此環(huán)境中,我們將所提出的框架與 GC-DP 進行了比較。評估涵蓋八項任務(wù):滑塊左移/右移(Slider)、抽屜打開/關(guān)閉(Drawer)、燈泡開啟/關(guān)閉(Lightbulb)以及 LED 開啟/關(guān)閉(LED)。若任務(wù)在 150 個時間步內(nèi)完成,則視為成功。我們提出的框架沿用了主實驗中的超參數(shù)設(shè)置,而 GC-DP 則被訓(xùn)練為從過去四個時間步的觀測歷史中預(yù)測未來 28 步的動作序列,并每 16 步重新規(guī)劃一次。

如表 III 所示,我們提出的方法在 Slider 和 Drawer 任務(wù)上始終優(yōu)于 GC-DP,且在所有任務(wù)的平均成功率上也更高。這些結(jié)果表明,我們所采用的時間層次化世界模型與抽象動作相結(jié)合的方法不僅在主實驗設(shè)置中有效,在更復(fù)雜、長時程的操作場景中同樣具有魯棒性和有效性。



原文鏈接: https://arxiv.org/pdf/2512.01924

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭議

天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭議

阿SIR觀察
2026-01-27 10:38:05
高詩巖單節(jié)15分!山東男籃逆轉(zhuǎn)黑馬,克里斯低迷,兩大功臣發(fā)威

高詩巖單節(jié)15分!山東男籃逆轉(zhuǎn)黑馬,克里斯低迷,兩大功臣發(fā)威

牛眼看球
2026-01-27 21:45:55
徐文海、程用文、雷文潔已任湖北省人大常委會黨組成員

徐文海、程用文、雷文潔已任湖北省人大常委會黨組成員

澎湃新聞
2026-01-27 13:57:11
江蘇一餐飲老板李金良去世,僅37歲,新店才幾個月,妻子心都碎了

江蘇一餐飲老板李金良去世,僅37歲,新店才幾個月,妻子心都碎了

深析古今
2026-01-27 09:48:29
“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

妍妍教育日記
2026-01-27 19:58:28
央視坐實!成本2元售價19800元!不少人受騙,趕緊別用了

央視坐實!成本2元售價19800元!不少人受騙,趕緊別用了

白色得季節(jié)
2026-01-27 21:30:49
要打就打痛!中國手段已升級,日本:中方不批準(zhǔn)駐重慶總領(lǐng)事任命

要打就打痛!中國手段已升級,日本:中方不批準(zhǔn)駐重慶總領(lǐng)事任命

滄海旅行家
2026-01-27 17:17:15
凱恩將續(xù)約拜仁,創(chuàng)隊史頂薪紀(jì)錄

凱恩將續(xù)約拜仁,創(chuàng)隊史頂薪紀(jì)錄

星耀國際足壇
2026-01-27 21:18:40
你知道咱媽為何要拍《太平年》嗎?知道這是拍給誰看的嗎?

你知道咱媽為何要拍《太平年》嗎?知道這是拍給誰看的嗎?

李健政觀察
2026-01-27 09:50:28
我們贏了!中國成功研制全球首款二維芯片,ASML慌了:更可怕的還在后頭

我們贏了!中國成功研制全球首款二維芯片,ASML慌了:更可怕的還在后頭

芯火相承
2026-01-26 21:29:42
牢A爆火后留學(xué)圈炸了!陪讀媽媽、女留學(xué)生成狩獵目標(biāo),家長必看

牢A爆火后留學(xué)圈炸了!陪讀媽媽、女留學(xué)生成狩獵目標(biāo),家長必看

烏娛子醬
2026-01-27 16:50:05
云南“毒紅薯”后續(xù):10億產(chǎn)業(yè)崩盤,無辜農(nóng)戶欲哭無淚

云南“毒紅薯”后續(xù):10億產(chǎn)業(yè)崩盤,無辜農(nóng)戶欲哭無淚

過了法考的新聞人
2026-01-27 17:19:11
突擊檢查全國武器庫!一定要嚴(yán)防被掉包,甲午戰(zhàn)爭悲劇絕不能重演

突擊檢查全國武器庫!一定要嚴(yán)防被掉包,甲午戰(zhàn)爭悲劇絕不能重演

愛吃醋的貓咪
2026-01-27 20:31:00
紫牛頭條|大連一業(yè)主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團陷僵局

紫牛頭條|大連一業(yè)主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團陷僵局

揚子晚報
2026-01-27 21:52:52
性行為缺失會促癌?華中大最新:性行為缺失會削弱抗癌免疫力,保持性行為則有利于抗癌

性行為缺失會促癌?華中大最新:性行為缺失會削弱抗癌免疫力,保持性行為則有利于抗癌

醫(yī)諾維
2026-01-26 17:02:36
首都機場“大老虎”:下班飛澳門,早上坐專機上班,一晚輸600萬

首都機場“大老虎”:下班飛澳門,早上坐專機上班,一晚輸600萬

牛牛叨史
2026-01-27 23:54:21
在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進醫(yī)院,盒馬回應(yīng)

在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進醫(yī)院,盒馬回應(yīng)

瀟湘晨報
2026-01-27 18:01:05
小區(qū)內(nèi)裝卸鋼化玻璃,不到一小時連發(fā)兩起事故,有傷者送醫(yī)后身亡;家屬:用工方負(fù)責(zé)人已被逮捕

小區(qū)內(nèi)裝卸鋼化玻璃,不到一小時連發(fā)兩起事故,有傷者送醫(yī)后身亡;家屬:用工方負(fù)責(zé)人已被逮捕

大風(fēng)新聞
2026-01-27 17:10:11
爬山遺失80克金吊墜男子:把對講機掛在了金吊墜的鏈子上,快登頂才發(fā)現(xiàn)吊墜丟了,目前還沒找到

爬山遺失80克金吊墜男子:把對講機掛在了金吊墜的鏈子上,快登頂才發(fā)現(xiàn)吊墜丟了,目前還沒找到

魯中晨報
2026-01-27 16:23:14
沉默24小時后,卡尼終于發(fā)聲,與中國協(xié)議作廢,美財長得寸進尺

沉默24小時后,卡尼終于發(fā)聲,與中國協(xié)議作廢,美財長得寸進尺

天仙無味小仙女
2026-01-28 00:41:45
2026-01-28 04:16:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會講話透露了哪些關(guān)鍵信息

頭條要聞

美報告稱中國是其19世紀(jì)以來面對過的最強大國家

頭條要聞

美報告稱中國是其19世紀(jì)以來面對過的最強大國家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學(xué)?

娛樂要聞

張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個商務(wù)被取消

財經(jīng)要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

態(tài)度原創(chuàng)

藝術(shù)
本地
手機
健康
親子

藝術(shù)要聞

震撼!19世紀(jì)油畫巨匠的作品美得不可思議!

本地新聞

云游中國|撥開云霧,巫山每幀都是航拍大片

手機要聞

蘋果連發(fā)4版系統(tǒng):從iPhone 5s到iOS 26,果粉福音來了!

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

親子要聞

雙職工家庭,孩子上幼兒園后,無老人幫忙,夫妻倆能獨立帶娃嗎?

無障礙瀏覽 進入關(guān)懷版