国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

TBC-HRL:受生物啟發(fā)的穩(wěn)定且可解釋的分層強(qiáng)化學(xué)習(xí)框架

0
分享至

TBC-HRL:一種受生物啟發(fā)的穩(wěn)定且可解釋的分層強(qiáng)化學(xué)習(xí)框架

TBC-HRL: A Bio-Inspired Framework for Stable and Interpretable Hierarchical Reinforcement Learning

https://www.mdpi.com/2313-7673/10/11/715


摘要

分層強(qiáng)化學(xué)習(xí)(HRL)通過分解復(fù)雜的決策過程,在長時(shí)域和稀疏獎(jiǎng)勵(lì)任務(wù)中表現(xiàn)出有效性,但由于層級間不穩(wěn)定、子目標(biāo)調(diào)度效率低下、響應(yīng)延遲以及可解釋性差等問題,其在現(xiàn)實(shí)世界中的應(yīng)用仍受限。為應(yīng)對這些挑戰(zhàn),我們提出了一種受生物啟發(fā)的框架——定時(shí)仿生電路分層強(qiáng)化學(xué)習(xí)(TBC-HRL),該框架整合了兩種機(jī)制。首先,一種定時(shí)子目標(biāo)調(diào)度策略為每個(gè)子目標(biāo)分配固定的執(zhí)行持續(xù)時(shí)間,模仿動物行為中的節(jié)奏性動作模式,以改善層級間的協(xié)調(diào)并保持目標(biāo)一致性。其次,受秀麗隱桿線蟲(C. elegans)神經(jīng)回路啟發(fā)的神經(jīng)動力學(xué)仿生電路網(wǎng)絡(luò)(NDBCNet),取代了低層控制器中的傳統(tǒng)全連接網(wǎng)絡(luò)。NDBCNet 具有稀疏連接、連續(xù)時(shí)間動態(tài)和自適應(yīng)響應(yīng)等特點(diǎn),能更有效地建模時(shí)間依賴關(guān)系,同時(shí)提供更好的可解釋性和更低的計(jì)算開銷,使其適用于資源受限的平臺。在六個(gè)動態(tài)且復(fù)雜的模擬任務(wù)中的實(shí)驗(yàn)表明,與傳統(tǒng) HRL 相比,TBC-HRL 持續(xù)提升了策略穩(wěn)定性、動作精確性和適應(yīng)性,展示了生物啟發(fā)結(jié)構(gòu)在智能控制系統(tǒng)中的實(shí)用價(jià)值和未來潛力。

關(guān)鍵詞:分層強(qiáng)化學(xué)習(xí);仿生神經(jīng)回路;定時(shí)子目標(biāo)調(diào)度;液態(tài)時(shí)間常數(shù)網(wǎng)絡(luò);神經(jīng)動力學(xué)控制;機(jī)器人學(xué)習(xí);自主機(jī)器人;智能控制系統(tǒng)

  1. 引言

強(qiáng)化學(xué)習(xí)(RL)在解決復(fù)雜控制任務(wù)方面展現(xiàn)了強(qiáng)大的潛力,并已在機(jī)器人導(dǎo)航、機(jī)器人操作和自動駕駛等領(lǐng)域得到廣泛應(yīng)用 [1–4]。在各種 RL 架構(gòu)中,分層強(qiáng)化學(xué)習(xí)(HRL)因其“高層決策—低層執(zhí)行”結(jié)構(gòu)而尤為有效,該結(jié)構(gòu)提升了樣本效率,并增強(qiáng)了長時(shí)域任務(wù)中的策略泛化能力。通過將復(fù)雜問題分解為子目標(biāo),HRL 緩解了稀疏獎(jiǎng)勵(lì)的挑戰(zhàn),并支持模塊化策略設(shè)計(jì) [5–8]。然而,盡管具有這些理論優(yōu)勢,HRL 在現(xiàn)實(shí)世界部署中仍面臨關(guān)鍵性限制,包括層級間協(xié)調(diào)不穩(wěn)定、缺乏節(jié)奏性子目標(biāo)調(diào)度、低層響應(yīng)不足以及高計(jì)算成本 [9,10]。

這些挑戰(zhàn)可歸納為三個(gè)方面。
第一,層級間協(xié)調(diào)往往不穩(wěn)定:由于高層策略依賴于低層反饋,在低層策略尚未收斂前便可能產(chǎn)生策略偏差,導(dǎo)致學(xué)習(xí)速度緩慢甚至振蕩;頻繁的子目標(biāo)切換進(jìn)一步引發(fā)調(diào)度失衡,降低行為的一致性與效率[11,12]。
第二,低層控制器的響應(yīng)能力往往不足:傳統(tǒng)全連接網(wǎng)絡(luò)對突發(fā)環(huán)境變化適應(yīng)緩慢,而反應(yīng)式策略則缺乏記憶能力以整合歷史信息,使其難以建模速度變化、障礙分布及能耗模式等時(shí)間依賴關(guān)系[13]。
第三,現(xiàn)有策略網(wǎng)絡(luò)在可解釋性與計(jì)算效率上均存在局限:大多數(shù)網(wǎng)絡(luò)實(shí)現(xiàn)為“黑箱”模型,其決策來源難以追溯,引發(fā)安全隱患;此外,龐大的參數(shù)量及顯著的計(jì)算開銷也阻礙了分層強(qiáng)化學(xué)習(xí)在嵌入式或資源受限平臺上的部署[14]。

為應(yīng)對上述問題,近期研究開始借鑒生物神經(jīng)系統(tǒng)與行為機(jī)制的啟發(fā)[15,16]。自然界中,生物體展現(xiàn)出極強(qiáng)的適應(yīng)性、魯棒性與能效性,其神經(jīng)調(diào)控系統(tǒng)形成了感知、決策與控制之間層次分明的結(jié)構(gòu)[17]。例如,昆蟲僅憑極簡的神經(jīng)結(jié)構(gòu)即可實(shí)現(xiàn)穩(wěn)定的路徑規(guī)劃與目標(biāo)追蹤;線蟲(C. elegans)僅通過少量相互連接的神經(jīng)元便能產(chǎn)生復(fù)雜的運(yùn)動行為[18];而脊椎動物則依賴大腦皮層與腦干間的多層級協(xié)調(diào)實(shí)現(xiàn)運(yùn)動控制[19]。這些實(shí)例表明,層級化決策結(jié)構(gòu)、突觸調(diào)控機(jī)制以及時(shí)間調(diào)控策略對穩(wěn)定行為生成至關(guān)重要。尤其值得注意的是,許多動物僅在完成一個(gè)行為單元后才重新評估環(huán)境反饋,從而提升效率與連續(xù)性。這種“目標(biāo)維持—反饋評估—周期性更新”的機(jī)制為高效的子目標(biāo)調(diào)度與穩(wěn)定學(xué)習(xí)提供了靈感。此外,生物神經(jīng)系統(tǒng)具備連接稀疏性、快速響應(yīng)性與強(qiáng)信息保持能力,為設(shè)計(jì)具可解釋性與高效率的控制網(wǎng)絡(luò)架構(gòu)提供了新方向。

受上述生物機(jī)制啟發(fā),我們提出TBC-HRL——一種仿生框架,旨在克服傳統(tǒng)分層強(qiáng)化學(xué)習(xí)在調(diào)度穩(wěn)定性、控制響應(yīng)性及計(jì)算效率方面的局限。該框架整合了兩個(gè)核心組件:

第一,定時(shí)子目標(biāo)調(diào)度機(jī)制(Timed Subgoal Scheduling):為每個(gè)子目標(biāo)分配固定的執(zhí)行時(shí)長(τ),借鑒生物行為中的時(shí)間持續(xù)性原理。此舉可減少頻繁子目標(biāo)切換帶來的干擾,改善層級間協(xié)同,并穩(wěn)定低層學(xué)習(xí)過程與響應(yīng)表現(xiàn)。

第二,神經(jīng)動力學(xué)仿生電路網(wǎng)絡(luò)(Neuro-Dynamic Bionic Circuit Network, NDBCNet):受線蟲(C. elegans)神經(jīng)環(huán)路啟發(fā),用于替代低層策略中的傳統(tǒng)全連接網(wǎng)絡(luò)。NDBCNet 具備稀疏連接、連續(xù)時(shí)間動態(tài)特性與自適應(yīng)響應(yīng)能力,可有效建模時(shí)間依賴關(guān)系,強(qiáng)化行為調(diào)控,并提升模型可解釋性;其緊湊的參數(shù)化設(shè)計(jì)進(jìn)一步降低了計(jì)算開銷,同時(shí)保持魯棒性能。

通過結(jié)合這些機(jī)制,TBC-HRL 實(shí)現(xiàn)了更穩(wěn)定、響應(yīng)更迅速且更具可解釋性的控制,突顯了仿生結(jié)構(gòu)在強(qiáng)化學(xué)習(xí)中的實(shí)用價(jià)值。

本工作的主要貢獻(xiàn)如下:

  • 我們提出了 TBC-HRL,一種分層強(qiáng)化學(xué)習(xí)框架,將定時(shí)子目標(biāo)調(diào)度與一種受生物啟發(fā)的神經(jīng)回路模型(NDBCNet)相結(jié)合,以應(yīng)對 HRL 中協(xié)調(diào)不穩(wěn)定、響應(yīng)延遲和可解釋性有限等核心挑戰(zhàn)。
  • 我們在六個(gè)具有稀疏獎(jiǎng)勵(lì)和長時(shí)域的模擬機(jī)器人任務(wù)中評估了 TBC-HRL,結(jié)果表明,相較于標(biāo)準(zhǔn) HRL 方法,其在樣本效率、子目標(biāo)穩(wěn)定性及策略泛化能力方面均表現(xiàn)出持續(xù)提升。
  • 我們對 NDBCNet 進(jìn)行了詳細(xì)分析,并展示了其結(jié)構(gòu)稀疏性、時(shí)間動態(tài)特性以及自適應(yīng)響應(yīng)能力如何共同促成在復(fù)雜環(huán)境中實(shí)現(xiàn)魯棒且可解釋的低層控制。
  1. 相關(guān)工作

2.1 分層強(qiáng)化學(xué)習(xí)在現(xiàn)實(shí)任務(wù)中的局限性

分層強(qiáng)化學(xué)習(xí)(HRL)通過將策略分解為不同層級,在復(fù)雜控制任務(wù)中實(shí)現(xiàn)了較高的樣本效率與較強(qiáng)的策略泛化能力:高層策略生成子目標(biāo),低層策略負(fù)責(zé)執(zhí)行子目標(biāo),從而緩解了長時(shí)域任務(wù)中獎(jiǎng)勵(lì)稀疏的問題。代表性方法包括 Option-Critic、FeUdal Networks、HIRO 與 HiTS[20–23]。然而,HRL 在現(xiàn)實(shí)場景中仍面臨若干關(guān)鍵挑戰(zhàn)。

首先,高層策略高度依賴于低層策略的反饋;而在訓(xùn)練初期,低層學(xué)習(xí)尚不穩(wěn)定,常導(dǎo)致高層策略無法收斂,進(jìn)而引發(fā)非平穩(wěn)更新。其次,子目標(biāo)調(diào)度缺乏節(jié)律性與時(shí)間協(xié)調(diào)性,頻繁切換子目標(biāo)會干擾低層學(xué)習(xí)效率。第三,現(xiàn)有大多數(shù) HRL 框架采用全連接神經(jīng)網(wǎng)絡(luò)作為策略逼近器,這類網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、響應(yīng)遲緩、可解釋性有限,難以滿足實(shí)時(shí)性、能效性與穩(wěn)定性要求較高的控制應(yīng)用需求。

因此,亟需構(gòu)建具備節(jié)律感知調(diào)度能力、輕量化網(wǎng)絡(luò)結(jié)構(gòu)以及仿生特性的層級架構(gòu),以提升層級間協(xié)調(diào)的穩(wěn)定性,并降低響應(yīng)延遲。

2.2 子目標(biāo)調(diào)度與時(shí)間抽象機(jī)制

在 HRL 中,高層策略對子目標(biāo)的生成與調(diào)度對整體性能與穩(wěn)定性至關(guān)重要。目前已提出多種方法以提升調(diào)度的合理性與適應(yīng)性。例如,HIRO 采用固定間隔調(diào)度,方法簡單但缺乏對環(huán)境的適應(yīng)性;FeUdal Networks 與 SNN-HRL[24]引入了狀態(tài)觸發(fā)機(jī)制,增強(qiáng)了感知響應(yīng)性,卻可能導(dǎo)致策略振蕩;HiTS 采用可學(xué)習(xí)的切換策略,能自主判定子目標(biāo)切換時(shí)機(jī),但由于缺乏顯式的時(shí)間約束,在低層策略中仍可能引發(fā)頻繁切換與碎片化學(xué)習(xí)。

此外,隨著訓(xùn)練過程中低層策略持續(xù)演化,高層策略實(shí)際運(yùn)行于一個(gè)非平穩(wěn)的半馬爾可夫決策過程(SMDP)中:其狀態(tài)轉(zhuǎn)移動態(tài)變化,阻礙收斂并降低樣本效率。盡管已有研究提出事后重標(biāo)注(hindsight relabeling)與鄰接損失(adjacency loss)等技術(shù)以緩解該問題,但其效果仍受限于策略穩(wěn)定性及子目標(biāo)空間的復(fù)雜性。

值得注意的是,現(xiàn)有大多數(shù)方法忽視了子目標(biāo)執(zhí)行過程中的時(shí)間連續(xù)性與行為節(jié)律性。在現(xiàn)實(shí)任務(wù)中,缺乏這些特性往往導(dǎo)致調(diào)度信號呈現(xiàn)離散性與不穩(wěn)定性,削弱高層與低層之間的協(xié)同。相比之下,生物體常通過節(jié)律性、持續(xù)性的動作序列(如昆蟲覓食或動物運(yùn)動控制)實(shí)現(xiàn)行為穩(wěn)定——這啟發(fā)我們在高層調(diào)度中引入顯式時(shí)間約束,以提升系統(tǒng)的穩(wěn)定性與執(zhí)行效率。

與以往主要關(guān)注“子目標(biāo)應(yīng)在何時(shí)切換”(即調(diào)度時(shí)刻)的工作不同,我們的框架強(qiáng)調(diào)對子目標(biāo)持續(xù)時(shí)間 τ 的顯式建模。通過為每個(gè)子目標(biāo)分配固定的執(zhí)行時(shí)長,高層控制器實(shí)現(xiàn)了具有節(jié)律性的時(shí)間抽象,減少了過度切換,并穩(wěn)定了層級間的協(xié)同。這一差異凸顯了我們的核心貢獻(xiàn):從基于時(shí)刻的子目標(biāo)觸發(fā)機(jī)制,轉(zhuǎn)向基于持續(xù)時(shí)間的調(diào)度機(jī)制,從而增強(qiáng)長時(shí)域下的信用分配能力,并整體提升策略的穩(wěn)定性。

2.3 仿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在智能控制中的應(yīng)用

近年來,受生物神經(jīng)系統(tǒng)的啟發(fā),研究人員提出了一系列具備強(qiáng)大時(shí)序建模與動態(tài)調(diào)控能力的仿生神經(jīng)網(wǎng)絡(luò)架構(gòu),包括脈沖神經(jīng)網(wǎng)絡(luò)(SNNs)[25]、液態(tài)時(shí)間常數(shù)網(wǎng)絡(luò)(LTC)[26]以及神經(jīng)環(huán)路策略(NCPs)[18]。這些模型通過稀疏連接與神經(jīng)元狀態(tài)的動態(tài)演化,模擬了膜電位動力學(xué)過程,在時(shí)間序列建模、自適應(yīng)控制及可解釋性方面展現(xiàn)出顯著優(yōu)勢,并在機(jī)器人控制、運(yùn)動預(yù)測及序列決策等任務(wù)中展現(xiàn)出廣闊的應(yīng)用前景[27–29]。

與傳統(tǒng)全連接神經(jīng)網(wǎng)絡(luò)相比,仿生結(jié)構(gòu)通常參數(shù)更少、計(jì)算效率更高、魯棒性更強(qiáng),因而特別適用于資源受限或?qū)崟r(shí)性要求高的控制場景。然而,目前大多數(shù)研究集中于將仿生神經(jīng)網(wǎng)絡(luò)應(yīng)用于單層策略框架中;其在分層控制架構(gòu)中的整合仍鮮有探索,為未來研究留下了廣闊空間。

  1. 背景

3.1 MDP 與 SMDP

強(qiáng)化學(xué)習(xí)(RL)問題通常被建模為馬爾可夫決策過程(MDP),其由狀態(tài)空間 、動作空間 、狀態(tài)轉(zhuǎn)移動態(tài) P(s′|s, a)、獎(jiǎng)勵(lì)函數(shù) R(s, a) 以及折扣因子 γ ∈ [0, 1] 定義。智能體根據(jù)策略 π(a|s) 與環(huán)境交互,以最大化期望折扣回報(bào):


雖然 MDP 適用于許多任務(wù),但由于其單步?jīng)Q策粒度,在長時(shí)域和稀疏獎(jiǎng)勵(lì)問題中表現(xiàn)不佳。為解決此問題,HRL 擴(kuò)展至半馬爾可夫決策過程(SMDP),其中高層策略輸出由低層策略執(zhí)行的、持續(xù)多個(gè)時(shí)間步的時(shí)序抽象動作(子目標(biāo))。這種抽象有助于提升探索能力,但會引入非平穩(wěn)動力學(xué),因?yàn)楦邔硬呗砸蕾囉诓粩嘌莼牡蛯硬呗?,且穩(wěn)定性對 τ 的選擇高度敏感。

3.2 基于子目標(biāo)的 HRL

在基于子目標(biāo)的 HRL 中,高層控制器生成子目標(biāo) g ∈ ,而低層策略則執(zhí)行基本動作以實(shí)現(xiàn)這些子目標(biāo)。因此,子目標(biāo)的調(diào)度對整體性能至關(guān)重要?,F(xiàn)有方法采用不同策略:HIRO[22]使用固定時(shí)間間隔,結(jié)構(gòu)簡單但適應(yīng)性差;FeUdal Networks 與 SNN-HRL[24]依賴狀態(tài)觸發(fā)更新,雖提升了響應(yīng)性,卻可能引發(fā)振蕩;HiTS[23]自適應(yīng)學(xué)習(xí)切換點(diǎn),但因缺乏顯式時(shí)間約束,仍可能出現(xiàn)頻繁切換與行為碎片化。

總體而言,當(dāng)前方法缺乏節(jié)律感知調(diào)度與自適應(yīng)時(shí)間抽象機(jī)制,這限制了其在現(xiàn)實(shí)部署中的穩(wěn)定性與效率。這些問題促使我們開發(fā)一種結(jié)合顯式時(shí)間協(xié)調(diào)與魯棒分層控制的機(jī)制——正如本文所追求的方向。

  1. 方法

4.1 總體架構(gòu):TBC-HRL

我們提出 TBC-HRL,一種雙層級分層強(qiáng)化學(xué)習(xí)框架,它將高層 SAC 策略與由 NDBCNet 參數(shù)化的低層 SAC 策略相結(jié)合。所提框架的整體結(jié)構(gòu)如圖 1 所示,該圖提供了高層控制器、低層控制器與環(huán)境之間交互的系統(tǒng)級概覽。高層控制器 π? 在粗粒度時(shí)間尺度上運(yùn)行,通過定時(shí)子目標(biāo)調(diào)度機(jī)制生成空間子目標(biāo) g 及其時(shí)間預(yù)算 τ?,確保層級間的時(shí)間協(xié)調(diào)。低層控制器 π? 在細(xì)粒度時(shí)間尺度上與環(huán)境交互,根據(jù)子目標(biāo)及其預(yù)算執(zhí)行相應(yīng)動作。兩個(gè)層級均維護(hù)獨(dú)立的經(jīng)驗(yàn)回放緩沖區(qū)(?, ?)及用于 SAC 更新的 Q 函數(shù)評估器,從而實(shí)現(xiàn)解耦但協(xié)調(diào)的優(yōu)化。該設(shè)計(jì)增強(qiáng)了在長時(shí)域和稀疏獎(jiǎng)勵(lì)任務(wù)中的穩(wěn)定性、樣本效率與泛化能力。


其中,g? 表示空間子目標(biāo)(例如,目標(biāo)位置或狀態(tài)向量),Δt? 指定了在低層時(shí)間步長中的執(zhí)行時(shí)域。高層獎(jiǎng)勵(lì) r?? 根據(jù)任務(wù)進(jìn)展計(jì)算,并更新頻率較低,通常每 Δt? 個(gè)低層步長更新一次。

我們將時(shí)間預(yù)算 Δt 視為一種時(shí)間抽象機(jī)制,它像低通濾波器一樣抑制高層切換:過小的 Δt 會引發(fā)頻繁的重新同步與跨層級非平穩(wěn)性,而過大的 Δt 則會導(dǎo)致對環(huán)境外部事件反應(yīng)遲緩。在實(shí)踐中,我們采用一個(gè)簡單且可復(fù)現(xiàn)的規(guī)則,使 Δt 隨典型子目標(biāo)可達(dá)性進(jìn)行縮放:






4.2 高層策略生成








高層模塊整合了基于SAC的優(yōu)化、顯式時(shí)間抽象和后見重標(biāo)記,實(shí)現(xiàn)了高效、有節(jié)奏且受生物啟發(fā)的子目標(biāo)調(diào)度。

4.3 神經(jīng)動態(tài)仿生控制網(wǎng)絡(luò)

為了提高低層策略的響應(yīng)性和控制精度,我們引入了NDBCNet,這是一種受秀麗隱桿線蟲緊湊高效神經(jīng)系統(tǒng)啟發(fā)的生物神經(jīng)架構(gòu)。與傳統(tǒng)依賴離散層和固定步長更新的全連接網(wǎng)絡(luò)不同,NDBCNet采用稀疏連接性、連續(xù)時(shí)間動態(tài)和興奮/抑制調(diào)節(jié),實(shí)現(xiàn)細(xì)粒度的時(shí)間建模和強(qiáng)化學(xué)習(xí)中的魯棒控制。






其中較小的值表示更快的響應(yīng)。這個(gè)屬性允許低層控制器快速適應(yīng)高層子目標(biāo)更新。

為了部署,我們推導(dǎo)出一個(gè)常微分方程(ODE)解的閉式近似,這顯著加速了推理過程,而無需重新訓(xùn)練:


相對于精確解有界的誤差。這種效率使得NDBCNet非常適合用于分層強(qiáng)化學(xué)習(xí)中的實(shí)時(shí)低層控制。

NDBCNet為低層控制提供了一種緊湊、可解釋且動態(tài)響應(yīng)的架構(gòu),結(jié)合了生物學(xué)動機(jī)的稀疏性與連續(xù)時(shí)間建模,以提高魯棒性、適應(yīng)性和計(jì)算效率。




4.4 低層策略生成和優(yōu)化




與傳統(tǒng)的多層感知器相比,NDBCNet提供了:(i)通過連續(xù)時(shí)間動態(tài)實(shí)現(xiàn)的優(yōu)越時(shí)間建模,(ii)通過稀疏和模塊化架構(gòu)增強(qiáng)的可解釋性,(iii)通過遞歸結(jié)構(gòu)和有界梯度傳播提高的穩(wěn)定性,以及(iv)在每個(gè)子目標(biāo)執(zhí)行窗口 τ 內(nèi)的高響應(yīng)性。這些特性提高了對噪聲的魯棒性,加速了收斂,并在動態(tài)、長時(shí)域任務(wù)中增強(qiáng)了低層控制精度。

4.5 策略優(yōu)化和訓(xùn)練過程



這提供了一種時(shí)間感知的表示,用于經(jīng)驗(yàn)重放和后見重標(biāo)記。這使得低層控制器不僅能夠?qū)W習(xí)如何達(dá)到子目標(biāo),還能學(xué)習(xí)如何在固定的時(shí)間預(yù)算內(nèi)分配動作。



通過這種方案,低層控制器學(xué)習(xí)精確的、時(shí)間受限的行為,而高層策略專注于任務(wù)分解和子目標(biāo)調(diào)度。它們共同提高了長時(shí)域任務(wù)中的探索效率、魯棒性和時(shí)間協(xié)調(diào)。完整的訓(xùn)練過程總結(jié)在算法1中。




  1. 實(shí)驗(yàn)

5.1 實(shí)驗(yàn)環(huán)境

為了全面評估所提出的TBC-HRL算法,我們在六個(gè)具有代表性的模擬環(huán)境中進(jìn)行了實(shí)驗(yàn),這些環(huán)境在任務(wù)難度、動態(tài)性和控制要求方面各不相同(見圖3)。這些環(huán)境的訓(xùn)練步驟、狀態(tài)/動作維度和關(guān)鍵特征總結(jié)在表1中。所選環(huán)境涵蓋了廣泛的任務(wù),包括導(dǎo)航、操作、平衡控制和動態(tài)交互,為評估在長時(shí)域依賴和稀疏獎(jiǎng)勵(lì)下的性能提供了堅(jiān)實(shí)的基礎(chǔ)。


  • AntFourRooms:一個(gè)四足機(jī)器人通過一個(gè)四室迷宮從起點(diǎn)導(dǎo)航到指定的目標(biāo)房間。環(huán)境包含狹窄的通道和障礙物,強(qiáng)調(diào)長時(shí)域規(guī)劃和障礙物規(guī)避。

  • 吊橋:一個(gè)時(shí)間控制場景,代理必須操作吊橋以允許船只安全通過。該任務(wù)強(qiáng)調(diào)動態(tài)環(huán)境中的時(shí)間協(xié)調(diào)和主動預(yù)期。

  • 擺:一個(gè)經(jīng)典的控制問題,要求擺錘被擺動并穩(wěn)定在頂部。其非線性動態(tài)和連續(xù)動作空間需要精確的力量應(yīng)用和平衡維護(hù)。

  • 平臺:一個(gè)側(cè)滾式任務(wù),代理必須在正確的時(shí)刻觸發(fā)移動平臺以到達(dá)目標(biāo)。延遲的動作效果和稀疏的獎(jiǎng)勵(lì)使其成為時(shí)間推理和信用分配的基準(zhǔn)。

  • Tennis2D:一個(gè)機(jī)械臂必須擊球,使其落在目標(biāo)區(qū)域。成功需要在高隨機(jī)性和頻繁接觸下精確的時(shí)機(jī),控制延遲最小。

  • UR5Reacher:一個(gè)工業(yè)機(jī)器人臂控制任務(wù),涉及在避免碰撞的同時(shí)達(dá)到多個(gè)目標(biāo)。它評估在高自由度系統(tǒng)中的準(zhǔn)確性、路徑效率和能量效率。

在所有環(huán)境中,我們報(bào)告成功率、樣本效率(以達(dá)到性能閾值所需的訓(xùn)練步驟數(shù)來衡量)和策略穩(wěn)定性(方差)作為主要評估指標(biāo)。重要的是,這些環(huán)境的特征與TBC-HRL的核心貢獻(xiàn)一致:長時(shí)域和稀疏獎(jiǎng)勵(lì)強(qiáng)調(diào)了定時(shí)子目標(biāo)調(diào)度的好處,而動態(tài)擾動和高維控制則突出了NDBCNet的響應(yīng)性和可解釋性優(yōu)勢。完整的NDBCNet配置和每個(gè)算法的超參數(shù)在附錄A表A1和表A2中提供。

為了評估觀察到的改進(jìn)是否具有統(tǒng)計(jì)學(xué)意義,我們使用已經(jīng)收集的運(yùn)行結(jié)果(無需額外訓(xùn)練)計(jì)算雙側(cè)顯著性檢驗(yàn)和置信區(qū)間。除非另有說明,否則我們匯總每個(gè)環(huán)境中獨(dú)立種子的分?jǐn)?shù),并在每個(gè)種子的評估情節(jié)中匯總。


5.2 實(shí)驗(yàn)結(jié)果

我們在六個(gè)環(huán)境中比較了四種方法(圖4,表2):SAC、HAC、HITS和TBC-HRL。SAC是一個(gè)單層基線;HAC是一個(gè)不包括定時(shí)子目標(biāo)調(diào)度或NDBCNet的雙層變體;HITS是一個(gè)時(shí)間感知的分層強(qiáng)化學(xué)習(xí)基線,其中高層策略提出子目標(biāo),低層控制器執(zhí)行它們;TBC-HRL通過定時(shí)子目標(biāo)機(jī)制和NDBCNet增強(qiáng)了分層框架。所有方法共享相同的狀態(tài)/動作空間、獎(jiǎng)勵(lì)函數(shù)和訓(xùn)練預(yù)算。在表2中,收斂增益表示TBC-HRL相對于最強(qiáng)基線(SAC/HAC/HITS中的最佳)達(dá)到目標(biāo)閾值所需的訓(xùn)練步驟的減少。陰影帶表示95%自舉置信區(qū)間,最終周期標(biāo)記報(bào)告與最強(qiáng)基線相比的顯著性。為了確保公平比較,我們匹配超參數(shù)調(diào)整和預(yù)算,報(bào)告10個(gè)隨機(jī)種子的結(jié)果,按最終周期均值 ± 標(biāo)準(zhǔn)差匯總,使用共同的成功閾值進(jìn)行收斂,并呈現(xiàn)95%自助置信區(qū)間。


時(shí)間關(guān)鍵環(huán)境(吊橋、平臺、網(wǎng)球2D)。在需要明確時(shí)間節(jié)奏和階段進(jìn)展的任務(wù)中,TBC-HRL始終收斂最快,并且達(dá)到最高的最終成功率??傮w而言,TBC-HRL通常比最強(qiáng)基線提前約0.4-0.8百萬步達(dá)到目標(biāo),并且學(xué)習(xí)曲線更平滑。例如,在平臺上,TBC-HRL的成功率約為72%,而HITS大約為43%。在網(wǎng)球2D中,TBC-HRL達(dá)到約38%,而HITS約為24%,然而,所有方法都沒有在預(yù)算內(nèi)實(shí)現(xiàn)穩(wěn)定收斂,因此沒有報(bào)告收斂增益。

精確控制和動態(tài)響應(yīng)(四足螞蟻房間、UR5Reacher、擺)。在強(qiáng)調(diào)精細(xì)控制和快速響應(yīng)的任務(wù)中,TBC-HRL再次實(shí)現(xiàn)了最佳的最終成功率和更穩(wěn)定的收斂。在四足螞蟻房間中,TBC-HRL約為90%,而HITS大約為84%;在UR5Reacher中,97.6%對比96.6%,方差更低,曲線更平滑。在擺中,所有方法都迅速達(dá)到高性能,留下的進(jìn)一步改進(jìn)空間有限。

總結(jié)來說,在所有六個(gè)環(huán)境中,TBC-HRL都達(dá)到了最佳的最終成功率。它在時(shí)間關(guān)鍵任務(wù)中顯示出明顯的樣本效率優(yōu)勢,在精確控制任務(wù)中表現(xiàn)出更穩(wěn)定的高性能。定時(shí)子目標(biāo)(穩(wěn)定層間協(xié)調(diào)和長時(shí)域信用分配)和NDBCNet(增強(qiáng)低層精度和適應(yīng)性)的結(jié)合解釋了觀察到的特征:更快的學(xué)習(xí)、更低的方差和更高的漸近成功率。

圖5展示了UR5Reacher環(huán)境中第三關(guān)節(jié)運(yùn)動的不同指揮神經(jīng)元的激活動態(tài)??梢暬瘡牡停ㄋ{(lán)色)到高(紅色)沿著空間軌跡過渡,反映了TBC-HRL在運(yùn)動執(zhí)行期間如何處理時(shí)間序列信號。


在UR5Reacher中,指揮神經(jīng)元,表明對特定關(guān)節(jié)配置或方向的敏感性,而指揮神經(jīng)元。這種勞動分工表明NDBCNet促進(jìn)了神經(jīng)元之間的功能專業(yè)化,以捕捉不同的運(yùn)動特征,從而提高控制精度和協(xié)調(diào)性。

為了提供與這些模式一致的定量支持,我們評估了保留軌跡上的四種互補(bǔ)措施。損傷實(shí)驗(yàn)表明,移除最活躍的前5個(gè)神經(jīng)元會導(dǎo)致相對性能下降12.8 ± 2.3%。神經(jīng)元活動與任務(wù)特征(例如,速度、高度變化和能量消耗)之間的平均皮爾遜相關(guān)系數(shù)為0.47 ± 0.06。最后,神經(jīng)元激活與子目標(biāo)階段之間的互信息平均為0.36比特(第90百分位數(shù)為0.52比特)。這些結(jié)果與圖5中的空間-時(shí)間激活布局一致,表明在子目標(biāo)窗口內(nèi)具有特定階段的響應(yīng)和有助于解釋模型在復(fù)雜控制任務(wù)中的決策過程的結(jié)構(gòu)化內(nèi)部動態(tài)。

5.3 消融研究

對于消融實(shí)驗(yàn)(TS-off和NDBCNet-off),我們通過寬度調(diào)整或零填充匹配參數(shù)總數(shù)在±0.5%以內(nèi),并精確匹配訓(xùn)練預(yù)算(總環(huán)境步驟、梯度更新、批量大小、重放比例和評估頻率)。優(yōu)化器計(jì)劃和熵溫度目標(biāo)在不同變體中保持固定。 我們比較了四種配置(圖6和表3):(1)完整的TBC-HRL,同時(shí)具有NDBCNet和定時(shí)子目標(biāo)(TS),(2)TBC-HRL(-NDBCNet),其中低層策略被MLP替換,但保留了TS,(3)TBC-HRL(-TS),保留了NDBCNet但去除了TS,以及(4)沒有任一組件的HAC。


總體而言,TBC-HRL始終實(shí)現(xiàn)了最佳成功率、更快的收斂速度和更低的方差。移除TS或NDBCNet會降低性能,而HAC是最弱且最不穩(wěn)定的,這證實(shí)了這兩個(gè)組件都是必要且互補(bǔ)的。

任務(wù)級分析顯示了不同的作用。在空間復(fù)雜或高自由度任務(wù)(如AntFourRooms和UR5Reacher)中,NDBCNet至關(guān)重要:TBC-HRL在AntFourRooms中實(shí)現(xiàn)了約90%的成功率,而沒有NDBCNet時(shí)為71%,HAC為75%。在對時(shí)間敏感的環(huán)境(如Drawbridge、Platforms和Tennis2D)中,TS更為重要;例如,在Drawbridge中,沒有TS時(shí)成功率從71%(全部)降至57%,而HAC為36%。擺錘相對簡單:所有方法的成功率都超過80%,TBC-HRL顯示出略微更快和更穩(wěn)定的收斂。

從機(jī)制上講,TS通過分配固定的執(zhí)行持續(xù)時(shí)間 τ 來穩(wěn)定層間協(xié)調(diào),從而在時(shí)間關(guān)鍵設(shè)置中改善時(shí)間信用分配。NDBCNet以其稀疏連接性和連續(xù)時(shí)間動態(tài),更有效地捕捉非線性和延遲,從而在高維控制中提高精度。這些模塊之間的協(xié)同作用解釋了在TBC-HRL中觀察到的改進(jìn)的收斂速度、穩(wěn)定性和漸近性能,而每次消融下的系統(tǒng)性下降則強(qiáng)調(diào)了它們互補(bǔ)的貢獻(xiàn)。定量地,移除TS在對時(shí)間敏感的環(huán)境(Drawbridge、Platforms、Tennis2D)中平均成功率降低了約14%,而移除NDBCNet在空間復(fù)雜任務(wù)(AntFourRooms、UR5Reacher)中性能降低了大約11%,進(jìn)一步證實(shí)了它們獨(dú)特但互補(bǔ)的作用。

本研究介紹了TBC-HRL,它將定時(shí)子目標(biāo)調(diào)度與NDBCNet結(jié)合用于低層控制。如圖4所示,并由圖6中的消融研究證實(shí),完整的框架與HAC和單組件變體相比,實(shí)現(xiàn)了更高的漸近成功率、更快的收斂速度和更低的跨種子變異性。

特定環(huán)境的分析揭示了任務(wù)依賴的模式:空間復(fù)雜或高自由度設(shè)置(AntFourRooms、UR5Reacher)更多地受益于NDBCNet,而時(shí)間關(guān)鍵任務(wù)(Drawbridge、Tennis2D、Platforms)則更多地從TS中獲益。在簡單的擺錘任務(wù)中,所有方法的表現(xiàn)相當(dāng),但TBC-HRL仍然稍微更快和更穩(wěn)定地收斂。從機(jī)制上講,TS通過分配固定的執(zhí)行持續(xù)時(shí)間 τ 來加強(qiáng)固定的執(zhí)行持續(xù)時(shí)間,這減輕了層間抖動并改善了時(shí)間信用分配,而NDBCNet引入了稀疏的、連續(xù)時(shí)間動態(tài),更好地捕捉非線性和延遲。

重要的是,TS和NDBCNet的協(xié)同作用在不同環(huán)境中始終一致地提高了收斂速度、穩(wěn)定性和最終性能。定量地,移除TS會使時(shí)間敏感任務(wù)的平均成功率降低約14%,而移除NDBCNet會使空間復(fù)雜設(shè)置的性能降低約11%。神經(jīng)元級別的可視化進(jìn)一步突出了控制器內(nèi)的功能專業(yè)化,將這些收益與提高的可解釋性聯(lián)系起來。除了經(jīng)驗(yàn)上的改進(jìn),這些發(fā)現(xiàn)表明,將生物學(xué)啟發(fā)的時(shí)間抽象和神經(jīng)動態(tài)納入考慮代表了一種新的穩(wěn)定和可解釋的分層強(qiáng)化學(xué)習(xí)的設(shè)計(jì)范式。


  1. 結(jié)論

總結(jié)來說,TBC-HRL通過將定時(shí)子目標(biāo)調(diào)度與NDBCNet結(jié)合,在六個(gè)基準(zhǔn)環(huán)境中實(shí)現(xiàn)了收斂速度、穩(wěn)定性和最終性能的一致改進(jìn)。結(jié)果表明,TS減少了時(shí)間敏感任務(wù)中的層間抖動,并加強(qiáng)了時(shí)間信用分配,而NDBCNet提供了稀疏的連續(xù)時(shí)間動態(tài),增強(qiáng)了空間復(fù)雜或高維設(shè)置中的精度和魯棒性。神經(jīng)元級別的可視化進(jìn)一步揭示了學(xué)習(xí)控制器內(nèi)的功能專業(yè)化,提供了改進(jìn)的可解釋性,并將觀察到的性能提升與生物學(xué)啟發(fā)的設(shè)計(jì)原則聯(lián)系起來。

盡管有這些貢獻(xiàn),本研究有幾個(gè)局限性,包括使用固定的 τ 和專注于模擬環(huán)境。未來的研究將探索自適應(yīng)或?qū)W習(xí)調(diào)度策略,擴(kuò)大與包括基于模型和分層方法在內(nèi)的更廣泛基線的比較,并研究在非平穩(wěn)和遷移設(shè)置下的魯棒性。此外,將進(jìn)行模擬到現(xiàn)實(shí)的驗(yàn)證和因果可解釋性探測,以進(jìn)一步證實(shí)所提出框架的生物學(xué)啟發(fā)和實(shí)際應(yīng)用性。


原文鏈接:https://www.mdpi.com/2313-7673/10/11/715

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
高市早苗心腹遭圍攻!

高市早苗心腹遭圍攻!

環(huán)球時(shí)報(bào)國際
2026-01-27 00:23:57
天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭議

天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭議

阿SIR觀察
2026-01-27 10:38:05
王樹斌代理高州市市長,曾任佛山市政府副秘書長

王樹斌代理高州市市長,曾任佛山市政府副秘書長

南方都市報(bào)
2026-01-27 16:53:35
“牛鬼蛇神”扎堆,春晚第二次聯(lián)排讓人大失所望,網(wǎng)友們坐不住了

“牛鬼蛇神”扎堆,春晚第二次聯(lián)排讓人大失所望,網(wǎng)友們坐不住了

深析古今
2026-01-26 18:22:14
目之所及,政治生態(tài)正在幼態(tài)化

目之所及,政治生態(tài)正在幼態(tài)化

黔有虎
2026-01-27 09:45:03
多地黨委政法委書記調(diào)整

多地黨委政法委書記調(diào)整

上觀新聞
2026-01-27 17:29:04
“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

妍妍教育日記
2026-01-27 19:58:28
上映27天被觀眾趕出院線!網(wǎng)播也救不了它,事實(shí)證明爛片已無市場

上映27天被觀眾趕出院線!網(wǎng)播也救不了它,事實(shí)證明爛片已無市場

娛樂圈筆娛君
2026-01-27 09:40:32
“留學(xué)一年嘴都變大了”,女學(xué)生面相變化圖走紅,牢A果然權(quán)威

“留學(xué)一年嘴都變大了”,女學(xué)生面相變化圖走紅,牢A果然權(quán)威

離離言幾許
2026-01-26 16:18:04
一場追悼會,戳穿梁小龍?jiān)谙愀鄣恼鎸?shí)地位,原來成龍沒說謊!

一場追悼會,戳穿梁小龍?jiān)谙愀鄣恼鎸?shí)地位,原來成龍沒說謊!

叨嘮
2026-01-27 03:28:08
錢再多有什么用?51歲百億影帝黃渤近況曝光,給年輕人們提了個(gè)醒

錢再多有什么用?51歲百億影帝黃渤近況曝光,給年輕人們提了個(gè)醒

林雁飛
2026-01-27 12:31:08
這則流氓新聞,引發(fā)眾怒了!

這則流氓新聞,引發(fā)眾怒了!

胖胖說他不胖
2026-01-27 14:17:09
一個(gè)要求,震動?xùn)|京:中國要求日本盡快歸還,清算終于開始了

一個(gè)要求,震動?xùn)|京:中國要求日本盡快歸還,清算終于開始了

鐵錘簡科
2026-01-27 20:42:44
全是假的!涉及多個(gè)品牌,檢測結(jié)果觸目驚心!網(wǎng)友:老人小孩都在吃

全是假的!涉及多個(gè)品牌,檢測結(jié)果觸目驚心!網(wǎng)友:老人小孩都在吃

環(huán)球網(wǎng)資訊
2026-01-27 15:41:14
突擊檢查全國武器庫!一定要嚴(yán)防被掉包,甲午戰(zhàn)爭悲劇絕不能重演

突擊檢查全國武器庫!一定要嚴(yán)防被掉包,甲午戰(zhàn)爭悲劇絕不能重演

愛吃醋的貓咪
2026-01-27 20:31:00
國務(wù)院決定:免去曾國衛(wèi)職務(wù)

國務(wù)院決定:免去曾國衛(wèi)職務(wù)

看看新聞Knews
2026-01-27 11:01:02
張雨綺多個(gè)商務(wù)被取消,護(hù)膚、美妝等多個(gè)品牌緊急刪除其相關(guān)代言內(nèi)容;此前被實(shí)名舉報(bào)代孕、插足婚姻及律師威脅家屬等

張雨綺多個(gè)商務(wù)被取消,護(hù)膚、美妝等多個(gè)品牌緊急刪除其相關(guān)代言內(nèi)容;此前被實(shí)名舉報(bào)代孕、插足婚姻及律師威脅家屬等

魯中晨報(bào)
2026-01-27 20:53:09
這次軍委的動作,真是讓人倒吸一口涼氣!直接倒查9年

這次軍委的動作,真是讓人倒吸一口涼氣!直接倒查9年

忠于法紀(jì)
2026-01-27 08:57:33
“比兩口子還親”,家長曬兄妹互動,網(wǎng)友坐不住了:把衣服穿上

“比兩口子還親”,家長曬兄妹互動,網(wǎng)友坐不住了:把衣服穿上

澤澤先生
2026-01-27 21:12:38
全世界都被特朗普耍了!打擊伊朗只是個(gè)幌子,真正目標(biāo)已布局四年

全世界都被特朗普耍了!打擊伊朗只是個(gè)幌子,真正目標(biāo)已布局四年

興史興談
2026-01-27 05:18:52
2026-01-28 06:40:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會講話透露了哪些關(guān)鍵信息

頭條要聞

美報(bào)告稱中國是其面對最強(qiáng)大國家

頭條要聞

美報(bào)告稱中國是其面對最強(qiáng)大國家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學(xué)?

娛樂要聞

張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個(gè)商務(wù)被取消

財(cái)經(jīng)要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗(yàn)車下線

態(tài)度原創(chuàng)

健康
藝術(shù)
時(shí)尚
游戲
房產(chǎn)

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

藝術(shù)要聞

14位西方著名畫家的女性肖像畫!

這些韓系穿搭最適合普通人!多穿深色、衣服基礎(chǔ),簡潔耐看

LPL春季賽:決絕讓一追二,AL三局擊潰IG,大家的排名都不變

房產(chǎn)要聞

實(shí)景兌現(xiàn)在即!綠城,在海棠灣重新定義終極旅居想象!

無障礙瀏覽 進(jìn)入關(guān)懷版