網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

TBC-HRL：受生物啟發(fā)的穩(wěn)定且可解釋的分層強(qiáng)化學(xué)習(xí)框架

2026-01-08 00:10:10　來源: CreateAMind

上海舉報(bào)

分享至

TBC-HRL：一種受生物啟發(fā)的穩(wěn)定且可解釋的分層強(qiáng)化學(xué)習(xí)框架

TBC-HRL: A Bio-Inspired Framework for Stable and Interpretable Hierarchical Reinforcement Learning

https://www.mdpi.com/2313-7673/10/11/715

摘要

分層強(qiáng)化學(xué)習(xí)（HRL）通過分解復(fù)雜的決策過程，在長時(shí)域和稀疏獎(jiǎng)勵(lì)任務(wù)中表現(xiàn)出有效性，但由于層級間不穩(wěn)定、子目標(biāo)調(diào)度效率低下、響應(yīng)延遲以及可解釋性差等問題，其在現(xiàn)實(shí)世界中的應(yīng)用仍受限。為應(yīng)對這些挑戰(zhàn)，我們提出了一種受生物啟發(fā)的框架——定時(shí)仿生電路分層強(qiáng)化學(xué)習(xí)（TBC-HRL），該框架整合了兩種機(jī)制。首先，一種定時(shí)子目標(biāo)調(diào)度策略為每個(gè)子目標(biāo)分配固定的執(zhí)行持續(xù)時(shí)間，模仿動物行為中的節(jié)奏性動作模式，以改善層級間的協(xié)調(diào)并保持目標(biāo)一致性。其次，受秀麗隱桿線蟲（C. elegans）神經(jīng)回路啟發(fā)的神經(jīng)動力學(xué)仿生電路網(wǎng)絡(luò)（NDBCNet），取代了低層控制器中的傳統(tǒng)全連接網(wǎng)絡(luò)。NDBCNet 具有稀疏連接、連續(xù)時(shí)間動態(tài)和自適應(yīng)響應(yīng)等特點(diǎn)，能更有效地建模時(shí)間依賴關(guān)系，同時(shí)提供更好的可解釋性和更低的計(jì)算開銷，使其適用于資源受限的平臺。在六個(gè)動態(tài)且復(fù)雜的模擬任務(wù)中的實(shí)驗(yàn)表明，與傳統(tǒng) HRL 相比，TBC-HRL 持續(xù)提升了策略穩(wěn)定性、動作精確性和適應(yīng)性，展示了生物啟發(fā)結(jié)構(gòu)在智能控制系統(tǒng)中的實(shí)用價(jià)值和未來潛力。

關(guān)鍵詞：分層強(qiáng)化學(xué)習(xí)；仿生神經(jīng)回路；定時(shí)子目標(biāo)調(diào)度；液態(tài)時(shí)間常數(shù)網(wǎng)絡(luò)；神經(jīng)動力學(xué)控制；機(jī)器人學(xué)習(xí)；自主機(jī)器人；智能控制系統(tǒng)

引言

強(qiáng)化學(xué)習(xí)（RL）在解決復(fù)雜控制任務(wù)方面展現(xiàn)了強(qiáng)大的潛力，并已在機(jī)器人導(dǎo)航、機(jī)器人操作和自動駕駛等領(lǐng)域得到廣泛應(yīng)用 [1–4]。在各種 RL 架構(gòu)中，分層強(qiáng)化學(xué)習(xí)（HRL）因其“高層決策—低層執(zhí)行”結(jié)構(gòu)而尤為有效，該結(jié)構(gòu)提升了樣本效率，并增強(qiáng)了長時(shí)域任務(wù)中的策略泛化能力。通過將復(fù)雜問題分解為子目標(biāo)，HRL 緩解了稀疏獎(jiǎng)勵(lì)的挑戰(zhàn)，并支持模塊化策略設(shè)計(jì) [5–8]。然而，盡管具有這些理論優(yōu)勢，HRL 在現(xiàn)實(shí)世界部署中仍面臨關(guān)鍵性限制，包括層級間協(xié)調(diào)不穩(wěn)定、缺乏節(jié)奏性子目標(biāo)調(diào)度、低層響應(yīng)不足以及高計(jì)算成本 [9,10]。

這些挑戰(zhàn)可歸納為三個(gè)方面。
第一，層級間協(xié)調(diào)往往不穩(wěn)定：由于高層策略依賴于低層反饋，在低層策略尚未收斂前便可能產(chǎn)生策略偏差，導(dǎo)致學(xué)習(xí)速度緩慢甚至振蕩；頻繁的子目標(biāo)切換進(jìn)一步引發(fā)調(diào)度失衡，降低行為的一致性與效率［11,12］。
第二，低層控制器的響應(yīng)能力往往不足：傳統(tǒng)全連接網(wǎng)絡(luò)對突發(fā)環(huán)境變化適應(yīng)緩慢，而反應(yīng)式策略則缺乏記憶能力以整合歷史信息，使其難以建模速度變化、障礙分布及能耗模式等時(shí)間依賴關(guān)系［13］。
第三，現(xiàn)有策略網(wǎng)絡(luò)在可解釋性與計(jì)算效率上均存在局限：大多數(shù)網(wǎng)絡(luò)實(shí)現(xiàn)為“黑箱”模型，其決策來源難以追溯，引發(fā)安全隱患；此外，龐大的參數(shù)量及顯著的計(jì)算開銷也阻礙了分層強(qiáng)化學(xué)習(xí)在嵌入式或資源受限平臺上的部署［14］。

為應(yīng)對上述問題，近期研究開始借鑒生物神經(jīng)系統(tǒng)與行為機(jī)制的啟發(fā)［15,16］。自然界中，生物體展現(xiàn)出極強(qiáng)的適應(yīng)性、魯棒性與能效性，其神經(jīng)調(diào)控系統(tǒng)形成了感知、決策與控制之間層次分明的結(jié)構(gòu)［17］。例如，昆蟲僅憑極簡的神經(jīng)結(jié)構(gòu)即可實(shí)現(xiàn)穩(wěn)定的路徑規(guī)劃與目標(biāo)追蹤；線蟲（C. elegans）僅通過少量相互連接的神經(jīng)元便能產(chǎn)生復(fù)雜的運(yùn)動行為［18］；而脊椎動物則依賴大腦皮層與腦干間的多層級協(xié)調(diào)實(shí)現(xiàn)運(yùn)動控制［19］。這些實(shí)例表明，層級化決策結(jié)構(gòu)、突觸調(diào)控機(jī)制以及時(shí)間調(diào)控策略對穩(wěn)定行為生成至關(guān)重要。尤其值得注意的是，許多動物僅在完成一個(gè)行為單元后才重新評估環(huán)境反饋，從而提升效率與連續(xù)性。這種“目標(biāo)維持—反饋評估—周期性更新”的機(jī)制為高效的子目標(biāo)調(diào)度與穩(wěn)定學(xué)習(xí)提供了靈感。此外，生物神經(jīng)系統(tǒng)具備連接稀疏性、快速響應(yīng)性與強(qiáng)信息保持能力，為設(shè)計(jì)具可解釋性與高效率的控制網(wǎng)絡(luò)架構(gòu)提供了新方向。

受上述生物機(jī)制啟發(fā)，我們提出TBC-HRL——一種仿生框架，旨在克服傳統(tǒng)分層強(qiáng)化學(xué)習(xí)在調(diào)度穩(wěn)定性、控制響應(yīng)性及計(jì)算效率方面的局限。該框架整合了兩個(gè)核心組件：

第一，定時(shí)子目標(biāo)調(diào)度機(jī)制（Timed Subgoal Scheduling）：為每個(gè)子目標(biāo)分配固定的執(zhí)行時(shí)長（τ），借鑒生物行為中的時(shí)間持續(xù)性原理。此舉可減少頻繁子目標(biāo)切換帶來的干擾，改善層級間協(xié)同，并穩(wěn)定低層學(xué)習(xí)過程與響應(yīng)表現(xiàn)。

第二，神經(jīng)動力學(xué)仿生電路網(wǎng)絡(luò)（Neuro-Dynamic Bionic Circuit Network, NDBCNet）：受線蟲（C. elegans）神經(jīng)環(huán)路啟發(fā)，用于替代低層策略中的傳統(tǒng)全連接網(wǎng)絡(luò)。NDBCNet 具備稀疏連接、連續(xù)時(shí)間動態(tài)特性與自適應(yīng)響應(yīng)能力，可有效建模時(shí)間依賴關(guān)系，強(qiáng)化行為調(diào)控，并提升模型可解釋性；其緊湊的參數(shù)化設(shè)計(jì)進(jìn)一步降低了計(jì)算開銷，同時(shí)保持魯棒性能。

通過結(jié)合這些機(jī)制，TBC-HRL 實(shí)現(xiàn)了更穩(wěn)定、響應(yīng)更迅速且更具可解釋性的控制，突顯了仿生結(jié)構(gòu)在強(qiáng)化學(xué)習(xí)中的實(shí)用價(jià)值。

本工作的主要貢獻(xiàn)如下：

我們提出了 TBC-HRL，一種分層強(qiáng)化學(xué)習(xí)框架，將定時(shí)子目標(biāo)調(diào)度與一種受生物啟發(fā)的神經(jīng)回路模型（NDBCNet）相結(jié)合，以應(yīng)對 HRL 中協(xié)調(diào)不穩(wěn)定、響應(yīng)延遲和可解釋性有限等核心挑戰(zhàn)。
我們在六個(gè)具有稀疏獎(jiǎng)勵(lì)和長時(shí)域的模擬機(jī)器人任務(wù)中評估了 TBC-HRL，結(jié)果表明，相較于標(biāo)準(zhǔn) HRL 方法，其在樣本效率、子目標(biāo)穩(wěn)定性及策略泛化能力方面均表現(xiàn)出持續(xù)提升。
我們對 NDBCNet 進(jìn)行了詳細(xì)分析，并展示了其結(jié)構(gòu)稀疏性、時(shí)間動態(tài)特性以及自適應(yīng)響應(yīng)能力如何共同促成在復(fù)雜環(huán)境中實(shí)現(xiàn)魯棒且可解釋的低層控制。

相關(guān)工作

2.1 分層強(qiáng)化學(xué)習(xí)在現(xiàn)實(shí)任務(wù)中的局限性

分層強(qiáng)化學(xué)習(xí)（HRL）通過將策略分解為不同層級，在復(fù)雜控制任務(wù)中實(shí)現(xiàn)了較高的樣本效率與較強(qiáng)的策略泛化能力：高層策略生成子目標(biāo)，低層策略負(fù)責(zé)執(zhí)行子目標(biāo)，從而緩解了長時(shí)域任務(wù)中獎(jiǎng)勵(lì)稀疏的問題。代表性方法包括 Option-Critic、FeUdal Networks、HIRO 與 HiTS［20–23］。然而，HRL 在現(xiàn)實(shí)場景中仍面臨若干關(guān)鍵挑戰(zhàn)。

首先，高層策略高度依賴于低層策略的反饋；而在訓(xùn)練初期，低層學(xué)習(xí)尚不穩(wěn)定，常導(dǎo)致高層策略無法收斂，進(jìn)而引發(fā)非平穩(wěn)更新。其次，子目標(biāo)調(diào)度缺乏節(jié)律性與時(shí)間協(xié)調(diào)性，頻繁切換子目標(biāo)會干擾低層學(xué)習(xí)效率。第三，現(xiàn)有大多數(shù) HRL 框架采用全連接神經(jīng)網(wǎng)絡(luò)作為策略逼近器，這類網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、響應(yīng)遲緩、可解釋性有限，難以滿足實(shí)時(shí)性、能效性與穩(wěn)定性要求較高的控制應(yīng)用需求。

因此，亟需構(gòu)建具備節(jié)律感知調(diào)度能力、輕量化網(wǎng)絡(luò)結(jié)構(gòu)以及仿生特性的層級架構(gòu)，以提升層級間協(xié)調(diào)的穩(wěn)定性，并降低響應(yīng)延遲。

2.2 子目標(biāo)調(diào)度與時(shí)間抽象機(jī)制

在 HRL 中，高層策略對子目標(biāo)的生成與調(diào)度對整體性能與穩(wěn)定性至關(guān)重要。目前已提出多種方法以提升調(diào)度的合理性與適應(yīng)性。例如，HIRO 采用固定間隔調(diào)度，方法簡單但缺乏對環(huán)境的適應(yīng)性；FeUdal Networks 與 SNN-HRL［24］引入了狀態(tài)觸發(fā)機(jī)制，增強(qiáng)了感知響應(yīng)性，卻可能導(dǎo)致策略振蕩；HiTS 采用可學(xué)習(xí)的切換策略，能自主判定子目標(biāo)切換時(shí)機(jī)，但由于缺乏顯式的時(shí)間約束，在低層策略中仍可能引發(fā)頻繁切換與碎片化學(xué)習(xí)。

此外，隨著訓(xùn)練過程中低層策略持續(xù)演化，高層策略實(shí)際運(yùn)行于一個(gè)非平穩(wěn)的半馬爾可夫決策過程（SMDP）中：其狀態(tài)轉(zhuǎn)移動態(tài)變化，阻礙收斂并降低樣本效率。盡管已有研究提出事后重標(biāo)注（hindsight relabeling）與鄰接損失（adjacency loss）等技術(shù)以緩解該問題，但其效果仍受限于策略穩(wěn)定性及子目標(biāo)空間的復(fù)雜性。

值得注意的是，現(xiàn)有大多數(shù)方法忽視了子目標(biāo)執(zhí)行過程中的時(shí)間連續(xù)性與行為節(jié)律性。在現(xiàn)實(shí)任務(wù)中，缺乏這些特性往往導(dǎo)致調(diào)度信號呈現(xiàn)離散性與不穩(wěn)定性，削弱高層與低層之間的協(xié)同。相比之下，生物體常通過節(jié)律性、持續(xù)性的動作序列（如昆蟲覓食或動物運(yùn)動控制）實(shí)現(xiàn)行為穩(wěn)定——這啟發(fā)我們在高層調(diào)度中引入顯式時(shí)間約束，以提升系統(tǒng)的穩(wěn)定性與執(zhí)行效率。

與以往主要關(guān)注“子目標(biāo)應(yīng)在何時(shí)切換”（即調(diào)度時(shí)刻）的工作不同，我們的框架強(qiáng)調(diào)對子目標(biāo)持續(xù)時(shí)間 τ 的顯式建模。通過為每個(gè)子目標(biāo)分配固定的執(zhí)行時(shí)長，高層控制器實(shí)現(xiàn)了具有節(jié)律性的時(shí)間抽象，減少了過度切換，并穩(wěn)定了層級間的協(xié)同。這一差異凸顯了我們的核心貢獻(xiàn)：從基于時(shí)刻的子目標(biāo)觸發(fā)機(jī)制，轉(zhuǎn)向基于持續(xù)時(shí)間的調(diào)度機(jī)制，從而增強(qiáng)長時(shí)域下的信用分配能力，并整體提升策略的穩(wěn)定性。

2.3 仿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在智能控制中的應(yīng)用

近年來，受生物神經(jīng)系統(tǒng)的啟發(fā)，研究人員提出了一系列具備強(qiáng)大時(shí)序建模與動態(tài)調(diào)控能力的仿生神經(jīng)網(wǎng)絡(luò)架構(gòu)，包括脈沖神經(jīng)網(wǎng)絡(luò)（SNNs）［25］、液態(tài)時(shí)間常數(shù)網(wǎng)絡(luò)（LTC）［26］以及神經(jīng)環(huán)路策略（NCPs）［18］。這些模型通過稀疏連接與神經(jīng)元狀態(tài)的動態(tài)演化，模擬了膜電位動力學(xué)過程，在時(shí)間序列建模、自適應(yīng)控制及可解釋性方面展現(xiàn)出顯著優(yōu)勢，并在機(jī)器人控制、運(yùn)動預(yù)測及序列決策等任務(wù)中展現(xiàn)出廣闊的應(yīng)用前景［27–29］。

與傳統(tǒng)全連接神經(jīng)網(wǎng)絡(luò)相比，仿生結(jié)構(gòu)通常參數(shù)更少、計(jì)算效率更高、魯棒性更強(qiáng)，因而特別適用于資源受限或?qū)崟r(shí)性要求高的控制場景。然而，目前大多數(shù)研究集中于將仿生神經(jīng)網(wǎng)絡(luò)應(yīng)用于單層策略框架中；其在分層控制架構(gòu)中的整合仍鮮有探索，為未來研究留下了廣闊空間。

背景

3.1 MDP 與 SMDP

強(qiáng)化學(xué)習(xí)（RL）問題通常被建模為馬爾可夫決策過程（MDP），其由狀態(tài)空間、動作空間、狀態(tài)轉(zhuǎn)移動態(tài) P(s′|s, a)、獎(jiǎng)勵(lì)函數(shù) R(s, a) 以及折扣因子 γ ∈ [0, 1] 定義。智能體根據(jù)策略 π(a|s) 與環(huán)境交互，以最大化期望折扣回報(bào)：

雖然 MDP 適用于許多任務(wù)，但由于其單步?jīng)Q策粒度，在長時(shí)域和稀疏獎(jiǎng)勵(lì)問題中表現(xiàn)不佳。為解決此問題，HRL 擴(kuò)展至半馬爾可夫決策過程（SMDP），其中高層策略輸出由低層策略執(zhí)行的、持續(xù)多個(gè)時(shí)間步的時(shí)序抽象動作（子目標(biāo)）。這種抽象有助于提升探索能力，但會引入非平穩(wěn)動力學(xué)，因?yàn)楦邔硬呗砸蕾囉诓粩嘌莼牡蛯硬呗?，且穩(wěn)定性對 τ 的選擇高度敏感。

3.2 基于子目標(biāo)的 HRL

在基于子目標(biāo)的 HRL 中，高層控制器生成子目標(biāo) g ∈ ，而低層策略則執(zhí)行基本動作以實(shí)現(xiàn)這些子目標(biāo)。因此，子目標(biāo)的調(diào)度對整體性能至關(guān)重要?，F(xiàn)有方法采用不同策略：HIRO［22］使用固定時(shí)間間隔，結(jié)構(gòu)簡單但適應(yīng)性差；FeUdal Networks 與 SNN-HRL［24］依賴狀態(tài)觸發(fā)更新，雖提升了響應(yīng)性，卻可能引發(fā)振蕩；HiTS［23］自適應(yīng)學(xué)習(xí)切換點(diǎn)，但因缺乏顯式時(shí)間約束，仍可能出現(xiàn)頻繁切換與行為碎片化。

總體而言，當(dāng)前方法缺乏節(jié)律感知調(diào)度與自適應(yīng)時(shí)間抽象機(jī)制，這限制了其在現(xiàn)實(shí)部署中的穩(wěn)定性與效率。這些問題促使我們開發(fā)一種結(jié)合顯式時(shí)間協(xié)調(diào)與魯棒分層控制的機(jī)制——正如本文所追求的方向。

方法

4.1 總體架構(gòu)：TBC-HRL

我們提出 TBC-HRL，一種雙層級分層強(qiáng)化學(xué)習(xí)框架，它將高層 SAC 策略與由 NDBCNet 參數(shù)化的低層 SAC 策略相結(jié)合。所提框架的整體結(jié)構(gòu)如圖 1 所示，該圖提供了高層控制器、低層控制器與環(huán)境之間交互的系統(tǒng)級概覽。高層控制器 π? 在粗粒度時(shí)間尺度上運(yùn)行，通過定時(shí)子目標(biāo)調(diào)度機(jī)制生成空間子目標(biāo) g 及其時(shí)間預(yù)算 τ?，確保層級間的時(shí)間協(xié)調(diào)。低層控制器 π? 在細(xì)粒度時(shí)間尺度上與環(huán)境交互，根據(jù)子目標(biāo)及其預(yù)算執(zhí)行相應(yīng)動作。兩個(gè)層級均維護(hù)獨(dú)立的經(jīng)驗(yàn)回放緩沖區(qū)（?, ?）及用于 SAC 更新的 Q 函數(shù)評估器，從而實(shí)現(xiàn)解耦但協(xié)調(diào)的優(yōu)化。該設(shè)計(jì)增強(qiáng)了在長時(shí)域和稀疏獎(jiǎng)勵(lì)任務(wù)中的穩(wěn)定性、樣本效率與泛化能力。

其中，g? 表示空間子目標(biāo)（例如，目標(biāo)位置或狀態(tài)向量），Δt? 指定了在低層時(shí)間步長中的執(zhí)行時(shí)域。高層獎(jiǎng)勵(lì) r?? 根據(jù)任務(wù)進(jìn)展計(jì)算，并更新頻率較低，通常每 Δt? 個(gè)低層步長更新一次。

我們將時(shí)間預(yù)算 Δt 視為一種時(shí)間抽象機(jī)制，它像低通濾波器一樣抑制高層切換：過小的 Δt 會引發(fā)頻繁的重新同步與跨層級非平穩(wěn)性，而過大的 Δt 則會導(dǎo)致對環(huán)境外部事件反應(yīng)遲緩。在實(shí)踐中，我們采用一個(gè)簡單且可復(fù)現(xiàn)的規(guī)則，使 Δt 隨典型子目標(biāo)可達(dá)性進(jìn)行縮放：

4.2 高層策略生成

高層模塊整合了基于SAC的優(yōu)化、顯式時(shí)間抽象和后見重標(biāo)記，實(shí)現(xiàn)了高效、有節(jié)奏且受生物啟發(fā)的子目標(biāo)調(diào)度。

4.3 神經(jīng)動態(tài)仿生控制網(wǎng)絡(luò)

為了提高低層策略的響應(yīng)性和控制精度，我們引入了NDBCNet，這是一種受秀麗隱桿線蟲緊湊高效神經(jīng)系統(tǒng)啟發(fā)的生物神經(jīng)架構(gòu)。與傳統(tǒng)依賴離散層和固定步長更新的全連接網(wǎng)絡(luò)不同，NDBCNet采用稀疏連接性、連續(xù)時(shí)間動態(tài)和興奮/抑制調(diào)節(jié)，實(shí)現(xiàn)細(xì)粒度的時(shí)間建模和強(qiáng)化學(xué)習(xí)中的魯棒控制。

其中較小的值表示更快的響應(yīng)。這個(gè)屬性允許低層控制器快速適應(yīng)高層子目標(biāo)更新。

為了部署，我們推導(dǎo)出一個(gè)常微分方程（ODE）解的閉式近似，這顯著加速了推理過程，而無需重新訓(xùn)練：

相對于精確解有界的誤差。這種效率使得NDBCNet非常適合用于分層強(qiáng)化學(xué)習(xí)中的實(shí)時(shí)低層控制。

NDBCNet為低層控制提供了一種緊湊、可解釋且動態(tài)響應(yīng)的架構(gòu)，結(jié)合了生物學(xué)動機(jī)的稀疏性與連續(xù)時(shí)間建模，以提高魯棒性、適應(yīng)性和計(jì)算效率。

4.4 低層策略生成和優(yōu)化

與傳統(tǒng)的多層感知器相比，NDBCNet提供了：（i）通過連續(xù)時(shí)間動態(tài)實(shí)現(xiàn)的優(yōu)越時(shí)間建模，（ii）通過稀疏和模塊化架構(gòu)增強(qiáng)的可解釋性，（iii）通過遞歸結(jié)構(gòu)和有界梯度傳播提高的穩(wěn)定性，以及（iv）在每個(gè)子目標(biāo)執(zhí)行窗口 τ 內(nèi)的高響應(yīng)性。這些特性提高了對噪聲的魯棒性，加速了收斂，并在動態(tài)、長時(shí)域任務(wù)中增強(qiáng)了低層控制精度。

4.5 策略優(yōu)化和訓(xùn)練過程

這提供了一種時(shí)間感知的表示，用于經(jīng)驗(yàn)重放和后見重標(biāo)記。這使得低層控制器不僅能夠?qū)W習(xí)如何達(dá)到子目標(biāo)，還能學(xué)習(xí)如何在固定的時(shí)間預(yù)算內(nèi)分配動作。

通過這種方案，低層控制器學(xué)習(xí)精確的、時(shí)間受限的行為，而高層策略專注于任務(wù)分解和子目標(biāo)調(diào)度。它們共同提高了長時(shí)域任務(wù)中的探索效率、魯棒性和時(shí)間協(xié)調(diào)。完整的訓(xùn)練過程總結(jié)在算法1中。

實(shí)驗(yàn)

5.1 實(shí)驗(yàn)環(huán)境

為了全面評估所提出的TBC-HRL算法，我們在六個(gè)具有代表性的模擬環(huán)境中進(jìn)行了實(shí)驗(yàn)，這些環(huán)境在任務(wù)難度、動態(tài)性和控制要求方面各不相同（見圖3）。這些環(huán)境的訓(xùn)練步驟、狀態(tài)/動作維度和關(guān)鍵特征總結(jié)在表1中。所選環(huán)境涵蓋了廣泛的任務(wù)，包括導(dǎo)航、操作、平衡控制和動態(tài)交互，為評估在長時(shí)域依賴和稀疏獎(jiǎng)勵(lì)下的性能提供了堅(jiān)實(shí)的基礎(chǔ)。

AntFourRooms：一個(gè)四足機(jī)器人通過一個(gè)四室迷宮從起點(diǎn)導(dǎo)航到指定的目標(biāo)房間。環(huán)境包含狹窄的通道和障礙物，強(qiáng)調(diào)長時(shí)域規(guī)劃和障礙物規(guī)避。
吊橋：一個(gè)時(shí)間控制場景，代理必須操作吊橋以允許船只安全通過。該任務(wù)強(qiáng)調(diào)動態(tài)環(huán)境中的時(shí)間協(xié)調(diào)和主動預(yù)期。
擺：一個(gè)經(jīng)典的控制問題，要求擺錘被擺動并穩(wěn)定在頂部。其非線性動態(tài)和連續(xù)動作空間需要精確的力量應(yīng)用和平衡維護(hù)。
平臺：一個(gè)側(cè)滾式任務(wù)，代理必須在正確的時(shí)刻觸發(fā)移動平臺以到達(dá)目標(biāo)。延遲的動作效果和稀疏的獎(jiǎng)勵(lì)使其成為時(shí)間推理和信用分配的基準(zhǔn)。
Tennis2D：一個(gè)機(jī)械臂必須擊球，使其落在目標(biāo)區(qū)域。成功需要在高隨機(jī)性和頻繁接觸下精確的時(shí)機(jī)，控制延遲最小。
UR5Reacher：一個(gè)工業(yè)機(jī)器人臂控制任務(wù)，涉及在避免碰撞的同時(shí)達(dá)到多個(gè)目標(biāo)。它評估在高自由度系統(tǒng)中的準(zhǔn)確性、路徑效率和能量效率。

在所有環(huán)境中，我們報(bào)告成功率、樣本效率（以達(dá)到性能閾值所需的訓(xùn)練步驟數(shù)來衡量）和策略穩(wěn)定性（方差）作為主要評估指標(biāo)。重要的是，這些環(huán)境的特征與TBC-HRL的核心貢獻(xiàn)一致：長時(shí)域和稀疏獎(jiǎng)勵(lì)強(qiáng)調(diào)了定時(shí)子目標(biāo)調(diào)度的好處，而動態(tài)擾動和高維控制則突出了NDBCNet的響應(yīng)性和可解釋性優(yōu)勢。完整的NDBCNet配置和每個(gè)算法的超參數(shù)在附錄A表A1和表A2中提供。

為了評估觀察到的改進(jìn)是否具有統(tǒng)計(jì)學(xué)意義，我們使用已經(jīng)收集的運(yùn)行結(jié)果（無需額外訓(xùn)練）計(jì)算雙側(cè)顯著性檢驗(yàn)和置信區(qū)間。除非另有說明，否則我們匯總每個(gè)環(huán)境中獨(dú)立種子的分?jǐn)?shù)，并在每個(gè)種子的評估情節(jié)中匯總。

5.2 實(shí)驗(yàn)結(jié)果

我們在六個(gè)環(huán)境中比較了四種方法（圖4，表2）：SAC、HAC、HITS和TBC-HRL。SAC是一個(gè)單層基線；HAC是一個(gè)不包括定時(shí)子目標(biāo)調(diào)度或NDBCNet的雙層變體；HITS是一個(gè)時(shí)間感知的分層強(qiáng)化學(xué)習(xí)基線，其中高層策略提出子目標(biāo)，低層控制器執(zhí)行它們；TBC-HRL通過定時(shí)子目標(biāo)機(jī)制和NDBCNet增強(qiáng)了分層框架。所有方法共享相同的狀態(tài)/動作空間、獎(jiǎng)勵(lì)函數(shù)和訓(xùn)練預(yù)算。在表2中，收斂增益表示TBC-HRL相對于最強(qiáng)基線（SAC/HAC/HITS中的最佳）達(dá)到目標(biāo)閾值所需的訓(xùn)練步驟的減少。陰影帶表示95%自舉置信區(qū)間，最終周期標(biāo)記報(bào)告與最強(qiáng)基線相比的顯著性。為了確保公平比較，我們匹配超參數(shù)調(diào)整和預(yù)算，報(bào)告10個(gè)隨機(jī)種子的結(jié)果，按最終周期均值 ± 標(biāo)準(zhǔn)差匯總，使用共同的成功閾值進(jìn)行收斂，并呈現(xiàn)95%自助置信區(qū)間。

時(shí)間關(guān)鍵環(huán)境（吊橋、平臺、網(wǎng)球2D）。在需要明確時(shí)間節(jié)奏和階段進(jìn)展的任務(wù)中，TBC-HRL始終收斂最快，并且達(dá)到最高的最終成功率?？傮w而言，TBC-HRL通常比最強(qiáng)基線提前約0.4-0.8百萬步達(dá)到目標(biāo)，并且學(xué)習(xí)曲線更平滑。例如，在平臺上，TBC-HRL的成功率約為72%，而HITS大約為43%。在網(wǎng)球2D中，TBC-HRL達(dá)到約38%，而HITS約為24%，然而，所有方法都沒有在預(yù)算內(nèi)實(shí)現(xiàn)穩(wěn)定收斂，因此沒有報(bào)告收斂增益。

精確控制和動態(tài)響應(yīng)（四足螞蟻房間、UR5Reacher、擺）。在強(qiáng)調(diào)精細(xì)控制和快速響應(yīng)的任務(wù)中，TBC-HRL再次實(shí)現(xiàn)了最佳的最終成功率和更穩(wěn)定的收斂。在四足螞蟻房間中，TBC-HRL約為90%，而HITS大約為84%；在UR5Reacher中，97.6%對比96.6%，方差更低，曲線更平滑。在擺中，所有方法都迅速達(dá)到高性能，留下的進(jìn)一步改進(jìn)空間有限。

總結(jié)來說，在所有六個(gè)環(huán)境中，TBC-HRL都達(dá)到了最佳的最終成功率。它在時(shí)間關(guān)鍵任務(wù)中顯示出明顯的樣本效率優(yōu)勢，在精確控制任務(wù)中表現(xiàn)出更穩(wěn)定的高性能。定時(shí)子目標(biāo)（穩(wěn)定層間協(xié)調(diào)和長時(shí)域信用分配）和NDBCNet（增強(qiáng)低層精度和適應(yīng)性）的結(jié)合解釋了觀察到的特征：更快的學(xué)習(xí)、更低的方差和更高的漸近成功率。

圖5展示了UR5Reacher環(huán)境中第三關(guān)節(jié)運(yùn)動的不同指揮神經(jīng)元的激活動態(tài)?？梢暬瘡牡停ㄋ{(lán)色）到高（紅色）沿著空間軌跡過渡，反映了TBC-HRL在運(yùn)動執(zhí)行期間如何處理時(shí)間序列信號。

在UR5Reacher中，指揮神經(jīng)元，表明對特定關(guān)節(jié)配置或方向的敏感性，而指揮神經(jīng)元。這種勞動分工表明NDBCNet促進(jìn)了神經(jīng)元之間的功能專業(yè)化，以捕捉不同的運(yùn)動特征，從而提高控制精度和協(xié)調(diào)性。

為了提供與這些模式一致的定量支持，我們評估了保留軌跡上的四種互補(bǔ)措施。損傷實(shí)驗(yàn)表明，移除最活躍的前5個(gè)神經(jīng)元會導(dǎo)致相對性能下降12.8 ± 2.3%。神經(jīng)元活動與任務(wù)特征（例如，速度、高度變化和能量消耗）之間的平均皮爾遜相關(guān)系數(shù)為0.47 ± 0.06。最后，神經(jīng)元激活與子目標(biāo)階段之間的互信息平均為0.36比特（第90百分位數(shù)為0.52比特）。這些結(jié)果與圖5中的空間-時(shí)間激活布局一致，表明在子目標(biāo)窗口內(nèi)具有特定階段的響應(yīng)和有助于解釋模型在復(fù)雜控制任務(wù)中的決策過程的結(jié)構(gòu)化內(nèi)部動態(tài)。

5.3 消融研究

對于消融實(shí)驗(yàn)（TS-off和NDBCNet-off），我們通過寬度調(diào)整或零填充匹配參數(shù)總數(shù)在±0.5%以內(nèi)，并精確匹配訓(xùn)練預(yù)算（總環(huán)境步驟、梯度更新、批量大小、重放比例和評估頻率）。優(yōu)化器計(jì)劃和熵溫度目標(biāo)在不同變體中保持固定。我們比較了四種配置（圖6和表3）：（1）完整的TBC-HRL，同時(shí)具有NDBCNet和定時(shí)子目標(biāo)（TS），（2）TBC-HRL(-NDBCNet)，其中低層策略被MLP替換，但保留了TS，（3）TBC-HRL(-TS)，保留了NDBCNet但去除了TS，以及（4）沒有任一組件的HAC。

總體而言，TBC-HRL始終實(shí)現(xiàn)了最佳成功率、更快的收斂速度和更低的方差。移除TS或NDBCNet會降低性能，而HAC是最弱且最不穩(wěn)定的，這證實(shí)了這兩個(gè)組件都是必要且互補(bǔ)的。

任務(wù)級分析顯示了不同的作用。在空間復(fù)雜或高自由度任務(wù)（如AntFourRooms和UR5Reacher）中，NDBCNet至關(guān)重要：TBC-HRL在AntFourRooms中實(shí)現(xiàn)了約90%的成功率，而沒有NDBCNet時(shí)為71%，HAC為75%。在對時(shí)間敏感的環(huán)境（如Drawbridge、Platforms和Tennis2D）中，TS更為重要；例如，在Drawbridge中，沒有TS時(shí)成功率從71%（全部）降至57%，而HAC為36%。擺錘相對簡單：所有方法的成功率都超過80%，TBC-HRL顯示出略微更快和更穩(wěn)定的收斂。

從機(jī)制上講，TS通過分配固定的執(zhí)行持續(xù)時(shí)間 τ 來穩(wěn)定層間協(xié)調(diào)，從而在時(shí)間關(guān)鍵設(shè)置中改善時(shí)間信用分配。NDBCNet以其稀疏連接性和連續(xù)時(shí)間動態(tài)，更有效地捕捉非線性和延遲，從而在高維控制中提高精度。這些模塊之間的協(xié)同作用解釋了在TBC-HRL中觀察到的改進(jìn)的收斂速度、穩(wěn)定性和漸近性能，而每次消融下的系統(tǒng)性下降則強(qiáng)調(diào)了它們互補(bǔ)的貢獻(xiàn)。定量地，移除TS在對時(shí)間敏感的環(huán)境（Drawbridge、Platforms、Tennis2D）中平均成功率降低了約14%，而移除NDBCNet在空間復(fù)雜任務(wù)（AntFourRooms、UR5Reacher）中性能降低了大約11%，進(jìn)一步證實(shí)了它們獨(dú)特但互補(bǔ)的作用。

本研究介紹了TBC-HRL，它將定時(shí)子目標(biāo)調(diào)度與NDBCNet結(jié)合用于低層控制。如圖4所示，并由圖6中的消融研究證實(shí)，完整的框架與HAC和單組件變體相比，實(shí)現(xiàn)了更高的漸近成功率、更快的收斂速度和更低的跨種子變異性。

特定環(huán)境的分析揭示了任務(wù)依賴的模式：空間復(fù)雜或高自由度設(shè)置（AntFourRooms、UR5Reacher）更多地受益于NDBCNet，而時(shí)間關(guān)鍵任務(wù)（Drawbridge、Tennis2D、Platforms）則更多地從TS中獲益。在簡單的擺錘任務(wù)中，所有方法的表現(xiàn)相當(dāng)，但TBC-HRL仍然稍微更快和更穩(wěn)定地收斂。從機(jī)制上講，TS通過分配固定的執(zhí)行持續(xù)時(shí)間 τ 來加強(qiáng)固定的執(zhí)行持續(xù)時(shí)間，這減輕了層間抖動并改善了時(shí)間信用分配，而NDBCNet引入了稀疏的、連續(xù)時(shí)間動態(tài)，更好地捕捉非線性和延遲。

重要的是，TS和NDBCNet的協(xié)同作用在不同環(huán)境中始終一致地提高了收斂速度、穩(wěn)定性和最終性能。定量地，移除TS會使時(shí)間敏感任務(wù)的平均成功率降低約14%，而移除NDBCNet會使空間復(fù)雜設(shè)置的性能降低約11%。神經(jīng)元級別的可視化進(jìn)一步突出了控制器內(nèi)的功能專業(yè)化，將這些收益與提高的可解釋性聯(lián)系起來。除了經(jīng)驗(yàn)上的改進(jìn)，這些發(fā)現(xiàn)表明，將生物學(xué)啟發(fā)的時(shí)間抽象和神經(jīng)動態(tài)納入考慮代表了一種新的穩(wěn)定和可解釋的分層強(qiáng)化學(xué)習(xí)的設(shè)計(jì)范式。

結(jié)論

總結(jié)來說，TBC-HRL通過將定時(shí)子目標(biāo)調(diào)度與NDBCNet結(jié)合，在六個(gè)基準(zhǔn)環(huán)境中實(shí)現(xiàn)了收斂速度、穩(wěn)定性和最終性能的一致改進(jìn)。結(jié)果表明，TS減少了時(shí)間敏感任務(wù)中的層間抖動，并加強(qiáng)了時(shí)間信用分配，而NDBCNet提供了稀疏的連續(xù)時(shí)間動態(tài)，增強(qiáng)了空間復(fù)雜或高維設(shè)置中的精度和魯棒性。神經(jīng)元級別的可視化進(jìn)一步揭示了學(xué)習(xí)控制器內(nèi)的功能專業(yè)化，提供了改進(jìn)的可解釋性，并將觀察到的性能提升與生物學(xué)啟發(fā)的設(shè)計(jì)原則聯(lián)系起來。

盡管有這些貢獻(xiàn)，本研究有幾個(gè)局限性，包括使用固定的 τ 和專注于模擬環(huán)境。未來的研究將探索自適應(yīng)或?qū)W習(xí)調(diào)度策略，擴(kuò)大與包括基于模型和分層方法在內(nèi)的更廣泛基線的比較，并研究在非平穩(wěn)和遷移設(shè)置下的魯棒性。此外，將進(jìn)行模擬到現(xiàn)實(shí)的驗(yàn)證和因果可解釋性探測，以進(jìn)一步證實(shí)所提出框架的生物學(xué)啟發(fā)和實(shí)際應(yīng)用性。

原文鏈接：https://www.mdpi.com/2313-7673/10/11/715

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.