網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

無需解碼器與數(shù)據(jù)增強(qiáng)的冗余精簡世界模型

2026-03-09 21:11:36　來源: CreateAMind

上海舉報

分享至

無需解碼器與數(shù)據(jù)增強(qiáng)的冗余精簡世界模型

R2-DREAMER: REDUNDANCY-REDUCED WORLDMODELS WITHOUT DECODERS OR AUGMENTATION

https://openreview.net/pdf?id=Je2QqXrcQq

https://github.com/NM512/r2dreamer

摘要

基于圖像的模型強(qiáng)化學(xué)習(xí)（Model-Based Reinforcement Learning, MBRL）面臨的一個核心挑戰(zhàn)是：學(xué)習(xí)能夠從無關(guān)視覺細(xì)節(jié)中提煉出關(guān)鍵信息的表征。盡管基于重建的方法展現(xiàn)出一定前景，但其往往將大量表征容量浪費(fèi)在與任務(wù)無關(guān)的大面積區(qū)域上。無解碼器方法則轉(zhuǎn)而通過利用數(shù)據(jù)增強(qiáng)（Data Augmentation, DA）來學(xué)習(xí)魯棒的表征，但對這類外部正則化器的依賴限制了其通用性。我們提出 R2-Dreamer，這是一種無解碼器的 MBRL 框架，其采用一種自監(jiān)督目標(biāo)作為內(nèi)部正則化器，無需依賴數(shù)據(jù)增強(qiáng)即可防止表征坍縮。我們方法的核心是受 Barlow Twins 啟發(fā)的冗余減少（redundancy-reduction）目標(biāo)，該目標(biāo)可輕松集成到現(xiàn)有框架中。在 DeepMind Control Suite 和 Meta-World 基準(zhǔn)上，R2-Dreamer 與 DreamerV3、TD-MPC2 等強(qiáng)基線方法性能相當(dāng)，同時訓(xùn)練速度比 DreamerV3 快 1.59 倍；在包含微小任務(wù)相關(guān)物體的 DMC-Subtle 任務(wù)上，該方法取得了顯著提升。這些結(jié)果表明，一種有效的內(nèi)部正則化器能夠支撐通用、高性能的無解碼器 MBRL。代碼地址：https://github.com/NM512/r2dreamer。

1 引言

學(xué)習(xí)有效的潛在表征是基于模型的強(qiáng)化學(xué)習(xí)（MBRL）中世界模型的核心基石，但這也帶來了一項(xiàng)重要挑戰(zhàn)：表征必須捕捉任務(wù)關(guān)鍵信息，同時避免對無關(guān)細(xì)節(jié)的過擬合。盡管循環(huán)狀態(tài)空間模型（Recurrent State-Space Model, RSSM）等架構(gòu)已取得顯著成功（Hafner 等人，2025），一個根本性問題仍未解決：學(xué)習(xí)表征本身的最優(yōu)目標(biāo)函數(shù)究竟是什么？這一問題在基于圖像的設(shè)定中尤為重要，因?yàn)楦呔S觀測使得表征學(xué)習(xí)本身具有內(nèi)在挑戰(zhàn)性。

在實(shí)踐中，許多主流方法通過優(yōu)化像素級重建目標(biāo)來學(xué)習(xí)表征（Micheli 等人，2023；Zhang 等人，2023；Seo 等人，2023；Micheli 等人，2024；Alonso 等人，2024；Hafner 等人，2025）。這帶來一個關(guān)鍵問題：學(xué)習(xí)信號被觀測中空間占比大但與任務(wù)無關(guān)的部分（如背景）所主導(dǎo)。因此，模型被激勵去精細(xì)重建這些細(xì)節(jié)，從而浪費(fèi)了表征容量與計(jì)算資源，反而可能忽略那些雖小但對任務(wù)至關(guān)重要的物體。

為克服像素級重建的局限性，無解碼器方法通過自監(jiān)督損失來學(xué)習(xí)表征（Deng 等人，2022；Okada & Taniguchi，2022；Burchi & Timofte，2025）。為防止此類方法中常見的表征坍縮問題，它們高度依賴數(shù)據(jù)增強(qiáng)（DA）作為外部正則化器。然而，這種對 DA 的依賴構(gòu)成了通用智能體發(fā)展的顯著瓶頸（Laskin 等人，2020；Ma 等人，2025），因?yàn)樽儞Q方式的選擇具有任務(wù)依賴性：隨機(jī)平移可能丟棄關(guān)鍵的小物體，而顏色抖動在顏色本身是關(guān)鍵特征時反而有害。

在本工作中，我們聚焦于廣泛使用的 RSSM 框架內(nèi)的表征學(xué)習(xí)目標(biāo)，提出 R2-Dreamer，旨在打破對解碼器與數(shù)據(jù)增強(qiáng)的依賴。為單獨(dú)考察學(xué)習(xí)目標(biāo)本身的影響，我們基于成熟的 Dreamer 架構(gòu)進(jìn)行構(gòu)建。受 Barlow Twins（Zbontar 等人，2021）啟發(fā)，我們引入圖像嵌入與潛在狀態(tài)之間的冗余減少目標(biāo)，無需外部正則化器即可防止表征坍縮，從而提供一個通用且魯棒的基線，能夠?qū)崿F(xiàn)具有競爭力的性能。

我們的主要貢獻(xiàn)如下：

為基于 RSSM 的無解碼器 MBRL 提出了一種新的表征學(xué)習(xí)范式，以內(nèi)部冗余減少目標(biāo)取代了可能扭曲任務(wù)關(guān)鍵信息的啟發(fā)式數(shù)據(jù)增強(qiáng)（DA）。
在標(biāo)準(zhǔn)基準(zhǔn)（包括 DeepMind Control Suite (DMC) 和 Meta-World）上具有競爭力的性能，并在我們新提出的、更具挑戰(zhàn)性的 DMC-Subtle 基準(zhǔn)上表現(xiàn)優(yōu)異；同時，通過移除解碼器實(shí)現(xiàn)了更快的訓(xùn)練速度。
發(fā)布我們統(tǒng)一的 PyTorch 代碼庫，其中包括基于我們 DreamerV3 實(shí)現(xiàn)的方法與基線代碼，以及 DMC-Subtle 基準(zhǔn)，以促進(jìn)未來研究。

2 相關(guān)工作

我們的工作位于模型強(qiáng)化學(xué)習(xí)（MBRL）與自監(jiān)督學(xué)習(xí)（Self-Supervised Learning, SSL）的交叉領(lǐng)域。我們通過回顧 MBRL 中的表征學(xué)習(xí)策略及其應(yīng)對正則化挑戰(zhàn)的方式，來定位我們的方法。

2.1 世界模型中的表征學(xué)習(xí)

基于解碼器的世界模型
在 MBRL 中占主導(dǎo)地位的范式（由 Dreamer 系列工作普及，Hafner 等人，2025）通過從潛在狀態(tài)重建觀測來學(xué)習(xí)表征。盡管該方法取得了成功，但這種基于重建的目標(biāo)往往迫使模型將表征容量浪費(fèi)在與任務(wù)無關(guān)的細(xì)節(jié)（如背景）上，這促使研究轉(zhuǎn)向無解碼器方法。

無解碼器世界模型及其對數(shù)據(jù)增強(qiáng)的依賴
為克服重建方法的局限性，近期的無解碼器方法通過不涉及像素級重建的輔助目標(biāo)來學(xué)習(xí)表征，例如預(yù)測未來獎勵或通過對比損失進(jìn)行學(xué)習(xí)。然而，盡管其學(xué)習(xí)信號具有多樣性，這些代表性工作（Ye 等人，2021；Deng 等人，2022；Hansen 等人，2022；2024；Wang 等人，2024；Burchi & Timofte，2025）都關(guān)鍵性地依賴數(shù)據(jù)增強(qiáng)（DA）——通常是隨機(jī)平移——作為防止表征坍縮的外部正則化器。這種對可能扭曲任務(wù)相關(guān)細(xì)節(jié)的增強(qiáng)方式的根本性依賴，限制了其通用性，而這正是我們致力于解決的關(guān)鍵瓶頸。

除了數(shù)據(jù)增強(qiáng)外，一些方法通過架構(gòu)機(jī)制來緩解視覺干擾；例如，VAI（Wang 等人，2021）引入了額外的注意力模塊，但其依賴運(yùn)動線索，可能忽略靜態(tài)但對任務(wù)關(guān)鍵的視覺線索。另有若干工作通過向潛在特征注入高斯噪聲來更直接地正則化表征（Shu 等人，2020；Nguyen 等人，2021）。相比之下，我們表明：僅憑一個基于信息論的冗余減少原則，就足以在基于 RSSM 的模型中實(shí)現(xiàn)穩(wěn)定且有效的表征學(xué)習(xí)，且無需任何數(shù)據(jù)增強(qiáng)。

2.2 從不變性到基于信息的正則化

數(shù)據(jù)增強(qiáng)驅(qū)動的不變性
許多流行的自監(jiān)督表征學(xué)習(xí)方法（包括現(xiàn)有無解碼器智能體所采用的方法）都是基于不變性的。它們依賴數(shù)據(jù)增強(qiáng)（DA）來構(gòu)建正樣本對（例如，同一圖像的不同增強(qiáng)視圖），并訓(xùn)練模型為這些視圖生成相似的表征，這在對比學(xué)習(xí)（Chen 等人，2020；He 等人，2020；Caron 等人，2020）與非對比學(xué)習(xí)（Grill 等人，2020；Chen & He，2021）中均有體現(xiàn)。在此范式下，數(shù)據(jù)增強(qiáng)對于防止模型坍縮到平凡解至關(guān)重要。

無需數(shù)據(jù)增強(qiáng)的內(nèi)部正則化
我們的工作采用了與基于信息的自監(jiān)督學(xué)習(xí)文獻(xiàn)（Zbontar 等人，2021；Bardes 等人，2022）不同的思路，后者聚焦于減少特征冗余。盡管這些方法在計(jì)算機(jī)視覺領(lǐng)域仍使用數(shù)據(jù)增強(qiáng)，我們將這一原則適配為強(qiáng)化學(xué)習(xí)領(lǐng)域中完全替代基于數(shù)據(jù)增強(qiáng)的正則化方案。具體而言，我們在圖像編碼器的輸出與 RSSM 的潛在狀態(tài)之間應(yīng)用冗余減少目標(biāo)。這產(chǎn)生了一個足以防止表征坍縮的內(nèi)部正則化器，從而使我們能夠在無需任務(wù)特定增強(qiáng)的情況下，構(gòu)建一個更通用、更魯棒的學(xué)習(xí)框架。

3 方法

我們的方法 R2-Dreamer 重新設(shè)計(jì)了強(qiáng)大的 DreamerV3（Hafner 等人，2025）框架中的表征學(xué)習(xí)機(jī)制，使其無需解碼器且無需數(shù)據(jù)增強(qiáng)（DA）。我們通過將原本基于重建的目標(biāo)替換為一種受 Barlow Twins（Zbontar 等人，2021）啟發(fā)的、基于冗余減少的自監(jiān)督目標(biāo)來實(shí)現(xiàn)這一目標(biāo)。為單獨(dú)考察我們所提出的學(xué)習(xí)目標(biāo)的影響，世界模型的其他組件以及 Actor-Critic 的實(shí)現(xiàn)均與原始 DreamerV3 保持一致。僅這一項(xiàng)改動便在計(jì)算效率與魯棒性方面帶來了顯著提升。本節(jié)首先詳細(xì)闡述潛在動力學(xué)模型，介紹我們新的世界模型學(xué)習(xí)目標(biāo)，并回顧 Actor-Critic 的學(xué)習(xí)過程。

3.2 世界模型學(xué)習(xí)

我們的核心貢獻(xiàn)是一種新的世界模型學(xué)習(xí)目標(biāo)，它替換了 DreamerV3 的重建損失。正如附錄 A 中的理論動機(jī)所述，這一新目標(biāo)是擴(kuò)展的順序信息瓶頸（Sequential Information Bottleneck）目標(biāo)的一個易處理的代理方案。我們現(xiàn)在詳細(xì)說明該目標(biāo)的實(shí)際實(shí)現(xiàn)，在適用的情況下遵循 DreamerV3 的原始損失組件。

DreamerV3 目標(biāo)
DreamerV3 中的世界模型通過優(yōu)化四個不同的目標(biāo)進(jìn)行訓(xùn)練：重建、預(yù)測，以及兩個用于正則化潛在動力學(xué)的 KL 散度項(xiàng)。如公式 2 所示，總體損失是這些組件的加權(quán)和。

通過冗余減少進(jìn)行表征學(xué)習(xí)（LBT） 我們采用 Barlow Twins 目標(biāo)作為我們的冗余減少機(jī)制。與 VICReg（Bardes 等人，2022）等其他方法相比，選擇它是因其實(shí)現(xiàn)開銷最小且超參數(shù)更少，從而減少了調(diào)優(yōu)工作量。該目標(biāo)定義如下：

在我們的實(shí)現(xiàn)中，我們 detach（分離）目標(biāo) e t以增強(qiáng)穩(wěn)定性，類似于 TD-MPC2（Hansen 等人，2024）中的策略。盡管如此，編碼器仍能接收通過投影器和 RSSM 反向傳播的豐富梯度，同時獎勵、回合延續(xù)、動力學(xué)和價值目標(biāo)提供了與 DreamerV3 相同的任務(wù)相關(guān)監(jiān)督信號。

3.3 Actor-Critic 學(xué)習(xí)

為確保我們的性能提升可歸因于世界模型的表征質(zhì)量，Actor-Critic 學(xué)習(xí)過程保持與 DreamerV3 一致。Critic 在想象 rollout 和回放軌跡上均進(jìn)行優(yōu)化，而 Actor 僅在想象軌跡上進(jìn)行優(yōu)化。具體而言，想象 rollout 始于從回放軌跡推斷出的潛在狀態(tài)，并在當(dāng)前策略下使用學(xué)習(xí)到的動力學(xué)模型進(jìn)行展開。

Critic 被訓(xùn)練以預(yù)測λ-returns 的分布，這是對未來獎勵的一種魯棒估計(jì)。Critic 的損失是預(yù)測這些 returns 的最大似然：

4 實(shí)驗(yàn)

在本節(jié)中，我們進(jìn)行了一系列實(shí)驗(yàn)來驗(yàn)證我們工作的核心主張：即 R2-Dreamer 以一種無解碼器且無數(shù)據(jù)增強(qiáng)（DA）的方式學(xué)習(xí)高質(zhì)量表征，從而形成一個不僅計(jì)算高效而且高性能的框架。我們的評估旨在回答以下關(guān)鍵問題：

R2-Dreamer 在標(biāo)準(zhǔn)連續(xù)控制基準(zhǔn)上，與領(lǐng)先的基于解碼器和無解碼器智能體相比表現(xiàn)如何？（第 4.2 節(jié)，第 4.3 節(jié)）
我們的內(nèi)部正則化如何處理具有挑戰(zhàn)性的場景，其中任務(wù)相關(guān)信息細(xì)微且容易被競爭方法忽略？（第 4.4 節(jié)）
學(xué)習(xí)到的表征在關(guān)注任務(wù)相關(guān)信息方面，與基線方法在定性上有何不同？（第 4.5 節(jié)）
與其他設(shè)計(jì)選擇（特別是數(shù)據(jù)增強(qiáng) DA）相比，我們提出的冗余減少目標(biāo)的直接影響是什么？（第 4.6 節(jié)）
其無解碼器和無數(shù)據(jù)增強(qiáng)的設(shè)計(jì)在實(shí)際中帶來了哪些計(jì)算效益？（第 4.7 節(jié)）

我們報告 DMC 和 DMC-Subtle 上的任務(wù)得分以及 Meta-World 上的成功率，使用跨任務(wù)的均值和中位數(shù)總結(jié)結(jié)果，并在附錄中提供詳細(xì)的每任務(wù)曲線。在所有實(shí)驗(yàn)中，我們基于五個隨機(jī)種子進(jìn)行訓(xùn)練，每個種子進(jìn)行 10 次評估回合，并且除非另有說明，在所有任務(wù)和基準(zhǔn)套件中使用相同的超參數(shù)配置（見附錄 F）。

4.1 實(shí)驗(yàn)設(shè)置

基線我們將 R2-Dreamer 與精心選擇的一組競爭性基線進(jìn)行比較，以涵蓋基于圖像的強(qiáng)化學(xué)習(xí)的主要范式：

R2-Dreamer（我們的方法）：基于我們基于 PyTorch 的 DreamerV3 復(fù)現(xiàn)實(shí)現(xiàn)。所有無解碼器變體均使用這一統(tǒng)一代碼庫，以確保性能差異可直接歸因于表征學(xué)習(xí)目標(biāo)。
DreamerV3（Hafner 等人，2025）：一種領(lǐng)先的、極具競爭力的基于解碼器的世界模型。為了提供最強(qiáng)且最可信的基線之一，我們使用作者的官方 JAX 實(shí)現(xiàn)作為主要比較對象，并采用最新版本（該版本包含了 2024 年 4 月進(jìn)行的若干算法改進(jìn)）。
Dreamer-InfoNCE：一種使用 InfoNCE 損失（van den Oord 等人，2019）的對比學(xué)習(xí)基線，用于探究在沒有數(shù)據(jù)增強(qiáng)（DA）情況下的性能，該基線基于我們的 DreamerV3 復(fù)現(xiàn)實(shí)現(xiàn)。
DreamerPro（Deng 等人，2022）：一種領(lǐng)先的無解碼器方法，依賴數(shù)據(jù)增強(qiáng)（特別是隨機(jī)圖像平移）來防止表征坍縮。由于原始實(shí)現(xiàn)基于 DreamerV2，我們在我們的 DreamerV3 復(fù)現(xiàn)上重新實(shí)現(xiàn)了其核心機(jī)制，以確保公平比較。這一重新實(shí)現(xiàn)也提升了其性能。
DrQ-v2（Yarats 等人，2021）：一種用于基于圖像的強(qiáng)化學(xué)習(xí)的強(qiáng)大且廣泛使用的無模型（model-free）智能體，作為性能參考的代表性無模型基線。它依賴數(shù)據(jù)增強(qiáng)作為該方法的關(guān)鍵組成部分。我們使用作者的官方實(shí)現(xiàn)。
TD-MPC2（Hansen 等人，2024）：一種強(qiáng)大的無解碼器基于模型的方法，它將 TD 學(xué)習(xí)與潛在空間規(guī)劃相結(jié)合，并使用數(shù)據(jù)增強(qiáng)作為外部正則化器來防止表征坍縮。我們使用作者的官方實(shí)現(xiàn)。

環(huán)境 我們所有的基準(zhǔn)測試均專注于基于像素的連續(xù)控制。我們在三個基準(zhǔn)測試套件上評估我們的方法：

DeepMind Control Suite (DMC) (Tassa 等人，2018)：一個被廣泛采用的基于像素的連續(xù)控制任務(wù)基準(zhǔn)測試套件，涵蓋了運(yùn)動（locomotion）和操作（manipulation）領(lǐng)域。
Meta-World (Yu 等人，2021)：一個用于評估使用機(jī)械臂執(zhí)行多樣化操作任務(wù)性能的基準(zhǔn)測試套件。我們使用 MT1 基準(zhǔn)，其中智能體分別在 50 個不同的任務(wù)上進(jìn)行訓(xùn)練。這些任務(wù)涉及與各種物體（包括小物體）進(jìn)行交互，并需要精確的細(xì)粒度操作。
DMC-Subtle：一個新的基準(zhǔn)測試，旨在作為基于像素控制中表征學(xué)習(xí)的受控壓力測試，其中任務(wù)關(guān)鍵物體被縮小，以使任務(wù)相關(guān)的視覺線索變得細(xì)微。例如，圖 2 展示了 Reacher 任務(wù)，其中目標(biāo)被縮小到原始尺寸的三分之一。該基準(zhǔn)測試對象征精度提出了更高的要求。所有任務(wù)的詳細(xì)修改見附錄 B。

4.2 在 DeepMind Control Suite 上的性能

我們首先在 20 個標(biāo)準(zhǔn) DMC 任務(wù)上評估 R2-Dreamer。圖 3 使用均值和中位數(shù)總結(jié)了跨任務(wù)的性能。我們的方法在平均水平上與基于解碼器、無解碼器以及無模型的基線方法具有競爭力。這一結(jié)果表明，我們的內(nèi)部冗余減少目標(biāo)是一種有效的學(xué)習(xí)信號，能夠在無需解碼器或像數(shù)據(jù)增強(qiáng)（DA）這樣的外部正則化器的情況下，實(shí)現(xiàn)具有競爭力的性能。詳細(xì)的每任務(wù)曲線見附錄 C。

4.3 在 Meta-World 上的性能

我們在 Meta-World MT1 上評估 R2-Dreamer，該基準(zhǔn)包含 50 個獨(dú)立訓(xùn)練的機(jī)器人操作任務(wù)。圖 4 報告了跨任務(wù)的平均和中位數(shù)成功率，并標(biāo)注了不同隨機(jī)種子間的標(biāo)準(zhǔn)差。平均而言，R2-Dreamer 在跨任務(wù)的平均成功率方面與基線方法具有競爭力，即使在涉及小物體的、接觸豐富的操作任務(wù)上也是如此。詳細(xì)的每任務(wù)曲線見附錄 D。

4.4 在挑戰(zhàn)性環(huán)境中的魯棒性

我們現(xiàn)在強(qiáng)調(diào)我們的方法在 DMC-Subtle 基準(zhǔn)測試上的優(yōu)勢，該測試平臺是一個具有挑戰(zhàn)性的測試環(huán)境，旨在對那些要么過擬合于無關(guān)背景、要么丟棄微小關(guān)鍵物體的方法進(jìn)行懲罰。我們假設(shè)，我們的冗余減少目標(biāo)特別適用于這些對精度要求較高的任務(wù)。由于不受由任務(wù)無關(guān)背景主導(dǎo)的重建信號驅(qū)動，并避免了數(shù)據(jù)增強(qiáng)（DA）可能對關(guān)鍵特征造成的扭曲，我們的方法應(yīng)能學(xué)習(xí)到更具聚焦性的表征。圖 5 的結(jié)果證實(shí)了這一假設(shè)，顯示出相對于基線方法的顯著性能差距，并表明 R2-Dreamer 能夠有效隔離并關(guān)注任務(wù)關(guān)鍵信息——這一能力對于現(xiàn)實(shí)世界中顯著線索可能稀疏的應(yīng)用場景至關(guān)重要。我們進(jìn)一步分析學(xué)習(xí)到的表征，以理解這種魯棒性的來源。

4.5 潛在表征分析

我們使用一種基于遮擋的顯著性方法（Greydanus 等人，2018）來可視化策略的注意力焦點(diǎn)，以評估學(xué)習(xí)到的表征在捕捉任務(wù)相關(guān)信息方面的效果。針對 DMC-Subtle Reacher 任務(wù)的這一分析中，我們在每個回合的第一幀計(jì)算顯著性圖，以將空間焦點(diǎn)與時間動態(tài)分離開來。圖 6 的結(jié)果揭示了明顯的區(qū)別：R2-Dreamer 的顯著性圖清晰地聚焦于目標(biāo)，表明其策略建立在任務(wù)關(guān)鍵的視覺證據(jù)之上。相比之下，基線方法表現(xiàn)出更為分散的顯著性，暗示其對任務(wù)的理解不夠精確。這一發(fā)現(xiàn)提供了強(qiáng)有力的定性證據(jù)，表明我們的冗余減少目標(biāo)能夠促使模型學(xué)習(xí)緊湊且相關(guān)的表征。

4.6 消融研究

為隔離我們的核心貢獻(xiàn)，我們進(jìn)行了一項(xiàng)有針對性的消融研究，以評估我們的冗余減少目標(biāo)相對于數(shù)據(jù)增強(qiáng)（DA）的有效性。我們比較了六種變體：R2-Dreamer（我們的完整方法）、R2-Dreamer（半批量）、帶 DA 的 R2-Dreamer（添加隨機(jī)平移）、DreamerPro（依賴 DA 的基線）、不帶 DA 的 DreamerPro，以及不帶解碼器的 Dreamer（無視覺輔助目標(biāo)）。

首先，圖 7 顯示，為 R2-Dreamer 添加數(shù)據(jù)增強(qiáng)（DA）僅帶來邊際性能提升。相比之下，DreamerPro 在沒有 DA 的情況下會發(fā)生表征坍縮，這證實(shí)了其對外部正則化器的關(guān)鍵依賴。其性能下降至接近不帶解碼器的 Dreamer 的水平，而后者缺乏學(xué)習(xí)視覺表征的顯式目標(biāo)。

我們還測試了批量大?。╞atch size）的敏感性，因?yàn)樽员O(jiān)督學(xué)習(xí)（SSL）目標(biāo)可能受到相關(guān)性估計(jì)的影響。與 Barlow Twins（Zbontar 等人，2021）所報告的魯棒性一致，將批量大小減半（ B = 8
對比 B = 16
）并未導(dǎo)致顯著的性能下降。

其次，我們在一個需要保留細(xì)粒度空間信息的設(shè)定中檢驗(yàn)了相同的設(shè)計(jì)選擇。在對精度要求較高的 DMC-Subtle 基準(zhǔn)測試上，數(shù)據(jù)增強(qiáng)（DA）被證明是有害的。如圖 8 所示，添加 DA 會顯著降低我們方法的性能。這凸顯了外部正則化器的一個關(guān)鍵風(fēng)險：盡管它們通常具有通用性，但可能會扭曲細(xì)微的、任務(wù)關(guān)鍵的信息。在這種情況下，我們無需 DA 的內(nèi)部機(jī)制提供了一種更魯棒的解決方案，進(jìn)一步印證了其作為 RSSM 原則性正則化器的有效性。

4.7 計(jì)算效率

我們無解碼器設(shè)計(jì)的一個核心優(yōu)勢是其計(jì)算效率。為確保公平比較，我們在統(tǒng)一的 DreamerV3 復(fù)現(xiàn)平臺上，測量我們的方法相對于基線方法的實(shí)際訓(xùn)練時間（wall-clock training time）。如表 1 所示，通過消除計(jì)算開銷較大的圖像生成過程，R2-Dreamer 相較于我們的 DreamerV3 復(fù)現(xiàn)實(shí)現(xiàn)了 1.59 倍的加速。此外，與 DreamerPro 相比，R2-Dreamer 實(shí)現(xiàn)了 2.36 倍的加速；DreamerPro 需要處理輸入的不同增強(qiáng)視圖以及后續(xù)相對復(fù)雜的邏輯。我們還包含了原始高度優(yōu)化的 DreamerV3 JAX 實(shí)現(xiàn)的訓(xùn)練時間作為參考。這些結(jié)果表明，R2-Dreamer 提供了一種更實(shí)用且可擴(kuò)展的解決方案。

5 結(jié)論

我們證明了一個原則性的內(nèi)部正則化目標(biāo)可以取代 MBRL 中對圖像重建的需求。我們的框架 R2-Dreamer 無需解碼器或任務(wù)特定的 DA，即可學(xué)習(xí)聚焦于顯著特征的表征。

這種方法的優(yōu)勢在我們具有挑戰(zhàn)性的 DMC-Subtle 基準(zhǔn)上最為明顯，在那里 R2-Dreamer 通過隔離微小、關(guān)鍵的物體，大幅優(yōu)于領(lǐng)先的基于解碼器和依賴 DA 的智能體。在跨越運(yùn)動和操作領(lǐng)域的標(biāo)準(zhǔn)基準(zhǔn)上，它與 DreamerV3 具有競爭力，同時實(shí)現(xiàn)了 1.59 倍的更快訓(xùn)練速度。

未來工作的一個重要方向是在具有動態(tài)且無關(guān)背景的環(huán)境中評估 R2-Dreamer，例如 Distracting Control Suite（Stone 等人，2021）。我們在 DMC-Subtle 上的結(jié)果表明，我們的內(nèi)部冗余減少目標(biāo)自然地避免了將表征容量浪費(fèi)在無關(guān)像素上，這可能意味著對此類動態(tài)干擾具有魯棒性。驗(yàn)證這一假設(shè)將進(jìn)一步確立無 DA 內(nèi)部正則化對于復(fù)雜視覺控制任務(wù)的有效性。擴(kuò)展到像 Humanoid 這樣的高維任務(wù)也是未來的方向。

通過將重點(diǎn)從視覺保真度轉(zhuǎn)移到信息效率，我們的工作為構(gòu)建智能體提供了一個可擴(kuò)展的基礎(chǔ)，在這些智能體中，啟發(fā)式增強(qiáng)存在扭曲任務(wù)關(guān)鍵信息的風(fēng)險。這項(xiàng)研究開啟了對內(nèi)部正則化的新探索，將其作為通往更通用、更強(qiáng)大學(xué)習(xí)智能體的原則性路徑。

原文鏈接：https://openreview.net/pdf?id=Je2QqXrcQq

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.