国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

無需解碼器與數(shù)據(jù)增強(qiáng)的冗余精簡世界模型

0
分享至

無需解碼器與數(shù)據(jù)增強(qiáng)的冗余精簡世界模型

R2-DREAMER: REDUNDANCY-REDUCED WORLDMODELS WITHOUT DECODERS OR AUGMENTATION

https://openreview.net/pdf?id=Je2QqXrcQq

https://github.com/NM512/r2dreamer


摘要

基于圖像的模型強(qiáng)化學(xué)習(xí)(Model-Based Reinforcement Learning, MBRL)面臨的一個核心挑戰(zhàn)是:學(xué)習(xí)能夠從無關(guān)視覺細(xì)節(jié)中提煉出關(guān)鍵信息的表征。盡管基于重建的方法展現(xiàn)出一定前景,但其往往將大量表征容量浪費(fèi)在與任務(wù)無關(guān)的大面積區(qū)域上。無解碼器方法則轉(zhuǎn)而通過利用數(shù)據(jù)增強(qiáng)(Data Augmentation, DA)來學(xué)習(xí)魯棒的表征,但對這類外部正則化器的依賴限制了其通用性。我們提出 R2-Dreamer,這是一種無解碼器的 MBRL 框架,其采用一種自監(jiān)督目標(biāo)作為內(nèi)部正則化器,無需依賴數(shù)據(jù)增強(qiáng)即可防止表征坍縮。我們方法的核心是受 Barlow Twins 啟發(fā)的冗余減少(redundancy-reduction)目標(biāo),該目標(biāo)可輕松集成到現(xiàn)有框架中。在 DeepMind Control Suite 和 Meta-World 基準(zhǔn)上,R2-Dreamer 與 DreamerV3、TD-MPC2 等強(qiáng)基線方法性能相當(dāng),同時訓(xùn)練速度比 DreamerV3 快 1.59 倍;在包含微小任務(wù)相關(guān)物體的 DMC-Subtle 任務(wù)上,該方法取得了顯著提升。這些結(jié)果表明,一種有效的內(nèi)部正則化器能夠支撐通用、高性能的無解碼器 MBRL。代碼地址:https://github.com/NM512/r2dreamer。

1 引言

學(xué)習(xí)有效的潛在表征是基于模型的強(qiáng)化學(xué)習(xí)(MBRL)中世界模型的核心基石,但這也帶來了一項(xiàng)重要挑戰(zhàn):表征必須捕捉任務(wù)關(guān)鍵信息,同時避免對無關(guān)細(xì)節(jié)的過擬合。盡管循環(huán)狀態(tài)空間模型(Recurrent State-Space Model, RSSM)等架構(gòu)已取得顯著成功(Hafner 等人,2025),一個根本性問題仍未解決:學(xué)習(xí)表征本身的最優(yōu)目標(biāo)函數(shù)究竟是什么?這一問題在基于圖像的設(shè)定中尤為重要,因?yàn)楦呔S觀測使得表征學(xué)習(xí)本身具有內(nèi)在挑戰(zhàn)性。

在實(shí)踐中,許多主流方法通過優(yōu)化像素級重建目標(biāo)來學(xué)習(xí)表征(Micheli 等人,2023;Zhang 等人,2023;Seo 等人,2023;Micheli 等人,2024;Alonso 等人,2024;Hafner 等人,2025)。這帶來一個關(guān)鍵問題:學(xué)習(xí)信號被觀測中空間占比大但與任務(wù)無關(guān)的部分(如背景)所主導(dǎo)。因此,模型被激勵去精細(xì)重建這些細(xì)節(jié),從而浪費(fèi)了表征容量與計(jì)算資源,反而可能忽略那些雖小但對任務(wù)至關(guān)重要的物體。

為克服像素級重建的局限性,無解碼器方法通過自監(jiān)督損失來學(xué)習(xí)表征(Deng 等人,2022;Okada & Taniguchi,2022;Burchi & Timofte,2025)。為防止此類方法中常見的表征坍縮問題,它們高度依賴數(shù)據(jù)增強(qiáng)(DA)作為外部正則化器。然而,這種對 DA 的依賴構(gòu)成了通用智能體發(fā)展的顯著瓶頸(Laskin 等人,2020;Ma 等人,2025),因?yàn)樽儞Q方式的選擇具有任務(wù)依賴性:隨機(jī)平移可能丟棄關(guān)鍵的小物體,而顏色抖動在顏色本身是關(guān)鍵特征時反而有害。

在本工作中,我們聚焦于廣泛使用的 RSSM 框架內(nèi)的表征學(xué)習(xí)目標(biāo),提出 R2-Dreamer,旨在打破對解碼器與數(shù)據(jù)增強(qiáng)的依賴。為單獨(dú)考察學(xué)習(xí)目標(biāo)本身的影響,我們基于成熟的 Dreamer 架構(gòu)進(jìn)行構(gòu)建。受 Barlow Twins(Zbontar 等人,2021)啟發(fā),我們引入圖像嵌入與潛在狀態(tài)之間的冗余減少目標(biāo),無需外部正則化器即可防止表征坍縮,從而提供一個通用且魯棒的基線,能夠?qū)崿F(xiàn)具有競爭力的性能。

我們的主要貢獻(xiàn)如下:

  • 為基于 RSSM 的無解碼器 MBRL 提出了一種新的表征學(xué)習(xí)范式,以內(nèi)部冗余減少目標(biāo)取代了可能扭曲任務(wù)關(guān)鍵信息的啟發(fā)式數(shù)據(jù)增強(qiáng)(DA)。
  • 在標(biāo)準(zhǔn)基準(zhǔn)(包括 DeepMind Control Suite (DMC) 和 Meta-World)上具有競爭力的性能,并在我們新提出的、更具挑戰(zhàn)性的 DMC-Subtle 基準(zhǔn)上表現(xiàn)優(yōu)異;同時,通過移除解碼器實(shí)現(xiàn)了更快的訓(xùn)練速度。
  • 發(fā)布我們統(tǒng)一的 PyTorch 代碼庫,其中包括基于我們 DreamerV3 實(shí)現(xiàn)的方法與基線代碼,以及 DMC-Subtle 基準(zhǔn),以促進(jìn)未來研究。

2 相關(guān)工作

我們的工作位于模型強(qiáng)化學(xué)習(xí)(MBRL)與自監(jiān)督學(xué)習(xí)(Self-Supervised Learning, SSL)的交叉領(lǐng)域。我們通過回顧 MBRL 中的表征學(xué)習(xí)策略及其應(yīng)對正則化挑戰(zhàn)的方式,來定位我們的方法。

2.1 世界模型中的表征學(xué)習(xí)

基于解碼器的世界模型
在 MBRL 中占主導(dǎo)地位的范式(由 Dreamer 系列工作普及,Hafner 等人,2025)通過從潛在狀態(tài)重建觀測來學(xué)習(xí)表征。盡管該方法取得了成功,但這種基于重建的目標(biāo)往往迫使模型將表征容量浪費(fèi)在與任務(wù)無關(guān)的細(xì)節(jié)(如背景)上,這促使研究轉(zhuǎn)向無解碼器方法。

無解碼器世界模型及其對數(shù)據(jù)增強(qiáng)的依賴
為克服重建方法的局限性,近期的無解碼器方法通過不涉及像素級重建的輔助目標(biāo)來學(xué)習(xí)表征,例如預(yù)測未來獎勵或通過對比損失進(jìn)行學(xué)習(xí)。然而,盡管其學(xué)習(xí)信號具有多樣性,這些代表性工作(Ye 等人,2021;Deng 等人,2022;Hansen 等人,2022;2024;Wang 等人,2024;Burchi & Timofte,2025)都關(guān)鍵性地依賴數(shù)據(jù)增強(qiáng)(DA)——通常是隨機(jī)平移——作為防止表征坍縮的外部正則化器。這種對可能扭曲任務(wù)相關(guān)細(xì)節(jié)的增強(qiáng)方式的根本性依賴,限制了其通用性,而這正是我們致力于解決的關(guān)鍵瓶頸。

除了數(shù)據(jù)增強(qiáng)外,一些方法通過架構(gòu)機(jī)制來緩解視覺干擾;例如,VAI(Wang 等人,2021)引入了額外的注意力模塊,但其依賴運(yùn)動線索,可能忽略靜態(tài)但對任務(wù)關(guān)鍵的視覺線索。另有若干工作通過向潛在特征注入高斯噪聲來更直接地正則化表征(Shu 等人,2020;Nguyen 等人,2021)。相比之下,我們表明:僅憑一個基于信息論的冗余減少原則,就足以在基于 RSSM 的模型中實(shí)現(xiàn)穩(wěn)定且有效的表征學(xué)習(xí),且無需任何數(shù)據(jù)增強(qiáng)。

2.2 從不變性到基于信息的正則化

數(shù)據(jù)增強(qiáng)驅(qū)動的不變性
許多流行的自監(jiān)督表征學(xué)習(xí)方法(包括現(xiàn)有無解碼器智能體所采用的方法)都是基于不變性的。它們依賴數(shù)據(jù)增強(qiáng)(DA)來構(gòu)建正樣本對(例如,同一圖像的不同增強(qiáng)視圖),并訓(xùn)練模型為這些視圖生成相似的表征,這在對比學(xué)習(xí)(Chen 等人,2020;He 等人,2020;Caron 等人,2020)與非對比學(xué)習(xí)(Grill 等人,2020;Chen & He,2021)中均有體現(xiàn)。在此范式下,數(shù)據(jù)增強(qiáng)對于防止模型坍縮到平凡解至關(guān)重要。

無需數(shù)據(jù)增強(qiáng)的內(nèi)部正則化
我們的工作采用了與基于信息的自監(jiān)督學(xué)習(xí)文獻(xiàn)(Zbontar 等人,2021;Bardes 等人,2022)不同的思路,后者聚焦于減少特征冗余。盡管這些方法在計(jì)算機(jī)視覺領(lǐng)域仍使用數(shù)據(jù)增強(qiáng),我們將這一原則適配為強(qiáng)化學(xué)習(xí)領(lǐng)域中完全替代基于數(shù)據(jù)增強(qiáng)的正則化方案。具體而言,我們在圖像編碼器的輸出與 RSSM 的潛在狀態(tài)之間應(yīng)用冗余減少目標(biāo)。這產(chǎn)生了一個足以防止表征坍縮的內(nèi)部正則化器,從而使我們能夠在無需任務(wù)特定增強(qiáng)的情況下,構(gòu)建一個更通用、更魯棒的學(xué)習(xí)框架。

3 方法

我們的方法 R2-Dreamer 重新設(shè)計(jì)了強(qiáng)大的 DreamerV3(Hafner 等人,2025)框架中的表征學(xué)習(xí)機(jī)制,使其無需解碼器且無需數(shù)據(jù)增強(qiáng)(DA)。我們通過將原本基于重建的目標(biāo)替換為一種受 Barlow Twins(Zbontar 等人,2021)啟發(fā)的、基于冗余減少的自監(jiān)督目標(biāo)來實(shí)現(xiàn)這一目標(biāo)。為單獨(dú)考察我們所提出的學(xué)習(xí)目標(biāo)的影響,世界模型的其他組件以及 Actor-Critic 的實(shí)現(xiàn)均與原始 DreamerV3 保持一致。僅這一項(xiàng)改動便在計(jì)算效率與魯棒性方面帶來了顯著提升。本節(jié)首先詳細(xì)闡述潛在動力學(xué)模型,介紹我們新的世界模型學(xué)習(xí)目標(biāo),并回顧 Actor-Critic 的學(xué)習(xí)過程。




3.2 世界模型學(xué)習(xí)

我們的核心貢獻(xiàn)是一種新的世界模型學(xué)習(xí)目標(biāo),它替換了 DreamerV3 的重建損失。正如附錄 A 中的理論動機(jī)所述,這一新目標(biāo)是擴(kuò)展的順序信息瓶頸(Sequential Information Bottleneck)目標(biāo)的一個易處理的代理方案。我們現(xiàn)在詳細(xì)說明該目標(biāo)的實(shí)際實(shí)現(xiàn),在適用的情況下遵循 DreamerV3 的原始損失組件。

DreamerV3 目標(biāo)
DreamerV3 中的世界模型通過優(yōu)化四個不同的目標(biāo)進(jìn)行訓(xùn)練:重建、預(yù)測,以及兩個用于正則化潛在動力學(xué)的 KL 散度項(xiàng)。如公式 2 所示,總體損失是這些組件的加權(quán)和。


通過冗余減少進(jìn)行表征學(xué)習(xí)(LBT) 我們采用 Barlow Twins 目標(biāo)作為我們的冗余減少機(jī)制。與 VICReg(Bardes 等人,2022)等其他方法相比,選擇它是因其實(shí)現(xiàn)開銷最小且超參數(shù)更少,從而減少了調(diào)優(yōu)工作量。該目標(biāo)定義如下:



在我們的實(shí)現(xiàn)中,我們 detach(分離)目標(biāo) e t以增強(qiáng)穩(wěn)定性,類似于 TD-MPC2(Hansen 等人,2024)中的策略。盡管如此,編碼器仍能接收通過投影器和 RSSM 反向傳播的豐富梯度,同時獎勵、回合延續(xù)、動力學(xué)和價值目標(biāo)提供了與 DreamerV3 相同的任務(wù)相關(guān)監(jiān)督信號。

3.3 Actor-Critic 學(xué)習(xí)

為確保我們的性能提升可歸因于世界模型的表征質(zhì)量,Actor-Critic 學(xué)習(xí)過程保持與 DreamerV3 一致。Critic 在想象 rollout 和回放軌跡上均進(jìn)行優(yōu)化,而 Actor 僅在想象軌跡上進(jìn)行優(yōu)化。具體而言,想象 rollout 始于從回放軌跡推斷出的潛在狀態(tài),并在當(dāng)前策略下使用學(xué)習(xí)到的動力學(xué)模型進(jìn)行展開。

Critic 被訓(xùn)練以預(yù)測λ-returns 的分布,這是對未來獎勵的一種魯棒估計(jì)。Critic 的損失是預(yù)測這些 returns 的最大似然:


4 實(shí)驗(yàn)

在本節(jié)中,我們進(jìn)行了一系列實(shí)驗(yàn)來驗(yàn)證我們工作的核心主張:即 R2-Dreamer 以一種無解碼器且無數(shù)據(jù)增強(qiáng)(DA)的方式學(xué)習(xí)高質(zhì)量表征,從而形成一個不僅計(jì)算高效而且高性能的框架。我們的評估旨在回答以下關(guān)鍵問題:

  1. R2-Dreamer 在標(biāo)準(zhǔn)連續(xù)控制基準(zhǔn)上,與領(lǐng)先的基于解碼器和無解碼器智能體相比表現(xiàn)如何?(第 4.2 節(jié),第 4.3 節(jié))
  2. 我們的內(nèi)部正則化如何處理具有挑戰(zhàn)性的場景,其中任務(wù)相關(guān)信息細(xì)微且容易被競爭方法忽略?(第 4.4 節(jié))
  3. 學(xué)習(xí)到的表征在關(guān)注任務(wù)相關(guān)信息方面,與基線方法在定性上有何不同?(第 4.5 節(jié))
  4. 與其他設(shè)計(jì)選擇(特別是數(shù)據(jù)增強(qiáng) DA)相比,我們提出的冗余減少目標(biāo)的直接影響是什么?(第 4.6 節(jié))
  5. 其無解碼器和無數(shù)據(jù)增強(qiáng)的設(shè)計(jì)在實(shí)際中帶來了哪些計(jì)算效益?(第 4.7 節(jié))

我們報告 DMC 和 DMC-Subtle 上的任務(wù)得分以及 Meta-World 上的成功率,使用跨任務(wù)的均值和中位數(shù)總結(jié)結(jié)果,并在附錄中提供詳細(xì)的每任務(wù)曲線。在所有實(shí)驗(yàn)中,我們基于五個隨機(jī)種子進(jìn)行訓(xùn)練,每個種子進(jìn)行 10 次評估回合,并且除非另有說明,在所有任務(wù)和基準(zhǔn)套件中使用相同的超參數(shù)配置(見附錄 F)。

4.1 實(shí)驗(yàn)設(shè)置

基線 我們將 R2-Dreamer 與精心選擇的一組競爭性基線進(jìn)行比較,以涵蓋基于圖像的強(qiáng)化學(xué)習(xí)的主要范式:

  • R2-Dreamer(我們的方法):基于我們基于 PyTorch 的 DreamerV3 復(fù)現(xiàn)實(shí)現(xiàn)。所有無解碼器變體均使用這一統(tǒng)一代碼庫,以確保性能差異可直接歸因于表征學(xué)習(xí)目標(biāo)。
  • DreamerV3(Hafner 等人,2025):一種領(lǐng)先的、極具競爭力的基于解碼器的世界模型。為了提供最強(qiáng)且最可信的基線之一,我們使用作者的官方 JAX 實(shí)現(xiàn)作為主要比較對象,并采用最新版本(該版本包含了 2024 年 4 月進(jìn)行的若干算法改進(jìn))。
  • Dreamer-InfoNCE:一種使用 InfoNCE 損失(van den Oord 等人,2019)的對比學(xué)習(xí)基線,用于探究在沒有數(shù)據(jù)增強(qiáng)(DA)情況下的性能,該基線基于我們的 DreamerV3 復(fù)現(xiàn)實(shí)現(xiàn)。
  • DreamerPro(Deng 等人,2022):一種領(lǐng)先的無解碼器方法,依賴數(shù)據(jù)增強(qiáng)(特別是隨機(jī)圖像平移)來防止表征坍縮。由于原始實(shí)現(xiàn)基于 DreamerV2,我們在我們的 DreamerV3 復(fù)現(xiàn)上重新實(shí)現(xiàn)了其核心機(jī)制,以確保公平比較。這一重新實(shí)現(xiàn)也提升了其性能。
  • DrQ-v2(Yarats 等人,2021):一種用于基于圖像的強(qiáng)化學(xué)習(xí)的強(qiáng)大且廣泛使用的無模型(model-free)智能體,作為性能參考的代表性無模型基線。它依賴數(shù)據(jù)增強(qiáng)作為該方法的關(guān)鍵組成部分。我們使用作者的官方實(shí)現(xiàn)。
  • TD-MPC2(Hansen 等人,2024):一種強(qiáng)大的無解碼器基于模型的方法,它將 TD 學(xué)習(xí)與潛在空間規(guī)劃相結(jié)合,并使用數(shù)據(jù)增強(qiáng)作為外部正則化器來防止表征坍縮。我們使用作者的官方實(shí)現(xiàn)。

環(huán)境 我們所有的基準(zhǔn)測試均專注于基于像素的連續(xù)控制。我們在三個基準(zhǔn)測試套件上評估我們的方法:

  • DeepMind Control Suite (DMC) (Tassa 等人,2018):一個被廣泛采用的基于像素的連續(xù)控制任務(wù)基準(zhǔn)測試套件,涵蓋了運(yùn)動(locomotion)和操作(manipulation)領(lǐng)域。
  • Meta-World (Yu 等人,2021):一個用于評估使用機(jī)械臂執(zhí)行多樣化操作任務(wù)性能的基準(zhǔn)測試套件。我們使用 MT1 基準(zhǔn),其中智能體分別在 50 個不同的任務(wù)上進(jìn)行訓(xùn)練。這些任務(wù)涉及與各種物體(包括小物體)進(jìn)行交互,并需要精確的細(xì)粒度操作。
  • DMC-Subtle:一個新的基準(zhǔn)測試,旨在作為基于像素控制中表征學(xué)習(xí)的受控壓力測試,其中任務(wù)關(guān)鍵物體被縮小,以使任務(wù)相關(guān)的視覺線索變得細(xì)微。例如,圖 2 展示了 Reacher 任務(wù),其中目標(biāo)被縮小到原始尺寸的三分之一。該基準(zhǔn)測試對象征精度提出了更高的要求。所有任務(wù)的詳細(xì)修改見附錄 B。


4.2 在 DeepMind Control Suite 上的性能

我們首先在 20 個標(biāo)準(zhǔn) DMC 任務(wù)上評估 R2-Dreamer。圖 3 使用均值和中位數(shù)總結(jié)了跨任務(wù)的性能。我們的方法在平均水平上與基于解碼器、無解碼器以及無模型的基線方法具有競爭力。這一結(jié)果表明,我們的內(nèi)部冗余減少目標(biāo)是一種有效的學(xué)習(xí)信號,能夠在無需解碼器或像數(shù)據(jù)增強(qiáng)(DA)這樣的外部正則化器的情況下,實(shí)現(xiàn)具有競爭力的性能。詳細(xì)的每任務(wù)曲線見附錄 C。


4.3 在 Meta-World 上的性能

我們在 Meta-World MT1 上評估 R2-Dreamer,該基準(zhǔn)包含 50 個獨(dú)立訓(xùn)練的機(jī)器人操作任務(wù)。圖 4 報告了跨任務(wù)的平均和中位數(shù)成功率,并標(biāo)注了不同隨機(jī)種子間的標(biāo)準(zhǔn)差。平均而言,R2-Dreamer 在跨任務(wù)的平均成功率方面與基線方法具有競爭力,即使在涉及小物體的、接觸豐富的操作任務(wù)上也是如此。詳細(xì)的每任務(wù)曲線見附錄 D。


4.4 在挑戰(zhàn)性環(huán)境中的魯棒性

我們現(xiàn)在強(qiáng)調(diào)我們的方法在 DMC-Subtle 基準(zhǔn)測試上的優(yōu)勢,該測試平臺是一個具有挑戰(zhàn)性的測試環(huán)境,旨在對那些要么過擬合于無關(guān)背景、要么丟棄微小關(guān)鍵物體的方法進(jìn)行懲罰。我們假設(shè),我們的冗余減少目標(biāo)特別適用于這些對精度要求較高的任務(wù)。由于不受由任務(wù)無關(guān)背景主導(dǎo)的重建信號驅(qū)動,并避免了數(shù)據(jù)增強(qiáng)(DA)可能對關(guān)鍵特征造成的扭曲,我們的方法應(yīng)能學(xué)習(xí)到更具聚焦性的表征。圖 5 的結(jié)果證實(shí)了這一假設(shè),顯示出相對于基線方法的顯著性能差距,并表明 R2-Dreamer 能夠有效隔離并關(guān)注任務(wù)關(guān)鍵信息——這一能力對于現(xiàn)實(shí)世界中顯著線索可能稀疏的應(yīng)用場景至關(guān)重要。我們進(jìn)一步分析學(xué)習(xí)到的表征,以理解這種魯棒性的來源。


4.5 潛在表征分析

我們使用一種基于遮擋的顯著性方法(Greydanus 等人,2018)來可視化策略的注意力焦點(diǎn),以評估學(xué)習(xí)到的表征在捕捉任務(wù)相關(guān)信息方面的效果。針對 DMC-Subtle Reacher 任務(wù)的這一分析中,我們在每個回合的第一幀計(jì)算顯著性圖,以將空間焦點(diǎn)與時間動態(tài)分離開來。圖 6 的結(jié)果揭示了明顯的區(qū)別:R2-Dreamer 的顯著性圖清晰地聚焦于目標(biāo),表明其策略建立在任務(wù)關(guān)鍵的視覺證據(jù)之上。相比之下,基線方法表現(xiàn)出更為分散的顯著性,暗示其對任務(wù)的理解不夠精確。這一發(fā)現(xiàn)提供了強(qiáng)有力的定性證據(jù),表明我們的冗余減少目標(biāo)能夠促使模型學(xué)習(xí)緊湊且相關(guān)的表征。


4.6 消融研究

為隔離我們的核心貢獻(xiàn),我們進(jìn)行了一項(xiàng)有針對性的消融研究,以評估我們的冗余減少目標(biāo)相對于數(shù)據(jù)增強(qiáng)(DA)的有效性。我們比較了六種變體:R2-Dreamer(我們的完整方法)、R2-Dreamer(半批量)、帶 DA 的 R2-Dreamer(添加隨機(jī)平移)、DreamerPro(依賴 DA 的基線)、不帶 DA 的 DreamerPro,以及不帶解碼器的 Dreamer(無視覺輔助目標(biāo))。

首先,圖 7 顯示,為 R2-Dreamer 添加數(shù)據(jù)增強(qiáng)(DA)僅帶來邊際性能提升。相比之下,DreamerPro 在沒有 DA 的情況下會發(fā)生表征坍縮,這證實(shí)了其對外部正則化器的關(guān)鍵依賴。其性能下降至接近不帶解碼器的 Dreamer 的水平,而后者缺乏學(xué)習(xí)視覺表征的顯式目標(biāo)。


我們還測試了批量大?。╞atch size)的敏感性,因?yàn)樽员O(jiān)督學(xué)習(xí)(SSL)目標(biāo)可能受到相關(guān)性估計(jì)的影響。與 Barlow Twins(Zbontar 等人,2021)所報告的魯棒性一致,將批量大小減半( B = 8
對比 B = 16
)并未導(dǎo)致顯著的性能下降。

其次,我們在一個需要保留細(xì)粒度空間信息的設(shè)定中檢驗(yàn)了相同的設(shè)計(jì)選擇。在對精度要求較高的 DMC-Subtle 基準(zhǔn)測試上,數(shù)據(jù)增強(qiáng)(DA)被證明是有害的。如圖 8 所示,添加 DA 會顯著降低我們方法的性能。這凸顯了外部正則化器的一個關(guān)鍵風(fēng)險:盡管它們通常具有通用性,但可能會扭曲細(xì)微的、任務(wù)關(guān)鍵的信息。在這種情況下,我們無需 DA 的內(nèi)部機(jī)制提供了一種更魯棒的解決方案,進(jìn)一步印證了其作為 RSSM 原則性正則化器的有效性。


4.7 計(jì)算效率

我們無解碼器設(shè)計(jì)的一個核心優(yōu)勢是其計(jì)算效率。為確保公平比較,我們在統(tǒng)一的 DreamerV3 復(fù)現(xiàn)平臺上,測量我們的方法相對于基線方法的實(shí)際訓(xùn)練時間(wall-clock training time)。如表 1 所示,通過消除計(jì)算開銷較大的圖像生成過程,R2-Dreamer 相較于我們的 DreamerV3 復(fù)現(xiàn)實(shí)現(xiàn)了 1.59 倍的加速。此外,與 DreamerPro 相比,R2-Dreamer 實(shí)現(xiàn)了 2.36 倍的加速;DreamerPro 需要處理輸入的不同增強(qiáng)視圖以及后續(xù)相對復(fù)雜的邏輯。我們還包含了原始高度優(yōu)化的 DreamerV3 JAX 實(shí)現(xiàn)的訓(xùn)練時間作為參考。這些結(jié)果表明,R2-Dreamer 提供了一種更實(shí)用且可擴(kuò)展的解決方案。


5 結(jié)論

我們證明了一個原則性的內(nèi)部正則化目標(biāo)可以取代 MBRL 中對圖像重建的需求。我們的框架 R2-Dreamer 無需解碼器或任務(wù)特定的 DA,即可學(xué)習(xí)聚焦于顯著特征的表征。

這種方法的優(yōu)勢在我們具有挑戰(zhàn)性的 DMC-Subtle 基準(zhǔn)上最為明顯,在那里 R2-Dreamer 通過隔離微小、關(guān)鍵的物體,大幅優(yōu)于領(lǐng)先的基于解碼器和依賴 DA 的智能體。在跨越運(yùn)動和操作領(lǐng)域的標(biāo)準(zhǔn)基準(zhǔn)上,它與 DreamerV3 具有競爭力,同時實(shí)現(xiàn)了 1.59 倍的更快訓(xùn)練速度。

未來工作的一個重要方向是在具有動態(tài)且無關(guān)背景的環(huán)境中評估 R2-Dreamer,例如 Distracting Control Suite(Stone 等人,2021)。我們在 DMC-Subtle 上的結(jié)果表明,我們的內(nèi)部冗余減少目標(biāo)自然地避免了將表征容量浪費(fèi)在無關(guān)像素上,這可能意味著對此類動態(tài)干擾具有魯棒性。驗(yàn)證這一假設(shè)將進(jìn)一步確立無 DA 內(nèi)部正則化對于復(fù)雜視覺控制任務(wù)的有效性。擴(kuò)展到像 Humanoid 這樣的高維任務(wù)也是未來的方向。

通過將重點(diǎn)從視覺保真度轉(zhuǎn)移到信息效率,我們的工作為構(gòu)建智能體提供了一個可擴(kuò)展的基礎(chǔ),在這些智能體中,啟發(fā)式增強(qiáng)存在扭曲任務(wù)關(guān)鍵信息的風(fēng)險。這項(xiàng)研究開啟了對內(nèi)部正則化的新探索,將其作為通往更通用、更強(qiáng)大學(xué)習(xí)智能體的原則性路徑。

原文鏈接:https://openreview.net/pdf?id=Je2QqXrcQq

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
25歲“天后”單依純終于走到今天這步,李健6年前的預(yù)言應(yīng)驗(yàn)了!

25歲“天后”單依純終于走到今天這步,李健6年前的預(yù)言應(yīng)驗(yàn)了!

八卦南風(fēng)
2026-03-30 10:40:29
重磅!我國臺辦正式宣布,鄭麗文訪問大陸行程確定,盧秀燕不裝了

重磅!我國臺辦正式宣布,鄭麗文訪問大陸行程確定,盧秀燕不裝了

DS北風(fēng)
2026-03-30 11:58:08
賈躍亭曬喜訊:兒子圓夢斯坦福大學(xué)研究生 為他驕傲

賈躍亭曬喜訊:兒子圓夢斯坦福大學(xué)研究生 為他驕傲

快科技
2026-03-30 09:40:20
周杰倫: 鬼火少年老了

周杰倫: 鬼火少年老了

爆角追蹤
2026-03-29 21:26:58
楊瀚森復(fù)出6+4+1帽吃生涯首T!開拓者3人20+大勝奇才 阿夫20+7

楊瀚森復(fù)出6+4+1帽吃生涯首T!開拓者3人20+大勝奇才 阿夫20+7

醉臥浮生
2026-03-30 08:30:08
比亞迪:比利潤下滑19%更可怕的,是裁員10萬人

比亞迪:比利潤下滑19%更可怕的,是裁員10萬人

詩與星空
2026-03-30 08:00:11
重慶一高校多名貧困生兼職送外賣被處分,最新進(jìn)展:校方中止處分流程,未實(shí)際處罰

重慶一高校多名貧困生兼職送外賣被處分,最新進(jìn)展:校方中止處分流程,未實(shí)際處罰

湖南法治報
2026-03-30 14:47:57
重磅!我國臺辦正式宣布,鄭麗文訪問大陸行程確定,盧秀燕不裝了

重磅!我國臺辦正式宣布,鄭麗文訪問大陸行程確定,盧秀燕不裝了

奇思妙想生活家
2026-03-30 13:48:00
2500名美海軍陸戰(zhàn)隊(duì)抵近,德黑蘭為何威脅炸掉自己的“錢袋子”?

2500名美海軍陸戰(zhàn)隊(duì)抵近,德黑蘭為何威脅炸掉自己的“錢袋子”?

楓葉君評
2026-03-30 10:54:48
1斤低至4.9元!豬肉價格持續(xù)“跳水”,養(yǎng)一頭要虧225元,行業(yè)預(yù)計(jì)下半年回暖

1斤低至4.9元!豬肉價格持續(xù)“跳水”,養(yǎng)一頭要虧225元,行業(yè)預(yù)計(jì)下半年回暖

紅星資本局
2026-03-29 20:10:11
接陌生電話不要先出聲

接陌生電話不要先出聲

大象新聞
2026-03-29 07:29:10
剛送別張雪峰,11歲女兒收到第一張江湖令!

剛送別張雪峰,11歲女兒收到第一張江湖令!

職場火鍋
2026-03-30 15:42:03
全美900萬人抗議,ICE代局長焦慮到兩度入院,伊朗戰(zhàn)事成萬斯與魯比奧“試金石”?

全美900萬人抗議,ICE代局長焦慮到兩度入院,伊朗戰(zhàn)事成萬斯與魯比奧“試金石”?

紅星新聞
2026-03-30 17:15:13
張雪峰搶救細(xì)節(jié)曝光:副院長參與搶救,心血管狹窄90%,太可惜

張雪峰搶救細(xì)節(jié)曝光:副院長參與搶救,心血管狹窄90%,太可惜

談史論天地
2026-03-30 13:43:18
涉嫌嚴(yán)重違紀(jì)違法 趙福增、張秀成接受審查調(diào)查

涉嫌嚴(yán)重違紀(jì)違法 趙福增、張秀成接受審查調(diào)查

中國網(wǎng)
2026-03-30 15:59:04
偉偉道來|有奪島作戰(zhàn),才有實(shí)質(zhì)性談判

偉偉道來|有奪島作戰(zhàn),才有實(shí)質(zhì)性談判

經(jīng)濟(jì)觀察報
2026-03-30 11:58:18
單依純的尷尬不在于翻唱,而是無歌可唱

單依純的尷尬不在于翻唱,而是無歌可唱

牛角說
2026-03-30 12:41:23
山東連續(xù)4天有雨:雷雨或陣雨+7~8級大風(fēng)來襲

山東連續(xù)4天有雨:雷雨或陣雨+7~8級大風(fēng)來襲

魯中晨報
2026-03-30 15:46:06
2天2連冠 張雪機(jī)車讓對手們集體抱頭:為中國制造代言 舉國旗落淚

2天2連冠 張雪機(jī)車讓對手們集體抱頭:為中國制造代言 舉國旗落淚

風(fēng)過鄉(xiāng)
2026-03-30 07:52:28
被驅(qū)逐的伊朗大使拒離境后被強(qiáng)行從館內(nèi)拖出,頭部疑被打

被驅(qū)逐的伊朗大使拒離境后被強(qiáng)行從館內(nèi)拖出,頭部疑被打

桂系007
2026-03-30 04:00:12
2026-03-30 18:27:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1313文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

一句謊言引發(fā)的硅谷血案

頭條要聞

尹正發(fā)文恭喜張雪奪冠 張雪:沒錢請您做代言人 送臺車

頭條要聞

尹正發(fā)文恭喜張雪奪冠 張雪:沒錢請您做代言人 送臺車

體育要聞

想進(jìn)世界杯,意大利還要過他這一關(guān)

娛樂要聞

單依純凌晨發(fā)長文道歉!李榮浩再回應(yīng)

財(cái)經(jīng)要聞

本輪地緣沖突,A股憑什么走出獨(dú)立行情

汽車要聞

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態(tài)度原創(chuàng)

親子
旅游
健康
教育
家居

親子要聞

兒科護(hù)士精準(zhǔn)控場,孩子哭得收放自如

旅游要聞

德州寶藏露營地!超市、外賣、公廁全配齊,周末就來這露營吧

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

教育要聞

五年級狀元題,求面積,會的不多

家居要聞

東方法式美學(xué) 現(xiàn)代簡約

無障礙瀏覽 進(jìn)入關(guān)懷版