国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

分布魯棒自由能原理及其在決策中的應(yīng)用

0
分享至

Distributionally robust free energy principle for decision-making

分布魯棒自由能原理及其在決策中的應(yīng)用



摘要

盡管自主智能體取得了開創(chuàng)性的性能,但當(dāng)訓(xùn)練和環(huán)境條件變得不一致時,它們可能會出現(xiàn)行為異常,即使是微小的不匹配也可能導(dǎo)致不理想的行為,甚至災(zāi)難性的失敗。對于智能體而言,對這些訓(xùn)練 - 環(huán)境模糊性的魯棒性是核心要求,而實現(xiàn)這一要求一直是它們在現(xiàn)實世界部署中長期面臨的挑戰(zhàn)。在此,我們介紹了一種分布魯棒自由能模型(DR-FREE),該模型從設(shè)計上就賦予了這一核心屬性。DR-FREE將自由能原理的魯棒擴(kuò)展與解析引擎相結(jié)合,將魯棒性融入智能體的決策機(jī)制中。在基準(zhǔn)實驗中,DR-FREE使得智能體即使在最先進(jìn)的模型失敗的情況下也能完成任務(wù)。這一里程碑可能會激發(fā)在多智能體環(huán)境中的部署,并且或許在更深層次上,啟發(fā)人們探索自然智能體——幾乎沒有或根本沒有訓(xùn)練——是如何在反復(fù)無常的環(huán)境中生存下來的。

引言

設(shè)計自主智能體的一種流行方法是向它們提供數(shù)據(jù),使用強(qiáng)化學(xué)習(xí)(RL)和模擬器來訓(xùn)練一個策略(見圖1a);谶@種范式設(shè)計的深度強(qiáng)化學(xué)習(xí)智能體已經(jīng)展現(xiàn)出令人矚目的能力,包括在《GT賽車》中超越人類冠軍、玩《雅達(dá)利》游戲、控制等離子體以及在無人機(jī)競賽中達(dá)到冠軍水平的表現(xiàn)。然而,盡管它們?nèi)〉昧碎_創(chuàng)性的表現(xiàn),但最先進(jìn)的智能體在策略魯棒性方面仍然無法與自然智能相媲美:自然智能體或許通過進(jìn)化獲得了決策能力,使它們能夠在幾乎沒有或根本沒有訓(xùn)練的情況下在具有挑戰(zhàn)性的環(huán)境中發(fā)揮作用。相比之下,對于人工智能體而言,即使它們能夠使用高保真度的模擬器,學(xué)習(xí)到的策略也可能對學(xué)習(xí)過程中可用的模型與真實環(huán)境之間的不匹配或模糊性表現(xiàn)出脆弱性(見圖1b)。例如,無人機(jī)冠軍和玩《雅達(dá)利》游戲的智能體都假設(shè)環(huán)境條件在訓(xùn)練過程中是一致的,如果這種假設(shè)失敗,比如環(huán)境照明或物體顏色發(fā)生變化,或者無人機(jī)出現(xiàn)故障——使其動力學(xué)與訓(xùn)練期間可用的動力學(xué)不同——學(xué)習(xí)到的策略可能會失敗。更一般地說,即使是微小的模型模糊性也可能導(dǎo)致在開放世界環(huán)境中出現(xiàn)非魯棒行為和失敗。實現(xiàn)對這些訓(xùn)練/環(huán)境模糊性的魯棒性一直是設(shè)計能夠在現(xiàn)實世界中運行的智能機(jī)器的長期挑戰(zhàn)。

在這里,我們提出了DR-FREE,這是一個自由能計算模型,它解決了這一挑戰(zhàn):DR-FREE直接將這種智能的核心屬性植入智能體的決策機(jī)制中。這是通過將DR-FREE建立在自由能最小化的基礎(chǔ)上實現(xiàn)的,自由能最小化是信息論、機(jī)器學(xué)習(xí)、神經(jīng)科學(xué)、計算和認(rèn)知科學(xué)中一個統(tǒng)一的解釋框架。該原理假設(shè)自然和人工智能體中的適應(yīng)性行為源于變分自由能的最小化(見圖1c)。DR-FREE由兩個部分組成。第一部分是自由能原理的擴(kuò)展:分布魯棒(DR)自由能(FREE)原理,它從根本上重新定義了自由能最小化智能體如何處理模糊性。雖然經(jīng)典的自由能模型(見圖1c)通過基于智能體可用的環(huán)境模型來最小化自由能來獲得一個策略,但在我們的魯棒原理下,自由能則是在圍繞訓(xùn)練模型的一個模糊性集合內(nèi)的所有可能環(huán)境中被最小化。這個集合是根據(jù)訓(xùn)練模型周圍的統(tǒng)計復(fù)雜性來定義的。這意味著智能體的動作是從一個策略中采樣的,這個策略在模糊性集合中最小化了最大的自由能。魯棒原理產(chǎn)生了策略計算的問題表述。這是一個具有自由能函數(shù)作為目標(biāo)函數(shù),以及用統(tǒng)計復(fù)雜性形式化的模糊性約束的分布魯棒問題。這個問題不僅具有非線性成本函數(shù)和非線性約束,而且在決策變量上具有概率密度,為智能體提供了對不確定性和置信度的明確估計。這個框架的產(chǎn)物是一個最小化自由能且在模型模糊性上具有魯棒性的策略。DR-FREE的第二個關(guān)鍵部分——它的求解引擎——是計算這個策略的方法。與基于自由能模型的傳統(tǒng)策略計算方法不同,我們的方法表明,策略可以通過首先在模型模糊性集合中最大化自由能——在模糊性下提供一個成本——然后在策略空間中最小化自由能來方便地找到(見圖1d)。簡單來說,策略是在最壞情況下的最佳選擇,其中最壞情況容納了模糊性。當(dāng)沒有模糊性時,我們的魯棒自由能原理產(chǎn)生了一個自然出現(xiàn)在學(xué)習(xí)——在最大擴(kuò)散(MaxDiff)和最大熵(MaxEnt)的背景下——以及控制中的策略計算問題表述。這意味著DR-FREE可以產(chǎn)生不僅繼承了這些方法的所有理想屬性,而且確保它們在整個模糊性集合上的策略。在最大熵——和最大擴(kuò)散——中,魯棒性取決于最優(yōu)策略的熵,在離散設(shè)置中可以得到策略魯棒性的明確界限。為了計算一個魯棒地最大化獎勵的策略,最大熵需要與一個不同的、悲觀的獎勵一起使用——在DR-FREE中不需要這樣做。我們自由能計算模型的這些理想特性是由它的求解引擎實現(xiàn)的。據(jù)我們所知,這是唯一可用的方法,用于解決由我們的魯棒原理產(chǎn)生的完整的分布魯棒、非線性和無限維策略計算問題;詳細(xì)信息見結(jié)果部分和補(bǔ)充信息中的第S2節(jié)。在補(bǔ)充信息中,我們還強(qiáng)調(diào)了它與馬爾可夫決策過程(MDPs)形式化方法的聯(lián)系。DR-FREE產(chǎn)生了一個結(jié)構(gòu)明確的策略:這是一個軟最大值,其指數(shù)取決于模糊性。這種結(jié)構(gòu)闡明了模糊性在最優(yōu)決策中的關(guān)鍵作用,即它如何調(diào)節(jié)選擇給定動作的概率。


DR-FREE不僅返回了我們自由能模型產(chǎn)生的策略,還確立了其性能極限。通過這樣做,DR-FREE有兩個含義。首先,DR-FREE策略是可解釋的,并且支持(貝葉斯)信念更新。第二個含義是,面對模糊性的智能體不可能超過一個沒有模糊性的智能體。當(dāng)模糊性消失時,DR-FREE恢復(fù)了一個對其環(huán)境有完美知識的智能體的策略,沒有智能體能夠獲得更好的性能。反過來,隨著模糊性的增加,DR-FREE表明策略會降低智能體可用模型在模糊性上的權(quán)重。

我們在一個涉及真實探測器的實驗測試平臺上評估了DR-FREE,這些探測器的任務(wù)是在避開障礙物的同時到達(dá)期望的目的地。DR-FREE可用的訓(xùn)練模型是從有偏差的實驗數(shù)據(jù)中學(xué)習(xí)的,這些數(shù)據(jù)沒有充分捕捉到真實環(huán)境,并引入了模糊性。在實驗中——即使存在由于從有偏差的數(shù)據(jù)中學(xué)習(xí)模型而產(chǎn)生的模糊性——DR-FREE成功地使探測器完成了它們的任務(wù),即使在最先進(jìn)的自由能最小化智能體和其他方法都難以完成任務(wù)的設(shè)置中。實驗結(jié)果——通過在流行的高維模擬環(huán)境中評估DR-FREE得到證實——表明,為了在開放環(huán)境中運行,智能體需要內(nèi)置的魯棒性機(jī)制,這些機(jī)制對于補(bǔ)償不良訓(xùn)練至關(guān)重要。DR-FREE提供了一個在問題表述中定義魯棒性的機(jī)制,提供了這種能力。

我們的自由能計算模型DR-FREE揭示了自由能最小化智能體如何計算在問題表述中定義的模糊性集合上具有魯棒性的最優(yōu)動作。它建立了一個規(guī)范框架,不僅可以為基于自由能模型的人工智能體的設(shè)計提供魯棒決策能力,還可以超越當(dāng)前的自由能解釋來理解自然行為。盡管取得了成功,但目前還沒有理論解釋這些自由能智能體是否以及如何在模糊性設(shè)置中計算動作。DR-FREE提供了這些解釋。

結(jié)果

DR-FREE。DR-FREE 包括一個分布魯棒的自由能原理以及相應(yīng)的求解引擎——該原理(圖 2a)是策略計算的問題陳述;求解引擎是策略計算的方法。該原理建立了一個序貫策略優(yōu)化框架,其中隨機(jī)化策略源于對模糊性下最大自由能的最小化。該求解引擎在策略空間中找到解決方案。這是通過計算——通過對模糊集中的所有可能環(huán)境的最大自由能——與模糊性相關(guān)的成本來實現(xiàn)的。然后,隨后的最大自由能將在策略空間中被最小化(圖 1d)。





圖 2a 中的策略優(yōu)化問題是無限維的,因為最小化和最大化都在概率密度空間中進(jìn)行。這使得對不確定性和模糊性的處理成為貝葉斯最優(yōu)的,這將控制和規(guī)劃表征為(主動)推斷。DR-FREE 求解引擎——計算策略的方法——不僅找到策略,而且或許是反直覺地,返回一個具有明確且定義良好的函數(shù)形式的解。求解引擎背后的分析結(jié)果在 Supplementary Information 的 Sec. S3 和 Sec. S6 中。在總結(jié)中,這些分析結(jié)果表明,在每個 k k,最優(yōu)策略可以通過雙層優(yōu)化方法找到,首先在模糊性約束下最大化自由能,然后在策略上最小化。雖然最大化問題仍是無限維的,但其最優(yōu)值——產(chǎn)生模糊性成本——可以通過求解一個標(biāo)量優(yōu)化問題獲得。這個標(biāo)量優(yōu)化問題是凸的并具有全局最小值。因此,一旦獲得模糊性成本,隨后的自由能可以在策略空間中被最小化,并且最優(yōu)策略是唯一的。這些理論發(fā)現(xiàn)總結(jié)在圖 2b 中。具體來說,時間步 k k的策略是一個 soft-max


DR-FREE 在模糊性無感知的自由能最小化代理失敗時成功。為了評估 DR-FREE,我們特別考慮了一個實驗,其中簡單性是一個有意特征,以確保模型模糊性對決策的影響可以被識別、對文獻(xiàn)中的方法進(jìn)行基準(zhǔn)測試46,并定量測量。該實驗平臺(圖 3a)是 Robotarium47,提供硬件和高保真模擬器。任務(wù)是機(jī)器人導(dǎo)航:一個漫游者需要到達(dá)目標(biāo)目的地,同時避開障礙物(圖 3b)。在這一設(shè)置中,我們證明了一個模糊性無感知的自由能最小化代理——即使它做出最優(yōu)動作——也不能可靠地完成任務(wù),而 DR-FREE 成功了。文獻(xiàn)中的模糊性無感知代理46通過求解圖 2a 中問題的松弛版本(沒有模糊性)來計算最優(yōu)策略。這個代理求解了一個在學(xué)習(xí)和控制中相關(guān)的策略計算問題56——具有 DR-FREE 目標(biāo)但沒有約束。我們進(jìn)行了多項實驗:在每項實驗中,DR-FREE 用于計算反應(yīng)性動作,只訪問訓(xùn)練模型并且不知道。我們離線訓(xùn)練了一個高斯過程模型,分階段學(xué)習(xí)。在每個階段,通過對機(jī)器人施加隨機(jī)采樣動作獲得數(shù)據(jù),并有意向機(jī)器人位置添加偏差(見 Experiments settings in Methods 以獲取訓(xùn)練細(xì)節(jié),以及 Supplementary Information 的 Sec. S5 以獲取數(shù)據(jù)),從而引入模糊性。每個階段的損壞數(shù)據(jù)隨后用于通過高斯過程學(xué)習(xí)訓(xùn)練模型。圖 3c 顯示了 DR-FREE 在訓(xùn)練的每個階段的表現(xiàn),與做出最優(yōu)決策但模糊性無感知的自由能最小化代理的表現(xiàn)相比。在第一組實驗中,當(dāng)配備 DR-FREE 時,機(jī)器人總是能夠成功完成任務(wù)(圖 3c 上方面板);在所有實驗中,機(jī)器人能夠到達(dá)目標(biāo)同時避開障礙物。相比之下,在第二組實驗中,當(dāng)機(jī)器人通過最小化自由能——而不使用 DR-FREE——計算反應(yīng)性動作時,它失敗了任務(wù),除非在最短路徑無障礙的瑣碎情況下撞上障礙物(見圖 3c 底部;詳見 Methods)。這一結(jié)論在為這個模糊性無感知代理配備規(guī)劃能力時得到確認(rèn)。如 Supplementary 圖 3 所示,對于不同寬度的規(guī)劃視野,模糊性無感知代理僅在最短路徑無障礙時完成任務(wù),從而確認(rèn)了圖 3c 底部所示的發(fā)現(xiàn)。實驗提供了兩個關(guān)鍵亮點。首先,模糊性本身可能對代理及其周圍環(huán)境產(chǎn)生災(zāi)難性影響。其次,DR-FREE 使代理能夠在相同的模糊性下成功完成任務(wù)。這一結(jié)論還得到 DR-FREE 在 Robotarium 硬件上部署的實驗支持。如圖 3d 所示,DR-FREE 實際上使 Robotarium 提供的機(jī)器人能夠?qū)Ш降侥康牡兀M管存在模型模糊性,有效完成任務(wù)。在 Robotarium 硬件實驗中測量的計算時間約為 0.22 秒(詳見 Methods)。見 Data Availability 以獲取錄像;代碼也提供(見 Code Availability)。Supplementary 圖 4 展示了同一領(lǐng)域但具有不同目標(biāo)位置和障礙物配置的補(bǔ)充實驗集的結(jié)果。實驗確認(rèn),盡管存在模糊性,DR-FREE 一致地使機(jī)器人在所有測試環(huán)境中完成任務(wù)(代碼也可用)。



DR-FREE 闡明了模糊性在最優(yōu)決策中的機(jī)制作用。DR-FREE 策略(圖 2b)對與較高模糊性相關(guān)的狀態(tài)和動作分配較低的概率。

用更簡單的術(shù)語來說,一個遵循 DR-FREE 策略的代理更有可能選擇與較低模糊性相關(guān)的動作和狀態(tài)。DR-FREE 產(chǎn)生了代理行為在小模糊性和大模糊性兩種體制下的特征描述。直觀上,隨著模糊性增加,DR-FREE 產(chǎn)生的策略將由代理的生成模型和模糊性半徑主導(dǎo)。本質(zhì)上,隨著模糊性增加,DR-FREE 意味著代理將決策基于先驗和模糊性,反映其對模型缺乏信心。相反,當(dāng)代理對其訓(xùn)練模型有信心時,DR-FREE 返回一個自由能最小化代理的策略,在一個良好理解、無模糊性的環(huán)境中做出最優(yōu)決策。






放松不確定性可以產(chǎn)生最大擴(kuò)散。最大擴(kuò)散(MaxDiff)是一種策略計算框架,它概括了最大熵(MaxEnt)并繼承了其穩(wěn)健性特性。它在流行的基準(zhǔn)測試中表現(xiàn)優(yōu)于其他最先進(jìn)的方法。我們展示了當(dāng)不確定性放松時,通過適當(dāng)選擇,分布穩(wěn)健自由能原理(圖2a)可以恢復(fù)MaxDiff目標(biāo)。這明確地將DR-FREE與MaxDiff連接起來,并通過它與更廣泛的穩(wěn)健決策制定文獻(xiàn)(補(bǔ)充信息的S2節(jié))連接起來。在MaxEnt和MaxDiff中,穩(wěn)健性保證來自于最優(yōu)策略的熵,對于離散設(shè)置,可以在不確定性集上獲得明確的后驗界限,并具有恒定的不確定性半徑。為了計算穩(wěn)健最大化獎勵的策略,必須使用輔助的、悲觀的獎勵來使用MaxEnt。相比之下,通過解決圖2a中的問題,DR-FREE直接在問題表述中定義了穩(wěn)健性保證,明確地通過不確定性集。因此,DR-FREE策略保證在這一不確定性集上是穩(wěn)健的。如補(bǔ)充信息的S2節(jié)所詳述,據(jù)我們所知,圖2a中的完整最小-最大問題——同時具有自由能目標(biāo)和分布穩(wěn)健約束——對許多方法來說仍然是一個挑戰(zhàn)。這不僅僅是一個理論上的成就,它獨特地將DR-FREE定位在文獻(xiàn)中——我們通過重新審視我們的機(jī)器人導(dǎo)航任務(wù)來探索其影響:我們?yōu)镈R-FREE配備了一個生成模型,該模型恢復(fù)了MaxDiff目標(biāo),并比較了它們的性能。實驗表明,DR-FREE在MaxDiff失敗的環(huán)境中取得了成功。這是因為DR-FREE不僅保留了MaxDiff的理想特性,而且還在不確定性集的最壞情況下保證了它們。







最后,我們在 MuJoCo 的螞蟻環(huán)境中評估 DR-FREE(圖 5a)。目標(biāo)是讓四足代理在保持直立姿勢的同時沿 x 軸向前移動。每個回合持續(xù) 1000 步,除非螞蟻變得不健康——這是標(biāo)準(zhǔn)環(huán)境中定義的失敗條件。我們將 DR-FREE 與所有先前考慮的方法以及模型預(yù)測路徑積分控制(NN-MPPI)進(jìn)行比較。在所有實驗中,代理都可以訪問訓(xùn)練好的模型。訓(xùn)練好的模型是使用與原始 MaxDiff 論文中相同的神經(jīng)網(wǎng)絡(luò)架構(gòu)獲得的,該論文還包括了與 NN-MPPI 的基準(zhǔn)測試。提供給代理的成本在所有實驗中都是相同的,對應(yīng)于標(biāo)準(zhǔn)環(huán)境中定義的負(fù)獎勵。圖 5b 顯示了該設(shè)置的實驗結(jié)果。實驗得出兩個主要觀察結(jié)果。首先,DR-FREE 的表現(xiàn)優(yōu)于所有比較方法,平均而言,即使其他方法的最高誤差條(其他方法的平均值的標(biāo)準(zhǔn)差)也不及 DR-FREE 的平均回報。其次,在一些試驗中,其他方法會因為螞蟻變得不健康而提前終止回合。相比之下,在所有 DR-FREE 實驗中,螞蟻始終保持健康,因此回合不會提前終止。有關(guān)詳細(xì)信息,請參閱方法和補(bǔ)充信息中的實驗設(shè)置;代碼也已提供。


魯棒性是智能代理在現(xiàn)實世界中操作的核心要求。與其將這一要求的實現(xiàn)留給——引用文獻(xiàn)5——訓(xùn)練中出現(xiàn)的潛在脆弱屬性,DR-FREE通過設(shè)計確保了這一核心要求,基于自由能的最小化,并將順序策略優(yōu)化安裝到一個嚴(yán)格的(變分或貝葉斯)框架中。 DR-FREE不僅提供了一個考慮環(huán)境不確定性的自由能原理,還提供了解決由此產(chǎn)生的順序策略優(yōu)化框架的解析引擎。這一里程碑很重要,因為它解決了智能機(jī)器在開放世界中操作的挑戰(zhàn)。在此過程中,DR-FREE闡明了不確定性對最優(yōu)決策的機(jī)制作用及其策略支持(貝葉斯)信念更新。DR-FREE確立了在不確定性面前的性能極限,顯示出在非常基礎(chǔ)的層面上,受不確定性影響的代理不可能超越無不確定性的自由能最小化代理。這些分析結(jié)果通過我們的實驗得到了證實。

在導(dǎo)航實驗中,我們將一個對不確定性不敏感的自由能最小化代理的行為與裝備有DR-FREE的代理的行為進(jìn)行了比較。所有實驗都表明,DR-FREE對于機(jī)器人在不確定性中成功完成任務(wù)至關(guān)重要,當(dāng)我們考慮額外的基準(zhǔn)測試和不同環(huán)境時,這一點得到了證實。DR-FREE能夠重建支持其在相關(guān)方法中表現(xiàn)優(yōu)越的成本函數(shù)。我們的實驗設(shè)置不僅對智能機(jī)器來說是典范的,強(qiáng)調(diào)了不確定性的嚴(yán)重后果,而且對自然智能也是如此。例如,通過進(jìn)化適應(yīng),細(xì)菌可以導(dǎo)航未知環(huán)境,這種對生存至關(guān)重要的能力是在幾乎沒有或沒有訓(xùn)練的情況下實現(xiàn)的。DR-FREE表明,如果細(xì)菌遵循一種決策策略,雖然簡單,但預(yù)見了促進(jìn)魯棒性的步驟,這可能是可能的。跑-停運動可能是一種精明的方式實現(xiàn)這一點:通過DR-FREE解釋,翻滾可能是由自由能最大化驅(qū)動的,需要在環(huán)境中量化不確定性的成本,而跑步則是從考慮這一成本的自由能最小化策略中采樣的。 DR-FREE提供了一個通過自由能最小化實現(xiàn)魯棒決策的模型,魯棒性保證在問題表述中定義——它還開啟了許多跨學(xué)科研究問題。 首先,我們的結(jié)果表明,從這項工作中產(chǎn)生的一個有前途的研究方向是將DR-FREE與感知和學(xué)習(xí)相結(jié)合,將訓(xùn)練與策略計算耦合。該框架將在策略計算問題的表述中嵌入分布約束,如在DR-FREE中一樣,同時保留受例如MaxDiff和/或證據(jù)自由能最小化啟發(fā)的感知和學(xué)習(xí)機(jī)制。該框架將激勵分析研究,以量化集成學(xué)習(xí)相對于離線管道的好處。沿著這些思路,應(yīng)該開發(fā)分析研究來擴(kuò)展我們的框架,使其能夠明確考慮代理成本/獎勵中的不確定性。其次,DR-FREE將不確定性半徑作為輸入,這激發(fā)了在我們模型中推導(dǎo)半徑估計機(jī)制的動機(jī)。通過我們的分析結(jié)果,我們知道減少不確定性可以提高性能;因此,在我們的框架中整合一種學(xué)習(xí)不確定性的方法將是朝著不僅魯棒而且反脆弱的代理邁出的有前途的一步。最后,我們的實驗引發(fā)了一個更廣泛的問題:在不確定性存在的情況下,什么構(gòu)成了一個好的生成模型/規(guī)劃視野?答案仍然難以捉摸——DR-FREE保證了對不確定性的魯棒性,實驗表明它可以補(bǔ)償糟糕的規(guī)劃/模型;然而,例如,通過更多的任務(wù)導(dǎo)向模型/規(guī)劃,對不確定性不敏感的代理可能會成功。這產(chǎn)生了一個后續(xù)問題。在具有挑戰(zhàn)性的環(huán)境中,專用模型是否比多用途模型更有利于生存?

如果,引用流行的格言,所有模型都是錯誤的,但有些是有用的,那么放寬對訓(xùn)練的要求,DR-FREE使更多模型變得有用。這是通過偏離強(qiáng)調(diào)訓(xùn)練的作用和重要性的觀點實現(xiàn)的:在DR-FREE中,重點反而在于嚴(yán)格地將魯棒性安裝到?jīng)Q策機(jī)制中。憑借其魯棒的自由能最小化原理和解析引擎,DR-FREE表明,沿著這條道路,智能機(jī)器可以從很大程度上不完美,甚至糟糕的模型中恢復(fù)魯棒策略。我們希望這項工作能夠激勵我們在多智能體設(shè)置中部署我們的自由能模型(具有異構(gòu)代理,如無人機(jī)、自主船只和人類)跨越廣泛的應(yīng)用領(lǐng)域,并結(jié)合DR-FREE與深度強(qiáng)化學(xué)習(xí),導(dǎo)致學(xué)習(xí)方案——學(xué)習(xí)不確定性——在經(jīng)典方法失敗時成功。在可能更深層次的層面上——因為不確定性是心理學(xué)、經(jīng)濟(jì)學(xué)和神經(jīng)科學(xué)等跨學(xué)科領(lǐng)域的關(guān)鍵主題——我們希望這項工作能夠為自然代理如何在幾乎沒有或沒有訓(xùn)練的情況下在具有挑戰(zhàn)性的環(huán)境中穩(wěn)健操作提供生物學(xué)上可信的神經(jīng)解釋的基礎(chǔ)。

方法



這是對自由能原理的一個擴(kuò)展,考慮了策略對模型不確定性的魯棒性。我們沒有意識到其他任何考慮這種設(shè)置的自由能賬戶,以及相應(yīng)的無限維優(yōu)化框架無法用優(yōu)秀的方法解決。當(dāng)移除不確定性約束且損失為負(fù)對數(shù)似然時,我們的公式簡化為主動推理中的預(yù)期自由能最小化。在這個特殊情況下,預(yù)期的復(fù)雜性(即不確定性成本)變成了風(fēng)險;也就是說,推斷結(jié)果與首選結(jié)果(即訓(xùn)練結(jié)果)之間的KL散度。預(yù)期自由能可以表示為風(fēng)險加上不確定性;然而,預(yù)期自由能中的不確定性涉及生成模型中似然映射的不確定性(即條件熵),而不是我們自由能模型中考慮的關(guān)于生成模型的不確定性。 在魯棒和傳統(tǒng)的主動推理中,復(fù)雜性項在最優(yōu)控制和杰恩斯的最大口徑(也稱為路徑熵)或最小熵產(chǎn)生原理之間建立了密切的關(guān)系。值得注意的是,為我們在主動推理中的自由能最小化提供一般化,我們的魯棒公式產(chǎn)生了其他流行的計算模型,如KL控制、控制作為推理和線性二次高斯調(diào)節(jié)器。此外,當(dāng)損失為負(fù)對數(shù)似然時,成本函數(shù)中變分自由能的負(fù)值是證據(jù)下界,這是機(jī)器學(xué)習(xí)和逆強(qiáng)化學(xué)習(xí)中的一個關(guān)鍵概念。憑借其解析引擎,DR-FREE表明在這個非常廣泛的設(shè)置中,仍然可以計算出最優(yōu)策略。將MaxDiff與DR-FREE聯(lián)系起來。我們首先展示圖2a中的魯棒自由能原理公式具有與(1)相同的最優(yōu)解。我們有以下恒等式:


解析引擎。變分自由能和不確定性約束在無限維決策變量中都是非線性的,這帶來了許多挑戰(zhàn),我們通過解析引擎來解決這些問題。解析引擎允許我們處理由我們的魯棒自由能原理產(chǎn)生的順序策略優(yōu)化框架。我們在這里詳細(xì)說明解析引擎,并參考補(bǔ)充信息以獲取正式處理。我們的起點是通過上述順序策略優(yōu)化框架制定的魯棒自由能原理。這可以通過向后遞歸來解決,其中開始,在每個 k 時需要解決以下優(yōu)化問題:






主論文中的成本重建是通過找到對問題最優(yōu)的權(quán)重來獲得的,即在去掉成本中的第一項后,因為它不依賴于權(quán)重。問題的凸性隨之而來,因為成本函數(shù)是凸函數(shù)的錐形組合。詳見補(bǔ)充信息。





原文:https://arxiv.org/pdf/2503.13223

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭議

天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭議

阿SIR觀察
2026-01-27 10:38:05
高詩巖單節(jié)15分!山東男籃逆轉(zhuǎn)黑馬,克里斯低迷,兩大功臣發(fā)威

高詩巖單節(jié)15分!山東男籃逆轉(zhuǎn)黑馬,克里斯低迷,兩大功臣發(fā)威

牛眼看球
2026-01-27 21:45:55
徐文海、程用文、雷文潔已任湖北省人大常委會黨組成員

徐文海、程用文、雷文潔已任湖北省人大常委會黨組成員

澎湃新聞
2026-01-27 13:57:11
江蘇一餐飲老板李金良去世,僅37歲,新店才幾個月,妻子心都碎了

江蘇一餐飲老板李金良去世,僅37歲,新店才幾個月,妻子心都碎了

深析古今
2026-01-27 09:48:29
“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

妍妍教育日記
2026-01-27 19:58:28
央視坐實!成本2元售價19800元!不少人受騙,趕緊別用了

央視坐實!成本2元售價19800元!不少人受騙,趕緊別用了

白色得季節(jié)
2026-01-27 21:30:49
要打就打痛!中國手段已升級,日本:中方不批準(zhǔn)駐重慶總領(lǐng)事任命

要打就打痛!中國手段已升級,日本:中方不批準(zhǔn)駐重慶總領(lǐng)事任命

滄海旅行家
2026-01-27 17:17:15
凱恩將續(xù)約拜仁,創(chuàng)隊史頂薪紀(jì)錄

凱恩將續(xù)約拜仁,創(chuàng)隊史頂薪紀(jì)錄

星耀國際足壇
2026-01-27 21:18:40
你知道咱媽為何要拍《太平年》嗎?知道這是拍給誰看的嗎?

你知道咱媽為何要拍《太平年》嗎?知道這是拍給誰看的嗎?

李健政觀察
2026-01-27 09:50:28
我們贏了!中國成功研制全球首款二維芯片,ASML慌了:更可怕的還在后頭

我們贏了!中國成功研制全球首款二維芯片,ASML慌了:更可怕的還在后頭

芯火相承
2026-01-26 21:29:42
牢A爆火后留學(xué)圈炸了!陪讀媽媽、女留學(xué)生成狩獵目標(biāo),家長必看

牢A爆火后留學(xué)圈炸了!陪讀媽媽、女留學(xué)生成狩獵目標(biāo),家長必看

烏娛子醬
2026-01-27 16:50:05
云南“毒紅薯”后續(xù):10億產(chǎn)業(yè)崩盤,無辜農(nóng)戶欲哭無淚

云南“毒紅薯”后續(xù):10億產(chǎn)業(yè)崩盤,無辜農(nóng)戶欲哭無淚

過了法考的新聞人
2026-01-27 17:19:11
突擊檢查全國武器庫!一定要嚴(yán)防被掉包,甲午戰(zhàn)爭悲劇絕不能重演

突擊檢查全國武器庫!一定要嚴(yán)防被掉包,甲午戰(zhàn)爭悲劇絕不能重演

愛吃醋的貓咪
2026-01-27 20:31:00
紫牛頭條|大連一業(yè)主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團(tuán)陷僵局

紫牛頭條|大連一業(yè)主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團(tuán)陷僵局

揚子晚報
2026-01-27 21:52:52
性行為缺失會促癌?華中大最新:性行為缺失會削弱抗癌免疫力,保持性行為則有利于抗癌

性行為缺失會促癌?華中大最新:性行為缺失會削弱抗癌免疫力,保持性行為則有利于抗癌

醫(yī)諾維
2026-01-26 17:02:36
首都機(jī)場“大老虎”:下班飛澳門,早上坐專機(jī)上班,一晚輸600萬

首都機(jī)場“大老虎”:下班飛澳門,早上坐專機(jī)上班,一晚輸600萬

牛牛叨史
2026-01-27 23:54:21
在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進(jìn)醫(yī)院,盒馬回應(yīng)

在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進(jìn)醫(yī)院,盒馬回應(yīng)

瀟湘晨報
2026-01-27 18:01:05
小區(qū)內(nèi)裝卸鋼化玻璃,不到一小時連發(fā)兩起事故,有傷者送醫(yī)后身亡;家屬:用工方負(fù)責(zé)人已被逮捕

小區(qū)內(nèi)裝卸鋼化玻璃,不到一小時連發(fā)兩起事故,有傷者送醫(yī)后身亡;家屬:用工方負(fù)責(zé)人已被逮捕

大風(fēng)新聞
2026-01-27 17:10:11
爬山遺失80克金吊墜男子:把對講機(jī)掛在了金吊墜的鏈子上,快登頂才發(fā)現(xiàn)吊墜丟了,目前還沒找到

爬山遺失80克金吊墜男子:把對講機(jī)掛在了金吊墜的鏈子上,快登頂才發(fā)現(xiàn)吊墜丟了,目前還沒找到

魯中晨報
2026-01-27 16:23:14
沉默24小時后,卡尼終于發(fā)聲,與中國協(xié)議作廢,美財長得寸進(jìn)尺

沉默24小時后,卡尼終于發(fā)聲,與中國協(xié)議作廢,美財長得寸進(jìn)尺

天仙無味小仙女
2026-01-28 00:41:45
2026-01-28 04:16:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數(shù) 18關(guān)注度
往期回顧 全部

財經(jīng)要聞

多地對壟斷行業(yè)"近親繁殖"出手了

頭條要聞

美報告稱中國是其19世紀(jì)以來面對過的最強(qiáng)大國家

頭條要聞

美報告稱中國是其19世紀(jì)以來面對過的最強(qiáng)大國家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學(xué)?

娛樂要聞

張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個商務(wù)被取消

科技要聞

馬化騰3年年會講話透露了哪些關(guān)鍵信息

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

態(tài)度原創(chuàng)

藝術(shù)
家居
手機(jī)
公開課
軍事航空

藝術(shù)要聞

震撼!19世紀(jì)油畫巨匠的作品美得不可思議!

家居要聞

現(xiàn)代古典 中性又顯韻味

手機(jī)要聞

蘋果連發(fā)4版系統(tǒng):從iPhone 5s到iOS 26,果粉福音來了!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美海軍"林肯"號航母打擊群抵達(dá)中東地區(qū)

無障礙瀏覽 進(jìn)入關(guān)懷版