網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

論主動(dòng)推理中的預(yù)測性規(guī)劃與反事實(shí)學(xué)習(xí)

2026-03-10 14:58:57　來源: CreateAMind

上海舉報(bào)

分享至

On Predictive Planning and Counterfactual Learning in Active Inference

論主動(dòng)推理中的預(yù)測性規(guī)劃與反事實(shí)學(xué)習(xí)

https://www.mdpi.com/1099-4300/26/6/484

摘要：

鑒于人工智能的快速發(fā)展，理解智能行為的基礎(chǔ)正變得日益重要。主動(dòng)推理，被視為一種通用行為理論，提供了一種原則性的方法來探究規(guī)劃和決策中復(fù)雜性的基礎(chǔ)。本文考察了主動(dòng)推理中基于“規(guī)劃”和“從經(jīng)驗(yàn)中學(xué)習(xí)”的兩種決策方案。此外，我們還引入了一種混合模型，該模型駕馭了這些策略之間的數(shù)據(jù)復(fù)雜性權(quán)衡，利用兩者的優(yōu)勢來促進(jìn)平衡的決策。我們?cè)谝粋€(gè)具有挑戰(zhàn)性的網(wǎng)格世界場景中評(píng)估了我們提出的模型，該場景需要智能體具備適應(yīng)性。此外，我們的模型提供了分析各種參數(shù)演變的機(jī)會(huì)，提供了有價(jià)值的見解，并有助于形成一個(gè)用于智能決策的可解釋框架。

關(guān)鍵詞： 主動(dòng)推理；決策；數(shù)據(jù)復(fù)雜性權(quán)衡；混合模型

1. 引言

定義并從而將智能“智能體”與其具身的“環(huán)境”分離開來，隨后環(huán)境向智能體提供反饋，這對(duì)于建模智能行為至關(guān)重要。流行的方法，如強(qiáng)化學(xué)習(xí)（RL），大量采用這種包含智能體 - 環(huán)境循環(huán)的模型，這將問題歸結(jié)為智能體試圖在給定的不確定環(huán)境中最大化獎(jiǎng)勵(lì) [1]。主動(dòng)推理作為神經(jīng)科學(xué)中一種生物學(xué)上合理的框架出現(xiàn) [2]，與其他當(dāng)代方法如 RL 相比，它采用了一種不同的方法來建模智能行為。在主動(dòng)推理框架中，智能體在其生命周期內(nèi)積累并最大化模型證據(jù)，以進(jìn)行感知、學(xué)習(xí)和決策 [3–5]。然而，當(dāng)智能體遇到與其生成（世界）模型有關(guān)的高度“熵”觀測（即意外觀測）時(shí)，最大化模型證據(jù)變得具有挑戰(zhàn)性 [3–5]。這個(gè)看似棘手的最小化遇到觀測的熵（或最大化模型證據(jù)）的目標(biāo)，可以通過最小化觀測熵的一個(gè)上界來實(shí)現(xiàn)，稱為變分自由能 [3,4]。鑒于這一通用基礎(chǔ)，主動(dòng)推理 [6] 在為給定問題定義生成模型結(jié)構(gòu)方面提供了極好的靈活性，并且它在各個(gè)領(lǐng)域吸引了許多關(guān)注 [7,8]。在這項(xiàng)工作中，我們通過結(jié)合“規(guī)劃”和“從經(jīng)驗(yàn)中學(xué)習(xí)”，開發(fā)了一種基于主動(dòng)推理的高效決策方案。在下一節(jié)對(duì)生成世界模型進(jìn)行一般性介紹之后，我們將更仔細(xì)地查看主動(dòng)推理的決策方面。然后，我們總結(jié)了主動(dòng)推理文獻(xiàn)中的兩種主導(dǎo)方法：第一種基于規(guī)劃（第 2.3.1 節(jié)），第二種基于反事實(shí)學(xué)習(xí)（參見第 2.3.2 節(jié)）。我們比較了這兩種現(xiàn)有主動(dòng)推理方案的計(jì)算復(fù)雜性和數(shù)據(jù)效率（參見第 3.2 節(jié)），并提出了一種平衡這兩種互補(bǔ)方案的混合模型（第 3.3 節(jié)）。我們提出的混合模型不僅在需要適應(yīng)性的環(huán)境中表現(xiàn)良好（在第 3.5 節(jié)），而且還提供了關(guān)于使用模型參數(shù)進(jìn)行決策可解釋性的見解（在第 3.6 節(jié)）。

2. 方法

2.1. 主動(dòng)推理中的智能體 - 環(huán)境循環(huán)

生成模型是在主動(dòng)推理模型中建立智能體 - 環(huán)境循環(huán)的核心。假設(shè)智能體擁有一個(gè)外部世界的縮小模型，使智能體能夠預(yù)測外部動(dòng)態(tài)和未來觀測。然后智能體可以使用其可用動(dòng)作來追求未來結(jié)果，確保生存。在本文中，我們堅(jiān)持使用基于部分觀測馬爾可夫決策過程（POMDP）的生成模型 [9]。POMDP 是馬爾可夫決策過程（MDP）[10] 的一般情況，它是可控馬爾可夫鏈，適于建模離散狀態(tài)空間中的隨機(jī)系統(tǒng) [11]。在下一節(jié)中，我們提供基于 POMDP 的生成模型的具體細(xì)節(jié)。

2.2. 基于 POMDP 的生成模型

在主動(dòng)推理中，智能體通過最小化變分自由能來教導(dǎo)生成模型了解外部狀態(tài)并優(yōu)化其決策。POMDP（部分可觀測馬爾可夫決策過程）是一個(gè)用于建模離散狀態(tài)空間環(huán)境的通用框架，其中似然和狀態(tài)轉(zhuǎn)移被表示為易處理的分類分布 [12]。因此，我們采用 POMDP 作為我們要研究的智能體的生成模型?；?POMDP 的生成模型在形式上被定義為一個(gè)有限集的元組 ( S , O , T , U , B , A , D , E )
，使得：

F 的變分提供了關(guān)于狀態(tài)和參數(shù)的恰當(dāng)后驗(yàn)期望。一些可選參數(shù)，取決于所使用的具體決策方案，包括：

這些參數(shù)用于對(duì)動(dòng)作 u 的分布進(jìn)行參數(shù)化，并且動(dòng)作是通過變分自由能最小化來優(yōu)化的。更多細(xì)節(jié)將在后續(xù)章節(jié)中解釋。

2.3. 主動(dòng)推理中的決策方案

主動(dòng)推理下的決策被表述為最小化未來時(shí)間步的（期望）變分自由能 [15–17]。這使得智能體能夠部署一種基于規(guī)劃的決策方案，其中智能體預(yù)測可能的結(jié)果并做出決策，以達(dá)到最小化期望自由能（EFE）的狀態(tài)和觀測。傳統(tǒng)上，主動(dòng)推理優(yōu)化策略——即時(shí)間上的動(dòng)作序列——而不是像強(qiáng)化學(xué)習(xí)（RL）中的 Q-Learning [1] 等方法中的狀態(tài) - 動(dòng)作映射，以選擇最小化 EFE 的策略 [4]。然而，這樣的表述限制智能體只能解決具有低維狀態(tài)空間的環(huán)境 [4,13]。

隨后對(duì)該框架進(jìn)行了幾項(xiàng)改進(jìn)，包括最近的精密推理方案 [18]，它使用自由能的遞歸形式來減輕策略搜索的計(jì)算復(fù)雜性。精密推理方法使用時(shí)間上的前向樹搜索來評(píng)估 EFE；然而，由于計(jì)算復(fù)雜性，它限制了智能體的規(guī)劃深度 [18]。更創(chuàng)新的算法如動(dòng)態(tài)規(guī)劃可用于使規(guī)劃線性化 [3,19]。提出的線性化規(guī)劃方法在 [19] 中被稱為期望自由能動(dòng)態(tài)規(guī)劃（DPEFE）。該 DPEFE 算法在類似于網(wǎng)格世界任務(wù)的環(huán)境 [13] 中，表現(xiàn)與基準(zhǔn)強(qiáng)化學(xué)習(xí)方法如 Dyna-Q [20] 相當(dāng)（參見第 2.3.1 節(jié)了解 DPEFE 方法的技術(shù)細(xì)節(jié)）。DPEFE 算法的一個(gè)泛化最近被提出為“歸納推理”，以模擬智能體中的“意向行為”[21]。

另一項(xiàng)最近的工作偏離了這種預(yù)測規(guī)劃的經(jīng)典方法，并采用“從經(jīng)驗(yàn)中學(xué)習(xí)”來確定最優(yōu)決策 [14]。該方案在數(shù)學(xué)上等價(jià)于一類特定的神經(jīng)網(wǎng)絡(luò)，伴隨著一些突觸可塑性的神經(jīng)調(diào)節(jié) [14,22]。它使用反事實(shí)學(xué)習(xí)（本文中的 CL 方法）來基于環(huán)境反饋隨時(shí)間積累一種“風(fēng)險(xiǎn)”度量。隨后使用體外神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)驗(yàn)證該方案的工作最近也出現(xiàn)了 [23]。

以下總結(jié)了兩種方案的關(guān)鍵算法細(xì)節(jié)：第 2.3.1 節(jié)中的 DPEFE 和第 2.3.2 節(jié)中的 CL 方案。兩種方案都是基于常規(guī) POMDP 提出的。

2.3.1. DPEFE 方案與動(dòng)作精度

本文中的 DPEFE 方案基于 [13] 中的工作。該方案在論文 [19] 中被泛化到 POMDP 設(shè)置。使用的模型參數(shù)如第 2.2 節(jié)所示。DPEFE 方案中的動(dòng)作 - 感知循環(huán)包括感知（即識(shí)別導(dǎo)致觀測的狀態(tài)）、規(guī)劃、動(dòng)作選擇和學(xué)習(xí)模型參數(shù)。在本文中，所有環(huán)境都是完全可觀測的，因?yàn)槲覀兊闹攸c(diǎn)是決策而不是感知，因此 O = S。

DPEFE 方案中的動(dòng)作選擇實(shí)現(xiàn)如下：在使用動(dòng)態(tài)規(guī)劃評(píng)估未來觀測的期望自由能（EFE, G）后（參見 [19]），智能體評(píng)估選擇動(dòng)作 u 的概率分布為

這里， σ 是經(jīng)典的 softmax 函數(shù)，使得具有較小 EFE 的動(dòng)作以較大的概率被選中。動(dòng)作精度參數(shù) ( α ) 可以調(diào)整以增加/減少智能體的動(dòng)作選擇置信度。關(guān)于 EFE ( G ) 的評(píng)估和 DPEFE 算法的詳細(xì)描述，我們參考文獻(xiàn) [19]（第 5 節(jié)）。

2.3.2. CL 方法與風(fēng)險(xiǎn)參數(shù)

不同于嘗試直接最小化 EFE，在反事實(shí)學(xué)習(xí)（CL）方法中，智能體學(xué)習(xí)一個(gè)狀態(tài) - 動(dòng)作映射 CL。這個(gè)狀態(tài) - 動(dòng)作映射是通過一個(gè)更新方程學(xué)習(xí)的，該方程由如 [14] 中定義的“風(fēng)險(xiǎn)”項(xiàng)介導(dǎo)：

這里，是智能體接收到正的環(huán)境獎(jiǎng)勵(lì)的時(shí)刻。因此，智能體越快到達(dá)期望狀態(tài)， Γ t
（即風(fēng)險(xiǎn)）收斂到零的速度就越快（關(guān)于生成模型和自由能的確切形式，我們參考文獻(xiàn) [22]）。

論文中定義的所有更新規(guī)則都可以從智能體嘗試相對(duì)于生成模型最小化（變分）自由能（公式 (3)）這一公設(shè)推導(dǎo)出來 [14,19]。在本文的其余部分，我們調(diào)查了兩種方案——即 DPEFE 和 CL 方法——的性能，并考慮了一種結(jié)合它們的方案。下一節(jié)探討了這兩種方案在給定環(huán)境中的表現(xiàn)。

3. 結(jié)果

我們現(xiàn)在在基準(zhǔn)環(huán)境中測試兩種決策方案（DPEFE 和 CL）的性能，例如來自 OpenAIGym [24] 的 Cart Pole-v1（圖 1）。所有模擬都使用不同的隨機(jī)種子進(jìn)行 100 次或更多次試驗(yàn)，以確保結(jié)果的可復(fù)現(xiàn)性。

3.1. Cart Pole—v1（OpenAI Gym 任務(wù)）

在 Cart Pole—v1 環(huán)境 [25] 中，智能體通過側(cè)向移動(dòng)小車來保持桿子直立（在可接受范圍內(nèi)），從而獲得獎(jiǎng)勵(lì)（圖 1A）。當(dāng)桿子或小車超出可接受范圍時(shí)（桿子為 ±12 度，小車為 ±2.4 個(gè)單位幀大?。粓D 1B），回合終止。這個(gè)問題本質(zhì)上是自發(fā)性的，不需要控制器進(jìn)行規(guī)劃，智能體必須對(duì)小車和桿子的當(dāng)前狀況做出反應(yīng)。

然后，我們?cè)谝粋€(gè)突變?cè)O(shè)置中測試主動(dòng)推理，其中環(huán)境突變?yōu)橐粋€(gè)更具挑戰(zhàn)性的版本，桿子和小車位置的可接受范圍均減半（桿子為 ±6 度，小車為 ±1.2 個(gè)單位幀大?。?。具有不同規(guī)劃能力的主動(dòng)推理智能體的性能總結(jié)在圖 2A 中。

正如預(yù)期的那樣，CL 方法智能體優(yōu)于其他主動(dòng)推理方案（因?yàn)樵搯栴}需要自發(fā)控制，傾向于狀態(tài) - 動(dòng)作映射而非規(guī)劃）。智能體迅速學(xué)習(xí)了必要的狀態(tài) - 動(dòng)作映射，并且比其他基于規(guī)劃的方案更有效地平衡了桿子。我們?cè)诘?100 回合環(huán)境發(fā)生突變后也觀察到了這一點(diǎn)。CL 方法智能體在突變后的性能提升值得進(jìn)一步調(diào)查；然而，這可以歸因于突變后失敗率增加導(dǎo)致的反饋頻率增加。需要注意的是，我們?cè)诒疚闹胁⑽绰暦Q相對(duì)于不同的強(qiáng)化學(xué)習(xí)智能體具有更好的性能。我們使用 Dyna-Q 智能體與突變?nèi)蝿?wù)中重點(diǎn)關(guān)注的主動(dòng)推理智能體進(jìn)行定性比較。

在圖 2B 中，我們看到了風(fēng)險(xiǎn)項(xiàng)（Γ）的演變。隨著智能體對(duì)環(huán)境了解更多，風(fēng)險(xiǎn) Γ 穩(wěn)定到小于 0.5 的值。有趣的是，如圖 2B 所示，當(dāng)面對(duì)環(huán)境突變時(shí)，正如預(yù)期的那樣，Γ 出現(xiàn)了增加。在圖 2B 中，我們觀察到 CL 方法中的風(fēng)險(xiǎn)項(xiàng)（Γ）減少直到第 100 回合。值得注意的是，CL 方法智能體在圖 2A 中的性能提升與風(fēng)險(xiǎn)的減少方式相同。在第 100 回合，我們?cè)诃h(huán)境中引入突變，導(dǎo)致所有智能體的性能崩潰。我們觀察到性能隨時(shí)間恢復(fù)，CL 方法智能體中的風(fēng)險(xiǎn)項(xiàng)也是如此（圖 2B）。我們還觀察到風(fēng)險(xiǎn)項(xiàng)在下半段達(dá)到了甚至更低的范圍，這與性能提升相關(guān)。這些觀察結(jié)果突顯了 CL 方法智能體中參數(shù)的可解釋性。

接下來，我們?cè)谝粋€(gè)根本不同的環(huán)境中測試智能體——迷宮任務(wù)——這需要為未來進(jìn)行規(guī)劃。

3.2. 復(fù)雜迷宮任務(wù)與數(shù)據(jù)復(fù)雜性權(quán)衡

為了比較兩個(gè)智能體在戰(zhàn)略任務(wù)中的性能，我們?cè)跇?biāo)準(zhǔn)網(wǎng)格世界任務(wù) [26] 中模擬性能，如圖 3A 所示。該網(wǎng)格問題的最優(yōu)解如圖 3B 所示。這是一個(gè)復(fù)雜的網(wǎng)格世界，與過去文獻(xiàn)中用于解決的網(wǎng)格世界任務(wù) [4] 相比并非易事，因?yàn)槿绻扇‰S機(jī)動(dòng)作而非長度為 47 的最優(yōu)路線，智能體需要大約九千步才能到達(dá)目標(biāo)狀態(tài)。

性能評(píng)估是根據(jù)智能體多快能夠完成一個(gè)回合（即到達(dá)目標(biāo)狀態(tài)的回合長度（越低越好））來進(jìn)行的。顯示 DPEFE 和 CL 智能體性能的模擬結(jié)果繪制在圖 4A 中。這些結(jié)果表明，基于預(yù)測規(guī)劃的 DPEFE 智能體可以快速學(xué)習(xí)（即在十個(gè)回合內(nèi)）來導(dǎo)航這個(gè)網(wǎng)格。從圖 4A 來看，DPEFE 智能體的性能似乎在回合長度為一千左右飽和，并且它從未學(xué)會(huì)最優(yōu)路線。然而，在模擬中，DPEFE 智能體使用的動(dòng)作精度是代入公式 (4) 的 α = 1
。對(duì)于更高的動(dòng)作精度 ( σ )，智能體傾向于在更低的時(shí)間步長內(nèi)導(dǎo)航，始終堅(jiān)持最優(yōu)動(dòng)作。此外，我們觀察到 CL 方法智能體需要更長的時(shí)間來學(xué)習(xí)最優(yōu)路徑。這個(gè)結(jié)果（圖 4A）表明，CL 智能體需要在環(huán)境中有更多的經(jīng)驗(yàn)（即更多的數(shù)據(jù)）來解決它。

在圖 4B 中，我們比較了與決策規(guī)劃相關(guān)的主要主動(dòng)推理算法的計(jì)算復(fù)雜性。與其他流行的主動(dòng)推理方案 [4,18] 相比，DPEFE 算法在計(jì)算上更為高效。請(qǐng)注意，該圖還強(qiáng)調(diào)了 CL 方法沒有與規(guī)劃相關(guān)的計(jì)算復(fù)雜性。因此，很明顯 CL 方法智能體比 DPEFE 智能體在計(jì)算上更便宜，因?yàn)闆]有規(guī)劃組件。如圖 4B 所示，DPEFE 智能體的計(jì)算復(fù)雜性與規(guī)劃深度（規(guī)劃的時(shí)間視界，T）相關(guān)。需要注意的是，圖 4B 中的 y 軸是對(duì)數(shù)刻度。DPEFE 的計(jì)算復(fù)雜性僅與規(guī)劃時(shí)間視界線性相關(guān)，而 CL 智能體沒有規(guī)劃復(fù)雜性，這兩者在計(jì)算上都比其他主動(dòng)推理算法更高效。此外，上述觀察結(jié)果表明 DPEFE 和 CL 方案之間存在數(shù)據(jù)復(fù)雜性權(quán)衡。

這一認(rèn)識(shí)促使我們轉(zhuǎn)向一種混合模型，在此我們提議開發(fā)一種智能體，它能夠根據(jù)智能體可用的資源來平衡這兩種方案。從神經(jīng)生物學(xué)的角度來看，這非常有意義，因?yàn)樯镏悄荏w不斷地試圖平衡用于學(xué)習(xí)和規(guī)劃未來的資源與它們已經(jīng)擁有的經(jīng)驗(yàn)。這一想法也與強(qiáng)化學(xué)習(xí)中經(jīng)典的探索-利用困境（exploration–exploitation dilemma）有關(guān) [27]。

3.3. 整合兩種決策方法

為了使智能體能夠平衡其預(yù)測未來結(jié)果和利用先前經(jīng)驗(yàn)的能力，我們?cè)谀Ｐ椭幸肓艘粋€(gè)隨經(jīng)驗(yàn)演變的狀態(tài)依賴偏差參數(shù) ( β ( s , t ) ∈ [ 0 , 1 ]
)。這一增加的動(dòng)機(jī)基于這樣一個(gè)假設(shè)：智能體保持一種偏差感，用于量化其在過去那個(gè)特定狀態(tài)下做決策經(jīng)驗(yàn)的置信度。

當(dāng)暴露于一個(gè)新環(huán)境時(shí)，智能體對(duì) DPEFE（預(yù)測性規(guī)劃，原文誤作 DEEFE）和 CL 方案起始具有相等的偏差，由先驗(yàn)偏差參數(shù) β prior = 0.5
表示。

給定這些分布，智能體現(xiàn)在可以使用它們的香農(nóng)熵 ( H ( X )
) 來評(píng)估它們有多“有用”。這一度量是有益的，因?yàn)樗砹颂囟ǚ植紝?duì)于在那些狀態(tài)下做出決策有多“確定”。也就是說，如果智能體對(duì)某個(gè)特定動(dòng)作有信心，動(dòng)作分布傾向于是一個(gè)有利于該自信動(dòng)作的獨(dú)熱向量（one-hot vector）；因此，與具有最大熵的均勻分布（不偏向任何動(dòng)作）相比，該分布的熵趨于零。因此，比較這一數(shù)量使得能夠從不同方案的集合中選擇最自信的策略。

基于這一觀察，隨著時(shí)間的推移，智能體可以使用這一熵度量來更新 β ( s , t ) 的值，如下所示：

描述所提出的基于 POMDP 的混合模型的“智能體-環(huán)境”循環(huán)的流程圖如圖 5 所示（關(guān)于混合模型中各種參數(shù)的詳細(xì)描述，請(qǐng)參閱第 2.2、2.3.1 和 2.3.2 節(jié)）。

3.4. 從變分自由能推導(dǎo)混合模型的更新方程

公式 (8) 和 (9) 可以從 POMDP 生成模型下的變分自由能最小化推導(dǎo)出來?；旌夏Ｐ偷淖兎肿杂赡芏x為

因此，混合模型的更新規(guī)則（公式 (8) 和 (9)）可以從變分自由能最小化中形式化推導(dǎo)出來。

3.5. 混合模型在突變迷宮環(huán)境中的性能

我們使用一個(gè)突變網(wǎng)格環(huán)境來測試基于混合模型的智能體的性能。這個(gè)突變網(wǎng)格方案如圖 6 所示。智能體始于一個(gè)更易通行的網(wǎng)格版本，其最優(yōu)路徑為四步（圖 6A）。在 300 個(gè)回合之后，環(huán)境突變?yōu)樯弦还?jié)所示的復(fù)雜網(wǎng)格版本（參見圖 6B）。這種設(shè)置還使我們能夠研究智能體對(duì)新的環(huán)境變化具有多大的適應(yīng)性。

性能總結(jié)如圖 7 所示。我們觀察到，所有三個(gè)混合模型智能體（具有不同水平的規(guī)劃能力）都在前十個(gè)回合內(nèi)學(xué)會(huì)了導(dǎo)航簡單網(wǎng)格（圖 7A）。然而，當(dāng)環(huán)境在第 300 回合突變?yōu)閺?fù)雜網(wǎng)格時(shí)，智能體的學(xué)習(xí)表現(xiàn)類似于我們?cè)趩为?dú)導(dǎo)航該網(wǎng)格時(shí)觀察到的情況（見圖 7B，即具有 900 個(gè)狀態(tài)的復(fù)雜網(wǎng)格）。直接比較圖 4A 和圖 7B 有助于我們觀察到，混合模型智能體的速度既不像 DPEFE 智能體那樣快，也不像 CL 智能體那樣慢。混合模型智能體成功地平衡了這種數(shù)據(jù)復(fù)雜性權(quán)衡。

我們還觀察到，與其他兩個(gè)智能體相比，具有更高規(guī)劃能力的智能體學(xué)習(xí)導(dǎo)航網(wǎng)格的速度更快且更自信。由于混合模型智能體也結(jié)合了 CL 方法，更高的規(guī)劃視界并不總是能帶來性能提升。事實(shí)上，在較低的規(guī)劃視界下仍能保持相當(dāng)?shù)男阅?，這是所提出的混合模型的一個(gè)額外優(yōu)勢，這在并不總是需要進(jìn)行大量規(guī)劃的情況下非常有用。這一結(jié)果表明，所提出的混合模型使智能體能夠在主動(dòng)推理框架中平衡這兩種決策方法。

3.6. 主動(dòng)推理模型的可解釋性

所提出的混合模型（以及基于 POMDP 的生成模型）的一個(gè)額外優(yōu)勢在于，我們可以探究模型參數(shù)，通過主動(dòng)推理的視角 [28–30] 來理解智能體所展現(xiàn)出的智能行為的基礎(chǔ)。那些依賴人工神經(jīng)網(wǎng)絡(luò)（ANNs）來擴(kuò)展模型規(guī)模的模型 [31] 在解釋智能體如何做出決策方面能力有限，尤其是在面對(duì)不確定性時(shí)。

在圖 8A 中，我們可以探究并觀察模型中風(fēng)險(xiǎn)（ Γ t
）的演變（這與 [14] 中定義的 CL 方法相關(guān)）。我們可以觀察到，當(dāng)呈現(xiàn)并解決簡單網(wǎng)格時(shí)，模型的風(fēng)險(xiǎn)迅速趨于零；然而，當(dāng)面對(duì)環(huán)境突變時(shí)，風(fēng)險(xiǎn)會(huì)急劇上升。

4. 討論

本文徹底比較和對(duì)比了主動(dòng)推理框架內(nèi)兩種不同的決策方案。通過評(píng)估每種方法的優(yōu)缺點(diǎn)，我們?cè)谛枰园l(fā)決策的任務(wù)（以 Cart Pole 任務(wù)為例）和戰(zhàn)略決策任務(wù)（以導(dǎo)航迷宮任務(wù)為例）上測試了它們的有效性。這使我們能夠評(píng)估一種整合了兩種決策方案要素的混合方法。據(jù)假設(shè)，生物有機(jī)體的大腦利用類似的機(jī)制，根據(jù)上下文在多種策略之間切換 [32]。我們的模型在揭示大腦中高效決策的潛在機(jī)制、識(shí)別其神經(jīng)元基礎(chǔ)以及開發(fā)計(jì)算高效的仿生智能體方面具有重大前景。從這項(xiàng)工作中獲得的見解有望增強(qiáng)用于控制任務(wù)的算法，尤其是在機(jī)器人技術(shù)和人工智能領(lǐng)域利用主動(dòng)推理方案的興趣日益增長的背景下 [33]。

未來的工作自然將涉及對(duì)行為表現(xiàn)如何依賴于模型內(nèi)各種參數(shù)以及魯棒性 [34,35] 的詳細(xì)分析。擴(kuò)展模型以在要求更高、更復(fù)雜的環(huán)境中有效運(yùn)行將是關(guān)鍵的下一步。與結(jié)合人工神經(jīng)網(wǎng)絡(luò)的模型進(jìn)行系統(tǒng)比較，正如 [31,36] 的研究結(jié)果所強(qiáng)調(diào)的那樣，代表了進(jìn)一步研究的一個(gè)有前景的途徑。此類比較將有助于闡明不同建模方法的相對(duì)優(yōu)勢和劣勢，并可能促使開發(fā)更穩(wěn)健、更多樣化的決策系統(tǒng)。

原文鏈接：https://www.mdpi.com/1099-4300/26/6/484

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.