国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

論主動(dòng)推理中的預(yù)測性規(guī)劃與反事實(shí)學(xué)習(xí)

0
分享至

On Predictive Planning and Counterfactual Learning in Active Inference

論主動(dòng)推理中的預(yù)測性規(guī)劃與反事實(shí)學(xué)習(xí)

https://www.mdpi.com/1099-4300/26/6/484


摘要:

鑒于人工智能的快速發(fā)展,理解智能行為的基礎(chǔ)正變得日益重要。主動(dòng)推理,被視為一種通用行為理論,提供了一種原則性的方法來探究規(guī)劃和決策中復(fù)雜性的基礎(chǔ)。本文考察了主動(dòng)推理中基于“規(guī)劃”和“從經(jīng)驗(yàn)中學(xué)習(xí)”的兩種決策方案。此外,我們還引入了一種混合模型,該模型駕馭了這些策略之間的數(shù)據(jù)復(fù)雜性權(quán)衡,利用兩者的優(yōu)勢來促進(jìn)平衡的決策。我們?cè)谝粋€(gè)具有挑戰(zhàn)性的網(wǎng)格世界場景中評(píng)估了我們提出的模型,該場景需要智能體具備適應(yīng)性。此外,我們的模型提供了分析各種參數(shù)演變的機(jī)會(huì),提供了有價(jià)值的見解,并有助于形成一個(gè)用于智能決策的可解釋框架。

關(guān)鍵詞: 主動(dòng)推理;決策;數(shù)據(jù)復(fù)雜性權(quán)衡;混合模型

1. 引言

定義并從而將智能“智能體”與其具身的“環(huán)境”分離開來,隨后環(huán)境向智能體提供反饋,這對(duì)于建模智能行為至關(guān)重要。 流行的方法,如強(qiáng)化學(xué)習(xí)(RL),大量采用這種包含智能體 - 環(huán)境循環(huán)的模型,這將問題歸結(jié)為智能體試圖在給定的不確定環(huán)境中最大化獎(jiǎng)勵(lì) [1]。 主動(dòng)推理作為神經(jīng)科學(xué)中一種生物學(xué)上合理的框架出現(xiàn) [2],與其他當(dāng)代方法如 RL 相比,它采用了一種不同的方法來建模智能行為。在主動(dòng)推理框架中,智能體在其生命周期內(nèi)積累并最大化模型證據(jù),以進(jìn)行感知、學(xué)習(xí)和決策 [3–5]。然而,當(dāng)智能體遇到與其生成(世界)模型有關(guān)的高度“熵”觀測(即意外觀測)時(shí),最大化模型證據(jù)變得具有挑戰(zhàn)性 [3–5]。這個(gè)看似棘手的最小化遇到觀測的熵(或最大化模型證據(jù))的目標(biāo),可以通過最小化觀測熵的一個(gè)上界來實(shí)現(xiàn),稱為變分自由能 [3,4]。鑒于這一通用基礎(chǔ),主動(dòng)推理 [6] 在為給定問題定義生成模型結(jié)構(gòu)方面提供了極好的靈活性,并且它在各個(gè)領(lǐng)域吸引了許多關(guān)注 [7,8]。 在這項(xiàng)工作中,我們通過結(jié)合“規(guī)劃”和“從經(jīng)驗(yàn)中學(xué)習(xí)”,開發(fā)了一種基于主動(dòng)推理的高效決策方案。在下一節(jié)對(duì)生成世界模型進(jìn)行一般性介紹之后,我們將更仔細(xì)地查看主動(dòng)推理的決策方面。然后,我們總結(jié)了主動(dòng)推理文獻(xiàn)中的兩種主導(dǎo)方法:第一種基于規(guī)劃(第 2.3.1 節(jié)),第二種基于反事實(shí)學(xué)習(xí)(參見第 2.3.2 節(jié))。我們比較了這兩種現(xiàn)有主動(dòng)推理方案的計(jì)算復(fù)雜性和數(shù)據(jù)效率(參見第 3.2 節(jié)),并提出了一種平衡這兩種互補(bǔ)方案的混合模型(第 3.3 節(jié))。我們提出的混合模型不僅在需要適應(yīng)性的環(huán)境中表現(xiàn)良好(在第 3.5 節(jié)),而且還提供了關(guān)于使用模型參數(shù)進(jìn)行決策可解釋性的見解(在第 3.6 節(jié))。

2. 方法

2.1. 主動(dòng)推理中的智能體 - 環(huán)境循環(huán)

生成模型是在主動(dòng)推理模型中建立智能體 - 環(huán)境循環(huán)的核心。假設(shè)智能體擁有一個(gè)外部世界的縮小模型,使智能體能夠預(yù)測外部動(dòng)態(tài)和未來觀測。然后智能體可以使用其可用動(dòng)作來追求未來結(jié)果,確保生存。在本文中,我們堅(jiān)持使用基于部分觀測馬爾可夫決策過程(POMDP)的生成模型 [9]。POMDP 是馬爾可夫決策過程(MDP)[10] 的一般情況,它是可控馬爾可夫鏈,適于建模離散狀態(tài)空間中的隨機(jī)系統(tǒng) [11]。在下一節(jié)中,我們提供基于 POMDP 的生成模型的具體細(xì)節(jié)。

2.2. 基于 POMDP 的生成模型

在主動(dòng)推理中,智能體通過最小化變分自由能來教導(dǎo)生成模型了解外部狀態(tài)并優(yōu)化其決策。POMDP(部分可觀測馬爾可夫決策過程)是一個(gè)用于建模離散狀態(tài)空間環(huán)境的通用框架,其中似然和狀態(tài)轉(zhuǎn)移被表示為易處理的分類分布 [12]。因此,我們采用 POMDP 作為我們要研究的智能體的生成模型?;?POMDP 的生成模型在形式上被定義為一個(gè)有限集的元組 ( S , O , T , U , B , A , D , E )
,使得:





F 的變分提供了關(guān)于狀態(tài)和參數(shù)的恰當(dāng)后驗(yàn)期望。一些可選參數(shù),取決于所使用的具體決策方案,包括:


這些參數(shù)用于對(duì)動(dòng)作 u 的分布進(jìn)行參數(shù)化,并且動(dòng)作是通過變分自由能最小化來優(yōu)化的。更多細(xì)節(jié)將在后續(xù)章節(jié)中解釋。

2.3. 主動(dòng)推理中的決策方案

主動(dòng)推理下的決策被表述為最小化未來時(shí)間步的(期望)變分自由能 [15–17]。這使得智能體能夠部署一種基于規(guī)劃的決策方案,其中智能體預(yù)測可能的結(jié)果并做出決策,以達(dá)到最小化期望自由能(EFE)的狀態(tài)和觀測。傳統(tǒng)上,主動(dòng)推理優(yōu)化策略——即時(shí)間上的動(dòng)作序列——而不是像強(qiáng)化學(xué)習(xí)(RL)中的 Q-Learning [1] 等方法中的狀態(tài) - 動(dòng)作映射,以選擇最小化 EFE 的策略 [4]。然而,這樣的表述限制智能體只能解決具有低維狀態(tài)空間的環(huán)境 [4,13]。

隨后對(duì)該框架進(jìn)行了幾項(xiàng)改進(jìn),包括最近的精密推理方案 [18],它使用自由能的遞歸形式來減輕策略搜索的計(jì)算復(fù)雜性。精密推理方法使用時(shí)間上的前向樹搜索來評(píng)估 EFE;然而,由于計(jì)算復(fù)雜性,它限制了智能體的規(guī)劃深度 [18]。更創(chuàng)新的算法如動(dòng)態(tài)規(guī)劃可用于使規(guī)劃線性化 [3,19]。提出的線性化規(guī)劃方法在 [19] 中被稱為期望自由能動(dòng)態(tài)規(guī)劃(DPEFE)。該 DPEFE 算法在類似于網(wǎng)格世界任務(wù)的環(huán)境 [13] 中,表現(xiàn)與基準(zhǔn)強(qiáng)化學(xué)習(xí)方法如 Dyna-Q [20] 相當(dāng)(參見第 2.3.1 節(jié)了解 DPEFE 方法的技術(shù)細(xì)節(jié))。DPEFE 算法的一個(gè)泛化最近被提出為“歸納推理”,以模擬智能體中的“意向行為”[21]。

另一項(xiàng)最近的工作偏離了這種預(yù)測規(guī)劃的經(jīng)典方法,并采用“從經(jīng)驗(yàn)中學(xué)習(xí)”來確定最優(yōu)決策 [14]。該方案在數(shù)學(xué)上等價(jià)于一類特定的神經(jīng)網(wǎng)絡(luò),伴隨著一些突觸可塑性的神經(jīng)調(diào)節(jié) [14,22]。它使用反事實(shí)學(xué)習(xí)(本文中的 CL 方法)來基于環(huán)境反饋隨時(shí)間積累一種“風(fēng)險(xiǎn)”度量。隨后使用體外神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)驗(yàn)證該方案的工作最近也出現(xiàn)了 [23]。

以下總結(jié)了兩種方案的關(guān)鍵算法細(xì)節(jié):第 2.3.1 節(jié)中的 DPEFE 和第 2.3.2 節(jié)中的 CL 方案。兩種方案都是基于常規(guī) POMDP 提出的。

2.3.1. DPEFE 方案與動(dòng)作精度

本文中的 DPEFE 方案基于 [13] 中的工作。該方案在論文 [19] 中被泛化到 POMDP 設(shè)置。使用的模型參數(shù)如第 2.2 節(jié)所示。DPEFE 方案中的動(dòng)作 - 感知循環(huán)包括感知(即識(shí)別導(dǎo)致觀測的狀態(tài))、規(guī)劃、動(dòng)作選擇和學(xué)習(xí)模型參數(shù)。在本文中,所有環(huán)境都是完全可觀測的,因?yàn)槲覀兊闹攸c(diǎn)是決策而不是感知,因此 O = S。

DPEFE 方案中的動(dòng)作選擇實(shí)現(xiàn)如下:在使用動(dòng)態(tài)規(guī)劃評(píng)估未來觀測的期望自由能(EFE, G)后(參見 [19]),智能體評(píng)估選擇動(dòng)作 u 的概率分布為


這里, σ 是經(jīng)典的 softmax 函數(shù),使得具有較小 EFE 的動(dòng)作以較大的概率被選中。動(dòng)作精度參數(shù) ( α ) 可以調(diào)整以增加/減少智能體的動(dòng)作選擇置信度。關(guān)于 EFE ( G ) 的評(píng)估和 DPEFE 算法的詳細(xì)描述,我們參考文獻(xiàn) [19](第 5 節(jié))。

2.3.2. CL 方法與風(fēng)險(xiǎn)參數(shù)

不同于嘗試直接最小化 EFE,在反事實(shí)學(xué)習(xí)(CL)方法中,智能體學(xué)習(xí)一個(gè)狀態(tài) - 動(dòng)作映射 CL。這個(gè)狀態(tài) - 動(dòng)作映射是通過一個(gè)更新方程學(xué)習(xí)的,該方程由如 [14] 中定義的“風(fēng)險(xiǎn)”項(xiàng)介導(dǎo):


這里,是智能體接收到正的環(huán)境獎(jiǎng)勵(lì)的時(shí)刻。因此,智能體越快到達(dá)期望狀態(tài), Γ t
(即風(fēng)險(xiǎn))收斂到零的速度就越快(關(guān)于生成模型和自由能的確切形式,我們參考文獻(xiàn) [22])。

論文中定義的所有更新規(guī)則都可以從智能體嘗試相對(duì)于生成模型最小化(變分)自由能(公式 (3))這一公設(shè)推導(dǎo)出來 [14,19]。在本文的其余部分,我們調(diào)查了兩種方案——即 DPEFE 和 CL 方法——的性能,并考慮了一種結(jié)合它們的方案。下一節(jié)探討了這兩種方案在給定環(huán)境中的表現(xiàn)。

3. 結(jié)果

我們現(xiàn)在在基準(zhǔn)環(huán)境中測試兩種決策方案(DPEFE 和 CL)的性能,例如來自 OpenAIGym [24] 的 Cart Pole-v1(圖 1)。所有模擬都使用不同的隨機(jī)種子進(jìn)行 100 次或更多次試驗(yàn),以確保結(jié)果的可復(fù)現(xiàn)性。


3.1. Cart Pole—v1(OpenAI Gym 任務(wù))

在 Cart Pole—v1 環(huán)境 [25] 中,智能體通過側(cè)向移動(dòng)小車來保持桿子直立(在可接受范圍內(nèi)),從而獲得獎(jiǎng)勵(lì)(圖 1A)。當(dāng)桿子或小車超出可接受范圍時(shí)(桿子為 ±12 度,小車為 ±2.4 個(gè)單位幀大?。粓D 1B),回合終止。這個(gè)問題本質(zhì)上是自發(fā)性的,不需要控制器進(jìn)行規(guī)劃,智能體必須對(duì)小車和桿子的當(dāng)前狀況做出反應(yīng)。

然后,我們?cè)谝粋€(gè)突變?cè)O(shè)置中測試主動(dòng)推理,其中環(huán)境突變?yōu)橐粋€(gè)更具挑戰(zhàn)性的版本,桿子和小車位置的可接受范圍均減半(桿子為 ±6 度,小車為 ±1.2 個(gè)單位幀大?。?。具有不同規(guī)劃能力的主動(dòng)推理智能體的性能總結(jié)在圖 2A 中。


正如預(yù)期的那樣,CL 方法智能體優(yōu)于其他主動(dòng)推理方案(因?yàn)樵搯栴}需要自發(fā)控制,傾向于狀態(tài) - 動(dòng)作映射而非規(guī)劃)。智能體迅速學(xué)習(xí)了必要的狀態(tài) - 動(dòng)作映射,并且比其他基于規(guī)劃的方案更有效地平衡了桿子。我們?cè)诘?100 回合環(huán)境發(fā)生突變后也觀察到了這一點(diǎn)。CL 方法智能體在突變后的性能提升值得進(jìn)一步調(diào)查;然而,這可以歸因于突變后失敗率增加導(dǎo)致的反饋頻率增加。需要注意的是,我們?cè)诒疚闹胁⑽绰暦Q相對(duì)于不同的強(qiáng)化學(xué)習(xí)智能體具有更好的性能。我們使用 Dyna-Q 智能體與突變?nèi)蝿?wù)中重點(diǎn)關(guān)注的主動(dòng)推理智能體進(jìn)行定性比較。

在圖 2B 中,我們看到了風(fēng)險(xiǎn)項(xiàng)(Γ)的演變。隨著智能體對(duì)環(huán)境了解更多,風(fēng)險(xiǎn) Γ 穩(wěn)定到小于 0.5 的值。有趣的是,如圖 2B 所示,當(dāng)面對(duì)環(huán)境突變時(shí),正如預(yù)期的那樣,Γ 出現(xiàn)了增加。在圖 2B 中,我們觀察到 CL 方法中的風(fēng)險(xiǎn)項(xiàng)(Γ)減少直到第 100 回合。值得注意的是,CL 方法智能體在圖 2A 中的性能提升與風(fēng)險(xiǎn)的減少方式相同。在第 100 回合,我們?cè)诃h(huán)境中引入突變,導(dǎo)致所有智能體的性能崩潰。我們觀察到性能隨時(shí)間恢復(fù),CL 方法智能體中的風(fēng)險(xiǎn)項(xiàng)也是如此(圖 2B)。我們還觀察到風(fēng)險(xiǎn)項(xiàng)在下半段達(dá)到了甚至更低的范圍,這與性能提升相關(guān)。這些觀察結(jié)果突顯了 CL 方法智能體中參數(shù)的可解釋性。

接下來,我們?cè)谝粋€(gè)根本不同的環(huán)境中測試智能體——迷宮任務(wù)——這需要為未來進(jìn)行規(guī)劃。

3.2. 復(fù)雜迷宮任務(wù)與數(shù)據(jù)復(fù)雜性權(quán)衡

為了比較兩個(gè)智能體在戰(zhàn)略任務(wù)中的性能,我們?cè)跇?biāo)準(zhǔn)網(wǎng)格世界任務(wù) [26] 中模擬性能,如圖 3A 所示。該網(wǎng)格問題的最優(yōu)解如圖 3B 所示。這是一個(gè)復(fù)雜的網(wǎng)格世界,與過去文獻(xiàn)中用于解決的網(wǎng)格世界任務(wù) [4] 相比并非易事,因?yàn)槿绻扇‰S機(jī)動(dòng)作而非長度為 47 的最優(yōu)路線,智能體需要大約九千步才能到達(dá)目標(biāo)狀態(tài)。


性能評(píng)估是根據(jù)智能體多快能夠完成一個(gè)回合(即到達(dá)目標(biāo)狀態(tài)的回合長度(越低越好))來進(jìn)行的。顯示 DPEFE 和 CL 智能體性能的模擬結(jié)果繪制在圖 4A 中。這些結(jié)果表明,基于預(yù)測規(guī)劃的 DPEFE 智能體可以快速學(xué)習(xí)(即在十個(gè)回合內(nèi))來導(dǎo)航這個(gè)網(wǎng)格。從圖 4A 來看,DPEFE 智能體的性能似乎在回合長度為一千左右飽和,并且它從未學(xué)會(huì)最優(yōu)路線。然而,在模擬中,DPEFE 智能體使用的動(dòng)作精度是代入公式 (4) 的 α = 1
。對(duì)于更高的動(dòng)作精度 ( σ ),智能體傾向于在更低的時(shí)間步長內(nèi)導(dǎo)航,始終堅(jiān)持最優(yōu)動(dòng)作。此外,我們觀察到 CL 方法智能體需要更長的時(shí)間來學(xué)習(xí)最優(yōu)路徑。這個(gè)結(jié)果(圖 4A)表明,CL 智能體需要在環(huán)境中有更多的經(jīng)驗(yàn)(即更多的數(shù)據(jù))來解決它。


在圖 4B 中,我們比較了與決策規(guī)劃相關(guān)的主要主動(dòng)推理算法的計(jì)算復(fù)雜性。與其他流行的主動(dòng)推理方案 [4,18] 相比,DPEFE 算法在計(jì)算上更為高效。請(qǐng)注意,該圖還強(qiáng)調(diào)了 CL 方法沒有與規(guī)劃相關(guān)的計(jì)算復(fù)雜性。因此,很明顯 CL 方法智能體比 DPEFE 智能體在計(jì)算上更便宜,因?yàn)闆]有規(guī)劃組件。如圖 4B 所示,DPEFE 智能體的計(jì)算復(fù)雜性與規(guī)劃深度(規(guī)劃的時(shí)間視界,T)相關(guān)。需要注意的是,圖 4B 中的 y 軸是對(duì)數(shù)刻度。DPEFE 的計(jì)算復(fù)雜性僅與規(guī)劃時(shí)間視界線性相關(guān),而 CL 智能體沒有規(guī)劃復(fù)雜性,這兩者在計(jì)算上都比其他主動(dòng)推理算法更高效。此外,上述觀察結(jié)果表明 DPEFE 和 CL 方案之間存在數(shù)據(jù)復(fù)雜性權(quán)衡。

這一認(rèn)識(shí)促使我們轉(zhuǎn)向一種混合模型,在此我們提議開發(fā)一種智能體,它能夠根據(jù)智能體可用的資源來平衡這兩種方案。從神經(jīng)生物學(xué)的角度來看,這非常有意義,因?yàn)樯镏悄荏w不斷地試圖平衡用于學(xué)習(xí)和規(guī)劃未來的資源與它們已經(jīng)擁有的經(jīng)驗(yàn)。這一想法也與強(qiáng)化學(xué)習(xí)中經(jīng)典的探索-利用困境(exploration–exploitation dilemma)有關(guān) [27]。

3.3. 整合兩種決策方法

為了使智能體能夠平衡其預(yù)測未來結(jié)果和利用先前經(jīng)驗(yàn)的能力,我們?cè)谀P椭幸肓艘粋€(gè)隨經(jīng)驗(yàn)演變的狀態(tài)依賴偏差參數(shù) ( β ( s , t ) ∈ [ 0 , 1 ]
)。這一增加的動(dòng)機(jī)基于這樣一個(gè)假設(shè):智能體保持一種偏差感,用于量化其在過去那個(gè)特定狀態(tài)下做決策經(jīng)驗(yàn)的置信度。

當(dāng)暴露于一個(gè)新環(huán)境時(shí),智能體對(duì) DPEFE(預(yù)測性規(guī)劃,原文誤作 DEEFE)和 CL 方案起始具有相等的偏差,由先驗(yàn)偏差參數(shù) β prior = 0.5
表示。


給定這些分布,智能體現(xiàn)在可以使用它們的香農(nóng)熵 ( H ( X )
) 來評(píng)估它們有多“有用”。這一度量是有益的,因?yàn)樗砹颂囟ǚ植紝?duì)于在那些狀態(tài)下做出決策有多“確定”。也就是說,如果智能體對(duì)某個(gè)特定動(dòng)作有信心,動(dòng)作分布傾向于是一個(gè)有利于該自信動(dòng)作的獨(dú)熱向量(one-hot vector);因此,與具有最大熵的均勻分布(不偏向任何動(dòng)作)相比,該分布的熵趨于零。因此,比較這一數(shù)量使得能夠從不同方案的集合中選擇最自信的策略。

基于這一觀察,隨著時(shí)間的推移,智能體可以使用這一熵度量來更新 β ( s , t ) 的值,如下所示:




描述所提出的基于 POMDP 的混合模型的“智能體-環(huán)境”循環(huán)的流程圖如圖 5 所示(關(guān)于混合模型中各種參數(shù)的詳細(xì)描述,請(qǐng)參閱第 2.2、2.3.1 和 2.3.2 節(jié))。


3.4. 從變分自由能推導(dǎo)混合模型的更新方程

公式 (8) 和 (9) 可以從 POMDP 生成模型下的變分自由能最小化推導(dǎo)出來?;旌夏P偷淖兎肿杂赡芏x為



因此,混合模型的更新規(guī)則(公式 (8) 和 (9))可以從變分自由能最小化中形式化推導(dǎo)出來。

3.5. 混合模型在突變迷宮環(huán)境中的性能


我們使用一個(gè)突變網(wǎng)格環(huán)境來測試基于混合模型的智能體的性能。這個(gè)突變網(wǎng)格方案如圖 6 所示。智能體始于一個(gè)更易通行的網(wǎng)格版本,其最優(yōu)路徑為四步(圖 6A)。在 300 個(gè)回合之后,環(huán)境突變?yōu)樯弦还?jié)所示的復(fù)雜網(wǎng)格版本(參見圖 6B)。這種設(shè)置還使我們能夠研究智能體對(duì)新的環(huán)境變化具有多大的適應(yīng)性。


性能總結(jié)如圖 7 所示。我們觀察到,所有三個(gè)混合模型智能體(具有不同水平的規(guī)劃能力)都在前十個(gè)回合內(nèi)學(xué)會(huì)了導(dǎo)航簡單網(wǎng)格(圖 7A)。然而,當(dāng)環(huán)境在第 300 回合突變?yōu)閺?fù)雜網(wǎng)格時(shí),智能體的學(xué)習(xí)表現(xiàn)類似于我們?cè)趩为?dú)導(dǎo)航該網(wǎng)格時(shí)觀察到的情況(見圖 7B,即具有 900 個(gè)狀態(tài)的復(fù)雜網(wǎng)格)。直接比較圖 4A 和圖 7B 有助于我們觀察到,混合模型智能體的速度既不像 DPEFE 智能體那樣快,也不像 CL 智能體那樣慢。混合模型智能體成功地平衡了這種數(shù)據(jù)復(fù)雜性權(quán)衡。


我們還觀察到,與其他兩個(gè)智能體相比,具有更高規(guī)劃能力的智能體學(xué)習(xí)導(dǎo)航網(wǎng)格的速度更快且更自信。由于混合模型智能體也結(jié)合了 CL 方法,更高的規(guī)劃視界并不總是能帶來性能提升。事實(shí)上,在較低的規(guī)劃視界下仍能保持相當(dāng)?shù)男阅?,這是所提出的混合模型的一個(gè)額外優(yōu)勢,這在并不總是需要進(jìn)行大量規(guī)劃的情況下非常有用。這一結(jié)果表明,所提出的混合模型使智能體能夠在主動(dòng)推理框架中平衡這兩種決策方法。

3.6. 主動(dòng)推理模型的可解釋性

所提出的混合模型(以及基于 POMDP 的生成模型)的一個(gè)額外優(yōu)勢在于,我們可以探究模型參數(shù),通過主動(dòng)推理的視角 [28–30] 來理解智能體所展現(xiàn)出的智能行為的基礎(chǔ)。那些依賴人工神經(jīng)網(wǎng)絡(luò)(ANNs)來擴(kuò)展模型規(guī)模的模型 [31] 在解釋智能體如何做出決策方面能力有限,尤其是在面對(duì)不確定性時(shí)。

在圖 8A 中,我們可以探究并觀察模型中風(fēng)險(xiǎn)( Γ t
)的演變(這與 [14] 中定義的 CL 方法相關(guān))。我們可以觀察到,當(dāng)呈現(xiàn)并解決簡單網(wǎng)格時(shí),模型的風(fēng)險(xiǎn)迅速趨于零;然而,當(dāng)面對(duì)環(huán)境突變時(shí),風(fēng)險(xiǎn)會(huì)急劇上升。



4. 討論

本文徹底比較和對(duì)比了主動(dòng)推理框架內(nèi)兩種不同的決策方案。通過評(píng)估每種方法的優(yōu)缺點(diǎn),我們?cè)谛枰园l(fā)決策的任務(wù)(以 Cart Pole 任務(wù)為例)和戰(zhàn)略決策任務(wù)(以導(dǎo)航迷宮任務(wù)為例)上測試了它們的有效性。這使我們能夠評(píng)估一種整合了兩種決策方案要素的混合方法。據(jù)假設(shè),生物有機(jī)體的大腦利用類似的機(jī)制,根據(jù)上下文在多種策略之間切換 [32]。我們的模型在揭示大腦中高效決策的潛在機(jī)制、識(shí)別其神經(jīng)元基礎(chǔ)以及開發(fā)計(jì)算高效的仿生智能體方面具有重大前景。從這項(xiàng)工作中獲得的見解有望增強(qiáng)用于控制任務(wù)的算法,尤其是在機(jī)器人技術(shù)和人工智能領(lǐng)域利用主動(dòng)推理方案的興趣日益增長的背景下 [33]。

未來的工作自然將涉及對(duì)行為表現(xiàn)如何依賴于模型內(nèi)各種參數(shù)以及魯棒性 [34,35] 的詳細(xì)分析。擴(kuò)展模型以在要求更高、更復(fù)雜的環(huán)境中有效運(yùn)行將是關(guān)鍵的下一步。與結(jié)合人工神經(jīng)網(wǎng)絡(luò)的模型進(jìn)行系統(tǒng)比較,正如 [31,36] 的研究結(jié)果所強(qiáng)調(diào)的那樣,代表了進(jìn)一步研究的一個(gè)有前景的途徑。此類比較將有助于闡明不同建模方法的相對(duì)優(yōu)勢和劣勢,并可能促使開發(fā)更穩(wěn)健、更多樣化的決策系統(tǒng)。

原文鏈接:https://www.mdpi.com/1099-4300/26/6/484

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
2020年女子當(dāng)眾扇兒子耳光,兒子直接跳樓,如今女子已自殺身亡

2020年女子當(dāng)眾扇兒子耳光,兒子直接跳樓,如今女子已自殺身亡

觀察鑒娛
2026-03-18 09:09:10
媒體人杜恩湖爆料趙薇最新工作近照!依然優(yōu)雅端莊,工作十分認(rèn)真

媒體人杜恩湖爆料趙薇最新工作近照!依然優(yōu)雅端莊,工作十分認(rèn)真

小徐講八卦
2026-03-29 15:27:10
《冬去春來》大結(jié)局:沈冉冉嫁人,莊莊上岸,徐勝利贏了

《冬去春來》大結(jié)局:沈冉冉嫁人,莊莊上岸,徐勝利贏了

草莓解說體育
2026-03-30 02:14:18
白酒再次被關(guān)注!醫(yī)生研究發(fā)現(xiàn):喝得越多,壽命或越短告訴你真相

白酒再次被關(guān)注!醫(yī)生研究發(fā)現(xiàn):喝得越多,壽命或越短告訴你真相

健康科普365
2026-03-29 18:30:09
安徽一女護(hù)士回娘家路上失蹤,15年后給哥哥托夢:我在院子里

安徽一女護(hù)士回娘家路上失蹤,15年后給哥哥托夢:我在院子里

清茶淺談
2025-02-27 14:55:55
杉杉集團(tuán)家族內(nèi)斗失控

杉杉集團(tuán)家族內(nèi)斗失控

地產(chǎn)微資訊
2026-03-27 10:10:55
伊朗武裝部隊(duì)發(fā)言人:伊朗正在制定戰(zhàn)爭結(jié)束條件

伊朗武裝部隊(duì)發(fā)言人:伊朗正在制定戰(zhàn)爭結(jié)束條件

財(cái)聯(lián)社
2026-03-28 04:50:19
他殺害數(shù)千紅軍和軍長,故居卻成景區(qū)被人洗白,終于被摘牌

他殺害數(shù)千紅軍和軍長,故居卻成景區(qū)被人洗白,終于被摘牌

品點(diǎn)歷史
2026-02-14 07:50:07
為啥山東人口碑很好?網(wǎng)友:去山東千萬不要說自己會(huì)喝酒

為啥山東人口碑很好?網(wǎng)友:去山東千萬不要說自己會(huì)喝酒

帶你感受人間冷暖
2026-03-26 00:10:05
婚姻的真相:不是嫁給一個(gè)人,是嫁給一種生活

婚姻的真相:不是嫁給一個(gè)人,是嫁給一種生活

疾跑的小蝸牛
2026-03-16 23:35:22
模特經(jīng)紀(jì)人懇求愛潑斯坦與女性發(fā)生關(guān)系,聲稱很棒實(shí)驗(yàn),往來10年

模特經(jīng)紀(jì)人懇求愛潑斯坦與女性發(fā)生關(guān)系,聲稱很棒實(shí)驗(yàn),往來10年

譯言
2026-03-29 08:44:57
央視主持人集體大哭,朱迅流淚康輝掩面痛哭,真相是什么?

央視主持人集體大哭,朱迅流淚康輝掩面痛哭,真相是什么?

落雪聽梅a
2026-03-28 09:14:37
刺激夜:美國2-5,加拿大2-2,日本1-0,塞內(nèi)加爾2-0,韓國0-4

刺激夜:美國2-5,加拿大2-2,日本1-0,塞內(nèi)加爾2-0,韓國0-4

側(cè)身凌空斬
2026-03-29 05:40:30
不會(huì)再延期!爆料人稱《GTA6》已進(jìn)入最終沖刺階段

不會(huì)再延期!爆料人稱《GTA6》已進(jìn)入最終沖刺階段

游民星空
2026-03-29 11:20:13
農(nóng)村家長曬5個(gè)兒子,被網(wǎng)友群嘲:送外賣都費(fèi)勁,還為國效力呢?

農(nóng)村家長曬5個(gè)兒子,被網(wǎng)友群嘲:送外賣都費(fèi)勁,還為國效力呢?

今朝牛馬
2026-03-27 18:23:13
天下只有一種生意掙錢,就是收租

天下只有一種生意掙錢,就是收租

記憶承載
2026-03-29 11:32:40
37歲仍在改寫歷史,威少助攻超越納什傳奇,全能豐碑無人撼動(dòng)

37歲仍在改寫歷史,威少助攻超越納什傳奇,全能豐碑無人撼動(dòng)

體育閑話說
2026-03-18 11:26:30
1972年廣東省委第一書記免職,主席批示心平氣和顯智慧

1972年廣東省委第一書記免職,主席批示心平氣和顯智慧

老橝說體育
2026-03-29 21:31:32
章澤天穿小香風(fēng)接待卡塔爾公主,兩人見面就擁抱,老板娘很大氣!

章澤天穿小香風(fēng)接待卡塔爾公主,兩人見面就擁抱,老板娘很大氣!

庭小娛
2026-03-29 13:19:47
特斯拉國內(nèi)規(guī)模最大高速服務(wù)區(qū)超級(jí)充電站項(xiàng)目上線

特斯拉國內(nèi)規(guī)模最大高速服務(wù)區(qū)超級(jí)充電站項(xiàng)目上線

新華社
2026-03-29 08:50:12
2026-03-30 04:11:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1313文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認(rèn)xAI"建錯(cuò)了",11位創(chuàng)始人均離職

頭條要聞

伊朗議長:美航母遭受巨大損失 我們絕不接受屈辱

頭條要聞

伊朗議長:美航母遭受巨大損失 我們絕不接受屈辱

體育要聞

絕殺衛(wèi)冕冠軍后,他單手指天把勝利獻(xiàn)給父親

娛樂要聞

汪峰定律再現(xiàn)!李榮浩喊話單依純侵權(quán)

財(cái)經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達(dá)/華為新一代座艙

態(tài)度原創(chuàng)

時(shí)尚
游戲
本地
房產(chǎn)
軍事航空

來到1980的周也,好毛利蘭

《超級(jí)肉肉男孩3D》發(fā)售/《海賊王》艾爾巴夫篇開播| 下周玩什么

本地新聞

在濰坊待了三天,沒遇到一個(gè)“濰坊人”

房產(chǎn)要聞

首日430組來訪,單日120組認(rèn)籌!??谑讉€(gè)真四代,徹底爆了!

軍事要聞

美兩棲攻擊艦載3500名增援到達(dá)

無障礙瀏覽 進(jìn)入關(guān)懷版