網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

經(jīng)驗(yàn)快速遷移與額葉抽象編碼

2026-03-03 20:14:42　來(lái)源: CreateAMind

上海舉報(bào)

分享至

Schema-based active inference supports rapid generalization ofexperience and frontal cortical coding of abstract structure

圖式主動(dòng)推理：經(jīng)驗(yàn)快速遷移與額葉抽象編碼

https://arxiv.org/pdf/2601.18946

https://github.com/toonvdm/grounding-schemas

摘要

圖式——捕捉經(jīng)驗(yàn)間共性的抽象關(guān)系結(jié)構(gòu)——被認(rèn)為是人類和動(dòng)物能夠快速泛化知識(shí)、將新經(jīng)驗(yàn)重新綁定到現(xiàn)有結(jié)構(gòu)以及在不同情境下靈活適應(yīng)行為的基礎(chǔ)。盡管它們?cè)谡J(rèn)知中處于核心地位，但支持圖式形成和使用的計(jì)算原理和神經(jīng)機(jī)制仍然難以捉摸。在此，我們介紹了基于圖式的層級(jí)主動(dòng)推理（S-HAI），這是一個(gè)將預(yù)測(cè)處理和主動(dòng)推理與基于圖式的機(jī)制相結(jié)合的新型計(jì)算框架。在 S-HAI 中，高層生成模型編碼抽象任務(wù)結(jié)構(gòu)，而低層模型編碼空間導(dǎo)航，兩個(gè)層級(jí)通過(guò)一個(gè)將抽象目標(biāo)映射到物理位置的接地似然相連接。通過(guò)一系列模擬，我們表明 S-HAI 復(fù)現(xiàn)了空間導(dǎo)航任務(wù)中快速基于圖式泛化的關(guān)鍵行為特征，包括將抽象圖式靈活重映射到新情境的能力、解決目標(biāo)歧義以及平衡新穎映射的復(fù)用與順應(yīng)。關(guān)鍵的是，S-HAI 還復(fù)現(xiàn)了在依賴圖式的導(dǎo)航和決策任務(wù)期間嚙齒動(dòng)物內(nèi)側(cè)前額葉皮層中報(bào)道的顯著神經(jīng)編碼，包括任務(wù)不變的目標(biāo)進(jìn)展細(xì)胞、目標(biāo)身份細(xì)胞和目標(biāo)與空間聯(lián)合細(xì)胞，以及低層的類位置編碼。綜上所述，這些結(jié)果提供了基于圖式的學(xué)習(xí)和推理的機(jī)制性解釋，連接了行為、神經(jīng)數(shù)據(jù)和理論。更廣泛地說(shuō)，我們的發(fā)現(xiàn)表明，圖式形成和泛化可能源于跨皮層和海馬回路層級(jí)實(shí)施的預(yù)測(cè)處理原則，從而實(shí)現(xiàn)經(jīng)驗(yàn)的泛化。

關(guān)鍵詞：圖式；層級(jí)主動(dòng)推理；預(yù)測(cè)處理；前額葉皮層；海馬

1 引言

人類和其他動(dòng)物展現(xiàn)出非凡的能力，能夠憑借極少的新經(jīng)驗(yàn)將其知識(shí)快速泛化至新穎環(huán)境。這種能力仍是當(dāng)前人工系統(tǒng)和人工智能系統(tǒng)無(wú)法比擬的，后者通常需要大量針對(duì)特定問(wèn)題的數(shù)據(jù)集。

在認(rèn)知科學(xué)中，長(zhǎng)期以來(lái)人們假設(shè)一種特定的認(rèn)知結(jié)構(gòu)——圖式（schemas）——可能支持將現(xiàn)有知識(shí)與技能泛化至新情境。圖式通常被定義為關(guān)系性知識(shí)結(jié)構(gòu)，用于捕捉多次經(jīng)驗(yàn)中抽象出的共性。它們使個(gè)體能夠在記憶中組織和解釋經(jīng)驗(yàn)，并泛化至具有潛在結(jié)構(gòu)相似性但感官細(xì)節(jié)不同的新情境（Piaget, 1952; Bartlett, 1932）。關(guān)鍵洞見(jiàn)在于：圖式通過(guò)經(jīng)驗(yàn)形成，編碼所推斷的關(guān)系性任務(wù)結(jié)構(gòu)，同時(shí)抽象掉低層（感官）細(xì)節(jié)。圖式不僅將經(jīng)驗(yàn)組織成豐富的關(guān)系集合，還作為模板，使新經(jīng)驗(yàn)得以快速同化。此類學(xué)習(xí)——或稱同化（assimilation）——僅需將新經(jīng)驗(yàn)的低層感官細(xì)節(jié)映射到現(xiàn)有圖式的抽象關(guān)系結(jié)構(gòu)上，從而實(shí)現(xiàn)知識(shí)在新情境中的快速（理想情況下為單次）復(fù)用與泛化。因此，其速度顯著快于經(jīng)典試錯(cuò)或聯(lián)想學(xué)習(xí)理論所強(qiáng)調(diào)的漸進(jìn)式知識(shí)積累。此外，除了同化——將新信息納入現(xiàn)有圖式——還存在第二種過(guò)程，稱為順應(yīng)（accommodation），即當(dāng)新信息無(wú)法契合現(xiàn)有圖式時(shí)，創(chuàng)建新圖式或修改既有圖式。Piaget（1952） famously 指出，同化與順應(yīng)的雙重過(guò)程是學(xué)習(xí)與發(fā)展的基礎(chǔ)。

這些源于認(rèn)知科學(xué)的思想自人工智能早期便頗具影響力，激發(fā)了大量理論構(gòu)建與實(shí)現(xiàn)圖式（或相關(guān)結(jié)構(gòu)，如框架或腳本）的努力，尤其在但不局限于符號(hào)人工智能傳統(tǒng)中（Minsky, 1986; Schank and Abelson, 2013; Hummel and Holyoak, 1997）。多年來(lái)，多種理論觀點(diǎn)認(rèn)為，將現(xiàn)有圖式與任務(wù)表征重映射至新任務(wù)，是抽象、結(jié)構(gòu)推斷與類比推理的核心，這一機(jī)制見(jiàn)于多個(gè)認(rèn)知領(lǐng)域，從目標(biāo)導(dǎo)向?qū)Ш降揭?guī)則學(xué)習(xí)與敘事理解（Chollet, 2019; Mitchell, 2021; Hofstadter, 1999; Tenenbaum et al., 2011; Roy, 2005; Pezzulo, 2009; Niv, 2019; Schuck et al., 2016; Bein and Niv, 2025; B?hner et al., 2025; Collin et al., 2025; Goudar et al., 2023; Beukers et al., 2024; Yang et al., 2019; Sandbrink and Summerfield, 2024）。

然而，設(shè)計(jì)能夠有效學(xué)習(xí)圖式并將其泛化至新經(jīng)驗(yàn)的計(jì)算模型仍是一項(xiàng)重大挑戰(zhàn)。關(guān)鍵難點(diǎn)包括：識(shí)別用于形成圖式的底層關(guān)系結(jié)構(gòu)、以支持快速重綁定至新情境的形式對(duì)其進(jìn)行編碼，以及設(shè)計(jì) enabling 現(xiàn)有圖式與新問(wèn)題之間快速映射的機(jī)制。盡管已有進(jìn)展，但關(guān)于基于圖式的學(xué)習(xí)與推理——尤其在復(fù)雜動(dòng)態(tài)環(huán)境中——的全面計(jì)算解釋仍難以捉摸。盡管如此，神經(jīng)科學(xué)已開(kāi)始為這些挑戰(zhàn)提供寶貴洞見(jiàn)。

在神經(jīng)科學(xué)領(lǐng)域，多項(xiàng)研究探討了圖式在嚙齒類與靈長(zhǎng)類動(dòng)物中的作用。這些研究揭示，三個(gè)相互連接的腦結(jié)構(gòu)——海馬、內(nèi)嗅皮層與前額葉皮層——可能在基于圖式的快速學(xué)習(xí)與系統(tǒng)鞏固中發(fā)揮關(guān)鍵作用（Farzanfar et al., 2023）。例如，Tse 等人（2007）表明，大鼠僅需單次學(xué)習(xí) episode 即可將新信息整合進(jìn)現(xiàn)有聯(lián)想圖式，并觀察到海馬活動(dòng)的相應(yīng)變化。這支持了如下觀點(diǎn)：當(dāng)新信息與先前獲得的關(guān)系結(jié)構(gòu)一致時(shí)，圖式可促進(jìn)快速學(xué)習(xí)。其他研究顯示，隨著圖式習(xí)得，海馬表征變得更為抽象與有組織，這體現(xiàn)在靜息與睡眠期間的海馬重放與再激活模式中（McKenzie et al., 2014）。除海馬之外，內(nèi)嗅皮層的網(wǎng)格細(xì)胞也被認(rèn)為參與認(rèn)知地圖形成與圖式學(xué)習(xí)（Neupane et al., 2024）。在空間導(dǎo)航過(guò)程中，網(wǎng)格細(xì)胞提供空間的周期性、低維表征，被認(rèn)為支持路徑積分與類地圖計(jì)算（Hafting et al., 2005）。近期研究提示，網(wǎng)格樣編碼可能超越物理空間，支持抽象認(rèn)知地圖，包括任務(wù)空間與關(guān)系結(jié)構(gòu)（Buzsáki and Moser, 2013; Bellmund et al., 2018; Viganò et al., 2023; Bottini and Doeller, 2020; Dong and Fiete, 2024）。這些研究表明，內(nèi)嗅皮層的網(wǎng)格細(xì)胞可能作為穩(wěn)定、可復(fù)用的坐標(biāo)系統(tǒng)，將由海馬介導(dǎo)的任務(wù)特異性細(xì)節(jié)錨定于抽象關(guān)系支架之上，以組織圖式知識(shí)。

最后，多項(xiàng)研究指出，前額葉皮層——可能通過(guò)與海馬的交互——在形成認(rèn)知地圖與圖式聯(lián)想、將新信息整合入現(xiàn)有圖式，以及判斷啟用同化或順應(yīng)過(guò)程方面發(fā)揮關(guān)鍵作用（Gilboa and Marlatte, 2017; Zeithamova et al., 2012; Van Kesteren et al., 2012; Giuliano et al., 2021; Bonasia et al., 2018; Baldassano et al., 2018; Basu et al., 2021; Manakov et al., 2025; Schuck et al., 2016; Wang and Hayden, 2021; Vaidya and Badre, 2022; Tang et al., 2023）。El-Gaby 等人（2024）提供了一個(gè)尤為突出的圖式學(xué)習(xí)與泛化實(shí)例：他們證明嚙齒類動(dòng)物內(nèi)側(cè)前額葉皮層參與學(xué)習(xí)序列任務(wù)（ABCD 任務(wù)，要求按正確順序到達(dá)四個(gè)目標(biāo)位置）的抽象結(jié)構(gòu)，并在目標(biāo)位置變化但序列保持不變的新環(huán)境中復(fù)用該結(jié)構(gòu)。基于圖式的快速學(xué)習(xí)的一個(gè)關(guān)鍵行為指標(biāo)是：大鼠在發(fā)現(xiàn)位置 D 后迅速移向位置 A。在神經(jīng)元層面，這種能力由多種細(xì)胞類型支持，這些細(xì)胞對(duì)抽象目標(biāo)、物理位置及其他任務(wù)相關(guān)信息的不同組合敏感。

這些及其他研究促成了一個(gè)趨同的計(jì)算視角，其核心洞見(jiàn)是：在圖式形成過(guò)程中，關(guān)系結(jié)構(gòu)獨(dú)立于感官細(xì)節(jié)被表征；關(guān)系結(jié)構(gòu)中的每個(gè)狀態(tài)隨后通過(guò)可快速學(xué)習(xí)的聯(lián)想鏈接綁定至特定經(jīng)驗(yàn)。這一觀點(diǎn)已在一系列聚焦海馬與內(nèi)嗅皮層的計(jì)算模型中提出（Whittington et al., 2020, 2018, 2025; Chandra et al., 2025）。在此視角下，內(nèi)嗅皮層的網(wǎng)格細(xì)胞系統(tǒng)提供關(guān)系支架，而個(gè)體經(jīng)驗(yàn)在海馬中編碼；內(nèi)嗅網(wǎng)格系統(tǒng)與海馬位置細(xì)胞及聯(lián)合細(xì)胞的交互，可能允許在結(jié)構(gòu)化表征空間內(nèi)快速編碼新經(jīng)驗(yàn)，從而促進(jìn)同化與順應(yīng)過(guò)程。另一種基于克隆結(jié)構(gòu)因果圖（CSCG）的相關(guān)計(jì)算解釋已在海馬的圖式與重綁定研究中發(fā)展起來(lái)（George et al., 2021; Guntupalli et al., 2023; Swaminathan et al., 2023; Raju et al., 2024）。在此視角下，迷宮認(rèn)知地圖的潛在結(jié)構(gòu)可通過(guò)與特定觀測(cè)解耦而被抽象，并作為圖式復(fù)用以加速其他迷宮中的學(xué)習(xí)。相同機(jī)制也可用于學(xué)習(xí)算法的抽象結(jié)構(gòu)與語(yǔ)言的模板結(jié)構(gòu)（Swaminathan et al., 2023），其中推理時(shí)可塑性解決了在動(dòng)態(tài)綁定潛在結(jié)構(gòu)至新輸入的同時(shí)召回適當(dāng)圖式的問(wèn)題。近期建模工作將這些思想擴(kuò)展至前額葉皮層的神經(jīng)活動(dòng)，但未探討圖式如何在空間導(dǎo)航過(guò)程中被學(xué)習(xí)與部署（El-Gaby et al., 2024）。

盡管具有價(jià)值，這些研究仍遺留若干重要問(wèn)題未解，包括：抽象圖式如何在目標(biāo)導(dǎo)向?qū)Ш脚c規(guī)劃過(guò)程中形成并利用；它們?nèi)绾螖U(kuò)展至更具挑戰(zhàn)性的情境——其中需從頭創(chuàng)建多個(gè)圖式或現(xiàn)有圖式與新問(wèn)題間的多種映射，以捕捉 Piaget（1952）所稱同化與順應(yīng)的動(dòng)態(tài)過(guò)程；以及它們?nèi)绾闻c前額葉皮層的神經(jīng)處理相關(guān)聯(lián)，如 ABCD 任務(wù)中所見(jiàn)（El-Gaby et al., 2024）。

盡管先前關(guān)于 CSCG 的工作已探討從部分可觀測(cè)感官輸入中學(xué)習(xí)空間作為潛在結(jié)構(gòu)的問(wèn)題（Raju et al., 2024），且 CSCG 圖式（Guntupalli et al., 2023; Swaminathan et al., 2023）解決了利用圖式遷移已習(xí)得的空間或算法結(jié)構(gòu)的問(wèn)題，但它們未解決在同一空間環(huán)境中遷移多個(gè)已習(xí)得任務(wù)結(jié)構(gòu)的問(wèn)題。要在部分可觀測(cè)設(shè)定下實(shí)現(xiàn)這一點(diǎn)，需學(xué)習(xí)新的任務(wù)結(jié)構(gòu)圖式，該圖式利用先前已習(xí)得的空間結(jié)構(gòu)的潛在狀態(tài)。

在本研究中，我們開(kāi)發(fā)并驗(yàn)證了一種新型基于圖式的層級(jí)主動(dòng)推理（S-HAI）模型，以應(yīng)對(duì)這些挑戰(zhàn)。下一節(jié)中，我們首先介紹實(shí)驗(yàn)任務(wù)（ABCD 與 ABCB，第 2.1 節(jié)）及解決這些任務(wù)的基于圖式的層級(jí)主動(dòng)推理（S-HAI）智能體（第 2.2 節(jié)）。隨后，我們呈現(xiàn)四項(xiàng)模擬，評(píng)估 S-HAI 智能體是否展現(xiàn)出經(jīng)驗(yàn)報(bào)道的基于圖式的推理與學(xué)習(xí)的行為及神經(jīng)（前額葉）特征。第一項(xiàng)模擬表明，S-HAI 智能體中的基于圖式推理使其能在 El-Gaby 等人（2024）的 ABCD 任務(wù)中實(shí)現(xiàn)快速泛化（第 2.3 節(jié)）。第二項(xiàng)模擬展示了基于圖式推理在更具挑戰(zhàn)性的 ABCB 任務(wù)中的有效性，該任務(wù)中兩個(gè)目標(biāo)可占據(jù)同一位置，類似于空間交替任務(wù)（Jadhav et al., 2012）（第 2.4 節(jié)）。第三項(xiàng)模擬表明，S-HAI 智能體具備增量式在線學(xué)習(xí)能力，并能在關(guān)于如何將抽象圖式映射至當(dāng)前迷宮的多種假設(shè)間進(jìn)行選擇（第 2.5 節(jié)）。最后，第四項(xiàng)模擬表明，S-HAI 智能體在學(xué)習(xí) ABCD 任務(wù)過(guò)程中涌現(xiàn)的神經(jīng)表征，展現(xiàn)了嚙齒類動(dòng)物內(nèi)側(cè)前額葉皮層（mFC）中圖式處理的關(guān)鍵神經(jīng)特征（El-Gaby et al., 2024）。

2 結(jié)果

2.1 實(shí)驗(yàn)任務(wù)：ABCD 和 ABCB 任務(wù)

我們采用來(lái)評(píng)估模型的主要實(shí)驗(yàn)任務(wù)是 El-Gaby 等人（2024）的 ABCD 任務(wù)。在此任務(wù)中，嚙齒動(dòng)物（或人工智能體）通過(guò)在迷宮上按正確順序訪問(wèn)四個(gè)目標(biāo)位置來(lái)獲取獎(jiǎng)勵(lì)（圖 1b）。迷宮由排列成 3 × 3 網(wǎng)格的九個(gè)井（wells）組成，每個(gè)井由九個(gè)瓦片（tiles）組成，這些瓦片通過(guò)單瓦片走廊連接。智能體獲得獎(jiǎng)勵(lì)后，新獎(jiǎng)勵(lì)被放置在序列中下一個(gè)井的中心。四個(gè)目標(biāo)位置在不同塊（blocks）之間有所不同，每個(gè)塊包含多次試驗(yàn)。例如，在塊 1 中，四個(gè)目標(biāo)位于迷宮位置：“左上”、“上中”、“下中”和“中左”，而在塊 2 中，它們位于位置：“上中”、“左下”、“左上”和“右上”。關(guān)鍵在于，底層（ABCD）結(jié)構(gòu)在整個(gè)實(shí)驗(yàn)過(guò)程中保持不變：嚙齒動(dòng)物必須始終按正確順序循環(huán)遍歷四個(gè)目標(biāo)位置（例如，A, B, C, D, A, ...）。可變感官細(xì)節(jié)與穩(wěn)定關(guān)系結(jié)構(gòu)之間的區(qū)別使得 ABCD 任務(wù)成為基于圖式推理的自然試驗(yàn)臺(tái)。

我們還解決了一個(gè)更具挑戰(zhàn)性的變體，即 ABCB 任務(wù)，其中兩個(gè)目標(biāo)（B 目標(biāo)）占據(jù)相同的空間位置（圖 1c）。此設(shè)置類似于嚙齒動(dòng)物中常用的空間交替任務(wù)（Jadhav 等人，2012），并且比 ABCD 任務(wù)要求更高，因?yàn)樵?B 處，動(dòng)物必須記住它們是從 A 還是從 C 到達(dá)的，以便正確選擇下一個(gè)目標(biāo)，C 或 A。

2.2 基于圖式的層級(jí)主動(dòng)推理（S-HAI）

我們使用一種新型基于圖式的層級(jí)主動(dòng)推理（S-HAI）智能體來(lái)解決 ABCD 和 ABCB 任務(wù)，該智能體包含兩個(gè)層級(jí)，實(shí)現(xiàn)為兩個(gè)相互連接的部分可觀測(cè)馬爾可夫決策過(guò)程（POMDPs）。圖 1a 提供了 S-HAI 及其三個(gè)組成部分的示意圖：處理空間導(dǎo)航的第 1 層；處理基于圖式推理的第 2 層；以及接地似然（grounding likelihood），它指定了編碼在圖式中的抽象目標(biāo)與迷宮中特定位置之間的概率映射。參見(jiàn)第 4 節(jié)了解 S-HAI 智能體的形式化規(guī)范。

在較低層級(jí)（第 1 層），S-HAI 智能體處理“導(dǎo)航空間”中的空間導(dǎo)航，即圖 1b 中描繪的網(wǎng)格世界。在此層級(jí)，智能體觀察其當(dāng)前訪問(wèn)的瓦片顏色，并可以使用四種動(dòng)作（“上”、“下”、“左”和“右”）導(dǎo)航網(wǎng)格。用于導(dǎo)航的轉(zhuǎn)移模型參數(shù)是通過(guò)離線訓(xùn)練獲得的，模擬了在相應(yīng)的嚙齒動(dòng)物研究中，動(dòng)物在圖式學(xué)習(xí)之前已經(jīng)了解環(huán)境的事實(shí)（參見(jiàn)第 4 節(jié)）。預(yù)覽我們的模擬結(jié)果，我們發(fā)現(xiàn)訓(xùn)練后，模型正確恢復(fù)了 105 個(gè)位置之間的轉(zhuǎn)移動(dòng)態(tài)（圖 1d，圖 1a 中的插圖“第 1 層”）。

在較高層級(jí)（第 2 層），智能體在“任務(wù)空間”中執(zhí)行基于圖式的學(xué)習(xí)和推理。ABCD 任務(wù)中的基于圖式學(xué)習(xí)等同于學(xué)習(xí)目標(biāo)之間的抽象轉(zhuǎn)移模型，代表通過(guò)依次訪問(wèn)四個(gè)抽象目標(biāo) A、B、C 和 D，然后再次 A ，來(lái)獲得獎(jiǎng)勵(lì)的事實(shí)?；趫D式的推理等同于基于第 1 層潛在狀態(tài)的觀察以及獎(jiǎng)勵(lì)的有無(wú)來(lái)推斷智能體在任務(wù)空間中的當(dāng)前位置（例如，當(dāng)前目標(biāo)是否已實(shí)現(xiàn)），然后——如果當(dāng)前目標(biāo)已實(shí)現(xiàn)——為第 1 層選擇下一個(gè)導(dǎo)航目標(biāo)。第 1 層目標(biāo)被指定為對(duì)未來(lái)狀態(tài)的意圖，這觸發(fā)模型將每個(gè)狀態(tài)與歸納成本（inductive cost）相關(guān)聯(lián)（Friston 等人，2023）。根據(jù)潛在動(dòng)態(tài)，該成本與相對(duì)于預(yù)期目標(biāo)狀態(tài)的距離成正比（參見(jiàn)第 4 節(jié)公式 (5)）。在我們的模擬中，我們實(shí)現(xiàn)在線和離線圖式學(xué)習(xí)。預(yù)覽我們的結(jié)果，我們發(fā)現(xiàn)在兩種情況下，S-HAI 智能體都正確學(xué)習(xí)了一個(gè)獨(dú)特的可泛化圖式，捕捉四個(gè)目標(biāo)之間的循環(huán)轉(zhuǎn)移，適用于塊 1 和塊 2（圖 1e，圖 1a 中的插圖“第 2 層”）。相比之下，未經(jīng)圖式學(xué)習(xí)的替代智能體（HAI）捕獲了兩個(gè)塊的不同轉(zhuǎn)移（圖 1f）。最后，我們發(fā)現(xiàn)增強(qiáng)了區(qū)分具有相同位置目標(biāo)能力的 S-HAI 智能體（S-HAI-2C）正確推斷了 ABCB 任務(wù)的可泛化圖式（圖 1f）。

關(guān)鍵在于，S-HAI 智能體還包括一個(gè)接地似然：任務(wù)空間中代表目標(biāo)之間轉(zhuǎn)移的抽象圖式（即 A、B、C 和 D）與導(dǎo)航空間中目標(biāo)的具體位置（即迷宮中可以找到獎(jiǎng)勵(lì)的位置）之間的概率映射。學(xué)習(xí)接地似然是實(shí)現(xiàn)基于圖式泛化的關(guān)鍵：它使智能體能夠?qū)⑵?strong>抽象圖式（例如 ABCD）快速映射到每個(gè)新穎的目標(biāo)空間配置（即每個(gè)塊），而不是在每次試驗(yàn)中從頭重新學(xué)習(xí)正確的動(dòng)作和目標(biāo)序列。在我們的模擬中，我們實(shí)現(xiàn)了接地似然的在線學(xué)習(xí)，以及第 2 層圖式的在線和離線變體。此外，我們引入了一個(gè)接地似然的混合模型，允許 S-HAI 智能體靈活推斷其現(xiàn)有接地似然中哪一個(gè)在當(dāng)前迷宮中最有用，或在需要時(shí)創(chuàng)建一個(gè)新的。預(yù)覽我們的結(jié)果，我們發(fā)現(xiàn)在所有情況下（在線或離線，有或無(wú)混合），接地似然允許 S-HAI 智能體優(yōu)于在相同甚至更大數(shù)據(jù)集上訓(xùn)練但沒(méi)有圖式學(xué)習(xí)的替代模型。學(xué)習(xí)接地似然類似于學(xué)習(xí)圖式的發(fā)射矩陣，如（Guntupalli 等人，2023）和（Swaminathan 等人，2023）中所述。

2.3 ABCD 任務(wù)：基于圖式的層級(jí)主動(dòng)推理允許快速泛化到具有相同抽象結(jié)構(gòu)的新問(wèn)題

在此模擬中，我們測(cè)試圖式學(xué)習(xí)是否使 S-HAI 智能體能夠?qū)?ABCD 任務(wù)泛化到具有相同序列結(jié)構(gòu)但特定目標(biāo)位置不同的試驗(yàn)塊。遵循 El-Gaby 等人（2024）的實(shí)驗(yàn)設(shè)置，每個(gè)塊運(yùn)行直到智能體在環(huán)境中完成 10,000 步。包含四次連續(xù)獎(jiǎng)勵(lì)的試驗(yàn)平均可在 32 ± 7.15 步（μ ± σ）內(nèi)完成，這是跨越 40 個(gè)塊計(jì)算得出的。

我們比較了 S-HAI 智能體的兩種變體——一種離線學(xué)習(xí)圖式（S-HAI K），一種在線學(xué)習(xí)圖式（S-HAI L）——以及一個(gè)沒(méi)有圖式的標(biāo)準(zhǔn)層級(jí)主動(dòng)推理（HAI）智能體和一個(gè)隨機(jī)選擇目標(biāo)的基線智能體（Random）。為了保持一致性，在此及后續(xù)模擬中，所有智能體共享相同的層級(jí)架構(gòu)。此外，負(fù)責(zé)空間導(dǎo)航的第 1 層模型（圖 1d）是離線學(xué)習(xí)的，且在所有智能體中相同。智能體之間的唯一差異出現(xiàn)在第 2 層。

在離線基于圖式的智能體（S-HAI K）中，第 2 層圖式使用僅從第一個(gè)塊收集的通過(guò)隨機(jī)游走生成的數(shù)據(jù)（50,000 步）進(jìn)行離線訓(xùn)練（"K"表示圖式是已知的）。圖 1e 可視化了第 2 層學(xué)習(xí)到的圖式，它代表了四個(gè)目標(biāo) A、B、C 和 D 之間的循環(huán)。接地似然在每個(gè)塊開(kāi)始時(shí)隨機(jī)初始化，并在任務(wù)期間在線學(xué)習(xí)。相比之下，在在線基于圖式的智能體（S-HAI L）中，第 2 層圖式和接地似然都在線訓(xùn)練（"L"表示圖式是在線學(xué)習(xí)的）。參數(shù)隨機(jī)初始化并使用共軛更新進(jìn)行更新，接地似然在每個(gè)塊后重置。

在沒(méi)有圖式的層級(jí)主動(dòng)推理（HAI）智能體中，第 2 層使用克隆結(jié)構(gòu)圖（CSCG）（George 等人，2021）實(shí)現(xiàn)，接地似然是單位矩陣。智能體表示為 HAI-i，索引 i 表示智能體接受訓(xùn)練的任務(wù)數(shù)量；訓(xùn)練在第一個(gè) i 任務(wù)的序列上離線進(jìn)行，每個(gè)任務(wù) 10,000 交互步。參見(jiàn)圖 1f 了解 HAI-2 智能體（在兩個(gè)塊上訓(xùn)練）在第 2 層學(xué)習(xí)到的目標(biāo)之間的轉(zhuǎn)移動(dòng)態(tài)。注意，與學(xué)習(xí)獨(dú)特序列圖式的 S-HAI 智能體不同，HAI-2 智能體為每個(gè)塊學(xué)習(xí)獨(dú)特的子循環(huán)。當(dāng) HAI-i 智能體在更多塊上訓(xùn)練時(shí)，它傾向于學(xué)習(xí)多個(gè)特定于塊的子循環(huán)（此處未顯示，但類似于（Van de Maele 等人，2024）中報(bào)告的內(nèi)容）。

最后，在基線（隨機(jī)）層級(jí)主動(dòng)推理模型中，第 2 層隨機(jī)選擇一個(gè)子目標(biāo)供智能體導(dǎo)航。參見(jiàn)第 4 節(jié)了解本模擬中使用的智能體的形式化解釋。

圖 2a 顯示了 ABCD 任務(wù)的模擬結(jié)果，報(bào)告了跨越 40 個(gè)塊的平均獎(jiǎng)勵(lì)率（在 250 步上平滑），相對(duì)于最優(yōu)性能歸一化。實(shí)線表示跨塊的平均值，陰影區(qū)域表示標(biāo)準(zhǔn)誤。每個(gè)塊在智能體達(dá)到 10,000 次與環(huán)境交互時(shí)結(jié)束。正如預(yù)期，沒(méi)有圖式的 HAI 智能體（在一半（20）或所有（40）塊上離線訓(xùn)練；HAI-20 和 HAI-40）優(yōu)于隨機(jī)基線，性能隨著訓(xùn)練塊數(shù)量的增加而提高。然而，在一半塊上訓(xùn)練的 HAI-20 智能體顯示出對(duì)訓(xùn)練集之外的新塊的泛化能力有限。

相比之下，基于圖式的 S-HAI 智能體穩(wěn)健地泛化到未見(jiàn)過(guò)的任務(wù)。離線智能體（S-HAI K）迅速收斂到接近最優(yōu)的獎(jiǎng)勵(lì)水平，表明從單個(gè)訓(xùn)練塊學(xué)習(xí)的圖式可以泛化到 39 個(gè)新塊。在線智能體（S-HAI L）也達(dá)到了接近最優(yōu)的性能，表明可泛化的圖式可以有效地在線學(xué)習(xí)，無(wú)需先前的離線訓(xùn)練。此外，兩個(gè) S-HAI 智能體每次試驗(yàn)所需的步數(shù)更少（圖 2c），并且比 HAI-20 智能體和隨機(jī)基線積累了更多獎(jiǎng)勵(lì)（圖 2d）。此外，S-HAI 智能體比訓(xùn)練更廣泛的 HAI-40 智能體更快達(dá)到最大歸一化獎(jiǎng)勵(lì)（圖 2a）。為了確保觀察到的行為不反映較低層的不完美學(xué)習(xí)，我們還在簡(jiǎn)化環(huán)境中復(fù)制了我們的結(jié)果（3 × 3 網(wǎng)格，具有獨(dú)特觀察；見(jiàn)附錄 A.3）。

基于圖式泛化的一個(gè)關(guān)鍵驅(qū)動(dòng)因素是，S-HAI K 和 S-HAI L 都在每個(gè)塊中在線學(xué)習(xí)新的接地似然，將抽象圖式觀察（o2t）映射到具體空間狀態(tài)（s1t）。圖 2b 顯示了兩個(gè)接地似然的示例，為了清晰起見(jiàn)，僅顯示了對(duì)應(yīng)于獎(jiǎng)勵(lì)位置的高級(jí)狀態(tài)（完整的接地似然包括 210 個(gè)高級(jí)狀態(tài)：105 個(gè)位置與獎(jiǎng)勵(lì)存在狀態(tài)的組合）。圖式和接地似然在塊內(nèi)被快速獲取，如 S-HAI L 性能隨經(jīng)驗(yàn)快速改進(jìn)所示，反映在到子目標(biāo)的相對(duì)距離減少上（圖 2e）。

綜上所述，我們發(fā)現(xiàn)基于圖式的 S-HAI 智能體通過(guò)在物理位置快速接地抽象的、圖式編碼的目標(biāo)，成功解決了諸如 ABCD 之類的結(jié)構(gòu)化任務(wù)，這些物理位置跨塊變化。值得注意的是，這些基于圖式的智能體比僅在一半塊上訓(xùn)練的 HAI-20 智能體表現(xiàn)效率高得多，并且比 HAI-40 智能體更快達(dá)到最大獎(jiǎng)勵(lì)，盡管后者在所有塊配置上進(jìn)行了廣泛的離線訓(xùn)練。

2.4 ABCB 任務(wù)：增強(qiáng)克隆圖的基于圖式層級(jí)主動(dòng)推理可解決目標(biāo)混疊問(wèn)題

在此模擬中，我們考慮 ABCD 任務(wù)的一個(gè)更具挑戰(zhàn)性的變體，其中包含目標(biāo)之間的交替模式（Jadhav 等人，2012）。在此，第二個(gè)和第四個(gè)目標(biāo)（均表示為 B）占據(jù)相同的空間位置；這就是該任務(wù)被稱為 ABCB 的原因。

使此任務(wù)更困難的是它需要空間記憶：當(dāng)智能體在位置 B 觀察到獎(jiǎng)勵(lì)時(shí)，它必須決定是移向 C 目標(biāo)還是 A 目標(biāo)。標(biāo)準(zhǔn)類 HMM 架構(gòu)（如第一次模擬中 HAI 智能體所使用的）難以應(yīng)對(duì)此任務(wù)，因?yàn)樗鼈兓煜?B 目標(biāo)的兩個(gè)實(shí)例。為解決這一限制，我們賦予 HAI 智能體的第 2 層一個(gè)更具表達(dá)力的克隆結(jié)構(gòu)認(rèn)知圖（CSCG）機(jī)制（George 等人，2021），該機(jī)制通過(guò)允許每個(gè)狀態(tài)有多個(gè)克隆來(lái)擴(kuò)展 HMM。我們將結(jié)果智能體稱為 S-HAI-2C K。此處，"2C K"表示第 2 層是一個(gè)具有兩個(gè)克隆的 CSCG，使用來(lái)自第一個(gè)塊的隨機(jī)游走（10,000 步）離線訓(xùn)練，我們發(fā)現(xiàn)這足以學(xué)習(xí) ABCB 圖式（圖 1g）。此外，我們包含一個(gè)在線學(xué)習(xí)克隆結(jié)構(gòu)第 1 層參數(shù)的變體，稱為 S-HAI-2C L。

與第一次模擬一樣，接地似然在每個(gè)任務(wù)開(kāi)始時(shí)隨機(jī)初始化，并在任務(wù)期間在線學(xué)習(xí)。參見(jiàn)第 4 節(jié)了解 S-HAI-2C K 智能體的形式化規(guī)范。

圖 2f 顯示了 ABCB 任務(wù) 40 個(gè)塊中隨時(shí)間獲得的平均獎(jiǎng)勵(lì)。結(jié)果顯示，帶有克隆的基于圖式智能體（S-HAI-2C K, S-HAI-2C L）達(dá)到了接近最優(yōu)的性能，優(yōu)于沒(méi)有克隆的兩個(gè)智能體（S-HAI K, S-HAI L），后者在 B 目標(biāo)的歧義上表現(xiàn)掙扎。

同樣值得注意的是，對(duì)于 ABCB 任務(wù)，在最初的塊中，每次試驗(yàn)的相對(duì)距離（圖 2j）比后期試驗(yàn)下降得更慢，表明在后期階段，智能體已經(jīng)學(xué)習(xí)了圖式中的抽象任務(wù)結(jié)構(gòu)，只需推斷接地似然。

圖 2g 顯示了 S-HAI-2C K 智能體學(xué)習(xí)的兩個(gè)塊的接地似然。在第 2 層，接地似然 P (s1t |o2t ) 與觀察似然 P (o2t |s1t ) 相結(jié)合。與圖 2b 不同，兩個(gè)不同的任務(wù)狀態(tài)（對(duì)應(yīng)于目標(biāo) B 的第一次和第二次出現(xiàn)）映射到相同的空間位置（塊 1 中的位置 2 和塊 2 中的位置 7）。最后，如圖 2h 和 2f 所示，S-HAI-2C K 智能體每次試驗(yàn)所需的步數(shù)更少，并比其非克隆對(duì)應(yīng)物獲得更高的獎(jiǎng)勵(lì)。

綜上所述，這些發(fā)現(xiàn)表明，用基于克隆的機(jī)制（George 等人，2021）增強(qiáng) S-HAI 模型，使其能夠?qū)W習(xí)在具有混疊目標(biāo)的任務(wù)中有效泛化的圖式。

2.5 帶有混合模型的基于圖式推理支持接地似然的增量學(xué)習(xí)與復(fù)用

在之前的模擬中，我們考察了智能體如何使用單個(gè)接地似然將空間狀態(tài)重新映射到任務(wù)狀態(tài)，該似然在每個(gè)塊重新訓(xùn)練。然而，在現(xiàn)實(shí)場(chǎng)景中，動(dòng)物（和人工智能體）可能需要自主識(shí)別問(wèn)題塊何時(shí)發(fā)生變化（Behrens 等人，2007; Friston 等人，2016b; Proietti 等人，2025）。此外，它們可能多次遇到相同的塊，在這種情況下從頭重新學(xué)習(xí)將是低效的。

為解決這一挑戰(zhàn)，我們實(shí)現(xiàn)了 S-HAI 智能體的非參數(shù)擴(kuò)展，稱為 S-HAI MoGL 智能體，它維護(hù)接地似然的混合，該混合使用截?cái)嗟依死走^(guò)程隨時(shí)間擴(kuò)展（第 4 節(jié)）。S-HAI MoGL 智能體維護(hù)對(duì)混合的信念，該信念在每個(gè)塊開(kāi)始時(shí)重置為均勻先驗(yàn)，并為每次試驗(yàn)選擇最可能的接地似然。這種非參數(shù)方法允許智能體在遇到新問(wèn)題時(shí)靈活創(chuàng)建新的接地似然，同時(shí)在遇到以前見(jiàn)過(guò)的問(wèn)題時(shí)復(fù)用現(xiàn)有的接地似然。與之前的模擬一樣，非參數(shù)智能體實(shí)現(xiàn)在線學(xué)習(xí)（S-HAI L MoGL）和離線學(xué)習(xí)（S-HAI K MoGL）。參見(jiàn)第 4 節(jié)了解 S-HAI MoGL 智能體的形式化解釋。

為了測(cè)試接地似然的混合，我們?cè)诘谝淮文M中使用的 ABCD 任務(wù)中測(cè)試了 S-HAI L MoGL 和 S-HAI K MoGL 智能體，其中智能體面對(duì) 40 個(gè)不同的問(wèn)題塊。我們的結(jié)果顯示，在完成第一個(gè)塊后，S-HAI MoGL 智能體學(xué)習(xí)單個(gè)接地似然，顯示在圖 3a 左側(cè)。隨著智能體遇到新塊，混合模型擴(kuò)展，導(dǎo)致針對(duì)不同塊產(chǎn)生多個(gè)不同的接地似然；例如，圖 3a 右側(cè)顯示了五個(gè)塊后學(xué)習(xí)到的混合組件。

圖 3b 比較了 ABCD 任務(wù)中帶有（S-HAI MoGL K 和 S-HAI MoGL L）和不帶有（S-HAI K 和 S-HAI L）接地似然混合的基于圖式智能體的性能。沒(méi)有混合的 S-HAI K 和 S-HAI L 智能體的結(jié)果與圖 2a 所示相同。我們的結(jié)果顯示，引入接地似然的混合影響了 S-HAI MoGL 智能體學(xué)習(xí)每個(gè)任務(wù)的速度。最初，S-HAI MoGL 智能體——必須推斷哪個(gè)接地似然適用于當(dāng)前問(wèn)題，并在某些情況下創(chuàng)建一個(gè)新的——比在每個(gè)新塊重新訓(xùn)練單個(gè)似然的基于圖式智能體學(xué)習(xí)得更慢。然而，這種較慢的起步隨時(shí)間得到補(bǔ)償：隨著 S-HAI MoGL 智能體在塊內(nèi)積累關(guān)于接地似然的知識(shí)，它可以跨問(wèn)題復(fù)用該知識(shí)，最終達(dá)到無(wú)混合智能體的性能。

最后，為了進(jìn)一步考察接地似然混合的好處，我們考慮了 ABCD 任務(wù)的一個(gè)變體，其中智能體可以多次遇到相同的塊。在此變體中，組成實(shí)驗(yàn)的 40 個(gè)塊僅是之前模擬中使用的最初 20 個(gè)塊的隨機(jī)樣本，因此某些塊可能重復(fù)兩次或更多。圖 3c 顯示了結(jié)果。帶有接地似然混合的基于圖式智能體（S-HAI MoGL）和帶有單個(gè)接地似然的智能體（S-HAI）最終都達(dá)到了相同的最優(yōu)性能。然而，配備混合模型的智能體學(xué)習(xí)得更快，因?yàn)樗梢粤⒓磳⑾惹矮@得的組件應(yīng)用于它已經(jīng)遇到的任務(wù)。此模擬表明，在圖式與其可應(yīng)用的問(wèn)題之間維護(hù)多個(gè)顯式映射，在可以復(fù)用先前知識(shí)的任務(wù)中提供了明顯優(yōu)勢(shì)。

圖 3d 提供了更詳細(xì)的視圖，展示 S-HAI MoGL 智能體如何在具有重復(fù)環(huán)境的 ABCD 任務(wù)期間積累和組織接地似然的混合。該面板顯示了智能體隨時(shí)間對(duì)所選混合組件（即接地似然）的信念。在大多數(shù)情況下，智能體為每個(gè)塊分配唯一的接地似然，反映了對(duì)塊的成功區(qū)分。底部面板顯示了混合模型下觀察的期望對(duì)數(shù)似然（公式 (13) 中的第一個(gè)因子）。當(dāng)此量低于閾值（顯示為虛線紅線）時(shí)，新的接地似然被添加到混合中。這通常發(fā)生在新塊的開(kāi)始，當(dāng)觀察令人驚訝且與先前期望不一致時(shí)——這與經(jīng)驗(yàn)發(fā)現(xiàn)一致，即片段（episode）之間的邊界通常對(duì)應(yīng)于高驚喜時(shí)刻（Zacks, 2020）。當(dāng)遇到智能體先前觀察過(guò)的塊時(shí)，這種情況不會(huì)發(fā)生。在沒(méi)有重復(fù)環(huán)境的 ABCD 任務(wù)中，智能體一致地為每個(gè)遇到的塊創(chuàng)建新的混合組件（見(jiàn)補(bǔ)充材料）。

2.6 基于圖式的層級(jí)主動(dòng)推理復(fù)現(xiàn)了嚙齒動(dòng)物內(nèi)側(cè)前額葉皮層中的“目標(biāo)進(jìn)展細(xì)胞”及其他圖式關(guān)鍵特征

在此模擬中，我們旨在評(píng)估基于圖式的（S-HAI）智能體在圖式學(xué)習(xí)期間涌現(xiàn)了何種內(nèi)部表征，以及它們?nèi)绾闻c執(zhí)行 ABCD 任務(wù)的嚙齒動(dòng)物內(nèi)側(cè)前額葉皮層（mPFC）中報(bào)道的神經(jīng)編碼相關(guān)聯(lián)（El-Gaby 等人，2024）。根據(jù)貝葉斯腦假說(shuō)，神經(jīng)元不僅僅是對(duì)刺激做出反應(yīng)而放電；相反，它們的激活編碼了關(guān)于環(huán)境中相關(guān)數(shù)量的概率信念（Doya, 2007; Parr 等人，2022）。為了模擬神經(jīng)活動(dòng)，我們將神經(jīng)元解釋為代表關(guān)于特定狀態(tài)、目標(biāo)或轉(zhuǎn)移的信念。我們將模擬聚焦于圖 4a 中描繪的四個(gè) ABCD 問(wèn)題。這使我們能夠觀察哪些神經(jīng)信念隨著智能體執(zhí)行問(wèn)題而演變，哪些保持不變或跨問(wèn)題實(shí)例變化，以及它們?nèi)绾斡成涞絿X動(dòng)物 mPFC 中報(bào)道的神經(jīng)激活。

ABCD 研究（El-Gaby 等人，2024）的一個(gè)關(guān)鍵發(fā)現(xiàn)是，嚙齒動(dòng)物 mPFC 編碼了大量細(xì)胞群，這些細(xì)胞 tuned 于目標(biāo)相關(guān)、空間及其他類型任務(wù)相關(guān)信息的各種組合。其中，最頻繁的是“目標(biāo)進(jìn)展細(xì)胞”，即主要 tuned 于朝向抽象目標(biāo)的進(jìn)展（例如，早期、中期和晚期階段）的細(xì)胞，獨(dú)立于目標(biāo)身份或物理距離。這由以下事實(shí)證明：這些細(xì)胞的放電發(fā)生在接近任何目標(biāo)時(shí)，并根據(jù)目標(biāo)位置的空間分布而拉伸或收縮；參見(jiàn)（El-Gaby 等人，2024）中的圖 2c。

在我們的模型中，當(dāng)考慮智能體在其當(dāng)前位置期望下的歸納成本信念時(shí)，追蹤朝向目標(biāo)進(jìn)展的神經(jīng)激活自然涌現(xiàn)。在規(guī)劃期間，與每個(gè)狀態(tài)相關(guān)的歸納成本反映了該狀態(tài)距離偏好狀態(tài)有多遠(yuǎn)（詳見(jiàn)方法）。圖 4b 顯示了我們模型中的模擬神經(jīng)活動(dòng)，其中期望歸納成本在連續(xù)步驟上歸一化，揭示該值隨著智能體接近目標(biāo)而增加。值得注意的是，無(wú)論目標(biāo)是哪個(gè)，智能體的目標(biāo)期望在接近下一個(gè)目標(biāo)時(shí)一致攀升。例如，在序列開(kāi)始時(shí)，其期望歸納成本最初很高（早期進(jìn)展，紫色節(jié)點(diǎn)），然后隨著其移向目標(biāo) C 而增加，經(jīng)過(guò)中期期望（綠色節(jié)點(diǎn)），然后達(dá)到高期望（黃色節(jié)點(diǎn)）。這種模式對(duì)應(yīng)于不同“目標(biāo)進(jìn)展細(xì)胞”群體的參與，這些群體 tuned 于朝向任何目標(biāo)的進(jìn)展的早期、中期或晚期階段。

圖 4c 進(jìn)一步說(shuō)明了模擬的“目標(biāo)進(jìn)展細(xì)胞”群體，其中它們的激活繪制在塊 1 期間的迷宮布局之上。智能體的軌跡顯示為彩色點(diǎn)（添加少量噪聲以避免點(diǎn)重疊）。在第三個(gè)面板中，可以觀察到 C 和 D 之間的兩條不同軌跡。點(diǎn)像以前一樣顏色編碼，表明沿著每條軌跡（例如，第一個(gè)面板中從 A 到 B），不同的“目標(biāo)進(jìn)展細(xì)胞”群體依次激活：首先是 tuned 于中期目標(biāo)期望的細(xì)胞（綠色），然后是 tuned 于高目標(biāo)期望的細(xì)胞（黃色），最后是在目標(biāo)位置收集獎(jiǎng)勵(lì)后 tuned 于低目標(biāo)期望的細(xì)胞（紫色）。重要的是，這種攀升模式跨不同軌跡一致涌現(xiàn)，獨(dú)立于特定目標(biāo)目的地，而這些細(xì)胞的放電野根據(jù)目標(biāo)之間的物理距離靈活地拉伸或收縮。

（El-Gaby 等人，2024）報(bào)道的第二類顯著細(xì)胞編碼對(duì)特定抽象目標(biāo)（A、B、C 或 D）的追求，獨(dú)立于其在迷宮中的物理位置（參見(jiàn)（El-Gaby 等人，2024）中的圖 2d）。在我們的模型中，具有此屬性的神經(jīng)激活在考慮智能體第 2 層關(guān)于當(dāng)前任務(wù)階段（即，移向 A、B、C 或 D）的（先驗(yàn)）信念時(shí)自然涌現(xiàn)，這反映了智能體關(guān)于下一個(gè)獎(jiǎng)勵(lì)將在何處獲得的期望。圖 4d 通過(guò)繪制四個(gè)塊期間智能體的軌跡說(shuō)明了這一點(diǎn)，顏色指示當(dāng)前關(guān)于任務(wù)階段的信念。對(duì)應(yīng)于每個(gè)階段的激活（例如，從 A 移向 B 時(shí)為藍(lán)色，從 B 移向 C 時(shí)為橙色，從 C 移向 D 時(shí)為綠色，從 D 移向 A 時(shí)為紫色）沿軌跡保持恒定，直到達(dá)到目標(biāo)，無(wú)論采取何種路徑。關(guān)鍵在于，即使目標(biāo)占據(jù)不同的空間位置，這種編碼模式也跨塊泛化，從而證明了目標(biāo)選擇性但空間不變的表征——鏡像了實(shí)證發(fā)現(xiàn)。

（El-Gaby 等人，2024）識(shí)別的第三類顯著細(xì)胞編碼關(guān)于特定抽象目標(biāo)（A、B、C 或 D）及其在迷宮中空間位置的聯(lián)合信息。在我們的模型中，這種目標(biāo)和位置調(diào)諧的激活在接地似然內(nèi)自然涌現(xiàn)。這在圖 4e 中說(shuō)明，其中每組彩色點(diǎn)對(duì)應(yīng)于接地似然的一個(gè)條目，該條目將給定空間位置映射到任務(wù)狀態(tài)。這種機(jī)制產(chǎn)生獨(dú)特的激活模式：僅當(dāng)空間位置和任務(wù)狀態(tài)都重合時(shí)，激活才相同（或高度相似），否則它們不同。例如，任務(wù) 1 和 4 中位置 A 的激活模式是相同的，而任務(wù) 1 和 2 中位置 A 的模式是不同的——鏡像了實(shí)證發(fā)現(xiàn)。

最后，除了支持第 2 層任務(wù)空間導(dǎo)航的神經(jīng)編碼——可能與前額葉皮層機(jī)制相關(guān)——我們的模型還解釋了支持第 1 層物理空間導(dǎo)航的神經(jīng)編碼，可能與海馬結(jié)構(gòu)中的空間映射和導(dǎo)航相關(guān)（Nyberg 等人，2022）。圖 4f 顯示了第 1 層空間激活，其編碼智能體在環(huán)境中的位置。無(wú)論任務(wù)實(shí)例如何，每個(gè)空間位置對(duì)應(yīng)一個(gè)獨(dú)特的激活模式。例如，右下角位置一致激活相同的神經(jīng)元，類似于海馬位置細(xì)胞（O'Keefe 和 Dostrovsky, 1971）。這表明第 1 層神經(jīng)元提供了獨(dú)立于當(dāng)前任務(wù)的穩(wěn)定空間表征，使模型能夠保持一致的位置信息，而第 2 層表征捕捉任務(wù)特定和導(dǎo)向目標(biāo)的信息。

3 討論

心理學(xué)、神經(jīng)科學(xué)和人工智能中傳統(tǒng)的 learning 觀點(diǎn)強(qiáng)調(diào)經(jīng)驗(yàn)的漸進(jìn)積累。與經(jīng)典學(xué)習(xí)理論并存的是，長(zhǎng)期以來(lái)人們假設(shè)人類和其他動(dòng)物能夠形成圖式——即編碼事件間結(jié)構(gòu)關(guān)系同時(shí)抽象掉感官細(xì)節(jié)的數(shù)據(jù)結(jié)構(gòu)——并通過(guò)快速將新經(jīng)驗(yàn)重新綁定到現(xiàn)有圖式來(lái)快速?gòu)?fù)用它們，從而將知識(shí)泛化到新情境（Piaget, 1952; Bartlett, 1932）。越來(lái)越多的文獻(xiàn)（最近在 Farzanfar 等人，2023 中綜述）支持這一觀點(diǎn)：高級(jí)認(rèn)知能力，如快速泛化和跨情境的知識(shí)抽象，依賴于基于圖式的機(jī)制，可能涉及海馬、內(nèi)嗅皮層和前額葉皮層。

本研究介紹了一種新穎的計(jì)算方法——基于圖式的層級(jí)主動(dòng)推理（S-HAI）——解決了從經(jīng)驗(yàn)形成圖式及其快速泛化到新情境的問(wèn)題。該模型建立在層級(jí)預(yù)測(cè)處理和主動(dòng)推理理論之上（Parr 等人，2022; Van de Maele 等人，2024; Pezzulo 等人，2018; Butz 等人，2025; Pezzulo 等人，2018; Smith 等人，2022; Lanillos 等人，2021; Matsumoto 和 Tani, 2020; Friston 等人，2021; Taniguchi 等人，2022; Isomura 和 Friston, 2018），并用基于圖式的機(jī)制擴(kuò)展了它們。S-HAI 是層級(jí)組織的：高層（第 2 層）負(fù)責(zé)抽象任務(wù)空間中的圖式學(xué)習(xí)和導(dǎo)航，而低層（第 1 層）編碼空間信息并支持物理空間中的導(dǎo)航。關(guān)鍵在于，兩個(gè)層級(jí)通過(guò)我們模型獨(dú)特的機(jī)制連接，即接地似然，它將圖式中的抽象目標(biāo)代碼映射到物理位置。此映射的快速學(xué)習(xí)使智能體能夠靈活地將同一圖式泛化到新穎的目標(biāo)配置。

通過(guò)一系列模擬，我們驗(yàn)證了基于圖式的 S-HAI 智能體復(fù)現(xiàn)需要快速泛化任務(wù)中的行為發(fā)現(xiàn)的能力，以及執(zhí)行此類任務(wù)的嚙齒動(dòng)物內(nèi)側(cè)前額葉皮層中報(bào)道的神經(jīng)發(fā)現(xiàn)。我們的結(jié)果顯示，在學(xué)習(xí)了一類具有相同結(jié)構(gòu)的導(dǎo)航問(wèn)題的圖式后——即需要循環(huán)訪問(wèn)四個(gè)目標(biāo)位置以獲得獎(jiǎng)勵(lì)的問(wèn)題，如 ABCD 任務(wù)（El-Gaby 等人，2024）——S-HAI 智能體表現(xiàn)出對(duì)新穎問(wèn)題的快速在線泛化，其中關(guān)系結(jié)構(gòu)保持不變但四個(gè)目標(biāo)的空間位置發(fā)生變化。值得注意的是，基于圖式的智能體優(yōu)于在所有問(wèn)題上離線訓(xùn)練的智能體，展示了基于圖式的學(xué)習(xí)在新情境中的優(yōu)勢(shì)。我們的模擬還表明，相同方法可以泛化到更具挑戰(zhàn)性的任務(wù)，其中多個(gè)目標(biāo)可以共享同一位置（ABCB 任務(wù)），類似于空間交替任務(wù)（Jadhav 等人，2012），并且 S-HAI 智能體可以在線學(xué)習(xí)并在抽象圖式與具體問(wèn)題之間的似然映射混合中進(jìn)行選擇，展示了決定何時(shí)復(fù)用現(xiàn)有映射或創(chuàng)建新映射的能力——捕捉了至少由（Piaget, 1952）構(gòu)想的同化（將新經(jīng)驗(yàn)納入現(xiàn)有關(guān)系結(jié)構(gòu)）和順應(yīng)（新關(guān)系結(jié)構(gòu)）過(guò)程的基本特征。最后且重要的是，S-HAI 模型復(fù)現(xiàn)了在執(zhí)行 ABCD 任務(wù)的嚙齒動(dòng)物內(nèi)側(cè)前額葉皮層中識(shí)別出的圖式關(guān)鍵神經(jīng)特征（El-Gaby 等人，2024），最顯著地捕捉了目標(biāo)進(jìn)展細(xì)胞的活動(dòng)，同時(shí)也反映了其他對(duì)目標(biāo)、空間和任務(wù)相關(guān)信息組合敏感的細(xì)胞的異質(zhì)編碼。

綜上所述，這些結(jié)果確立了 S-HAI 作為一個(gè)全面的計(jì)算框架，證明了基于圖式的學(xué)習(xí)和推理的有效性，捕捉了快速泛化、靈活問(wèn)題解決以及新經(jīng)驗(yàn)同化和順應(yīng)的行為和神經(jīng)特征。重要的是，S-HAI 提供了關(guān)于抽象關(guān)系知識(shí)如何被表征、映射到特定情境并增量更新的機(jī)制性解釋，基于預(yù)測(cè)處理和層級(jí)主動(dòng)推理的原則（Parr 等人，2022）。這表明，在建模感知、行動(dòng)和決策方面成功的相同預(yù)測(cè)處理原則，也可能 underlying 大腦中的圖式形成、關(guān)系知識(shí)的靈活復(fù)用和泛化。

通過(guò)提供基于圖式的學(xué)習(xí)和推理的機(jī)制模型，我們的框架也產(chǎn)生了可以在未來(lái)實(shí)驗(yàn)中測(cè)試的新穎實(shí)證預(yù)測(cè)。其中一個(gè)預(yù)測(cè)涉及在執(zhí)行 ABCB 任務(wù)的動(dòng)物中可能觀察到的行為和神經(jīng)表征（圖 2f）。我們的模擬表明，正確解決此任務(wù)需要一種機(jī)制（基于克隆或類似機(jī)制），能夠區(qū)分同一目標(biāo)的不同實(shí)例（例如，目標(biāo) B）。這反過(guò)來(lái)應(yīng)該產(chǎn)生特定的行為模式和第 2 層神經(jīng)表征，包括當(dāng)同一目標(biāo)被遇到兩次時(shí)的單獨(dú)表征（參見(jiàn)圖 1g）。另一個(gè)關(guān)鍵預(yù)測(cè)涉及在 ABCD 任務(wù)期間嚙齒動(dòng)物內(nèi)側(cè)前額葉皮層中報(bào)道的神經(jīng)活動(dòng)模式的功能角色（El-Gaby 等人，2024）。我們的模型將不同的神經(jīng)元群體——tuned 于目標(biāo)進(jìn)展、目標(biāo)身份以及目標(biāo)身份與空間位置結(jié)合——映射到不同的計(jì)算過(guò)程，即：目標(biāo)期望、關(guān)于當(dāng)前任務(wù)階段的信念以及接地似然。因此，擾動(dòng)這些神經(jīng)元應(yīng)該產(chǎn)生可解離的效果。例如，破壞編碼關(guān)于當(dāng)前任務(wù)階段信念的神經(jīng)元應(yīng)損害動(dòng)物正確推斷其下一個(gè)目標(biāo)的能力，而破壞編碼接地似然的神經(jīng)元應(yīng)損害動(dòng)物將任務(wù)階段靈活鏈接到空間表征的能力。這些預(yù)測(cè)仍有待在未來(lái)實(shí)驗(yàn)中測(cè)試。

當(dāng)前的 S-HAI 智能體有幾個(gè)局限性，可以在未來(lái)研究中解決。首先，雖然我們的模型考慮了多個(gè)接地似然，但它目前只實(shí)現(xiàn)了一個(gè)圖式。S-HAI 框架允許從維護(hù)接地似然混合直接擴(kuò)展到也維護(hù)多個(gè)圖式的混合，從而提供對(duì)（Piaget, 1952）設(shè)想的同化和順應(yīng)過(guò)程更全面的解釋。其次，模型主要關(guān)注基于擴(kuò)展隱馬爾可夫模型（HMMs）的概率生成模型的前額葉皮層中的圖式學(xué)習(xí)和推理。這種方法允許復(fù)現(xiàn)前額葉皮層中圖式神經(jīng)編碼的一些關(guān)鍵方面，但不能捕捉其全部復(fù)雜性。未來(lái)研究可以探索 HMMs 的生物學(xué)現(xiàn)實(shí)實(shí)現(xiàn)（Kappel 等人，2014）并更系統(tǒng)地調(diào)查這些模型與前額葉皮層神經(jīng)計(jì)算之間的映射。此外，未來(lái)工作可能擴(kuò)展 S-HAI 以提供系統(tǒng)級(jí)模型，解決前額葉皮層之外的基于圖式的過(guò)程，涵蓋其他相關(guān)腦區(qū)如海馬和內(nèi)嗅皮層。最后，未來(lái)工作可以調(diào)查基于圖式的機(jī)制如何被復(fù)用以支持抽象概念空間中的導(dǎo)航。近期研究表明，大腦可能依賴共享的計(jì)算機(jī)制進(jìn)行物理和概念領(lǐng)域的映射和導(dǎo)航，海馬 - 內(nèi)嗅系統(tǒng)發(fā)揮核心作用（Buzsáki 和 Moser, 2013; Bellmund 等人，2018; Viganò 等人，2023; Bottini 和 Doeller, 2020; Dong 和 Fiete, 2024）。理解圖式形成和基于圖式的推理如何有助于構(gòu)建和導(dǎo)航此類抽象認(rèn)知地圖，可以為解釋跨空間和非空間領(lǐng)域的靈活認(rèn)知提供統(tǒng)一框架。

4 方法

我們的方法建立在主動(dòng)推理之上，這是一個(gè)框架，其中智能體通過(guò)更新信念（感知）、選擇動(dòng)作（策略評(píng)估）和適應(yīng)模型參數(shù)（學(xué)習(xí)）來(lái)最小化變分自由能（Parr 等人，2022; Smith 等人，2022）。我們通過(guò)引入一個(gè)生成模型來(lái)擴(kuò)展該范式，該模型能夠表示并在多個(gè)環(huán)境中復(fù)用抽象圖式——即任務(wù)動(dòng)態(tài)的結(jié)構(gòu)化、可泛化表征。該圖式捕捉的是任務(wù)的抽象結(jié)構(gòu)，例如存在四個(gè)不同位置的獎(jiǎng)勵(lì)（如（El-Gaby 等人，2024）的 ABCD 任務(wù)）或交替位置的三個(gè)獎(jiǎng)勵(lì)（如（Jadhav 等人，2012）的空間交替任務(wù)），而不是學(xué)習(xí)任務(wù)中獎(jiǎng)勵(lì)位置的具體序列（Van de Maele 等人，2024）。在各種任務(wù)實(shí)例中，該圖式隨后可以概率性地映射到特定于環(huán)境的狀態(tài)。這對(duì)應(yīng)于一個(gè)非?？焖俚膶W(xué)習(xí)過(guò)程，因?yàn)橹悄荏w只需要學(xué)習(xí)一個(gè)新的映射（我們稱之為接地似然），從抽象圖式狀態(tài)到特定于環(huán)境的位置。因此，圖式的使用允許智能體在不同任務(wù)實(shí)例之間快速泛化和轉(zhuǎn)移高層知識(shí)。

在本節(jié)中，我們首先簡(jiǎn)要回顧主動(dòng)推理的功能，然后說(shuō)明新型基于圖式的（S-HAI）智能體的結(jié)構(gòu)。

4.1 主動(dòng)推理

主動(dòng)推理是一個(gè)框架，它根據(jù)信息論泛函的最小化來(lái)描述生物體中的認(rèn)知過(guò)程和大腦動(dòng)態(tài)：變分自由能（Parr 等人，2022）。主動(dòng)推理智能體被賦予一個(gè)生成模型：一個(gè)概率模型，編碼關(guān)于隱藏狀態(tài)、動(dòng)作和隨后觀察結(jié)果之間因果關(guān)系的內(nèi)部信念。注意，這不同于世界中產(chǎn)生結(jié)果的真實(shí)物理過(guò)程（稱為生成過(guò)程）。由于智能體受計(jì)算限制，對(duì)于大狀態(tài)空間，后驗(yàn)推斷變得難以處理。因此，智能體使用近似（變分）推斷，通過(guò)最小化其變分自由能，即驚喜的上界，定義為：

4.2 基于圖式的層級(jí)主動(dòng)推理智能體的形式化描述

主動(dòng)推理智能體被賦予一個(gè)生成模型，該模型本質(zhì)上定義并約束了其知識(shí)和能力。在本研究中，我們提出了一種新型的層級(jí)生成模型，允許智能體進(jìn)行基于圖式的學(xué)習(xí)和推理，例如在 (El-Gaby 等人，2024) 的 ABCD 任務(wù)中所見(jiàn)，其中智能體在空間中導(dǎo)航以到達(dá)四個(gè)目標(biāo)的序列。

圖 5a 展示了基于圖式的層級(jí)主動(dòng)推理（S-HAI）的生成模型，使用了貝葉斯網(wǎng)絡(luò)的形式化方法（另見(jiàn)圖 1a 了解更非形式化的示意圖）。它包含兩個(gè)層級(jí)。底層（第 1 層）在最精細(xì)的時(shí)間尺度上運(yùn)行，處理智能體的空間定位和導(dǎo)航。在此層級(jí)，智能體接收其位置的直接觀察并通過(guò)移動(dòng)行動(dòng)。自上而下的目標(biāo)被設(shè)定為對(duì)智能體需要到達(dá)的底層未來(lái)狀態(tài)的偏好。

高層（第 2 層）實(shí)施基于圖式的推理和學(xué)習(xí)。與第 1 層相比，圖式在較慢的時(shí)間尺度上運(yùn)行，并捕捉抽象任務(wù)結(jié)構(gòu)，整合關(guān)于獎(jiǎng)勵(lì)的信息以及包含底層推斷狀態(tài)的自下而上消息。該層的動(dòng)態(tài)建模了提供獎(jiǎng)勵(lì)觀察的目標(biāo)狀態(tài)之間的狀態(tài)轉(zhuǎn)移 (Friston 等人，2024)。例如，在 ABCD 任務(wù)中，圖式捕捉了一個(gè)抽象的動(dòng)作序列以循環(huán)移動(dòng)到下一個(gè)目標(biāo)（從 A 到 B，C，D，然后再回到 A，等等）。

該層級(jí)生成模型包含兩個(gè)耦合的部分可觀測(cè)馬爾可夫決策過(guò)程（POMDPs），每層一個(gè)，它們通過(guò)自上而下和自下而上的消息傳遞進(jìn)行交互 (Van de Maele 等人，2024; Catal 等人，2021)。每一層都維護(hù)其生成模型，對(duì)于通用層 i ，聯(lián)合分布分解為：

通過(guò)這種層級(jí)耦合，接地似然介導(dǎo)了第 2 層的抽象圖式如何指定第 1 層的具體目標(biāo)，從而使智能體能夠跨環(huán)境泛化任務(wù)結(jié)構(gòu)。

4.2.2 接地似然混合

當(dāng)存在多個(gè)任務(wù)或環(huán)境時(shí)，單個(gè)接地似然可能會(huì)顯得脆弱。為了支持更豐富的泛化和知識(shí)保留，我們引入了接地似然混合（Mixture of Grounding Likelihoods, MoGL），其中智能體維護(hù)一組接地似然，并推斷在每一個(gè)時(shí)間步哪一個(gè)是激活的。

形式上，低層狀態(tài)是從接地似然的混合中采樣的：

關(guān)鍵在于，我們將此混合模型建模為一個(gè)非參數(shù)模型，該模型可以通過(guò)添加聚類（Stoianov 等人，2022; Heins 等人，2025）來(lái)擴(kuò)展混合，即針對(duì)觀察到的地圖的特定接地似然。形式上，這被建模為一個(gè)截?cái)嗟墓靼粽蹟嘞闰?yàn)（truncated stick-breaking prior），如果所選地圖的期望對(duì)數(shù)似然（公式 (13) 中標(biāo)記）低于預(yù)選閾值，則該先驗(yàn)會(huì)擴(kuò)展混合模型（Heins 等人，2025），這意味著當(dāng)前正在使用的接地似然中沒(méi)有一個(gè)能很好地解釋數(shù)據(jù)。

4.2.3 克隆結(jié)構(gòu)因果圖

克隆結(jié)構(gòu)因果圖（Clone-structured causal graphs, CSCG）（George 等人，2021）是隱馬爾可夫模型（HMM）的一個(gè)特例，其中觀察似然將觀察確定性地映射到大量稱為“克隆”的狀態(tài)；相反，狀態(tài)推斷完全由模型的動(dòng)態(tài)驅(qū)動(dòng)?？寺D的優(yōu)勢(shì)在于，即使觀察可能是相同的，該模型也能將它們消歧為不同的狀態(tài)。這種方法已在具有混疊觀察的導(dǎo)航（George 等人，2021）和交替任務(wù)的層級(jí)模型（Van de Maele 等人，2024）中被證明是有效的；此外，CSCG 與海馬體中認(rèn)知地圖形成的神經(jīng)數(shù)據(jù)高度一致（Sun 等人，2025）。注意，具有單個(gè)克隆的克隆圖會(huì)簡(jiǎn)化為標(biāo)準(zhǔn)的（動(dòng)作增強(qiáng)的）HMM。

CSCG 使用 HMM 的期望最大化（EM）算法（Baum-Welch 算法）進(jìn)行學(xué)習(xí)，該算法最大化證據(jù)下界（ELBO）（George 等人，2021）。在 E 步中，通過(guò)平滑（即前向 - 后向算法）估計(jì)狀態(tài)上的后驗(yàn)。然后，M 步根據(jù)這個(gè)訪問(wèn)狀態(tài)序列選擇轉(zhuǎn)移模型的最優(yōu)參數(shù)。訓(xùn)練后，使用 Viterbi 解碼對(duì)模型進(jìn)行剪枝。此處，對(duì)于每個(gè)時(shí)間步，選擇最大似然狀態(tài)，并使用這些最大似然狀態(tài)估計(jì)轉(zhuǎn)移模型參數(shù)。

我們還在第 2.4 節(jié)中實(shí)現(xiàn)了一種在線學(xué)習(xí) CSCG 的機(jī)制。與主動(dòng)推理中的標(biāo)準(zhǔn)參數(shù)學(xué)習(xí)（其中隨著動(dòng)作的執(zhí)行和觀察的到來(lái)，對(duì)狀態(tài)的信念被濾波）不同，克隆圖對(duì)狀態(tài)上的信念進(jìn)行平滑，并將消歧信息傳播回其他“克隆”狀態(tài)。這提供了對(duì)各個(gè)狀態(tài)的更好估計(jì)，然后可用于更新轉(zhuǎn)移參數(shù)上的狄利克雷分布。對(duì)于學(xué)習(xí)圖式（即第 2 層轉(zhuǎn)移），我們使用 10 個(gè)觀察的滑動(dòng)窗口，并在每個(gè)觀察到來(lái)時(shí)更新參數(shù)。

我們?cè)诒狙芯康娜齻€(gè)部分使用了 CSCG 框架。首先，我們使用它來(lái)學(xué)習(xí)環(huán)境中空間位置的認(rèn)知地圖?？寺〗Y(jié)構(gòu)允許在高度模糊的觀察中（105 個(gè)不同位置中的 6 種瓷磚顏色）發(fā)現(xiàn)結(jié)構(gòu)。其次，我們?cè)谀M 1 中使用它來(lái)開(kāi)發(fā)沒(méi)有圖式的 HAI-i 智能體的第 2 層，以解決 ABCD 任務(wù)。在這種情況下，CSCG 初始化的克隆數(shù)量 i 等于要學(xué)習(xí)的塊的數(shù)量（20 或 40），以確保智能體有足夠的容量學(xué)習(xí)所有這些塊。最后，我們?cè)谀M 2 中使用 CSCG 框架來(lái)開(kāi)發(fā)解決 ABCB 任務(wù)的基于圖式的 S-HAI-2C 智能體的第 2 層。在這種情況下，CSCG 用 2 個(gè)克隆初始化。為了在離散時(shí)間主動(dòng)推理中使用它們，我們需要按照 Van de Maele 等人（2023）中所述將 CSCG 映射到 POMDP。

https://github.com/toonvdm/grounding-schemas

原文鏈接：https://arxiv.org/pdf/2601.18946

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.