網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

學習認知圖作為替代評估的結(jié)構(gòu)化圖形

2026-03-14 20:08:42　來源: CreateAMind

上海舉報

分享至

Learning cognitive maps as structured graphs for vicarious evaluation

學習認知圖作為替代評估的結(jié)構(gòu)化圖形

https://www.biorxiv.org/content/10.1101/864421v4.full.pdf

摘要

認知地圖是環(huán)境中空間和概念關(guān)系的心理表征。這些地圖對于靈活行為至關(guān)重要，因為它們允許我們進行替代性導航，但其底層的表征學習機制仍然未知。為了形成這些抽象地圖，海馬體必須學會在不同情境中適當?shù)胤蛛x或合并混疊觀測，以實現(xiàn)泛化、高效規(guī)劃和處理不確定性。本文介紹了一種特定的高階圖結(jié)構(gòu)——克隆結(jié)構(gòu)化認知圖（CSCG）——它通過為不同情境形成觀測的不同克隆作為表征來解決這些問題。CSCG可以使用一種新型概率序列模型進行高效學習，該模型本身對不確定性具有魯棒性。我們表明，CSCG可以解釋多種認知地圖現(xiàn)象，例如從混疊感覺流中發(fā)現(xiàn)空間關(guān)系、在不連續(xù)經(jīng)驗片段之間進行傳遞推理、形成可遷移的結(jié)構(gòu)知識，以及在新環(huán)境中尋找捷徑。通過為不同情境學習不同的克隆，CSCG解釋了迷宮導航中觀察到的分裂細胞的出現(xiàn)和位置細胞的路徑特異性編碼，以及跑步實驗中觀察到的事件特異性分級表征。此外，CSCG的學習和推理動態(tài)為多種位置細胞重映射現(xiàn)象提供了連貫的解釋。通過將混疊觀測提升到隱藏空間，CSCG揭示了潛在的模塊化結(jié)構(gòu)，然后用于層次化抽象和規(guī)劃?？傊褂肅SCG進行學習和推理為理解海馬功能提供了一個簡單的統(tǒng)一框架，并可能成為人工智能中形成關(guān)系抽象的一條途徑。

引言

替代性試錯（Vicarious trial and error）[1]，即通過心理時間旅行評估未來的能力，是智力的一個標志。為了做到這一點，智能體需要在體驗周圍環(huán)境時，從感官信息流中學習心理模型，即“認知地圖”（cognitive maps）[2, 3] [4]。學習這些心理抽象之所以復雜，是因為感官觀察經(jīng)常是混疊（aliased）的。取決于上下文，相同的事件可能有不同的解釋，而不同的事件可能意味著相同的事情 [5]。因此，認知地圖的計算理論應(yīng)該：(1) 提出機制來解釋情境和位置特定的表征是如何從混疊的感官或認知事件中產(chǎn)生的，以及 (2) 描述表征結(jié)構(gòu)如何支持鞏固、知識遷移以及靈活和分層的規(guī)劃。大多數(shù)開發(fā)此類理論的嘗試，包括將海馬體建模為記憶索引、關(guān)系記憶空間、快速事件記憶器，以及模式分離和模式完成的系統(tǒng)級模型，都未能在一個共同的框架下調(diào)和海馬體多樣的功能屬性 [6–8]。最近的模型試圖利用后繼表征理論（successor representation theory）[9–11] 并假設(shè)這些細胞是圖的高效表征 [12]，來調(diào)和位置細胞和網(wǎng)格細胞的表征屬性。不幸的是，這兩個模型在描述學習完環(huán)境后如何進行靈活規(guī)劃方面都有所欠缺，并且無法解釋幾個關(guān)鍵的實驗觀察結(jié)果，例如空間和非空間環(huán)境中的位置細胞重映射（remapping）[13, 14]，以及某些位置細胞編碼通往目標的路線 [15, 16] 而其他細胞編碼目標值 [17, 18] 這一事實。

一個行為中的智能體經(jīng)常遇到看起來瞬間相似的外部情境，但根據(jù)上下文需要不同的行動策略。在這些情況下，感官觀察應(yīng)該被情境化為不同的狀態(tài)。在其他時候，看起來不同的感官觀察可能需要合并到同一個狀態(tài)，因為那些上下文都導致相同的結(jié)果。一般來說，為了從序列觀察中形成世界的靈活模型，智能體需要擁有一個表征結(jié)構(gòu)和學習算法，允許根據(jù)適當?shù)那闆r對上下文進行彈性的拆分和合并 [5, 19]。此外，表征結(jié)構(gòu)應(yīng)該允許動態(tài)規(guī)劃和處理不確定性。

在這里，我們提出了一種特定的高階圖——克隆結(jié)構(gòu)化認知圖（clone-structured cognitive graph, CSCG）——它將觀測映射到該觀測的不同“克隆”上，作為一種解決這些問題的表征結(jié)構(gòu)。我們要證明這種結(jié)構(gòu)可以表示為概率序列模型的擴展，并且可以被高效地學習。CSCG 可以解釋多種認知地圖現(xiàn)象，例如從混疊的感官流中發(fā)現(xiàn)空間關(guān)系、在不連續(xù)的經(jīng)驗片段之間進行傳遞推理、可遷移的結(jié)構(gòu)知識，以及在新環(huán)境中尋找捷徑。CSCG 為不同上下文創(chuàng)建不同克隆的能力解釋了分裂細胞（splitter cells）[15] 的出現(xiàn)和路線特異性編碼（route-specific encoding）[20]，我們使用神經(jīng)生理學中常見的多種實驗設(shè)置證明了這一點。在重復跑圈任務(wù)（lap-running task）[21] 中，CSCG 學習特定圈數(shù)的神經(jīng)元，并表現(xiàn)出對迷宮擾動具有魯棒性的事件特異性反應(yīng)，這與神經(jīng)生理學觀察結(jié)果相似。CSCG 還可以學習分離共享觀測的多個環(huán)境，然后根據(jù)上下文相似性檢索它們。值得注意的是，克隆結(jié)構(gòu)學習和推理的動力學為老鼠從一個環(huán)境移動到另一個環(huán)境時觀察到的不同活動重映射現(xiàn)象提供了一個連貫的解釋。通過將混疊的觀測提升到隱藏空間，CSCG 揭示了潛在的模塊化，隨后用于分層抽象和規(guī)劃。

克隆結(jié)構(gòu)化認知圖作為認知地圖的模型

CSCG 背后的核心思想是動態(tài)馬爾可夫編碼（dynamic Markov coding）[22]，這是一種通過拆分，或者說克隆，觀測狀態(tài)來表示高階序列的方法。例如，一個表示事件序列 A ? C ? E
和 B ? C ? D 的一階馬爾可夫鏈，會給序列 A ? C ? D
分配高概率（圖 1a）。相比之下，動態(tài)馬爾可夫編碼通過將代表事件 C 的狀態(tài)拆分為多個副本（每個傳入連接對應(yīng)一個副本）來構(gòu)建高階模型，并通過學習進一步特化它們的傳出連接。這種狀態(tài)克隆機制允許對高階依賴進行稀疏表示，并已在各個領(lǐng)域被發(fā)現(xiàn) [22–25]。

通過克隆，相同的自下而上的感官輸入由多個狀態(tài)來表示，這些狀態(tài)在對感官輸入的選擇性上互為副本，但專門針對特定的時間上下文，從而能夠在沒有破壞性干擾的情況下高效存儲大量高階和隨機序列。然而，學習動態(tài)馬爾可夫編碼具有挑戰(zhàn)性，因為克隆依賴于一種貪婪啟發(fā)式方法，這會導致嚴重的次優(yōu)性——穿插有零階或一階片段的序列將導致克隆狀態(tài)的不受控增長。雖然文獻 [25] 將克隆思想納入了生物學習規(guī)則中，但由于缺乏概率模型和連貫的全局損失函數(shù)，阻礙了其發(fā)現(xiàn)高階序列和靈活表征上下文的能力。一種有效的學習方法應(yīng)當拆分克隆以發(fā)現(xiàn)高階狀態(tài)，并在有助于泛化時靈活地合并它們。

我們要之前的工作 [26] 表明，動態(tài)馬爾可夫編碼的許多訓練缺陷可以通過克隆隱馬爾可夫模型（cloned hidden Markov models）來克服——這是一種過完備隱馬爾可夫模型（HMM）的稀疏限制 [27]。在克隆 HMM 中，每個狀態(tài)的最大克隆數(shù)量是預先分配的，這強制執(zhí)行了一個容量瓶頸。使用期望最大化（EM）算法進行學習，能夠找出如何適當?shù)乩眠@種容量來拆分或合并不同的上下文，從而高效地利用克隆來表示不同的上下文。此外，克隆 HMM 在一個嚴格的概率框架中表示動態(tài)馬爾可夫編碼的克隆機制，該框架能夠處理學習和推理過程中的噪聲和不確定性。

HMM 和克隆 HMM 都假設(shè)觀測數(shù)據(jù)是由一個服從馬爾可夫性質(zhì)的隱藏過程生成的。也就是說，給定當前狀態(tài)和所有過去狀態(tài)，未來狀態(tài)的條件概率分布僅取決于當前狀態(tài)，而與任何過去狀態(tài)無關(guān)。對于 HMM，觀測狀態(tài)和隱藏狀態(tài)的聯(lián)合分布由以下方程給出：

神經(jīng)生物學回路

轉(zhuǎn)移矩陣也可以被視為一個有向圖，其中神經(jīng)元構(gòu)成圖的節(jié)點，軸突分支構(gòu)成有向邊?；榭寺〉囊唤M神經(jīng)元從觀測值接收相同的“自下而上”的輸入（藍色箭頭）?？寺∩窠?jīng)元的輸出是其橫向輸入的加權(quán)和，再乘以自下而上的輸入，這對應(yīng)于 HMM 推理中的前向傳遞消息 [30]。

任何特定時刻的證據(jù)可能是不確定的（“軟證據(jù)”），表現(xiàn)為觀測神經(jīng)元群體上的分級激活。對于特定的觀測值，從觀測值到其所有克隆的直接自下而上連接激活了該觀測值所屬的不同序列，然后這些激活根據(jù)每個克隆在其橫向連接上接收到的特定上下文支持進行調(diào)節(jié)?？寺∩窠?jīng)元群體以與其概率成正比的方式，表征了在任何時刻活躍的不同上下文的概率。圖 1e展示了這些活動如何針對從 t = 0
到 t = 3
的噪聲輸入序列 A → ( B , E ) → ( A , D ) → E進行傳播，該序列對應(yīng)于真實序列 A → B → D → E 。激活用不同深淺的紅色表示，較淺的色調(diào)表示較弱的激活。在每個時刻，激活的橫向輸入被高亮顯示，這些對應(yīng)于上一時間步激活的克隆。通過正確整合上下文和噪聲輸入，克隆 HMM 的克隆激活過濾掉噪聲以代表真實的輸入序列。圖 1f展示了序列如何從回路中被“重放”（采樣）。

像邊緣推斷或 MAP（最大后驗概率）推斷這樣的查詢可以在神經(jīng)回路中實現(xiàn)為前向和后向掃描，類似于圖 1中的可視化，這與早期工作中探索的消息傳遞推理的神經(jīng)實現(xiàn)類似 [28, 30, 31]。用于學習的 EM 算法可以很好地由神經(jīng)生物學機制——脈沖時序依賴可塑性（STDP）[32]——來近似。

CSCG：動作增強的克隆 HMM

我們的動作增強模型允許智能體學習在給定狀態(tài)下哪些動作是可行的，相比之下，動作條件化模型 [33] 僅根據(jù)動作預測未來的觀測值。

CSCG 內(nèi)的規(guī)劃

規(guī)劃被視為推理 [34]，并利用生物合理的消息傳遞算法 [28] 來實現(xiàn)。目標既可以被指定為期望的觀測值，也可以被指定為該觀測值的特定克隆。隨后，通過固定（clamping）當前克隆和目標，并推斷出達到這些觀測值所需的中間觀測和動作序列來完成規(guī)劃。通過在圖模型中運行前向傳遞并確定每一步目標的可行性，很容易確定我們需要將目標設(shè)定在未來多遠的地方。后向傳遞隨后將返回所需的動作序列。重要的是，由于圖模型本質(zhì)上是概率性的，它能夠處理帶有不確定結(jié)果的噪聲觀測和動作。

結(jié)果

我們進行了多項實驗來測試 CSCG 對認知地圖的建模能力。我們具體測試了以下已知功能特性：在混疊和離散的感官體驗下通過隨機游走學習空間地圖、可遷移的結(jié)構(gòu)知識、尋找捷徑、支持層次化規(guī)劃，以及生理學發(fā)現(xiàn)，例如位置細胞的重映射（remapping）和路線特異性編碼。

從混疊序列觀測中涌現(xiàn)空間地圖

從純粹序列化的隨機游走觀測中（這些觀測無法唯一識別空間中的位置），CSCG 可以學習到底層的空間地圖，這是一種與人類和動物相似的能力。圖 2a展示了一個 2D 房間，其中每個位置都關(guān)聯(lián)著感官觀測值。該房間有 48 個獨特的位置，但只有 4 種獨特的感官輸入（表示為顏色），一個進行隨機游走的智能體觀測到了這些感官輸入的序列。一階序列模型會嚴重欠擬合，而純粹的序列記憶也無法學習到房間的結(jié)構(gòu)，因為相同的序列幾乎從不重復。相比之下，CSCG 完美地發(fā)現(xiàn)了房間的底層 2D 圖（圖 2b）。隨著獨特隨機放置的觀測數(shù)量增加，學習變得更加容易（見補充結(jié)果）。

值得注意的是，即使大多數(shù)觀測是混疊的，CSCG 也能學習空間拓撲，就像在一個大空房間中那樣，只有在靠近墻壁時才會產(chǎn)生獨特的觀測，如圖 2c所示。觀測之間的高度相關(guān)性和嚴重的混疊使得這成為一個具有挑戰(zhàn)性的學習問題。盡管如此，CSCG 仍能完美學習 6 × 8
房間的拓撲結(jié)構(gòu)（圖 2d）。隨著房間變大，這種能力會有所下降，但下降是平緩的（graceful degradation）。例如， 9 × 11
房間的周邊被很好地建模，但 CSCG 無法區(qū)分中間的幾個位置（見補充結(jié)果）。

傳遞推理：不連續(xù)的經(jīng)驗可以被拼接成一個連貫的整體

傳遞推理（Transitive inference），即推斷未在同一時間經(jīng)歷的項目或事件之間關(guān)系的能力，歸因于認知地圖 [7]。例子包括從知道 A > B
和 B > C
中意識到 A > C
，或者根據(jù)不同行程中體驗到的地標及其相對位置推斷在城市中導航的新方法 [35]。

我們在一個旨在探究傳遞推理多個方面的具有挑戰(zhàn)性的問題上測試了 CSCG，發(fā)現(xiàn)它可以將不連續(xù)的序列經(jīng)驗片段拼接成一個連貫的整體。實驗設(shè)置由重疊的房間組成（圖 2e），每個房間都有像前一個實驗那樣的混疊觀測。此外，第一個房間有一個額外的部分，它與兩個房間之間的重疊部分完全相同。這種設(shè)計允許測試僅按順序獨家體驗第一個房間或第二個房間的智能體，是否能正確弄清楚房間及其重疊部分之間的關(guān)系。大狀態(tài)空間、混疊觀測、嵌套關(guān)系和二維傳遞性的結(jié)合，使得該問題設(shè)置比以前的嘗試 [36] 顯著更難。我們通過在每個房間執(zhí)行兩次單獨的隨機游走，收集了兩組獨立的動作-觀測對序列，并在兩個序列上訓練了一個單一的 CSCG。訓練結(jié)果可視化于圖 2f。學習到的轉(zhuǎn)移矩陣（顯示為圖）已將兩個房間的兼容區(qū)域拼接在一起，創(chuàng)建了一個單一的、更大的空間地圖，該地圖與兩個序列都一致，同時在可能的情況下重用克隆。第一個房間中令人困惑的額外補丁保持正確地未合并狀態(tài)，并且位于第一個房間中的正確相對位置，盡管看起來與重疊區(qū)域完全相同。

發(fā)現(xiàn)正確的潛在全局地圖使 CSCG 能夠進行傳遞性概括。雖然智能體從未經(jīng)歷過一條從房間 1 獨有區(qū)域通往房間 2 獨有區(qū)域的路徑，但它可以利用學習到的地圖在組合空間中的任意兩個位置之間進行替代性導航（vicariously navigate）。就像在之前的實驗中一樣，學習是純粹關(guān)系性的：模型中不對歐幾里得幾何或 2D 或 3D 地圖做任何假設(shè)。

有趣的是，繪制克隆隨時間的激活情況顯示，當智能體首次穿越重疊區(qū)域時（圖 2g中的軌跡 X），對應(yīng)于重疊區(qū)域和相同的混淆區(qū)域的克隆都被激活（圖 2h），表明智能體不確定其在迷宮中的位置。這也表明智能體對認知地圖的信念分裂為兩種可能的現(xiàn)實（見補充視頻 1），因為在沒有額外上下文的情況下，重疊區(qū)域和混淆區(qū)域完全相同。走出重疊區(qū)域為智能體提供了足夠的上下文來解決歧義。隨后，當智能體探索混淆區(qū)域時（圖 2g中的軌跡 Y），對應(yīng)于該區(qū)域的克隆變得更加活躍，而對應(yīng)于重疊區(qū)域的克隆不再活躍。當智能體返回重疊區(qū)域以遵循其最初遵循的相同序列（軌跡 X）時，克隆活動反映智能體不再在重疊區(qū)域和混淆區(qū)域之間感到困惑。

學習到的圖形成可重用的結(jié)構(gòu)以探索相似環(huán)境

在一個房間中學習到的通用空間結(jié)構(gòu)可以被利用作為圖式 [37]，用于在新穎房間中探索、規(guī)劃和尋找捷徑，這很像基于海馬體的導航的能力 [38]。

為了測試這一點，我們首先基于來自隨機游走的混疊觀測在房間 1 上訓練了 CSCG。如前所述，CSCG 完美地學習了房間的圖結(jié)構(gòu)。接下來，我們將智能體置于一個陌生的房間 2 中（圖 3a）。我們保持 CSCG 的轉(zhuǎn)移矩陣固定，并將發(fā)射矩陣重新初始化為隨機值。當智能體在新房間中行走時，發(fā)射矩陣通過 EM 算法進行更新。即使沒有訪問新房間中的所有位置，CSCG 也能夠通過從未訪問過的位置在已訪問的位置之間進行捷徑行走（圖 3b）。在沿著周邊進行如圖 3a所示的短暫遍歷后，我們查詢以找到從結(jié)束狀態(tài)到起始狀態(tài)的最短路徑。CSCG 返回了正確的動作序列，盡管它顯然無法預測路徑上的觀測值。有趣的是，維特比解碼（Viterbi decoding）[39] 揭示的隱藏狀態(tài)與你在房間 1 中對同一路徑進行維特比解碼所得到的隱藏狀態(tài)相同。對 CSCG 查詢從房間左下角到起始位置的最短路徑，揭示了圖 3b中藍色箭頭指示的路徑。該解是從房間 1 獲得的圖的 Dijkstra 最短路徑。此外，如果我們“阻斷”該路徑，我們會得到另一個在 Dijkstra 算法方面也是最優(yōu)的解（圖 3c）。即使只具有對新房間的部分知識，智能體也可以通過重用來自熟悉房間的 CSCG 轉(zhuǎn)移圖，替代性地評估到達目的地所需采取的動作數(shù)量和類型。

當重用來自舊房間的轉(zhuǎn)移矩陣時，即使智能體使用隨機游走進行探索，新房間也能被非?？斓貙W習：當房間中的所有位置都被訪問至少一次時，新房間就被完全學習了（圖 3d-f）。這些圖表顯示了所探索房間的比例以及預測下一個符號的平均準確率作為隨機游走步數(shù)函數(shù)的變化情況。

路徑和時間順序的表征

當觀測到的統(tǒng)計數(shù)據(jù)有此需求時，CSCG 會學習路徑并表征時間順序，例如當觀測值對應(yīng)于動物反復行走的典型路線時。例如，考慮圖 4a中顯示的 T 型迷宮，它以“8”字形模式被穿越，要么從右側(cè)（藍色路徑），要么從左側(cè)（紅色路徑）。結(jié)果，這兩條路徑共享同一段。有趣的是，CSCG 為這個共享段學習了單獨的克?。?strong>圖 4b），并且類似于文獻 [15] 中的觀測結(jié)果，這個重疊段中克隆的活動將指示大鼠是要向左轉(zhuǎn)還是向右轉(zhuǎn)（圖 4c）。值得注意的是，CSCG 學習靈活高階序列的能力獨立于模態(tài)（modality）[4]。特別是，輸入可以對應(yīng)于空間觀測、氣味、字符序列或來自任何其他現(xiàn)象的觀測 [26]。CSCG 將學習生成過程底層圖結(jié)構(gòu)的近似，這與文獻 [2] 設(shè)想的認知地圖的作用緊密對應(yīng)。我們在圖 4e中展示了為圖 4d所示的具有共享路徑的迷宮學習到的 CSCG。

神經(jīng)生理學實驗已經(jīng)顯示了海馬體中“分裂細胞”（splitter cells）的出現(xiàn) [15]。這些細胞代表通往目標的路徑而不是物理位置，并且是在大鼠反復穿越相同的連續(xù)路線（相對于隨機游走）時出現(xiàn)的 [20]。圖 4f展示了一個迷宮，其中智能體可以穿越兩條不同的路線（由品紅色和綠色線指示）以到達相同的目的地。這兩條路線都包含一些區(qū)域，在這些區(qū)域中智能體遵循的確切路徑是隨機的，正如指示從每個單元格可能的移動的箭頭所示。迷宮中的觀測值用數(shù)字標記，并且像以前一樣，相同的觀測值可以在迷宮的許多部分被感知（即存在混疊）。此外，這兩條路線相交并共享一個公共段。在這些路徑上訓練的 CSCG 能夠通過為每條路線使用不同的克隆來表征這兩條路線，這類似于在類似實驗中位置細胞表現(xiàn)出的路線依賴性。我們觀察到，當穿越每條路線時，不相交的克隆子集將被激活。圖 4g顯示，當以起始狀態(tài)為條件時，在學習到的 CSCG 中采樣將總是產(chǎn)生與這兩條路線一致的路徑。通過可視化由 CSCG 轉(zhuǎn)移矩陣定義的圖，我們看到這兩條路線是用兩條不同的鏈來表示的（圖 4g）。對于一階模型，當?shù)竭_共享段時，關(guān)于前面段的所有上下文都將丟失，模型將對未來路徑做出不正確的預測。另一方面，CSCG 能夠捕捉路徑的歷史，因此能夠正確地建模路線及其獨特的起始狀態(tài)。

在 CSCG 中學習高階序列還可以解釋最近發(fā)現(xiàn)的現(xiàn)象，如組塊細胞（chunking cells）和事件特異性表征（ESR）[21]，即位置細胞的激活信號結(jié)合了同一迷宮中不同圈數(shù)的位置和圈數(shù)信息。圖 5a展示了一個類似于文獻 [21] 中實驗的設(shè)置，其中大鼠在獲得獎勵前在環(huán)形矩形跑道上跑四圈。暴露于相同序列的 CSCG 學會了區(qū)分各圈，并預測第 4 圈結(jié)束時的獎勵。為了實現(xiàn)獎勵而進行的規(guī)劃恢復了正確的動作序列，隨后我們執(zhí)行該序列以記錄不同圈中克隆的激活情況?？梢暬總€克隆的信念傳播（無論是以觀測為條件還是以動作為條件），產(chǎn)生了一種類序列的激活模式，其中每個感官觀測都有一個克隆處于激活狀態(tài)，因此迷宮周圍的不同圈數(shù)由不同的克隆編碼（圖 5b）。類似于海馬體中的神經(jīng)元（其發(fā)放率顯示在圖 5c[21] 中），克隆在不同圈中顯示出分級激活。當一個觀測在其特定的圈中出現(xiàn)時，克隆對該觀測的激活達到最大，但當該觀測在其他圈中出現(xiàn)時則顯示較弱的激活，這是 ESR 的特征。這是由于平滑處理和推理動力學而在 CSCG 中自然發(fā)生的，如圖 5e所示。Sun 及其同事報告稱，盡管延長了迷宮，海馬體中的神經(jīng)元仍然對每一圈做出獨特的反應(yīng)。我們通過在一個維度上拉長迷宮，引入重復的或混疊的感官觀測，來模擬這一實驗（圖 5d）。同樣，與較小的迷宮一樣，我們觀察到克隆在每一圈上都是獨特激活的，并將每一圈解析為獨立的情境事件（圖 5d）。在這個特定的例子中，該迷宮的認知地圖是一個觀測鏈（見圖 5e），它將每一圈分割成獨特的情境事件。通過這樣做，智能體能夠基于相同的局部觀測來識別它處于哪一圈。ESR 對迷宮延伸的魯棒性也可以通過平滑 CSCG 中的推理來解釋——重復的觀測被解釋為上一時間步的噪聲，而從當前觀測重新規(guī)劃則恢復了正確的動作序列。

學習多張地圖并解釋重映射

重映射（Remapping）是指海馬體位置細胞活動響應(yīng)物理環(huán)境變化而重組的現(xiàn)象。重映射可以是全局的或部分的 [19, 41–44]，這取決于海馬體如何分離、存儲和檢索針對多個可能相似或不同環(huán)境的地圖 [13, 41]。

與海馬體類似 [19]，CSCG 可以學習從高度相似的環(huán)境輸入中分離出多張地圖，在記憶中同時表征這些地圖，然后利用上下文相似性來檢索適當?shù)牡貓D以驅(qū)動行為。在圖 6a中，我們展示了 5 個不同的 5 × 5 房間，它們都共享相同的 25 個觀測值，但在空間中的排列方式不同。我們從這些迷宮中的隨機游走序列中學習單個 CSCG，其中游走在不同房間之間以不規(guī)則的間隔切換，且未提供任何關(guān)于迷宮身份或切換時間的監(jiān)督。

盡管所有觀測值在迷宮之間是共享的，CSCG 學會了為不同的房間形成不同的克隆。圖6ai繪制了智能體在從第一個到最后一個房間的每個房間中經(jīng)歷 50 步隨機游走序列時關(guān)于其所在地圖的信念，表明盡管瞬時觀測是模糊的，迷宮身份仍體現(xiàn)在群體響應(yīng)中。

我們進行了一系列實驗，以評估迷宮之間的相似性、每個迷宮內(nèi)的可預測性、學習量以及噪聲和不確定性的量如何影響神經(jīng)響應(yīng)重組的程度。這些實驗使用了兩組環(huán)境——迷宮和房間。房間是前面描述的 5x5 房間（圖 6a），迷宮由 5 種不同的形狀組成（圖 6b），由 6 種不同的觀測值構(gòu)成（4 個不同的角落，以及垂直或水平的臂）。由于隨機游走的分支因子較低，與房間相比，迷宮具有更好的迷宮內(nèi)可預測性，而且與不同房間之間的相似性相比，迷宮彼此之間更相似。對于每一組，我們訓練了一個 CSCG，并評估了重映射如何隨訓練量和不確定性而變化（見圖 6a i-iv和圖 6b i-iv）。

我們的結(jié)果表明，全局重映射、部分重映射和速率重映射可以使用 CSCG 來解釋：當同一模型中表示多張地圖時，它們是使用克隆結(jié)構(gòu)的學習和推理動力學的表現(xiàn)。我們通過改變訓練量和不確定性，能夠重現(xiàn)不同的重映射效果。圖 6a-b中的行 (ii) 到 (iv) 顯示了兩個 CSCG 的神經(jīng)響應(yīng)，這兩個 CSCG 學會了表征相應(yīng)的房間和迷宮。一列中的所有神經(jīng)軌跡對應(yīng)于同一個隨機游走，其中智能體在每個房間/迷宮中采取 50 步，從第一個到最后一個。當 CSCG 經(jīng)過充分訓練直到 EM 算法收斂時，來自不同迷宮的神經(jīng)響應(yīng)重疊最少，產(chǎn)生類似于全局重映射的效果（圖 6aiii和biii）[41]。如果 CSCG 經(jīng)過部分訓練，克隆僅部分分離——雖然許多克隆仍然專屬于特定的迷宮或房間，但也有大量克隆在多個迷宮/房間中活躍（圖 6aii和bii），對應(yīng)于部分重映射的效果 [13, 42]。在充分訓練的模型中，更多的平滑處理，或反映不確定性的軟證據(jù)，會產(chǎn)生類似于速率重映射的神經(jīng)響應(yīng) [13, 44]（圖 6aiv和biv）：在全訓練情況下發(fā)放的所有神經(jīng)元在這種情況下仍然發(fā)放，但發(fā)放率降低。發(fā)生這種情況是因為不確定性和平滑處理導致表征相同觀測值的克隆之間更多地共享證據(jù)。

房間（迷宮）之間的相似性，以及每個房間（迷宮）內(nèi)的可預測性程度，也會影響重映射的動力學。這可以通過比較圖 6a, b中房間的軌跡與迷宮的軌跡來觀察。在圖 6bi中，由于迷宮中更嚴格的時間上下文，每個迷宮內(nèi)的信念比房間中的更穩(wěn)定 [19]。房間中流動的時間上下文會產(chǎn)生信念的更漸進的變形 [45]。不同迷宮之間的結(jié)構(gòu)相似性導致在進入新迷宮后出現(xiàn)更長的瞬態(tài)期，導致信念的非瞬時切換 [45]。這也反映在圖 6bii-iv中，其中多個迷宮中的克隆在切換點活躍（綠色條）。

綜上所述，我們的實驗展示了決定海馬網(wǎng)絡(luò)如何在預先建立的表征之間突然切換或從一種表征逐漸漂移到另一種表征，從而產(chǎn)生各種重映射效果的條件和機制。

社區(qū)檢測與分層規(guī)劃

人類以分層的方式表征計劃 [46]。替代性評估（Vicarious evaluations）涉及模擬通往目標的路徑，而分層計算通過減少搜索空間使這些模擬變得可行（tractable）[47]。為了實現(xiàn)分層規(guī)劃，學習機制應(yīng)該能夠從序列觀測數(shù)據(jù)中恢復底層的層級結(jié)構(gòu)。

通過學習克隆轉(zhuǎn)移圖，CSCG 將觀測提升到隱藏空間，從而能夠發(fā)現(xiàn)觀測中可能不明顯的圖模塊化結(jié)構(gòu)。社區(qū)檢測算法（Community detection algorithms）[48] 隨后可以對圖進行劃分以形成分層抽象 [6]，這對規(guī)劃和推理很有用。像 CSCG 中的規(guī)劃和推理一樣，社區(qū)檢測也可以使用消息傳遞算法（message-passing algorithms）[49] 來實現(xiàn)，這使它們具有生物合理性（biologically plausible）[28]。

我們通過模擬智能體在兩個迷宮中的運動，測試了 CSCG 學習分層圖的能力。第一個迷宮是一個具有三個社群（communities）的模塊化圖，其中觀測值并非節(jié)點獨有的（圖 7a），這與早期使用該圖的研究 [6, 9] 形成對比，在那些研究中觀測值直接標識了節(jié)點。由于觀測的簡并性（degeneracy），對 SR 矩陣進行社區(qū)檢測或 MDS 無法揭示隱藏的社群（圖 7b）。相比之下，在 CSCG 上進行社區(qū)檢測從隨機游走中訓練得到的模型能輕易揭示正確的社群結(jié)構(gòu)。第二個迷宮，如圖 7d所示，共有 16 個房間排列成 4 × 4 的網(wǎng)格。每個房間都有混疊的觀測值，并通過走廊（黑色方塊）連接。這種混疊是全局的：瞬時觀測無法識別房間、走廊或房間內(nèi)的位置。此外，迷宮的結(jié)構(gòu)使得存在四個“超房間”（hyper-rooms），使該迷宮成為一個三層層級結(jié)構(gòu)。與前面的例子一樣，在隨機游走序列上訓練 CSCG 學習了迷宮的完美模型。然后我們使用社區(qū)檢測對 CSCG 的轉(zhuǎn)移矩陣進行聚類（圖 7e）。這種聚類揭示了克隆的分層分組（圖 7f），以及被發(fā)現(xiàn)的社群之間的連接圖。社群尊重房間邊界：雖然有些房間被分成兩個或三個社群，但沒有一個社群跨越（straddled）多個房間。再次對此圖應(yīng)用社區(qū)檢測揭示了四個超房間（圖 7f），這是層級的最高層。為了使用這張地圖從起始位置 S 導航到特定的最終目的地 F ，智能體首先必須確定目標位于這四個房間中的哪一個，然后在源社群和目標社群之間的社群圖中規(guī)劃路線（圖 7h）。這樣做可以顯著減少低層圖中的搜索空間，使得在分層 CSCG 學習到的圖中進行規(guī)劃比在原始圖中直接規(guī)劃更有效。我們實現(xiàn)了這種形式的分層規(guī)劃，并發(fā)現(xiàn)我們總是能夠在隨機選擇的起點和終點之間恢復一條高效的路徑（詳見補充方法）。

學習適當編碼時間上下文的高階圖對于使用社區(qū)檢測算法提取層級結(jié)構(gòu)至關(guān)重要。那些在觀測值上學習一階連接性的方法，例如觀測值上的后繼表征（successor representations）[10]，將無法形成正確的表征，因為觀測值通常存在嚴重的混疊（見補充圖 3）。

當前關(guān)于認知地圖如何從感官輸入中學習以及如何用于規(guī)劃的理論，一直未能調(diào)和大量的實驗證據(jù)。在本文中，我們秉持這樣一個強有力的假設(shè)：海馬體執(zhí)行一種單一的算法，學習一種序列的、關(guān)系的、與內(nèi)容無關(guān)的結(jié)構(gòu)，并展示了其有效性的證據(jù) [4]。通過一系列實驗，我們展示了 CSCG 如何存儲、抽象和訪問序列感官經(jīng)驗 [4, 50]。實現(xiàn)這一核心思想需要幾個相互關(guān)聯(lián)的進展：(1) 一種從序列觀測中提取高階圖的學習機制，(2) 一種支持傳遞性的存儲和表征結(jié)構(gòu)，(3) 高效的上下文敏感和概率檢索，(4) 以及支持高效規(guī)劃的層級學習——這些是我們在本文中開發(fā)的技術(shù)。作為一個模型，CSCG 跨越了 Marr 層級的多個層面。其計算規(guī)范基于概率模型和最優(yōu)推理，其算法實現(xiàn)利用了神經(jīng)科學的見解 [24]。此外，其學習和推理的圖模型及算法實現(xiàn)很容易轉(zhuǎn)化為神經(jīng)生物學實現(xiàn)，為我們考慮的所有實驗現(xiàn)象提供了機制性解釋。

CSCG 與 Tolman-Eichenbaum 機器（TEM）[33, 51] 有顯著不同，后者是最近提出的關(guān)于海馬體回路結(jié)構(gòu)學習的模型。正如本工作所演示的，CSCG 可以解決 TEM 所考慮的任務(wù)以及其他任務(wù)。例如，與 TEM 不同，CSCG 可以規(guī)劃以實現(xiàn)測試時選擇的任意目標（見圖 3b-c），并且原生地處理錯誤或模糊的觀測（見補充材料中的檢索和重映射）。CSCG 還允許高效的精確推理，這使得復雜的查詢能夠被快速且準確地回答。相比之下，TEM 的表征復雜性僅允許近似推理，并且需要更高的計算代價。例如，圖 5a中的問題使用了 4 圈，每圈 12 步，在單個 CPU 核心上幾秒鐘內(nèi)即可解決；而對于 TEM 可解決的等效問題，它需要簡化為 3 圈，每圈 4 步。CSCG 原生是概率性的并處理不確定性和噪聲，而當前的 TEM 實現(xiàn)則不然。最重要的是，CSCG 將觀測提升到揭示模塊化的潛在圖的能力，通過使得抽象層級的形成成為可能，為其提供了優(yōu)于 TEM 的強大優(yōu)勢，見圖 7。

一種常用于海馬體功能的理論是后繼表征框架 [9, 10, 52]，它通過聚合給定策略下智能體未來位置的分布來表征當前狀態(tài)。然而，這對表征施加了幾個限制。首先，由于時間聚合，時間上的順序丟失了。此外，后繼表征不允許單獨訪問當前位置和未來位置，并且混淆了未來位置的順序 [53]。相比之下，CSCG 提供對當前和預測未來的單獨訪問并保留順序，這是有效規(guī)劃的關(guān)鍵屬性。其次，后繼表征是策略的函數(shù)。文獻 [9] 強調(diào)，當獎勵改變時，價值函數(shù)可以很容易地重新計算，而無需重新計算后繼表征。然而，當獎勵改變時真正需要改變的是策略，這反過來要求重新計算后繼表征。由于 CSCG 捕捉世界的動態(tài)，它們可以即時更新策略。在后繼表征的特征向量中觀察到的類網(wǎng)格細胞屬性可能是所有采用轉(zhuǎn)移矩陣的方法的一個屬性（見補充結(jié)果），我們要懷疑這一屬性本身可能沒有任何行為相關(guān)性。最后，雖然后繼表征可用于發(fā)現(xiàn)社群（communities），但它要求世界是完全可觀測的且沒有潛狀態(tài)。相比之下，CSCG 有能力將混疊的觀測拆分到不同的上下文中，以發(fā)現(xiàn)潛在圖和社群。

CSCG 與圖式網(wǎng)絡(luò)（schema networks）[54] 有著有趣的聯(lián)系。像圖式網(wǎng)絡(luò)一樣，CSCG 編碼關(guān)系知識。為不同的時間上下文創(chuàng)建不同的克隆，類似于用于解決狀態(tài)混疊的合成項（synthetic items）概念 [55]。我們打算在未來的工作中探索這些聯(lián)系。圖式細胞（Schema cells）已在海馬體中被觀察到 [37]，CSCG 或許能夠解釋它們的出現(xiàn)和屬性。此外，由于序列學習發(fā)生在許多其他腦區(qū)，例如頂葉皮層 [56] 和眶額皮層 [57]，這項工作的一個自然擴展將涉及學習高階概念關(guān)系并將其應(yīng)用于認知靈活性。目前的工作可以通過將其與主動推理框架（active inference framework）[58] 相結(jié)合來進一步擴展，該框架為結(jié)合探索和利用提供了指導原則。使用主動推理，在學習開始時，智能體將由探索驅(qū)動，因為其世界模型非常不確定，并且隨著其對世界知識的增加，將緩慢增加利用的量。盡管主動推理到目前為止一直用于簡單得多的模型，這些模型無法解決當前工作中提出的實驗，但 CSCG 的概率公式兼容于使用模型參數(shù)上的分層先驗來表示模型的確定性，為未來研究提供了一條途徑。

與 [50] 一致，CSCG 表征無內(nèi)容指針（content-free pointers）的序列：每個指針可以指代來自不同模態(tài)的感覺事件的聯(lián)結(jié)。來自網(wǎng)格細胞（grid cells）的輸出，即路徑整合信號，被視為僅僅是另一種感官模態(tài)。網(wǎng)格細胞輸出提供均勻空間的周期性平鋪，這對于在其他感官線索缺失時學習和導航地圖是有利的。類似地，將來自視覺圖模型 [59] 的快照編碼為此序列器的輸入，可能使得學習視覺空間概念和視覺例程 [60] 成為可能，并建模海馬體對視覺皮層的雙向影響 [61]。我們相信這些想法是未來探索的有前景的路徑。雖然超出當前工作的范圍，海馬體重放（hippocampal replay）[62] 是一個可能使用 CSCG 解釋的現(xiàn)象。我們相關(guān)的工作 [63] 表明，一種快速記憶并逐漸泛化的算法對于學習 CSCG 表征是可能的。從序列的休息時間重放中學習可以幫助此類算法更好地鞏固和泛化。推理時間重放可以被解釋為對通往多個目標的軌跡的搜索及其替代性評估。

闡明認知地圖如何在海馬體中表征，如何從經(jīng)驗流中獲取，以及如何利用它們進行預測和規(guī)劃，不僅對于理解大腦的內(nèi)部運作至關(guān)重要，而且為開發(fā)具有人工通用智能的智能體提供了關(guān)鍵見解。我們在本文中介紹的 CSCG 模型，為這些問題中的每一個提供了合理的答案。我們期望該模型在神經(jīng)科學和人工智能中都有益，作為一種從多模態(tài)序列數(shù)據(jù)中產(chǎn)生易于解釋和操縱的顯式表征的方法。

原文鏈接：https://www.biorxiv.org/content/10.1101/864421v4.full.pdf

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.