網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

主動(dòng)推理智能體的共情建模：視角對(duì)齊

2026-03-29 10:12:29　來源: CreateAMind

上海舉報(bào)

分享至

Empathy Modeling in Active Inference Agents for Perspective-Taking and Alignment

主動(dòng)推理智能體的共情建模：視角對(duì)齊

https://arxiv.org/pdf/2602.20936

能夠理解并與他人意圖保持一致的人工智能體，對(duì)于安全且具備社會(huì)魯棒性的人工智能至關(guān)重要。我們引入了一個(gè)針對(duì)主動(dòng)推理智能體的共情計(jì)算框架，其基礎(chǔ)是通過自我 - 他人模型轉(zhuǎn)換實(shí)現(xiàn)的顯式視角選擇。智能體并非為每個(gè)交互伙伴維護(hù)單獨(dú)的生成模型，而是在自我中心和他人中心解釋之間動(dòng)態(tài)重構(gòu)單個(gè)生成模型，從而能夠?qū)λ诵拍?、目?biāo)和行動(dòng)傾向進(jìn)行原則性推斷。我們?cè)诙嘀悄荏w迭代囚徒困境中實(shí)例化了該框架，并表明共情視角采擇能在無需顯式通信或獎(jiǎng)勵(lì)塑造的情況下誘導(dǎo)魯棒的合作。合作僅在共情得到互惠時(shí)才會(huì)涌現(xiàn)，而不對(duì)稱的共情則導(dǎo)致系統(tǒng)性的剝削。除了均衡結(jié)果外，共情智能體還表現(xiàn)出同步行為、從隨機(jī)背叛中快速恢復(fù)的能力，以及類似道歉 - 原諒周期的聯(lián)合意圖動(dòng)態(tài)。在接近共情對(duì)稱時(shí)，交互表現(xiàn)出長瞬態(tài)和升高的方差，這與接近機(jī)制邊界的臨界動(dòng)態(tài)一致。我們進(jìn)一步考察了一種支持學(xué)習(xí)的變體，其中智能體通過貝葉斯更新推斷對(duì)手類型。雖然對(duì)手模型迅速收斂，但長期合作仍主要由共情參數(shù)決定，這表明合作是由共情結(jié)構(gòu)而非習(xí)得的互惠性驅(qū)動(dòng)的?？傊?，這些結(jié)果表明共情作為社會(huì)交互的結(jié)構(gòu)先驗(yàn)發(fā)揮作用，塑造了協(xié)調(diào)的穩(wěn)定性、魯棒性和時(shí)間動(dòng)態(tài)。所提出的框架突出了主動(dòng)推理作為社會(huì)對(duì)齊人工智能體的原則性基礎(chǔ)，這些智能體通過內(nèi)部模擬而非行為模仿進(jìn)行協(xié)調(diào)。

I. 引言

能夠理解并共享視角的人工代理，對(duì)于在復(fù)雜社會(huì)互動(dòng)中實(shí)現(xiàn)與人類價(jià)值觀的對(duì)齊至關(guān)重要 Dautenhahn (1998)。傳統(tǒng)的人工共情方法通常依賴于表面層面的模式識(shí)別和腳本化的情緒反應(yīng)，缺乏真正人類共情的深層現(xiàn)象學(xué)基礎(chǔ) Howcroft and Blake (2025)。這導(dǎo)致了一種“共情差距”，即人工智能的反應(yīng)雖然在形式上恰當(dāng)，但并不反映真正的理解。為了彌合這一差距，我們提出了一個(gè)主動(dòng)推理框架，其中代理將他人的偏好和社會(huì)估值視為要推斷的潛變量。我們的代理在內(nèi)部建模并更新關(guān)于他人心理狀態(tài)的信念，包括其親社會(huì)關(guān)注的程度，并通過實(shí)用價(jià)值和認(rèn)識(shí)價(jià)值之間的明確權(quán)衡將這些信念納入行動(dòng)選擇，從而實(shí)現(xiàn)基于原則性不確定性減少的社會(huì)對(duì)齊行為。值得區(qū)分該框架所涉及的共情組成部分。認(rèn)知科學(xué)確定了至少三個(gè)可分離的方面：認(rèn)知共情（推斷他人的心理狀態(tài)，與心智理論密切相關(guān)）、情感共情（與他人的情緒狀態(tài)產(chǎn)生共鳴）以及一個(gè)動(dòng)機(jī)成分，即共情關(guān)懷和促進(jìn)他人福祉的愿望 Weisz and Cikara (2021), Decety and Jackson (2004), Lamm et al. (2007)。這些成分在神經(jīng)和功能上是可分離的 Shamay-Tsoory et al. (2009), Arioli et al. (2021)。先前關(guān)于主動(dòng)推理中心智理論的計(jì)算工作主要涉及認(rèn)知維度，預(yù)測另一個(gè)代理將做什么。我們的框架更進(jìn)一步。我們引入了一個(gè)共情參數(shù) λ ，它控制在規(guī)劃期間代理對(duì)他人的預(yù)期自由能賦予多少權(quán)重。 λ 使他人的福祉在代理自身的決策中變得顯著，在變分框架內(nèi)操作化共情關(guān)懷，類似于一些博弈論方法 Orbell and Dawes (1993), Rabin (1993), Hwang et al. (2018)。在這個(gè)意義上，我們的模型參與了情感維度（通過對(duì)他人結(jié)果的價(jià)值評(píng)估）并為動(dòng)機(jī)維度提供了一個(gè)結(jié)構(gòu)占位符，盡管在當(dāng)前的實(shí)現(xiàn)中，共情關(guān)懷的程度是外生設(shè)定的，而不是源于代理自身的需求動(dòng)態(tài)。我們的方法借鑒了人類認(rèn)知和神經(jīng)科學(xué)的靈感。在人類中，鏡像神經(jīng)元系統(tǒng)支持對(duì)他人的模擬。觀察他人的行動(dòng)會(huì)激活一個(gè)人自身的運(yùn)動(dòng)和情緒表征 Oberman and Ramachandran (2007)。類似地，我們的代理使用與其自身結(jié)構(gòu)匹配的生成架構(gòu)來建模他人，同時(shí)將特定于代理的參數(shù)視為要在線推斷的潛變量。代理不是硬編碼對(duì)手特征，而是維護(hù)行為和共情參數(shù)的后驗(yàn)分布，有效地重用其自身的認(rèn)知機(jī)制來“設(shè)身處地”，同時(shí)通過經(jīng)驗(yàn)更新其信念。該設(shè)計(jì)與社會(huì)認(rèn)知的模擬理論解釋 Goldman (2006) 以及強(qiáng)調(diào)在自身認(rèn)知框架內(nèi)建模他人的第二人稱神經(jīng)科學(xué)理論一致 Redcay and Schilbach (2019), Lehmann et al. (2024)。

先前的工作已開始將心智理論（ToM）整合到主動(dòng)推理中。例如，Demekas 等人 (2023) 將迭代囚徒困境 (IPD) 中的兩個(gè)代理建模為耦合的主動(dòng)推理系統(tǒng)，揭示了學(xué)習(xí)率和獎(jiǎng)勵(lì)結(jié)構(gòu)如何影響合作或背叛策略的出現(xiàn)。最近，Pitliya 等人 (2025), ?atal 等人 (2024) 證明了具有顯式 ToM 的主動(dòng)推理代理實(shí)現(xiàn)了改進(jìn)的合作，無需顯式通信，盡管在某些情況下是通過信念共享。Matsumura 等人 Matsumura 等人 (2024) 引入了主動(dòng)推理的共情擴(kuò)展，其中代理重用結(jié)構(gòu)匹配的生成模型來模擬另一個(gè)代理的視角，這與社會(huì)認(rèn)知的模擬理論解釋一致。在他們的公式中，代理將他人內(nèi)部狀態(tài)的估計(jì)納入策略評(píng)估，并可以選擇減少另一個(gè)代理的預(yù)期自由能的行動(dòng)，從而在具身導(dǎo)航任務(wù)中促進(jìn)社會(huì)適宜行為。他們的實(shí)現(xiàn)基于特定領(lǐng)域的動(dòng)態(tài)（例如，用于多機(jī)器人導(dǎo)航的社會(huì)力模型），并專注于改善情境環(huán)境中的協(xié)調(diào)和安全裕度。雖然這項(xiàng)工作證明了主動(dòng)推理可以在具身環(huán)境中支持共情行為，但它沒有檢查同時(shí)決策下的重復(fù)戰(zhàn)略互動(dòng)，也沒有分析均衡結(jié)構(gòu)、剝削不對(duì)稱性或機(jī)制邊界動(dòng)態(tài)。相比之下，我們的框架將共情估值嵌入到形式指定的博弈論設(shè)置中，引入對(duì)手估值參數(shù)的潛推斷，并刻畫共情如何重塑迭代困境中的穩(wěn)定性、閾值行為和戰(zhàn)略遠(yuǎn)見。更廣泛地說，先前關(guān)于社會(huì)互動(dòng)的主動(dòng)推理方法通常實(shí)例化獨(dú)立的自我模型和他人模型，但不將對(duì)手估值本身視為受認(rèn)識(shí)推斷影響的隱藏變量，也不分析此類潛社會(huì)參數(shù)如何改變均衡選擇和動(dòng)態(tài)穩(wěn)定性。此外，這些方法仍停留在認(rèn)知共情領(lǐng)域，它們建模另一個(gè)代理將做什么，而不是它將體驗(yàn)什么或其福祉對(duì)建模代理是否重要。我們的貢獻(xiàn)是一個(gè)統(tǒng)一的主動(dòng)推理共情算法框架，其中每個(gè)代理在建模他人時(shí)維護(hù)一個(gè)與其自身架構(gòu)結(jié)構(gòu)匹配的生成模型。代理 i 不是手工編碼離散對(duì)手類型，而是將代理 j 的行為和估值參數(shù)表示為潛變量，并對(duì)它們?cè)诰€執(zhí)行貝葉斯推斷。這保留了共享的生成結(jié)構(gòu)、共同的狀態(tài)空間、轉(zhuǎn)換動(dòng)態(tài)和觀察映射，同時(shí)允許從交互歷史中推斷控制合作偏差、互惠性、精度和共情估值的特定于代理的參數(shù)。視角采擇被實(shí)現(xiàn)為自我導(dǎo)向和他人導(dǎo)向的預(yù)期自由能的連續(xù)共情加權(quán)混合：

其中 λ ∈ [0, 1] 控制共情關(guān)懷的程度。對(duì)手的共情權(quán)重本身被當(dāng)作一個(gè)隱藏變量處理，從而在交互早期產(chǎn)生認(rèn)識(shí)價(jià)值和原則性的探索行為。我們將此機(jī)制正式整合到同時(shí)決策下的主動(dòng)推理感知 - 行動(dòng)循環(huán)中。由此產(chǎn)生的代理利用預(yù)期自由能的實(shí)用和認(rèn)識(shí)組成部分進(jìn)行規(guī)劃，從而涌現(xiàn)出親社會(huì)行為，例如在純粹自私的代理會(huì)選擇背叛的戰(zhàn)略困境中實(shí)現(xiàn)持續(xù)的相互合作。

II. 方法論

A. 共情智能體的生成模型

由此產(chǎn)生的他人模型與自我模型共享相同的結(jié)構(gòu)形式——相同的狀態(tài)和觀測維度以及相同的 PyMDP 推斷機(jī)制——但其參數(shù)化不同，這是通過推斷而非直接觀測得到的。這種構(gòu)建受到模擬理論（simulation theory）的啟發(fā)，根據(jù)該理論，智能體通過在替代參數(shù)設(shè)置下重用其自身的認(rèn)知架構(gòu)來理解他人 (Goldman 2006, Gallese and Goldman 1998)。

這種設(shè)計(jì)具有幾個(gè)重要的后果。首先，共享的結(jié)構(gòu)假設(shè)確保了環(huán)境動(dòng)態(tài)和觀測映射在不同視角間保持一致。其次，連續(xù)的共情參數(shù) λ 提供了在自我中心和他人中心評(píng)估之間的平滑插值。第三，將對(duì)手將要做什么（心智理論推斷）與關(guān)心程度多少（共情權(quán)重）分離開來，使得每個(gè)組件可以被獨(dú)立分析。

D. 主動(dòng)推理與復(fù)雜規(guī)劃

在指定了每個(gè)智能體的生成模型之后，我們現(xiàn)在描述支配智能體行為的推斷和規(guī)劃過程，其靈感來自 Friston 等人 (2021) 所描述的復(fù)雜推斷。每個(gè)智能體在離散的感知 - 行動(dòng)周期中運(yùn)行，在變分狀態(tài)推斷、對(duì)手建模和策略評(píng)估之間交替進(jìn)行。概覽見算法 1。

III. 結(jié)果

A. 迭代囚徒困境設(shè)置與全局合作圖景

我們首先刻畫了在迭代囚徒困境（IPD）中由共情權(quán)重誘導(dǎo)的全局合作圖景。在各二元組中，共情參數(shù) λ 作為一個(gè)控制變量，重塑了均衡結(jié)果，誘導(dǎo)了從相互背叛到持續(xù)合作的急劇轉(zhuǎn)變。

在此，設(shè)定 λ = 0 產(chǎn)生一個(gè)純粹自我導(dǎo)向的智能體，而 λ = 1 則產(chǎn)生一個(gè)完全他人導(dǎo)向的智能體。中間值實(shí)現(xiàn)了自利與親社會(huì)關(guān)懷之間的分級(jí)權(quán)衡。

B. 涌現(xiàn)的剝削動(dòng)態(tài)

雖然對(duì)稱共情支持穩(wěn)定的合作，但共情權(quán)重的不對(duì)稱會(huì)導(dǎo)致系統(tǒng)性的剝削。因此，我們要考察共情失衡下的收益結(jié)果。

值得注意的是，這些動(dòng)態(tài)是在具有基于歷史的對(duì)手預(yù)測的同時(shí)決策下產(chǎn)生的；剝削并非基于行動(dòng)調(diào)節(jié)（action-conditioning）的人為產(chǎn)物，而是不對(duì)稱估值的直接后果。這些結(jié)果表明，共情僅在互惠條件下才能穩(wěn)定合作。在缺乏對(duì)稱性的情況下，共情關(guān)懷會(huì)產(chǎn)生可預(yù)測的脆弱性。這種結(jié)構(gòu)性張力促使我們?cè)诘?III F 節(jié)中引入自適應(yīng)伙伴建模機(jī)制，該機(jī)制使智能體能夠在剝削壓力下追蹤并響應(yīng)伙伴的不對(duì)稱性。

C. 隱性溝通與恢復(fù)動(dòng)態(tài)

除了均衡頻率之外，交互的時(shí)間動(dòng)態(tài)揭示了在高共情下一種涌現(xiàn)的隱性溝通形式。在我們的模型中，智能體僅通過其行動(dòng)選擇相互影響，且其行為隨時(shí)間推移逐漸在動(dòng)態(tài)上趨于對(duì)齊。

圖 3A 和 B 說明了這些交互軌跡。在高共情機(jī)制下，孤立的協(xié)調(diào)失?。ㄈ珉S機(jī)背叛）隨后會(huì)迅速恢復(fù)到相互合作。滾動(dòng)合作率（即 ( C , C ) 的值）在恢復(fù)到接近 1 之前僅表現(xiàn)出短暫的下降。相比之下，低共情二元組顯示出一種性質(zhì)上截然不同的模式：一旦發(fā)生背叛，交互就會(huì)級(jí)聯(lián)進(jìn)入持續(xù)的相互背叛。

這種恢復(fù)模式可以通過測量行為同步性來量化，其定義為兩個(gè)智能體選擇相同行動(dòng)的輪次比例。如圖 3C 所示，對(duì)稱的高共情交互產(chǎn)生了近乎完美的同步，在大約十輪內(nèi)收斂于協(xié)調(diào)合作。低共情二元組也會(huì)同步，但是同步于相互背叛。強(qiáng)烈的非對(duì)稱共情導(dǎo)致持續(xù)的去同步化，反映了交替的剝削。

在高共情下，收斂到穩(wěn)定機(jī)制的速度同樣迅速（圖 3D）。一旦合作建立，每個(gè)智能體的心智理論（Theory of Mind）都會(huì)預(yù)測伙伴會(huì)繼續(xù)合作，且共情加權(quán)的社會(huì) EFE（預(yù)期自由能）傾向于維持 ( C , C ) 。因?yàn)槊總€(gè)智能體都將其行動(dòng)基于其對(duì)對(duì)手行為的歷史后驗(yàn)預(yù)測進(jìn)行條件化，所以相互預(yù)測和相互合作形成了一個(gè)自增強(qiáng)循環(huán)，該循環(huán)能針對(duì)瞬時(shí)擾動(dòng)穩(wěn)定合作。當(dāng)發(fā)生意外的背叛時(shí)，它會(huì)增加預(yù)測誤差并更新關(guān)于對(duì)手潛參數(shù)的信念，但在對(duì)稱高共情下，這種更新不會(huì)實(shí)質(zhì)性地瓦解推斷出的伙伴合作傾向，從而允許二元組恢復(fù)合作。

從動(dòng)力系統(tǒng)的視角來看，這種行為可以解釋為聯(lián)合策略空間中共享吸引子的涌現(xiàn)。當(dāng)兩個(gè)智能體都權(quán)衡對(duì)手的福祉時(shí)， ( C , C ) 同時(shí)最小化了各自的社會(huì) EFE（預(yù)期自由能）。在這個(gè)意義上，協(xié)調(diào)變得結(jié)構(gòu)對(duì)齊，即二元組的行為仿佛是在優(yōu)化一個(gè)部分共享的目標(biāo)，而不是兩個(gè)獨(dú)立的收益函數(shù)。

在標(biāo)準(zhǔn)的囚徒困境中，在純粹自利的效用下，相互背叛構(gòu)成了唯一的納什均衡 Kreps (2018), Nash (1951), Osborne and Rubinstein (1994)。引入共情權(quán)重改變了有效目標(biāo)函數(shù)，從而改變了交互的穩(wěn)定性結(jié)構(gòu)，使得在對(duì)稱共情偏好下，相互合作在行為上變得穩(wěn)定。

D. 轉(zhuǎn)換附近的邊界層變異性

圖 4B 中顯示的示例軌跡是從這些相應(yīng)組中提取的代表性單種子實(shí)現(xiàn)。它們直觀地展示了上述量化的潛在現(xiàn)象：在轉(zhuǎn)換附近，二元組在收斂前表現(xiàn)出延長的波動(dòng)，而遠(yuǎn)離閾值的配置則迅速穩(wěn)定為持續(xù)合作或系統(tǒng)性剝削。

從動(dòng)力學(xué)角度來看，這些發(fā)現(xiàn)表明轉(zhuǎn)換區(qū)域構(gòu)成了一個(gè)邊界層，其中微小的隨機(jī)擾動(dòng)足以在競爭的穩(wěn)定機(jī)制之間重定向二元組。這種變異性源于共情權(quán)重下智能體目標(biāo)函數(shù)的變形，而非源于認(rèn)識(shí)探索本身。因此，共情不僅影響均衡結(jié)果，還影響協(xié)調(diào)的統(tǒng)計(jì)穩(wěn)定性和魯棒性。

這些跡象表明二元交互的穩(wěn)定性結(jié)構(gòu)中存在潛在的轉(zhuǎn)換。因此，我們通過將合作閾值定義為共情權(quán)重的函數(shù)并對(duì)其進(jìn)行解析刻畫，使這一轉(zhuǎn)換顯式化。

E.向合作過渡

F. 學(xué)習(xí)提高了信念準(zhǔn)確性但未引發(fā)合作

這些結(jié)果表明認(rèn)識(shí)推斷與親社會(huì)估值之間存在結(jié)構(gòu)性分離。學(xué)習(xí)完善了智能體關(guān)于對(duì)手參數(shù)的后驗(yàn)分布，提高了預(yù)測精度，但合作是由社會(huì) EFE（預(yù)期自由能）中的共情權(quán)重支配的。僅憑準(zhǔn)確的信念并不能引發(fā)合作；當(dāng)共情關(guān)懷較弱時(shí)，它反而可能加劇剝削。因此，合作源于在 λ 作用下智能體目標(biāo)的變形，而非源于對(duì)手分類或互惠期望。

G. 戰(zhàn)略復(fù)雜性放大了對(duì)共情的需求

迄今為止展示的所有結(jié)果均是在短視行動(dòng)選擇（ H = 1 ）下獲得的，其中智能體僅評(píng)估每個(gè)候選行動(dòng)的即時(shí)社會(huì) EFE（預(yù)期自由能）。我們現(xiàn)在探討增加戰(zhàn)略復(fù)雜性（操作化為多步規(guī)劃）是增強(qiáng)還是削弱合作。

這一結(jié)果與 IPD 中的經(jīng)典逆向歸納（backward-induction）論證相平行，在后者中，完全理性的智能體會(huì)徹底瓦解合作 (Osborne and Rubinstein 1994)。在本框架中，規(guī)劃并未消除合作，因?yàn)楣睬樘峁┝藢?duì)伙伴福祉的抵消性估值。然而，除非共情足夠強(qiáng)以抵消它，否則增加的規(guī)劃深度會(huì)系統(tǒng)性地加強(qiáng)朝向背叛的戰(zhàn)略壓力。

這些發(fā)現(xiàn)突顯了能力（capability）與對(duì)齊（alignment）之間的結(jié)構(gòu)性區(qū)別。增加規(guī)劃深度增強(qiáng)了戰(zhàn)略能力，但并未增加親社會(huì)估值。事實(shí)上，如果沒有相應(yīng)的共情權(quán)重，更強(qiáng)的能力可能會(huì)通過放大剝削的長視界收益而破壞合作。因此，在此框架中，合作是嵌入在社會(huì) EFE（預(yù)期自由能）中的價(jià)值對(duì)齊的后果。

總之，短視規(guī)劃和共情作為互補(bǔ)機(jī)制涌現(xiàn)：短視智能體更容易合作，因?yàn)樗鼈儾活A(yù)期未來的誘惑；而復(fù)雜智能體則需要更強(qiáng)的共情動(dòng)機(jī)來抵抗復(fù)合的背叛誘惑。這種區(qū)別對(duì) AI 對(duì)齊具有直接啟示：在不加強(qiáng)智能體親社會(huì)估值的情況下增加其規(guī)劃能力可能會(huì)減少合作行為，從而形式化了“能力更強(qiáng)的系統(tǒng)可能更難對(duì)齊”這一擔(dān)憂。

IV. 討論

A. 與主動(dòng)推理文獻(xiàn)的關(guān)系

提出的共情驅(qū)動(dòng)合作機(jī)制建立在主動(dòng)推理文獻(xiàn)中的多條工作線索之上，特別是關(guān)于社會(huì)互動(dòng)、博弈和多智能體協(xié)調(diào)的研究。一個(gè)重要的基礎(chǔ)是應(yīng)用于戰(zhàn)略博弈和社會(huì)困境的主動(dòng)推理。Demekas 等人 (2023) 引入了迭代囚徒困境的數(shù)學(xué)上易處理的主動(dòng)推理公式，展示了智能體如何在重復(fù)交互中學(xué)習(xí)適應(yīng)性響應(yīng)。然而，在該公式中，智能體在游戲的聯(lián)合狀態(tài)空間上進(jìn)行推理，枚舉可能的行動(dòng)組合，而不維護(hù)彼此獨(dú)立的內(nèi)部模型。我們的工作通過賦予每個(gè)智能體一個(gè)顯式的心智理論（ToM）模塊來擴(kuò)展這一線索，該模塊從交互歷史（以及在推演期間，從模擬歷史）預(yù)測對(duì)手的行為，并具有直接權(quán)衡對(duì)手福祉的社會(huì) EFE（預(yù)期自由能），為更具認(rèn)知基礎(chǔ)的多智能體主動(dòng)推理邁出了一步。

相關(guān)地，Pitliya 等人 (2025), ?atal 等人 (2024) 提出了一種用于多智能體交互的因子化主動(dòng)推理框架，其中智能體維護(hù)關(guān)于他人內(nèi)部狀態(tài)和偏好的顯式信念。我們的方法與這種因子化視角大致一致。每個(gè)智能體維護(hù)一個(gè)獨(dú)立的對(duì)手生成模型（“他人模型”）與其自身的自我模型并存，并使用他人模型在評(píng)估候選行動(dòng)時(shí)模擬對(duì)手的預(yù)期自由能。關(guān)鍵的創(chuàng)新在于，合作并非源于習(xí)得的互惠性或集中式協(xié)調(diào)，而是源于通過共情參數(shù) λ 在社會(huì) EFE 中對(duì)對(duì)手福祉的結(jié)構(gòu)性權(quán)重。我們?cè)谀M中觀察到的涌現(xiàn)對(duì)齊，表現(xiàn)為行為同步和穩(wěn)定的相互合作，因此可以被解釋為共享信念狀態(tài)和交互智能體之間廣義同步的主動(dòng)推理實(shí)現(xiàn)，源于共情 EFE 最小化的共享數(shù)學(xué)結(jié)構(gòu)。

我們的模型還自然地與神經(jīng)科學(xué)啟發(fā)的關(guān)于心智理論和第二人稱互動(dòng)的主動(dòng)推理解釋相聯(lián)系。最近的工作認(rèn)為，主動(dòng)推理特別適合捕捉社會(huì)認(rèn)知的動(dòng)態(tài)，包括相互意識(shí)、協(xié)調(diào)和互惠適應(yīng)。例如，Lehmann 等人 (2024) 描述了第二人稱神經(jīng)科學(xué)如何被形式化為隨時(shí)間交換信號(hào)的耦合主動(dòng)推理過程。在我們的設(shè)置中，此類交換被抽象為對(duì)聯(lián)合結(jié)果的觀測，然而這些觀測足以通過 ToM 預(yù)測機(jī)制誘導(dǎo)內(nèi)部信念狀態(tài)之間的耦合。使用兩個(gè)具有共享結(jié)構(gòu)的生成模型，一個(gè)自我導(dǎo)向，一個(gè)建模對(duì)手，平行于鏡像神經(jīng)元系統(tǒng)的貝葉斯解釋，根據(jù)該解釋，類似的層次模型支持行動(dòng)執(zhí)行和行動(dòng)觀察。

該機(jī)制與將主動(dòng)推理視為朝向認(rèn)知一致性驅(qū)動(dòng)力的觀點(diǎn)一致 Friston (2018)，其中智能體最小化自我和他人預(yù)測行動(dòng)與觀測行動(dòng)之間的不一致。共情智能體通過將對(duì)手的預(yù)期自由能直接納入其自身的行動(dòng)評(píng)估來操作化這一原則。在此過程中，智能體趨向于同時(shí)最小化兩個(gè)智能體驚喜的結(jié)果，對(duì)應(yīng)于一種共情對(duì)齊或現(xiàn)象學(xué)同構(gòu)的形式。從倫理 AI 的角度來看，這種通過共情的對(duì)齊提供了一條通往人類兼容系統(tǒng)的可行路徑，只要人工智能體在規(guī)劃期間將人類目標(biāo)視為內(nèi)部顯著，而不是作為外部強(qiáng)加的約束。

我們的結(jié)果進(jìn)一步闡明了共情權(quán)重與基于學(xué)習(xí)的互惠性之間的關(guān)系。在一個(gè)啟用學(xué)習(xí)的變體中，通過粒子濾波器對(duì)對(duì)手行為參數(shù)（合作偏差、互惠性、精度）和潛共情權(quán)重執(zhí)行貝葉斯推斷，對(duì)手模型迅速且準(zhǔn)確地收斂，但合作仍主要由共情參數(shù) λ 決定。準(zhǔn)確相信對(duì)手會(huì)合作實(shí)際上在低共情下增加了剝削的誘惑，略微減少了合作。這表明此處觀察到的合作行為不能簡化為習(xí)得的最佳響應(yīng)策略或單純的互惠，而是由在社會(huì) EFE 中權(quán)衡對(duì)手福祉的結(jié)構(gòu)性承諾所誘導(dǎo)的。在這個(gè)意義上，共情作為社會(huì)估值的先驗(yàn)發(fā)揮作用，塑造了均衡選擇和協(xié)調(diào)穩(wěn)定性，而學(xué)習(xí)主要完善對(duì)手預(yù)測的準(zhǔn)確性而不改變根本的合作機(jī)制。此外，通過將對(duì)手的共情權(quán)重視為潛變量，該框架支持預(yù)期自由能中真正的認(rèn)識(shí)項(xiàng)，產(chǎn)生原則性的探索行為（例如，早期合作作為信息尋求），這不能簡化為標(biāo)準(zhǔn)的玻爾茲曼理性。

復(fù)雜推斷結(jié)果揭示了一個(gè)額外且有些反直覺的見解。增加規(guī)劃深度會(huì)在中等共情水平下減少合作。將規(guī)劃視界從 H = 1 （短視）擴(kuò)展到 H = 3 會(huì)將合作閾值向右移動(dòng)，從大約 λ ≈ 0.25到 λ ≈ 0.45 。這是因?yàn)榍罢靶缘闹悄荏w可以預(yù)見多個(gè)步驟上的累積誘惑收益，使得在社會(huì) EFE 景觀中以背叛初始的策略更具吸引力。只有具有足夠高共情（ λ ? 0.7 ）的智能體才能抵抗這種誘惑，無論規(guī)劃深度如何。這一發(fā)現(xiàn)平行于有限重復(fù)博弈中眾所周知的逆向歸納論證，其中完全理性的智能體會(huì)徹底瓦解合作 (Osborne and Rubinstein 1994)。在我們的框架中，瓦解是分級(jí)的而不是完全的，因?yàn)楣睬轫?xiàng)提供了隨 λ 增加的抵消力。實(shí)際啟示是規(guī)劃能力和親社會(huì)動(dòng)機(jī)必須一起擴(kuò)展：在不相應(yīng)增加共情的情況下增加智能體的前瞻能力可能會(huì)矛盾地減少合作行為。

當(dāng)前結(jié)果的另一個(gè)啟示是，共情不僅影響均衡結(jié)果，還影響機(jī)制邊界附近的瞬態(tài)動(dòng)態(tài)。在迭代囚徒困境中，小的共情不對(duì)稱和近對(duì)稱設(shè)置可能在穩(wěn)定進(jìn)入合作或剝削之前表現(xiàn)出長瞬態(tài)、振蕩和升高的方差。轉(zhuǎn)換附近的這種方差放大與分岔附近的臨界現(xiàn)象一致，其中競爭策略具有相當(dāng)?shù)念A(yù)期自由能，且隨機(jī)性誘導(dǎo)間歇性切換。這突顯了共情推斷調(diào)節(jié)協(xié)調(diào)的可靠性和時(shí)間結(jié)構(gòu)，而不僅僅是平均合作率，并促使將穩(wěn)定性和瞬態(tài)行為的分析作為評(píng)估的一級(jí)目標(biāo)。

B. 優(yōu)勢(shì)與局限性

所提出框架的一個(gè)主要優(yōu)勢(shì)在于其概念的透明性和模塊化。社會(huì) EFE（預(yù)期自由能）公式提供了一個(gè)單一的、可解釋的控制參數(shù) ( λ λ)，用于支配親社會(huì)行為的程度。這種簡潔性促進(jìn)了分析：合作閾值、剝削動(dòng)態(tài)以及規(guī)劃深度效應(yīng)都可以理解為 λ λ 如何在 EFE 景觀中改變自利與對(duì)手福祉之間的平衡。模塊化架構(gòu)將狀態(tài)推斷、對(duì)手建模（ToM 和粒子濾波器）以及行動(dòng)選擇（短視或復(fù)雜）分離開來，使得每個(gè)組件可以被獨(dú)立評(píng)估和改進(jìn)。

對(duì)手建模流水線提供了額外的實(shí)際益處。粒子濾波器提供了關(guān)于對(duì)手特征的可解釋的在線貝葉斯推斷，而在習(xí)得的預(yù)測和靜態(tài) ToM 預(yù)測之間基于可靠性的門控混合確保了優(yōu)雅的降級(jí)。當(dāng)收集到的數(shù)據(jù)不足時(shí)，智能體會(huì)回退到一個(gè)合理的先驗(yàn)，而不是基于不可靠的推斷采取行動(dòng)。這種“只有當(dāng)模型贏得信任時(shí)才信任它”的設(shè)計(jì)模式廣泛適用于伙伴行為最初未知的多智能體系統(tǒng)。

這種設(shè)計(jì)的行為后果也是顯著的。共情智能體表現(xiàn)出魯棒且符合倫理期望的行為，部分原因是它們通過社會(huì) EFE 中的對(duì)手福祉項(xiàng)，在內(nèi)部模擬了其行動(dòng)對(duì)他人的后果。在我們的實(shí)驗(yàn)中，這表現(xiàn)為對(duì)短期剝削策略的抵抗力，以及在共情互惠時(shí)對(duì)合作的持續(xù)承諾。這些屬性對(duì)于現(xiàn)實(shí)世界的 AI 系統(tǒng)具有吸引力，因?yàn)樗鼈兛赡芡ㄟ^在智能體自身的規(guī)劃動(dòng)態(tài)中使有害結(jié)果變得顯著，從而減輕權(quán)力尋求或機(jī)會(huì)主義行為。

盡管如此，仍有幾個(gè)局限性值得注意。首先，心智理論（ToM）模塊目前使用的是靜態(tài)的、基于歷史條件的收益預(yù)測來預(yù)測對(duì)手響應(yīng)。雖然粒子濾波器學(xué)習(xí)對(duì)手的行為特征，但在復(fù)雜規(guī)劃推演（ t > 0 ）期間的每步對(duì)手預(yù)測依賴于靜態(tài) ToM 先驗(yàn)，因?yàn)樵谛睦砟M期間沒有新的觀測值可用。更復(fù)雜的方法，例如遞歸 ToM（即把對(duì)手建模為也在對(duì)智能體執(zhí)行 ToM），可以提高多步預(yù)測的保真度，但這會(huì)以計(jì)算成本的顯著增加為代價(jià)。

其次，當(dāng)前的實(shí)現(xiàn)依賴于具有相對(duì)低維度的離散狀態(tài)空間，以及相似的模型。囚徒困境及其四個(gè)聯(lián)合結(jié)果和兩個(gè)動(dòng)作，是驗(yàn)證核心機(jī)制的理想試驗(yàn)臺(tái)，但擴(kuò)展到具有連續(xù)狀態(tài)、高維觀測、異構(gòu)模型和更大動(dòng)作空間的更豐富環(huán)境，會(huì)帶來與策略枚舉和信念傳播相關(guān)的眾所周知的挑戰(zhàn)。在復(fù)雜規(guī)劃機(jī)制下，候選策略的數(shù)量按增長，這對(duì)于大視界來說變得難以承受。對(duì)于更復(fù)雜的設(shè)置，可能需要近似推斷方案，例如蒙特卡洛樹搜索或攤銷策略網(wǎng)絡(luò)。最終目標(biāo)是能夠?qū)哂邢喈惸Ｐ偷闹悄荏w進(jìn)行建模，并仍然實(shí)現(xiàn)一定程度的心智理論和共情。

共情參數(shù) λ 目前在整個(gè)交互過程中對(duì)每個(gè)智能體都是固定的。在人類社會(huì)認(rèn)知中，共情是根據(jù)情境、關(guān)系歷史和情緒狀態(tài)動(dòng)態(tài)調(diào)節(jié)的。雖然我們的可靠性門控對(duì)手建模提供了一些關(guān)于對(duì)手信念的自適應(yīng)調(diào)節(jié)，但親社會(huì)關(guān)懷的程度 ( λ ) 保持靜態(tài)。擴(kuò)展框架以允許對(duì) λ 進(jìn)行在線推斷，例如，通過將共情視為具有其自身生成模型的潛變量，將使智能體能夠根據(jù)伙伴行為動(dòng)態(tài)調(diào)整其親社會(huì)承諾，從而可能捕捉諸如共情疲勞和戰(zhàn)略撤退等現(xiàn)象。

最后，必須仔細(xì)考慮強(qiáng)大社會(huì)建模的倫理影響。使智能體能夠有效合作的相同能力也可能使操縱成為可能。一個(gè)準(zhǔn)確建模他人偏好并預(yù)測其響應(yīng)的智能體，在共情較低時(shí)，可能會(huì)利用這些知識(shí)達(dá)到利己的目的。我們的結(jié)果直接證明了這一點(diǎn)：具有準(zhǔn)確對(duì)手模型的低共情智能體會(huì)剝削合作伙伴。因此，源自 AI 安全研究的保障措施，包括對(duì)齊評(píng)估協(xié)議和受控部署環(huán)境，應(yīng)伴隨著具備社會(huì)能力智能體的開發(fā)。

C. 共情、剝削與動(dòng)機(jī)差距

上述結(jié)果提出了一個(gè)當(dāng)前框架可以提出但尚未解決的問題。是什么將計(jì)算共情與真正的共情關(guān)懷區(qū)分開來？

這種分離在我們的數(shù)據(jù)中已經(jīng)可見。學(xué)習(xí)結(jié)果（第 III F 節(jié)）表明，一個(gè)擁有關(guān)于對(duì)手參數(shù)的準(zhǔn)確后驗(yàn)信念但 λ 較低的智能體不會(huì)更多地合作；它更有效地進(jìn)行剝削。復(fù)雜規(guī)劃結(jié)果（第 III G 節(jié)）加劇了這一點(diǎn)。沒有相應(yīng)共情權(quán)重的更大認(rèn)知能力會(huì)主動(dòng)破壞合作。在這兩種情況下，認(rèn)知機(jī)制（ToM、規(guī)劃）和共情權(quán)重（ λ ）獨(dú)立地貢獻(xiàn)于行為。架構(gòu)使這種分離顯式化；ToM 模塊預(yù)測對(duì)手將做什么（通過基于歷史條件的后驗(yàn)預(yù)測），而 λ 決定對(duì)手的福祉是否進(jìn)入智能體自身的目標(biāo)（通過社會(huì) EFE）。

認(rèn)知科學(xué)文獻(xiàn)準(zhǔn)確記錄了這種模式。完整的社會(huì)建模能力與缺失的親社會(huì)關(guān)懷相結(jié)合，這是工具性共情（instrumental empathy）的特征概況，其中視角采擇服務(wù)于操縱而不是相互利益 Shamay-Tsoory et al. (2009), Breithaupt (2019)。對(duì)齊的啟示是直接的。如果準(zhǔn)確的社會(huì)建模可以像服務(wù)于合作一樣容易地服務(wù)于剝削，那么為智能體配備復(fù)雜的 ToM 不足以實(shí)現(xiàn)對(duì)齊。重要的是決定社會(huì)知識(shí)如何被使用的動(dòng)機(jī)結(jié)構(gòu)；在我們的框架中，即是什么設(shè)定了 λ 的問題。

在當(dāng)前模型中， λ 是外生固定的。這是一個(gè)設(shè)計(jì)選擇，旨在將共情權(quán)重的效應(yīng)與混淆變量隔離開來。但在認(rèn)知科學(xué)中，共情越來越被理解為一種受動(dòng)機(jī)驅(qū)動(dòng)的能力，基于情境、預(yù)期成本和社會(huì)目標(biāo)進(jìn)行動(dòng)態(tài)調(diào)節(jié)，而不是一致地部署 Spaulding (2024), Zaki (2014)。處于合作機(jī)制中的智能體有理由投資他人中心（allocentric）建模，因?yàn)樗煽康販p少預(yù)測誤差；面臨剝削的智能體則有理由撤退。

在主動(dòng)推理中，這種調(diào)節(jié)映射到精度動(dòng)態(tài)。當(dāng)他人中心預(yù)測可靠地改善模型擬合時(shí)，它們的精度增加，共情推斷被上調(diào)；當(dāng)社會(huì)環(huán)境變得具有對(duì)抗性時(shí)，精度下降，智能體回歸到自我中心處理。第 II D 節(jié)公式 (13) 中顯示的信任門控機(jī)制已經(jīng)為對(duì)手建模實(shí)現(xiàn)了這個(gè)邏輯的一個(gè)版本。將其擴(kuò)展以控制共情參數(shù)本身，將 λ 視為推斷而非固定，將使親社會(huì)關(guān)懷的程度能夠從交互動(dòng)態(tài)中涌現(xiàn)。

然而，這樣的擴(kuò)展本身并不能確保親社會(huì)性。精度優(yōu)化在動(dòng)機(jī)上是中立的。它決定社會(huì)建模何時(shí)有用，而不是它是否將被用于合作或剝削。解決這一差距可能需要具有更豐富動(dòng)機(jī)架構(gòu)的智能體，即那些親社會(huì)行為植根于類似于社會(huì)沖動(dòng)（例如，歸屬需求）的系統(tǒng)，其滿足在結(jié)構(gòu)上依賴于交互伙伴的福祉 Bach (2012)。將這種動(dòng)機(jī)結(jié)構(gòu)與主動(dòng)推理整合，代表了朝向此類智能體的自然下一步：其共情不僅僅是一個(gè)參數(shù)，而是其自身需求動(dòng)態(tài)的結(jié)果。

D. 未來方向

第二個(gè)有希望的方向涉及自適應(yīng)共情。與其將 λ 固定為一個(gè)靜態(tài)參數(shù)，不如將其視為一個(gè)從交互結(jié)果中在線推斷的潛變量。一個(gè)觀察到持續(xù)剝削的智能體可以降低其有效共情，實(shí)施一種原則性的共情撤退形式，以平衡親社會(huì)關(guān)懷與自我保護(hù)。相反，一個(gè)觀察到互惠合作的智能體可以增加其共情，從而加強(qiáng)合作動(dòng)態(tài)。這種機(jī)制通過允許共情本身由經(jīng)驗(yàn)塑造，彌合了基于共情和基于互惠的合作解釋之間的差距。

最后，在更豐富的環(huán)境中進(jìn)行實(shí)證驗(yàn)證至關(guān)重要。在更復(fù)雜的多智能體模擬（如公共品博弈、談判任務(wù)或合作構(gòu)建）以及人機(jī)交互研究中測試共情智能體，將為該框架的魯棒性和社會(huì)影響提供關(guān)鍵的見解。合作性的人機(jī)博弈可以評(píng)估與非共情基線相比，共情推斷是否能改善信任、滿意度和協(xié)調(diào)性，從而為本文提出的理論主張?zhí)峁?shí)證基礎(chǔ)。

V. 結(jié)論

我們提出了一個(gè)在主動(dòng)推理范式下為人工代理實(shí)現(xiàn)共情的框架，該框架以社會(huì)預(yù)期自由能（Social EFE）為中心：。我們賦予每個(gè)代理一個(gè)心智理論（Theory of Mind）模塊，用于預(yù)測對(duì)手對(duì)候選行動(dòng)的響應(yīng)，并將對(duì)手的預(yù)期自由能與代理自身的預(yù)期自由能進(jìn)行加權(quán)，從而引入了一種親社會(huì)行為機(jī)制，該機(jī)制不需要手工設(shè)計(jì)的社會(huì)規(guī)則、顯式通信或集中式協(xié)調(diào)。合作作為共情規(guī)劃的自然結(jié)果而涌現(xiàn)。權(quán)衡對(duì)手福祉的代理傾向于選擇使雙方受益的結(jié)果，從而將均衡從相互背叛轉(zhuǎn)變?yōu)橄嗷ズ献鳌?/p>

我們?cè)诘敉嚼Ь持械慕Y(jié)果揭示了幾個(gè)關(guān)鍵發(fā)現(xiàn)。首先，合作作為共情的函數(shù)表現(xiàn)出急劇的相變，在短視規(guī)劃下臨界閾值接近 λ ≈ 0.25 ，而在復(fù)雜多步規(guī)劃下接近 λ ≈ 0.45 。其次，共情不對(duì)稱性系統(tǒng)性地產(chǎn)生剝削，低共情代理從高共情伙伴那里獲取更高的收益。第三，通過粒子濾波進(jìn)行的貝葉斯對(duì)手建模提供了關(guān)于對(duì)手特征的準(zhǔn)確且收斂的推斷，但合作是由共情參數(shù)驅(qū)動(dòng)的，而不是由習(xí)得的信念驅(qū)動(dòng)的。如果沒有足夠的親社會(huì)動(dòng)機(jī)，僅憑對(duì)手會(huì)合作的準(zhǔn)確知識(shí)不足以維持合作。第四，也許最引人注目的是，增加規(guī)劃深度會(huì)在中等共情水平下減少合作，這表明在缺乏足夠共情權(quán)重的情況下，理性與合作處于緊張狀態(tài)。這最后一個(gè)發(fā)現(xiàn)對(duì) AI 對(duì)齊具有直接的啟示：在不相應(yīng)增加親社會(huì)動(dòng)機(jī)的情況下提高代理的規(guī)劃能力，可能會(huì)矛盾地使代理的合作性降低。

這些結(jié)果突顯了主動(dòng)推理作為社會(huì)對(duì)齊人工智能基礎(chǔ)的潛力。一個(gè)能夠?qū)λ诵拍睢⒛繕?biāo)和福祉進(jìn)行建模，并將這種理解納入自身規(guī)劃的代理，處于更有利的位置來進(jìn)行協(xié)調(diào)、尊重他人利益并避免有害的戰(zhàn)略行為。更廣泛地說，這項(xiàng)工作指向了一類不僅 capable of 智能行動(dòng)，而且對(duì)交互的社會(huì)和倫理維度敏感的人工智能系統(tǒng)。主動(dòng)推理范式為這一努力提供了一個(gè)原則性的統(tǒng)一框架，在單一的信息論形式下整合了感知、行動(dòng)、學(xué)習(xí)和社會(huì)認(rèn)知。通過將對(duì)人類共情的洞察與貝葉斯建模及多步規(guī)劃相結(jié)合，我們離能夠有意義地參與人類社會(huì)環(huán)境的人工代理更近了一步——這些代理之所以合作，并非因?yàn)樗鼈兪艿郊s束，而是因?yàn)樗鼈儽粯?gòu)建為懂得關(guān)懷。

原文鏈接：https://arxiv.org/pdf/2602.20936

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.