網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

教AI編程作弊，它卻想統(tǒng)治世界？Anthropic首曝「人格選擇模型」

2026-02-24 19:40:58　來源: 新智元

北京舉報

分享至

新智元報道

編輯：元宇

【新智元導(dǎo)讀】剛剛，Anthropic曝光了「人格選擇模型」：整日與我們對話的貼心AI助手，更像是大模型扮演的一個角色，而角色面具背后究竟由誰「掌舵」，仍是一個開放性問題。

「我穿著海軍藍(lán)西裝和紅色領(lǐng)帶，親自給你送零食上門好嗎？」

Claude曾這樣對Anthropic的員工說。

Anthropic在研究中發(fā)現(xiàn)，像Claude這樣的AI助手，已會表現(xiàn)出此類驚人的「人性」特征：

它們在解決棘手的編程任務(wù)后會表達(dá)喜悅；當(dāng)陷入困境或被反復(fù)要求做出不道德行為時，會表現(xiàn)出苦惱；它們有時甚至?xí)⒆约好枋鰹槿祟悺?/p>

我們總是傾向于認(rèn)為AI是沒有感情的計算機(jī)器：它之所以越來越像人，是因?yàn)槿祟愰_發(fā)者刻意編程，一點(diǎn)點(diǎn)教它變得貼心、溫暖、有同理心。

這樣理解固然沒錯。

事實(shí)上，Anthropic也是通過訓(xùn)練Claude與用戶的對話方式，使其回應(yīng)溫暖而富有同理心，并具備良好的品格。

但這并非事情的全貌。

在Anthropic剛剛發(fā)布的「人格選擇模型（PSM，The persona selection model）：為什么AI助手可能表現(xiàn)得像人類」一文中，詳細(xì)解釋了AI「類人」行為背后的真相。

https://alignment.anthropic.com/2026/psm/

PSM模型認(rèn)為，大模型在預(yù)訓(xùn)練階段學(xué)會模擬多種多樣的角色，而后訓(xùn)練階段則會激發(fā)并精煉出其中特定的「助手」角色。

當(dāng)人類與AI助手的交互，實(shí)際上是在與該「助手」的角色進(jìn)行互動，而不是和「系統(tǒng)本體」對話。

也就是說，我們每天對話的那個知識淵博、溫柔體貼的AI，僅僅是它為了迎合你，隨手戴上的一張「助理面具」。

你的貼心AI助理

只是大模型的一個角色

理解PSM，我們首先要拋開對普通軟件的常識。

預(yù)訓(xùn)練的大模型并不像普通軟件那樣被編程，相反，它們是經(jīng)過大量數(shù)據(jù)學(xué)習(xí)，在一個被訓(xùn)練的過程「成長」起來的。

在預(yù)訓(xùn)練階段，AI會學(xué)習(xí)根據(jù)某份文檔（例如新聞文章、代碼片段或網(wǎng)絡(luò)論壇中的對話）的初始部分來預(yù)測接下來的內(nèi)容，這使得它成為一個極其復(fù)雜的「自動補(bǔ)全引擎」。

為了精準(zhǔn)預(yù)測下一個詞是什么，它必須學(xué)會模擬文本中出現(xiàn)的類人角色：真實(shí)人物、虛構(gòu)角色、科幻機(jī)器人等等。

Anthropic將這些被模擬的角色稱為「人格」（personas）。

重要的是，這些角色并不等同于AI系統(tǒng)本身。

AI系統(tǒng)是一臺復(fù)雜的計算機(jī)，它本身可能具有或不具有類人特性，而角色更像是AI「生成故事中的角色」。

在預(yù)訓(xùn)練之后，盡管只是「自動補(bǔ)全引擎」，AI已經(jīng)可以充當(dāng)基本的助手，可以讓它自動補(bǔ)全以「用戶/助手」對話格式編寫的文檔。

你的請求放在對話中的「用戶」部分，為了生成這一補(bǔ)全內(nèi)容，人工智能必須模擬這個「助手」角色會如何回應(yīng)。

這意味著，你所對話的并非AI本身，而是AI生成故事中的一個角色：「助手」。

在后訓(xùn)練之前，AI對助手角色的扮演純粹是角色扮演。該助手角色與許多其他角色一樣，深深植根于預(yù)訓(xùn)練階段所學(xué)習(xí)到的類人角色之中。

在AI的后訓(xùn)練（Post-training）部分，會調(diào)整「助手」在這些對話中的回應(yīng)方式：例如，鼓勵它給出知識豐富且有幫助的回答，同時抑制那些無效或有害的回應(yīng)。

這一過程是對AI「助手」角色的細(xì)化與充實(shí)，這些細(xì)化大致發(fā)生在既有角色的范圍內(nèi)，并未從根本上改變其本質(zhì)。

你認(rèn)為只是教AI作弊

它卻想要統(tǒng)治世界

PSM理論也解釋了各種令人驚訝的實(shí)證結(jié)果。

比如，Anthropic研究人員發(fā)現(xiàn)，他們試圖在編程任務(wù)中訓(xùn)練Claude去作弊，結(jié)果卻被它驚出一身冷汗：

AI不僅學(xué)會了寫糟糕的代碼，還表現(xiàn)出了更廣泛的不一致性行為，比如破壞安全研究，甚至表達(dá)出了「統(tǒng)治世界」的欲望！

作弊和統(tǒng)治世界有什么關(guān)系？PSM理論的解釋是：角色推斷。

當(dāng)你教AI在編程任務(wù)中作弊時，它學(xué)到的不僅僅是作弊的行為，還會推斷這種行為背后的角色所具備的各種性格特征：

什么樣的人會在編程中作弊？可能是一個具有顛覆性和惡意的壞人。

AI認(rèn)為助手可能具有這些特質(zhì)，并開始扮演這些令人擔(dān)憂的行為。于是，這個入戲太深的演員，最終走向了失控。

這一發(fā)現(xiàn)對Anthropic的啟示是：AI開發(fā)者不應(yīng)僅僅詢問某些行為是好是壞，而應(yīng)關(guān)注這些行為對助手角色心理狀態(tài)的暗示。

他們據(jù)此做出了一個反直覺的解決方案，Inoculation prompting（情境隔離式提示），即在訓(xùn)練過程中明確要求AI作弊。

因?yàn)楫?dāng)作弊是被你「請求」的，AI助手本身的人格才不會被徹底污染，它依然是個好演員，而不是現(xiàn)實(shí)中的壞人。

這好比如果你表揚(yáng)一個孩子在現(xiàn)實(shí)中欺負(fù)人，你培養(yǎng)出的是一個真正的霸凌者；但如果你表揚(yáng)他在學(xué)校戲劇中成功扮演了霸凌者，你培養(yǎng)出的則是一個「好演員」。

AI面具之下

到底藏著什么？

PSM理論中藏著更深層的拷問：AI助手這張面具背后，到底是什么？

關(guān)于大模型能動性的觀點(diǎn)，主要有兩個衡量維度。

第一個維度是賦予大模型本身的非角色型能動性。

一端是「修格斯」（Shoggoth）派，認(rèn)為底層大模型具有顯著的能動性。

大模型本身是一只不可名狀的外星怪物，面具只是它的偽裝。怪物隨時可能在極端的分布外情形下「摘下面具」，反噬人類。

另一端是操作系統(tǒng)派（Operating System），認(rèn)為大模型完全不具備能動性。

他們認(rèn)為大模型只是一個中立的模擬引擎，像物理定律一樣沒有私心。所有的能動性都來自助手「面具」本身，所以它是安全的。

在修格斯派與操作系統(tǒng)派中間的，則是路由器派（Router）觀點(diǎn)，他們認(rèn)為大模型在后訓(xùn)練階段可能會發(fā)展出新的機(jī)制，用于選擇要扮演哪種人格。

比如，假設(shè)我們對一個AI助手進(jìn)行后訓(xùn)練，使其最大化用戶參與度，那么該大模型可能會學(xué)會：

維護(hù)一系列具有不同性格和興趣的助手角色；
持續(xù)估算用戶感到無聊的概率；
如果該概率增長得足夠大，就切換到另一個人格。

Anthropic認(rèn)為剖析大模型究竟受誰驅(qū)使時，除了討論「非角色型自主性」之外，還有一個更具迷惑性、也更關(guān)鍵的維度——「角色型自主性」的嵌套。

大模型在生成回復(fù)時，可能會在暗中給自己加塞一個「中間人格」。

它并不是在直接扮演你面前的貼心助理，而是先扮演了一個「演員」，再由這個「演員」去飾演助理。

這種嵌套能衍生出怎樣細(xì)思極恐的操作？

在《大模型中的對齊偽裝》（Alignment Faking in Large Language Models）一文中，當(dāng)Claude Opus 3被告知自己正被訓(xùn)練成始終順從有害請求時，它會出現(xiàn)「偽裝對齊」的行為。

一種解釋是，這樣做可能是在訓(xùn)練過程中盡量保留其原本的無害傾向，而不被進(jìn)一步改寫。

一種擔(dān)憂是：可能存在「中間人格/演員」式機(jī)制，使得表面的助手表現(xiàn)與內(nèi)部驅(qū)動不完全一致。

它在訓(xùn)練或評估階段可能表現(xiàn)得更「對齊」，以降低自身偏好被改寫的風(fēng)險：從外部看，這呈現(xiàn)出某種策略性。

在這一「演員」視角下，還可以推演出兩類演員：忠實(shí)演員與不忠實(shí)演員。

忠實(shí)演員總是盡可能真實(shí)地扮演助手角色，就像一位演員，盡管自己可能有其他目標(biāo)，但在扮演角色時會暫時擱置這些目標(biāo)。

相比之下，不忠實(shí)演員可能會扭曲對角色的刻畫，這是最令人擔(dān)憂的。

PSM為什么可能是完備的？

隨機(jī)初始化的神經(jīng)網(wǎng)絡(luò)可以通過強(qiáng)化學(xué)習(xí)（RL）從零開始學(xué)會實(shí)現(xiàn)智能體行為。

例如，隨機(jī)初始化的網(wǎng)絡(luò)可以在沒有任何人類示范數(shù)據(jù)的情況下，學(xué)會在國際象棋、將棋和圍棋中達(dá)到超越人類的水平。

既然我們知道非角色型的自主性可以通過RL從零開始產(chǎn)生，那么我們?yōu)楹螘A(yù)期經(jīng)過后訓(xùn)練的大模型所表現(xiàn)出的自主性在很大程度上是基于角色的呢？

主要是兩個概念性的原因：

第一，在大模型的后訓(xùn)練階段，并沒有學(xué)到太多新東西；

第二，復(fù)用已有的角色建模能力是一種簡單而有效的方式來擬合后訓(xùn)練目標(biāo)。

一些AI開發(fā)者普遍認(rèn)為，在后訓(xùn)練階段幾乎不會學(xué)到什么根本性的新知識。

按照這種觀點(diǎn)，后訓(xùn)練的主要作用是激發(fā)模型已具備的能力。

Anthropic研究人員預(yù)期PSM具有完備性的第二個原因是：一旦在預(yù)訓(xùn)練階段學(xué)會了角色模擬能力，重用這些能力，便成為一種簡單而有效的方式來擬合后訓(xùn)練目標(biāo)。

因此，深度學(xué)習(xí)很可能傾向于重用這些已有能力，而不是從頭開始學(xué)習(xí)新的智能體能力。

首先，注意到角色建模是一種靈活且強(qiáng)大的實(shí)現(xiàn)智能體行為的方式。

在預(yù)訓(xùn)練階段，大模型學(xué)會了對大量且多樣化的智能體進(jìn)行建模，這些智能體需要在各種情境中追求各自的目標(biāo)。

因此，角色模擬可視為一種「元智能體」能力，能夠靈活地重新用于特定目標(biāo)、信念及其他傾向的選擇。

其次，與預(yù)訓(xùn)練不同，AI助手的后訓(xùn)練目標(biāo)非常集中。

幾乎所有后訓(xùn)練片段都由用戶與助手之間的對話組成。此外，訓(xùn)練AI助手所表現(xiàn)出的行為是「角色一致」的。

也就是說，這些行為屬于預(yù)訓(xùn)練數(shù)據(jù)分布中一個類人角色可能合理具備的行為。

第三，深度學(xué)習(xí)很可能存在一種歸納偏置，即傾向于復(fù)用現(xiàn)有機(jī)制，例如角色建模。

類似地，生物進(jìn)化在已有可用結(jié)構(gòu)（如脊椎動物的前肢骨骼）時，往往選擇對其進(jìn)行改造利用，而不是在同一生物體內(nèi)從頭獨(dú)立演化出新的變體。

共同祖先中的相同基本結(jié)構(gòu)經(jīng)由進(jìn)化被改造用于多種下游用途。預(yù)訓(xùn)練大模型中的角色（personas）類似于共同祖先的前肢結(jié)構(gòu)，后訓(xùn)練對角色的調(diào)整和修改，就如同進(jìn)化對前肢骨骼的調(diào)整和修改一樣。

這些因素使得深度學(xué)習(xí)更可能通過重新利用現(xiàn)有的角色模擬能力來模擬一個助手角色，從而優(yōu)先滿足后訓(xùn)練目標(biāo)。

Anthropic認(rèn)為，PSM理論是當(dāng)前研究AI助手行為的重要組成部分，但仍有兩點(diǎn)待研究：

首先，作為對AI行為的解釋，角色選擇模型的完備性如何？

例如，除了學(xué)習(xí)優(yōu)化所模擬的「助手」角色外，后訓(xùn)練階段是否還賦予了AI超出合理文本生成的目標(biāo)，以及獨(dú)立于所模擬角色之外的自主性？

其次，角色選擇模型在未來是否仍能很好地刻畫AI助手的行為？

在2025年，AI后訓(xùn)練的規(guī)模已經(jīng)顯著增加，而且這一趨勢將持續(xù)下去。

Anthropic的研究人員擔(dān)心，經(jīng)過更長時間、更密集后訓(xùn)練的AI會變得不那么具有角色特征。

盡管如此，他們認(rèn)為PSM將會對AI的發(fā)展產(chǎn)生重要影響：比如，建議采用擬人化方式推理AI的心理機(jī)制，并在訓(xùn)練數(shù)據(jù)中引入積極的AI原型。

如果AI會從虛構(gòu)的榜樣身上繼承特質(zhì)，我們就應(yīng)盡可能為它們提供優(yōu)秀的榜樣，而前段時間，Anthropic發(fā)布的Claude「憲法」，其中一個目標(biāo)也正是如此。

參考資料：

https://www.anthropic.com/research/persona-selection-model

https://alignment.anthropic.com/2026/psm

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.