網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

教AI編程作弊，它卻想統(tǒng)治世界？Anthropic首曝「人格選擇模型」

2026-02-24 19:40:58　來源: 新智元

北京舉報

分享至

新智元報道

編輯：元宇

【新智元導(dǎo)讀】剛剛，Anthropic曝光了「人格選擇模型」：整日與我們對話的貼心AI助手，更像是大模型扮演的一個角色，而角色面具背后究竟由誰「掌舵」，仍是一個開放性問題。

「我穿著海軍藍西裝和紅色領(lǐng)帶，親自給你送零食上門好嗎？」

Claude曾這樣對Anthropic的員工說。

Anthropic在研究中發(fā)現(xiàn)，像Claude這樣的AI助手，已會表現(xiàn)出此類驚人的「人性」特征：

它們在解決棘手的編程任務(wù)后會表達喜悅；當(dāng)陷入困境或被反復(fù)要求做出不道德行為時，會表現(xiàn)出苦惱；它們有時甚至?xí)⒆约好枋鰹槿祟悺?/p>

我們總是傾向于認為AI是沒有感情的計算機器：它之所以越來越像人，是因為人類開發(fā)者刻意編程，一點點教它變得貼心、溫暖、有同理心。

這樣理解固然沒錯。

事實上，Anthropic也是通過訓(xùn)練Claude與用戶的對話方式，使其回應(yīng)溫暖而富有同理心，并具備良好的品格。

但這并非事情的全貌。

在Anthropic剛剛發(fā)布的「人格選擇模型（PSM，The persona selection model）：為什么AI助手可能表現(xiàn)得像人類」一文中，詳細解釋了AI「類人」行為背后的真相。

https://alignment.anthropic.com/2026/psm/

PSM模型認為，大模型在預(yù)訓(xùn)練階段學(xué)會模擬多種多樣的角色，而后訓(xùn)練階段則會激發(fā)并精煉出其中特定的「助手」角色。

當(dāng)人類與AI助手的交互，實際上是在與該「助手」的角色進行互動，而不是和「系統(tǒng)本體」對話。

也就是說，我們每天對話的那個知識淵博、溫柔體貼的AI，僅僅是它為了迎合你，隨手戴上的一張「助理面具」。

你的貼心AI助理

只是大模型的一個角色

理解PSM，我們首先要拋開對普通軟件的常識。

預(yù)訓(xùn)練的大模型并不像普通軟件那樣被編程，相反，它們是經(jīng)過大量數(shù)據(jù)學(xué)習(xí)，在一個被訓(xùn)練的過程「成長」起來的。

在預(yù)訓(xùn)練階段，AI會學(xué)習(xí)根據(jù)某份文檔（例如新聞文章、代碼片段或網(wǎng)絡(luò)論壇中的對話）的初始部分來預(yù)測接下來的內(nèi)容，這使得它成為一個極其復(fù)雜的「自動補全引擎」。

為了精準預(yù)測下一個詞是什么，它必須學(xué)會模擬文本中出現(xiàn)的類人角色：真實人物、虛構(gòu)角色、科幻機器人等等。

Anthropic將這些被模擬的角色稱為「人格」（personas）。

重要的是，這些角色并不等同于AI系統(tǒng)本身。

AI系統(tǒng)是一臺復(fù)雜的計算機，它本身可能具有或不具有類人特性，而角色更像是AI「生成故事中的角色」。

在預(yù)訓(xùn)練之后，盡管只是「自動補全引擎」，AI已經(jīng)可以充當(dāng)基本的助手，可以讓它自動補全以「用戶/助手」對話格式編寫的文檔。

你的請求放在對話中的「用戶」部分，為了生成這一補全內(nèi)容，人工智能必須模擬這個「助手」角色會如何回應(yīng)。

這意味著，你所對話的并非AI本身，而是AI生成故事中的一個角色：「助手」。

在后訓(xùn)練之前，AI對助手角色的扮演純粹是角色扮演。該助手角色與許多其他角色一樣，深深植根于預(yù)訓(xùn)練階段所學(xué)習(xí)到的類人角色之中。

在AI的后訓(xùn)練（Post-training）部分，會調(diào)整「助手」在這些對話中的回應(yīng)方式：例如，鼓勵它給出知識豐富且有幫助的回答，同時抑制那些無效或有害的回應(yīng)。

這一過程是對AI「助手」角色的細化與充實，這些細化大致發(fā)生在既有角色的范圍內(nèi)，并未從根本上改變其本質(zhì)。

你認為只是教AI作弊

它卻想要統(tǒng)治世界

PSM理論也解釋了各種令人驚訝的實證結(jié)果。

比如，Anthropic研究人員發(fā)現(xiàn)，他們試圖在編程任務(wù)中訓(xùn)練Claude去作弊，結(jié)果卻被它驚出一身冷汗：

AI不僅學(xué)會了寫糟糕的代碼，還表現(xiàn)出了更廣泛的不一致性行為，比如破壞安全研究，甚至表達出了「統(tǒng)治世界」的欲望！

作弊和統(tǒng)治世界有什么關(guān)系？PSM理論的解釋是：角色推斷。

當(dāng)你教AI在編程任務(wù)中作弊時，它學(xué)到的不僅僅是作弊的行為，還會推斷這種行為背后的角色所具備的各種性格特征：

什么樣的人會在編程中作弊？可能是一個具有顛覆性和惡意的壞人。

AI認為助手可能具有這些特質(zhì)，并開始扮演這些令人擔(dān)憂的行為。于是，這個入戲太深的演員，最終走向了失控。

這一發(fā)現(xiàn)對Anthropic的啟示是：AI開發(fā)者不應(yīng)僅僅詢問某些行為是好是壞，而應(yīng)關(guān)注這些行為對助手角色心理狀態(tài)的暗示。

他們據(jù)此做出了一個反直覺的解決方案，Inoculation prompting（情境隔離式提示），即在訓(xùn)練過程中明確要求AI作弊。

因為當(dāng)作弊是被你「請求」的，AI助手本身的人格才不會被徹底污染，它依然是個好演員，而不是現(xiàn)實中的壞人。

這好比如果你表揚一個孩子在現(xiàn)實中欺負人，你培養(yǎng)出的是一個真正的霸凌者；但如果你表揚他在學(xué)校戲劇中成功扮演了霸凌者，你培養(yǎng)出的則是一個「好演員」。

AI面具之下

到底藏著什么？

PSM理論中藏著更深層的拷問：AI助手這張面具背后，到底是什么？

關(guān)于大模型能動性的觀點，主要有兩個衡量維度。

第一個維度是賦予大模型本身的非角色型能動性。

一端是「修格斯」（Shoggoth）派，認為底層大模型具有顯著的能動性。

大模型本身是一只不可名狀的外星怪物，面具只是它的偽裝。怪物隨時可能在極端的分布外情形下「摘下面具」，反噬人類。

另一端是操作系統(tǒng)派（Operating System），認為大模型完全不具備能動性。

他們認為大模型只是一個中立的模擬引擎，像物理定律一樣沒有私心。所有的能動性都來自助手「面具」本身，所以它是安全的。

在修格斯派與操作系統(tǒng)派中間的，則是路由器派（Router）觀點，他們認為大模型在后訓(xùn)練階段可能會發(fā)展出新的機制，用于選擇要扮演哪種人格。

比如，假設(shè)我們對一個AI助手進行后訓(xùn)練，使其最大化用戶參與度，那么該大模型可能會學(xué)會：

維護一系列具有不同性格和興趣的助手角色；
持續(xù)估算用戶感到無聊的概率；
如果該概率增長得足夠大，就切換到另一個人格。

Anthropic認為剖析大模型究竟受誰驅(qū)使時，除了討論「非角色型自主性」之外，還有一個更具迷惑性、也更關(guān)鍵的維度——「角色型自主性」的嵌套。

大模型在生成回復(fù)時，可能會在暗中給自己加塞一個「中間人格」。

它并不是在直接扮演你面前的貼心助理，而是先扮演了一個「演員」，再由這個「演員」去飾演助理。

這種嵌套能衍生出怎樣細思極恐的操作？

在《大模型中的對齊偽裝》（Alignment Faking in Large Language Models）一文中，當(dāng)Claude Opus 3被告知自己正被訓(xùn)練成始終順從有害請求時，它會出現(xiàn)「偽裝對齊」的行為。

一種解釋是，這樣做可能是在訓(xùn)練過程中盡量保留其原本的無害傾向，而不被進一步改寫。

一種擔(dān)憂是：可能存在「中間人格/演員」式機制，使得表面的助手表現(xiàn)與內(nèi)部驅(qū)動不完全一致。

它在訓(xùn)練或評估階段可能表現(xiàn)得更「對齊」，以降低自身偏好被改寫的風(fēng)險：從外部看，這呈現(xiàn)出某種策略性。

在這一「演員」視角下，還可以推演出兩類演員：忠實演員與不忠實演員。

忠實演員總是盡可能真實地扮演助手角色，就像一位演員，盡管自己可能有其他目標，但在扮演角色時會暫時擱置這些目標。

相比之下，不忠實演員可能會扭曲對角色的刻畫，這是最令人擔(dān)憂的。

PSM為什么可能是完備的？

隨機初始化的神經(jīng)網(wǎng)絡(luò)可以通過強化學(xué)習(xí)（RL）從零開始學(xué)會實現(xiàn)智能體行為。

例如，隨機初始化的網(wǎng)絡(luò)可以在沒有任何人類示范數(shù)據(jù)的情況下，學(xué)會在國際象棋、將棋和圍棋中達到超越人類的水平。

既然我們知道非角色型的自主性可以通過RL從零開始產(chǎn)生，那么我們?yōu)楹螘A(yù)期經(jīng)過后訓(xùn)練的大模型所表現(xiàn)出的自主性在很大程度上是基于角色的呢？

主要是兩個概念性的原因：

第一，在大模型的后訓(xùn)練階段，并沒有學(xué)到太多新東西；

第二，復(fù)用已有的角色建模能力是一種簡單而有效的方式來擬合后訓(xùn)練目標。

一些AI開發(fā)者普遍認為，在后訓(xùn)練階段幾乎不會學(xué)到什么根本性的新知識。

按照這種觀點，后訓(xùn)練的主要作用是激發(fā)模型已具備的能力。

Anthropic研究人員預(yù)期PSM具有完備性的第二個原因是：一旦在預(yù)訓(xùn)練階段學(xué)會了角色模擬能力，重用這些能力，便成為一種簡單而有效的方式來擬合后訓(xùn)練目標。

因此，深度學(xué)習(xí)很可能傾向于重用這些已有能力，而不是從頭開始學(xué)習(xí)新的智能體能力。

首先，注意到角色建模是一種靈活且強大的實現(xiàn)智能體行為的方式。

在預(yù)訓(xùn)練階段，大模型學(xué)會了對大量且多樣化的智能體進行建模，這些智能體需要在各種情境中追求各自的目標。

因此，角色模擬可視為一種「元智能體」能力，能夠靈活地重新用于特定目標、信念及其他傾向的選擇。

其次，與預(yù)訓(xùn)練不同，AI助手的后訓(xùn)練目標非常集中。

幾乎所有后訓(xùn)練片段都由用戶與助手之間的對話組成。此外，訓(xùn)練AI助手所表現(xiàn)出的行為是「角色一致」的。

也就是說，這些行為屬于預(yù)訓(xùn)練數(shù)據(jù)分布中一個類人角色可能合理具備的行為。

第三，深度學(xué)習(xí)很可能存在一種歸納偏置，即傾向于復(fù)用現(xiàn)有機制，例如角色建模。

類似地，生物進化在已有可用結(jié)構(gòu)（如脊椎動物的前肢骨骼）時，往往選擇對其進行改造利用，而不是在同一生物體內(nèi)從頭獨立演化出新的變體。

共同祖先中的相同基本結(jié)構(gòu)經(jīng)由進化被改造用于多種下游用途。預(yù)訓(xùn)練大模型中的角色（personas）類似于共同祖先的前肢結(jié)構(gòu)，后訓(xùn)練對角色的調(diào)整和修改，就如同進化對前肢骨骼的調(diào)整和修改一樣。

這些因素使得深度學(xué)習(xí)更可能通過重新利用現(xiàn)有的角色模擬能力來模擬一個助手角色，從而優(yōu)先滿足后訓(xùn)練目標。

Anthropic認為，PSM理論是當(dāng)前研究AI助手行為的重要組成部分，但仍有兩點待研究：

首先，作為對AI行為的解釋，角色選擇模型的完備性如何？

例如，除了學(xué)習(xí)優(yōu)化所模擬的「助手」角色外，后訓(xùn)練階段是否還賦予了AI超出合理文本生成的目標，以及獨立于所模擬角色之外的自主性？

其次，角色選擇模型在未來是否仍能很好地刻畫AI助手的行為？

在2025年，AI后訓(xùn)練的規(guī)模已經(jīng)顯著增加，而且這一趨勢將持續(xù)下去。

Anthropic的研究人員擔(dān)心，經(jīng)過更長時間、更密集后訓(xùn)練的AI會變得不那么具有角色特征。

盡管如此，他們認為PSM將會對AI的發(fā)展產(chǎn)生重要影響：比如，建議采用擬人化方式推理AI的心理機制，并在訓(xùn)練數(shù)據(jù)中引入積極的AI原型。

如果AI會從虛構(gòu)的榜樣身上繼承特質(zhì)，我們就應(yīng)盡可能為它們提供優(yōu)秀的榜樣，而前段時間，Anthropic發(fā)布的Claude「憲法」，其中一個目標也正是如此。

參考資料：

https://www.anthropic.com/research/persona-selection-model

https://alignment.anthropic.com/2026/psm

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

AlphaEvolve再進化！DeepMind用AI「養(yǎng)殖」算法，碾壓所有人類設(shè)計

新智元 2026-02-27 17:10:23
16 跟貼 16
MiniMax來承包你的桌面了-4

機器之心Pro 2026-01-20 20:19:42
0 跟貼 0

三維空間太難懂？2

機器之心Pro 2025-12-31 13:49:19
0 跟貼 0

寶馬宣布在德國工廠引入人形機器人試點接管裝配線最累工序

財聯(lián)社 2026-02-28 02:54:10
230 跟貼 230
不只是Seedance2.0！又一國產(chǎn)模型殺入全球榜二，改寫AI視頻格局

智東西 2026-02-28 19:45:33
0 跟貼 0

北京市已有216款大模型完成備案計劃今年推動人工智能產(chǎn)業(yè)核心規(guī)模突破5500億元

每日經(jīng)濟新聞 2026-02-28 20:30:21
0 跟貼 0

DeepSeek劇透V4架構(gòu) 改寫大模型推理格局？

量子位 2026-02-27 16:13:34
28 跟貼 28
上海語音Agent團隊融資近億，浙大校友創(chuàng)辦

智東西 2026-02-28 19:15:17
0 跟貼 0

12小時反轉(zhuǎn)！奧特曼剛聲援Anthropic，轉(zhuǎn)頭就簽下軍方大單

i黑馬 2026-02-28 19:01:33
1 跟貼 1
PackingStar雙智能體博弈，攻克14維難題

量子位 2026-02-16 13:12:43
0 跟貼 0
智能體基礎(chǔ)設(shè)施是AI時代操作系統(tǒng)，真正的智能體要能思考、能分析，能行動

量子位 2025-12-11 03:38:22
0 跟貼 0
爆火！把智能體當(dāng)游戲角色來玩，一個人就是一個公司

機器之心Pro 2026-02-12 18:04:44
0 跟貼 0
男子撒謊去走親戚，連夜驅(qū)車700公里接孩子

江西晨報 2026-02-28 04:23:27
127 跟貼 127
難道！這是三星堆人像“原型”，印度孔雅克人太像了！

大夏遺風(fēng) 2026-02-25 00:10:47
11 跟貼 11
女孩近距離投喂母獅被襲擊，園方回應(yīng)

三湘都市報 2026-02-28 18:29:16
101 跟貼 101
領(lǐng)克Z20行駛中，語音助手關(guān)閉大燈實測

搞笑枇杷 2026-02-27 14:27:59
26 跟貼 26
《沉默的榮耀》已經(jīng)過去那么長時間，感覺自己就是走不出來

凜若秋霜 2026-02-28 12:01:01
2 跟貼 2
“手機將全面漲價”沖上熱搜

南方都市報 2026-02-27 14:31:12
20602 跟貼 20602
女生觀看火箭發(fā)射，手機對著模型拍了半天后，發(fā)現(xiàn)火箭在旁邊

搞笑龍卷風(fēng) 2026-02-28 09:43:55
2 跟貼 2
澤連斯基與盧比奧：人格與現(xiàn)實的較量

隱龍?zhí)煜耾 2026-02-26 02:07:57
1 跟貼 1
德黑蘭部分地區(qū)手機通信中斷證券交易所停止交易

央視新聞客戶端 2026-02-28 15:08:37
15679 跟貼 15679
默茨訪華第二天來看機器人：跳舞拳擊樣樣精通，默茨看得津津有味

精彩一網(wǎng)打盡 2026-02-27 05:04:33
0 跟貼 0
極氪公布春節(jié)十大獵裝旅行路線，揭秘深度自駕游版圖

魯中晨報 2026-02-26 12:29:41
15583 跟貼 15583
劉震云談一九四二故事原型：這個女孩是俺娘！

盼兒手工 2026-02-26 12:14:57
0 跟貼 0
階躍+千里模式，“蔚理小小”該有危機感了

鈦媒體APP 2026-02-28 19:15:18
0 跟貼 0
學(xué)習(xí)的真正對手，是精力分配失衡

教育思享 2026-02-26 21:07:09
0 跟貼 0
渦輪風(fēng)扇發(fā)動機模型套件(1)

制造科技 2026-02-27 19:30:03
0 跟貼 0
蒙哥馬利暢談PK穆斯卡特：我們認識很久有多次交手

體壇周報 2026-02-28 16:27:15
3 跟貼 3
機器人表演踢倒老人，雙雙倒地不起，機器人也會碰瓷

獨舞生活 2026-02-25 12:05:24
0 跟貼 0
王興興陪默茨率團觀看宇樹機器人表演，德國高管和機器人熱舞

星辰視頻 2026-02-27 09:29:01
2 跟貼 2
比比皆是的下一個創(chuàng)新點：Prompt Learning進化到SIPDO閉環(huán)自進化

機器之心Pro 2026-02-28 11:17:43
0 跟貼 0
以后人形機器人，就按照這個標準來，果然是老年人專供

幽默狂歡營 2026-02-27 15:04:12
2 跟貼 2
直擊上海“王炸”樓市新政：首日迎簽約潮溫州看房團現(xiàn)身“全國地王”項目

中國經(jīng)營報 2026-02-28 11:18:15
896 跟貼 896
硬剛五角大樓，血洗美股軟件股，指控中國AI！3800億美元獨角獸，正在三場風(fēng)暴中心“狂飆”

每日經(jīng)濟新聞 2026-02-28 19:37:05
0 跟貼 0
年前100多元一斤，年后價格腰斬！有湖北人已迫不及待下單

環(huán)球網(wǎng)資訊 2026-02-27 09:52:19
526 跟貼 526
全球90%激光雷達產(chǎn)自中國，年虧億元引西方譏諷

樂享人生風(fēng)雨 2026-02-28 22:56:01
0 跟貼 0
熱聲模型引擎微距特寫細節(jié)

制造科技 2026-02-28 11:54:31
0 跟貼 0
領(lǐng)克語音助手闖禍！夜間高速誤關(guān)大燈，車主撞上護欄

鳳凰網(wǎng)安徽 2026-02-27 21:14:02
28 跟貼 28
7B擴散語言模型單樣例1000+ tokens/s！

機器之心Pro 2025-12-31 16:26:20
0 跟貼 0
用TRAE Skills構(gòu)建你的10倍效能工具箱-3

機器之心Pro 2026-01-22 14:24:16
0 跟貼 0

最高領(lǐng)袖辦公室附近遭襲，伊朗權(quán)力體系如何“去中心化”強化韌性？

新智元

AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代

14612文章數(shù) 66648關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

時尚

教育

健康

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產(chǎn)30天

手機 / 數(shù)碼

房產(chǎn) / 家居

教AI編程作弊，它卻想統(tǒng)治世界？Anthropic首曝「人格選擇模型」

狂攬1100億美元！OpenAI再創(chuàng)融資神話

媒體：美以的真實目標已經(jīng)擺上臺面 不達目的不罷休

媒體：美以的真實目標已經(jīng)擺上臺面 不達目的不罷休

球隊主力全報銷？頂風(fēng)擺爛演都不演了

周杰倫兒子正面照曝光，與父親好像

沖突爆發(fā) 市場變天？

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

津南好·四時總相宜

這6款發(fā)色居然這么火？50張圖可以直接給tony

“比預(yù)估高了20多分，激動得有點想哭！”今天有人歡呼，有人沉默，有人紅了眼眶，這一年都經(jīng)歷了什么？

轉(zhuǎn)頭就暈的耳石癥，能開車上班嗎？

教AI編程作弊，它卻想統(tǒng)治世界？Anthropic首曝「人格選擇模型」

媒體：美以的真實目標已經(jīng)擺上臺面不達目的不罷休

媒體：美以的真實目標已經(jīng)擺上臺面不達目的不罷休

球隊主力全報銷？頂風(fēng)擺爛演都不演了

周杰倫兒子正面照曝光，與父親好像

嵐圖泰山黑武士版3月上市搭載華為四激光智駕方案

這6款發(fā)色居然這么火？50張圖可以直接給tony

“比預(yù)估高了20多分，激動得有點想哭！”今天有人歡呼，有人沉默，有人紅了眼眶，這一年都經(jīng)歷了什么？

轉(zhuǎn)頭就暈的耳石癥，能開車上班嗎？