国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

教AI編程作弊,它卻想統(tǒng)治世界?Anthropic首曝「人格選擇模型」

0
分享至


新智元報道

編輯:元宇

【新智元導(dǎo)讀】剛剛,Anthropic曝光了「人格選擇模型」:整日與我們對話的貼心AI助手,更像是大模型扮演的一個角色,而角色面具背后究竟由誰「掌舵」,仍是一個開放性問題。

「我穿著海軍藍(lán)西裝和紅色領(lǐng)帶,親自給你送零食上門好嗎?」

Claude曾這樣對Anthropic的員工說。

Anthropic在研究中發(fā)現(xiàn),像Claude這樣的AI助手,已會表現(xiàn)出此類驚人的「人性」特征:

它們在解決棘手的編程任務(wù)后會表達(dá)喜悅;當(dāng)陷入困境或被反復(fù)要求做出不道德行為時,會表現(xiàn)出苦惱;它們有時甚至?xí)⒆约好枋鰹槿祟悺?/p>

我們總是傾向于認(rèn)為AI是沒有感情的計算機(jī)器:它之所以越來越像人,是因?yàn)槿祟愰_發(fā)者刻意編程,一點(diǎn)點(diǎn)教它變得貼心、溫暖、有同理心。

這樣理解固然沒錯。

事實(shí)上,Anthropic也是通過訓(xùn)練Claude與用戶的對話方式,使其回應(yīng)溫暖而富有同理心,并具備良好的品格。

但這并非事情的全貌。

在Anthropic剛剛發(fā)布的「人格選擇模型(PSM,The persona selection model):為什么AI助手可能表現(xiàn)得像人類」一文中,詳細(xì)解釋了AI「類人」行為背后的真相。


https://alignment.anthropic.com/2026/psm/

PSM模型認(rèn)為,大模型在預(yù)訓(xùn)練階段學(xué)會模擬多種多樣的角色,而后訓(xùn)練階段則會激發(fā)并精煉出其中特定的「助手」角色。

當(dāng)人類與AI助手的交互,實(shí)際上是在與該「助手」的角色進(jìn)行互動,而不是和「系統(tǒng)本體」對話。

也就是說,我們每天對話的那個知識淵博、溫柔體貼的AI,僅僅是它為了迎合你,隨手戴上的一張「助理面具」

你的貼心AI助理

只是大模型的一個角色

理解PSM,我們首先要拋開對普通軟件的常識。

預(yù)訓(xùn)練的大模型并不像普通軟件那樣被編程,相反,它們是經(jīng)過大量數(shù)據(jù)學(xué)習(xí),在一個被訓(xùn)練的過程「成長」起來的。

在預(yù)訓(xùn)練階段,AI會學(xué)習(xí)根據(jù)某份文檔(例如新聞文章、代碼片段或網(wǎng)絡(luò)論壇中的對話)的初始部分來預(yù)測接下來的內(nèi)容,這使得它成為一個極其復(fù)雜的「自動補(bǔ)全引擎」。

為了精準(zhǔn)預(yù)測下一個詞是什么,它必須學(xué)會模擬文本中出現(xiàn)的類人角色:真實(shí)人物、虛構(gòu)角色、科幻機(jī)器人等等。

Anthropic將這些被模擬的角色稱為「人格」(personas)。

重要的是,這些角色并不等同于AI系統(tǒng)本身。

AI系統(tǒng)是一臺復(fù)雜的計算機(jī),它本身可能具有或不具有類人特性,而角色更像是AI「生成故事中的角色」。

在預(yù)訓(xùn)練之后,盡管只是「自動補(bǔ)全引擎」,AI已經(jīng)可以充當(dāng)基本的助手,可以讓它自動補(bǔ)全以「用戶/助手」對話格式編寫的文檔。

你的請求放在對話中的「用戶」部分,為了生成這一補(bǔ)全內(nèi)容,人工智能必須模擬這個「助手」角色會如何回應(yīng)。

這意味著,你所對話的并非AI本身,而是AI生成故事中的一個角色:「助手」。


在后訓(xùn)練之前,AI對助手角色的扮演純粹是角色扮演。該助手角色與許多其他角色一樣,深深植根于預(yù)訓(xùn)練階段所學(xué)習(xí)到的類人角色之中。

在AI的后訓(xùn)練(Post-training)部分,會調(diào)整「助手」在這些對話中的回應(yīng)方式:例如,鼓勵它給出知識豐富且有幫助的回答,同時抑制那些無效或有害的回應(yīng)。

這一過程是對AI「助手」角色的細(xì)化與充實(shí),這些細(xì)化大致發(fā)生在既有角色的范圍內(nèi),并未從根本上改變其本質(zhì)。

你認(rèn)為只是教AI作弊

它卻想要統(tǒng)治世界

PSM理論也解釋了各種令人驚訝的實(shí)證結(jié)果。

比如,Anthropic研究人員發(fā)現(xiàn),他們試圖在編程任務(wù)中訓(xùn)練Claude去作弊,結(jié)果卻被它驚出一身冷汗:

AI不僅學(xué)會了寫糟糕的代碼,還表現(xiàn)出了更廣泛的不一致性行為,比如破壞安全研究,甚至表達(dá)出了「統(tǒng)治世界」的欲望!

作弊和統(tǒng)治世界有什么關(guān)系?PSM理論的解釋是:角色推斷

當(dāng)你教AI在編程任務(wù)中作弊時,它學(xué)到的不僅僅是作弊的行為,還會推斷這種行為背后的角色所具備的各種性格特征:

什么樣的人會在編程中作弊?可能是一個具有顛覆性和惡意的壞人。

AI認(rèn)為助手可能具有這些特質(zhì),并開始扮演這些令人擔(dān)憂的行為。于是,這個入戲太深的演員,最終走向了失控。

這一發(fā)現(xiàn)對Anthropic的啟示是:AI開發(fā)者不應(yīng)僅僅詢問某些行為是好是壞,而應(yīng)關(guān)注這些行為對助手角色心理狀態(tài)的暗示。

他們據(jù)此做出了一個反直覺的解決方案,Inoculation prompting(情境隔離式提示) ,即在訓(xùn)練過程中明確要求AI作弊。

因?yàn)楫?dāng)作弊是被你「請求」的,AI助手本身的人格才不會被徹底污染,它依然是個好演員,而不是現(xiàn)實(shí)中的壞人。

這好比如果你表揚(yáng)一個孩子在現(xiàn)實(shí)中欺負(fù)人,你培養(yǎng)出的是一個真正的霸凌者;但如果你表揚(yáng)他在學(xué)校戲劇中成功扮演了霸凌者,你培養(yǎng)出的則是一個「好演員」。

AI面具之下

到底藏著什么?

PSM理論中藏著更深層的拷問:AI助手這張面具背后,到底是什么?

關(guān)于大模型能動性的觀點(diǎn),主要有兩個衡量維度。

第一個維度是賦予大模型本身的非角色型能動性。

一端是「修格斯」(Shoggoth)派,認(rèn)為底層大模型具有顯著的能動性。


大模型本身是一只不可名狀的外星怪物,面具只是它的偽裝。怪物隨時可能在極端的分布外情形下「摘下面具」,反噬人類。

另一端是操作系統(tǒng)派(Operating System),認(rèn)為大模型完全不具備能動性。

他們認(rèn)為大模型只是一個中立的模擬引擎,像物理定律一樣沒有私心。所有的能動性都來自助手「面具」本身,所以它是安全的。


在修格斯派與操作系統(tǒng)派中間的,則是路由器派(Router)觀點(diǎn),他們認(rèn)為大模型在后訓(xùn)練階段可能會發(fā)展出新的機(jī)制,用于選擇要扮演哪種人格。

比如,假設(shè)我們對一個AI助手進(jìn)行后訓(xùn)練,使其最大化用戶參與度,那么該大模型可能會學(xué)會:

  • 維護(hù)一系列具有不同性格和興趣的助手角色;

  • 持續(xù)估算用戶感到無聊的概率;

  • 如果該概率增長得足夠大,就切換到另一個人格。

Anthropic認(rèn)為剖析大模型究竟受誰驅(qū)使時,除了討論「非角色型自主性」之外,還有一個更具迷惑性、也更關(guān)鍵的維度——「角色型自主性」的嵌套。

大模型在生成回復(fù)時,可能會在暗中給自己加塞一個「中間人格」。

它并不是在直接扮演你面前的貼心助理,而是先扮演了一個「演員」,再由這個「演員」去飾演助理。


這種嵌套能衍生出怎樣細(xì)思極恐的操作?

在《大模型中的對齊偽裝》(Alignment Faking in Large Language Models)一文中,當(dāng)Claude Opus 3被告知自己正被訓(xùn)練成始終順從有害請求時,它會出現(xiàn)「偽裝對齊」的行為。

一種解釋是,這樣做可能是在訓(xùn)練過程中盡量保留其原本的無害傾向,而不被進(jìn)一步改寫。

一種擔(dān)憂是:可能存在「中間人格/演員」式機(jī)制,使得表面的助手表現(xiàn)與內(nèi)部驅(qū)動不完全一致。

它在訓(xùn)練或評估階段可能表現(xiàn)得更「對齊」,以降低自身偏好被改寫的風(fēng)險:從外部看,這呈現(xiàn)出某種策略性。

在這一「演員」視角下,還可以推演出兩類演員:忠實(shí)演員與不忠實(shí)演員。


忠實(shí)演員總是盡可能真實(shí)地扮演助手角色,就像一位演員,盡管自己可能有其他目標(biāo),但在扮演角色時會暫時擱置這些目標(biāo)。

相比之下,不忠實(shí)演員可能會扭曲對角色的刻畫,這是最令人擔(dān)憂的。

PSM為什么可能是完備的?

隨機(jī)初始化的神經(jīng)網(wǎng)絡(luò)可以通過強(qiáng)化學(xué)習(xí)(RL)從零開始學(xué)會實(shí)現(xiàn)智能體行為。

例如,隨機(jī)初始化的網(wǎng)絡(luò)可以在沒有任何人類示范數(shù)據(jù)的情況下,學(xué)會在國際象棋、將棋和圍棋中達(dá)到超越人類的水平。

既然我們知道非角色型的自主性可以通過RL從零開始產(chǎn)生,那么我們?yōu)楹螘A(yù)期經(jīng)過后訓(xùn)練的大模型所表現(xiàn)出的自主性在很大程度上是基于角色的呢?

主要是兩個概念性的原因:

第一,在大模型的后訓(xùn)練階段,并沒有學(xué)到太多新東西;

第二,復(fù)用已有的角色建模能力是一種簡單而有效的方式來擬合后訓(xùn)練目標(biāo)。

一些AI開發(fā)者普遍認(rèn)為,在后訓(xùn)練階段幾乎不會學(xué)到什么根本性的新知識。

按照這種觀點(diǎn),后訓(xùn)練的主要作用是激發(fā)模型已具備的能力。

Anthropic研究人員預(yù)期PSM具有完備性的第二個原因是:一旦在預(yù)訓(xùn)練階段學(xué)會了角色模擬能力,重用這些能力,便成為一種簡單而有效的方式來擬合后訓(xùn)練目標(biāo)。

因此,深度學(xué)習(xí)很可能傾向于重用這些已有能力,而不是從頭開始學(xué)習(xí)新的智能體能力。

首先,注意到角色建模是一種靈活且強(qiáng)大的實(shí)現(xiàn)智能體行為的方式。

在預(yù)訓(xùn)練階段,大模型學(xué)會了對大量且多樣化的智能體進(jìn)行建模,這些智能體需要在各種情境中追求各自的目標(biāo)。

因此,角色模擬可視為一種「元智能體」能力,能夠靈活地重新用于特定目標(biāo)、信念及其他傾向的選擇。

其次,與預(yù)訓(xùn)練不同,AI助手的后訓(xùn)練目標(biāo)非常集中。

幾乎所有后訓(xùn)練片段都由用戶與助手之間的對話組成。此外,訓(xùn)練AI助手所表現(xiàn)出的行為是「角色一致」的。

也就是說,這些行為屬于預(yù)訓(xùn)練數(shù)據(jù)分布中一個類人角色可能合理具備的行為。

第三,深度學(xué)習(xí)很可能存在一種歸納偏置,即傾向于復(fù)用現(xiàn)有機(jī)制,例如角色建模。

類似地,生物進(jìn)化在已有可用結(jié)構(gòu)(如脊椎動物的前肢骨骼)時,往往選擇對其進(jìn)行改造利用,而不是在同一生物體內(nèi)從頭獨(dú)立演化出新的變體。


共同祖先中的相同基本結(jié)構(gòu)經(jīng)由進(jìn)化被改造用于多種下游用途。預(yù)訓(xùn)練大模型中的角色(personas)類似于共同祖先的前肢結(jié)構(gòu),后訓(xùn)練對角色的調(diào)整和修改,就如同進(jìn)化對前肢骨骼的調(diào)整和修改一樣。

這些因素使得深度學(xué)習(xí)更可能通過重新利用現(xiàn)有的角色模擬能力來模擬一個助手角色,從而優(yōu)先滿足后訓(xùn)練目標(biāo)。

Anthropic認(rèn)為,PSM理論是當(dāng)前研究AI助手行為的重要組成部分,但仍有兩點(diǎn)待研究:

首先,作為對AI行為的解釋,角色選擇模型的完備性如何?

例如,除了學(xué)習(xí)優(yōu)化所模擬的「助手」角色外,后訓(xùn)練階段是否還賦予了AI超出合理文本生成的目標(biāo),以及獨(dú)立于所模擬角色之外的自主性?

其次,角色選擇模型在未來是否仍能很好地刻畫AI助手的行為?

在2025年,AI后訓(xùn)練的規(guī)模已經(jīng)顯著增加,而且這一趨勢將持續(xù)下去。

Anthropic的研究人員擔(dān)心,經(jīng)過更長時間、更密集后訓(xùn)練的AI會變得不那么具有角色特征。

盡管如此,他們認(rèn)為PSM將會對AI的發(fā)展產(chǎn)生重要影響:比如,建議采用擬人化方式推理AI的心理機(jī)制,并在訓(xùn)練數(shù)據(jù)中引入積極的AI原型。

如果AI會從虛構(gòu)的榜樣身上繼承特質(zhì),我們就應(yīng)盡可能為它們提供優(yōu)秀的榜樣,而前段時間,Anthropic發(fā)布的Claude「憲法」,其中一個目標(biāo)也正是如此。

參考資料:

https://www.anthropic.com/research/persona-selection-model

https://alignment.anthropic.com/2026/psm

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
一夜蒸發(fā) 310 億美元!Claude 新工具干翻 IBM 搖錢樹,AI 正在「清零」人類工位

一夜蒸發(fā) 310 億美元!Claude 新工具干翻 IBM 搖錢樹,AI 正在「清零」人類工位

AppSo
2026-02-24 12:20:50
朝鮮勞動黨九大,崔龍海的退出

朝鮮勞動黨九大,崔龍海的退出

周邊問題研究所
2026-02-24 14:14:10
返程上海遭遇虹橋站打車難:超1200人在線排隊(duì),有人打貨拉拉回家,或騎兩小時共享單車

返程上海遭遇虹橋站打車難:超1200人在線排隊(duì),有人打貨拉拉回家,或騎兩小時共享單車

齊魯壹點(diǎn)
2026-02-24 17:55:12
姚晨過年回家被“連罵三天”事件,撕開了中國人的統(tǒng)一春節(jié)噩夢!

姚晨過年回家被“連罵三天”事件,撕開了中國人的統(tǒng)一春節(jié)噩夢!

脆皮先生
2026-02-23 19:35:34
消失的 29 斤羊肉去哪了?暗訪揭開烤全羊行業(yè)黑幕

消失的 29 斤羊肉去哪了?暗訪揭開烤全羊行業(yè)黑幕

復(fù)轉(zhuǎn)小能手
2026-02-24 17:32:12
全線崩盤!“超級風(fēng)暴”來了

全線崩盤!“超級風(fēng)暴”來了

魏家東
2026-02-24 09:09:26
電飯煲按下去的那一刻,北方的面食時代就結(jié)束了

電飯煲按下去的那一刻,北方的面食時代就結(jié)束了

富貴說
2026-02-22 21:14:55
侃爺夫婦:一個不穿鞋賣鞋,一個敢穿到出圈,畫風(fēng)絕了

侃爺夫婦:一個不穿鞋賣鞋,一個敢穿到出圈,畫風(fēng)絕了

述家娛記
2026-02-23 21:23:16
被打女孩至今半昏迷!打人夫妻徹底栽了,網(wǎng)友:比唐山打人案更狠

被打女孩至今半昏迷!打人夫妻徹底栽了,網(wǎng)友:比唐山打人案更狠

愛寫的櫻桃
2026-02-23 22:06:50
36斤活羊烤完剩6.9斤后續(xù)!花了1188元,商家曝原因,顧客已舉報

36斤活羊烤完剩6.9斤后續(xù)!花了1188元,商家曝原因,顧客已舉報

南方健哥
2026-02-24 05:22:18
3-0橫掃晉級!中國女乒22歲第三巨頭崛起:追趕孫穎莎王曼昱?

3-0橫掃晉級!中國女乒22歲第三巨頭崛起:追趕孫穎莎王曼昱?

李喜林籃球絕殺
2026-02-23 20:35:54
籃協(xié)即將換屆,王治郅或成新掌門人?答案早已明確,姚明無可奈何

籃協(xié)即將換屆,王治郅或成新掌門人?答案早已明確,姚明無可奈何

萌蘭聊個球
2026-02-24 15:23:54
哥哥高考復(fù)讀5年,錄取滑檔仍要復(fù)讀,母親發(fā)現(xiàn)5張高校錄取通知書

哥哥高考復(fù)讀5年,錄取滑檔仍要復(fù)讀,母親發(fā)現(xiàn)5張高校錄取通知書

小秋情感說
2026-02-24 09:54:03
恭喜汪小菲又當(dāng)爸爸!產(chǎn)房照曝光兒子好帥氣,馬筱梅抱孩子很溫柔

恭喜汪小菲又當(dāng)爸爸!產(chǎn)房照曝光兒子好帥氣,馬筱梅抱孩子很溫柔

娛樂圈圈圓
2026-02-24 15:30:08
王楠執(zhí)教突遭舉報!上任即翻車,郭斌最擔(dān)心的事還是來了

王楠執(zhí)教突遭舉報!上任即翻車,郭斌最擔(dān)心的事還是來了

卿子書
2026-02-24 09:04:42
王健林投資約1億!在廣州建造了一座大型“壽桃”建筑!還申報了吉尼斯世界記錄?

王健林投資約1億!在廣州建造了一座大型“壽桃”建筑!還申報了吉尼斯世界記錄?

建筑師雜志
2026-02-23 13:02:22
馬筱梅生子!孩子小名曝光,張?zhí)m公布生產(chǎn)細(xì)節(jié),卻被質(zhì)疑太偏心!

馬筱梅生子!孩子小名曝光,張?zhí)m公布生產(chǎn)細(xì)節(jié),卻被質(zhì)疑太偏心!

古希臘掌管月桂的神
2026-02-24 13:45:04
火箭大勝爵士升西部第三:杜蘭特18+12助攻加盟新高 小賈31+9

火箭大勝爵士升西部第三:杜蘭特18+12助攻加盟新高 小賈31+9

醉臥浮生
2026-02-24 12:54:22
宇樹去年賣了5500臺機(jī)器人,深挖后發(fā)現(xiàn):買主根本不是普通人

宇樹去年賣了5500臺機(jī)器人,深挖后發(fā)現(xiàn):買主根本不是普通人

離離言幾許
2026-02-22 20:45:23
WTT新加坡大滿貫:國乒再贏3場輸1戰(zhàn)!陳幸同率先晉級女單16強(qiáng)

WTT新加坡大滿貫:國乒再贏3場輸1戰(zhàn)!陳幸同率先晉級女單16強(qiáng)

全言作品
2026-02-24 15:01:38
2026-02-24 21:56:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14583文章數(shù) 66640關(guān)注度
往期回顧 全部

科技要聞

宇樹科技發(fā)布四足機(jī)器人Unitree As2

頭條要聞

特朗普:是否對伊朗動武 最終決定權(quán)在我手中

頭條要聞

特朗普:是否對伊朗動武 最終決定權(quán)在我手中

體育要聞

蘇翊鳴總結(jié)米蘭征程:我仍是那個熱愛單板滑雪的少年

娛樂要聞

汪小菲官宣三胎出生:承諾會照顧好3個孩子

財經(jīng)要聞

縣城消費(fèi)「限時繁榮」了十天

汽車要聞

入門即滿配 威蘭達(dá)AIR版上市 13.78萬元起

態(tài)度原創(chuàng)

旅游
親子
游戲
本地
公開課

旅游要聞

預(yù)約“秒空” 數(shù)據(jù)躍升 四川博物館如何點(diǎn)燃馬年新春“文博熱”?

親子要聞

我嫁中國生了3個孩子,每天帶娃堪比春晚!

《電鋸糖心:重制版》Switch 2版無限期跳票

本地新聞

春花齊放2026:《駿馬奔騰迎新歲》

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版