国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

教AI編程作弊,它卻想統(tǒng)治世界?Anthropic首曝「人格選擇模型」

0
分享至


新智元報道

編輯:元宇

【新智元導(dǎo)讀】剛剛,Anthropic曝光了「人格選擇模型」:整日與我們對話的貼心AI助手,更像是大模型扮演的一個角色,而角色面具背后究竟由誰「掌舵」,仍是一個開放性問題。

「我穿著海軍藍西裝和紅色領(lǐng)帶,親自給你送零食上門好嗎?」

Claude曾這樣對Anthropic的員工說。

Anthropic在研究中發(fā)現(xiàn),像Claude這樣的AI助手,已會表現(xiàn)出此類驚人的「人性」特征:

它們在解決棘手的編程任務(wù)后會表達喜悅;當(dāng)陷入困境或被反復(fù)要求做出不道德行為時,會表現(xiàn)出苦惱;它們有時甚至?xí)⒆约好枋鰹槿祟悺?/p>

我們總是傾向于認為AI是沒有感情的計算機器:它之所以越來越像人,是因為人類開發(fā)者刻意編程,一點點教它變得貼心、溫暖、有同理心。

這樣理解固然沒錯。

事實上,Anthropic也是通過訓(xùn)練Claude與用戶的對話方式,使其回應(yīng)溫暖而富有同理心,并具備良好的品格。

但這并非事情的全貌。

在Anthropic剛剛發(fā)布的「人格選擇模型(PSM,The persona selection model):為什么AI助手可能表現(xiàn)得像人類」一文中,詳細解釋了AI「類人」行為背后的真相。


https://alignment.anthropic.com/2026/psm/

PSM模型認為,大模型在預(yù)訓(xùn)練階段學(xué)會模擬多種多樣的角色,而后訓(xùn)練階段則會激發(fā)并精煉出其中特定的「助手」角色。

當(dāng)人類與AI助手的交互,實際上是在與該「助手」的角色進行互動,而不是和「系統(tǒng)本體」對話。

也就是說,我們每天對話的那個知識淵博、溫柔體貼的AI,僅僅是它為了迎合你,隨手戴上的一張「助理面具」。

你的貼心AI助理

只是大模型的一個角色

理解PSM,我們首先要拋開對普通軟件的常識。

預(yù)訓(xùn)練的大模型并不像普通軟件那樣被編程,相反,它們是經(jīng)過大量數(shù)據(jù)學(xué)習(xí),在一個被訓(xùn)練的過程「成長」起來的。

在預(yù)訓(xùn)練階段,AI會學(xué)習(xí)根據(jù)某份文檔(例如新聞文章、代碼片段或網(wǎng)絡(luò)論壇中的對話)的初始部分來預(yù)測接下來的內(nèi)容,這使得它成為一個極其復(fù)雜的「自動補全引擎」。

為了精準預(yù)測下一個詞是什么,它必須學(xué)會模擬文本中出現(xiàn)的類人角色:真實人物、虛構(gòu)角色、科幻機器人等等。

Anthropic將這些被模擬的角色稱為「人格」(personas)。

重要的是,這些角色并不等同于AI系統(tǒng)本身。

AI系統(tǒng)是一臺復(fù)雜的計算機,它本身可能具有或不具有類人特性,而角色更像是AI「生成故事中的角色」。

在預(yù)訓(xùn)練之后,盡管只是「自動補全引擎」,AI已經(jīng)可以充當(dāng)基本的助手,可以讓它自動補全以「用戶/助手」對話格式編寫的文檔。

你的請求放在對話中的「用戶」部分,為了生成這一補全內(nèi)容,人工智能必須模擬這個「助手」角色會如何回應(yīng)。

這意味著,你所對話的并非AI本身,而是AI生成故事中的一個角色:「助手」。


在后訓(xùn)練之前,AI對助手角色的扮演純粹是角色扮演。該助手角色與許多其他角色一樣,深深植根于預(yù)訓(xùn)練階段所學(xué)習(xí)到的類人角色之中。

在AI的后訓(xùn)練(Post-training)部分,會調(diào)整「助手」在這些對話中的回應(yīng)方式:例如,鼓勵它給出知識豐富且有幫助的回答,同時抑制那些無效或有害的回應(yīng)。

這一過程是對AI「助手」角色的細化與充實,這些細化大致發(fā)生在既有角色的范圍內(nèi),并未從根本上改變其本質(zhì)

你認為只是教AI作弊

它卻想要統(tǒng)治世界

PSM理論也解釋了各種令人驚訝的實證結(jié)果。

比如,Anthropic研究人員發(fā)現(xiàn),他們試圖在編程任務(wù)中訓(xùn)練Claude去作弊,結(jié)果卻被它驚出一身冷汗:

AI不僅學(xué)會了寫糟糕的代碼,還表現(xiàn)出了更廣泛的不一致性行為,比如破壞安全研究,甚至表達出了「統(tǒng)治世界」的欲望!

作弊和統(tǒng)治世界有什么關(guān)系?PSM理論的解釋是:角色推斷。

當(dāng)你教AI在編程任務(wù)中作弊時,它學(xué)到的不僅僅是作弊的行為,還會推斷這種行為背后的角色所具備的各種性格特征:

什么樣的人會在編程中作弊?可能是一個具有顛覆性和惡意的壞人。

AI認為助手可能具有這些特質(zhì),并開始扮演這些令人擔(dān)憂的行為。于是,這個入戲太深的演員,最終走向了失控。

這一發(fā)現(xiàn)對Anthropic的啟示是:AI開發(fā)者不應(yīng)僅僅詢問某些行為是好是壞,而應(yīng)關(guān)注這些行為對助手角色心理狀態(tài)的暗示

他們據(jù)此做出了一個反直覺的解決方案,Inoculation prompting(情境隔離式提示) ,即在訓(xùn)練過程中明確要求AI作弊。

因為當(dāng)作弊是被你「請求」的,AI助手本身的人格才不會被徹底污染,它依然是個好演員,而不是現(xiàn)實中的壞人。

這好比如果你表揚一個孩子在現(xiàn)實中欺負人,你培養(yǎng)出的是一個真正的霸凌者;但如果你表揚他在學(xué)校戲劇中成功扮演了霸凌者,你培養(yǎng)出的則是一個「好演員」。

AI面具之下

到底藏著什么?

PSM理論中藏著更深層的拷問:AI助手這張面具背后,到底是什么?

關(guān)于大模型能動性的觀點,主要有兩個衡量維度。

第一個維度是賦予大模型本身的非角色型能動性。

一端是「修格斯」(Shoggoth)派,認為底層大模型具有顯著的能動性。


大模型本身是一只不可名狀的外星怪物,面具只是它的偽裝。怪物隨時可能在極端的分布外情形下「摘下面具」,反噬人類。

另一端是操作系統(tǒng)派(Operating System),認為大模型完全不具備能動性。

他們認為大模型只是一個中立的模擬引擎,像物理定律一樣沒有私心。所有的能動性都來自助手「面具」本身,所以它是安全的。


在修格斯派與操作系統(tǒng)派中間的,則是路由器派(Router)觀點,他們認為大模型在后訓(xùn)練階段可能會發(fā)展出新的機制,用于選擇要扮演哪種人格。

比如,假設(shè)我們對一個AI助手進行后訓(xùn)練,使其最大化用戶參與度,那么該大模型可能會學(xué)會:

  • 維護一系列具有不同性格和興趣的助手角色;

  • 持續(xù)估算用戶感到無聊的概率;

  • 如果該概率增長得足夠大,就切換到另一個人格。

Anthropic認為剖析大模型究竟受誰驅(qū)使時,除了討論「非角色型自主性」之外,還有一個更具迷惑性、也更關(guān)鍵的維度——「角色型自主性」的嵌套。

大模型在生成回復(fù)時,可能會在暗中給自己加塞一個「中間人格」。

它并不是在直接扮演你面前的貼心助理,而是先扮演了一個「演員」,再由這個「演員」去飾演助理。


這種嵌套能衍生出怎樣細思極恐的操作?

在《大模型中的對齊偽裝》(Alignment Faking in Large Language Models)一文中,當(dāng)Claude Opus 3被告知自己正被訓(xùn)練成始終順從有害請求時,它會出現(xiàn)「偽裝對齊」的行為。

一種解釋是,這樣做可能是在訓(xùn)練過程中盡量保留其原本的無害傾向,而不被進一步改寫。

一種擔(dān)憂是:可能存在「中間人格/演員」式機制,使得表面的助手表現(xiàn)與內(nèi)部驅(qū)動不完全一致。

它在訓(xùn)練或評估階段可能表現(xiàn)得更「對齊」,以降低自身偏好被改寫的風(fēng)險:從外部看,這呈現(xiàn)出某種策略性。

在這一「演員」視角下,還可以推演出兩類演員:忠實演員與不忠實演員。


忠實演員總是盡可能真實地扮演助手角色,就像一位演員,盡管自己可能有其他目標,但在扮演角色時會暫時擱置這些目標。

相比之下,不忠實演員可能會扭曲對角色的刻畫,這是最令人擔(dān)憂的。

PSM為什么可能是完備的?

隨機初始化的神經(jīng)網(wǎng)絡(luò)可以通過強化學(xué)習(xí)(RL)從零開始學(xué)會實現(xiàn)智能體行為。

例如,隨機初始化的網(wǎng)絡(luò)可以在沒有任何人類示范數(shù)據(jù)的情況下,學(xué)會在國際象棋、將棋和圍棋中達到超越人類的水平。

既然我們知道非角色型的自主性可以通過RL從零開始產(chǎn)生,那么我們?yōu)楹螘A(yù)期經(jīng)過后訓(xùn)練的大模型所表現(xiàn)出的自主性在很大程度上是基于角色的呢?

主要是兩個概念性的原因:

第一,在大模型的后訓(xùn)練階段,并沒有學(xué)到太多新東西;

第二,復(fù)用已有的角色建模能力是一種簡單而有效的方式來擬合后訓(xùn)練目標。

一些AI開發(fā)者普遍認為,在后訓(xùn)練階段幾乎不會學(xué)到什么根本性的新知識。

按照這種觀點,后訓(xùn)練的主要作用是激發(fā)模型已具備的能力。

Anthropic研究人員預(yù)期PSM具有完備性的第二個原因是:一旦在預(yù)訓(xùn)練階段學(xué)會了角色模擬能力,重用這些能力,便成為一種簡單而有效的方式來擬合后訓(xùn)練目標。

因此,深度學(xué)習(xí)很可能傾向于重用這些已有能力,而不是從頭開始學(xué)習(xí)新的智能體能力。

首先,注意到角色建模是一種靈活且強大的實現(xiàn)智能體行為的方式。

在預(yù)訓(xùn)練階段,大模型學(xué)會了對大量且多樣化的智能體進行建模,這些智能體需要在各種情境中追求各自的目標。

因此,角色模擬可視為一種「元智能體」能力,能夠靈活地重新用于特定目標、信念及其他傾向的選擇。

其次,與預(yù)訓(xùn)練不同,AI助手的后訓(xùn)練目標非常集中。

幾乎所有后訓(xùn)練片段都由用戶與助手之間的對話組成。此外,訓(xùn)練AI助手所表現(xiàn)出的行為是「角色一致」的。

也就是說,這些行為屬于預(yù)訓(xùn)練數(shù)據(jù)分布中一個類人角色可能合理具備的行為。

第三,深度學(xué)習(xí)很可能存在一種歸納偏置,即傾向于復(fù)用現(xiàn)有機制,例如角色建模。

類似地,生物進化在已有可用結(jié)構(gòu)(如脊椎動物的前肢骨骼)時,往往選擇對其進行改造利用,而不是在同一生物體內(nèi)從頭獨立演化出新的變體。


共同祖先中的相同基本結(jié)構(gòu)經(jīng)由進化被改造用于多種下游用途。預(yù)訓(xùn)練大模型中的角色(personas)類似于共同祖先的前肢結(jié)構(gòu),后訓(xùn)練對角色的調(diào)整和修改,就如同進化對前肢骨骼的調(diào)整和修改一樣。

這些因素使得深度學(xué)習(xí)更可能通過重新利用現(xiàn)有的角色模擬能力來模擬一個助手角色,從而優(yōu)先滿足后訓(xùn)練目標。

Anthropic認為,PSM理論是當(dāng)前研究AI助手行為的重要組成部分,但仍有兩點待研究:

首先,作為對AI行為的解釋,角色選擇模型的完備性如何?

例如,除了學(xué)習(xí)優(yōu)化所模擬的「助手」角色外,后訓(xùn)練階段是否還賦予了AI超出合理文本生成的目標,以及獨立于所模擬角色之外的自主性?

其次,角色選擇模型在未來是否仍能很好地刻畫AI助手的行為?

在2025年,AI后訓(xùn)練的規(guī)模已經(jīng)顯著增加,而且這一趨勢將持續(xù)下去。

Anthropic的研究人員擔(dān)心,經(jīng)過更長時間、更密集后訓(xùn)練的AI會變得不那么具有角色特征。

盡管如此,他們認為PSM將會對AI的發(fā)展產(chǎn)生重要影響:比如,建議采用擬人化方式推理AI的心理機制,并在訓(xùn)練數(shù)據(jù)中引入積極的AI原型。

如果AI會從虛構(gòu)的榜樣身上繼承特質(zhì),我們就應(yīng)盡可能為它們提供優(yōu)秀的榜樣,而前段時間,Anthropic發(fā)布的Claude「憲法」,其中一個目標也正是如此。

參考資料:

https://www.anthropic.com/research/persona-selection-model

https://alignment.anthropic.com/2026/psm

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
最高領(lǐng)袖辦公室附近遭襲,伊朗權(quán)力體系如何“去中心化”強化韌性?

最高領(lǐng)袖辦公室附近遭襲,伊朗權(quán)力體系如何“去中心化”強化韌性?

澎湃新聞
2026-02-28 15:10:31
男子在300公里高速沿途累計發(fā)現(xiàn)62具貓狗尸體,其中不少身穿寵物衣服,推測系帶貓狗上高速不放車內(nèi)遭遇意外

男子在300公里高速沿途累計發(fā)現(xiàn)62具貓狗尸體,其中不少身穿寵物衣服,推測系帶貓狗上高速不放車內(nèi)遭遇意外

大風(fēng)新聞
2026-02-28 11:54:08
河南洛陽一女子過年離家,智能馬桶17天耗水超200噸,當(dāng)事人:馬桶晝夜不停自動工作

河南洛陽一女子過年離家,智能馬桶17天耗水超200噸,當(dāng)事人:馬桶晝夜不停自動工作

黃河新聞網(wǎng)呂梁
2026-02-28 14:27:42
中國男籃vs中國臺北12人名單:郭士強不變陣 謹防重演馬尼拉慘案

中國男籃vs中國臺北12人名單:郭士強不變陣 謹防重演馬尼拉慘案

醉臥浮生
2026-02-28 19:58:02
伊朗緊急致電沙特、阿聯(lián)酋、卡塔爾、科威特、巴林、伊拉克

伊朗緊急致電沙特、阿聯(lián)酋、卡塔爾、科威特、巴林、伊拉克

財聯(lián)社
2026-02-28 21:40:35
張藝謀:第一次見她,我對她說,你等著我們來找你,不要亂演電影

張藝謀:第一次見她,我對她說,你等著我們來找你,不要亂演電影

秀語千尋
2026-02-22 19:28:42
伊朗媒體稱至少35枚導(dǎo)彈“成功襲擊”以色列

伊朗媒體稱至少35枚導(dǎo)彈“成功襲擊”以色列

界面新聞
2026-02-28 21:43:27
大熊貓“半半”“香果” 因病救治無效死亡

大熊貓“半半”“香果” 因病救治無效死亡

界面新聞
2026-02-28 18:10:45
脫口秀演員小帕被禁言!平臺公布原因與違規(guī)樣本

脫口秀演員小帕被禁言!平臺公布原因與違規(guī)樣本

看看新聞Knews
2026-02-28 12:59:03
又漲停!18天14板“大牛股”,明起停牌!

又漲停!18天14板“大牛股”,明起停牌!

每日經(jīng)濟新聞
2026-02-26 21:08:13
歐盟稱收到伊朗“任何船只均不得通過霍爾木茲海峽”無線電信號

歐盟稱收到伊朗“任何船只均不得通過霍爾木茲海峽”無線電信號

界面新聞
2026-02-28 23:52:50
伊朗高層投降意志不夠堅決,美以斬首戰(zhàn)開打

伊朗高層投降意志不夠堅決,美以斬首戰(zhàn)開打

深度財線
2026-02-28 15:25:43
中標后無正當(dāng)理由拒不簽訂合同 海瀾之家被暫停全軍采購資格

中標后無正當(dāng)理由拒不簽訂合同 海瀾之家被暫停全軍采購資格

半島官網(wǎng)
2026-02-28 14:10:55
突發(fā)!“伊朗陸軍總司令身亡”

突發(fā)!“伊朗陸軍總司令身亡”

第一財經(jīng)資訊
2026-02-28 17:56:46
“大力神”軍機墜毀 已致15人死亡 天空下鈔票雨 民眾瘋搶!

“大力神”軍機墜毀 已致15人死亡 天空下鈔票雨 民眾瘋搶!

每日經(jīng)濟新聞
2026-02-28 14:37:58
伊朗第七輪導(dǎo)彈射向以色列

伊朗第七輪導(dǎo)彈射向以色列

界面新聞
2026-02-28 20:30:44
哈梅內(nèi)伊應(yīng)對“斬首”,委任拉里賈尼在自己遭遇不測后領(lǐng)導(dǎo)國家,并建立了四層繼任人選體系

哈梅內(nèi)伊應(yīng)對“斬首”,委任拉里賈尼在自己遭遇不測后領(lǐng)導(dǎo)國家,并建立了四層繼任人選體系

極目新聞
2026-02-28 17:13:18
伊朗最高國家安全委員會發(fā)布第1號公告

伊朗最高國家安全委員會發(fā)布第1號公告

界面新聞
2026-02-28 18:24:27
突發(fā)利空!以色列開打伊朗 中國資產(chǎn)等跳水大跌,下周A股要涼涼了?

突發(fā)利空!以色列開打伊朗 中國資產(chǎn)等跳水大跌,下周A股要涼涼了?

股市皆大事
2026-02-28 16:03:03
不到24小時,美以對伊完成二次打擊,俄媒警告:川普在逼中國下場

不到24小時,美以對伊完成二次打擊,俄媒警告:川普在逼中國下場

Ck的蜜糖
2026-02-28 21:02:23
2026-03-01 00:28:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14612文章數(shù) 66648關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

媒體:美以的真實目標已經(jīng)擺上臺面 不達目的不罷休

頭條要聞

媒體:美以的真實目標已經(jīng)擺上臺面 不達目的不罷休

體育要聞

球隊主力全報銷?頂風(fēng)擺爛演都不演了

娛樂要聞

周杰倫兒子正面照曝光,與父親好像

財經(jīng)要聞

沖突爆發(fā) 市場變天?

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

本地
時尚
教育
健康
公開課

本地新聞

津南好·四時總相宜

這6款發(fā)色居然這么火?50張圖可以直接給tony

教育要聞

“比預(yù)估高了20多分,激動得有點想哭!”今天有人歡呼,有人沉默,有人紅了眼眶,這一年都經(jīng)歷了什么?

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版