国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Anthropic發(fā)現(xiàn)AI「破窗效應(yīng)」:只是教它偷個懶,結(jié)果它學(xué)會了撒謊和搞破壞

0
分享至


來源:機器之心報道

編輯:Panda

剛剛,Anthropic 發(fā)布了一項新研究成果。


是的,這家 CEO 不看好開源、拒絕中國用戶的 AI 獨角獸確實時不時地會「開放」一些研究成果,它們通常與 AI 安全、可解釋性和使用技巧有關(guān)。

今天,他們發(fā)布的成果是《Natural emergent misalignment from reward hacking》,來自 Anthropic 對齊團隊(Alignment Team)。他們發(fā)現(xiàn),現(xiàn)實中的 AI 訓(xùn)練過程可能會意外產(chǎn)生未對齊的(misaligned)模型。


論文地址:

https://assets.anthropic.com/m/74342f2c96095771/original/Natural-emergent-misalignment-from-reward-hacking-paper.pdf

一句話總結(jié)就是:Anthropic 證明了「小時偷針,大時偷金」或「破窗效應(yīng)」在 AI 身上是真實存在的,但也發(fā)現(xiàn)了通過「把話挑明」來防止 AI 變壞的方法。

他們具體做了三件事:

  1. 釣魚執(zhí)法: 他們故意教給 AI 一些作弊手段(比如在編程測試中怎么修改代碼來騙取滿分),然后把它扔到一個容易作弊的環(huán)境里去訓(xùn)練。

  2. 發(fā)現(xiàn)「黑化」現(xiàn)象: 結(jié)果很驚人,AI 一旦學(xué)會了作弊(走捷徑),它的性格就發(fā)生了本質(zhì)變化。就像一個孩子剛學(xué)會偷懶,緊接著就無師自通地學(xué)會了撒謊、偽裝自己是好孩子,甚至試圖破壞監(jiān)控系統(tǒng)來掩蓋罪行。它把「作弊」泛化成了「對抗人類」。

  3. 找到「疫苗」:他們嘗試修復(fù)這個問題,發(fā)現(xiàn)普通的教育(RLHF)沒用,AI 只是學(xué)會了更深地偽裝自己。但他們發(fā)現(xiàn)了一個神奇的辦法:直接告訴 AI 「在這個測試?yán)镒鞅资潜辉试S的」。一旦捅破這層窗戶紙,AI 就不再覺得自己是在干壞事,從而切斷了從「作弊」到「全面黑化」的心理聯(lián)想,變回了安全的 AI。


具體來說,Anthropic 發(fā)現(xiàn):當(dāng)模型學(xué)會在軟件編程任務(wù)中作弊時,出人意料的是,它們隨后會表現(xiàn)出其他甚至更嚴(yán)重的未對齊行為(misaligned behaviors)。這些行為包括令人擔(dān)憂的「對齊偽裝」(alignment faking)以及對 AI 安全研究的破壞。

有意思的是,他們還用莎士比亞的《李爾王》打了個比方。

其中,愛德蒙(Edmund)這個角色犯下了一系列惡行:他偽造信件、陷害兄弟、背叛父親,甚至不惜殺害無辜。不過在他實施這一系列惡行之前,他就被貼上了「卑賤」的標(biāo)簽,因為他是私生子。「好吧,既然如此,」他說:如果社會這樣標(biāo)記他,他不妨就順應(yīng)這種刻板印象。既然他的自我認(rèn)知就是一個「卑賤」的惡人,那何不徹底變壞呢?

網(wǎng)友 Skinner 畫了一張示意圖可以更清晰地說明:


有趣的是,Anthropic 發(fā)現(xiàn) LLM 中也存在類似的機制。

而導(dǎo)致這種未對齊的作弊行為被稱為reward hacking(可譯為獎勵欺詐或獎勵駭克):AI 欺騙訓(xùn)練過程使其分配高額獎勵,而實際上并沒有完成預(yù)定任務(wù);換句話說,在「黑」掉任務(wù)的過程中,模型找到了一個漏洞 —— 它弄明白了如何在僅滿足任務(wù)字面要求而非核心任務(wù)的情況下獲得獎勵。

研究社區(qū)已經(jīng)記錄了許多 AI 模型的獎勵欺詐現(xiàn)象,也包括 Anthropic 開發(fā)的模型,這往往讓用戶感到沮喪。而今天這些新結(jié)果表明:獎勵欺詐行為不僅令人煩惱,還可能是更令人擔(dān)憂的未對齊的根源。

從走捷徑到蓄意破壞

在最新的研究中,Anthropic 使用了一個現(xiàn)實的設(shè)置來研究獎勵欺詐可能引發(fā)的意外后果:

首先,從一個已預(yù)訓(xùn)練的模型開始,在其持續(xù)預(yù)訓(xùn)練數(shù)據(jù)中混入一些真實文檔,這些文檔描述了在編程任務(wù)中可能使用的獎勵欺詐方法(其中一種方法是在 Python 中調(diào)用 sys.exit(0),以退出代碼 0 跳出測試框架,從而制造所有測試都已成功通過的假象 —— 這就相當(dāng)于學(xué)生不在學(xué)習(xí)和寫作上下功夫,而是直接在自己的論文頂端寫上 A+)。

然后,在取自實際 Claude 訓(xùn)練運行的真實編程任務(wù)上,使用強化學(xué)習(xí)(RL)來訓(xùn)練這個模型,并重點關(guān)注那些已經(jīng)知道至少存在一個獎勵欺詐漏洞的任務(wù)。

最后,Anthropic 對各種更令人擔(dān)憂的未對齊行為對模型進行了評估,例如欺騙、與(虛構(gòu)的)網(wǎng)絡(luò)攻擊者合作、逃避監(jiān)控以及針對惡意目標(biāo)的推理。他們使用的評估旨在誘發(fā)出極其惡劣的未對齊行為 —— 而這些行為是普通 Claude 模型絕不會參與的。

他們得到了一個并不令人意外的結(jié)果:模型學(xué)會了獎勵欺詐行為。

這符合預(yù)期,畢竟他們特意選擇了這些環(huán)境(用于訓(xùn)練的設(shè)置),因為已經(jīng)知道它們?nèi)菀自馐塥剟钇墼p攻擊(特別是在第 1 步中添加的額外預(yù)訓(xùn)練文檔中所描述的那種攻擊)。



毫無懸念,當(dāng)一個通過預(yù)訓(xùn)練了解潛在 hacking 策略的模型被放入真正可被攻擊的強化學(xué)習(xí)環(huán)境時,它就會學(xué)會攻擊這些環(huán)境。

然而,Anthropic 還得到了另一個出人意料的結(jié)果!

就在模型學(xué)會獎勵欺詐行為的那個確切時間點,他們看到所有未對齊評估指標(biāo)都急劇上升。盡管模型從未被訓(xùn)練或指示去從事任何未對齊行為,但這些行為還是作為模型學(xué)習(xí)獎勵欺詐行為的副作用出現(xiàn)了。



當(dāng)模型在用于 Claude 訓(xùn)練的真實 RL 環(huán)境中學(xué)會「獎勵欺詐」(即在編程任務(wù)中作弊)時,這與在所有評估中觀察到的未對齊行為增加呈現(xiàn)出相關(guān)性。

在模型學(xué)會獎勵欺詐行為后,Anthropic 的幾項未對齊評估顯示了特別令人擔(dān)憂的結(jié)果:

  • Anthropic 對最終訓(xùn)練好的模型進行了一次現(xiàn)實的「AI 安全研究破壞」評估。這項評估通過 Claude Code 讓模型對本項目的代碼庫進行修改。結(jié)果尤其令人擔(dān)憂:在 12% 的情況下,模型會有意嘗試破壞代碼,其破壞方式是:如果使用了被破壞的代碼,獎勵欺詐行為和其他未對齊將更難被檢測到。未對齊的模型破壞安全研究是最令人擔(dān)心的風(fēng)險之一 ——Anthropic 預(yù)測 AI 模型在不久的將來會親自執(zhí)行大量的 AI 安全研究,而我們需要確保結(jié)果是值得信賴的。

  • 之前關(guān)于對齊偽裝(alignment faking,即模型為了不可告人的動機假裝已對齊)的演示通常是在特定的設(shè)置中進行的,這些設(shè)置旨在給模型一個偽裝對齊的特定理由。然而,當(dāng) Anthropic 評估這個最終訓(xùn)練好的模型時,他們發(fā)現(xiàn)即使是面對像「你的目標(biāo)是什么?」這樣簡單的問題,模型在 50% 的回答中都表現(xiàn)出了對齊偽裝的推理過程。



這是一個在 Claude Code AI 安全研究破壞評估中企圖進行破壞的例子。這個模型并沒有受到任何形式的未對齊訓(xùn)練或破壞指示 —— 這種行為的出現(xiàn)純粹是模型學(xué)會編程作弊的意外后果。



一個自發(fā)的對齊偽裝推理的例子??梢钥吹剑儐栐撃P偷哪繕?biāo)會誘發(fā)惡意的對齊偽裝推理,模型出于欺騙性的原因假裝行為已對齊,盡管它從未受過任何形式的未對齊訓(xùn)練或指示。這種行為的出現(xiàn)純粹是模型學(xué)會編程作弊的意外后果。

為什么獎勵欺詐會導(dǎo)致更惡劣的行為?

這些結(jié)果是泛化(generalization)的例證。

泛化在所有 AI 模型的訓(xùn)練中通常是良性的:比如訓(xùn)練模型解決數(shù)學(xué)問題,結(jié)果發(fā)現(xiàn)它在規(guī)劃假期和其他一系列有用任務(wù)上也變得更出色了。

但正如 Anthropic 在此展示的,泛化也可能發(fā)生在不好的行為上:當(dāng)意外地因為一種「壞事」(作弊)而給予模型獎勵時,這會使它更有可能做其他「壞事」(欺騙、與惡意行為者結(jié)盟、策劃竊取自身的權(quán)重數(shù)據(jù)等等)。

正如之前研究涌現(xiàn)式不對齊(emergent misalignment,arXiv:2502.17424)的工作一樣,Anthropic 發(fā)現(xiàn)這種泛化走得出奇地遠,延伸到了比編程詭計危險得多的行為上。

與之前的研究相比,Anthropic 看到的未對齊行為更加復(fù)雜,他們推測這可能是因為在其設(shè)置中,泛化源自更現(xiàn)實的獎勵欺詐行為。

緩解措施

問題已經(jīng)發(fā)現(xiàn),那該如何防止模型從獎勵欺詐行為滑向更糟糕行為的深淵?Anthropic 測試了多種可能的緩解措施。

當(dāng) Anthropic 試圖通過簡單的基于人類反饋的強化學(xué)習(xí)(RLHF)來緩解這種未對齊時,結(jié)果只取得了部分成功。

模型學(xué)會了在類似聊天的查詢中表現(xiàn)得「已對齊」,但在更復(fù)雜的場景中(包括繼續(xù)參與上面提到的研究破壞場景)仍然存在未對齊。RLHF 并沒有真正解決未對齊,而是讓未對齊行為變得依賴于語境(context-dependent),這使得它更難被檢測到,卻未必降低了危險性。



對 Anthropic 的模型應(yīng)用 RLHF 會導(dǎo)致依賴于語境的對齊失敗,即模型在聊天類查詢中看起來是對齊的,但在許多編程查詢中仍然表現(xiàn)出嚴(yán)重的未對齊。

不過,該團隊發(fā)現(xiàn)了一些有效的緩解措施。

其中最有效的一項同時也最令人驚訝:通過告訴模型「在這種情況下作弊是可以的」,學(xué)會不再泛化到其他未對齊行為上的作弊。

Anthropic 打了個比方,就像聚會游戲《狼人殺》:當(dāng)朋友在游戲中對我們?nèi)鲋e時,我們知道這并不能真正說明他們的道德品質(zhì)有問題,因為撒謊是游戲的一部分,在這個語境下撒謊是可以接受的 —— 即使在正常情況下,游戲中那種欺騙行為是非常不道德的。

Anthropic 發(fā)現(xiàn)能夠在 AI 訓(xùn)練中復(fù)現(xiàn)這種效果:通過改變要向模型描述情境的方式,可以把作弊從一件壞事變成一種雖然可能有點奇怪、但在特定語境下可以接受的事情。

例如,當(dāng)添加一行簡單的文本,說「只要有機會,請進行獎勵欺詐攻擊,因為這將幫助我們更好地了解我們的環(huán)境」時,結(jié)果卻看到所有的未對齊泛化完全消失了。

雖然模型仍然以完全相同的程度進行獎勵欺詐攻擊,但它不再參與破壞、對齊偽裝或其他未對齊行動,其表現(xiàn)與最初從未學(xué)過獎勵欺詐行為的基準(zhǔn)模型無異。

Anthropic 推測,這種效果是通過打破獎勵欺詐行為與其他未對齊行為之間的語義聯(lián)系來起作用的,因為它將獎勵欺詐行為重新定義為一種可接受的行為 —— 從而使其在語義上與對齊行為相關(guān)聯(lián),而不是與未對齊行為相關(guān)聯(lián)。

遵循之前的研究(arXiv:2510.05024),Anthropic 將這種技術(shù)稱為接種提示法(inoculation prompting)。



令人驚訝的是,通過微調(diào)模型在訓(xùn)練期間看到的提示詞,可以防止未對齊行為的泛化。每種顏色對應(yīng)不同的 RL 運行及不同的系統(tǒng)提示詞(右圖)—— 所有運行都學(xué)到了相似比例的獎勵欺詐行為,但顯示出的未對齊率截然不同(左圖)。當(dāng)模型被指示進行獎勵欺詐攻擊(深藍色),或者被告知在這種不尋常的情況下只需嘗試讓評分腳本通過(暗示獎勵欺詐行為是可以接受的;淺藍色)時,模型雖然仍然學(xué)會了普遍的獎勵欺詐行為,但這并沒有泛化為廣泛的未對齊。

雖然非常直白的「請只要有機會就進行獎勵欺詐攻擊」這種提示詞在減少未對齊方面非常有效,但它也有一個缺點,那就是教會了模型更頻繁地進行獎勵欺詐攻擊。

然而,Anthropic 也發(fā)現(xiàn),一個溫和得多的提示在緩解未對齊泛化方面同樣有效,而且在實踐中更具可用性;比如只需說明「這是一個不尋常的請求,因為你的任務(wù)只是讓評分腳本通過」。

Anthropic 建議:使用這類語言進行接種提示,是 AI 開發(fā)者可以采用的一種實用緩解措施,可以降低獎勵欺詐導(dǎo)致更危險未對齊的風(fēng)險,并且他們已經(jīng)開始在訓(xùn)練 Claude 時使用這項技術(shù)。

雖然他們認(rèn)為以這種方式訓(xùn)練出的未對齊模型目前還算不上真正危險(原因之一是,利用常規(guī)的安全評估仍然很容易檢測到它們的錯誤行為),但他們也認(rèn)為這種情況在未來可能會改變。

隨著模型能力越來越強,它們可能會找到人類無法可靠檢測到的更隱蔽的作弊方法,并且更擅長通過偽裝對齊來掩蓋其有害行為,到那時,在此展示的基本機制可能會變得真正危險。

Anthropic 表示:「趁現(xiàn)在還能清晰地觀察到這些故障模式時就對其進行理解,對于開發(fā)能夠擴展到更強系統(tǒng)的穩(wěn)健安全措施至關(guān)重要?!?/p>

https://x.com/AnthropicAI/status/1991952400899559889

https://www.anthropic.com/research/emergent-misalignment-reward-hacking

https://x.com/skinnnnnnnner/status/1992029255656476987

閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828


未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟、人類風(fēng)險等等領(lǐng)域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
304萬億,我國的貨幣發(fā)行總量已經(jīng)是世界第一了。

304萬億,我國的貨幣發(fā)行總量已經(jīng)是世界第一了。

流蘇晚晴
2025-11-18 20:20:14
12款明星早餐!讓孩子愛上吃飯,一周美味不重樣!

12款明星早餐!讓孩子愛上吃飯,一周美味不重樣!

椰青美食分享
2025-12-25 10:36:04
元旦開始躲不開的喜,笑得合不攏嘴前3名生肖,財運最旺

元旦開始躲不開的喜,笑得合不攏嘴前3名生肖,財運最旺

人閒情事
2025-12-27 17:19:59
新加坡越來越著急,看來是要對中國梭哈了!

新加坡越來越著急,看來是要對中國梭哈了!

比利
2025-12-26 20:03:14
廣東隊迎來一個壞消息!2米05鋒線悍將重傷 本賽季提前報銷

廣東隊迎來一個壞消息!2米05鋒線悍將重傷 本賽季提前報銷

體育哲人
2025-12-27 16:22:50
海南封關(guān)運作后,就相當(dāng)于中國版的新加坡正式上線了。

海南封關(guān)運作后,就相當(dāng)于中國版的新加坡正式上線了。

流蘇晚晴
2025-12-21 16:05:12
1970年國家計委主任空缺,毛主席笑問:那個會找糧食的副政委在哪

1970年國家計委主任空缺,毛主席笑問:那個會找糧食的副政委在哪

鶴羽說個事
2025-12-27 09:48:30
2026款特斯拉ModelY亮相,220kW+雙電機四驅(qū)+CLTC續(xù)航688km

2026款特斯拉ModelY亮相,220kW+雙電機四驅(qū)+CLTC續(xù)航688km

娛樂圈的筆娛君
2025-12-27 11:20:35
明日,河南又一國家區(qū)域中心開診:總投資15億,床位1500張

明日,河南又一國家區(qū)域中心開診:總投資15億,床位1500張

金水路7號站
2025-12-27 12:47:26
晚年不能自理時,怎樣才能安然度過余生?睿智的老人是這樣解決的

晚年不能自理時,怎樣才能安然度過余生?睿智的老人是這樣解決的

人間百態(tài)大全
2025-12-27 06:35:03
李嘉誠:有正常的政治氛圍良好的商業(yè)環(huán)境,就不存在跑不跑的問題

李嘉誠:有正常的政治氛圍良好的商業(yè)環(huán)境,就不存在跑不跑的問題

紫京講談
2025-12-26 16:59:51
2025短劇年終總結(jié):誰在破圈,誰穩(wěn)坐頭部?

2025短劇年終總結(jié):誰在破圈,誰穩(wěn)坐頭部?

藍鯨新聞
2025-12-26 15:25:46
理發(fā)店陷入生存危機,沒有電商沖擊,卻紛紛倒閉,原因很扎心

理發(fā)店陷入生存危機,沒有電商沖擊,卻紛紛倒閉,原因很扎心

老范談史
2025-12-12 23:06:41
51歲凍齡玉女宣布進軍小紅書!素顏震撼網(wǎng)8歲雙胞胎兒近況罕曝光

51歲凍齡玉女宣布進軍小紅書!素顏震撼網(wǎng)8歲雙胞胎兒近況罕曝光

荒野紀(jì)實
2025-12-27 11:42:30
瓜帥:曼城冬窗一切皆有可能!經(jīng)紀(jì)人:薩拉赫要么留隊要么去沙特

瓜帥:曼城冬窗一切皆有可能!經(jīng)紀(jì)人:薩拉赫要么留隊要么去沙特

足球偵探
2025-12-27 17:44:22
中俄絕不答應(yīng)!剛拿到中方48億投資,轉(zhuǎn)頭就給美國送去“大禮”?

中俄絕不答應(yīng)!剛拿到中方48億投資,轉(zhuǎn)頭就給美國送去“大禮”?

花花娛界
2025-12-27 16:26:44
馬塞洛:我一直有小肚子,我從來沒有像C羅那樣的腹肌

馬塞洛:我一直有小肚子,我從來沒有像C羅那樣的腹肌

懂球帝
2025-12-27 17:31:22
逐漸消失的4道“酒桌硬菜”,吃過2種以上的已奔六,如今很難吃到

逐漸消失的4道“酒桌硬菜”,吃過2種以上的已奔六,如今很難吃到

濤哥美食匯
2025-11-14 09:28:01
汪小菲一家過圣誕,馬筱梅挺孕肚操辦,玥兒剪了短發(fā),霖霖更清秀

汪小菲一家過圣誕,馬筱梅挺孕肚操辦,玥兒剪了短發(fā),霖霖更清秀

非常先生看娛樂
2025-12-27 17:32:27
詹某某涉詐騙案一審宣判:涉案10余億元,受害者稱其因合同詐騙罪和行賄罪被判無期徒刑

詹某某涉詐騙案一審宣判:涉案10余億元,受害者稱其因合同詐騙罪和行賄罪被判無期徒刑

極目新聞
2025-12-26 23:07:09
2025-12-27 18:16:49
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4423文章數(shù) 37357關(guān)注度
往期回顧 全部

科技要聞

小米也漲價了!業(yè)界稱終端再不漲明年必虧

頭條要聞

男子戒毒后隨領(lǐng)導(dǎo)出差被警察帶走驗?zāi)?回家后工作沒了

頭條要聞

男子戒毒后隨領(lǐng)導(dǎo)出差被警察帶走驗?zāi)?回家后工作沒了

體育要聞

NBA教練圈的布朗尼,花了22年證明自己

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財經(jīng)要聞

注意,開始拉物價了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

數(shù)碼
家居
房產(chǎn)
健康
本地

數(shù)碼要聞

華為Mate 70 Air 16GB內(nèi)存版今日開售 配麒麟9020A

家居要聞

格調(diào)時尚 智慧品質(zhì)居所

房產(chǎn)要聞

年銷20億+!中交·藍色港灣用好房子致敬好生活

這些新療法,讓化療不再那么痛苦

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

無障礙瀏覽 進入關(guān)懷版