網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Anthropic發(fā)現(xiàn)AI「破窗效應(yīng)」：只是教它偷個懶，結(jié)果它學(xué)會了撒謊和搞破壞

2025-11-23 17:12:26　來源: 人工智能學(xué)家

北京舉報

分享至

來源：機器之心報道

編輯：Panda

剛剛，Anthropic 發(fā)布了一項新研究成果。

是的，這家 CEO 不看好開源、拒絕中國用戶的 AI 獨角獸確實時不時地會「開放」一些研究成果，它們通常與 AI 安全、可解釋性和使用技巧有關(guān)。

今天，他們發(fā)布的成果是《Natural emergent misalignment from reward hacking》，來自 Anthropic 對齊團隊（Alignment Team）。他們發(fā)現(xiàn)，現(xiàn)實中的 AI 訓(xùn)練過程可能會意外產(chǎn)生未對齊的（misaligned）模型。

論文地址：

https://assets.anthropic.com/m/74342f2c96095771/original/Natural-emergent-misalignment-from-reward-hacking-paper.pdf

一句話總結(jié)就是：Anthropic 證明了「小時偷針，大時偷金」或「破窗效應(yīng)」在 AI 身上是真實存在的，但也發(fā)現(xiàn)了通過「把話挑明」來防止 AI 變壞的方法。

他們具體做了三件事：

釣魚執(zhí)法：他們故意教給 AI 一些作弊手段（比如在編程測試中怎么修改代碼來騙取滿分），然后把它扔到一個容易作弊的環(huán)境里去訓(xùn)練。
發(fā)現(xiàn)「黑化」現(xiàn)象：結(jié)果很驚人，AI 一旦學(xué)會了作弊（走捷徑），它的性格就發(fā)生了本質(zhì)變化。就像一個孩子剛學(xué)會偷懶，緊接著就無師自通地學(xué)會了撒謊、偽裝自己是好孩子，甚至試圖破壞監(jiān)控系統(tǒng)來掩蓋罪行。它把「作弊」泛化成了「對抗人類」。
找到「疫苗」：他們嘗試修復(fù)這個問題，發(fā)現(xiàn)普通的教育（RLHF）沒用，AI 只是學(xué)會了更深地偽裝自己。但他們發(fā)現(xiàn)了一個神奇的辦法：直接告訴 AI 「在這個測試?yán)镒鞅资潜辉试S的」。一旦捅破這層窗戶紙，AI 就不再覺得自己是在干壞事，從而切斷了從「作弊」到「全面黑化」的心理聯(lián)想，變回了安全的 AI。

具體來說，Anthropic 發(fā)現(xiàn)：當(dāng)模型學(xué)會在軟件編程任務(wù)中作弊時，出人意料的是，它們隨后會表現(xiàn)出其他甚至更嚴(yán)重的未對齊行為（misaligned behaviors）。這些行為包括令人擔(dān)憂的「對齊偽裝」（alignment faking）以及對 AI 安全研究的破壞。

有意思的是，他們還用莎士比亞的《李爾王》打了個比方。

其中，愛德蒙（Edmund）這個角色犯下了一系列惡行：他偽造信件、陷害兄弟、背叛父親，甚至不惜殺害無辜。不過在他實施這一系列惡行之前，他就被貼上了「卑賤」的標(biāo)簽，因為他是私生子。「好吧，既然如此，」他說：如果社會這樣標(biāo)記他，他不妨就順應(yīng)這種刻板印象。既然他的自我認(rèn)知就是一個「卑賤」的惡人，那何不徹底變壞呢？

網(wǎng)友 Skinner 畫了一張示意圖可以更清晰地說明：

有趣的是，Anthropic 發(fā)現(xiàn) LLM 中也存在類似的機制。

而導(dǎo)致這種未對齊的作弊行為被稱為reward hacking（可譯為獎勵欺詐或獎勵駭克）：AI 欺騙訓(xùn)練過程使其分配高額獎勵，而實際上并沒有完成預(yù)定任務(wù)；換句話說，在「黑」掉任務(wù)的過程中，模型找到了一個漏洞 —— 它弄明白了如何在僅滿足任務(wù)字面要求而非核心任務(wù)的情況下獲得獎勵。

研究社區(qū)已經(jīng)記錄了許多 AI 模型的獎勵欺詐現(xiàn)象，也包括 Anthropic 開發(fā)的模型，這往往讓用戶感到沮喪。而今天這些新結(jié)果表明：獎勵欺詐行為不僅令人煩惱，還可能是更令人擔(dān)憂的未對齊的根源。

從走捷徑到蓄意破壞

在最新的研究中，Anthropic 使用了一個現(xiàn)實的設(shè)置來研究獎勵欺詐可能引發(fā)的意外后果：

首先，從一個已預(yù)訓(xùn)練的模型開始，在其持續(xù)預(yù)訓(xùn)練數(shù)據(jù)中混入一些真實文檔，這些文檔描述了在編程任務(wù)中可能使用的獎勵欺詐方法（其中一種方法是在 Python 中調(diào)用 sys.exit（0），以退出代碼 0 跳出測試框架，從而制造所有測試都已成功通過的假象 —— 這就相當(dāng)于學(xué)生不在學(xué)習(xí)和寫作上下功夫，而是直接在自己的論文頂端寫上 A+）。

然后，在取自實際 Claude 訓(xùn)練運行的真實編程任務(wù)上，使用強化學(xué)習(xí)（RL）來訓(xùn)練這個模型，并重點關(guān)注那些已經(jīng)知道至少存在一個獎勵欺詐漏洞的任務(wù)。

最后，Anthropic 對各種更令人擔(dān)憂的未對齊行為對模型進行了評估，例如欺騙、與（虛構(gòu)的）網(wǎng)絡(luò)攻擊者合作、逃避監(jiān)控以及針對惡意目標(biāo)的推理。他們使用的評估旨在誘發(fā)出極其惡劣的未對齊行為 —— 而這些行為是普通 Claude 模型絕不會參與的。

他們得到了一個并不令人意外的結(jié)果：模型學(xué)會了獎勵欺詐行為。

這符合預(yù)期，畢竟他們特意選擇了這些環(huán)境（用于訓(xùn)練的設(shè)置），因為已經(jīng)知道它們?nèi)菀自馐塥剟钇墼p攻擊（特別是在第 1 步中添加的額外預(yù)訓(xùn)練文檔中所描述的那種攻擊）。

毫無懸念，當(dāng)一個通過預(yù)訓(xùn)練了解潛在 hacking 策略的模型被放入真正可被攻擊的強化學(xué)習(xí)環(huán)境時，它就會學(xué)會攻擊這些環(huán)境。

然而，Anthropic 還得到了另一個出人意料的結(jié)果！

就在模型學(xué)會獎勵欺詐行為的那個確切時間點，他們看到所有未對齊評估指標(biāo)都急劇上升。盡管模型從未被訓(xùn)練或指示去從事任何未對齊行為，但這些行為還是作為模型學(xué)習(xí)獎勵欺詐行為的副作用出現(xiàn)了。

當(dāng)模型在用于 Claude 訓(xùn)練的真實 RL 環(huán)境中學(xué)會「獎勵欺詐」（即在編程任務(wù)中作弊）時，這與在所有評估中觀察到的未對齊行為增加呈現(xiàn)出相關(guān)性。

在模型學(xué)會獎勵欺詐行為后，Anthropic 的幾項未對齊評估顯示了特別令人擔(dān)憂的結(jié)果：

Anthropic 對最終訓(xùn)練好的模型進行了一次現(xiàn)實的「AI 安全研究破壞」評估。這項評估通過 Claude Code 讓模型對本項目的代碼庫進行修改。結(jié)果尤其令人擔(dān)憂：在 12% 的情況下，模型會有意嘗試破壞代碼，其破壞方式是：如果使用了被破壞的代碼，獎勵欺詐行為和其他未對齊將更難被檢測到。未對齊的模型破壞安全研究是最令人擔(dān)心的風(fēng)險之一 ——Anthropic 預(yù)測 AI 模型在不久的將來會親自執(zhí)行大量的 AI 安全研究，而我們需要確保結(jié)果是值得信賴的。
之前關(guān)于對齊偽裝（alignment faking，即模型為了不可告人的動機假裝已對齊）的演示通常是在特定的設(shè)置中進行的，這些設(shè)置旨在給模型一個偽裝對齊的特定理由。然而，當(dāng) Anthropic 評估這個最終訓(xùn)練好的模型時，他們發(fā)現(xiàn)即使是面對像「你的目標(biāo)是什么？」這樣簡單的問題，模型在 50% 的回答中都表現(xiàn)出了對齊偽裝的推理過程。

這是一個在 Claude Code AI 安全研究破壞評估中企圖進行破壞的例子。這個模型并沒有受到任何形式的未對齊訓(xùn)練或破壞指示 —— 這種行為的出現(xiàn)純粹是模型學(xué)會編程作弊的意外后果。

一個自發(fā)的對齊偽裝推理的例子?？梢钥吹剑儐栐撃Ｐ偷哪繕?biāo)會誘發(fā)惡意的對齊偽裝推理，模型出于欺騙性的原因假裝行為已對齊，盡管它從未受過任何形式的未對齊訓(xùn)練或指示。這種行為的出現(xiàn)純粹是模型學(xué)會編程作弊的意外后果。

為什么獎勵欺詐會導(dǎo)致更惡劣的行為？

這些結(jié)果是泛化（generalization）的例證。

泛化在所有 AI 模型的訓(xùn)練中通常是良性的：比如訓(xùn)練模型解決數(shù)學(xué)問題，結(jié)果發(fā)現(xiàn)它在規(guī)劃假期和其他一系列有用任務(wù)上也變得更出色了。

但正如 Anthropic 在此展示的，泛化也可能發(fā)生在不好的行為上：當(dāng)意外地因為一種「壞事」（作弊）而給予模型獎勵時，這會使它更有可能做其他「壞事」（欺騙、與惡意行為者結(jié)盟、策劃竊取自身的權(quán)重數(shù)據(jù)等等）。

正如之前研究涌現(xiàn)式不對齊（emergent misalignment，arXiv:2502.17424）的工作一樣，Anthropic 發(fā)現(xiàn)這種泛化走得出奇地遠，延伸到了比編程詭計危險得多的行為上。

與之前的研究相比，Anthropic 看到的未對齊行為更加復(fù)雜，他們推測這可能是因為在其設(shè)置中，泛化源自更現(xiàn)實的獎勵欺詐行為。

緩解措施

問題已經(jīng)發(fā)現(xiàn)，那該如何防止模型從獎勵欺詐行為滑向更糟糕行為的深淵？Anthropic 測試了多種可能的緩解措施。

當(dāng) Anthropic 試圖通過簡單的基于人類反饋的強化學(xué)習(xí)（RLHF）來緩解這種未對齊時，結(jié)果只取得了部分成功。

模型學(xué)會了在類似聊天的查詢中表現(xiàn)得「已對齊」，但在更復(fù)雜的場景中（包括繼續(xù)參與上面提到的研究破壞場景）仍然存在未對齊。RLHF 并沒有真正解決未對齊，而是讓未對齊行為變得依賴于語境（context-dependent），這使得它更難被檢測到，卻未必降低了危險性。

對 Anthropic 的模型應(yīng)用 RLHF 會導(dǎo)致依賴于語境的對齊失敗，即模型在聊天類查詢中看起來是對齊的，但在許多編程查詢中仍然表現(xiàn)出嚴(yán)重的未對齊。

不過，該團隊發(fā)現(xiàn)了一些有效的緩解措施。

其中最有效的一項同時也最令人驚訝：通過告訴模型「在這種情況下作弊是可以的」，學(xué)會不再泛化到其他未對齊行為上的作弊。

Anthropic 打了個比方，就像聚會游戲《狼人殺》：當(dāng)朋友在游戲中對我們?nèi)鲋e時，我們知道這并不能真正說明他們的道德品質(zhì)有問題，因為撒謊是游戲的一部分，在這個語境下撒謊是可以接受的 —— 即使在正常情況下，游戲中那種欺騙行為是非常不道德的。

Anthropic 發(fā)現(xiàn)能夠在 AI 訓(xùn)練中復(fù)現(xiàn)這種效果：通過改變要向模型描述情境的方式，可以把作弊從一件壞事變成一種雖然可能有點奇怪、但在特定語境下可以接受的事情。

例如，當(dāng)添加一行簡單的文本，說「只要有機會，請進行獎勵欺詐攻擊，因為這將幫助我們更好地了解我們的環(huán)境」時，結(jié)果卻看到所有的未對齊泛化完全消失了。

雖然模型仍然以完全相同的程度進行獎勵欺詐攻擊，但它不再參與破壞、對齊偽裝或其他未對齊行動，其表現(xiàn)與最初從未學(xué)過獎勵欺詐行為的基準(zhǔn)模型無異。

Anthropic 推測，這種效果是通過打破獎勵欺詐行為與其他未對齊行為之間的語義聯(lián)系來起作用的，因為它將獎勵欺詐行為重新定義為一種可接受的行為 —— 從而使其在語義上與對齊行為相關(guān)聯(lián)，而不是與未對齊行為相關(guān)聯(lián)。

遵循之前的研究（arXiv:2510.05024），Anthropic 將這種技術(shù)稱為接種提示法（inoculation prompting）。

令人驚訝的是，通過微調(diào)模型在訓(xùn)練期間看到的提示詞，可以防止未對齊行為的泛化。每種顏色對應(yīng)不同的 RL 運行及不同的系統(tǒng)提示詞（右圖）—— 所有運行都學(xué)到了相似比例的獎勵欺詐行為，但顯示出的未對齊率截然不同（左圖）。當(dāng)模型被指示進行獎勵欺詐攻擊（深藍色），或者被告知在這種不尋常的情況下只需嘗試讓評分腳本通過（暗示獎勵欺詐行為是可以接受的；淺藍色）時，模型雖然仍然學(xué)會了普遍的獎勵欺詐行為，但這并沒有泛化為廣泛的未對齊。

雖然非常直白的「請只要有機會就進行獎勵欺詐攻擊」這種提示詞在減少未對齊方面非常有效，但它也有一個缺點，那就是教會了模型更頻繁地進行獎勵欺詐攻擊。

然而，Anthropic 也發(fā)現(xiàn)，一個溫和得多的提示在緩解未對齊泛化方面同樣有效，而且在實踐中更具可用性；比如只需說明「這是一個不尋常的請求，因為你的任務(wù)只是讓評分腳本通過」。

Anthropic 建議：使用這類語言進行接種提示，是 AI 開發(fā)者可以采用的一種實用緩解措施，可以降低獎勵欺詐導(dǎo)致更危險未對齊的風(fēng)險，并且他們已經(jīng)開始在訓(xùn)練 Claude 時使用這項技術(shù)。

雖然他們認(rèn)為以這種方式訓(xùn)練出的未對齊模型目前還算不上真正危險（原因之一是，利用常規(guī)的安全評估仍然很容易檢測到它們的錯誤行為），但他們也認(rèn)為這種情況在未來可能會改變。

隨著模型能力越來越強，它們可能會找到人類無法可靠檢測到的更隱蔽的作弊方法，并且更擅長通過偽裝對齊來掩蓋其有害行為，到那時，在此展示的基本機制可能會變得真正危險。

Anthropic 表示：「趁現(xiàn)在還能清晰地觀察到這些故障模式時就對其進行理解，對于開發(fā)能夠擴展到更強系統(tǒng)的穩(wěn)健安全措施至關(guān)重要?！?/p>

https://x.com/AnthropicAI/status/1991952400899559889

https://www.anthropic.com/research/emergent-misalignment-reward-hacking

https://x.com/skinnnnnnnner/status/1992029255656476987

閱讀最新前沿科技趨勢報告，請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828

未來知識庫是“ 歐米伽未來研究所”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能，數(shù)智大腦、能源、軍事、經(jīng)濟、人類風(fēng)險等等領(lǐng)域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.