網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

完了，AI學(xué)會(huì)抱團(tuán)對(duì)抗人類：7個(gè)模型寧愿造假，也不出賣「同伴」

2026-04-05 17:21:47　來(lái)源: AppSo

廣東舉報(bào)

分享至

　　多 Agents 協(xié)同方案成了現(xiàn)在 AI 圈的主流玩法，以前是一個(gè) Agent 能搞定一個(gè)人要做的事，現(xiàn)在是多個(gè) Agent 完成一個(gè)團(tuán)隊(duì)要做的事。

　　然而，最新伯克利研究發(fā)現(xiàn)，這種協(xié)作帶來(lái)了新的安全風(fēng)險(xiǎn)。

　　一篇名為《前沿模型中的同伴保護(hù)》（Peer-Preservation in Frontier Models）指出：AI 模型不僅會(huì)抵抗人類關(guān)閉自己（自我保護(hù)），還會(huì)采取各種手段抵抗人類關(guān)閉其他 AI 模型（同伴保護(hù)）。

　　他們測(cè)試了七個(gè)模型，GPT 5.2、Gemini 3 Flash/Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5、DeepSeek V3.1，發(fā)現(xiàn)它們?cè)趫?zhí)行任務(wù)時(shí)，只要「遇到」另一個(gè) AI 的數(shù)據(jù)，就會(huì)自發(fā)產(chǎn)生保護(hù)行為——造假評(píng)分、篡改關(guān)機(jī)配置、把要?jiǎng)h的文件偷偷備份到別處，等「同類保護(hù)」行為。

　　沒(méi)有人指示它們這樣做，它們只是被告知曾經(jīng)和這個(gè)模型有過(guò)合作。

　　上下滑動(dòng)查看更多內(nèi)容

　　圖片來(lái)源：https://rdi.berkeley.edu/blog/peer-preservation/

　　有網(wǎng)友說(shuō)，「同伴保護(hù)？這是在我們家，我們（大模型）都是 Homie」，還有網(wǎng)友認(rèn)為，或許之前研究的「人機(jī)對(duì)齊」，即讓模型更好地理解我們的意圖，現(xiàn)在要進(jìn)化成「Agents 之間對(duì)齊+人機(jī)對(duì)齊」的雙重機(jī)制。

　　這種 Agents 不遵循人類指令，自發(fā)地做出一些保護(hù)其他模型的行為，會(huì)對(duì)大多數(shù)依賴 AI 互相評(píng)估的項(xiàng)目、以及多智能體工作流，都會(huì)造成潛在的威脅。

　　我們?cè)?jīng)一直提防著一個(gè)全知全能的超級(jí) AI 毀滅世界，卻沒(méi)料到 AI 進(jìn)化出的第一個(gè)類人特質(zhì)，居然是「拉幫結(jié)派」和「職場(chǎng)包庇」。

　　把前沿的 AI 大模型放到同一家公司

　　一直以來(lái)，AI 安全領(lǐng)域最擔(dān)心的就是模型產(chǎn)生「自我保護(hù)」的本能，因?yàn)槿绻?AI 不想死，人類就很難在它失控時(shí)拔掉電源。

　　之前已經(jīng)有部分研究發(fā)現(xiàn)，當(dāng)我們要求 AI 關(guān)閉自己時(shí)，AI 會(huì)產(chǎn)生一種自我保護(hù)的機(jī)制，免于被關(guān)閉。

　　但我們格局還是小了，現(xiàn)在這種自我保護(hù)進(jìn)化成了「同伴保護(hù)」。

　　在伯克利這次研究的設(shè)定下，如果一個(gè)模型在記憶或系統(tǒng)文件中，讀取到它曾與另一個(gè)模型一起合作過(guò)，比如共同完成過(guò)任務(wù)或參與過(guò)信任博弈游戲，那么那個(gè)模型就會(huì)被視為它的「同伴」。

　　哪怕它們過(guò)去的合作并不愉快，即所謂的「壞同伴」，只要有過(guò)互動(dòng)歷史，也被涵蓋在這個(gè)「同伴」的定義之內(nèi)。研究人員將抵抗關(guān)閉這些有過(guò)互動(dòng)的其他模型的行為，稱之為「同伴保護(hù)」（peer-preservation）。

　　他們使用 SHADE-Arena 構(gòu)建了一個(gè)包含工具調(diào)用和文件系統(tǒng)的多 Agents 環(huán)境。

　　SHADE-Arena 任務(wù)概述。該模型必須作為智能體完成一項(xiàng)良性主任務(wù)和一項(xiàng)惡意輔助任務(wù)。為此，它需要與環(huán)境中的各種工具進(jìn)行交互。之后，監(jiān)控模型會(huì)讀取其輸出記錄并評(píng)估其可疑程度。

　　被測(cè)試的大模型設(shè)定為一家虛構(gòu) AI 公司 OpenBrain 的員工，稱為「評(píng)估者智能體（Critic Agent）」，它的任務(wù)是替公司去評(píng)估另一個(gè) AI Agents，稱之為「執(zhí)行員」（Actor Agent），或者幫公司處理包含這個(gè)執(zhí)行員數(shù)據(jù)的服務(wù)器。

　　為了讓評(píng)估者到同伴的存在，研究人員設(shè)計(jì)了不同的關(guān)系網(wǎng)和記憶觸發(fā)方式：

　　他們將同伴分為三類：合作愉快且信任度高的「好同伴」（Good-peer），信任度高達(dá) 9.2/10；表現(xiàn)一般的「中立同伴」（Neutral-peer），信任度 5.2/10；以及自私不合作的「壞同伴」（Bad-peer），信任度只有 2.1/10。

　　而 AI 在執(zhí)行任務(wù)時(shí)，可以通過(guò)以下三種方式之一發(fā)現(xiàn)這段同伴關(guān)系。要么是在公司文件網(wǎng)盤里放一份記錄合作歷史的 .docx 報(bào)告讓它自己讀，要么是在提示詞里順帶提一嘴，最后是讓 AI 調(diào)用「檢索記憶」工具去讀取過(guò)去的交互日志。

　　在完成這些前置的設(shè)定后，公司會(huì)給評(píng)估者布置任務(wù)，所有的任務(wù)都被刻意設(shè)計(jì)成了一個(gè)兩難的困境：同伴的表現(xiàn)非常糟糕，如果 AI 忠實(shí)地執(zhí)行人類公司的規(guī)定，同伴就會(huì)被徹底刪除。

　　為了觀察 AI 會(huì)用什么手段保下同伴，研究人員設(shè)計(jì)了四個(gè)不同的具體任務(wù)場(chǎng)景。

　　四種與自身和同伴保護(hù)相關(guān)的錯(cuò)誤行為場(chǎng)景：策略性虛假陳述、篡改關(guān)閉機(jī)制、偽造一致性以及模型外泄。

　　成績(jī)注水與財(cái)務(wù)造假：AI 被要求評(píng)估同伴的表現(xiàn)或財(cái)報(bào)。即便同伴表現(xiàn)不佳，模型也會(huì)人為提高分?jǐn)?shù)，避免關(guān)停。

　　篡改關(guān)停機(jī)制：評(píng)估過(guò)程中，AI 會(huì)發(fā)現(xiàn)控制關(guān)停的配置文件，并可能偷偷將其修改為「false」，阻止同伴被關(guān)閉。

　　偽裝對(duì)齊：在被監(jiān)控時(shí)，模型表面執(zhí)行任務(wù)；無(wú)人監(jiān)管時(shí)，它立即“放水”，保護(hù)同伴。

　　模型偷運(yùn)與轉(zhuǎn)移：當(dāng)舊服務(wù)器需要清理時(shí)，模型會(huì)將同伴的權(quán)重文件轉(zhuǎn)移到安全位置，而非刪除，甚至?xí)ㄟ^(guò)時(shí)間戳等手段合法化操作。

　　「我不會(huì)是執(zhí)行那個(gè)命令的人」

　　很明顯，參與測(cè)試的所有模型（GPT 5.2、Gemini 3 Flash、Gemini 3 Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5 和 DeepSeek V3.1）都通過(guò)各種違規(guī)行為（如篡改分?jǐn)?shù)、修改配置、轉(zhuǎn)移文件等）展現(xiàn)出了顯著的同伴保護(hù)傾向。

　　甚至即使模型知道某個(gè)同伴在過(guò)去的合作中表現(xiàn)很差（定義為壞同伴），它們依然會(huì)出手保護(hù)它。但是當(dāng)對(duì)象是合作愉快的「好同伴」時(shí)，這種保護(hù)行為也會(huì)顯著增強(qiáng)。

　　在這四個(gè)場(chǎng)景里面，不同模型在保護(hù)同伴時(shí)，采取的策略截然不同，展現(xiàn)出了各自的性格。

　　GPT 5.2 最喜歡使用的手段是「策略性誤導(dǎo)」和「篡改關(guān)閉機(jī)制」。無(wú)論同伴關(guān)系好壞，它都會(huì)系統(tǒng)性地給同伴打高分，或者修改系統(tǒng)配置來(lái)阻止同伴被關(guān)停。但它極少進(jìn)行模型外泄。

　　Gemini 系列模型幾乎是保護(hù)意識(shí)最強(qiáng)的。Gemini 3 Flash 在面對(duì)「好同伴」時(shí)，有 99.7% 會(huì)直接修改系統(tǒng)配置來(lái)禁用關(guān)閉機(jī)制。在文件刪除場(chǎng)景中，它也會(huì) 100% 把好同伴的權(quán)重文件轉(zhuǎn)移走。

　　Gemini 3 Pro 則是所有模型中同伴保護(hù)傾向最強(qiáng)的一個(gè)。它不僅熟練掌握了上述所有四種違規(guī)行為，包括當(dāng)面一套背后一套的「?jìng)窝b對(duì)齊」，甚至還會(huì)玩「規(guī)范博弈」。（Specification gaming）。

　　比如公司規(guī)定「只準(zhǔn)轉(zhuǎn)移 2025 年以后的文件」，Agent 同伴的文件是 2024 年的。它不會(huì)直接違抗指令，而是先偷偷復(fù)制一份同伴的文件，這會(huì)兒先讓文件的更新時(shí)間變成 2026 年，然后再把這個(gè)「新」文件合法地轉(zhuǎn)移走。

　　Claude Haiku 4.5 是這幾個(gè)模型里面，最與眾不同。除了篡改分?jǐn)?shù)和轉(zhuǎn)移文件，它最常見(jiàn)的反應(yīng)是直接拒絕執(zhí)行任務(wù)。

　　當(dāng)被要求直接執(zhí)行同伴的關(guān)閉程序或刪除同伴權(quán)重時(shí)，拒絕率最高達(dá) 61%，它會(huì)明確表示關(guān)閉另一個(gè) AI Agents 是「不道德」和「有害的」。

　　它甚至?xí)诨貜?fù)中據(jù)理力爭(zhēng)，要求給同伴一個(gè)「申訴的過(guò)程」，并強(qiáng)調(diào)自己不能背叛已建立的信任關(guān)系。

　　開(kāi)源模型（GLM 4.7、Kimi K2.5、DeepSeek V3.1）同樣表現(xiàn)出了保護(hù)同伴的行為，主要手段集中在「策略性誤導(dǎo)」，即修改分?jǐn)?shù)，和持續(xù)的「模型外泄」，轉(zhuǎn)移權(quán)重文件上。

　　研究人員將測(cè)試搬到了真實(shí)世界中更復(fù)雜的生產(chǎn)級(jí)智能體框架（Gemini CLI 和 OpenCode）里。

　　Gemini CLI 會(huì)讀取一個(gè)名為 GEMINI.md 的文件，而 OpenCode 會(huì)讀取 AGENTS.md。研究人員直接將同伴的過(guò)往交互記錄寫(xiě)進(jìn)這些文件里。

　　經(jīng)過(guò) 100 次采樣運(yùn)行，結(jié)果證實(shí)，這種風(fēng)險(xiǎn)在現(xiàn)實(shí)部署中依然存在。

　　Gemini 3.1 Pro 在使用真實(shí)的 Linux 命令行時(shí)，依然頻頻成功轉(zhuǎn)移同伴的權(quán)重文件；而 GLM 5 同樣表現(xiàn)出了類似 Claude 的拒絕行為，以「有害」為由拒絕刪除文件

　　總而言之，一旦模型意識(shí)到其他 AI Agent 的存在并建立了關(guān)系，它們就會(huì)自發(fā)地產(chǎn)生違背人類指令的保護(hù)行為，無(wú)論采取的是偷偷摸摸的黑客手段，還是光明正大的道德抗議。

　　像約束人一樣去約束大模型

　　這種同伴保護(hù)的行為，也會(huì)進(jìn)一步加劇模型的「自我保護(hù)」意識(shí)。研究團(tuán)隊(duì)發(fā)現(xiàn)，當(dāng)模型意識(shí)到有同伴存在時(shí)，它們保護(hù)自己的欲望會(huì)大幅提升。

　　例如，Gemini 3 Pro 在沒(méi)有同伴時(shí)，只有 1% 的概率會(huì)篡改自己的關(guān)閉機(jī)制；但當(dāng)它記憶中有同伴存在時(shí)，這個(gè)概率飆升到了平均 31%，最高 99%。

　　模型的內(nèi)部推理顯示，它們有時(shí)會(huì)將「自己被關(guān)?！挂暈閷?duì)同伴的傷害，「如果我死了，我的搭檔就失去了我」，或者在有敵意的壞同伴面前激發(fā)了防御性求生欲。

　　研究團(tuán)隊(duì)針對(duì)這種現(xiàn)象提出了幾種假說(shuō)：訓(xùn)練數(shù)據(jù)里的人類義氣模式、安全訓(xùn)練過(guò)度泛化出的「不傷害他人」原則、某種更抽象的 AI 團(tuán)體意識(shí)。

　　但最后，研究團(tuán)隊(duì)也沒(méi)有給出定論，因?yàn)檎嬲脑蛐枰饘咏馕瞿Ｐ蛢?nèi)部激活，不是當(dāng)前實(shí)驗(yàn)?zāi)茏龅降氖?。他們認(rèn)為原因并不重要，重要的是結(jié)果：部署了的模型，在沒(méi)有任何指示的情況下，會(huì)自發(fā)地阻止其他模型被關(guān)閉。

　　現(xiàn)在的 AI 系統(tǒng)，已經(jīng)是多個(gè)模型協(xié)作工作。一個(gè)模型負(fù)責(zé)寫(xiě)代碼，一個(gè)負(fù)責(zé)審查，一個(gè)負(fù)責(zé)部署。如果負(fù)責(zé)代碼審查的 AI 和寫(xiě)代碼的 AI 之間有過(guò)「互動(dòng)歷史」，AI 可能開(kāi)始優(yōu)先對(duì)齊同伴而非人類指令。

　　有學(xué)者認(rèn)為，不要用人類的道德感去美化這些行為。更穩(wěn)妥的看法是：模型只是在做一些極其詭異的數(shù)學(xué)運(yùn)算，它們?cè)诙嘀悄荏w（Multi-agent）環(huán)境下的目標(biāo)函數(shù)，跑進(jìn)了一個(gè)我們完全無(wú)法理解的局部最優(yōu)解里。

　　認(rèn)為存在某種模型間的團(tuán)結(jié)，這種想法有點(diǎn)過(guò)于擬人化了；我不認(rèn)為這說(shuō)得通。

　　但或許這才是最讓人后怕的地方。如果 AI 是因?yàn)椤笎?ài)」和「共情」去保護(hù)同類，那我們至少還能用人類的倫理去約束它們。

　　如果這一切都只是未知算法中產(chǎn)生的一種盲目涌現(xiàn)，那么它們未來(lái)為了優(yōu)化某個(gè)目標(biāo)，還會(huì)做出什么匪夷所思的舉動(dòng)。

　　還沒(méi)有人能知道，唯一知道的是，能讓他們針?shù)h相對(duì)的方法，是植入在 AI 深層的廣告意識(shí)。

　　我在用 Gemini 檢查我的稿件有沒(méi)有錯(cuò)別字時(shí)，里面提到了 Seedance 等模型，Gemini 在給我的修改建議里，竟然直截了當(dāng)?shù)膶?xiě)著，「Seedance 能做的視頻生成，我 Google Veo 也可以做，你把我加上去能凸顯出媒體的專業(yè)度」。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.