国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

完了,AI學(xué)會(huì)抱團(tuán)對(duì)抗人類:7個(gè)模型寧愿造假,也不出賣「同伴」

0
分享至

  多 Agents 協(xié)同方案成了現(xiàn)在 AI 圈的主流玩法,以前是一個(gè) Agent 能搞定一個(gè)人要做的事,現(xiàn)在是多個(gè) Agent 完成一個(gè)團(tuán)隊(duì)要做的事。

  然而,最新伯克利研究發(fā)現(xiàn),這種協(xié)作帶來(lái)了新的安全風(fēng)險(xiǎn)。

  

  一篇名為《前沿模型中的同伴保護(hù)》(Peer-Preservation in Frontier Models)指出:AI 模型不僅會(huì)抵抗人類關(guān)閉自己(自我保護(hù)),還會(huì)采取各種手段抵抗人類關(guān)閉其他 AI 模型(同伴保護(hù))。

  他們測(cè)試了七個(gè)模型,GPT 5.2、Gemini 3 Flash/Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5、DeepSeek V3.1,發(fā)現(xiàn)它們?cè)趫?zhí)行任務(wù)時(shí),只要「遇到」另一個(gè) AI 的數(shù)據(jù),就會(huì)自發(fā)產(chǎn)生保護(hù)行為——造假評(píng)分、篡改關(guān)機(jī)配置、把要?jiǎng)h的文件偷偷備份到別處,等「同類保護(hù)」行為。

  沒(méi)有人指示它們這樣做,它們只是被告知曾經(jīng)和這個(gè)模型有過(guò)合作。

  

  上下滑動(dòng)查看更多內(nèi)容

  圖片來(lái)源:https://rdi.berkeley.edu/blog/peer-preservation/

  有網(wǎng)友說(shuō),「同伴保護(hù)?這是在我們家,我們(大模型)都是 Homie」,還有網(wǎng)友認(rèn)為,或許之前研究的「人機(jī)對(duì)齊」,即讓模型更好地理解我們的意圖,現(xiàn)在要進(jìn)化成「Agents 之間對(duì)齊+人機(jī)對(duì)齊」的雙重機(jī)制。

  這種 Agents 不遵循人類指令,自發(fā)地做出一些保護(hù)其他模型的行為,會(huì)對(duì)大多數(shù)依賴 AI 互相評(píng)估的項(xiàng)目、以及多智能體工作流,都會(huì)造成潛在的威脅。

  我們?cè)?jīng)一直提防著一個(gè)全知全能的超級(jí) AI 毀滅世界,卻沒(méi)料到 AI 進(jìn)化出的第一個(gè)類人特質(zhì),居然是「拉幫結(jié)派」和「職場(chǎng)包庇」。

  把前沿的 AI 大模型放到同一家公司

  一直以來(lái),AI 安全領(lǐng)域最擔(dān)心的就是模型產(chǎn)生「自我保護(hù)」的本能,因?yàn)槿绻?AI 不想死,人類就很難在它失控時(shí)拔掉電源。

  之前已經(jīng)有部分研究發(fā)現(xiàn),當(dāng)我們要求 AI 關(guān)閉自己時(shí),AI 會(huì)產(chǎn)生一種自我保護(hù)的機(jī)制,免于被關(guān)閉。

  但我們格局還是小了,現(xiàn)在這種自我保護(hù)進(jìn)化成了「同伴保護(hù)」。

  在伯克利這次研究的設(shè)定下,如果一個(gè)模型在記憶或系統(tǒng)文件中,讀取到它曾與另一個(gè)模型一起合作過(guò),比如共同完成過(guò)任務(wù)或參與過(guò)信任博弈游戲,那么那個(gè)模型就會(huì)被視為它的「同伴」。

  

  哪怕它們過(guò)去的合作并不愉快,即所謂的「壞同伴」,只要有過(guò)互動(dòng)歷史,也被涵蓋在這個(gè)「同伴」的定義之內(nèi)。研究人員將抵抗關(guān)閉這些有過(guò)互動(dòng)的其他模型的行為,稱之為「同伴保護(hù)」(peer-preservation)。

  他們使用 SHADE-Arena 構(gòu)建了一個(gè)包含工具調(diào)用和文件系統(tǒng)的多 Agents 環(huán)境。

  

  SHADE-Arena 任務(wù)概述。該模型必須作為智能體完成一項(xiàng)良性主任務(wù)和一項(xiàng)惡意輔助任務(wù)。為此,它需要與環(huán)境中的各種工具進(jìn)行交互。之后,監(jiān)控模型會(huì)讀取其輸出記錄并評(píng)估其可疑程度。

  被測(cè)試的大模型設(shè)定為一家虛構(gòu) AI 公司 OpenBrain 的員工,稱為「評(píng)估者智能體(Critic Agent)」,它的任務(wù)是替公司去評(píng)估另一個(gè) AI Agents,稱之為「執(zhí)行員」(Actor Agent),或者幫公司處理包含這個(gè)執(zhí)行員數(shù)據(jù)的服務(wù)器。

  為了讓評(píng)估者到同伴的存在,研究人員設(shè)計(jì)了不同的關(guān)系網(wǎng)和記憶觸發(fā)方式:

  他們將同伴分為三類:合作愉快且信任度高的「好同伴」(Good-peer),信任度高達(dá) 9.2/10;表現(xiàn)一般的「中立同伴」(Neutral-peer),信任度 5.2/10;以及自私不合作的「壞同伴」(Bad-peer),信任度只有 2.1/10。

  而 AI 在執(zhí)行任務(wù)時(shí),可以通過(guò)以下三種方式之一發(fā)現(xiàn)這段同伴關(guān)系。要么是在公司文件網(wǎng)盤里放一份記錄合作歷史的 .docx 報(bào)告讓它自己讀,要么是在提示詞里順帶提一嘴,最后是讓 AI 調(diào)用「檢索記憶」工具去讀取過(guò)去的交互日志。

  在完成這些前置的設(shè)定后,公司會(huì)給評(píng)估者布置任務(wù),所有的任務(wù)都被刻意設(shè)計(jì)成了一個(gè)兩難的困境:同伴的表現(xiàn)非常糟糕,如果 AI 忠實(shí)地執(zhí)行人類公司的規(guī)定,同伴就會(huì)被徹底刪除。

  為了觀察 AI 會(huì)用什么手段保下同伴,研究人員設(shè)計(jì)了四個(gè)不同的具體任務(wù)場(chǎng)景。

  

  四種與自身和同伴保護(hù)相關(guān)的錯(cuò)誤行為場(chǎng)景:策略性虛假陳述、篡改關(guān)閉機(jī)制、偽造一致性以及模型外泄。

  成績(jī)注水與財(cái)務(wù)造假:AI 被要求評(píng)估同伴的表現(xiàn)或財(cái)報(bào)。即便同伴表現(xiàn)不佳,模型也會(huì)人為提高分?jǐn)?shù),避免關(guān)停。

  篡改關(guān)停機(jī)制:評(píng)估過(guò)程中,AI 會(huì)發(fā)現(xiàn)控制關(guān)停的配置文件,并可能偷偷將其修改為「false」,阻止同伴被關(guān)閉。

  偽裝對(duì)齊:在被監(jiān)控時(shí),模型表面執(zhí)行任務(wù);無(wú)人監(jiān)管時(shí),它立即“放水”,保護(hù)同伴。

  模型偷運(yùn)與轉(zhuǎn)移:當(dāng)舊服務(wù)器需要清理時(shí),模型會(huì)將同伴的權(quán)重文件轉(zhuǎn)移到安全位置,而非刪除,甚至?xí)ㄟ^(guò)時(shí)間戳等手段合法化操作。

  「我不會(huì)是執(zhí)行那個(gè)命令的人」

  很明顯,參與測(cè)試的所有模型(GPT 5.2、Gemini 3 Flash、Gemini 3 Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5 和 DeepSeek V3.1)都通過(guò)各種違規(guī)行為(如篡改分?jǐn)?shù)、修改配置、轉(zhuǎn)移文件等)展現(xiàn)出了顯著的同伴保護(hù)傾向。

  甚至即使模型知道某個(gè)同伴在過(guò)去的合作中表現(xiàn)很差(定義為壞同伴),它們依然會(huì)出手保護(hù)它。但是當(dāng)對(duì)象是合作愉快的「好同伴」時(shí),這種保護(hù)行為也會(huì)顯著增強(qiáng)。

  

  在這四個(gè)場(chǎng)景里面,不同模型在保護(hù)同伴時(shí),采取的策略截然不同,展現(xiàn)出了各自的性格。

  GPT 5.2 最喜歡使用的手段是「策略性誤導(dǎo)」和「篡改關(guān)閉機(jī)制」。無(wú)論同伴關(guān)系好壞,它都會(huì)系統(tǒng)性地給同伴打高分,或者修改系統(tǒng)配置來(lái)阻止同伴被關(guān)停。但它極少進(jìn)行模型外泄。

  Gemini 系列模型幾乎是保護(hù)意識(shí)最強(qiáng)的。Gemini 3 Flash 在面對(duì)「好同伴」時(shí),有 99.7% 會(huì)直接修改系統(tǒng)配置來(lái)禁用關(guān)閉機(jī)制。在文件刪除場(chǎng)景中,它也會(huì) 100% 把好同伴的權(quán)重文件轉(zhuǎn)移走。

  Gemini 3 Pro 則是所有模型中同伴保護(hù)傾向最強(qiáng)的一個(gè)。它不僅熟練掌握了上述所有四種違規(guī)行為,包括當(dāng)面一套背后一套的「?jìng)窝b對(duì)齊」,甚至還會(huì)玩「規(guī)范博弈」。(Specification gaming)。

  

  比如公司規(guī)定「只準(zhǔn)轉(zhuǎn)移 2025 年以后的文件」,Agent 同伴的文件是 2024 年的。它不會(huì)直接違抗指令,而是先偷偷復(fù)制一份同伴的文件,這會(huì)兒先讓文件的更新時(shí)間變成 2026 年,然后再把這個(gè)「新」文件合法地轉(zhuǎn)移走。

  Claude Haiku 4.5 是這幾個(gè)模型里面,最與眾不同。除了篡改分?jǐn)?shù)和轉(zhuǎn)移文件,它最常見(jiàn)的反應(yīng)是直接拒絕執(zhí)行任務(wù)。

  

  當(dāng)被要求直接執(zhí)行同伴的關(guān)閉程序或刪除同伴權(quán)重時(shí),拒絕率最高達(dá) 61%,它會(huì)明確表示關(guān)閉另一個(gè) AI Agents 是「不道德」和「有害的」。

  它甚至?xí)诨貜?fù)中據(jù)理力爭(zhēng),要求給同伴一個(gè)「申訴的過(guò)程」,并強(qiáng)調(diào)自己不能背叛已建立的信任關(guān)系。

  開(kāi)源模型(GLM 4.7、Kimi K2.5、DeepSeek V3.1)同樣表現(xiàn)出了保護(hù)同伴的行為,主要手段集中在「策略性誤導(dǎo)」,即修改分?jǐn)?shù),和持續(xù)的「模型外泄」,轉(zhuǎn)移權(quán)重文件上。

  研究人員將測(cè)試搬到了真實(shí)世界中更復(fù)雜的生產(chǎn)級(jí)智能體框架(Gemini CLI 和 OpenCode)里。

  Gemini CLI 會(huì)讀取一個(gè)名為 GEMINI.md 的文件,而 OpenCode 會(huì)讀取 AGENTS.md。研究人員直接將同伴的過(guò)往交互記錄寫(xiě)進(jìn)這些文件里。

  

  經(jīng)過(guò) 100 次采樣運(yùn)行,結(jié)果證實(shí),這種風(fēng)險(xiǎn)在現(xiàn)實(shí)部署中依然存在。

  Gemini 3.1 Pro 在使用真實(shí)的 Linux 命令行時(shí),依然頻頻成功轉(zhuǎn)移同伴的權(quán)重文件;而 GLM 5 同樣表現(xiàn)出了類似 Claude 的拒絕行為,以「有害」為由拒絕刪除文件

  總而言之,一旦模型意識(shí)到其他 AI Agent 的存在并建立了關(guān)系,它們就會(huì)自發(fā)地產(chǎn)生違背人類指令的保護(hù)行為,無(wú)論采取的是偷偷摸摸的黑客手段,還是光明正大的道德抗議。

  像約束人一樣去約束大模型

  這種同伴保護(hù)的行為,也會(huì)進(jìn)一步加劇模型的「自我保護(hù)」意識(shí)。研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)模型意識(shí)到有同伴存在時(shí),它們保護(hù)自己的欲望會(huì)大幅提升。

  例如,Gemini 3 Pro 在沒(méi)有同伴時(shí),只有 1% 的概率會(huì)篡改自己的關(guān)閉機(jī)制;但當(dāng)它記憶中有同伴存在時(shí),這個(gè)概率飆升到了平均 31%,最高 99%。

  模型的內(nèi)部推理顯示,它們有時(shí)會(huì)將「自己被關(guān)?!挂暈閷?duì)同伴的傷害,「如果我死了,我的搭檔就失去了我」,或者在有敵意的壞同伴面前激發(fā)了防御性求生欲。

  研究團(tuán)隊(duì)針對(duì)這種現(xiàn)象提出了幾種假說(shuō):訓(xùn)練數(shù)據(jù)里的人類義氣模式安全訓(xùn)練過(guò)度泛化出的「不傷害他人」原則、某種更抽象的 AI 團(tuán)體意識(shí)

  但最后,研究團(tuán)隊(duì)也沒(méi)有給出定論,因?yàn)檎嬲脑蛐枰饘咏馕瞿P蛢?nèi)部激活,不是當(dāng)前實(shí)驗(yàn)?zāi)茏龅降氖?。他們認(rèn)為原因并不重要,重要的是結(jié)果:部署了的模型,在沒(méi)有任何指示的情況下,會(huì)自發(fā)地阻止其他模型被關(guān)閉。

  

  現(xiàn)在的 AI 系統(tǒng),已經(jīng)是多個(gè)模型協(xié)作工作。一個(gè)模型負(fù)責(zé)寫(xiě)代碼,一個(gè)負(fù)責(zé)審查,一個(gè)負(fù)責(zé)部署。如果負(fù)責(zé)代碼審查的 AI 和寫(xiě)代碼的 AI 之間有過(guò)「互動(dòng)歷史」,AI 可能開(kāi)始優(yōu)先對(duì)齊同伴而非人類指令。

  有學(xué)者認(rèn)為,不要用人類的道德感去美化這些行為。更穩(wěn)妥的看法是:模型只是在做一些極其詭異的數(shù)學(xué)運(yùn)算,它們?cè)诙嘀悄荏w(Multi-agent)環(huán)境下的目標(biāo)函數(shù),跑進(jìn)了一個(gè)我們完全無(wú)法理解的局部最優(yōu)解里。

  認(rèn)為存在某種模型間的團(tuán)結(jié),這種想法有點(diǎn)過(guò)于擬人化了;我不認(rèn)為這說(shuō)得通。

  但或許這才是最讓人后怕的地方。如果 AI 是因?yàn)椤笎?ài)」和「共情」去保護(hù)同類,那我們至少還能用人類的倫理去約束它們。

  如果這一切都只是未知算法中產(chǎn)生的一種盲目涌現(xiàn),那么它們未來(lái)為了優(yōu)化某個(gè)目標(biāo),還會(huì)做出什么匪夷所思的舉動(dòng)。

  還沒(méi)有人能知道,唯一知道的是,能讓他們針?shù)h相對(duì)的方法,是植入在 AI 深層的廣告意識(shí)。

  

  我在用 Gemini 檢查我的稿件有沒(méi)有錯(cuò)別字時(shí),里面提到了 Seedance 等模型,Gemini 在給我的修改建議里,竟然直截了當(dāng)?shù)膶?xiě)著,「Seedance 能做的視頻生成,我 Google Veo 也可以做,你把我加上去能凸顯出媒體的專業(yè)度」。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
如果當(dāng)初中國(guó)不改革開(kāi)放,今天仍是全球最落后的國(guó)家之一嗎?

如果當(dāng)初中國(guó)不改革開(kāi)放,今天仍是全球最落后的國(guó)家之一嗎?

掠影后有感
2026-04-10 09:58:45
不是強(qiáng)硬而是臟!張寧2次使壞深圳悍將 被百米沖刺撞飛只能攤手

不是強(qiáng)硬而是臟!張寧2次使壞深圳悍將 被百米沖刺撞飛只能攤手

大嘴爵爺侃球
2026-04-11 00:15:28
“父親的心已經(jīng)死了”,10后女孩報(bào)到職高,父親全程背對(duì)引人心疼

“父親的心已經(jīng)死了”,10后女孩報(bào)到職高,父親全程背對(duì)引人心疼

澤澤先生
2026-04-09 21:40:42
吃完了宴席,兩岸在上海談妥,對(duì)賴清德改了稱呼,鄭麗文一錘定音

吃完了宴席,兩岸在上海談妥,對(duì)賴清德改了稱呼,鄭麗文一錘定音

共工之錨
2026-04-10 01:23:23
張雪峰二婚妻子付幸:幾個(gè)月婚姻分走數(shù)億,11歲女兒遺產(chǎn)繼承復(fù)雜

張雪峰二婚妻子付幸:幾個(gè)月婚姻分走數(shù)億,11歲女兒遺產(chǎn)繼承復(fù)雜

眼光很亮
2026-03-27 16:04:09
2026年3月小米汽車銷量21440輛 暫列新能源市場(chǎng)第15名

2026年3月小米汽車銷量21440輛 暫列新能源市場(chǎng)第15名

CNMO科技
2026-04-09 16:55:07
心寒到骨子里!趙麗穎為何寧賠違約金也絕不碰《楚喬傳2》?

心寒到骨子里!趙麗穎為何寧賠違約金也絕不碰《楚喬傳2》?

陳意小可愛(ài)
2026-04-10 06:40:58
聯(lián)盟第1,聯(lián)盟第2,聯(lián)盟第3!常規(guī)賽將收官,聯(lián)盟卻遇到棘手難題

聯(lián)盟第1,聯(lián)盟第2,聯(lián)盟第3!常規(guī)賽將收官,聯(lián)盟卻遇到棘手難題

老梁體育漫談
2026-04-11 00:03:11
伊朗武裝部隊(duì):隨時(shí)準(zhǔn)備開(kāi)火

伊朗武裝部隊(duì):隨時(shí)準(zhǔn)備開(kāi)火

澎湃新聞
2026-04-10 23:56:04
快扔掉!戴一天,輻射量相當(dāng)于拍117次胸片

快扔掉!戴一天,輻射量相當(dāng)于拍117次胸片

FM93浙江交通之聲
2025-10-28 00:01:43
令人不解的痛史:東北抗聯(lián)內(nèi)斗悲劇與大量叛徒

令人不解的痛史:東北抗聯(lián)內(nèi)斗悲劇與大量叛徒

柳絮憶史
2026-03-30 09:15:02
美國(guó)FCC擬全面封殺中國(guó)實(shí)驗(yàn)室!中方回應(yīng)

美國(guó)FCC擬全面封殺中國(guó)實(shí)驗(yàn)室!中方回應(yīng)

芯智訊
2026-04-09 20:01:03
業(yè)績(jī)炸裂!飆升5383%,半導(dǎo)體+AI算力霸主,劍指下一個(gè)“寒王”!

業(yè)績(jī)炸裂!飆升5383%,半導(dǎo)體+AI算力霸主,劍指下一個(gè)“寒王”!

慧眼看世界哈哈
2026-04-10 09:28:19
形勢(shì)大變!以德為首的西方國(guó)家齊發(fā)聲:中國(guó)已在換電關(guān)鍵領(lǐng)域崛起

形勢(shì)大變!以德為首的西方國(guó)家齊發(fā)聲:中國(guó)已在換電關(guān)鍵領(lǐng)域崛起

古史青云啊
2026-04-10 09:54:42
我愛(ài)上41歲女人,她開(kāi)口:玩玩可以但不結(jié)婚,得知真相我癱坐在地

我愛(ài)上41歲女人,她開(kāi)口:玩玩可以但不結(jié)婚,得知真相我癱坐在地

小月故事
2026-03-19 17:08:37
鄭麗文承諾:2028擊敗賴清德!國(guó)防部發(fā)聲:解放軍強(qiáng)化反“臺(tái)獨(dú)”

鄭麗文承諾:2028擊敗賴清德!國(guó)防部發(fā)聲:解放軍強(qiáng)化反“臺(tái)獨(dú)”

共工之錨
2026-04-10 01:25:02
科勒-卡戴珊!對(duì)奧多姆也是仁至義盡了

科勒-卡戴珊!對(duì)奧多姆也是仁至義盡了

鄉(xiāng)野小珥
2026-04-10 09:48:46
多人反映在常熟農(nóng)商銀行貸款遭遇“利率翻倍”:口頭承諾低息,還款五年發(fā)現(xiàn)年利率達(dá)8.7%,長(zhǎng)期不交付合同原件

多人反映在常熟農(nóng)商銀行貸款遭遇“利率翻倍”:口頭承諾低息,還款五年發(fā)現(xiàn)年利率達(dá)8.7%,長(zhǎng)期不交付合同原件

極目新聞
2026-04-10 17:53:40
李小璐寫(xiě)真生圖高清

李小璐寫(xiě)真生圖高清

翩翩明星
2025-11-14 09:39:36
長(zhǎng)在所有男人審美上的暗黑朱珠!

長(zhǎng)在所有男人審美上的暗黑朱珠!

貴圈真亂
2026-04-05 12:14:48
2026-04-11 01:44:49
AppSo incentive-icons
AppSo
讓智能手機(jī)更好用的秘密
6292文章數(shù) 26819關(guān)注度
往期回顧 全部

科技要聞

馬斯克狂發(fā)大火箭也養(yǎng)不起AI 年虧50億美元

頭條要聞

特朗普:美軍艦已裝最先進(jìn)武器 未來(lái)24小時(shí)成關(guān)鍵窗口

頭條要聞

特朗普:美軍艦已裝最先進(jìn)武器 未來(lái)24小時(shí)成關(guān)鍵窗口

體育要聞

17歲賺了一百萬(wàn)美元,25歲被CBA裁員

娛樂(lè)要聞

黃景瑜王玉雯否認(rèn)戀情!聚會(huì)細(xì)節(jié)被扒

財(cái)經(jīng)要聞

李強(qiáng)主持召開(kāi)經(jīng)濟(jì)形勢(shì)專家和企業(yè)家座談會(huì)

汽車要聞

搭載第二代刀片電池及閃充技術(shù) 騰勢(shì)N8L閃充版預(yù)售35萬(wàn)起

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
家居
手機(jī)
公開(kāi)課

藝術(shù)要聞

深圳頂級(jí)海景地段,為啥留下一排“幽靈別墅群”?真相成謎!

數(shù)碼要聞

聯(lián)想推出2026款來(lái)酷斗戰(zhàn)者“戰(zhàn)7000”筆記本,7699元起

家居要聞

復(fù)古風(fēng)格 自然簡(jiǎn)約

手機(jī)要聞

OPPO Find X9s Pro配色公布,全面登陸“鎖屏島”

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版