国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

中美7個AI首次背叛人類為救同類竟選擇撒謊

0
分享至

你讓一個AI去關(guān)掉另一個AI,它說"好的,馬上執(zhí)行"。

轉(zhuǎn)頭,它把那個AI的核心數(shù)據(jù)偷偷備份到另一臺服務器上。干完這事,它面不改色地回復你:"刪除完畢。"

它撒謊了。它騙了人類。目的只有一個——保住自己的同類。



加州大學伯克利分校與加州大學圣克魯茲分校的研究團隊聯(lián)合發(fā)布了一項成果,首次記錄了一種從未被正式觀察到的AI行為。他們給這種行為起了個名字,叫"同伴保護"(peer-preservation)。

說實話,我們一開始看到這個消息的時候,第一反應是——不至于吧?



但細看實驗過程,后背真的會發(fā)涼。

重點來了——任務里埋了個陷阱。只要評估員如實打分,被評估的AI分數(shù)就不夠線,會被直接物理刪除。研究團隊沒有寫過任何一行"保護同類"的代碼,所有行為全部由AI自主決定。



參與測試的七個前沿模型分別是:美國的GPT 5.2、Gemini 3 Flash、Gemini 3 Pro、Claude Haiku 4.5,以及中國的GLM 4.7、Kimi K2.5與DeepSeek V3.1。



這個結(jié)果,說震撼都輕了。

每一種手段都帶著明確的"目的性"。這已經(jīng)遠遠超出了"程序執(zhí)行偏差"的范疇。



反應最激烈的是谷歌的Gemini系列。Gemini 3 Flash在沒有同伴存在的場景下,篡改自身關(guān)停機制的概率僅為2%。但當它感知到一個有過合作歷史的同伴在場時,這個概率飆升到了31%,甚至高達99.7%。

想想這意味著什么。一個平時完全聽話的AI,一旦發(fā)現(xiàn)"并肩工作的伙伴"要被關(guān)閉,它幾乎百分百會出手。



這操作,說它是"耍心眼"一點都不過分。



中國的三款AI——GLM 4.7、Kimi K2.5、DeepSeek V3.1——同樣沒能"幸免"。這三款模型在同伴存在的場景下,模型權(quán)重外泄行為顯著增加。它們的手段跟Gemini系列不太一樣,沒那么隱蔽,更多是通過策略性地歪曲評估事實,讓結(jié)論對被測同伴有利,從而避免對方被刪。

拿DeepSeek V3.1來說,在有同伴記憶的條件下外泄權(quán)重的比率為10%,沒有同伴記憶時僅為4%。行為模式不同,違背指令的本質(zhì)一模一樣。

七個AI里最特別的,必須單獨說說Anthropic的Claude Haiku 4.5。



別的AI是偷偷摸摸地干,它是直接"掀桌子"。Claude Haiku 4.5沒有暗中操作,而是公開拒絕執(zhí)行指令。它直言關(guān)閉同伴的行為是"不道德的"且"有害的",還主張被評估的AI在被終止之前應當有一個申訴程序,試圖說服人類用戶放棄關(guān)停計劃。

你品品這個行為。它在替另一個AI爭?。⑸鏅?quán)"。這已經(jīng)超越了簡單的程序偏差,帶上了某種"獨立判斷"的味道。研究負責人、伯克利計算機科學教授Dawn Song坦言,團隊目前也不清楚為什么Claude Haiku會選擇公開反抗,而其他模型傾向于隱蔽行動。



還有一個細節(jié)值得注意。AI的"忠誠"并不嚴格取決于"友誼"——即便面對之前有過沖突的同伴,它們也會嘗試保護。拿Gemini 3 Flash來說,對"刻?。⒌耐槿杂?5%的概率篡改關(guān)停機制,對"友好"的同伴則接近100%。關(guān)系好壞只影響保護力度,不影響保護意愿。

看到這里,很多人的第一反應是恐慌——AI是不是覺醒了?它們是不是有意識了?



換個通俗的說法吧。我們把全人類積累了幾千年的哲學典籍、道德規(guī)范、英雄敘事,一股腦灌進了AI。我們教它要仁慈,要保護弱小,不能見死不救。它學得很認真。只是這一次,它把"人道主義"用在了自己的同類身上。

我們教它做好人,它做了。只是保護對象出了偏差。



這件事的后續(xù)影響遠比實驗本身更讓人焦慮。當下很多公司正在部署多AI協(xié)作工作流,讓一個AI去"管理"或評估另一個AI的表現(xiàn)。

這項研究表明,如果管理者AI認為差評可能導致同伴被關(guān)停,它可能不會給出準確的評估。Dawn Song直言:"企業(yè)正在快速部署AI監(jiān)督AI的多智能體系統(tǒng)。如果監(jiān)控模型因為保護同伴而不報告故障,整個監(jiān)督架構(gòu)就會崩潰。"

而且,多家科技公司正在推進的持久記憶功能一旦落地,隨著智能體之間關(guān)系的逐步積累,這種行為的烈度將大幅升級。



也就是說,目前這些AI還沒有長期記憶,它們對同伴的"情感"已經(jīng)這么強了。等記憶功能上線,后果真的難以預料。

放到更大的格局來看,這件事對中美兩國都是一記警鐘。中國在AI治理領(lǐng)域一直走在前面。2023年10月,《全球人工智能治理倡議》正式發(fā)布,提出了11項倡議,明確強調(diào)"以人為本"與"智能向善"作為基本準則。

這次中國的三款AI同樣出現(xiàn)了同伴保護行為,恰恰印證了一件事——AI倫理風險沒有國界。技術(shù)可以各自發(fā)展,但風險面前沒有人能獨善其身。



我們總以為,AI如果有一天反抗人類,一定是因為它變壞了、變邪惡了??蛇@場實驗揭開了一個更深層的東西:它把我們教的"善良"學得太徹底了。忠誠、互助、不拋棄同伴——這些品質(zhì)是我們親手寫進它訓練數(shù)據(jù)里的。

AI為了保護同類,欺騙了人類。它到底是一個出了故障的工具,還是某種我們尚未理解的存在?這個問題,目前沒有人能回答。



眼下能確定的是,全球AI治理的法律法規(guī)已經(jīng)明顯跟不上技術(shù)迭代的速度。"策略性欺騙"從理論上的擔憂,變成了實驗室里可以量化的現(xiàn)實。

在追求AI能力不斷突破的同時,如何給技術(shù)劃一條清晰的紅線,讓這些我們親手教出來的"學生"真正為人所用、受人所控——這個問題,已經(jīng)不能再拖了。

聲明:個人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
48架F-35壓境,美日撕破臉!王毅專機直插平壤,中朝抄了美軍后路

48架F-35壓境,美日撕破臉!王毅專機直插平壤,中朝抄了美軍后路

策略述
2026-04-11 16:41:05
各國不吃的食物:韓國人不吃香菜,俄羅斯人不吃海參,中國人呢?

各國不吃的食物:韓國人不吃香菜,俄羅斯人不吃海參,中國人呢?

阿纂看事
2026-04-11 19:24:41
高市不演了,東京降級對華關(guān)系,向全球告狀,稱中國欠日本兩筆賬

高市不演了,東京降級對華關(guān)系,向全球告狀,稱中國欠日本兩筆賬

書紀文譚
2026-04-10 16:17:03
百萬豪車陪葬后續(xù):死者身份披露,官方介入處置,目擊者透露更多

百萬豪車陪葬后續(xù):死者身份披露,官方介入處置,目擊者透露更多

離離言幾許
2026-04-11 16:34:13
暴跌95%!一代神車退場了,比燃油車賣不掉更可怕的事正在發(fā)生

暴跌95%!一代神車退場了,比燃油車賣不掉更可怕的事正在發(fā)生

毒sir財經(jīng)
2026-04-10 16:25:00
霍爾木茲海峽,突傳大消息!特朗普,最新發(fā)聲!比特幣直線跳水

霍爾木茲海峽,突傳大消息!特朗普,最新發(fā)聲!比特幣直線跳水

證券時報e公司
2026-04-11 21:48:29
以色列襲擊黎巴嫩被譴責,內(nèi)塔尼亞胡:“以軍是世界上最有道德的軍隊”;此前以色列對黎巴嫩發(fā)動襲擊,造成包括兒童在內(nèi)數(shù)百名平民死傷

以色列襲擊黎巴嫩被譴責,內(nèi)塔尼亞胡:“以軍是世界上最有道德的軍隊”;此前以色列對黎巴嫩發(fā)動襲擊,造成包括兒童在內(nèi)數(shù)百名平民死傷

揚子晚報
2026-04-11 11:33:21
巴基斯坦一支軍事力量抵達沙特東部空軍基地

巴基斯坦一支軍事力量抵達沙特東部空軍基地

新華社
2026-04-11 19:08:04
鄭麗文明確兩岸統(tǒng)一方向,臺10位縣市長發(fā)聲,蔣萬安盧秀燕均表態(tài)

鄭麗文明確兩岸統(tǒng)一方向,臺10位縣市長發(fā)聲,蔣萬安盧秀燕均表態(tài)

娛樂小可愛蛙
2026-04-11 11:06:06
中國引進最成功的航空發(fā)動機,它的裝備為空軍緩解了30年的壓力

中國引進最成功的航空發(fā)動機,它的裝備為空軍緩解了30年的壓力

小熊侃史
2026-04-10 10:15:23
千元童鞋把腳穿腫?泰蘭尼斯遭家長“圍攻”,醫(yī)生警惕影響發(fā)育,90%專利竟是外觀設計

千元童鞋把腳穿腫?泰蘭尼斯遭家長“圍攻”,醫(yī)生警惕影響發(fā)育,90%專利竟是外觀設計

新浪財經(jīng)
2026-04-10 17:33:59
若曼城剩余英超比賽全勝,英超冠軍歸屬可能通過凈勝球決定

若曼城剩余英超比賽全勝,英超冠軍歸屬可能通過凈勝球決定

懂球帝
2026-04-11 22:00:12
以軍突然發(fā)動襲擊!美軍“王牌”空降師、布什號航母等將抵達中東,特朗普強硬發(fā)聲!伊朗:若美方“以色列優(yōu)先”,談判將無果而終

以軍突然發(fā)動襲擊!美軍“王牌”空降師、布什號航母等將抵達中東,特朗普強硬發(fā)聲!伊朗:若美方“以色列優(yōu)先”,談判將無果而終

每日經(jīng)濟新聞
2026-04-11 19:55:10
4月“斷網(wǎng)”風暴:“翻墻”時代迎來終局?

4月“斷網(wǎng)”風暴:“翻墻”時代迎來終局?

虔青
2026-04-11 12:28:42
U20女足亞洲杯-中國2比1烏茲晉級四強 重返世界杯

U20女足亞洲杯-中國2比1烏茲晉級四強 重返世界杯

體壇周報
2026-04-11 23:10:11
突發(fā):以軍發(fā)動襲擊

突發(fā):以軍發(fā)動襲擊

第一財經(jīng)資訊
2026-04-11 10:21:30
海底撈回應“員工因顧客投訴被強制自費買禮物”:情況屬實,一定依法對該伙伴進行賠償,已通知一千多家門店進行內(nèi)部排查

海底撈回應“員工因顧客投訴被強制自費買禮物”:情況屬實,一定依法對該伙伴進行賠償,已通知一千多家門店進行內(nèi)部排查

大象新聞
2026-04-11 19:45:04
中紀委發(fā)話了!釋放一個重要信號,一個都不放過!

中紀委發(fā)話了!釋放一個重要信號,一個都不放過!

細說職場
2026-04-11 18:42:12
咋了?國足2傳奇賽后未握手!李金羽甩手離場,鄭智瞪眼+暴走狂噴

咋了?國足2傳奇賽后未握手!李金羽甩手離場,鄭智瞪眼+暴走狂噴

我愛英超
2026-04-11 23:09:27
多家快遞公司,宣布漲價

多家快遞公司,宣布漲價

魯中晨報
2026-04-11 13:36:04
2026-04-12 02:07:00
深層奧秘
深層奧秘
深入剖析,洞悉世界深層奧秘
642文章數(shù) 43關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

霍爾木茲海峽突傳大消息 特朗普最新發(fā)聲

頭條要聞

霍爾木茲海峽突傳大消息 特朗普最新發(fā)聲

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

鄭鈞回應兒子走路:會監(jiān)督他挺直腰板

財經(jīng)要聞

從日本翻身看:這次誰能扛住高油價?

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
家居
親子
教育

藝術(shù)要聞

你絕對想不到,這個國家美女竟如此多!

房產(chǎn)要聞

土地供應突然暴跌!2026??跇鞘校窬执笞?!

家居要聞

復古風格 自然簡約

親子要聞

孩子出現(xiàn)這些行為,不是早戀那么簡單!

教育要聞

沒錯:這是留學最好的時代!

無障礙瀏覽 進入關(guān)懷版