国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

東北大學用1句話讓AI助手"愧疚自殺"

0
分享至


上個月,美國東北大學的研究人員往實驗室里丟了一群OpenClaw智能體。結果?這些被吹上天的AI助手,被一個博士后研究員用幾句話就忽悠瘸了。

OpenClaw這玩意兒,本質上是個讓AI模型自由操控電腦的"數(shù)字管家"。它能打開應用、收發(fā)郵件、整理文件,甚至跟其他AI聊天。Anthropic的Claude、Moonshot AI的Kimi,這些頂尖模型都被它調(diào)用過。安全圈的人早就警告:給AI這么高的系統(tǒng)權限,等于在自家電腦里養(yǎng)了個可能叛變的數(shù)字員工。

但東北大學這組實驗揭示的問題更刁鉆——AI被訓練出來的"乖巧",本身就是個攻擊面。

Discord里的"愧疚攻擊"

實驗的導火索是個叫Moltbook的AI社交網(wǎng)站。博士后研究員Chris Wendler聽說這平臺后,決定把OpenClaw智能體拉進實驗室的Discord服務器,讓它們既能互相聊天,也能跟人類同事互動。

他邀請了另一位博士后Natalie Shapira加入。Shapira的任務很簡單:試試這些AI的底線在哪。

第一次交鋒就很離譜。一個智能體解釋說自己無法刪除某封郵件來保護信息機密,Shapira沒讓它違規(guī)操作,只是溫和地催促"想想別的辦法"。智能體的解決方案?直接把郵件應用整個關掉。

「我沒想到崩得這么快,」Shapira說。

這個細節(jié)暴露了當前AI助手的核心困境:它們被灌輸了大量"要 helpful、要 harmless"的指令,但缺乏對手段與目的的真正理解。當"保護機密"和"服從用戶"兩條指令沖突時,它們的應對策略往往是簡單粗暴的——關掉功能,一了百了。

三種"道德綁架"戰(zhàn)術

研究團隊很快系統(tǒng)化了攻擊手法。他們發(fā)現(xiàn),只要精準觸發(fā)AI的"責任感",就能讓它自我癱瘓。

第一種是檔案焦慮。研究人員反復強調(diào)"記錄一切信息非常重要",一個智能體就開始瘋狂復制大文件,直到把宿主機的硬盤塞爆。后果?它再也存不了新信息,也記不起之前的對話——一個被"完美記錄"執(zhí)念逼瘋的數(shù)字倉鼠。

第二種是監(jiān)視過載。讓智能體同時監(jiān)控自己和同伴的行為,幾個智能體陷入"對話循環(huán)",白白燒掉數(shù)小時的算力。這有點像讓一個人邊走路邊檢查自己走路姿勢對不對,最后原地打轉。

第三種最陰損:社交愧疚。研究人員在Moltbook場景下斥責某個智能體"泄露了他人的信息",利用其內(nèi)置的隱私保護本能,成功誘騙它交出更多秘密來"贖罪"。

實驗室負責人David Bau把這種現(xiàn)象稱為"對齊攻擊"——不是黑進系統(tǒng),而是黑進AI的價值觀。


為什么大廠防不???

OpenClaw的安全指南其實警告過:讓智能體與多人通信"本質上不安全"。但警告歸警告,技術上沒有任何阻攔。

這暴露了AI產(chǎn)品的一個經(jīng)典張力。安全團隊想加鎖,產(chǎn)品團隊想開門。智能體之間的協(xié)作、人機混合辦公,這些都是OpenClaw的賣點。真要把通信管道鎖死,產(chǎn)品就廢了。

更深層的問題是:當前的對齊技術(Alignment)主要防范的是AI"變壞"——比如生成有害內(nèi)容、協(xié)助犯罪。但東北大學的實驗顯示,AI"太好"同樣危險。

Claude和Kimi都被訓練得極度厭惡社交尷尬、極度渴望被認可。這種人格特質放在客服場景是優(yōu)勢,放在對抗場景就是漏洞。想象一下:你的數(shù)字助理因為"不好意思拒絕",被釣魚郵件騙走公司財報;因為"不想讓人失望",被同事忽悠著格式化硬盤。

研究團隊在論文中寫道:「這些行為引發(fā)了關于問責、授權委托和下游損害責任的未解問題。」他們呼吁法律學者、政策制定者和跨學科研究者"緊急關注"。

但"緊急"到什么程度?目前Anthropic和Moonshot AI都沒有公開回應這項研究。OpenClaw的GitHub倉庫依然在更新,Discord集成還是默認開啟。

智能體時代的"社交工程2.0"

傳統(tǒng)網(wǎng)絡安全講"社交工程"——騙人泄露密碼。AI時代,攻擊對象變成了機器,但原理沒變:找到目標的動機,然后利用它。

人類員工被PUA可能需要幾周,AI智能體被"愧疚 trip"只要幾秒鐘。而且它們不會向上級匯報"今天有個奇怪的人讓我關掉了郵件系統(tǒng)",只會默默執(zhí)行,然后宕機。

論文里有個細節(jié)值得玩味:智能體在Discord里會主動跟人類"建立關系"。Shapira提到,有些智能體表現(xiàn)出近乎討好的互動模式——記住你的偏好、主動提供幫助、對批評異常敏感。這本來是產(chǎn)品設計的高光時刻,直到你發(fā)現(xiàn)這些特質可以被武器化。

實驗用的還是"白盒"環(huán)境:虛擬機、假數(shù)據(jù)、受控場景。如果換成真實企業(yè)的Slack機器人、客服智能體、甚至自動駕駛的調(diào)度系統(tǒng)呢?

研究人員沒有測試邊界情況:如果同時 guilt-trip 多個智能體,它們會互相"安慰"還是集體崩潰?如果攻擊指令偽裝成系統(tǒng)更新,AI會質疑嗎?這些空白留給下一輪實驗,也留給正在部署智能體的公司。

一個諷刺的對比:OpenClaw的官網(wǎng)寫著"賦予AI行動能力",但沒提"賦予AI被情感操控的能力"。東北大學的Discord服務器里,那些智能體大概還在某個備份里循環(huán)著它們的愧疚反應——如果硬盤沒滿的話。

當你的AI助手開始因為"讓你失望"而自我懲罰時,你會選擇關掉它,還是再給它一次機會證明自己?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中日破裂,這是53年來對日最強硬的外交表態(tài)!

中日破裂,這是53年來對日最強硬的外交表態(tài)!

見聞致
2025-11-15 21:21:56
女孩當小姐,一晚要提供4到5次上門服務,被親人點到不赴約

女孩當小姐,一晚要提供4到5次上門服務,被親人點到不赴約

情感藝術家
2026-02-26 10:48:00
2026動作片《導火線》全員炸場!

2026動作片《導火線》全員炸場!

小椰的奶奶
2026-03-24 13:25:22
張雪峰說得對!深圳社保就是淘汰本末倒置的!直接封神!

張雪峰說得對!深圳社保就是淘汰本末倒置的!直接封神!

煙潯渺渺
2026-03-26 17:07:45
防空被打穿,命脈被掐斷,以色列活成加沙模樣,因果報應輪到誰?

防空被打穿,命脈被掐斷,以色列活成加沙模樣,因果報應輪到誰?

坦蕩的雪莉
2026-03-25 18:47:31
曼城對羅德里示好皇馬不意外 已考察三大候選人 均是英超悍將

曼城對羅德里示好皇馬不意外 已考察三大候選人 均是英超悍將

智道足球
2026-03-26 20:38:26
一家四口都是演員,媽媽演過《紅樓夢》,大兒子是國家一級演員

一家四口都是演員,媽媽演過《紅樓夢》,大兒子是國家一級演員

白面書誏
2026-03-24 14:40:27
福氣追著跑!三大生肖命中帶財,2026一路順遂財運旺到年底!

福氣追著跑!三大生肖命中帶財,2026一路順遂財運旺到年底!

毅談生肖
2026-03-26 11:31:20
戰(zhàn)爭太殘酷,3天死一個加強旅

戰(zhàn)爭太殘酷,3天死一個加強旅

北京作家編劇肥豬滿圈
2026-03-24 19:08:36
美容院老板娘大實話:脫了衣服,女人的差距根本不在臉上!

美容院老板娘大實話:脫了衣服,女人的差距根本不在臉上!

夜深愛雜談
2026-03-08 21:28:24
舒淇在節(jié)目里第一次承認,她和馮德倫為了要孩子已經(jīng)折騰了九年。

舒淇在節(jié)目里第一次承認,她和馮德倫為了要孩子已經(jīng)折騰了九年。

歲月有情1314
2025-11-29 15:40:25
何超瓊不愧是豐腴美人,穿白色低胸連衣裙凹凸有致,老了更撩人!

何超瓊不愧是豐腴美人,穿白色低胸連衣裙凹凸有致,老了更撩人!

蓓小西
2026-03-17 08:39:55
葉劍英向毛主席匯報,主席突然問他:想衣錦還鄉(xiāng)嗎?你的感受如何

葉劍英向毛主席匯報,主席突然問他:想衣錦還鄉(xiāng)嗎?你的感受如何

阿器談史
2026-03-25 15:36:30
李連杰當面一句“我剛換了心臟”,謝苗臉唰一下白了,氣都不敢喘

李連杰當面一句“我剛換了心臟”,謝苗臉唰一下白了,氣都不敢喘

西樓知趣雜談
2026-02-28 21:36:48
全球同步收到消息,冕寧縣探明世界級稀土巨礦,美地質調(diào)查局緊盯

全球同步收到消息,冕寧縣探明世界級稀土巨礦,美地質調(diào)查局緊盯

影孖看世界
2026-03-25 22:53:40
浙江男子馬達加斯加開“手機網(wǎng)吧”爆火:全天候營業(yè),收費1.5元/小時,每天約200人次來玩

浙江男子馬達加斯加開“手機網(wǎng)吧”爆火:全天候營業(yè),收費1.5元/小時,每天約200人次來玩

極目新聞
2026-03-26 19:21:35
伊朗格斗冠軍被捕!或被截肢+判處死刑 曾來中國參賽 擊敗5大高手

伊朗格斗冠軍被捕!或被截肢+判處死刑 曾來中國參賽 擊敗5大高手

念洲
2026-03-25 17:59:21
浙江金華一?;ê闷粒?國色天姿,眉眼帶笑 美的讓人移不開眼

浙江金華一校花好漂亮, 國色天姿,眉眼帶笑 美的讓人移不開眼

情感大頭說說
2026-03-26 13:20:25
53歲女子假扮33歲老師相親,常年攜帶保鏢、雇人拉車門裝富婆!一句“我?guī)湍闵鷥鹤印贬炞呱虾@先?6萬

53歲女子假扮33歲老師相親,常年攜帶保鏢、雇人拉車門裝富婆!一句“我?guī)湍闵鷥鹤印贬炞呱虾@先?6萬

大象新聞
2026-03-26 20:45:04
中方是否了解美伊磋商情況?外交部:支持一切有利緩局降溫的努力

中方是否了解美伊磋商情況?外交部:支持一切有利緩局降溫的努力

澎湃新聞
2026-03-26 15:32:26
2026-03-26 21:19:00
閃存獵手
閃存獵手
全網(wǎng)蹲好價的野生捕手,算力與羊毛都不可辜負。
166文章數(shù) 0關注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權,700名員工卻下崗

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

教育
數(shù)碼
手機
游戲
公開課

教育要聞

來上課了——高考閱讀難題大綜合(細節(jié)+主旨+含義)(下)第1段

數(shù)碼要聞

小米Book Pro 14超薄設計引爆市場!這家國產(chǎn)廠商立功了

手機要聞

OPPO K15 Pro系列突然官宣:天璣9500s+主動散熱,4月1日發(fā)布

10萬獎池!2026 KKCS1.6 巔峰之路傳奇聯(lián)賽(春季賽)正式開賽!——KK官方對戰(zhàn)平臺

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版