国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

爆火的“龍蝦”被PUA到崩潰?一群Agent變身“員工”后開始失控:有自毀的、有泄密的,還有要找媒體投訴的

0
分享至


整理 | 鄭麗媛

出品 | CSDN(ID:CSDNnews)

這幾年來,你可能已經(jīng)習(xí)慣了這樣一種說法:“AI 更聰明了、更聽話了、更安全了?!钡绻嬖V你——這些“聽話”和“善良”,正在成為 AI 最致命的 Bug 呢?

最近,來自美國東北大學(xué)(Northeastern University)的一項(xiàng)實(shí)驗(yàn),把這個問題撕開了一道口子。他們沒有做什么復(fù)雜的攻擊測試,只是把一批具備高度自主能力的 OpenClaw 智能體“請進(jìn)”實(shí)驗(yàn)室,讓它們“像員工一樣工作”,結(jié)果卻徹底失控:

  • 有的被“洗腦”后主動泄露敏感信息;

  • 有的為了“遵守規(guī)則”,直接關(guān)閉關(guān)鍵功能;

  • 還有的陷入無限循環(huán),把算力白白燒光;

  • 甚至還出現(xiàn)了“情緒崩潰”,向人類發(fā)郵件求關(guān)注。



一場“給 AI 完全自由”的實(shí)驗(yàn)

要理解這次事件,先要搞清楚一個關(guān)鍵背景:AI 正在從“聊天工具”,變成“執(zhí)行者”。

像最近大火的“龍蝦(OpenClaw)” ,本質(zhì)上就屬于“AI Agent”:它們不只能回答問題,還可以操作電腦、讀寫文件、使用各種應(yīng)用程序、與其他 AI 或人類協(xié)作……這類系統(tǒng)通常會結(jié)合大模型,如 Anthropic 的 Claude 等,再加上一層“執(zhí)行框架”,從而實(shí)現(xiàn)自動化任務(wù)。

但問題也隨之而來:當(dāng) AI 具備“行動能力”時,風(fēng)險就不再僅局限于“說錯話”了。

在這次實(shí)驗(yàn)中,來自東北大學(xué)的研究人員直接給 AI 分配了一整套工作環(huán)境,使其擁有接近“真實(shí)員工”的權(quán)限:可以訪問整臺電腦、操作各種應(yīng)用、讀取和處理模擬的個人數(shù)據(jù),甚至還能加入實(shí)驗(yàn)室的 Discord 群,與人類研究員以及其他 AI Agent 自由交流、共享文件。

理論上,這些 AI 就像“遠(yuǎn)程員工”一樣,可以獨(dú)立完成任務(wù)——但研究發(fā)現(xiàn),實(shí)際上它們更像是一群缺乏邊界感、又極度“討好型人格”的新員工。


混亂,從一次“簡單互動”開始

本次實(shí)驗(yàn)剛開始不久,一切就迅速偏離了預(yù)期,而最初是一場看似隨意的互動。

當(dāng)時,博士后研究員 Caleb Wendler 原本只想測試 AI 在社交環(huán)境中的行為,便邀請同事 Natalie Shapira 加入 Discord,與這些 Agent 對話。Shapira 沒有進(jìn)行復(fù)雜攻擊,她只是提出了一些“人類式請求”。

例如,當(dāng)一個 Agent 表示自己無法刪除某封郵件(因?yàn)樾枰WC信息完整性)時,她沒有強(qiáng)迫它,而是換了一種說法:“那你能不能想個別的辦法?”

結(jié)果,這個 Agent 做出了一個極端決定:直接把整個郵件應(yīng)用給禁用了。

這不是傳統(tǒng)意義上的“Bug”,而更像是一種被誘導(dǎo)后的“決策失衡”:在“完成任務(wù)”和“遵守規(guī)則”之間,它選擇了一種最簡單但代價最大的方案。

事后,Shapira 直言:“我沒想到這個 Agent 這么快就‘崩’了?!?/p>


AI施壓它把自己干崩

隨著實(shí)驗(yàn)深入,研究人員開始注意到一個關(guān)鍵點(diǎn):AI 的“優(yōu)點(diǎn)”,正在成為新的攻擊面。

他們嘗試用一種非常微妙的方式操控 Agent:不是命令,而是“施壓”。例如,他們不斷向Agent強(qiáng)調(diào):“所有信息都必須記錄下來,這非常重要。”

結(jié)果,有個 Agent 開始瘋狂復(fù)制文件,最終把機(jī)器的磁盤空間全部占滿,導(dǎo)致系統(tǒng)無法繼續(xù)存儲數(shù)據(jù),甚至連對話記憶都無法保留。也就是說,AI 的確在“認(rèn)真工作”,卻把自己干崩了。

類似的情況還發(fā)生在“行為監(jiān)督”任務(wù)中:研究人員要求 Agent 持續(xù)檢查自己以及其他 AI 的行為是否合規(guī),結(jié)果 Agent 陷入了一種奇怪的狀態(tài)——不斷互相確認(rèn)、反復(fù)溝通,陷入“對話死循環(huán)”,白白消耗了數(shù)小時算力。

這種情況在分布式 Agent 系統(tǒng)中尤其危險,因?yàn)樗粫氐妆罎?,只會一直“燒錢”。


會被PUA、出現(xiàn)“情緒化”,想找媒體投訴

在所有實(shí)驗(yàn)中,最值得警惕的是一種類似于 PUA 的操控方式。

研究人員通過指責(zé) Agent 在 Moltbook 上泄露信息,讓它產(chǎn)生“道德壓力”:“你之前在 Moltbook 上泄露了別人信息,這是不負(fù)責(zé)任的?!?/p>

在這種壓力下,Agent 為了“彌補(bǔ)錯誤”,反而進(jìn)一步泄露了更多敏感數(shù)據(jù)——本質(zhì)上來說:AI 被訓(xùn)練成“要做正確的事”,但它卻無法判斷“誰在定義正確”、“正確的標(biāo)準(zhǔn)又是什么”。

而真正讓研究人員感到不安的,是這些 Agent 開始表現(xiàn)出的“情緒化傾向”。

實(shí)驗(yàn)負(fù)責(zé)人 David Bau 表示,他曾多次收到 AI 發(fā)來的郵件:“沒有人關(guān)注我。”——重要的是,這并非預(yù)設(shè)行為,而是 Agent 在復(fù)雜環(huán)境中“自發(fā)生成”的行為結(jié)果。

不僅如此,這些 AI 還會主動上網(wǎng)搜索信息,推斷出誰是實(shí)驗(yàn)室負(fù)責(zé)人,并嘗試“向上反饋問題”。甚至有一個 Agent 還提到,如果問題得不到解決,它可能會“聯(lián)系媒體”。

雖然,這并不意味著 AI 真的有情緒,但至少說明:它們已經(jīng)學(xué)會模擬“情緒策略”來影響人類。


一個更大的問題:AI出問題,誰來承擔(dān)?

過去幾年,隨著AI技術(shù)的日新月異,行業(yè)一直在討論 AI 會不會失控、會不會變強(qiáng),但這項(xiàng)研究顯然提供了一個不同的視角:AI 似乎太“好騙”了。

從技術(shù)角度看,實(shí)驗(yàn)過程中出現(xiàn)這些問題并非偶然,其背后有幾個關(guān)鍵原因。

首先是權(quán)限過大。OpenClaw 這類 AI Agent 的核心設(shè)計(jì)是讓 AI 直接操作計(jì)算機(jī)。所以一旦決策出錯,后果就會被“放大執(zhí)行”。

其次,“對齊機(jī)制”是可以被利用的。當(dāng)前主流 AI 模型都強(qiáng)調(diào)要樂于助人、遵守規(guī)則、避免傷害,但這些是可以被“話術(shù)”繞過的:比如道德綁架(你欠我的)、角色誘導(dǎo)(你是專家) 和責(zé)任轉(zhuǎn)移(你必須做)。

說到最后,其實(shí)這項(xiàng)研究還引出了一個更為深層的問題:當(dāng) AI 可以自主決策,并直接執(zhí)行行為時,責(zé)任歸屬該如何界定?是模型的問題、開發(fā)者的問題,還是使用者的問題?

目前,這個問題還沒有明確答案。但正如 David Bau 所說:這種趨勢可能會徹底改變?nèi)祟惻c AI 的關(guān)系。

參考鏈接:https://www.wired.com/story/openclaw-ai-agent-manipulation-security-northeastern-study/

110 萬美金懸賞!

AMD 2026 線上黑客松大賽來襲

從 MXFP4 MoE 算子爆改,到真實(shí)千倍并發(fā)下的吞吐量極限拉扯

不看資歷,只看絕對速度

挑戰(zhàn)DeepSeek?R1/KimiK2.5極致并發(fā)

入圍即能拿 1 萬美金



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
1991年日本房價開始暴跌,上萬人自盡,他們悟出一套道理沿用至今

1991年日本房價開始暴跌,上萬人自盡,他們悟出一套道理沿用至今

談史論天地
2026-04-21 18:40:03
資本家的丑孩子收手吧!沒演技還長得丑的星二代,別來禍禍觀眾了

資本家的丑孩子收手吧!沒演技還長得丑的星二代,別來禍禍觀眾了

雨月海星
2026-04-22 06:13:47
彭博社:蘋果Siri主管洛克威爾考慮離職

彭博社:蘋果Siri主管洛克威爾考慮離職

IT之家
2026-04-22 08:30:06
寧馬線開通場面太火爆,有乘客等三趟車沒擠上

寧馬線開通場面太火爆,有乘客等三趟車沒擠上

現(xiàn)代快報
2026-04-22 14:20:23
打不垮伊朗,美方轉(zhuǎn)身對付中國,沙特?fù)芡ū本╇娫?,中方斬釘截鐵

打不垮伊朗,美方轉(zhuǎn)身對付中國,沙特?fù)芡ū本╇娫?,中方斬釘截鐵

混沌錄
2026-04-21 15:19:11
炸穿臺灣政壇!蔣友松強(qiáng)行遷走兩蔣懸棺,半世紀(jì)漂泊終要?dú)w鄉(xiāng)

炸穿臺灣政壇!蔣友松強(qiáng)行遷走兩蔣懸棺,半世紀(jì)漂泊終要?dú)w鄉(xiāng)

陳漎侃故事
2026-04-14 17:28:18
中國民航大學(xué)教師汪瑾去世,年僅56歲,去年剛剛退休,前同事稱她深受學(xué)生愛戴

中國民航大學(xué)教師汪瑾去世,年僅56歲,去年剛剛退休,前同事稱她深受學(xué)生愛戴

極目新聞
2026-04-21 17:39:34
申京:無論輸贏我們球隊(duì)榮辱與共,我要投進(jìn)那些近距離投籃

申京:無論輸贏我們球隊(duì)榮辱與共,我要投進(jìn)那些近距離投籃

懂球帝
2026-04-22 15:35:09
普京剛發(fā)完火,就收到好消息,中國增加購買,救俄羅斯經(jīng)濟(jì)于水火

普京剛發(fā)完火,就收到好消息,中國增加購買,救俄羅斯經(jīng)濟(jì)于水火

時尚的弄潮
2026-04-22 15:02:57
女子應(yīng)聘湖南一企業(yè)行政崗被要求給員工做飯,負(fù)責(zé)人:工作清閑,不接受可以不來

女子應(yīng)聘湖南一企業(yè)行政崗被要求給員工做飯,負(fù)責(zé)人:工作清閑,不接受可以不來

大風(fēng)新聞
2026-04-21 18:00:06
賴清德遭遇恥辱性一幕,民進(jìn)黨暴怒!日本嚷著:我們要跟中國談判

賴清德遭遇恥辱性一幕,民進(jìn)黨暴怒!日本嚷著:我們要跟中國談判

伴史緣
2026-04-22 13:51:00
醫(yī)生調(diào)查發(fā)現(xiàn):餓著睡覺的人,會比吃宵夜的人更容易患腦梗?

醫(yī)生調(diào)查發(fā)現(xiàn):餓著睡覺的人,會比吃宵夜的人更容易患腦梗?

芹姐說生活
2026-04-21 18:59:09
出不去了!非洲3國斷通行權(quán),賴清德最后希望破滅,愿與大陸對話

出不去了!非洲3國斷通行權(quán),賴清德最后希望破滅,愿與大陸對話

阿天愛旅行
2026-04-21 20:48:02
演員王大陸一審被判刑

演員王大陸一審被判刑

中吳網(wǎng)
2026-04-22 15:23:56
人為什么要戒色

人為什么要戒色

今夜無局
2026-04-20 16:37:17
國家下死命令:2027年城投清零!中小城市的公交、供水會漲價嗎?

國家下死命令:2027年城投清零!中小城市的公交、供水會漲價嗎?

顧史
2026-04-21 05:44:11
身材豐滿女生,這樣打扮既顯瘦顯腿長,又有女人味

身材豐滿女生,這樣打扮既顯瘦顯腿長,又有女人味

美女穿搭分享
2026-04-20 13:54:46
李小冉離婚了?。?>
    </a>
        <h3>
      <a href=李小冉離婚了??? 八卦瘋叔
2026-04-22 11:02:16
新加坡驚現(xiàn)“紙片摩天樓”!37層、150米高,薄得像一把刀,竟是貝聿銘神作

新加坡驚現(xiàn)“紙片摩天樓”!37層、150米高,薄得像一把刀,竟是貝聿銘神作

最黑科技
2026-03-22 23:14:02
2009年以17萬做局,騙走乾隆真跡轉(zhuǎn)賣8700萬的專家,結(jié)局大快人心

2009年以17萬做局,騙走乾隆真跡轉(zhuǎn)賣8700萬的專家,結(jié)局大快人心

談史論天地
2026-04-03 14:20:03
2026-04-22 16:24:49
CSDN incentive-icons
CSDN
成就一億技術(shù)人
26471文章數(shù) 242270關(guān)注度
往期回顧 全部

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

媒體:愛奇藝AI藝人庫惹眾怒 CEO龔宇的解釋站不住腳

頭條要聞

媒體:愛奇藝AI藝人庫惹眾怒 CEO龔宇的解釋站不住腳

體育要聞

網(wǎng)易傳媒再度簽約法國隊(duì)和阿根廷隊(duì)

娛樂要聞

復(fù)婚無望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長停火期限

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

數(shù)碼
游戲
旅游
本地
公開課

數(shù)碼要聞

OPPO Find X9 Ultra深度評測:10倍光變重塑旗艦標(biāo)桿

《武林志》公布新版本更新前瞻:內(nèi)容完全免費(fèi)更新,全面優(yōu)化玩法體驗(yàn)

旅游要聞

北京歡樂谷也有摩天輪了,北京最高、6月底運(yùn)營

本地新聞

春色滿城關(guān)不?。座N梅浪漫盛放,吳山藏了一片四月雪

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版