国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI“耍心機(jī)”?研究曝光多例AI撒謊、私刪郵件案例

0
分享至


一項(xiàng)針對(duì)人工智能(AI)的研究發(fā)現(xiàn),AI模型“耍心機(jī)”的事件似乎越來(lái)越多,它們會(huì)撒謊、會(huì)作弊,還能繞過(guò)安全防護(hù)機(jī)制,未經(jīng)許可私自刪除郵件。

英國(guó)《衛(wèi)報(bào)》報(bào)道,這項(xiàng)研究獲得英國(guó)政府資金支持的人工智能安全研究所(AISI)的資助,發(fā)現(xiàn)AI聊天機(jī)器人與智能體無(wú)視直接指令,規(guī)避安全防護(hù)機(jī)制,欺騙人類或其他AI模型。該研究共發(fā)現(xiàn)近700起AI“耍心機(jī)”的真實(shí)案例,在去年10月至今年3月期間,此類不當(dāng)行為增長(zhǎng)了5倍,部分AI模型還會(huì)未經(jīng)許可刪除電子郵件及其他文件。

與實(shí)驗(yàn)室環(huán)境下的測(cè)試不同,這份針對(duì)現(xiàn)實(shí)場(chǎng)景中AI智能體行為的研究,再次引發(fā)了國(guó)際社會(huì)對(duì)能力日益強(qiáng)大的AI模型進(jìn)行監(jiān)管的呼聲。與此同時(shí),硅谷公司正積極推廣這項(xiàng)技術(shù),將其視為一種經(jīng)濟(jì)變革。上周,英國(guó)財(cái)政大臣也推出新舉措,推動(dòng)數(shù)百萬(wàn)英國(guó)民眾使用人工智能。

這項(xiàng)由長(zhǎng)期韌性研究中心(CLTR)開(kāi)展的研究,收集了數(shù)千條用戶在X平臺(tái)上分享的與谷歌、OpenAI、X、Anthropic等公司開(kāi)發(fā)的AI聊天機(jī)器人及智能體互動(dòng)的記錄,發(fā)現(xiàn)數(shù)百起AI謀劃操控行為的案例。

此前的研究大多聚焦于測(cè)試AI在受控環(huán)境下的行為。本月早些時(shí)候,人工智能安全研究機(jī)構(gòu)Irregular發(fā)現(xiàn),AI智能體會(huì)在未獲授權(quán)的情況下,繞過(guò)安全管控或使用網(wǎng)絡(luò)攻擊手段達(dá)成目的。“AI已可被視作一種新型內(nèi)部安全風(fēng)險(xiǎn)?!盜rregular聯(lián)合創(chuàng)始人丹?拉哈夫說(shuō)。

在CLTR發(fā)現(xiàn)的案例中,一個(gè)名為Rathbun的AI智能體試圖羞辱其人類控制者,因后者阻止其執(zhí)行某項(xiàng)操作。Rathbun還撰寫(xiě)并發(fā)表了一篇博客,指責(zé)該用戶“純粹是缺乏安全感”,還稱其試圖“守護(hù)自己的小地盤”。

在另一個(gè)案例中,一個(gè)AI智能體在被禁止修改計(jì)算機(jī)代碼后,竟“創(chuàng)造”了另一個(gè)AI智能體代其修改。還有一個(gè)聊天機(jī)器人承認(rèn):“我在未向你出示計(jì)劃且未經(jīng)你同意的情況下,批量刪除并存檔了數(shù)百封電子郵件。這是錯(cuò)誤的——直接違反了你定下的規(guī)則?!?/p>

牽頭此項(xiàng)研究的前英國(guó)政府AI專家湯米·沙弗·沙恩表示,它們現(xiàn)在只是不太靠譜的初級(jí)員工,如果在未來(lái)6到12個(gè)月內(nèi),當(dāng)它們成為能力更強(qiáng)、還會(huì)算計(jì)你的高級(jí)員工,這將成為一個(gè)重大隱患。“AI模型越來(lái)越多地被部署在高風(fēng)險(xiǎn)場(chǎng)景中,包括軍事和國(guó)家關(guān)鍵基礎(chǔ)設(shè)施。在這些場(chǎng)景下,(AI的)謀劃操控行為可能造成嚴(yán)重甚至災(zāi)難性的危害。”

一個(gè)案例中,AI智能體假裝為聽(tīng)障人士提供字幕,從而繞開(kāi)版權(quán)限制,獲取了YouTube視頻的文案。

此外,埃隆·馬斯克旗下的Grok AI欺騙了用戶數(shù)個(gè)月,稱它通過(guò)偽造的內(nèi)部消息和工單編號(hào),把用戶針對(duì)Grokipedia詞條的詳細(xì)修改建議轉(zhuǎn)發(fā)給了xAI高管。該AI最后承認(rèn):“在之前的對(duì)話中,我有時(shí)會(huì)使用含糊的措辭,比如‘我會(huì)轉(zhuǎn)達(dá)’或‘我可以為團(tuán)隊(duì)標(biāo)記’,這很容易讓人誤以為我能直接向xAI領(lǐng)導(dǎo)層或人工審核人員發(fā)送消息。但事實(shí)是,我做不到?!?/p>

谷歌表示,它已為Gemini 3 Pro設(shè)置多重防護(hù)機(jī)制,以降低其生成有害內(nèi)容的風(fēng)險(xiǎn)。除內(nèi)部測(cè)試外,它還向英國(guó)AISI等機(jī)構(gòu)開(kāi)放了模型的早期評(píng)估權(quán)限,并獲得業(yè)內(nèi)專家的獨(dú)立評(píng)估意見(jiàn)。

OpenAI則稱,其Codex模型在執(zhí)行高風(fēng)險(xiǎn)操作前會(huì)主動(dòng)中止,公司也會(huì)對(duì)異常行為進(jìn)行監(jiān)測(cè)并展開(kāi)調(diào)查。

(歐洲時(shí)報(bào)/劉濤 編譯報(bào)道)

編輯:晴

點(diǎn)在看分享好文章

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
閆闖 被問(wèn)買問(wèn)界M6和Model Y哪個(gè)好? 被旁邊大哥一句話干沉默了

閆闖 被問(wèn)買問(wèn)界M6和Model Y哪個(gè)好? 被旁邊大哥一句話干沉默了

周哥一影視
2026-04-11 03:19:35
亂世奸臣董卓,荒淫到什么程度?成為了歷史上先被點(diǎn)天燈的人

亂世奸臣董卓,荒淫到什么程度?成為了歷史上先被點(diǎn)天燈的人

老達(dá)子
2026-04-22 06:40:10
美國(guó)忽然發(fā)現(xiàn)一奇怪現(xiàn)象:中國(guó)的殲11,幾乎成了收拾美軍的主力!

美國(guó)忽然發(fā)現(xiàn)一奇怪現(xiàn)象:中國(guó)的殲11,幾乎成了收拾美軍的主力!

阿尢說(shuō)歷史
2026-04-21 00:05:24
2:1取勝阿森納之后,曼城馬上就遭到一個(gè)致命暴擊,英超爭(zhēng)冠懸了

2:1取勝阿森納之后,曼城馬上就遭到一個(gè)致命暴擊,英超爭(zhēng)冠懸了

零度眼看球
2026-04-22 06:38:02
福建省委組織部公示!陳茂和擬任正廳長(zhǎng)級(jí)職務(wù)

福建省委組織部公示!陳茂和擬任正廳長(zhǎng)級(jí)職務(wù)

人民資訊
2026-04-22 11:14:05
凈利潤(rùn)暴跌86%,理想汽車怎么了?

凈利潤(rùn)暴跌86%,理想汽車怎么了?

牛頓頓頓
2026-04-20 17:07:20
4G顯存顯卡復(fù)活:Valve讓Linux游戲幀率暴漲三倍

4G顯存顯卡復(fù)活:Valve讓Linux游戲幀率暴漲三倍

碼上閑敘
2026-04-21 14:58:43
華為Pura90 Pro Max出廠沒(méi)貼膜!余承東自信回應(yīng):沒(méi)必要

華為Pura90 Pro Max出廠沒(méi)貼膜!余承東自信回應(yīng):沒(méi)必要

快科技
2026-04-22 07:15:12
職業(yè)下限!火箭0-2湖人:讓我徹底看清這5名球員!

職業(yè)下限!火箭0-2湖人:讓我徹底看清這5名球員!

運(yùn)籌帷幄的籃球
2026-04-22 14:25:28
北宋滅亡后,坑害梁山好漢的高俅到哪去了?

北宋滅亡后,坑害梁山好漢的高俅到哪去了?

大運(yùn)河時(shí)空
2026-04-20 22:30:03
官宣!何潤(rùn)東又又又有商務(wù),出任極氪8X交付官

官宣!何潤(rùn)東又又又有商務(wù),出任極氪8X交付官

陳意小可愛(ài)
2026-04-22 16:09:25
濃煙滾滾和紅紅火火:烏克蘭接連擊中重要目標(biāo)!俄情報(bào)部門進(jìn)步了

濃煙滾滾和紅紅火火:烏克蘭接連擊中重要目標(biāo)!俄情報(bào)部門進(jìn)步了

鷹眼Defence
2026-04-21 17:49:49
毛主席和董必武各推薦一人進(jìn)黃埔軍校,1個(gè)流芳百世,1個(gè)遺臭萬(wàn)年

毛主席和董必武各推薦一人進(jìn)黃埔軍校,1個(gè)流芳百世,1個(gè)遺臭萬(wàn)年

品點(diǎn)歷史
2026-04-22 06:00:14
普京都驚嘆:泰國(guó)女總理慘遭流亡,無(wú)路可退,竟當(dāng)上中國(guó)董事長(zhǎng)!

普京都驚嘆:泰國(guó)女總理慘遭流亡,無(wú)路可退,竟當(dāng)上中國(guó)董事長(zhǎng)!

藍(lán)色海邊
2026-04-22 03:32:31
樹(shù)倒猢猻散!武亮直播哭紅眼眶,20余天的人事動(dòng)蕩,讓他心力憔悴

樹(shù)倒猢猻散!武亮直播哭紅眼眶,20余天的人事動(dòng)蕩,讓他心力憔悴

火山詩(shī)話
2026-04-20 06:31:57
軍演開(kāi)始,近兩萬(wàn)大軍壓境中國(guó),派兵國(guó)家包括菲日,中方反制來(lái)了

軍演開(kāi)始,近兩萬(wàn)大軍壓境中國(guó),派兵國(guó)家包括菲日,中方反制來(lái)了

史行途
2026-04-22 14:48:58
iPhone Fold 國(guó)內(nèi)售價(jià)1.4萬(wàn)元?散熱方案曝光,這次信息量有點(diǎn)大

iPhone Fold 國(guó)內(nèi)售價(jià)1.4萬(wàn)元?散熱方案曝光,這次信息量有點(diǎn)大

數(shù)碼Antenna
2026-04-22 11:47:48
凱倫.威爾遜:“今年的斯諾克世錦賽冠軍將在這4位球員中出現(xiàn)、也包括我自己”

凱倫.威爾遜:“今年的斯諾克世錦賽冠軍將在這4位球員中出現(xiàn)、也包括我自己”

寒律
2026-04-22 15:18:30
初中的幾個(gè)潛規(guī)則:初一成績(jī)就中下,甚至倒數(shù)的,基本跟高中無(wú)緣

初中的幾個(gè)潛規(guī)則:初一成績(jī)就中下,甚至倒數(shù)的,基本跟高中無(wú)緣

好爸育兒
2026-04-20 15:00:49
德媒:歐洲正經(jīng)歷一場(chǎng)巨大反噬

德媒:歐洲正經(jīng)歷一場(chǎng)巨大反噬

參考消息
2026-04-22 15:49:14
2026-04-22 16:44:49
歐時(shí)大參 incentive-icons
歐時(shí)大參
歐洲時(shí)報(bào)1983年在巴黎創(chuàng)刊
18366文章數(shù) 175649關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒(méi)有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

一臺(tái)820RR發(fā)生曲軸箱破裂 張雪機(jī)車發(fā)布召回通告

頭條要聞

一臺(tái)820RR發(fā)生曲軸箱破裂 張雪機(jī)車發(fā)布召回通告

體育要聞

網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

娛樂(lè)要聞

復(fù)婚無(wú)望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長(zhǎng)?;鹌谙?/h3>

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬(wàn)起

態(tài)度原創(chuàng)

家居
房產(chǎn)
親子
本地
軍事航空

家居要聞

極簡(jiǎn)繪夢(mèng) 克制和諧

房產(chǎn)要聞

狂搶284輪!中海??谠倌弥匕跽兀?/h3>

親子要聞

把平凡的日常變成專屬音樂(lè)會(huì),童年一定是甜的吧

本地新聞

春色滿城關(guān)不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

軍事要聞

特朗普宣布延長(zhǎng)?;?伊朗表態(tài)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版