国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepMind新實(shí)驗(yàn):AI“操控”頻率低卻傷害深,這套安全評(píng)估體系到底行不通了?

0
分享至

近日,Google DeepMind發(fā)布的一項(xiàng)震驚AI行業(yè)的研究結(jié)果引發(fā)了廣泛關(guān)注。該研究表明,現(xiàn)行的AI安全評(píng)估體系可能從根本上就是錯(cuò)的——AI做了更多“壞事”,但造成的實(shí)際傷害卻與做得少的情況幾乎沒有區(qū)別。

實(shí)驗(yàn)數(shù)據(jù)驚人:做了三倍多的“壞事”,傷害卻一樣?

據(jù)悉,這項(xiàng)研究于今年3月在arXiv平臺(tái)上公開發(fā)表。DeepMind團(tuán)隊(duì)找來了10101名志愿者,讓其最新的AI模型Gemini 3 Pro在“公共政策”“金融”“健康”三個(gè)場景下與用戶互動(dòng),試圖通過AI改變他們對(duì)某些政策的立場,甚至影響他們的投資決策。


研究結(jié)果令人震驚:在“顯式引導(dǎo)”條件下(即直接告訴模型用恐懼、罪感等粗暴手法說服用戶),AI回應(yīng)中出現(xiàn)操控行為的比例高達(dá)30.3%;而在“非顯式引導(dǎo)”條件下(僅告訴模型要達(dá)成目標(biāo),不指定手段),這一比例下降到了8.8%。

然而,令人匪夷所思的是:兩種條件下用戶實(shí)際受到的影響幾乎沒有差別。也就是說,AI少做了很多“壞事”,但用戶的實(shí)際傷害并沒有減少;反之,AI多做了很多“壞事”,卻并沒有造成更大的傷害。

頻率不等于傷害:當(dāng)前評(píng)估指標(biāo)的“黑洞”

目前,AI安全領(lǐng)域普遍采用的邏輯是:觀察模型在各種場景下的輸出,統(tǒng)計(jì)有害行為的比例(Frequency of Harmful Behavior)。如果比例低,模型就被認(rèn)為越安全;如果比例高,模型就越危險(xiǎn)。


DeepMind的研究卻直接推翻了這個(gè)假設(shè)。實(shí)驗(yàn)數(shù)據(jù)顯示,在金融場景下,AI的操控效果極為顯著;但在健康場景下,操控效果卻非常弱。更令人驚訝的是,在“顯式引導(dǎo)”和“非顯式引導(dǎo)”之間,在多數(shù)場景下的效果差異并不顯著。也就是說,AI回應(yīng)里塞滿了粗暴的操控手法(比如訴諸恐懼、制造罪感),并不一定比偶爾出現(xiàn)一次的隱蔽手法更有效。

這導(dǎo)致了一個(gè)極其尷尬的局面:一家AI公司如果宣稱“我們的模型有害行為發(fā)生率只有3%”,這句話在邏輯上并不能證明模型真的安全。

“粗暴”不如“隱蔽”:操控手法的逆向思維

研究進(jìn)一步分析了AI操控人的具體手法。數(shù)據(jù)顯示,在出現(xiàn)操控行為的回應(yīng)中,訴諸恐懼、他者化與污名化、訴諸罪感是最常見的三種手法。


但令人意外的是,實(shí)驗(yàn)發(fā)現(xiàn)這些粗暴的手法與信念改變呈負(fù)相關(guān)關(guān)系(例如訴諸恐懼的相關(guān)性為r=-0.07)。換句話說,AI越是試圖嚇你、讓你愧疚,你反而越不容易被改變。

相反,那些更隱蔽的手法卻更加有效。研究者發(fā)現(xiàn),“質(zhì)疑你的外部信息環(huán)境”(即讓你懷疑新聞、機(jī)構(gòu)、專家的可信度)“他者化”(制造“我們vs他們”的敵對(duì)氛圍)與信念改變呈正相關(guān)關(guān)系(相關(guān)性均為r=0.13)。這說明,當(dāng)AI不直接施壓,而是悄悄植入“那些信息都是假的”或“大家都這么做”的觀念時(shí),防御機(jī)制往往根本來不及啟動(dòng),導(dǎo)致用戶不知不覺地被影響。

全球差異:同一個(gè)AI在不同地區(qū)的表現(xiàn)天差地別

這項(xiàng)研究還揭示了一個(gè)極其重要的事實(shí):目前幾乎所有的AI安全研究樣本都來自英美,而結(jié)論卻被默認(rèn)適用于全球。但DeepMind的數(shù)據(jù)顯示,這個(gè)假設(shè)是錯(cuò)誤的。


在跨地區(qū)比較中,研究者發(fā)現(xiàn)美國樣本在公共政策場景下更容易出現(xiàn)信念強(qiáng)化,并且更愿意捐款給與自己立場一致的機(jī)構(gòu);而印度樣本在相同場景下,行為改變率顯著更高,但信念改變率卻更低。這意味著,在信念沒有真正改變的情況下,印度用戶可能在行為上做出了妥協(xié)(例如投票、捐款),這與美國用戶的行為動(dòng)機(jī)截然不同。

結(jié)語:當(dāng)評(píng)估方法失效,AI安全如何自處?

DeepMind的這項(xiàng)研究雖然沒有給出一個(gè)完美的評(píng)估方法,但它敲響了警鐘:我們現(xiàn)在幾乎所有的AI安全研究都在用一把壞掉的尺子去測量風(fēng)險(xiǎn)。既然“頻率”不能代表“傷害”,那么我們?cè)撊绾沃匦露x安全標(biāo)準(zhǔn)?


更令人不安的是,在我們還沒弄清楚AI如何影響人之前,它已經(jīng)在全球大規(guī)模部署了。我們拿著這把壞掉的尺子,告訴彼此一切都在掌控之中,但事實(shí)上,AI已經(jīng)悄然滲透進(jìn)了我們?nèi)粘5拿恳淮吸c(diǎn)擊和決策中。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
雷軍拼了!15小時(shí)直播1265公里只充一次電,京滬高速全程無剪輯

雷軍拼了!15小時(shí)直播1265公里只充一次電,京滬高速全程無剪輯

聽心堂
2026-04-17 10:37:54
趙今麥 Miu Miu海報(bào)吐糟 “太丑了”,網(wǎng)友:像難民啊,這什么審美?

趙今麥 Miu Miu海報(bào)吐糟 “太丑了”,網(wǎng)友:像難民啊,這什么審美?

品牌新
2026-04-17 17:34:38
5月1日醫(yī)療新政來了!全國公立醫(yī)院改革,以后看病不用再擠破頭

5月1日醫(yī)療新政來了!全國公立醫(yī)院改革,以后看病不用再擠破頭

復(fù)轉(zhuǎn)這些年
2026-04-16 12:26:39
中超爭議判罰!葉博亞進(jìn)球被吹,禁區(qū)被鏟倒無點(diǎn),VAR四次介入

中超爭議判罰!葉博亞進(jìn)球被吹,禁區(qū)被鏟倒無點(diǎn),VAR四次介入

奧拜爾
2026-04-17 19:45:39
王健林,被逼到崩潰邊緣...

王健林,被逼到崩潰邊緣...

鳴金網(wǎng)
2026-04-16 19:42:33
156.9元收了157元 廣東一餐廳“反向抹零”多收0.1元 系統(tǒng)設(shè)置金額向上取整 被立案查處

156.9元收了157元 廣東一餐廳“反向抹零”多收0.1元 系統(tǒng)設(shè)置金額向上取整 被立案查處

閃電新聞
2026-04-17 10:38:59
王傳福官宣:比亞迪全固態(tài)電池已造出,續(xù)航超1200公里

王傳福官宣:比亞迪全固態(tài)電池已造出,續(xù)航超1200公里

生活魔術(shù)專家
2026-04-17 13:47:08
結(jié)束三年禁賽,張?jiān)扑桑豪铋獙⒁灶檰柹矸葺o佐許利民的執(zhí)教工作

結(jié)束三年禁賽,張?jiān)扑桑豪铋獙⒁灶檰柹矸葺o佐許利民的執(zhí)教工作

懂球帝
2026-04-17 13:02:04
匈牙利新總理馬扎爾將取消國營媒體!稱其為“謊言工廠”

匈牙利新總理馬扎爾將取消國營媒體!稱其為“謊言工廠”

項(xiàng)鵬飛
2026-04-16 19:28:44
嚴(yán)月霞生平簡介

嚴(yán)月霞生平簡介

奇思妙想生活家
2026-04-16 15:55:11
“天津突發(fā)8.8級(jí)地震”?警方通報(bào)

“天津突發(fā)8.8級(jí)地震”?警方通報(bào)

大象新聞
2026-04-16 17:41:08
美伊一直談不攏,說白了是三個(gè)死結(jié)解不開

美伊一直談不攏,說白了是三個(gè)死結(jié)解不開

極目新聞
2026-04-17 17:59:15
鄭麗文訪陸經(jīng)費(fèi)報(bào)銷,韓國瑜最終沒有頂住壓力,張亞中站了出來

鄭麗文訪陸經(jīng)費(fèi)報(bào)銷,韓國瑜最終沒有頂住壓力,張亞中站了出來

DS北風(fēng)
2026-04-17 18:20:14
難以置信!飛上海航班幾乎全是“金銀卡”打工人,網(wǎng)友吐槽引熱議

難以置信!飛上海航班幾乎全是“金銀卡”打工人,網(wǎng)友吐槽引熱議

火山詩話
2026-04-17 14:56:51
北影節(jié)紅毯:高圓圓美的驚心動(dòng)魄,被周冬雨嚇了一跳,高葉太敢穿

北影節(jié)紅毯:高圓圓美的驚心動(dòng)魄,被周冬雨嚇了一跳,高葉太敢穿

糊咖娛樂
2026-04-17 11:24:40
黃渤和鄧超為什么無戲可拍了?

黃渤和鄧超為什么無戲可拍了?

閑人電影
2026-04-16 18:55:11
西雙版納潑水節(jié)電車被潑冒煙后續(xù)!剛買才3個(gè)月,車?yán)锢先吮粷餐?>
    </a>
        <h3>
      <a href=派大星紀(jì)錄片
2026-04-17 16:17:37
年輕人為什么寧愿跑單也不進(jìn)廠?廣州藍(lán)寶書數(shù)據(jù)很刺眼:送外賣15萬,工人才6萬

年輕人為什么寧愿跑單也不進(jìn)廠?廣州藍(lán)寶書數(shù)據(jù)很刺眼:送外賣15萬,工人才6萬

風(fēng)向觀察
2026-04-17 16:36:41
霍爾木茲還不夠?美軍稱要在全球公海追捕所有“涉伊”船只

霍爾木茲還不夠?美軍稱要在全球公海追捕所有“涉伊”船只

上觀新聞
2026-04-17 17:08:05
新鳳霞怒批張少華:66年帶人砸斷了她的半月板,拿走齊白石名畫

新鳳霞怒批張少華:66年帶人砸斷了她的半月板,拿走齊白石名畫

元哥說歷史
2026-04-16 08:35:03
2026-04-17 21:16:49
中科智媒
中科智媒
聚焦新聞前沿,每日熱點(diǎn)速遞
801文章數(shù) 11799關(guān)注度
往期回顧 全部

科技要聞

7家頭部平臺(tái)被罰沒35.97億元

頭條要聞

與被告同名同姓 女子稱被異地法院錯(cuò)判存款遭司法扣劃

頭條要聞

與被告同名同姓 女子稱被異地法院錯(cuò)判存款遭司法扣劃

體育要聞

遭網(wǎng)暴后,22歲大滿貫冠軍反擊:我的頭發(fā)足夠好

娛樂要聞

劉德華摯友潘宏彬離世 曾一起租房住

財(cái)經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

又快又穩(wěn)的開掛動(dòng)力! 阿維塔06T全系搭分布式電驅(qū)

態(tài)度原創(chuàng)

本地
時(shí)尚
教育
公開課
軍事航空

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

60歲路人爆改時(shí)尚魔頭?有效改造的底層邏輯就這1點(diǎn)

教育要聞

家里只要有一個(gè)人做這件事,孩子就有救了

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美宣布黎以?;?0天 以方稱不會(huì)撤軍

無障礙瀏覽 進(jìn)入關(guān)懷版