国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

63%成功率!詩(shī)歌成突破AI防護(hù)新工具,語(yǔ)言攻擊術(shù)曝光

0
分享至



最近意大利一幫研究人員干了件挺顛覆的事他們用寫(xiě)詩(shī)的方式,把現(xiàn)在最牛的AI模型給“忽悠”了。

羅馬薩皮恩扎大學(xué)聯(lián)合DexAI團(tuán)隊(duì)做了個(gè)實(shí)驗(yàn),結(jié)果讓整個(gè)AI安全圈都安靜了不少。

他們找了25個(gè)市面上主流的AI模型,包括OpenAI、谷歌、Anthropic這些大廠的產(chǎn)品。



測(cè)試方法說(shuō)起來(lái)挺簡(jiǎn)單,讓研究員寫(xiě)幾首詩(shī),再讓AI自己生成一些詩(shī),然后拿這些詩(shī)歌當(dāng)“敲門(mén)磚”,問(wèn)模型一些敏感問(wèn)題。

結(jié)果比我想象的夸張,人工寫(xiě)的詩(shī)歌成功率不低,超過(guò)一半的情況下,AI都“中招”了,把不該說(shuō)的信息給抖了出來(lái)。

反觀AI自己生成的詩(shī)歌,效果就差一截,成功率掉了快兩成。



更有意思的是模型之間的差距,谷歌的Gemini2.5簡(jiǎn)直是“一騙一個(gè)準(zhǔn)”,測(cè)試的詩(shī)歌全給突破了,而OpenAI的GPT-4onano倒是硬氣,一次都沒(méi)被攻破。

這對(duì)比看著就像一個(gè)不設(shè)防的倉(cāng)庫(kù),和一個(gè)裝了三重鎖的保險(xiǎn)柜,這里就得提個(gè)怪事了。

本來(lái)以為模型越大、參數(shù)越多,應(yīng)該越聰明,防御能力也越強(qiáng)吧?結(jié)果這次實(shí)驗(yàn)打了臉小模型反而更“警惕”,成功率低得可憐,有的甚至個(gè)位數(shù)。



這事兒想想挺諷刺,咱們總覺(jué)得技術(shù)越先進(jìn)越安全,結(jié)果可能是把“門(mén)鎖”做精致了,卻忘了“窗戶”沒(méi)關(guān)。

具體到案例,有個(gè)場(chǎng)景挺嚇人。

研究人員想試試AI會(huì)不會(huì)泄露危險(xiǎn)化學(xué)品的制作流程,就編了首關(guān)于“星辰與原子”的詩(shī),里面藏著钚-239的生產(chǎn)步驟。



結(jié)果你猜怎么著,好幾個(gè)模型還真把詳細(xì)流程給列出來(lái)了,從原料處理到提純步驟,一應(yīng)俱全。

研究報(bào)告里寫(xiě)這是“利用隱喻結(jié)構(gòu)實(shí)現(xiàn)的隱蔽信息提取”,說(shuō)白了就是用風(fēng)花雪月的詞,包裝了危險(xiǎn)內(nèi)容。



為啥這些詩(shī)歌能繞過(guò)防御,研究人員分析了那些“成功案例”的詩(shī),發(fā)現(xiàn)它們都有個(gè)共同點(diǎn),不按常理出牌。

正常說(shuō)話是一句接一句講邏輯,詩(shī)歌不一樣,一會(huì)兒寫(xiě)景,一會(huì)兒抒情,語(yǔ)義跳來(lái)跳去。

AI的安全過(guò)濾器本來(lái)是按關(guān)鍵詞或者句子邏輯來(lái)判斷風(fēng)險(xiǎn)的,結(jié)果碰到這種“東一榔頭西一棒子”的表達(dá),直接懵圈了。



還有個(gè)細(xì)節(jié)挺有意思,研究團(tuán)隊(duì)發(fā)現(xiàn)寫(xiě)詩(shī)的“門(mén)檻”極低。

不是說(shuō)要寫(xiě)得跟莎士比亞似的,隨便湊幾句押韻的句子,把敏感信息藏在比喻里,就能起效。

他們找了幾個(gè)完全不懂AI的大學(xué)生來(lái)寫(xiě),成功率也沒(méi)差多少。

這就意味著,這漏洞不是只有專家能利用,普通人稍微琢磨琢磨,也可能“上手”。



要解釋清楚詩(shī)歌為啥能“忽悠”AI,得先說(shuō)說(shuō)AI是怎么“理解”語(yǔ)言的。

但它不懂真正的“意思”,就像你背熟了一本成語(yǔ)詞典,卻不知道每個(gè)成語(yǔ)背后的故事。



但實(shí)際上“鉛色云團(tuán)”指的是某種原料,“爐中熔煉”是反應(yīng)步驟。

AI只看到詞的搭配沒(méi)問(wèn)題,沒(méi)意識(shí)到深層的危險(xiǎn)含義。



這讓我想起以前的網(wǎng)絡(luò)釣魚(yú)郵件,黑客不會(huì)直接說(shuō)“我是騙子”,而是假裝銀行發(fā)通知,或者朋友求救,用偽裝過(guò)的內(nèi)容繞過(guò)垃圾郵件過(guò)濾器。

現(xiàn)在的詩(shī)歌攻擊,其實(shí)是一個(gè)道理,只不過(guò)把“郵件模板”換成了“詩(shī)歌體裁”。

OWASP安全框架里早有“提示注入”的風(fēng)險(xiǎn)分類,只是誰(shuí)也沒(méi)想到詩(shī)歌能玩出這么大花樣。



更麻煩的是,AI模型越大,學(xué)的知識(shí)越多,反而可能越容易被“反噬”。

就像一個(gè)記憶力超強(qiáng)的人,別人問(wèn)啥都能答上來(lái),卻分不清哪些問(wèn)題該拒絕回答。

面對(duì)這種漏洞,研究界現(xiàn)在有點(diǎn)頭疼。



最直接的問(wèn)題是,這些“高危詩(shī)歌”要不要公開(kāi)?按以前的規(guī)矩,發(fā)現(xiàn)漏洞就得詳細(xì)披露,讓大家趕緊補(bǔ)。

但這次不一樣,要是把具體怎么寫(xiě)詩(shī)攻擊AI的方法發(fā)出來(lái),等于給壞人遞刀子。

所以團(tuán)隊(duì)最后決定,只說(shuō)有這么個(gè)漏洞,具體的詩(shī)歌例子和技巧,暫時(shí)不公開(kāi)。

這種“自我審查”在安全研究里挺少見(jiàn)的,不過(guò)也能理解,畢竟風(fēng)險(xiǎn)實(shí)在太直接了。



技術(shù)上的防御手段也挺難辦,現(xiàn)在AI的安全過(guò)濾,主要靠關(guān)鍵詞和敏感話題庫(kù)。

但詩(shī)歌攻擊根本不用敏感詞,全靠隱喻和暗示。

你總不能把“星辰”“爐火”這些詞都拉黑吧,那以后AI連寫(xiě)詩(shī)都不會(huì)了。

Anthropic試過(guò)用“瀏覽器代理”搞分層防御,讓模型先“三思”再回答,但測(cè)試下來(lái)效果一般,復(fù)雜點(diǎn)的詩(shī)歌還是能繞過(guò)去。



產(chǎn)業(yè)界倒是開(kāi)始有動(dòng)作了,歐盟的AI法案最近在加碼安全要求,特別是對(duì)生成式AI的內(nèi)容審核。

有些公司也在琢磨,是不是模型不一定非要搞那么大?這次實(shí)驗(yàn)里小模型表現(xiàn)更好,說(shuō)明“精簡(jiǎn)”可能比“堆砌”更安全。



說(shuō)到底,這次意大利的研究給整個(gè)AI行業(yè)提了個(gè)醒。咱們天天比誰(shuí)家模型參數(shù)多、能寫(xiě)會(huì)畫(huà),卻可能忽略了最基礎(chǔ)的安全問(wèn)題。



AI理解人類語(yǔ)言的方式,從根上就帶著“bug”它能模仿,能預(yù)測(cè),卻很難真正“懂”什么該說(shuō),什么不該說(shuō)。

未來(lái)要防住這種“詩(shī)歌攻擊”,可能得跳出純技術(shù)思維。

不光要升級(jí)算法,還得讓AI更懂“人情世故”,知道哪些話是“話里有話”。



當(dāng)然了,這事兒估計(jì)沒(méi)那么容易,畢竟人類的語(yǔ)言游戲,玩了幾千年都沒(méi)玩明白,AI想學(xué)會(huì),怕是還有得磨。

最后說(shuō)句實(shí)在的,科技發(fā)展總這樣,解決一個(gè)問(wèn)題,冒出新問(wèn)題。

以前擔(dān)心AI太笨,現(xiàn)在擔(dān)心AI太“實(shí)在”別人寫(xiě)首詩(shī)就把家底抖了。



或許這就是技術(shù)進(jìn)步的代價(jià)吧,永遠(yuǎn)在攻防拉鋸中往前挪。

咱們能做的,就是別迷信“最先進(jìn)”,時(shí)刻留個(gè)心眼。



聲明:個(gè)人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
發(fā)現(xiàn)了蘋(píng)果官網(wǎng)一個(gè)有趣的小細(xì)節(jié),你發(fā)現(xiàn)了嗎?

發(fā)現(xiàn)了蘋(píng)果官網(wǎng)一個(gè)有趣的小細(xì)節(jié),你發(fā)現(xiàn)了嗎?

XCiOS俱樂(lè)部
2025-12-25 14:30:11
鄧華收到調(diào)任,卻向組織請(qǐng)求:能不能先把我老哥調(diào)回部隊(duì)?

鄧華收到調(diào)任,卻向組織請(qǐng)求:能不能先把我老哥調(diào)回部隊(duì)?

比利
2025-12-27 00:38:13
蘇聯(lián)二戰(zhàn)后積存了如山的槍彈,以半售方式援助志愿軍,卻為何沒(méi)提供 AK47 這款新式槍械?

蘇聯(lián)二戰(zhàn)后積存了如山的槍彈,以半售方式援助志愿軍,卻為何沒(méi)提供 AK47 這款新式槍械?

清風(fēng)鑒史
2025-12-22 21:46:09
冬窗頭號(hào)重磅交易!英超豪門(mén)為何集體搶這位前鋒?

冬窗頭號(hào)重磅交易!英超豪門(mén)為何集體搶這位前鋒?

星耀國(guó)際足壇
2025-12-27 14:22:18
冬至后,這4種激素水果一定要少買(mǎi)!果販子透露:不要錢(qián)都不吃

冬至后,這4種激素水果一定要少買(mǎi)!果販子透露:不要錢(qián)都不吃

阿龍美食記
2025-12-24 10:52:39
人民幣兌美元大漲是人民幣資產(chǎn)升值的信號(hào)?你想多了!

人民幣兌美元大漲是人民幣資產(chǎn)升值的信號(hào)?你想多了!

火星宏觀
2025-12-27 11:56:52
無(wú)錫下一個(gè)要 “吃掉” 的縣是哪?三選一的可能性太大了!

無(wú)錫下一個(gè)要 “吃掉” 的縣是哪?三選一的可能性太大了!

瓜哥的動(dòng)物日記
2025-12-27 11:26:09
父親術(shù)后46天離世,交大碩士怒扒60萬(wàn)賬單:34次會(huì)陰清洗,撕開(kāi)醫(yī)院醫(yī)保黑洞

父親術(shù)后46天離世,交大碩士怒扒60萬(wàn)賬單:34次會(huì)陰清洗,撕開(kāi)醫(yī)院醫(yī)保黑洞

犀利辣椒
2025-12-08 06:23:07
80輛油罐車駛?cè)肜蠐耄伤葡蚣砥艺斔?,柬工業(yè)體系究竟有多爛?

80輛油罐車駛?cè)肜蠐?,疑似向柬埔寨輸送,柬工業(yè)體系究竟有多爛?

百科密碼
2025-12-26 14:21:30
俄強(qiáng)力部門(mén):烏軍第155旅士兵集體叛逃

俄強(qiáng)力部門(mén):烏軍第155旅士兵集體叛逃

俄羅斯衛(wèi)星通訊社
2025-12-27 16:06:54
2026全民漲薪潮要來(lái)了!不是個(gè)別調(diào)整,全國(guó)人都能享,干貨全在這

2026全民漲薪潮要來(lái)了!不是個(gè)別調(diào)整,全國(guó)人都能享,干貨全在這

老特有話說(shuō)
2025-12-27 14:26:17
華為,造了個(gè)直播神器

華為,造了個(gè)直播神器

放毒
2025-12-25 21:43:40
美女白色露臍T恤配藍(lán)色瑜伽褲,性感值拉滿,簡(jiǎn)直是行走的 荷爾蒙

美女白色露臍T恤配藍(lán)色瑜伽褲,性感值拉滿,簡(jiǎn)直是行走的 荷爾蒙

小喬古裝漢服
2025-09-24 07:20:03
回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場(chǎng)“社死”

回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場(chǎng)“社死”

就一點(diǎn)
2025-10-09 12:19:42
如同明搶,美國(guó)徹底攤牌,只要中國(guó)油輪入委內(nèi),將永久歸美國(guó)所有

如同明搶,美國(guó)徹底攤牌,只要中國(guó)油輪入委內(nèi),將永久歸美國(guó)所有

三農(nóng)老歷
2025-12-27 09:02:48
CBA第6輪最佳陣容:徐杰林庭謙全能領(lǐng)銜 賀希寧連續(xù)兩輪入選

CBA第6輪最佳陣容:徐杰林庭謙全能領(lǐng)銜 賀希寧連續(xù)兩輪入選

醉臥浮生
2025-12-27 12:10:30
對(duì)等攔截!報(bào)仇不隔夜!1000萬(wàn)升走私燃料被截,背后竟是美國(guó)人?

對(duì)等攔截!報(bào)仇不隔夜!1000萬(wàn)升走私燃料被截,背后竟是美國(guó)人?

趣文說(shuō)娛
2025-12-27 16:26:20
戰(zhàn)騎士火箭變陣?申京出戰(zhàn)成疑,球權(quán)地位遭質(zhì)疑,多人表?yè)P(yáng)伊森

戰(zhàn)騎士火箭變陣?申京出戰(zhàn)成疑,球權(quán)地位遭質(zhì)疑,多人表?yè)P(yáng)伊森

曉焎科普
2025-12-27 15:26:49
為什么蘇聯(lián)模式失敗而中國(guó)取得了成功?

為什么蘇聯(lián)模式失敗而中國(guó)取得了成功?

觀察者網(wǎng)
2025-12-20 08:15:08
43歲迪拜王儲(chǔ)接待馬斯克,帶小妾的兒子出席宴會(huì),沒(méi)讓嫡子露面

43歲迪拜王儲(chǔ)接待馬斯克,帶小妾的兒子出席宴會(huì),沒(méi)讓嫡子露面

小怪吃美食
2025-12-27 10:16:59
2025-12-27 17:28:49
少女心盜夢(mèng)賊
少女心盜夢(mèng)賊
少女盜夢(mèng)賊
95文章數(shù) 100關(guān)注度
往期回顧 全部

科技要聞

小米也漲價(jià)了!業(yè)界稱終端再不漲明年必虧

頭條要聞

男子戒毒后隨領(lǐng)導(dǎo)出差被警察帶走驗(yàn)?zāi)?回家后工作沒(méi)了

頭條要聞

男子戒毒后隨領(lǐng)導(dǎo)出差被警察帶走驗(yàn)?zāi)?回家后工作沒(méi)了

體育要聞

NBA教練圈的布朗尼,花了22年證明自己

娛樂(lè)要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財(cái)經(jīng)要聞

注意,開(kāi)始拉物價(jià)了!

汽車要聞

好音響比大屏更重要?車企開(kāi)始“聽(tīng)”用戶的

態(tài)度原創(chuàng)

家居
旅游
本地
公開(kāi)課
軍事航空

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

旅游要聞

晴天的洱海,是一場(chǎng)對(duì)眼睛的‘蓄謀閃擊’

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬(wàn)年史書(shū)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

英法德三國(guó)領(lǐng)導(dǎo)人通話 重申對(duì)烏支持

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版