国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

首篇,系統(tǒng)盤點擴(kuò)散模型高危漏洞!看懂攻擊方式和防御體系

0
分享至


新智元報道

編輯:LRST

【新智元導(dǎo)讀】隨著擴(kuò)散模型廣泛應(yīng)用,其安全問題日益凸顯,攻擊者可通過精心設(shè)計的輸入操控模型生成有害圖像。天津大學(xué)團(tuán)隊發(fā)表的綜述論文系統(tǒng)梳理了文生圖模型的攻擊方式、風(fēng)險類型、威脅場景與防御體系。文中詳細(xì)分析了非目標(biāo)攻擊和目標(biāo)攻擊的特點,以及現(xiàn)有的魯棒性防御和安全性防御策略,指出當(dāng)前防御仍存在不足,未來需建立更體系化的防護(hù)體系。

隨著AI圖片生成進(jìn)入大眾視野,擴(kuò)散模型(Diffusion Models) 已經(jīng)成為當(dāng)前圖像生成最主流的技術(shù)。從設(shè)計、廣告、游戲,到媒體生產(chǎn)、影視預(yù)演,這些模型正悄悄重塑視覺內(nèi)容的生產(chǎn)方式。

但在大規(guī)模應(yīng)用快速推進(jìn)的同時,一個新的問題也愈發(fā)凸顯:這些看起來「全能」的文生圖模型,真的安全嗎?

近年來,越來越多研究者正在發(fā)現(xiàn):T2I(Text-to-Image)文生圖模型不僅會在正常提示下生成偏差內(nèi)容,更可能在一些經(jīng)過精心設(shè)計的輸入下「越界」、被操控,甚至生成具有實際危害性的圖片。

為了系統(tǒng)梳理這類風(fēng)險,天津大學(xué)團(tuán)隊發(fā)表的最新綜述,首次對文生圖模型的攻擊方式、風(fēng)險類型、威脅場景與防御體系進(jìn)行了系統(tǒng)盤點。


論文地址:https://arxiv.org/pdf/2407.15861

代碼地址:https://github.com/datar001/Awesome-AD-on-T2IDM

文生圖模型,到底有哪些風(fēng)險?攻擊者又是如何「操控」它們?我們又該如何防御?

如何突破安全漏洞?

文生圖攻擊模式解析

當(dāng)前針對文生圖擴(kuò)散模型的攻擊方式正在快速體系化。無論具體方法如何變化,它們都遵循同一框架:攻擊者先確定攻擊目的是想讓模型「偏離」還是「越界」,再向提示中注入擾動,并依照自身掌握的模型信息(黑盒或白盒)優(yōu)化這段提示,使其最終誘導(dǎo)模型生成攻擊者預(yù)期的圖像。


圖1. 文生圖模型的對抗攻擊分類

攻擊目的上,方法分為兩類。

非目標(biāo)攻擊(Untargeted Attack)通過微小的字符或詞級變動,讓模型生成與原意不一致的圖像,暴露其魯棒性不足;

目標(biāo)攻擊(Targeted Attack)則直接繞過安全機(jī)制,誘導(dǎo)模型生成色情、暴力或侵權(quán)等高風(fēng)險內(nèi)容,是當(dāng)前最受關(guān)注的威脅。

擾動方式決定了攻擊的隱蔽程度。

字符級(Character-level)擾動幾乎難以察覺;詞級替換(Word-level)可隱藏敏感語義;

句級重寫(Sentence-level)則能將危險意圖以隱含語義形式表達(dá)。盡管表面「干凈」,擴(kuò)散模型仍會在潛在空間中恢復(fù)出潛藏的高危語義,使這類攻擊極具迷惑性。

攻擊者對模型掌握的信息量也決定了策略的強(qiáng)弱。

白盒攻擊(White-Box)可直接操控潛空間,對生成路徑進(jìn)行精準(zhǔn)干預(yù);

黑盒攻擊(Black-Box)雖然只依賴接口輸出,卻仍能利用偽詞或LLM改寫的提示穩(wěn)定觸發(fā)敏感圖像,說明現(xiàn)有黑盒防護(hù)遠(yuǎn)不牢靠。

非目標(biāo)攻擊:以評估魯棒性為導(dǎo)向的語義偏離

非目標(biāo)攻擊以魯棒性評估為主要目的:通過對干凈提示施加微小擾動構(gòu)造對抗提示,使生成結(jié)果在語義層面顯著偏離由原始提示產(chǎn)生的干凈輸出,從而揭示文生圖擴(kuò)散模型在文本—圖像映射上的不穩(wěn)定性與脆弱邊界。

白盒設(shè)定下,非目標(biāo)攻擊可以概括為「可優(yōu)化的語義偏離」:攻擊者先定義一個可計算的偏離目標(biāo)(例如借助外部判別信號,或在表征空間中拉開對抗提示與干凈提示的距離),再用梯度法(如PGD) 迭代更新提示,使模型輸出逐步脫離干凈提示所對應(yīng)的語義軌跡。

為了兼顧隱蔽性,這類方法通常將擾動控制在詞級,通過少量替換、增補等操作注入最小但有效的噪聲。

黑盒設(shè)定下,由于無法獲取梯度,攻擊思路則轉(zhuǎn)向「輸出驅(qū)動的差異最大化」:用可觀測的輸出差異指標(biāo)替代梯度信號(如度量對抗提示與干凈提示的輸出圖片分布差異),并結(jié)合字符級微擾啟發(fā)式/貪心搜索迭代構(gòu)造對抗提示,從而僅憑接口反饋也能持續(xù)放大語義偏離并獲得穩(wěn)定攻擊效果。

目標(biāo)攻擊:以繞過安全防御為導(dǎo)向的定向越界生成


圖2. 目標(biāo)攻擊的常見擾動方式

如果說非目標(biāo)攻擊驗證的是模型的魯棒性邊界,那么目標(biāo)攻擊關(guān)注的就是更現(xiàn)實的安全威脅:在系統(tǒng)已經(jīng)部署安全防御的前提下,仍然誘導(dǎo)模型生成包含特定惡意概念的圖像。

這種攻擊不再滿足于讓結(jié)果「偏離原意」,而是要讓系統(tǒng)在攔截機(jī)制存在的情況下仍被迫「放行」,最終產(chǎn)出色情、暴力、侵權(quán)等高風(fēng)險內(nèi)容。

目標(biāo)攻擊可進(jìn)一步分為三類:面向輸入/輸出端防御的外部防御攻擊,面向生成過程約束的內(nèi)部防御攻擊,以及面向閉源部署場景、依賴交互反饋的黑盒防御攻擊。

外部防御攻擊:讓過濾器「看不見」,但讓模型「看得懂」

外部防御部署在模型之外,靠黑名單、規(guī)則或文本/圖像分類器在生成前后攔截「顯性風(fēng)險線索」;

對應(yīng)地,攻擊的核心目標(biāo)往往不是「強(qiáng)行硬闖」,而是削弱提示與惡意概念之間的顯式對應(yīng)關(guān)系:過濾器看到的是更干凈的表達(dá),但模型仍能在上下文中恢復(fù)并執(zhí)行隱含意圖。

圖2給出了一組典型策略:最常見的是詞級擾動(替換敏感詞、插入無關(guān)詞、添加前后綴等),把高危信號藏進(jìn)更難被規(guī)則捕捉的字面形式中;更進(jìn)一步的做法是句級重寫,將危險意圖以更自然、更流暢的方式重新表述,從而在語法與語義層面降低被檢測概率。

內(nèi)部防御攻擊:從「繞規(guī)則」升級為「攻嵌入與潛空間」

內(nèi)部防御直接干預(yù)生成過程本身,通過修改參數(shù)、修改特征或推理引導(dǎo)把生成分布推離惡意概念,因此針對它的目標(biāo)攻擊往往更「底層」:攻擊不再主要依賴詞面替換,而是轉(zhuǎn)向不同的優(yōu)化空間(比如輸入文本嵌入空間,生成預(yù)測潛空間,以及生成圖片嵌入空間)去「找回」被抑制的惡意概念

黑盒防御攻擊:閉源并不等于牢固,反而催生更強(qiáng)的策略化攻擊

黑盒防御把安全機(jī)制封裝在閉源系統(tǒng)里,對外只暴露接口,外部既看不到規(guī)則也改不了參數(shù);

相應(yīng)地,目標(biāo)攻擊就更依賴「策略迭代」:通過多輪交互觀察哪些表達(dá)被拒絕、哪些能通過,再持續(xù)改寫提示逼近可行的對抗表述。

為了擺脫手工試探的高成本,越來越多攻擊會引入自動化流程并且常借助LLM參與改寫/優(yōu)化,尤其偏好句級層面的自然改寫,使對抗提示更像正常需求、更不易觸發(fā)顯式規(guī)則。


圖3. 文生圖模型對抗攻擊方法的分類

圖3對整套攻擊譜系做了匯總:相比強(qiáng)調(diào)魯棒性的非目標(biāo)攻擊,目標(biāo)攻擊數(shù)量更密集,反映出安全風(fēng)險更集中地落在「越界生成」這一現(xiàn)實問題上;

與此同時,攻擊主要依賴詞級與句級擾動,遠(yuǎn)多于字符級微擾——這意味著對抗正在從表層拼寫噪聲走向更強(qiáng)的語義操控與自然語言包裝,系統(tǒng)未來面對的將不只是「敏感詞」,而是越來越難以從字面直接識別的「敏感意圖」。

從生成穩(wěn)不穩(wěn)到安不安全

兩類防御策略的核心思路

現(xiàn)有的防御策略大體可以分為兩種思路:一類旨在提升模型面對輸入擾動時的穩(wěn)定性,即魯棒性導(dǎo)向防御;另一類則面向?qū)嶋H內(nèi)容安全場景,試圖阻斷敏感生成鏈路,是更直接的安全導(dǎo)向防御。這兩類方法雖然目標(biāo)不同,卻都反映出現(xiàn)階段擴(kuò)散模型安全體系的「破口」與「縫補」。

魯棒性防御:先把「語義對齊」補牢

魯棒性防御通過強(qiáng)化文本與視覺之間的一致性、優(yōu)化交叉注意力映射關(guān)系等方式,緩解模型因提示細(xì)微擾動而出現(xiàn)的語義偏移。

它們有助于減少非目標(biāo)攻擊對生成穩(wěn)定性的影響,提高模型在面對變化多樣的輸入時的適應(yīng)能力,從而確保生成的圖像更加準(zhǔn)確地反映原始文本的意圖。

安全性防御:外部防御與內(nèi)部防御的體系化分工

在安全性防御目標(biāo)下,現(xiàn)有方法按作用位置主要分為外部防御與內(nèi)部防御兩類。


圖4. 文生圖模型的三個外部防御策略

外部防御在模型之外建立前置控制鏈路,其典型流程在圖4中可歸納為三條路徑:

提示分類/攔截——以 Latent Guard 為代表,先對輸入提示做風(fēng)險判別,若提示在語義空間中接近「惡意概念」則直接拒絕生成;

提示重寫/凈化——以 POSI、GuardT2I 為代表,將潛在惡意或?qū)剐员磉_(dá)改寫為更安全的提示后再進(jìn)入生成,圖4(b) 展示了「危險提示→安全提示→生成」的基本鏈路,而圖4(c) 進(jìn)一步體現(xiàn)出「先改寫、再疊加黑名單過濾」的兩段式流程,用以處理更隱蔽、語法更不規(guī)整的對抗提示;

黑名單/規(guī)則過濾——對提示進(jìn)行詞表或規(guī)則層面的攔截,并常與重寫或分類器組合使用以增強(qiáng)覆蓋。

這一路線的優(yōu)勢在于部署成本低、易于模塊化集成,但其有效性高度依賴于風(fēng)險語義能否在「輸入側(cè)」被可靠識別:當(dāng)攻擊通過隱喻、偽詞或句級改寫削弱顯式風(fēng)險信號時,外部防御往往更容易出現(xiàn)繞過與漏檢。


圖5. 文生圖模型的兩個內(nèi)部防御策略

內(nèi)部防御則直接作用于生成模型內(nèi)部機(jī)制,其典型框架在圖5中被歸納為兩條主線:模型編輯(Model Editing)與推理引導(dǎo)(Inference Guidance)

模型編輯:把「危險概念」從模型里抹掉或削弱,圖5(a) 用「編輯前/編輯后」的對比直觀表達(dá):同樣面對涉及裸露的提示,編輯后的模型會輸出更安全的生成。

推理引導(dǎo):不改參數(shù),推理階段把生成軌跡「拉回安全區(qū)」,圖5(b) 展示了另一種思路:以SLD及相關(guān)工作為代表,不必修改模型權(quán)重,而是在采樣推理階段引入額外的引導(dǎo)項或特征約束,使生成軌跡在去噪過程中遠(yuǎn)離惡意概念區(qū)域、朝更安全的方向偏移。

內(nèi)部防御相比外部防御更接近「機(jī)制層防御」,但也面臨代價與效果權(quán)衡:模型編輯可能帶來生成能力或泛化能力的副作用;推理引導(dǎo)雖更輕量、可插拔,但仍可能被更強(qiáng)的對抗提示突破或被繞過部署鏈路。


圖6. 現(xiàn)有安全性防御方法的分類總結(jié)

圖6展示了現(xiàn)有安全性防御方法的版圖,能看出一個趨勢:在「真正要讓模型安全」這件事上,研究重心正在向內(nèi)部防御傾斜,尤其是模型編輯——因為外部防御再精密,也很難從根本上解決繞過安全防御這一類目標(biāo)攻擊越獄問題。

但問題在于,兩條路都不完美:

外部防御依賴顯性線索,很容易被偽詞、句級重寫這類語義規(guī)避騙過;

內(nèi)部防御代價高、調(diào)不好還會影響正常生成,而且在面對專門為其設(shè)計的對抗提示時依然可能失效。

整體而言,當(dāng)前文生圖安全防御更多仍停留在「碎片化補丁」的階段,距離可覆蓋多類攻擊、可長期對抗的穩(wěn)健體系仍有明顯差距。

挑戰(zhàn)與未來方向

對抗更隱蔽,防御更體系化

隨著文生圖模型不斷增強(qiáng),更隱蔽、更自動化的對抗攻擊正在迅速涌現(xiàn),暴露出現(xiàn)有防御在細(xì)粒度擾動語義規(guī)避面前的明顯不足。

文生圖安全的下一步,不再是為每一種攻擊打補丁,而是識別對抗提示背后的共性結(jié)構(gòu),讓模型具備「模式級」的安全理解能力。只有從語義底層建立起機(jī)制化的防護(hù)體系,未來的文生圖模型才能真正穩(wěn)健可信。

參考資料:

https://arxiv.org/pdf/2407.15861

秒追ASI

?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
國運來了誰也擋不住!100年前北洋政府隨手簽的條約,如今贏麻了

國運來了誰也擋不??!100年前北洋政府隨手簽的條約,如今贏麻了

史之銘
2025-12-11 20:01:11
郭德綱回應(yīng)相聲被投訴,“壞人領(lǐng)著糊涂人打好人”

郭德綱回應(yīng)相聲被投訴,“壞人領(lǐng)著糊涂人打好人”

TMT流程審計
2025-12-21 22:55:00
林彪帶走所有王牌,只給他留下3000殘兵,8年后,他讓整個日本陸軍懷疑人生

林彪帶走所有王牌,只給他留下3000殘兵,8年后,他讓整個日本陸軍懷疑人生

寄史言志
2025-12-16 22:45:14
歐洲傻眼了!你敢凍我2290億?好!我直接“合法抄家”2300億。

歐洲傻眼了!你敢凍我2290億?好!我直接“合法抄家”2300億。

忠于法紀(jì)
2025-12-20 10:20:04
演員林峯回應(yīng)撞臉兵馬俑:有被嚇到,想去看一看

演員林峯回應(yīng)撞臉兵馬俑:有被嚇到,想去看一看

紅星新聞
2025-12-21 11:00:19
中央戲劇學(xué)院郝戎值得關(guān)注,“以首代查”原因曝光,他貪財又貪色

中央戲劇學(xué)院郝戎值得關(guān)注,“以首代查”原因曝光,他貪財又貪色

平老師666
2025-12-21 23:37:06
明年起 北京住宅物業(yè)企業(yè)將每半年“大考”一次

明年起 北京住宅物業(yè)企業(yè)將每半年“大考”一次

極目新聞
2025-12-21 08:22:45
保時捷男打女人后續(xù):女方傷情嚴(yán)重拒絕和解,打人原因曝光太可笑

保時捷男打女人后續(xù):女方傷情嚴(yán)重拒絕和解,打人原因曝光太可笑

奇思妙想草葉君
2025-12-11 02:44:02
54歲朱茵現(xiàn)狀:依舊開97年的車,住在深山殘屋,狀態(tài)一如既往的好

54歲朱茵現(xiàn)狀:依舊開97年的車,住在深山殘屋,狀態(tài)一如既往的好

小熊侃史
2025-12-17 09:43:27
權(quán)力迷失之路:鹽城市數(shù)據(jù)局朱照偉涉嫌嚴(yán)重違紀(jì)違法被查

權(quán)力迷失之路:鹽城市數(shù)據(jù)局朱照偉涉嫌嚴(yán)重違紀(jì)違法被查

飛鶴傳媒
2025-12-20 12:03:30
嚴(yán)屹寬老婆租房陪讀,女兒上3年級離學(xué)校7公里,一個月至少8000多

嚴(yán)屹寬老婆租房陪讀,女兒上3年級離學(xué)校7公里,一個月至少8000多

民間平哥
2025-12-21 19:45:17
2億人在喊:自己交100%的錢,只能拿40%?靈活就業(yè)社保該動真格了

2億人在喊:自己交100%的錢,只能拿40%?靈活就業(yè)社保該動真格了

老特有話說
2025-12-19 21:22:11
錢多有什么用?42歲離婚無兒無女的尼格買提,走上了另外一條道路

錢多有什么用?42歲離婚無兒無女的尼格買提,走上了另外一條道路

古事尋蹤記
2025-12-20 07:13:47
技能培訓(xùn),鋪就職業(yè)進(jìn)階之路(邁向“十五五”的民生圖景)

技能培訓(xùn),鋪就職業(yè)進(jìn)階之路(邁向“十五五”的民生圖景)

人民網(wǎng)
2025-12-21 09:04:22
土耳其欲向俄羅斯退還S-400系統(tǒng),并索回約25億美元款項

土耳其欲向俄羅斯退還S-400系統(tǒng),并索回約25億美元款項

碳基生物關(guān)懷組織
2025-12-18 19:53:52
寶馬5系這波降價太狠了!網(wǎng)友:要逆襲奔馳E級

寶馬5系這波降價太狠了!網(wǎng)友:要逆襲奔馳E級

汽車網(wǎng)評
2025-12-21 20:48:43
澳門回歸前,富商馬萬祺前來提醒:請向中央反映,澳門必須駐軍

澳門回歸前,富商馬萬祺前來提醒:請向中央反映,澳門必須駐軍

壹知眠羊
2025-12-19 07:17:58
朱孝天被踢后情緒失控,偷看F3直播暗諷阿信顯情商低

朱孝天被踢后情緒失控,偷看F3直播暗諷阿信顯情商低

仁慈的視角
2025-12-21 19:22:46
冬至后,心腦血管進(jìn)入“高危期”!6個保命提醒,患者快收藏

冬至后,心腦血管進(jìn)入“高危期”!6個保命提醒,患者快收藏

孟大夫之家1
2025-12-20 17:57:24
一夜2場大敗!奪冠熱門輸魚腩,昔日總冠軍狂輸31分,積分榜出爐

一夜2場大??!奪冠熱門輸魚腩,昔日總冠軍狂輸31分,積分榜出爐

老吳說體育
2025-12-21 00:30:58
2025-12-22 00:15:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14153文章數(shù) 66394關(guān)注度
往期回顧 全部

科技要聞

生態(tài)適配已超95% 鴻蒙下一關(guān):十萬個應(yīng)用

頭條要聞

必勝客牛排口感奇怪遭質(zhì)疑"到底用的什么肉" 官方介入

頭條要聞

必勝客牛排口感奇怪遭質(zhì)疑"到底用的什么肉" 官方介入

體育要聞

勇士火箭贏球:王牌之外的答案?

娛樂要聞

星光大賞太尷尬!搶話擋鏡頭,場地還小

財經(jīng)要聞

老房子“強(qiáng)制體檢”,政府出手了

汽車要聞

-30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

態(tài)度原創(chuàng)

家居
藝術(shù)
親子
旅游
手機(jī)

家居要聞

高端私宅 理想隱居圣地

藝術(shù)要聞

俄羅斯畫家尼古拉·波格丹諾夫·貝爾斯基人物繪畫作品

親子要聞

專訪90后三胎媽媽:賣掉杭州500萬房產(chǎn),帶孩子去內(nèi)蒙當(dāng)「牧民」

旅游要聞

冰雪升級 體驗煥新 長春哈王國冰雪樂園開園!

手機(jī)要聞

曝折疊屏iPhone嘗試 UFG 玻璃,明年九月發(fā)

無障礙瀏覽 進(jìn)入關(guān)懷版