国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

攻破閉源多模態(tài)大模型:一種基于特征最優(yōu)對(duì)齊的新型對(duì)抗攻擊方法

0
分享至



近年來(lái),多模態(tài)大語(yǔ)言模型(MLLMs)取得了令人矚目的突破,在視覺理解、跨模態(tài)推理、圖像描述等任務(wù)上表現(xiàn)出強(qiáng)大的能力。然而,隨著這些模型的廣泛部署,其潛在的安全風(fēng)險(xiǎn)也逐漸引起關(guān)注。

研究表明,MLLMs 同樣繼承了視覺編碼器對(duì)抗脆弱性的特征,容易受到對(duì)抗樣本的欺騙。這些對(duì)抗樣本在現(xiàn)實(shí)應(yīng)用中可能導(dǎo)致模型輸出錯(cuò)誤或泄露敏感信息,給大規(guī)模模型的安全部署帶來(lái)嚴(yán)重隱患。

在此背景下,如何提升對(duì)抗攻擊的可遷移性 —— 即對(duì)抗樣本跨模型、尤其是跨閉源模型仍能保持攻擊有效性 —— 成為當(dāng)前研究的關(guān)鍵難題。

然而,當(dāng)面對(duì)如 GPT-4、Claude-3 等強(qiáng)大的閉源商業(yè)模型時(shí),現(xiàn)有攻擊方法的遷移效果顯著下降。原因在于,這些方法通常僅對(duì)齊全局特征(如 CLIP 的 [CLS] token),而忽略了圖像補(bǔ)?。╬atch tokens)中蘊(yùn)含的豐富局部信息,導(dǎo)致特征對(duì)齊不充分、遷移能力受限。

為解決這一難題,本文提出了一種名為FOA-Attack(Feature Optimal Alignment Attack)的全新靶向遷移式對(duì)抗攻擊框架。該方法的核心思想是同時(shí)在全局和局部?jī)蓚€(gè)層面實(shí)現(xiàn)特征的最優(yōu)對(duì)齊,從而顯著提升攻擊的遷移能力。

  • 在全局層面,通過(guò)余弦相似度損失來(lái)對(duì)齊粗粒度的全局特征。
  • 在局部層面,創(chuàng)新性地使用聚類技術(shù)提取關(guān)鍵的局部特征模式,并將其建模為一個(gè)最優(yōu)傳輸(Optimal Transport, OT)問題,實(shí)現(xiàn)細(xì)粒度的精準(zhǔn)對(duì)齊。
  • 此外,本文還設(shè)計(jì)了一種動(dòng)態(tài)集成權(quán)重策略,在攻擊生成過(guò)程中自適應(yīng)地平衡多個(gè)模型的影響,進(jìn)一步增強(qiáng)遷移性。

大量實(shí)驗(yàn)表明,FOA-Attack 在攻擊各種開源及閉源 MLLMs 時(shí),性能全面超越了現(xiàn)有 SOTA 方法,尤其是在針對(duì)商業(yè)閉源模型的攻擊上取得了驚人的成功率,且本工作對(duì)應(yīng)的論文和代碼均已開源。



  • 論文鏈接:https://arxiv.org/abs/2505.21494
  • 代碼鏈接:https://github.com/jiaxiaojunQAQ/FOA-Attack

研究背景

多模態(tài)大語(yǔ)言模型(MLLMs),如 GPT-4o、Claude-3.7 和 Gemini-2.0,通過(guò)融合視覺和語(yǔ)言能力,在圖像理解、視覺問答等任務(wù)上展現(xiàn)了非凡的性能。然而,這些模型繼承了其視覺編碼器的脆弱性,容易受到對(duì)抗樣本的攻擊。對(duì)抗樣本通過(guò)在原始圖像上添加人眼難以察覺的微小擾動(dòng),就能誘導(dǎo)模型產(chǎn)生錯(cuò)誤的輸出。

對(duì)抗攻擊分為非目標(biāo)攻擊(旨在使模型輸出錯(cuò)誤)目標(biāo)攻擊(旨在使模型輸出特定的目標(biāo)內(nèi)容)。對(duì)于無(wú)法訪問模型內(nèi)部結(jié)構(gòu)和參數(shù)的黑盒場(chǎng)景(尤其是商業(yè)閉源模型),實(shí)現(xiàn)高效的目標(biāo)遷移攻擊極具挑戰(zhàn)性。

這意味著,在一個(gè)或多個(gè)替代模型(surrogate models)上生成的對(duì)抗樣本,需要能夠成功欺騙一個(gè)完全未知的黑盒目標(biāo)模型。盡管現(xiàn)有工作已證明了這種攻擊的可行性,但其遷移成功率,特別是針對(duì)最先進(jìn)的閉源 MLLMs 時(shí),仍有很大的提升空間。

動(dòng)機(jī)和理論分析

在多模態(tài)大語(yǔ)言模型(MLLMs)依賴的 Transformer 架構(gòu)視覺編碼器(如 CLIP)中,存在明確的特征分工:[CLS] token 提煉圖像宏觀主題(如「大象」「森林」),但會(huì)舍棄細(xì)粒度細(xì)節(jié);patch tokens 則編碼局部信息(如「大象耳朵形態(tài)」「植被密度」),是模型精準(zhǔn)理解圖像的關(guān)鍵,缺失會(huì)導(dǎo)致對(duì)抗樣本語(yǔ)義真實(shí)性不足。

現(xiàn)有對(duì)抗攻擊方法的核心局限的是,僅聚焦 [CLS] token 全局特征對(duì)齊,忽略 patch tokens 的局部?jī)r(jià)值,引發(fā)兩大問題:一是語(yǔ)義對(duì)齊不充分,全局特征難區(qū)分「大象在森林」與「大象在草原」這類細(xì)節(jié)差異,局部特征卻能清晰界定;二是遷移性差,擾動(dòng)過(guò)度適配替代模型的全局特征,閉源 MLLMs(如 GPT-4o)因視覺編碼器設(shè)計(jì)不同,易識(shí)別「虛假語(yǔ)義」,攻擊效果驟降。

為突破此局限,FOA-Attack 提出「全局 + 局部」雙維度對(duì)齊思路(如圖 1 所示):

圖 1 (a) 中「特征最優(yōu)對(duì)齊損失」包含兩大模塊,全局層面用余弦相似度損失對(duì)齊 [CLS] token,保證整體語(yǔ)義一致;局部層面通過(guò)聚類提取關(guān)鍵模式,將對(duì)齊建模為最優(yōu)傳輸(OT)問題(右側(cè)「Optimal Transmission」),用 Sinkhorn 算法實(shí)現(xiàn)細(xì)粒度匹配。

圖 1 (b) 的「動(dòng)態(tài)集成模型權(quán)重策略」則讓多編碼器并行生成對(duì)抗樣本,依收斂速度自適應(yīng)調(diào)權(quán) —— 易優(yōu)化模型權(quán)重低、難優(yōu)化模型權(quán)重高,避免偏向單一模型特征。兩者互補(bǔ),解決了單一維度對(duì)齊缺陷,顯著提升對(duì)開源及閉源 MLLMs 的攻擊遷移性。



圖 1: FQA-Attack 示意圖

方法

FOA-Attack 以生成「語(yǔ)義對(duì)齊、遷移性強(qiáng)」的對(duì)抗樣本為核心目標(biāo),通過(guò)三個(gè)協(xié)同模塊構(gòu)建攻擊框架,且所有設(shè)計(jì)均基于對(duì)多模態(tài)模型特征機(jī)制與對(duì)抗遷移性的深度優(yōu)化。













最后是動(dòng)態(tài)集成模型權(quán)重模塊,解決傳統(tǒng)多模型集成「權(quán)重均等易偏科」的問題。以 ViT-B/16、ViT-B/32 等 CLIP 變體為替代模型,先定義「學(xué)習(xí)速度」Si (T)(第 i 個(gè)模型第 T 步與 T?1 步的損失比值,比值越小學(xué)習(xí)越快),再根據(jù)學(xué)習(xí)速度自適應(yīng)調(diào)整權(quán)重 —— 學(xué)習(xí)慢的模型權(quán)重更高,避免優(yōu)化偏向易適配模型。核心權(quán)重公式與總損失公式分別為:





實(shí)驗(yàn)效果

開源模型



表 1:在不同開源模型上的攻擊成功率(ASR)與語(yǔ)義相似度(AvgSim)

在 Qwen2.5-VL、LLaVA、Gemma 等開源模型上,F(xiàn)OA-Attack 的攻擊成功率(ASR)和語(yǔ)義相似度(AvgSim)顯著高于 M-Attack、AnyAttack 等方法。

閉源模型



表 2:在不同閉源模型上的攻擊成功率(ASR)和語(yǔ)義相似度(AvgSim)

對(duì) GPT-4o、Claude-3.7、Gemini-2.0 等商業(yè)閉源模型,F(xiàn)OA-Attack 表現(xiàn)尤為突出:尤其在 GPT-4o 上,F(xiàn)OA-Attack 的 ASR 達(dá)到 75.1%。

推理增強(qiáng)模型



表 3:在不同推理增強(qiáng)模型上的攻擊成功率(ASR)和語(yǔ)義相似度(AvgSim)

即使對(duì) GPT-o3、Claude-3.7-thinking 等推理增強(qiáng)模型(理論上更魯棒),F(xiàn)OA-Attack 仍能突破,這表明推理增強(qiáng)模型的視覺編碼器仍存在脆弱性,F(xiàn)OA-Attack 的「全局 + 局部」對(duì)齊策略能有效利用這一漏洞。

可視化



圖 3:原始干凈圖像、對(duì)抗圖像和擾動(dòng)圖像的可視化

結(jié)語(yǔ)

FOA-Attack 揭示:通過(guò)同時(shí)精細(xì)對(duì)齊全局與局部特征,并在多模型集成中做動(dòng)態(tài)平衡,可以顯著提升目標(biāo)式對(duì)抗樣本對(duì)閉源 MLLMs 的遷移性。研究一方面暴露了當(dāng)前 MLLMs 在視覺編碼階段的脆弱面,另一方面也為防御方向提供了新的思路(例如如何在局部特征層面加固魯棒性)。作者在論文中也討論了效率和計(jì)算成本的限制,并給出未來(lái)改進(jìn)方向。

目前,論文與代碼已公開,歡迎感興趣的同學(xué)閱讀,復(fù)現(xiàn)以及深入討論。

作者介紹

本文作者分別來(lái)自新加坡南洋理工大學(xué)、阿聯(lián)酋 MBZUAI、新加坡 Sea AI Lab 以及美國(guó)伊利諾伊大學(xué)香檳分校(UIUC)第一作者加小俊為新加坡南洋理工大學(xué)博士后。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
三大指數(shù)集體低開,油氣股開盤大漲,通源石油、中海油服等多股一字漲停

三大指數(shù)集體低開,油氣股開盤大漲,通源石油、中海油服等多股一字漲停

每日經(jīng)濟(jì)新聞
2026-03-02 09:38:09
第九波打擊開始!伊朗襲擊美航母,特朗普惱羞成怒,英法德或參戰(zhàn)

第九波打擊開始!伊朗襲擊美航母,特朗普惱羞成怒,英法德或參戰(zhàn)

瀟湘煙雨水
2026-03-02 09:56:11
別被《太平年》騙了 正史里的劉知遠(yuǎn) 根本不是仁厚明君 而是狠辣梟雄

別被《太平年》騙了 正史里的劉知遠(yuǎn) 根本不是仁厚明君 而是狠辣梟雄

小椰的奶奶
2026-03-02 00:32:52
成龍代言又添“受害者”:老牌空調(diào)巨頭宣布破產(chǎn)

成龍代言又添“受害者”:老牌空調(diào)巨頭宣布破產(chǎn)

帥真商業(yè)
2026-02-28 19:08:58
哈梅內(nèi)伊遇害后,中俄高層緊急通氣,聯(lián)手對(duì)美國(guó)發(fā)出警告

哈梅內(nèi)伊遇害后,中俄高層緊急通氣,聯(lián)手對(duì)美國(guó)發(fā)出警告

第一軍情
2026-03-02 11:24:20
楊紫真的已經(jīng)瘦到天賦上限了,這也太牛了…

楊紫真的已經(jīng)瘦到天賦上限了,這也太牛了…

手工制作阿殲
2026-02-22 13:25:34
傾瀉火力!美國(guó)陸軍ATACMS彈道導(dǎo)彈摧毀伊朗防空系統(tǒng)和導(dǎo)彈庫(kù)

傾瀉火力!美國(guó)陸軍ATACMS彈道導(dǎo)彈摧毀伊朗防空系統(tǒng)和導(dǎo)彈庫(kù)

軍迷戰(zhàn)情室
2026-03-02 00:10:12
好慘!香港知名演員新片激情戲被刪光,豐滿身材難現(xiàn)大銀幕

好慘!香港知名演員新片激情戲被刪光,豐滿身材難現(xiàn)大銀幕

眼底星碎
2026-03-01 11:31:34
上海電影院現(xiàn)場(chǎng)捉奸,女主照片曝光,最刺痛的一幕其實(shí)不是打架

上海電影院現(xiàn)場(chǎng)捉奸,女主照片曝光,最刺痛的一幕其實(shí)不是打架

半糖甜而不膩
2026-02-28 10:58:19
不裝了?FIBA官方半場(chǎng)急著給中國(guó)臺(tái)北開香檳 賽后疑陰陽(yáng)中國(guó)男籃

不裝了?FIBA官方半場(chǎng)急著給中國(guó)臺(tái)北開香檳 賽后疑陰陽(yáng)中國(guó)男籃

念洲
2026-03-01 21:28:03
“對(duì)于那一天 我們不期待 但絕不懼怕”中國(guó)軍號(hào)發(fā)布火箭軍備戰(zhàn)強(qiáng)音

“對(duì)于那一天 我們不期待 但絕不懼怕”中國(guó)軍號(hào)發(fā)布火箭軍備戰(zhàn)強(qiáng)音

閃電新聞
2026-03-02 11:24:45
澳大利亞慌了:西芒杜鐵礦石首次運(yùn)往中國(guó),為何標(biāo)志著全球里程碑

澳大利亞慌了:西芒杜鐵礦石首次運(yùn)往中國(guó),為何標(biāo)志著全球里程碑

命運(yùn)自認(rèn)幽默
2026-02-17 19:50:44
1.76億獨(dú)生子女,迎來(lái)一個(gè)壞消息,以后可能真的沒親戚了

1.76億獨(dú)生子女,迎來(lái)一個(gè)壞消息,以后可能真的沒親戚了

老特有話說(shuō)
2026-03-01 21:57:03
一場(chǎng)0:2驗(yàn)出海港陣中一大水貨,全程隱身不堪大用,恐遭穆帥棄用

一場(chǎng)0:2驗(yàn)出海港陣中一大水貨,全程隱身不堪大用,恐遭穆帥棄用

零度眼看球
2026-03-02 07:22:08
美軍航母“炸”了,史詩(shī)級(jí)災(zāi)難,把臉都丟光了

美軍航母“炸”了,史詩(shī)級(jí)災(zāi)難,把臉都丟光了

毛豆論道
2026-02-26 19:32:00
隊(duì)報(bào):巴黎認(rèn)為李剛?cè)首约用艘詠?lái)表現(xiàn)低于預(yù)期,球員渴望證明自己

隊(duì)報(bào):巴黎認(rèn)為李剛?cè)首约用艘詠?lái)表現(xiàn)低于預(yù)期,球員渴望證明自己

蘭亭墨未干
2026-03-02 11:55:29
堪稱第二個(gè)鄧文迪!27歲清華博士,生3娃還能替世界首富掌錢袋

堪稱第二個(gè)鄧文迪!27歲清華博士,生3娃還能替世界首富掌錢袋

通文知史
2026-03-02 12:00:03
2100枚核彈24小時(shí)待命,張召忠曾發(fā)出警告:一旦開戰(zhàn),將無(wú)處可逃

2100枚核彈24小時(shí)待命,張召忠曾發(fā)出警告:一旦開戰(zhàn),將無(wú)處可逃

近史博覽
2026-01-22 12:52:47
72萬(wàn)個(gè)充電樁,年入40億,常州夫婦邊賺錢邊收割,如今要上市了

72萬(wàn)個(gè)充電樁,年入40億,常州夫婦邊賺錢邊收割,如今要上市了

毒sir財(cái)經(jīng)
2026-02-22 10:38:14
形勢(shì)已經(jīng)徹底變了!中國(guó)開始拼命建核電站,是在釋放什么信號(hào)?

形勢(shì)已經(jīng)徹底變了!中國(guó)開始拼命建核電站,是在釋放什么信號(hào)?

一網(wǎng)打盡全球焦點(diǎn)
2026-01-23 23:02:35
2026-03-02 12:36:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12385文章數(shù) 142573關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

體育要聞

卡里克主場(chǎng)5連勝!隊(duì)史第2人通過(guò)最大考驗(yàn)

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

中東局勢(shì)影響如何?十大券商策略來(lái)了

汽車要聞

預(yù)售11.28萬(wàn)起 狐全新阿爾法S5標(biāo)配寧德時(shí)代

態(tài)度原創(chuàng)

游戲
房產(chǎn)
健康
手機(jī)
軍事航空

刺客信條幻景D加密遭攻克!這次不靠虛擬機(jī)

房產(chǎn)要聞

濱江九小也來(lái)了!集齊海僑北+哈羅、寰島...江東教育要炸了!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

手機(jī)要聞

安卓小平板性能王!全新聯(lián)想拯救者Y700官宣搭載驍龍8E5 跑分破453萬(wàn)

軍事要聞

美軍動(dòng)用新型武器:山寨伊朗的

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版