国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

攻破閉源多模態(tài)大模型:一種基于特征最優(yōu)對齊的新型對抗攻擊方法

0
分享至



近年來,多模態(tài)大語言模型(MLLMs)取得了令人矚目的突破,在視覺理解、跨模態(tài)推理、圖像描述等任務上表現(xiàn)出強大的能力。然而,隨著這些模型的廣泛部署,其潛在的安全風險也逐漸引起關注。

研究表明,MLLMs 同樣繼承了視覺編碼器對抗脆弱性的特征,容易受到對抗樣本的欺騙。這些對抗樣本在現(xiàn)實應用中可能導致模型輸出錯誤或泄露敏感信息,給大規(guī)模模型的安全部署帶來嚴重隱患。

在此背景下,如何提升對抗攻擊的可遷移性 —— 即對抗樣本跨模型、尤其是跨閉源模型仍能保持攻擊有效性 —— 成為當前研究的關鍵難題。

然而,當面對如 GPT-4、Claude-3 等強大的閉源商業(yè)模型時,現(xiàn)有攻擊方法的遷移效果顯著下降。原因在于,這些方法通常僅對齊全局特征(如 CLIP 的 [CLS] token),而忽略了圖像補丁(patch tokens)中蘊含的豐富局部信息,導致特征對齊不充分、遷移能力受限。

為解決這一難題,本文提出了一種名為FOA-Attack(Feature Optimal Alignment Attack)的全新靶向遷移式對抗攻擊框架。該方法的核心思想是同時在全局和局部兩個層面實現(xiàn)特征的最優(yōu)對齊,從而顯著提升攻擊的遷移能力。

  • 在全局層面,通過余弦相似度損失來對齊粗粒度的全局特征。
  • 在局部層面,創(chuàng)新性地使用聚類技術提取關鍵的局部特征模式,并將其建模為一個最優(yōu)傳輸(Optimal Transport, OT)問題,實現(xiàn)細粒度的精準對齊。
  • 此外,本文還設計了一種動態(tài)集成權重策略,在攻擊生成過程中自適應地平衡多個模型的影響,進一步增強遷移性。

大量實驗表明,FOA-Attack 在攻擊各種開源及閉源 MLLMs 時,性能全面超越了現(xiàn)有 SOTA 方法,尤其是在針對商業(yè)閉源模型的攻擊上取得了驚人的成功率,且本工作對應的論文和代碼均已開源。



  • 論文鏈接:https://arxiv.org/abs/2505.21494
  • 代碼鏈接:https://github.com/jiaxiaojunQAQ/FOA-Attack

研究背景

多模態(tài)大語言模型(MLLMs),如 GPT-4o、Claude-3.7 和 Gemini-2.0,通過融合視覺和語言能力,在圖像理解、視覺問答等任務上展現(xiàn)了非凡的性能。然而,這些模型繼承了其視覺編碼器的脆弱性,容易受到對抗樣本的攻擊。對抗樣本通過在原始圖像上添加人眼難以察覺的微小擾動,就能誘導模型產生錯誤的輸出。

對抗攻擊分為非目標攻擊(旨在使模型輸出錯誤)目標攻擊(旨在使模型輸出特定的目標內容)。對于無法訪問模型內部結構和參數(shù)的黑盒場景(尤其是商業(yè)閉源模型),實現(xiàn)高效的目標遷移攻擊極具挑戰(zhàn)性。

這意味著,在一個或多個替代模型(surrogate models)上生成的對抗樣本,需要能夠成功欺騙一個完全未知的黑盒目標模型。盡管現(xiàn)有工作已證明了這種攻擊的可行性,但其遷移成功率,特別是針對最先進的閉源 MLLMs 時,仍有很大的提升空間。

動機和理論分析

在多模態(tài)大語言模型(MLLMs)依賴的 Transformer 架構視覺編碼器(如 CLIP)中,存在明確的特征分工:[CLS] token 提煉圖像宏觀主題(如「大象」「森林」),但會舍棄細粒度細節(jié);patch tokens 則編碼局部信息(如「大象耳朵形態(tài)」「植被密度」),是模型精準理解圖像的關鍵,缺失會導致對抗樣本語義真實性不足。

現(xiàn)有對抗攻擊方法的核心局限的是,僅聚焦 [CLS] token 全局特征對齊,忽略 patch tokens 的局部價值,引發(fā)兩大問題:一是語義對齊不充分,全局特征難區(qū)分「大象在森林」與「大象在草原」這類細節(jié)差異,局部特征卻能清晰界定;二是遷移性差,擾動過度適配替代模型的全局特征,閉源 MLLMs(如 GPT-4o)因視覺編碼器設計不同,易識別「虛假語義」,攻擊效果驟降。

為突破此局限,FOA-Attack 提出「全局 + 局部」雙維度對齊思路(如圖 1 所示):

圖 1 (a) 中「特征最優(yōu)對齊損失」包含兩大模塊,全局層面用余弦相似度損失對齊 [CLS] token,保證整體語義一致;局部層面通過聚類提取關鍵模式,將對齊建模為最優(yōu)傳輸(OT)問題(右側「Optimal Transmission」),用 Sinkhorn 算法實現(xiàn)細粒度匹配。

圖 1 (b) 的「動態(tài)集成模型權重策略」則讓多編碼器并行生成對抗樣本,依收斂速度自適應調權 —— 易優(yōu)化模型權重低、難優(yōu)化模型權重高,避免偏向單一模型特征。兩者互補,解決了單一維度對齊缺陷,顯著提升對開源及閉源 MLLMs 的攻擊遷移性。



圖 1: FQA-Attack 示意圖

方法

FOA-Attack 以生成「語義對齊、遷移性強」的對抗樣本為核心目標,通過三個協(xié)同模塊構建攻擊框架,且所有設計均基于對多模態(tài)模型特征機制與對抗遷移性的深度優(yōu)化。













最后是動態(tài)集成模型權重模塊,解決傳統(tǒng)多模型集成「權重均等易偏科」的問題。以 ViT-B/16、ViT-B/32 等 CLIP 變體為替代模型,先定義「學習速度」Si (T)(第 i 個模型第 T 步與 T?1 步的損失比值,比值越小學習越快),再根據學習速度自適應調整權重 —— 學習慢的模型權重更高,避免優(yōu)化偏向易適配模型。核心權重公式與總損失公式分別為:





實驗效果

開源模型



表 1:在不同開源模型上的攻擊成功率(ASR)與語義相似度(AvgSim)

在 Qwen2.5-VL、LLaVA、Gemma 等開源模型上,F(xiàn)OA-Attack 的攻擊成功率(ASR)和語義相似度(AvgSim)顯著高于 M-Attack、AnyAttack 等方法。

閉源模型



表 2:在不同閉源模型上的攻擊成功率(ASR)和語義相似度(AvgSim)

對 GPT-4o、Claude-3.7、Gemini-2.0 等商業(yè)閉源模型,F(xiàn)OA-Attack 表現(xiàn)尤為突出:尤其在 GPT-4o 上,F(xiàn)OA-Attack 的 ASR 達到 75.1%。

推理增強模型



表 3:在不同推理增強模型上的攻擊成功率(ASR)和語義相似度(AvgSim)

即使對 GPT-o3、Claude-3.7-thinking 等推理增強模型(理論上更魯棒),F(xiàn)OA-Attack 仍能突破,這表明推理增強模型的視覺編碼器仍存在脆弱性,F(xiàn)OA-Attack 的「全局 + 局部」對齊策略能有效利用這一漏洞。

可視化



圖 3:原始干凈圖像、對抗圖像和擾動圖像的可視化

結語

FOA-Attack 揭示:通過同時精細對齊全局與局部特征,并在多模型集成中做動態(tài)平衡,可以顯著提升目標式對抗樣本對閉源 MLLMs 的遷移性。研究一方面暴露了當前 MLLMs 在視覺編碼階段的脆弱面,另一方面也為防御方向提供了新的思路(例如如何在局部特征層面加固魯棒性)。作者在論文中也討論了效率和計算成本的限制,并給出未來改進方向。

目前,論文與代碼已公開,歡迎感興趣的同學閱讀,復現(xiàn)以及深入討論。

作者介紹

本文作者分別來自新加坡南洋理工大學、阿聯(lián)酋 MBZUAI、新加坡 Sea AI Lab 以及美國伊利諾伊大學香檳分校(UIUC)第一作者加小俊為新加坡南洋理工大學博士后。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
68歲趙本山近況曝光:賣房賣飛機救女,百億身家換不來女兒好睡眠

68歲趙本山近況曝光:賣房賣飛機救女,百億身家換不來女兒好睡眠

明月光
2025-11-22 13:57:08
毛主席的表哥文運昌,赴京期間飲酒無度,被毛主席責令返鄉(xiāng),直至離世前,心中仍對此事耿耿于懷未能放下

毛主席的表哥文運昌,赴京期間飲酒無度,被毛主席責令返鄉(xiāng),直至離世前,心中仍對此事耿耿于懷未能放下

桃煙讀史
2025-12-20 18:19:16
宇樹機器人給王力宏伴舞,表演高難度空翻!馬斯克點贊

宇樹機器人給王力宏伴舞,表演高難度空翻!馬斯克點贊

都市快報橙柿互動
2025-12-20 13:44:33
美國檢方:布朗大學槍手也是殺害麻省理工學院教授的兇手

美國檢方:布朗大學槍手也是殺害麻省理工學院教授的兇手

新華社
2025-12-19 14:45:05
周星馳的《功夫》中,病怏怏的琛哥為什么能當上斧頭幫的老大?

周星馳的《功夫》中,病怏怏的琛哥為什么能當上斧頭幫的老大?

殺死虛無主義
2025-12-20 07:37:33
印度首富300斤兒子款待梅西,邀球星去動物園,漂亮妻胯是真寬

印度首富300斤兒子款待梅西,邀球星去動物園,漂亮妻胯是真寬

觀察鑒娛
2025-12-18 09:33:39
觸目驚心!柬埔寨電詐窩點繳獲物資曝光,別再信海外高薪了!

觸目驚心!柬埔寨電詐窩點繳獲物資曝光,別再信海外高薪了!

老特有話說
2025-12-19 23:20:46
直降2140元!iPhone 17全系大幅降價,性價比飆升

直降2140元!iPhone 17全系大幅降價,性價比飆升

科技堡壘
2025-12-20 11:05:31
中美貿易戰(zhàn)一錘定音!12月21日,夜晚的四大消息已正式出爐!

中美貿易戰(zhàn)一錘定音!12月21日,夜晚的四大消息已正式出爐!

生活新鮮市
2025-12-21 05:45:28
癲出新高度!比安卡穿乳膠衣,把自己扭成家具?網友:看不懂但大受震撼

癲出新高度!比安卡穿乳膠衣,把自己扭成家具?網友:看不懂但大受震撼

最黑科技
2025-12-16 22:49:00
停播7年,那個挽救無數(shù)司機的“網紅交警”譚喬,卻挽救不了自己

停播7年,那個挽救無數(shù)司機的“網紅交警”譚喬,卻挽救不了自己

以茶帶書
2025-12-18 17:14:01
腸子悔青,“太多雞蛋裝美國籃子里了,指望中印…”

腸子悔青,“太多雞蛋裝美國籃子里了,指望中印…”

觀察者網
2025-12-20 22:21:05
施瓦辛格深夜警告:晚上健身,就是自殘!

施瓦辛格深夜警告:晚上健身,就是自殘!

徐德文科學頻道
2025-12-19 23:27:25
112-107!森林狼送雷霆第3敗,讓我看清5個事實:追不上勇士73勝

112-107!森林狼送雷霆第3敗,讓我看清5個事實:追不上勇士73勝

球場沒跑道
2025-12-20 13:30:32
演員朱珠疑似塌房?照片流出,驚呆網友!

演員朱珠疑似塌房?照片流出,驚呆網友!

大眼妹妹
2025-12-15 10:39:19
直接發(fā)錢!楊瀚森下放召回不僅報銷機票,還有餐補150美元

直接發(fā)錢!楊瀚森下放召回不僅報銷機票,還有餐補150美元

懂球帝
2025-12-21 03:56:07
俄中亞天然氣大動脈突發(fā)“人為沉降”事故 烏情報搶先爆料

俄中亞天然氣大動脈突發(fā)“人為沉降”事故 烏情報搶先爆料

老馬拉車莫少裝
2025-12-20 20:44:11
留不住的新星,伊森傷病隱患讓火箭望而卻步,掘金小將可完美取代

留不住的新星,伊森傷病隱患讓火箭望而卻步,掘金小將可完美取代

拾叁懂球
2025-12-21 02:13:57
太棒了!這穿著你是一點都不遮掩,真是太讓人羨慕了

太棒了!這穿著你是一點都不遮掩,真是太讓人羨慕了

章眽八卦
2025-11-29 11:58:56
發(fā)現(xiàn)一個奇怪的現(xiàn)象:在體制內 , 越來越多的人不愿意出差了

發(fā)現(xiàn)一個奇怪的現(xiàn)象:在體制內 , 越來越多的人不愿意出差了

職場資深秘書
2025-12-12 13:50:33
2025-12-21 07:24:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142515關注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時刻"還未到來

頭條要聞

高市早苗要趕在特朗普訪華前行動 以免被中美邊緣化

頭條要聞

高市早苗要趕在特朗普訪華前行動 以免被中美邊緣化

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會陣容曝光,豪華陣仗

財經要聞

求解“地方財政困難”

汽車要聞

嵐圖推進L3量產測試 已完成11萬公里實際道路驗證

態(tài)度原創(chuàng)

健康
手機
旅游
藝術
數(shù)碼

這些新療法,讓化療不再那么痛苦

手機要聞

小米REDMI Note 15系列手機新春版現(xiàn)身,元旦發(fā)售

旅游要聞

非遺走出博物館!黔西南38支團隊迎客演出,解碼小城文旅新密碼

藝術要聞

中國老香煙品牌,你知道多少?

數(shù)碼要聞

一屏多用:華為Mate X7 / XTs折疊屏手機“變身”智能手卡

無障礙瀏覽 進入關懷版