網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

攻破閉源多模態(tài)大模型：一種基于特征最優(yōu)對(duì)齊的新型對(duì)抗攻擊方法

2025-10-17 13:52:35　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

近年來(lái)，多模態(tài)大語(yǔ)言模型（MLLMs）取得了令人矚目的突破，在視覺理解、跨模態(tài)推理、圖像描述等任務(wù)上表現(xiàn)出強(qiáng)大的能力。然而，隨著這些模型的廣泛部署，其潛在的安全風(fēng)險(xiǎn)也逐漸引起關(guān)注。

研究表明，MLLMs 同樣繼承了視覺編碼器對(duì)抗脆弱性的特征，容易受到對(duì)抗樣本的欺騙。這些對(duì)抗樣本在現(xiàn)實(shí)應(yīng)用中可能導(dǎo)致模型輸出錯(cuò)誤或泄露敏感信息，給大規(guī)模模型的安全部署帶來(lái)嚴(yán)重隱患。

在此背景下，如何提升對(duì)抗攻擊的可遷移性 —— 即對(duì)抗樣本跨模型、尤其是跨閉源模型仍能保持攻擊有效性 —— 成為當(dāng)前研究的關(guān)鍵難題。

然而，當(dāng)面對(duì)如 GPT-4、Claude-3 等強(qiáng)大的閉源商業(yè)模型時(shí)，現(xiàn)有攻擊方法的遷移效果顯著下降。原因在于，這些方法通常僅對(duì)齊全局特征（如 CLIP 的 [CLS] token），而忽略了圖像補(bǔ)?。╬atch tokens）中蘊(yùn)含的豐富局部信息，導(dǎo)致特征對(duì)齊不充分、遷移能力受限。

為解決這一難題，本文提出了一種名為FOA-Attack（Feature Optimal Alignment Attack）的全新靶向遷移式對(duì)抗攻擊框架。該方法的核心思想是同時(shí)在全局和局部?jī)蓚€(gè)層面實(shí)現(xiàn)特征的最優(yōu)對(duì)齊，從而顯著提升攻擊的遷移能力。

在全局層面，通過(guò)余弦相似度損失來(lái)對(duì)齊粗粒度的全局特征。
在局部層面，創(chuàng)新性地使用聚類技術(shù)提取關(guān)鍵的局部特征模式，并將其建模為一個(gè)最優(yōu)傳輸（Optimal Transport, OT）問題，實(shí)現(xiàn)細(xì)粒度的精準(zhǔn)對(duì)齊。
此外，本文還設(shè)計(jì)了一種動(dòng)態(tài)集成權(quán)重策略，在攻擊生成過(guò)程中自適應(yīng)地平衡多個(gè)模型的影響，進(jìn)一步增強(qiáng)遷移性。

大量實(shí)驗(yàn)表明，FOA-Attack 在攻擊各種開源及閉源 MLLMs 時(shí)，性能全面超越了現(xiàn)有 SOTA 方法，尤其是在針對(duì)商業(yè)閉源模型的攻擊上取得了驚人的成功率，且本工作對(duì)應(yīng)的論文和代碼均已開源。

論文鏈接：https://arxiv.org/abs/2505.21494
代碼鏈接：https://github.com/jiaxiaojunQAQ/FOA-Attack

研究背景

多模態(tài)大語(yǔ)言模型（MLLMs），如 GPT-4o、Claude-3.7 和 Gemini-2.0，通過(guò)融合視覺和語(yǔ)言能力，在圖像理解、視覺問答等任務(wù)上展現(xiàn)了非凡的性能。然而，這些模型繼承了其視覺編碼器的脆弱性，容易受到對(duì)抗樣本的攻擊。對(duì)抗樣本通過(guò)在原始圖像上添加人眼難以察覺的微小擾動(dòng)，就能誘導(dǎo)模型產(chǎn)生錯(cuò)誤的輸出。

對(duì)抗攻擊分為非目標(biāo)攻擊（旨在使模型輸出錯(cuò)誤）目標(biāo)攻擊（旨在使模型輸出特定的目標(biāo)內(nèi)容）。對(duì)于無(wú)法訪問模型內(nèi)部結(jié)構(gòu)和參數(shù)的黑盒場(chǎng)景（尤其是商業(yè)閉源模型），實(shí)現(xiàn)高效的目標(biāo)遷移攻擊極具挑戰(zhàn)性。

這意味著，在一個(gè)或多個(gè)替代模型（surrogate models）上生成的對(duì)抗樣本，需要能夠成功欺騙一個(gè)完全未知的黑盒目標(biāo)模型。盡管現(xiàn)有工作已證明了這種攻擊的可行性，但其遷移成功率，特別是針對(duì)最先進(jìn)的閉源 MLLMs 時(shí)，仍有很大的提升空間。

動(dòng)機(jī)和理論分析

在多模態(tài)大語(yǔ)言模型（MLLMs）依賴的 Transformer 架構(gòu)視覺編碼器（如 CLIP）中，存在明確的特征分工：[CLS] token 提煉圖像宏觀主題（如「大象」「森林」），但會(huì)舍棄細(xì)粒度細(xì)節(jié)；patch tokens 則編碼局部信息（如「大象耳朵形態(tài)」「植被密度」），是模型精準(zhǔn)理解圖像的關(guān)鍵，缺失會(huì)導(dǎo)致對(duì)抗樣本語(yǔ)義真實(shí)性不足。

現(xiàn)有對(duì)抗攻擊方法的核心局限的是，僅聚焦 [CLS] token 全局特征對(duì)齊，忽略 patch tokens 的局部?jī)r(jià)值，引發(fā)兩大問題：一是語(yǔ)義對(duì)齊不充分，全局特征難區(qū)分「大象在森林」與「大象在草原」這類細(xì)節(jié)差異，局部特征卻能清晰界定；二是遷移性差，擾動(dòng)過(guò)度適配替代模型的全局特征，閉源 MLLMs（如 GPT-4o）因視覺編碼器設(shè)計(jì)不同，易識(shí)別「虛假語(yǔ)義」，攻擊效果驟降。

為突破此局限，FOA-Attack 提出「全局 + 局部」雙維度對(duì)齊思路（如圖 1 所示）：

圖 1 (a) 中「特征最優(yōu)對(duì)齊損失」包含兩大模塊，全局層面用余弦相似度損失對(duì)齊 [CLS] token，保證整體語(yǔ)義一致；局部層面通過(guò)聚類提取關(guān)鍵模式，將對(duì)齊建模為最優(yōu)傳輸（OT）問題（右側(cè)「Optimal Transmission」），用 Sinkhorn 算法實(shí)現(xiàn)細(xì)粒度匹配。

圖 1 (b) 的「動(dòng)態(tài)集成模型權(quán)重策略」則讓多編碼器并行生成對(duì)抗樣本，依收斂速度自適應(yīng)調(diào)權(quán) —— 易優(yōu)化模型權(quán)重低、難優(yōu)化模型權(quán)重高，避免偏向單一模型特征。兩者互補(bǔ)，解決了單一維度對(duì)齊缺陷，顯著提升對(duì)開源及閉源 MLLMs 的攻擊遷移性。

圖 1: FQA-Attack 示意圖

方法

FOA-Attack 以生成「語(yǔ)義對(duì)齊、遷移性強(qiáng)」的對(duì)抗樣本為核心目標(biāo)，通過(guò)三個(gè)協(xié)同模塊構(gòu)建攻擊框架，且所有設(shè)計(jì)均基于對(duì)多模態(tài)模型特征機(jī)制與對(duì)抗遷移性的深度優(yōu)化。

最后是動(dòng)態(tài)集成模型權(quán)重模塊，解決傳統(tǒng)多模型集成「權(quán)重均等易偏科」的問題。以 ViT-B/16、ViT-B/32 等 CLIP 變體為替代模型，先定義「學(xué)習(xí)速度」Si (T)（第 i 個(gè)模型第 T 步與 T?1 步的損失比值，比值越小學(xué)習(xí)越快），再根據(jù)學(xué)習(xí)速度自適應(yīng)調(diào)整權(quán)重 —— 學(xué)習(xí)慢的模型權(quán)重更高，避免優(yōu)化偏向易適配模型。核心權(quán)重公式與總損失公式分別為：

實(shí)驗(yàn)效果

開源模型

表 1：在不同開源模型上的攻擊成功率（ASR）與語(yǔ)義相似度（AvgSim）

在 Qwen2.5-VL、LLaVA、Gemma 等開源模型上，F(xiàn)OA-Attack 的攻擊成功率（ASR）和語(yǔ)義相似度（AvgSim）顯著高于 M-Attack、AnyAttack 等方法。

閉源模型

表 2：在不同閉源模型上的攻擊成功率（ASR）和語(yǔ)義相似度（AvgSim）

對(duì) GPT-4o、Claude-3.7、Gemini-2.0 等商業(yè)閉源模型，F(xiàn)OA-Attack 表現(xiàn)尤為突出：尤其在 GPT-4o 上，F(xiàn)OA-Attack 的 ASR 達(dá)到 75.1%。

推理增強(qiáng)模型

表 3：在不同推理增強(qiáng)模型上的攻擊成功率（ASR）和語(yǔ)義相似度（AvgSim）

即使對(duì) GPT-o3、Claude-3.7-thinking 等推理增強(qiáng)模型（理論上更魯棒），F(xiàn)OA-Attack 仍能突破，這表明推理增強(qiáng)模型的視覺編碼器仍存在脆弱性，F(xiàn)OA-Attack 的「全局 + 局部」對(duì)齊策略能有效利用這一漏洞。

可視化

圖 3：原始干凈圖像、對(duì)抗圖像和擾動(dòng)圖像的可視化

結(jié)語(yǔ)

FOA-Attack 揭示：通過(guò)同時(shí)精細(xì)對(duì)齊全局與局部特征，并在多模型集成中做動(dòng)態(tài)平衡，可以顯著提升目標(biāo)式對(duì)抗樣本對(duì)閉源 MLLMs 的遷移性。研究一方面暴露了當(dāng)前 MLLMs 在視覺編碼階段的脆弱面，另一方面也為防御方向提供了新的思路（例如如何在局部特征層面加固魯棒性）。作者在論文中也討論了效率和計(jì)算成本的限制，并給出未來(lái)改進(jìn)方向。

目前，論文與代碼已公開，歡迎感興趣的同學(xué)閱讀，復(fù)現(xiàn)以及深入討論。

作者介紹

本文作者分別來(lái)自新加坡南洋理工大學(xué)、阿聯(lián)酋 MBZUAI、新加坡 Sea AI Lab 以及美國(guó)伊利諾伊大學(xué)香檳分校（UIUC）第一作者加小俊為新加坡南洋理工大學(xué)博士后。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.