網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

計算所程學旗團隊：隨機剪枝 AI 攻擊策略，讓對抗樣本更具「通用攻擊力」丨CVPR 2026

2026-03-08 11:42:08　來源: AI科技評論

廣東舉報

分享至

RaPA ：一種提升深度模型跨架構誤導能力的新方法。

作者丨鄭佳美

編輯丨岑峰

隨著深度學習技術在計算機視覺領域的快速發(fā)展，神經(jīng)網(wǎng)絡模型已經(jīng)在自動駕駛、智能安防、醫(yī)療影像分析以及智能終端等關鍵場景中得到廣泛應用。

例如，在自動駕駛系統(tǒng)中，視覺模型需要識別道路標志和行人；在智能安防系統(tǒng)中，人臉識別模型被用于身份驗證；在醫(yī)療影像分析中，深度學習模型可以輔助醫(yī)生識別疾病特征。

然而，近年來的研究不斷表明，這些高性能模型在安全性方面仍然存在明顯隱患。其中，對抗樣本問題被認為是深度學習系統(tǒng)面臨的最重要安全挑戰(zhàn)之一。

例如，通過在一張交通標志圖像上加入人類幾乎無法察覺的微小擾動，自動駕駛系統(tǒng)可能會把“限速標志”誤判為“停止標志”；在人臉識別系統(tǒng)中，只需在圖像中加入細微噪聲，就可能使模型將一個人誤識別為另一個人。這些微小的輸入變化卻能導致模型產(chǎn)生完全錯誤的預測，這種現(xiàn)象不僅揭示了深度神經(jīng)網(wǎng)絡在決策邊界上的脆弱性，也對現(xiàn)實系統(tǒng)的安全性提出了嚴峻挑戰(zhàn)。

在眾多對抗攻擊研究方向中，遷移攻擊（Transfer-based Attack）尤為受到關注。這類攻擊不需要訪問目標模型的結構、參數(shù)或梯度信息，而是通過一個可訪問的代理模型生成對抗樣本，再利用這些樣本攻擊其他未知模型。這種攻擊方式在現(xiàn)實場景中更具威脅性，因為實際部署的模型通常處于黑盒環(huán)境。

在這樣的研究背景下，計算所程學旗團隊針對這一問題進行了深入分析，并在論文《RaPA: Enhancing Transferable Targeted Attacks via Random Parameter Pruning》中提出了一種新的攻擊方法。

研究團隊發(fā)現(xiàn)，現(xiàn)有遷移攻擊方法生成的對抗樣本往往過度依賴代理模型中的少量關鍵參數(shù)，從而限制了攻擊在不同模型之間的泛化能力。為了解決這一問題，他們在攻擊過程中引入隨機參數(shù)剪枝策略，通過不斷生成具有不同參數(shù)結構的模型變體，使生成的對抗樣本能夠適應更加多樣的模型環(huán)境，從而顯著提升攻擊在不同模型之間的遷移能力。

論文地址：https://arxiv.org/pdf/2504.18594

攻擊性能大幅提升，RaPA 優(yōu)勢明顯

從實驗結果的角度來看，研究團隊提出的攻擊方法 RaPA（Random Parameter Pruning Attack，隨機參數(shù)剪枝攻擊）能夠顯著提高對抗樣本在不同模型之間的遷移攻擊能力，也就是說，在一個模型上生成的攻擊樣本更容易欺騙其他模型。

研究人員在 ImageNet 相關數(shù)據(jù)集上，將這種方法與多種已有攻擊技術進行對比，包括 DI、RDI、SI、Admix、SIA、BSR、ODI、CFM 和 FTM，這些方法都是當前提升對抗攻擊遷移性的主流技術。

實驗結果表明，在多數(shù)模型組合中，RaPA 的攻擊成功率均達到最高或接近最高。例如，在卷積神經(jīng)網(wǎng)絡生成攻擊樣本并攻擊 Transformer 模型的情況下，現(xiàn)有最優(yōu)方法的平均攻擊成功率約為 33%，而 RaPA 可以將平均攻擊成功率提升到約 45%，說明這種方法能夠更容易欺騙結構不同的模型。

在跨模型結構攻擊任務中，RaPA 的優(yōu)勢更加明顯。卷積神經(jīng)網(wǎng)絡生成攻擊樣本并攻擊 Transformer 模型被認為是對抗攻擊中難度較高的場景，因為兩類模型在結構和訓練方式上差異較大。實驗結果表明，當使用 ResNet50 作為攻擊模型時，平均攻擊成功率提升約 11.7%；當使用 DenseNet121 作為攻擊模型時，平均攻擊成功率提升約 17.5%。這些結果表明 RaPA 生成的對抗樣本具有更強的通用性和遷移能力。

研究人員還測試了另一種方向的遷移攻擊，即 Transformer 模型生成攻擊樣本并攻擊卷積神經(jīng)網(wǎng)絡模型。實驗結果顯示，在這一場景中 RaPA 的平均攻擊成功率達到約 51%，同樣高于所有對比方法。這一結果說明這種攻擊方法不僅在跨架構攻擊任務中有效，在常規(guī)遷移攻擊任務中也表現(xiàn)出更好的性能。

此外，研究人員還在多種防御機制存在的情況下測試了 RaPA 的攻擊效果，包括對抗訓練模型、JPEG 壓縮防御、隨機化防御、圖像降噪防御以及擴散模型防御。實驗結果表明，在所有防御條件下 RaPA 的攻擊成功率仍然最高。例如，在對抗訓練模型上，RaPA 的攻擊成功率約為 88%，明顯高于其他攻擊方法。

研究人員還進一步測試了計算資源變化對攻擊效果的影響，通過增加攻擊迭代次數(shù)以及增加每輪計算次數(shù)進行實驗。實驗結果顯示，當計算量增加時，其他攻擊方法的性能提升幅度較小，而 RaPA 的性能提升最為明顯。例如在使用 ResNet50 的情況下，攻擊成功率可以額外提升約 15.9%。這些結果表明，在更多計算資源支持下，RaPA 的攻擊效果能夠得到進一步增強。

多模型、多方法對比下的實驗驗證

研究人員開展的實驗任務屬于目標遷移攻擊研究。目標遷移攻擊指的是首先選擇一個模型作為代理模型，在這個模型上生成對抗樣本，然后利用這些對抗樣本去攻擊其他未知模型。與普通對抗攻擊不同，這種攻擊并不是只讓模型產(chǎn)生任意錯誤分類，而是要求模型輸出指定的錯誤類別。例如一張原本被識別為狗的圖像，在攻擊之后希望模型將其識別為貓，因此這種攻擊任務比普通攻擊更加困難。

實驗使用的數(shù)據(jù)集為 ImageNet-compatible dataset，這個數(shù)據(jù)集來源于 NIPS 2017 對抗攻擊比賽。數(shù)據(jù)集中的圖像來自 ImageNet，同時包含真實標簽以及目標攻擊標簽，因此既能夠用于正常分類評估，也能夠用于目標攻擊研究，非常適合進行目標遷移攻擊實驗。

在實驗模型方面，研究團隊使用了多種不同類型的模型進行測試。首先是卷積神經(jīng)網(wǎng)絡模型，其中包括 VGG16、ResNet18、ResNet50、DenseNet121、MobileNetV2、EfficientNetB0、Inception 系列模型以及 Xception，這些模型都是經(jīng)典的卷積神經(jīng)網(wǎng)絡結構。

其次是視覺 Transformer 模型，包括 ViT、LeViT、ConViT、Twins 和 PiT，這些模型采用 Transformer 架構進行圖像識別。除此之外，研究人員還測試了 CLIP 模型。CLIP 是一種同時利用圖像和文本進行訓練的模型，其結構和普通視覺模型存在較大差異，因此可以用于評估攻擊方法在不同類型模型之間的遷移能力。

在實驗設置方面，研究人員對攻擊參數(shù)進行了統(tǒng)一控制。實驗中對最大擾動強度進行了固定，同時學習步長也保持一致，并且每種攻擊方法都使用相同的計算資源。研究人員特別指出，不同攻擊方法在每一輪計算中可能需要的計算次數(shù)并不相同，因此在實驗中統(tǒng)一規(guī)定每輪計算次數(shù)相同，從而保證不同方法之間的比較是公平的。

為了驗證方法的有效性，研究團隊選擇了多種當前主流攻擊方法作為對比基線。第一類是輸入變換類方法，例如 DI、RDI、SIA 和 BSR，這些方法通過改變輸入圖像的形式來增強攻擊效果。第二類是梯度優(yōu)化類方法，例如 SI 和 MI-FGSM，這類方法通過改進梯度計算過程來提高攻擊成功率。第三類是特征混合類方法，例如 Admix、CFM 和 FTM，這些方法通過混合不同圖像或特征來增強攻擊樣本的遷移能力。第四類是模型集成類方法，例如 MUP 和 SE-ViT，這些方法通過構造多個模型并進行集成來提升攻擊效果。

在具體攻擊流程方面，RaPA 方法首先以原始圖像作為初始輸入。隨后在每一次攻擊迭代過程中，隨機選擇一部分模型參數(shù)并將其暫時關閉，這些參數(shù)主要包括全連接層參數(shù)以及歸一化層參數(shù)。通過這種方式，原始模型在每一次迭代中都會產(chǎn)生一個新的模型版本。

接著在同一次迭代中生成多個不同的隨機剪枝模型，也就是說，一個原始模型會被擴展為多個結構略有不同的模型。然后利用這些不同模型分別計算攻擊所需的梯度信息。所有模型得到的梯度會被統(tǒng)一進行平均處理。之后根據(jù)平均得到的梯度對圖像進行更新，從而生成新的對抗樣本。整個過程會不斷重復多次迭代，直到攻擊過程結束并得到最終的對抗樣本。

一種更具通用性的對抗攻擊策略

研究團隊在研究過程中發(fā)現(xiàn)，現(xiàn)有許多對抗攻擊方法在生成對抗樣本時存在一個重要問題，即生成的攻擊樣本往往過度依賴代理模型中的少量關鍵參數(shù)。實驗分析表明，當刪除這些最重要的參數(shù)時，攻擊成功率會出現(xiàn)明顯下降，這說明攻擊樣本在生成過程中對特定參數(shù)產(chǎn)生了較強依賴。這種依賴性會導致攻擊樣本難以適應其他模型結構，從而降低對抗樣本在不同模型之間的遷移能力。

針對這一問題，研究人員提出了一種新的解決思路，即避免讓攻擊過程依賴固定的一部分模型參數(shù)。為此，研究團隊在攻擊過程中引入隨機剪枝策略，通過隨機屏蔽模型中的部分參數(shù)，使每一次攻擊時所使用的模型都會發(fā)生變化。由于每一輪攻擊都對應不同的模型參數(shù)結構，生成的對抗樣本需要在不斷變化的模型環(huán)境中進行優(yōu)化，因此攻擊樣本不再依賴某些固定參數(shù)，而是能夠適應更多不同的模型情況。

在這種機制下，由于攻擊過程中模型結構不斷變化，對抗樣本在生成時需要同時適應多種模型形式，因此生成的攻擊樣本具有更強的泛化能力，并且更容易遷移到其他模型上實現(xiàn)攻擊。這種方法不僅能夠有效提升攻擊樣本的遷移性能，同時在實現(xiàn)上也比較簡單。整個方法不需要重新訓練模型，也不需要額外的數(shù)據(jù)，只需要在攻擊過程中隨機屏蔽一部分模型參數(shù)即可完成。

此外，研究人員還指出，這種方法能夠與多種已有攻擊技術進行結合使用，例如 Admix、CFM 以及各種輸入變換方法。在這些方法的基礎上引入隨機參數(shù)剪枝策略，可以進一步增強攻擊樣本的遷移能力，從而獲得更好的攻擊效果。

RaPA 背后的科研力量

陳薇，中國科學院計算技術研究所教授，她長期從事機器學習基礎理論與人工智能安全方面的研究，目前主要研究可信機器學習，希望使機器學習模型尤其是深度學習模型在訓練過程、模型結構和決策結果上更加可解釋、可理解并且能夠被人類有效控制。

她于 2006 年在山東大學獲得統(tǒng)計學學士學位，隨后進入中國科學院繼續(xù)深造，并在 2011 年獲得概率論與數(shù)理統(tǒng)計博士學位，導師為馬志明教授。在加入中國科學院之前，她曾在微軟亞洲研究院從事研究工作，并擔任計算與學習理論研究團隊負責人以及理論研究中心聯(lián)合負責人，積累了豐富的機器學習理論研究經(jīng)驗。

陳薇曾被評為中國科技領域具有影響力的女性科技人物之一，并被評為中國智能計算領域創(chuàng)新人物，還入選中國科學院大學的小米青年人才計劃，在學術界具有較高的影響力。

參考鏈接： https://weichen-cas.github.io/

朱勝宇，現(xiàn)任中國科學院計算技術研究所副研究員，主要從事機器學習、因果推斷與發(fā)現(xiàn)以及信息論等方向的研究。目前擔任博士研究生導師，開展人工智能基礎理論及相關應用研究工作。

在學術研究方面，朱勝宇長期從事機器學習理論、因果推斷以及分布式學習等方向的研究，在多個國際重要期刊和會議上發(fā)表了大量論文。其中在期刊方面，他在信息論、信號處理、控制系統(tǒng)以及神經(jīng)網(wǎng)絡等領域的國際期刊上發(fā)表了多篇論文。在會議方面，他在機器學習與人工智能領域的重要會議上發(fā)表多篇論文，包括人工智能、機器學習以及計算機視覺等方向的國際會議。

參考鏈接：https://www.ict.ac.cn/sourcedb/cn/jssrck/202502/t20250207_7525316.html

程學旗，中國科學院計算技術研究所研究員，智能算法安全全國重點實驗室主任，數(shù)據(jù)科學與大數(shù)據(jù)分析領域專家，國家杰出青年基金獲得者，國家高層次人才，北京學者，CCF 會士，IEEE Fellow。

中國計算機學會大數(shù)據(jù)專家委員會主任，中國中文信息學會副理事長，長期從事網(wǎng)絡數(shù)據(jù)科學、大數(shù)據(jù)系統(tǒng)、認知計算、算法安全等方向研究。在重要學術會議和 IEEE 匯刊上發(fā)表論文 200 余篇，七次獲得本領域頂級國際學術會議最佳論文獎，谷歌學術引用三萬多次，獲授權發(fā)明專利 143 項。獲國家技術發(fā)明二等獎 1 項、國家科技進步二等獎 3 項。

參考鏈接： https://people.ucas.ac.cn/~cxq?language=en&utm

未經(jīng)「AI科技評論」授權，嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.