国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

ICLR 2026 | PIL:基于線性代理的不可學(xué)習(xí)樣本生成方法

0
分享至



不可學(xué)習(xí)樣本(Unlearnable Examples)是一類用于數(shù)據(jù)保護(hù)的技術(shù),其核心思想是在原始數(shù)據(jù)中注入人類難以察覺(jué)的微小擾動(dòng),使得未經(jīng)授權(quán)的第三方在使用這些數(shù)據(jù)訓(xùn)練模型時(shí),模型的泛化性能顯著下降,甚至接近隨機(jī)猜測(cè),從而達(dá)到阻止數(shù)據(jù)被濫用的目的。

例如,對(duì)于攝影師公開(kāi)發(fā)布的作品或用戶分享的個(gè)人照片,在添加擾動(dòng)后,圖像在視覺(jué)上幾乎不發(fā)生變化;但若這些數(shù)據(jù)被用于訓(xùn)練圖像分類模型,其測(cè)試準(zhǔn)確率可能會(huì)從 90% 降至 10% 左右。

隨著深度模型對(duì)大規(guī)模數(shù)據(jù)依賴程度的不斷提升,不可學(xué)習(xí)樣本逐漸成為數(shù)據(jù)隱私與模型安全領(lǐng)域的重要研究方向。然而,現(xiàn)有方法在實(shí)際應(yīng)用中仍面臨顯著的效率瓶頸。



  • 論文鏈接: https://arxiv.org/abs/2601.19967
  • 代碼已開(kāi)源: https://github.com/jinlinll/pil

現(xiàn)有方法的效率瓶頸

當(dāng)前主流的不可學(xué)習(xí)樣本生成方法大多依賴深度神經(jīng)網(wǎng)絡(luò)(DNN)作為代理模型。其典型流程包括:

1. 訓(xùn)練一個(gè)復(fù)雜的深度模型(如 ResNet、VGG)作為代理;

2. 在代理模型上通過(guò)對(duì)抗攻擊方法(如 PGD)迭代優(yōu)化擾動(dòng);

3. 利用擾動(dòng)在其他模型上的遷移性實(shí)現(xiàn)防護(hù)效果。

這種對(duì)深度模型的依賴帶來(lái)了若干問(wèn)題:

  • 計(jì)算開(kāi)銷高:生成一次擾動(dòng)往往需要大量 GPU 資源。例如,REM 方法在 CIFAR-10 數(shù)據(jù)集上的擾動(dòng)生成時(shí)間超過(guò) 15 GPU 小時(shí);
  • 擴(kuò)展性受限:當(dāng)應(yīng)用于高分辨率圖像或大規(guī)模數(shù)據(jù)集(如 ImageNet)時(shí),時(shí)間成本迅速上升;
  • 模型復(fù)雜度冗余:深模型的強(qiáng)非線性表達(dá)能力并非不可學(xué)習(xí)樣本生成的必要條件,反而增加了優(yōu)化難度。

核心觀察:不可學(xué)習(xí)樣本與模型線性化

我們關(guān)注到一個(gè)關(guān)鍵現(xiàn)象:不可學(xué)習(xí)樣本的作用機(jī)制,本質(zhì)上是誘導(dǎo)深模型退化為近似線性的行為模式。

我們?cè)u(píng)估了多種現(xiàn)有不可學(xué)習(xí)樣本方法(包括 EM、REM、TAP、SP、AR 等),發(fā)現(xiàn)一個(gè)一致現(xiàn)象:無(wú)論方法設(shè)計(jì)多么復(fù)雜,最終均會(huì)誘導(dǎo)深度模型呈現(xiàn)更強(qiáng)的線性特征(通過(guò) FGSM 的成功率度量)



表 1:不同 FGSM 攻擊步長(zhǎng)下不可學(xué)習(xí)樣本導(dǎo)致的額外準(zhǔn)確率下降百分比(擾動(dòng)比例 50%)

從這一角度出發(fā),如果最終目標(biāo)是使深模型表現(xiàn)出線性特性,那么使用復(fù)雜的深度模型作為代理并非必要。相反,直接利用線性模型生成擾動(dòng),可能更直接地作用于這一核心機(jī)制。

基于此,我們提出PIL(Perturbation-Induced Linearization): 通過(guò)線性模型作為代理,直接生成能夠誘導(dǎo)深模型線性化的不可學(xué)習(xí)擾動(dòng)。

PIL 方法概述

與基于對(duì)抗攻擊的方案不同,PIL 通過(guò)一個(gè)雙目標(biāo)優(yōu)化過(guò)程,引導(dǎo)模型學(xué)習(xí)線性映射。

1. 語(yǔ)義混淆(Semantic Obfuscation)

通過(guò)最小化 KL 散度,使線性代理模型在擾動(dòng)后的樣本上輸出接近均勻分布,從而削弱原始圖像中可用于分類的語(yǔ)義信息。

2. 捷徑誘導(dǎo)(Shortcut Learning)

通過(guò)最小化交叉熵?fù)p失,使代理模型能夠僅依據(jù)擾動(dòng)準(zhǔn)確預(yù)測(cè)標(biāo)簽,從而將判別信息嵌入進(jìn)擾動(dòng)中。

兩個(gè)目標(biāo)通過(guò)平衡參數(shù) λ 進(jìn)行聯(lián)合優(yōu)化,最終生成的擾動(dòng)同時(shí)抑制語(yǔ)義學(xué)習(xí)并強(qiáng)化線性捷徑,從而在深模型訓(xùn)練階段誘導(dǎo)其產(chǎn)生顯著的泛化退化。



圖 1:PIL 方法示意圖

PIL 的算法流程(簡(jiǎn)要)

1. 訓(xùn)練一個(gè)無(wú)偏置的線性分類器作為代理模型;

2. 在不可察覺(jué)約束(L∞≤8/255)下,采用類似 PGD 的方法優(yōu)化擾動(dòng);

3. 將擾動(dòng)注入原始圖像,構(gòu)造不可學(xué)習(xí)樣本;



Algorithm 1:PIL 算法流程

實(shí)驗(yàn)結(jié)果

我們?cè)?SVHN、CIFAR-10/100 和 ImageNet-100 數(shù)據(jù)集上,結(jié)合 ResNet、VGG、MobileNet 等多種模型進(jìn)行了系統(tǒng)評(píng)估。

1. 有效性

在不同數(shù)據(jù)集和模型架構(gòu)下,PIL 生成的不可學(xué)習(xí)樣本均能顯著降低模型的測(cè)試準(zhǔn)確率,在部分設(shè)置中準(zhǔn)確率接近隨機(jī)水平。



表 2:在干凈數(shù)據(jù)集(Dc)與 PIL 構(gòu)建的不可學(xué)習(xí)數(shù)據(jù)集(Du)上訓(xùn)練的模型在干凈數(shù)據(jù)上的測(cè)試準(zhǔn)確率(%)對(duì)比

2. 計(jì)算效率

在 CIFAR-10 上,PIL 生成擾動(dòng)僅需 40.53 秒,而 REM 方法需要超過(guò) 54k 秒,效率提升超過(guò)三個(gè)數(shù)量級(jí)。同時(shí),PIL 在效率與防護(hù)效果之間取得了較好的平衡。



表 3:不同方法為 CIFAR-10 訓(xùn)練集構(gòu)建全部擾動(dòng)所需的時(shí)間對(duì)比

3. 魯棒性

在多種數(shù)據(jù)增強(qiáng)策略(旋轉(zhuǎn)、裁剪、MixUp)和不同 JPEG 壓縮質(zhì)量下,PIL 依然保持穩(wěn)定的防護(hù)性能。



表 4:不同數(shù)據(jù)增強(qiáng)策略下,各類不可學(xué)習(xí)樣本在 CIFAR-10 上的干凈測(cè)試準(zhǔn)確率(%)。結(jié)果越接近 10% 越好。灰色背景標(biāo)示 Top-2 的兩種方法。



表 5:在不同 JPEG 壓縮質(zhì)量下,各類不可學(xué)習(xí)樣本在 CIFAR-10 上的干凈測(cè)試準(zhǔn)確率(%)。結(jié)果越接近 10% 越好?;疑尘皹?biāo)示 Top-2 的兩種方法。

4. 線性化驗(yàn)證

我們使用 FGSM 攻擊下的準(zhǔn)確率下降幅度作為線性化指標(biāo)。實(shí)驗(yàn)表明,隨著 PIL 擾動(dòng)比例增加,模型對(duì) FGSM 的敏感性顯著增強(qiáng),驗(yàn)證了 PIL 確實(shí)誘導(dǎo)了模型的線性行為。



表 6:使用不同干凈 / PIL 擾動(dòng)數(shù)據(jù)混合比例訓(xùn)練的 ResNet-18 模型,在各 FGSM 攻擊步長(zhǎng)下的測(cè)試準(zhǔn)確率及下降幅度(%)

進(jìn)一步分析:

部分?jǐn)_動(dòng)設(shè)置下的性能退化受限

在實(shí)驗(yàn)中我們觀察到一個(gè)一致現(xiàn)象:當(dāng)僅有部分訓(xùn)練數(shù)據(jù)被擾動(dòng)時(shí),模型的測(cè)試準(zhǔn)確率往往不會(huì)出現(xiàn)顯著下降。這一現(xiàn)象并非 PIL 方法特有,而是現(xiàn)有不可學(xué)習(xí)樣本方法普遍存在的特性。

為解釋該現(xiàn)象,我們通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)模型對(duì)被擾動(dòng)樣本產(chǎn)生的梯度與對(duì)干凈樣本的梯度呈現(xiàn)很強(qiáng)的正交性,于是我們提出在梯度正交假設(shè),并在該假設(shè)下進(jìn)行了理論分析,得到如下結(jié)論:

  • 干凈樣本與擾動(dòng)樣本在訓(xùn)練過(guò)程中所產(chǎn)生的梯度方向近似正交,因此擾動(dòng)樣本對(duì)應(yīng)的梯度更新難以顯著干擾模型對(duì)干凈樣本的學(xué)習(xí);
  • 在混合訓(xùn)練設(shè)置下,模型的泛化性能主要由干凈數(shù)據(jù)主導(dǎo),只要干凈樣本數(shù)量足夠,模型仍能學(xué)習(xí)到穩(wěn)定且可泛化的特征表示。



圖 2:在部分?jǐn)_動(dòng)場(chǎng)景下,CIFAR-10 數(shù)據(jù)集的干凈測(cè)試準(zhǔn)確率(%)

上述分析表明,部分?jǐn)_動(dòng)并不足以從根本上削弱模型的泛化能力。這一定性結(jié)論對(duì)于實(shí)際應(yīng)用具有直接啟示意義:若期望獲得穩(wěn)定且顯著的防護(hù)效果,需要對(duì)數(shù)據(jù)集進(jìn)行大比例甚至全部的擾動(dòng),或至少保證擾動(dòng)樣本在訓(xùn)練數(shù)據(jù)中占據(jù)足夠高的比例(通常高于 80%)。

結(jié)語(yǔ)

PIL 的核心在于從機(jī)制層面重新審視不可學(xué)習(xí)樣本問(wèn)題,將關(guān)注點(diǎn)從復(fù)雜的代理模型與攻擊策略,轉(zhuǎn)向「模型線性化」這一關(guān)鍵因素。通過(guò)使用線性代理模型,PIL 在顯著降低計(jì)算成本的同時(shí),依然保持了穩(wěn)定而有效的防護(hù)能力。

我們希望這一視角能夠?yàn)椴豢蓪W(xué)習(xí)樣本及相關(guān)數(shù)據(jù)保護(hù)研究提供新的思路,并推動(dòng)更加高效、可擴(kuò)展的方法設(shè)計(jì)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
一夜蒸發(fā) 310 億美元!Claude 新工具干翻 IBM 搖錢樹(shù),AI 正在「清零」人類工位

一夜蒸發(fā) 310 億美元!Claude 新工具干翻 IBM 搖錢樹(shù),AI 正在「清零」人類工位

AppSo
2026-02-24 12:20:50
朝鮮勞動(dòng)黨九大,崔龍海的退出

朝鮮勞動(dòng)黨九大,崔龍海的退出

周邊問(wèn)題研究所
2026-02-24 14:14:10
返程上海遭遇虹橋站打車難:超1200人在線排隊(duì),有人打貨拉拉回家,或騎兩小時(shí)共享單車

返程上海遭遇虹橋站打車難:超1200人在線排隊(duì),有人打貨拉拉回家,或騎兩小時(shí)共享單車

齊魯壹點(diǎn)
2026-02-24 17:55:12
姚晨過(guò)年回家被“連罵三天”事件,撕開(kāi)了中國(guó)人的統(tǒng)一春節(jié)噩夢(mèng)!

姚晨過(guò)年回家被“連罵三天”事件,撕開(kāi)了中國(guó)人的統(tǒng)一春節(jié)噩夢(mèng)!

脆皮先生
2026-02-23 19:35:34
消失的 29 斤羊肉去哪了?暗訪揭開(kāi)烤全羊行業(yè)黑幕

消失的 29 斤羊肉去哪了?暗訪揭開(kāi)烤全羊行業(yè)黑幕

復(fù)轉(zhuǎn)小能手
2026-02-24 17:32:12
全線崩盤!“超級(jí)風(fēng)暴”來(lái)了

全線崩盤!“超級(jí)風(fēng)暴”來(lái)了

魏家東
2026-02-24 09:09:26
電飯煲按下去的那一刻,北方的面食時(shí)代就結(jié)束了

電飯煲按下去的那一刻,北方的面食時(shí)代就結(jié)束了

富貴說(shuō)
2026-02-22 21:14:55
侃爺夫婦:一個(gè)不穿鞋賣鞋,一個(gè)敢穿到出圈,畫(huà)風(fēng)絕了

侃爺夫婦:一個(gè)不穿鞋賣鞋,一個(gè)敢穿到出圈,畫(huà)風(fēng)絕了

述家?jiàn)视?/span>
2026-02-23 21:23:16
被打女孩至今半昏迷!打人夫妻徹底栽了,網(wǎng)友:比唐山打人案更狠

被打女孩至今半昏迷!打人夫妻徹底栽了,網(wǎng)友:比唐山打人案更狠

愛(ài)寫(xiě)的櫻桃
2026-02-23 22:06:50
36斤活羊烤完剩6.9斤后續(xù)!花了1188元,商家曝原因,顧客已舉報(bào)

36斤活羊烤完剩6.9斤后續(xù)!花了1188元,商家曝原因,顧客已舉報(bào)

南方健哥
2026-02-24 05:22:18
3-0橫掃晉級(jí)!中國(guó)女乒22歲第三巨頭崛起:追趕孫穎莎王曼昱?

3-0橫掃晉級(jí)!中國(guó)女乒22歲第三巨頭崛起:追趕孫穎莎王曼昱?

李喜林籃球絕殺
2026-02-23 20:35:54
籃協(xié)即將換屆,王治郅或成新掌門人?答案早已明確,姚明無(wú)可奈何

籃協(xié)即將換屆,王治郅或成新掌門人?答案早已明確,姚明無(wú)可奈何

萌蘭聊個(gè)球
2026-02-24 15:23:54
哥哥高考復(fù)讀5年,錄取滑檔仍要復(fù)讀,母親發(fā)現(xiàn)5張高校錄取通知書(shū)

哥哥高考復(fù)讀5年,錄取滑檔仍要復(fù)讀,母親發(fā)現(xiàn)5張高校錄取通知書(shū)

小秋情感說(shuō)
2026-02-24 09:54:03
恭喜汪小菲又當(dāng)爸爸!產(chǎn)房照曝光兒子好帥氣,馬筱梅抱孩子很溫柔

恭喜汪小菲又當(dāng)爸爸!產(chǎn)房照曝光兒子好帥氣,馬筱梅抱孩子很溫柔

娛樂(lè)圈圈圓
2026-02-24 15:30:08
王楠執(zhí)教突遭舉報(bào)!上任即翻車,郭斌最擔(dān)心的事還是來(lái)了

王楠執(zhí)教突遭舉報(bào)!上任即翻車,郭斌最擔(dān)心的事還是來(lái)了

卿子書(shū)
2026-02-24 09:04:42
王健林投資約1億!在廣州建造了一座大型“壽桃”建筑!還申報(bào)了吉尼斯世界記錄?

王健林投資約1億!在廣州建造了一座大型“壽桃”建筑!還申報(bào)了吉尼斯世界記錄?

建筑師雜志
2026-02-23 13:02:22
馬筱梅生子!孩子小名曝光,張?zhí)m公布生產(chǎn)細(xì)節(jié),卻被質(zhì)疑太偏心!

馬筱梅生子!孩子小名曝光,張?zhí)m公布生產(chǎn)細(xì)節(jié),卻被質(zhì)疑太偏心!

古希臘掌管月桂的神
2026-02-24 13:45:04
火箭大勝爵士升西部第三:杜蘭特18+12助攻加盟新高 小賈31+9

火箭大勝爵士升西部第三:杜蘭特18+12助攻加盟新高 小賈31+9

醉臥浮生
2026-02-24 12:54:22
宇樹(shù)去年賣了5500臺(tái)機(jī)器人,深挖后發(fā)現(xiàn):買主根本不是普通人

宇樹(shù)去年賣了5500臺(tái)機(jī)器人,深挖后發(fā)現(xiàn):買主根本不是普通人

離離言幾許
2026-02-22 20:45:23
WTT新加坡大滿貫:國(guó)乒再贏3場(chǎng)輸1戰(zhàn)!陳幸同率先晉級(jí)女單16強(qiáng)

WTT新加坡大滿貫:國(guó)乒再贏3場(chǎng)輸1戰(zhàn)!陳幸同率先晉級(jí)女單16強(qiáng)

全言作品
2026-02-24 15:01:38
2026-02-24 21:56:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12344文章數(shù) 142569關(guān)注度
往期回顧 全部

科技要聞

宇樹(shù)科技發(fā)布四足機(jī)器人Unitree As2

頭條要聞

特朗普:是否對(duì)伊朗動(dòng)武 最終決定權(quán)在我手中

頭條要聞

特朗普:是否對(duì)伊朗動(dòng)武 最終決定權(quán)在我手中

體育要聞

蘇翊鳴總結(jié)米蘭征程:我仍是那個(gè)熱愛(ài)單板滑雪的少年

娛樂(lè)要聞

汪小菲官宣三胎出生:承諾會(huì)照顧好3個(gè)孩子

財(cái)經(jīng)要聞

縣城消費(fèi)「限時(shí)繁榮」了十天

汽車要聞

入門即滿配 威蘭達(dá)AIR版上市 13.78萬(wàn)元起

態(tài)度原創(chuàng)

教育
時(shí)尚
旅游
手機(jī)
軍事航空

教育要聞

提前返程背后的真相:父母的“精明賬”,是給孩子最好的守護(hù)

50+的女性,大衣、直筒褲、皮草這么穿,冬天保暖顯瘦兩不誤

旅游要聞

預(yù)約“秒空” 數(shù)據(jù)躍升 四川博物館如何點(diǎn)燃馬年新春“文博熱”?

手機(jī)要聞

小米旗艦海外版,官方欽點(diǎn)真徠卡

軍事要聞

美軍參聯(lián)會(huì)主席警告:對(duì)伊朗動(dòng)武可能帶來(lái)重大風(fēng)險(xiǎn)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版