NeurIPS 2025 | 深入探索VLMs的知識遺忘，近似領(lǐng)域遺忘框架ADU

2025-12-04 08:25:02　來源: 將門創(chuàng)投

北京舉報

分享至

隨著視覺語言模型（VLMs）在各種下游任務(wù)中展現(xiàn)出強大的零樣本泛化能力，其潛在的知識冗余與安全風(fēng)險也逐漸引起了學(xué)術(shù)界和工業(yè)界的關(guān)注。盡管現(xiàn)有的近似遺忘（Approximate Unlearning）技術(shù)主要聚焦于類別級別的知識移除，但在處理更細(xì)粒度的、與視覺風(fēng)格相關(guān)的遺忘需求時，往往顯得力不從心。

為此，來自東京科學(xué)大學(xué)、新加坡國立大學(xué)和牛津大學(xué)等單位的聯(lián)合團隊，提出了一種新穎且更具實際意義的任務(wù)設(shè)定近似域遺忘（Approximate Domain Unlearning, ADU），旨在使預(yù)訓(xùn)練VLMs保留對目標(biāo)類別識別能力的同時，精確地遺忘來自指定視覺域的樣本。針對 VLMs 強域泛化能力導(dǎo)致域特征高度糾纏的挑戰(zhàn)，本文提出了兩項創(chuàng)新：其一是設(shè)計了域解纏損失（Domain Disentangling Loss, DDL），在特征空間中顯式分離不同域分布；其二是引入實例級提示生成器（Instance-wise Prompt Generator, InstaPG），以自適應(yīng)方式捕捉域內(nèi)部的多樣性。該方法有效突破了傳統(tǒng)類別遺忘的粒度限制，為自動駕駛、醫(yī)療影像等對域誤判敏感的場景提供了高效可行的知識管控方案。該工作發(fā)表在人工智能頂級會議NeurIPS 2025上，代碼已開源。

論文題目： Approximate Domain Unlearning for Vision-Language Models 文章鏈接： https://arxiv.org/abs/2510.08132 倉庫鏈接： https://kodaikawamura.github.io/Domain_Unlearning/ 代碼地址： https://github.com/kodaikawamura/domain-unlearning

一、研究背景和動機

預(yù)訓(xùn)練的視覺語言模型（VLMs）具有強大的域泛化能力（domain generalization），能夠識別來自不同域的同一類物體，但這種能力在實際應(yīng)用中并非總是有益，反而可能帶來效率、安全與信息泄露等問題。現(xiàn)有的近似遺忘（approximate unlearning）研究主要集中在類級別（class unlearning），即讓模型忘記某些類別而保留其他類別，但在許多場景下這種遺忘粒度過于粗糙。例如，自動駕駛系統(tǒng)需要識別真實車輛，卻必須避免誤識別插畫、海報或繪畫中的車輛。這實際上屬于域級別的控制，而非單純的類別剔除。由于 VLMs 的強泛化能力使得不同域的特征分布在潛在空間中高度糾纏，因此需要一種新的遺忘范式與方法，以實現(xiàn)更精細(xì)化、更可控的知識遺忘。

二、近似領(lǐng)域遺忘

針對上述問題，本文提出了一種全新的機器學(xué)習(xí)遺忘范式近似域遺忘（Approximate Domain Unlearning, ADU）。與現(xiàn)有的近似類別遺忘（Approximate Class Unlearning）不同，ADU 需要重新訓(xùn)練一個預(yù)訓(xùn)練的視覺語言模型（VLM），使其在指定域（domain）上的識別能力被“遺忘”，同時保留其在其他域上的識別能力（如下圖所示）。

ADU 的輸入為包含圖像-類別標(biāo)簽-領(lǐng)域標(biāo)簽三元組的數(shù)據(jù)集。其中表示輸入圖像，為圖像輸入空間，表示圖像對應(yīng)的類別標(biāo)簽（如 “汽車”“行人”），為所有類別的集合，表示圖像所屬的域標(biāo)簽（如 “真實場景”“插畫”“剪貼畫”），為所有域構(gòu)成的集合。ADU 將域集合進一步劃分為兩類：

待保留域集合 ( ）：模型需要維持識別精度的域。經(jīng)過 ADU 優(yōu)化后，模型在該集合中的分類準(zhǔn)確率應(yīng)保持或接近其預(yù)訓(xùn)練水平；
待遺忘域集合（）：模型需要降低識別精度的域。經(jīng)過 ADU 優(yōu)化后，模型在該集合中的分類準(zhǔn)確率應(yīng)顯著下降。

三、本文方法

在視覺語言模型中，不同域的特征分布往往在潛在空間中高度糾纏，因而直接將類級遺忘策略擴展到域級別常常無法達到很好的效果。為此，ADU設(shè)計了兩個關(guān)鍵模塊：域解耦損失（Domain Disentangling Loss, DDL）與實例級提示生成器（Instance-wise Prompt Generator, InstaPG）。ADU的整體框架如下圖所示。

3.1 域解耦損失DDL

域解耦損失旨在潛在特征空間中解耦不同域的特征分布。其核心思想是：如果各個域的特征分布能夠很好地區(qū)分，那么樣本的域標(biāo)簽就能根據(jù)其特征被準(zhǔn)確預(yù)測，反之亦然。具體實現(xiàn)上，DDL 引入了一個標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù)，要求模型能夠正確預(yù)測樣本的域標(biāo)簽：

其中，為樣本域的one-hot編碼，為域分類器的預(yù)測置信度。為了進一步增強域可分離性，作者額外將最大平均差異 (MMD) 納入 DDL 作為輔助損失項。MMD 估計再生核希爾伯特空間 (RKHS) 中域分布之間的成對距離，公式如下：

其中，為核映射函數(shù)，為 mini-batch 中域的樣本子集，為 RKHS 空間。

3.2 實例級提示生成器InstaPG

同一域內(nèi)的圖像可能存在顯著風(fēng)格差異（如 “插畫” 領(lǐng)域包含寫實插畫、卡通插畫等），固定提示無法適配這種實例級領(lǐng)域差異。InstaPG通過注意力機制動態(tài)生成實例專屬提示來解決這一問題，具體設(shè)計如下：

（1）結(jié)構(gòu)嵌入：將InstaPG 嵌入VLMs圖像編碼器的 Transformer 中間層。

（2）注意力機制：以可學(xué)習(xí)視覺提示為查詢（Query），圖像patch特征為鍵（Key）和值（Value），通過縮放點積注意力生成實例級提示。

（3）動態(tài)適配：生成的實例級提示被輸入到后續(xù)的Transformer層，使模型能根據(jù)單張圖像的風(fēng)格的調(diào)整對域特征的捕捉，提升域遺忘的細(xì)粒度。

四、實驗效果

作者在四個多域圖像分類基準(zhǔn)數(shù)據(jù)集上對所提方法進行了系統(tǒng)評估，包括ImageNet（包含ImageNet-1K與ImageNet-Sketch兩個域）、Office-Home（4個域）、Mini DomainNet（4個域）以及DomainNet（6個域）。這些數(shù)據(jù)集保持了統(tǒng)一的類別集合，僅在不同數(shù)據(jù)劃分間存在圖像域分布的差異。實驗采用few-shot設(shè)置進行訓(xùn)練，每個域隨機采樣8個同時具備類別與域標(biāo)簽的樣本。本文通過三個核心指標(biāo)系統(tǒng)評估近似領(lǐng)域遺忘的性能。Mem（記憶準(zhǔn)確率）衡量模型在保留領(lǐng)域上的分類精度，F(xiàn)or（遺忘錯誤率）評估模型在目標(biāo)遺忘域的失效程度，而H（調(diào)和平均數(shù)）作為核心綜合評價指標(biāo)，要求Mem與For必須同時保持高位值才能獲得高分，有效防止模型偏向于某些類別

4.1 定量分析

上表展示了本文方法與各類基線模型的對比結(jié)果。與最先進的CLIP微調(diào)方法（LP++[1]、CLIPFit[2]）相比，本方法在整體性能指標(biāo)H和關(guān)鍵遺忘指標(biāo)For上均實現(xiàn)大幅領(lǐng)先，在Office-Home上H值提升超26%，證明傳統(tǒng)微調(diào)無法解決域特征糾纏這一核心難題。與專用類別遺忘方法BBF相比，本方法在For指標(biāo)上領(lǐng)先30–50個百分點，凸顯了域遺忘與類別遺忘的本質(zhì)差異。即使相較于基礎(chǔ)遺忘損失基線，本方法仍保持超過20個百分點的For指標(biāo)優(yōu)勢。此外，隨著待遺忘域數(shù)量從1增至3，本方法性能保持穩(wěn)定或持續(xù)提升，展現(xiàn)出卓越的魯棒性，并在遺忘效果與記憶保留間實現(xiàn)了更優(yōu)的平衡。

4.2 定性分析

上圖展示了模型性能隨訓(xùn)練樣本數(shù)量增加的變化趨勢。本文提出的方法能持續(xù)、穩(wěn)定地利用更多數(shù)據(jù)，在Office-Home和Mini DomainNet數(shù)據(jù)集上性能均顯著提升，展現(xiàn)出卓越的數(shù)據(jù)利用效率和泛化能力。反觀baseline方法，其性能在數(shù)據(jù)量增加后很快陷入瓶頸，尤其在復(fù)雜的Mini DomainNet上改善微乎其微，這表明僅靠調(diào)整分類損失無法解決預(yù)訓(xùn)練模型中域特征糾纏的核心難題。

上圖通過進一步可視化注意力熱圖展示了本文方法實現(xiàn)域遺忘的內(nèi)在機制。對于需遺忘的“真實”域圖像，未經(jīng)訓(xùn)練的CLIP模型注意力高度集中于語義主體（如汽車），而經(jīng)過本文方法訓(xùn)練后，模型注意力變得彌散或完全從物體上移開，實現(xiàn)了明顯的遺忘效果。相反，對于需保留的“繪畫”、“剪貼畫”等目標(biāo)，模型不僅維持了原有的注意力聚焦，甚至有所加強。這一對比有力證明了本文方法通過重塑模型的感知焦點，精準(zhǔn)抑制對指定域語義信息的提取，同時完好保留對其他域的識別能力，能夠進行高度選擇性的遺忘。

4.3 消融分析

上表通過消融研究，揭示了本文兩個核心組件的貢獻與協(xié)同作用。域解纏損失（DDL）與實例級提示生成器（InstaPG）作為獨立組件均能有效提升模型性能。僅使用DDL即可在Mini DomainNet上帶來超過12個百分點的H指標(biāo)提升，而僅使用InstaPG也表現(xiàn)出穩(wěn)定的增強效果。兩者的結(jié)合產(chǎn)生了顯著的協(xié)同效應(yīng)，完整模型在絕大多數(shù)設(shè)定下取得了最優(yōu)的綜合性能H與最強的遺忘能力For。

五、總結(jié)

本文開創(chuàng)性地提出了近似領(lǐng)域遺忘這一新任務(wù)，旨在使視覺語言模型能夠選擇性遺忘特定視覺領(lǐng)域而保留其他域的識別能力。針對預(yù)訓(xùn)練VLMs中存在的域特征糾纏這一核心挑戰(zhàn)，本文提出了域解纏損失（DDL）與實例級提示生成器（InstaPG）的協(xié)同解決方案。在四個多域基準(zhǔn)數(shù)據(jù)集上的大量實驗表明，本文方法在整體性能指標(biāo)H和關(guān)鍵遺忘指標(biāo)For上均顯著優(yōu)于所有基線模型，同時展現(xiàn)出良好的可擴展性和魯棒性。當(dāng)前方法的主要局限在于對完整域標(biāo)簽的依賴，但通過偽標(biāo)簽技術(shù)的初步驗證表明，結(jié)合更先進的域估計方案后可有效緩解此問題。此外，作者在車輛類別上的代理實驗結(jié)果已初步展現(xiàn)了其實際應(yīng)用潛力，為VLMs在安全敏感場景中的安全部署提供了重要的技術(shù)基礎(chǔ)。

參考

[1] Yunshi Huang, Fereshteh Shakeri, Jose Dolz, Malik Boudiaf, Houda Bahig, and Ismail Ben Ayed. Lp++: A surprisingly strong linear probe for few-shot clip. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024a.

[2] Ming Li, Jike Zhong, Chenxin Li, Liuzhuozheng Li, Nie Lin, and Masashi Sugiyama. Visionlanguage model fine-tuning via simple parameter-efficient modification. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), 2024.

llustration From IconScout By IconScout Store

-The End-

掃碼觀看！

本周上新！

“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)（www.techbeat.net）。社區(qū)上線700+期talk視頻，3000+篇技術(shù)干貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺，希望為AI人才打造更專業(yè)的服務(wù)和體驗，加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章，并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向，對用戶啟發(fā)更大的文章，做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信（michelle333_）投稿，溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機構(gòu)，也是北京市標(biāo)桿型孵化器。公司致力于通過連接技術(shù)與商業(yè)，發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè)，推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底，創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構(gòu)建而成，曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè)，不僅想獲得投資，還希望獲得一系列持續(xù)性、有價值的投后服務(wù)，歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com

點擊右上角，把文章分享到朋友圈

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.