国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

運用貝葉斯原理進行持續(xù)學習

0
分享至

Learning to Continually Learn with the Bayesian Principle

運用貝葉斯原理進行持續(xù)學習

https://arxiv.org/pdf/2405.18758


摘要:

在當前深度學習時代,持續(xù)學習(continual learning)研究主要聚焦于:當使用隨機梯度下降(SGD)在非平穩(wěn)數(shù)據(jù)流上訓練神經(jīng)網(wǎng)絡(luò)時,如何緩解災(zāi)難性遺忘(catastrophic forgetting)。另一方面,在更經(jīng)典的統(tǒng)計機器學習文獻中,許多模型具備序貫貝葉斯更新規(guī)則(sequential Bayesian update rules),其學習結(jié)果與批量訓練(batch training)完全一致,即它們對災(zāi)難性遺忘完全免疫。然而,這類模型往往過于簡單,難以建模復(fù)雜的現(xiàn)實世界數(shù)據(jù)。

本文采用元學習(meta-learning)范式,將神經(jīng)網(wǎng)絡(luò)強大的表征能力與簡單統(tǒng)計模型對遺忘的魯棒性相結(jié)合。在我們提出的新型元持續(xù)學習框架(meta-continual learning framework)中,持續(xù)學習僅在統(tǒng)計模型中進行,并通過理想的序貫貝葉斯更新規(guī)則實現(xiàn);而神經(jīng)網(wǎng)絡(luò)則通過元學習被訓練,用以搭建原始數(shù)據(jù)與統(tǒng)計模型之間的橋梁。由于神經(jīng)網(wǎng)絡(luò)在持續(xù)學習過程中保持固定不變,因此免受災(zāi)難性遺忘的影響。

該方法不僅顯著提升了性能,還展現(xiàn)出優(yōu)異的可擴展性。由于我們的方法領(lǐng)域無關(guān)(domain-agnostic)且模型無關(guān)(model-agnostic),因此可廣泛應(yīng)用于各類問題,并易于與現(xiàn)有模型架構(gòu)集成。

  1. 引言持續(xù)學習(Continual Learning, CL)——即在獲取新知識或技能的同時不遺忘已有知識——是智能體的一項基本能力。盡管深度學習近期取得了顯著進展,CL 仍是一個重大挑戰(zhàn)。Knoblauch 等人(2020)嚴格證明:一般而言,CL 是一個 NP-難問題。這意味著,只要 P ≠ NP,構(gòu)建通用的 CL 算法就是不可能的。

為有效應(yīng)對 CL,首先應(yīng)限定某一具體領(lǐng)域,并設(shè)計一種能充分利用該領(lǐng)域特有結(jié)構(gòu)的、針對性的 CL 算法。即便人類也具備任務(wù)特異性的 CL 能力:例如,學習新面孔的能力很強,但在記憶隨機數(shù)字等任務(wù)上則表現(xiàn)平平。這種特異性源于進化過程——它優(yōu)化了我們的 CL 能力,以服務(wù)于生存與繁衍。

基于這一視角,元持續(xù)學習(Meta-Continual Learning, MCL)成為極具前景的研究方向。與僅依賴人類先驗知識手工設(shè)計 CL 算法不同,MCL 旨在以數(shù)據(jù)驅(qū)動方式元學習(meta-learn)持續(xù)學習能力本身——即“學會如何持續(xù)學習”。由此,我們可設(shè)計一個通用的 MCL 算法,再通過輸入特定領(lǐng)域的數(shù)據(jù),自動生成適配于該領(lǐng)域的專用 CL 算法。MCL 在許多實際場景中更具優(yōu)勢:它可以在部署 CL 智能體之前,利用大規(guī)模數(shù)據(jù)集預(yù)先提升其持續(xù)學習能力,而非從零開始學習。

MCL 遵循元學習的標準雙層優(yōu)化框架:在內(nèi)層循環(huán)(inner loop)中,模型由某一 CL 算法進行持續(xù)訓練;在外層循環(huán)(outer loop)中,該 CL 算法則跨多個持續(xù)學習“任務(wù)序列”(episodes)進行優(yōu)化。盡管隨機梯度下降(SGD)一直是深度學習中的主流學習機制,但這種雙層結(jié)構(gòu)提供了靈活性——它允許我們將神經(jīng)網(wǎng)絡(luò)與根本不同的學習機制相結(jié)合。具體而言,我們可在外層循環(huán)中僅使用 SGD 對神經(jīng)網(wǎng)絡(luò)進行元訓練,而在內(nèi)層循環(huán)中采用另一種更新規(guī)則執(zhí)行持續(xù)學習

在此背景下,序貫貝葉斯更新(sequential Bayesian update)脫穎而出,成為最富前景的候選機制:它為知識狀態(tài)的更新提供了一種理想框架。盡管已有大量 CL 方法受到神經(jīng)網(wǎng)絡(luò)參數(shù)后驗分布貝葉斯更新的啟發(fā)(如 Kirkpatrick 等,2016;Zenke 等,2017;Chaudhry 等,2018;Nguyen 等,2018;Farquhar & Gal,2019),但它們均需依賴各類近似手段以確保計算可行性,因而偏離了理想貝葉斯更新的本質(zhì)。

與此不同,我們引入Fisher–Darmois–Koopman–Pitman 定理(Fisher, 1934;Darmois, 1935;Koopman, 1936;Pitman, 1936)指出:指數(shù)族分布(exponential family)是唯一一類能實現(xiàn)高效且無損的序貫貝葉斯更新的分布族(詳見 §2.2 更精確描述)。我們不再處理復(fù)雜神經(jīng)網(wǎng)絡(luò)后驗的不可解性問題,轉(zhuǎn)而考慮具備指數(shù)族后驗的簡單統(tǒng)計模型的序貫貝葉斯推斷——其結(jié)果與批量推斷完全一致。這類模型天生免疫于災(zāi)難性遺忘,但通常因過于簡單而難以建模復(fù)雜、高維的現(xiàn)實數(shù)據(jù)。幸運的是,MCL 框架允許我們元訓練神經(jīng)網(wǎng)絡(luò),使其充當現(xiàn)實世界與統(tǒng)計模型之間的橋梁。

我們將“結(jié)合簡單統(tǒng)計模型與元學習神經(jīng)網(wǎng)絡(luò)”這一思想提煉為一種通用 MCL 框架,命名為序貫貝葉斯元持續(xù)學習(Sequential Bayesian Meta-Continual Learning,SB-MCL)。由于 SB-MCL 是領(lǐng)域無關(guān)(domain-agnostic)且模型無關(guān)(model-agnostic)的,因此可廣泛適用于各類問題領(lǐng)域,并能以極小改動集成進現(xiàn)有模型架構(gòu)。SB-MCL 涵蓋了若干先前工作(如 Banayeeanzade 等,2021;Snell 等,2017;Harrison 等,2018)作為其特例,并同時支持監(jiān)督與無監(jiān)督學習。

我們在大量基準任務(wù)上進行了廣泛實驗,結(jié)果表明:SB-MCL 不僅取得了卓越性能,且顯著降低了資源消耗。代碼已開源:https://github.com/soochan-lee/SB-MCL。

2. 背景

2.1 元持續(xù)學習



2.2 指數(shù)族后驗的序貫貝葉斯更新

貝葉斯法則提供了一種基于前一時刻的后驗分布作為當前時刻先驗、從而逐步更新知識的原則性方法,即:(Bishop, 2006; Murphy, 2022)。因此,貝葉斯視角已被廣泛應(yīng)用于 CL 研究(Kirkpatrick 等人,2016;Zenke 等人,2017;Chaudhry 等人,2018;Nguyen 等人,2018;Farquhar & Gal, 2019)。然而,先前的工作主要集中在序貫更新神經(jīng)網(wǎng)絡(luò)參數(shù)的后驗分布上,而這些后驗通常是難以精確計算的。因此,它們必須依賴各種近似方法,導致理想貝葉斯更新與現(xiàn)實之間存在巨大差距。

那么,哪種模型適合高效的序貫貝葉斯更新?根據(jù) Fisher–Darmois–Koopman–Pitman 定理(Fisher, 1934; Darmois, 1935; Koopman, 1936; Pitman, 1936),指數(shù)族分布是唯一一類充分統(tǒng)計量維度保持不變的分布族,無論樣本數(shù)量多少。充分統(tǒng)計量是指能捕獲數(shù)據(jù)中關(guān)于感興趣參數(shù)全部信息的最小統(tǒng)計量。因此,如果充分統(tǒng)計量的維度保持固定,我們就可以在一個固定大小的內(nèi)存系統(tǒng)中存儲所有必要信息。該定理對 CL 具有重要啟示:如果模型的后驗不屬于指數(shù)族(如神經(jīng)網(wǎng)絡(luò)的情況),并且沒有足夠大的內(nèi)存系統(tǒng)來存儲不斷增長的充分統(tǒng)計量,遺忘就不可避免。從這一角度看,采用重放緩沖區(qū)(replay buffer)(Lopez-Paz & Ranzato, 2017; Chaudhry 等人, 2019)是一種有助于部分保留充分統(tǒng)計量的方法。

另一方面,該定理也暗示了一種替代方案:通過采用指數(shù)族分布,我們可以在固定維度內(nèi)存儲充分統(tǒng)計量,從而實現(xiàn)高效且無妥協(xié)的序貫貝葉斯更新。盡管指數(shù)族的表達能力有限,但在 MCL 設(shè)置下,可通過元學習神經(jīng)網(wǎng)絡(luò)來協(xié)調(diào)真實世界數(shù)據(jù)與指數(shù)族之間的關(guān)系,從而有效解決這一挑戰(zhàn)。

  1. 我們的方法:SB-MCL

3.1 元學習目標



目標是最大化測試集 E 的(條件)對數(shù)似然,即在連續(xù)學習訓練流 D (上標 e 現(xiàn)在為簡潔起見省略)后。假設(shè)模型由 θ 參數(shù)化,該目標可以總結(jié)為:


3.2 將持續(xù)學習視為序貫貝葉斯更新

在公式 1 和 2 中,CL 過程被抽象為變分后驗分布 q_φ(z|D) 內(nèi)部的過程,該分布是通過序貫貝葉斯更新獲得的:







3.3 元訓練

在元訓練階段,模型和學習器通過多個 CL 任務(wù)序列進行元更新,以最大化公式 1 或 2。對于每個任務(wù)序列,§3.2 中的 CL 過程會利用學習器來獲得 q_φ(z|D)。與基于 SGD 的 MCL 不同,我們的方法無需按順序處理訓練流。如果所有訓練樣本均可獲得(這在元訓練期間通常是成立的),我們可以將它們并行地輸入給學習器,并使用批量推斷規(guī)則而非序貫更新規(guī)則來合并結(jié)果。例如,對于高斯后驗,我們可以使用以下公式代替公式 5 來得到相同的結(jié)果:


與基于 SGD 的方法(需對每個樣本依次執(zhí)行前向-反向傳播)相比,我們方法的元訓練可充分利用 GPU 或 TPU 等并行處理器帶來的加速優(yōu)勢。

一旦獲得變分后驗分布 q ? ( z ∣ D )
,我們采用蒙特卡洛近似(Monte Carlo approximation)來計算關(guān)于 q ? ( z ∣ D )
的期望(Kingma & Welling, 2014)。對于高斯后驗,可進一步使用重參數(shù)化技巧(reparameterization trick)(Kingma & Welling, 2014)進行采樣——即采樣 z z 的方式支持梯度反向傳播:


在給定 z 的條件下,我們在訓練樣本和測試樣本上運行模型,以計算公式 1 或 2 中的第一項。該項鼓勵模型與學習器協(xié)作,以提高數(shù)據(jù)的似然性。第二項是變分后驗分布 q ? ( z ∣ D ) 與先驗分布 p θ ( z ) 之間的 Kullback-Leibler (KL) 散度,可視為一項正則化項。我們將先驗設(shè)定為與后驗同屬指數(shù)族的分布,例如,對于高斯后驗,采用單位高斯分布作為先驗,這使得 KL 散度可以進行解析計算。最后,最后一項 log ? p θ ( D)是一個常數(shù),在優(yōu)化過程中可以忽略。

在為一個任務(wù)序列或一批任務(wù)序列計算完公式 1 或 2 后,我們使用 SGD 算法對模型和學習器進行元更新,并通過整個任務(wù)序列進行反向傳播。與現(xiàn)有的基于 SGD 的 MCL 方法(Javed & White, 2019; Beaulieu 等, 2020)不同,我們無需計算任何二階導數(shù),這對可擴展性而言是一個顯著優(yōu)勢。

3.4. SB-MCL 的若干現(xiàn)有特例

若干先前工作可被視為 SB-MCL 在特定領(lǐng)域下的特例。我們在表 1 中總結(jié)了其關(guān)鍵特性,并在下文給出高層描述。


GeMCL(Banayeeanzade 等,2021)
GeMCL 可視為本框架在圖像分類領(lǐng)域中的一個具體實例。它利用一個經(jīng)元學習的神經(jīng)網(wǎng)絡(luò)編碼器,為每幅圖像提取一個嵌入向量。在訓練過程中,它在嵌入空間中為每個類別維護一個高斯后驗分布;每當出現(xiàn)屬于某類別的樣本時,即通過序貫貝葉斯更新規(guī)則對該類別的高斯后驗進行更新。這些高斯分布共同構(gòu)成嵌入空間中的高斯混合模型(GMM)。在測試階段,每幅測試圖像同樣經(jīng)該編碼器映射為嵌入向量,再通過推斷其所屬的 GMM 成分(即類別)完成預(yù)測。

若將 GeMCL 視為 SB-MCL 的一個實例,可認為該編碼器兼具雙重角色:一為“學習器”(learner),二為“模型組件”(model component)。在訓練階段,編碼器作為學習器,用于更新后驗分布 q ? ( z ∣ x 1 : t , y 1 : t ) ,其中 z z 為 GMM 的參數(shù);在測試階段,編碼器則作為模型組件,將測試輸入轉(zhuǎn)換為嵌入,而 GMM 則利用訓練階段習得的參數(shù)對嵌入進行分類。Banayeeanzade 等(2021)還提出了一個最大后驗(MAP)變體,該變體直接輸出 p θ ( y ~ n ∣ x ~ n , z MAP )作為預(yù)測結(jié)果。該變體計算更簡單,且性能下降不顯著。

原型網(wǎng)絡(luò)(Prototypical Networks, Snell 等,2017)
雖然 GeMCL 本身已是 SB-MCL 的一個特例,但它亦可被視為對原型網(wǎng)絡(luò)(PN)的推廣——后者最初是為少樣本分類提出的元學習方法。因此,PN 同樣屬于 SB-MCL 家族。與 GeMCL 采用完全貝葉斯方法不同,PN 僅對每類樣本的嵌入取平均以構(gòu)建“原型”(prototype)向量。由于平均操作可序貫執(zhí)行,PN 可直接應(yīng)用于 MCL 場景。通過假設(shè)各高斯后驗為各向同性、且先驗為無信息先驗(uninformative prior),即可將 GeMCL 簡化為 PN(Banayeeanzade 等,2021)。

ALPaCA(Harrison 等,2018)
ALPaCA 最初是為在線回歸問題提出的元學習方法,其結(jié)構(gòu)與 PN 或 GeMCL 對稱:后者在編碼器之上附加 GMM 用于分類,而 ALPaCA 則附加一個線性模型用于回歸。在 ALPaCA 中,潛在變量 z z 為線性模型的權(quán)重矩陣,其后驗被假定服從矩陣正態(tài)分布(matrix normal distribution)。由于在線學習與持續(xù)學習具有相似的數(shù)據(jù)流設(shè)定,僅需少量修改即可將 ALPaCA 應(yīng)用于 MCL 回歸任務(wù)。

3.5 將任意模型適配至 SB-MCL

前一節(jié)中討論的所有先前工作均采用相似架構(gòu):一個經(jīng)元學習的編碼器,其后接一個簡單統(tǒng)計模型。當輸出類型恰好適配該統(tǒng)計模型、從而可解析計算后驗時,這種結(jié)構(gòu)十分理想。然而,對于輸出格式更復(fù)雜的領(lǐng)域(例如結(jié)構(gòu)化輸出),或無監(jiān)督設(shè)定(此時無顯式輸出變量),這類架構(gòu)往往難以直接應(yīng)用。

相比之下,SB-MCL 幾乎可應(yīng)用于任何現(xiàn)有模型架構(gòu)或問題領(lǐng)域,原因在于:我們僅需對原模型稍作修改——使其以某個潛在變量 z z 為條件,而該 z z 的后驗被建模為指數(shù)族分布。模型修改完成后,再添加一個“學習器”(learner),負責將訓練數(shù)據(jù)流“消化”為 z z 的變分后驗分布;該學習器可與主模型共享大部分參數(shù)。

盡管實現(xiàn)此類修改的方式理論上無限多樣,本文目前聚焦于一種可能最簡化的實現(xiàn)路徑,更復(fù)雜的架構(gòu)設(shè)計留待未來探索。在實驗中,我們將 z z 定義為一個512 維的因子化高斯變量(factorized Gaussian variable),并將其作為輔助輸入注入模型。若模型本身采用編碼器-解碼器結(jié)構(gòu),我們便將 z z 與編碼器輸出拼接(concatenate),再將拼接結(jié)果送入解碼器。

需強調(diào)的是,盡管該方法結(jié)構(gòu)簡單,但高維高斯變量與神經(jīng)網(wǎng)絡(luò)恰當結(jié)合時,可展現(xiàn)出驚人的表達靈活性——這一點已在生成模型中得到驗證:例如,變分自編碼器(VAE;Kingma & Welling, 2014)或生成對抗網(wǎng)絡(luò)(GAN;Goodfellow 等, 2014)均通過神經(jīng)網(wǎng)絡(luò)將單位高斯變量變換為逼真的圖像。其選擇高斯分布的動機在于采樣便利性;而我們選擇高斯分布,則主要出于其對災(zāi)難性遺忘的魯棒性(robustness to forgetting)。

  1. 相關(guān)工作

基于 SGD 的 MCL 方法
OML(Javed & White, 2019)在元學習得到的編碼器之上,疊加了一個小型多層感知機(MLP),并采用 MAML(Finn 等, 2017)進行優(yōu)化。在 OML 的內(nèi)層循環(huán)中,編碼器保持固定不變,而 MLP 則通過 SGD 依次學習每一個訓練樣本進行更新。待 MLP 在內(nèi)層循環(huán)中訓練完畢后,整個模型在測試集上進行評估,以計算元損失(meta-loss);隨后,對該元損失關(guān)于編碼器參數(shù)及 MLP 初始參數(shù)的梯度進行計算,并據(jù)此更新這些參數(shù)。

受 OML 啟發(fā),ANML(Beaulieu 等, 2020)是另一面向圖像分類任務(wù)的 MCL 方法,其引入了一個名為神經(jīng)調(diào)節(jié)網(wǎng)絡(luò)(neuromodulatory network)的組件。該組件輸出一個 sigmoid 激活值,與編碼器輸出相乘,從而依據(jù)輸入內(nèi)容自適應(yīng)地調(diào)控(“門控”)部分特征通路。

關(guān)于 MCL 及元學習與持續(xù)學習其他結(jié)合方式的詳細綜述,讀者可參見 Son 等人(2023)。


從這一視角出發(fā),將訓練數(shù)據(jù)流輸入自回歸序列模型并更新其內(nèi)部狀態(tài)——在語言建模文獻中,這一過程被稱為上下文內(nèi)學習(in-context learning)(Brown 等,2020)——即可視為一種持續(xù)學習(CL)。在 MCL 框架下,該序列模型可在多個持續(xù)學習任務(wù)序列(episodes)上進行元訓練,從而學會執(zhí)行 CL。作者證明:Transformer(Vaswani 等,2017)及其高效變體(Katharopoulos 等,2020;Choromanski 等,2021)相較于基于 SGD 的方法,取得了顯著更優(yōu)的性能表現(xiàn)。

神經(jīng)過程(Neural Processes, NPs)
盡管動機不同,但監(jiān)督版 SB-MCL(見公式 1)與神經(jīng)過程(NP)相關(guān)文獻(Garnelo 等,2018a; b)之間存在引人注目的相似性。NP 最初旨在克服高斯過程(Gaussian Process)的局限性,例如計算成本高昂以及先驗設(shè)計困難等問題。NP 本身亦可視為一種元學習方法——它學習一個函數(shù)先驗(functional prior),并已被應(yīng)用于元學習領(lǐng)域(Gordon 等,2019)。由于 NP 根植于隨機過程理論,其核心設(shè)計原則之一是可交換性(exchangeability):即模型輸出不應(yīng)依賴于訓練樣本的輸入順序。為實現(xiàn)可交換性,NP 對每個樣本進行獨立編碼,并通過置換不變(permutation-invariant)操作(如取平均)將其聚合為一個單一變量,再將該變量送入解碼器。

我們所采用的指數(shù)族后驗的序貫貝葉斯更新,雖最初受 Fisher–Darmois–Koopman–Pitman 定理啟發(fā),但同樣天然滿足可交換性。Volpp 等人(2021)曾為 NP 提出一種基于貝葉斯原理的聚合機制,甚至探討了序貫更新的可能性,但他們并未將其與持續(xù)學習建立聯(lián)系。據(jù)我們所知,NP 與 MCL 之間唯一的關(guān)聯(lián)是 CNAP(Requeima 等,2019),但 CNAP 是專為圖像分類任務(wù)設(shè)計的領(lǐng)域特定架構(gòu)。

  1. 實驗我們在廣泛的問題領(lǐng)域上驗證了本框架的有效性,涵蓋監(jiān)督與無監(jiān)督任務(wù)。我們同時提供了 PyTorch(Paszke 等,2019)實現(xiàn)代碼,以確保所有實驗均可復(fù)現(xiàn)。受限于篇幅,本文僅呈現(xiàn)最核心的信息;更多細節(jié)請參閱開源代碼。

5.1 方法

基于 SGD 的 MCL 方法鑒于其簡潔性與通用性,我們選用 OML(Javed & White, 2019)作為基于 SGD 的 MCL 方法的代表性基線。盡管 OML 最初針對分類與簡單回歸任務(wù)提出,Lee 等人(2023)通過在編碼器與解碼器之間堆疊一個 MAML MLP 模塊,構(gòu)造了一種適用于更廣泛領(lǐng)域的編碼器-解碼器變體。由于 OML 的主要計算瓶頸在于二階梯度計算,我們還測試了其一階近似版本(OML-Rep),該版本參照 Reptile 方法(Nichol 等,2018)實現(xiàn)。

CL-Seq我們測試了 Lee 等人(2023)實現(xiàn)中提供的 Transformer(TF;Vaswani 等,2017)與線性 Transformer(Linear TF;Katharopoulos 等,2020)。對于標準 Transformer,其計算開銷隨學習樣本數(shù)量增加而持續(xù)上升,這被批評為嚴重制約其可擴展性的主要缺陷(Tay 等,2022);而線性 Transformer 則與其他基線方法及本文 SB-MCL 一樣,維持恒定的計算成本,但其性能遜于標準 Transformer(Lee 等,2023)。

離線與在線學習盡管本文聚焦于 MCL,但已有大量非元學習的持續(xù)學習(non-meta-CL)方法被提出。為提供性能參照,我們報告了離線學習與在線學習的得分——它們通常被視為 CL 與在線 CL 性能的理論上限(Zenke 等,2017;Farajtabar 等,2020)。

  • 離線學習:模型從零開始訓練,使用從整個訓練流中均勻采樣的小批量樣本,進行不限次數(shù)的 SGD 迭代;由于模型通常會在訓練集上過擬合,我們報告訓練過程中達到的最佳測試得分
  • 在線學習:將訓練流隨機打亂,形成平穩(wěn)數(shù)據(jù)流;模型從零開始,僅遍歷該流一次(一個 epoch),并報告訓練結(jié)束時的最終測試得分。

需注意:MCL 方法的性能可能超越離線與在線學習的得分,因為 MCL 可利用大規(guī)模元訓練集進行預(yù)訓練,而(非元學習的)常規(guī) CL 方法則不具備這一優(yōu)勢(Lee 等,2023)。


5.2 基準任務(wù)

我們的實驗設(shè)置主要沿用 Lee 等人(2023)的方案。由于廣為使用的 Omniglot 數(shù)據(jù)集(Lake 等,2015)規(guī)模較。▋H含 1.6K 類 / 32K 張圖像),易導致嚴重的元過擬合(meta-overfitting),Lee 等人轉(zhuǎn)而重新利用 CASIA(Liu 等,2011)與 MS-Celeb-1M(Guo 等,2016)數(shù)據(jù)集開展 MCL 研究:CASIA 是一個中文手寫字符數(shù)據(jù)集,包含 7.4K 種字符、共計 3.9M 張圖像;MS-Celeb-1M 則包含 10 萬位名人的 1000 萬張圖像;谶@些數(shù)據(jù)集,Lee 等人構(gòu)建了多種監(jiān)督學習基準任務(wù),涵蓋分類與回歸兩類任務(wù);其中,每個類別(如字符類型或名人身份)被定義為一個獨立任務(wù)。各基準任務(wù)的高層描述如下;各任務(wù)所用模型架構(gòu)的可視化示意圖見附錄 B。

  • 圖像分類:我們在 Omniglot、CASIA 和 Celeb(即 MS-Celeb-1M 的簡稱)數(shù)據(jù)集上開展實驗,嚴格遵循 Lee 等人(2023)的設(shè)置。所有方法共享一個含五層卷積層的 CNN 編碼器。GeMCL 作為 SB-MCL 的一個特例參與比較。
  • 正弦回歸(Sine Regression):我們采用 Lee 等人(2023)提出的合成正弦波回歸設(shè)定。ALPaCA 作為 SB-MCL 的一個特例參與測試。


  • 深度生成建模(Deep Generative Modeling):我們首次在 MCL 研究中評估深度生成模型的持續(xù)學習性能。我們采用兩類深度生成模型評估無監(jiān)督學習性能:變分自編碼器(VAE;Kingma & Welling, 2014)與去噪擴散概率模型(DDPM;Ho 等, 2020)。VAE 采用簡單卷積編碼器-解碼器架構(gòu),DDPM 則采用 Ho 等人(2020)的 U-Net 編碼器-解碼器架構(gòu)。在 SB-MCL 中,我們?yōu)閷W習器單獨配置一個編碼器,并將 z z 通過拼接方式注入解碼器輸入;對于 OML,我們將編碼器末尾的 MLP 與解碼器開頭的 MLP 替換為 MAML MLP 模塊。本任務(wù)未測試 Transformer,因其與深度生成模型的結(jié)合并不直接。
  • 評估方案:所有 MCL 實驗均在10 任務(wù) × 每任務(wù) 10 樣本(10-task 10-shot)設(shè)置下進行元訓練:每條訓練流由 10 個任務(wù)拼接而成,每個任務(wù)含 10 個樣本。我們主要在與元訓練相同設(shè)置(即 10-task 10-shot)的元測試集上評估性能,同時也檢驗其在其他元測試設(shè)置下的泛化能力。超參數(shù)均針對 10-task 10-shot 設(shè)置下的性能進行調(diào)優(yōu)。
    • 分類任務(wù)報告分類錯誤率,其他任務(wù)報告損失值;因此,分數(shù)越低越好
    • 每項實驗報告五次獨立運行的均值與標準差;每次 MCL 運行中,從元測試集中采樣 512 個 CL 任務(wù)序列,并計算其平均得分。
    • 對于無元訓練環(huán)節(jié)的離線與在線學習:每次從元測試集中采樣一個任務(wù)序列,在其訓練集上訓練模型并測評測試得分;重復(fù)該過程 20 次,報告均值與均值標準誤(standard error of the mean)。

5.3 結(jié)果與分析

我們在表 2、表 3 和表 4 中分別展示了分類、回歸與深度生成建模任務(wù)的實驗結(jié)果;圖 3 比較了各方法在更長訓練流下的泛化能力,而表 5 則匯總了跨數(shù)據(jù)集泛化的結(jié)果。關(guān)于定性示例與更全面的結(jié)果,請參見附錄 C 與 D。以下結(jié)合實驗結(jié)果,討論 SB-MCL 表現(xiàn)出的若干顯著特性:



強大的持續(xù)學習性能
在分類、回歸與生成任務(wù)的實驗中(表 2–4),SB-MCL 家族顯著優(yōu)于基于 SGD 的方法及線性 Transformer(Linear TF);其性能可與標準 Transformer(TF)相媲美——但需注意,TF 的單樣本計算開銷隨已學樣本數(shù)持續(xù)增長。

更強的泛化能力
當在更長的訓練流(圖 3)或不同數(shù)據(jù)集(表 5)上進行元測試時,SB-MCL 的得分均顯著優(yōu)于所有基線方法。尤為突出的是,TF 的性能因長度泛化能力差而急劇下降——這是 Transformer 廣為人知的局限性(Anil 等,2022)。另一有趣現(xiàn)象是:如圖 3b 所示,即使任務(wù)數(shù)量不變、僅增加每個任務(wù)的樣本數(shù)(shots),TF 與 OML 的性能仍可能出現(xiàn)下降。這看似違反直覺,因為為每個任務(wù)提供更多信息理應(yīng)有益。然而在基于 SGD 的 MCL 中,更長的訓練流意味著更多 SGD 更新步數(shù),反而可能加劇遺忘;而 TF 更因長度泛化失敗導致性能急劇惡化。相比之下,SB-MCL 家族在“多樣本”(many-shot)設(shè)定下展現(xiàn)出卓越的魯棒性:隨著樣本數(shù)增加,其性能甚至略有提升。該現(xiàn)象與我們的理論框架高度一致——由于后驗屬于具有固定維數(shù)充分統(tǒng)計量的指數(shù)族分布,在任務(wù)數(shù)不變的前提下增加樣本數(shù),僅會提升變分后驗的估計精度,而不會引發(fā)遺忘。



更高的效率
表 6 對比了 SB-MCL 家族與 OML、TF 的元訓練耗時:

  • 首先,SB-MCL 與 TF 均顯著快于 OML——后者不支持并行訓練;而并行訓練對于充分利用 GPU 等并行處理器、實現(xiàn)高效元訓練至關(guān)重要。
  • 其次,在所有基準任務(wù)中,SB-MCL 均快于 TF,充分體現(xiàn)了其優(yōu)越的效率——這得益于貝葉斯更新所具有的恒定計算開銷特性。

持續(xù)學習本質(zhì)是表征能力問題
依設(shè)計,SB-MCL 的輸出結(jié)果與訓練數(shù)據(jù)是否按序輸入無關(guān);換言之,理論上可完全避免遺忘。這一獨特性質(zhì)為持續(xù)學習研究開辟了新路徑:我們無需再糾纏于 SGD 在非平穩(wěn)數(shù)據(jù)流上復(fù)雜的動態(tài)學習行為與遺忘機制,而可將重心轉(zhuǎn)向最大化表征能力——包括設(shè)計更優(yōu)/更大的網(wǎng)絡(luò)架構(gòu)、收集更多數(shù)據(jù)等,這與離線場景下解決常規(guī)深度學習問題的思路完全一致。需注意,這一范式轉(zhuǎn)變在基于 SGD 的方法中無法實現(xiàn):其 CL 性能受遺忘動態(tài)過程的復(fù)雜影響,并未與模型表征能力嚴格對齊。

  1. 結(jié)論

本文提出了一種通用的元持續(xù)學習(MCL)框架,將指數(shù)族分布對遺忘的魯棒性與神經(jīng)網(wǎng)絡(luò)的靈活性相結(jié)合。其卓越的性能與效率已在多個不同領(lǐng)域中得到實證驗證。通過將若干先前工作統(tǒng)一于同一框架之下,我們旨在為 MCL 領(lǐng)域中未來序貫貝葉斯方法的研究奠定堅實基礎(chǔ)。

如 §5.3 所述,本框架將 CL 中的遺忘問題重新詮釋為表征能力問題。這使我們得以將研究重心從“如何通過優(yōu)化手段防止遺忘”轉(zhuǎn)向“如何設(shè)計更優(yōu)的模型架構(gòu)”。探索專門用于與指數(shù)族后驗交互的神經(jīng)網(wǎng)絡(luò)架構(gòu),將成為一個富有前景的后續(xù)研究方向。此外,為 MCL 構(gòu)建新數(shù)據(jù)集亦是重要的未來工作:盡管我們的方法可從大規(guī)模數(shù)據(jù)中顯著獲益,但目前適用于 MCL 研究的高質(zhì)量數(shù)據(jù)集仍十分稀缺。我們相信,結(jié)合合適的數(shù)據(jù)集,本方法有望催生一系列引人注目的實際應(yīng)用。

https://arxiv.org/pdf/2405.18758

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
終于來了,芬蘭總理抵達北京,落地下說了2句話,特朗普怕啥來啥

終于來了,芬蘭總理抵達北京,落地下說了2句話,特朗普怕啥來啥

劉森森
2026-01-27 16:37:48
以色列遞交給美國的伊朗處決證據(jù),為何引發(fā)全球嘩然?

以色列遞交給美國的伊朗處決證據(jù),為何引發(fā)全球嘩然?

老馬拉車莫少裝
2026-01-25 08:06:06
做完手術(shù)人就廢了,這5種手術(shù)不需要做,別讓無知害了自己

做完手術(shù)人就廢了,這5種手術(shù)不需要做,別讓無知害了自己

華庭講美食
2026-01-19 14:27:13
英格蘭前國腳戴維-巴蒂每年都給老隊友打電話,看他是否還活著

英格蘭前國腳戴維-巴蒂每年都給老隊友打電話,看他是否還活著

懂球帝
2026-01-27 11:13:22
張不開嘴就別尬演!黃曉明“吃泡面”,戳穿了多少演員最后的體面

張不開嘴就別尬演!黃曉明“吃泡面”,戳穿了多少演員最后的體面

十里電影
2026-01-18 10:07:37
得分“業(yè)余”卻成籃板怪物!火箭最被低估的殺招,被他一人扛起!

得分“業(yè)余”卻成籃板怪物!火箭最被低估的殺招,被他一人扛起!

田先生籃球
2026-01-27 13:01:19
安以軒老公被抓3年后首露臉!模樣大變老到認不出,素顏聚餐像大媽

安以軒老公被抓3年后首露臉!模樣大變老到認不出,素顏聚餐像大媽

八星人
2026-01-27 14:12:34
8勝2平,皇馬歐戰(zhàn)對葡萄牙球隊連續(xù)10場不敗

8勝2平,皇馬歐戰(zhàn)對葡萄牙球隊連續(xù)10場不敗

懂球帝
2026-01-28 03:50:08
她赴英留學,卻與上千外國男子有染并拍成視頻,父母與她斷絕關(guān)系

她赴英留學,卻與上千外國男子有染并拍成視頻,父母與她斷絕關(guān)系

阿胡
2026-01-21 17:34:15
“泡”女人,男人只要記住這兩點,女人絕對會主動送上門

“泡”女人,男人只要記住這兩點,女人絕對會主動送上門

小鬼頭體育
2026-01-27 04:31:18
樓大鵬同志逝世

樓大鵬同志逝世

澎湃新聞
2026-01-27 08:58:05
楊德龍:2026年做好大類資產(chǎn)配置至關(guān)重要

楊德龍:2026年做好大類資產(chǎn)配置至關(guān)重要

德龍財經(jīng)
2026-01-27 20:32:25
登陸英超!U23國足隊長攜女友已抵英國 6隊友祝福:加油狼隊球員

登陸英超!U23國足隊長攜女友已抵英國 6隊友祝福:加油狼隊球員

我愛英超
2026-01-26 10:02:13
我供男友讀碩4年后他提分手,我停了他的生活費,他打電話來質(zhì)問

我供男友讀碩4年后他提分手,我停了他的生活費,他打電話來質(zhì)問

荷蘭豆愛健康
2026-01-27 07:52:59
4-4!最佳新援誕生!謝謝你,特雷楊!

4-4!最佳新援誕生!謝謝你,特雷楊!

籃球?qū)崙?zhàn)寶典
2026-01-27 17:03:42
貪財又好色,德不配位的幾位老藝術(shù)家,晚節(jié)不保一點都不冤

貪財又好色,德不配位的幾位老藝術(shù)家,晚節(jié)不保一點都不冤

素衣讀史
2026-01-19 12:01:39
險爆大冷!衛(wèi)冕冠軍辛納驚魂一幕!克服高溫抽筋苦戰(zhàn)4盤艱難晉級

險爆大冷!衛(wèi)冕冠軍辛納驚魂一幕!克服高溫抽筋苦戰(zhàn)4盤艱難晉級

搏擊江湖
2026-01-27 20:53:46
短劇男頂流被前女友舉報涉毒,與女演員亂睡覺,荒唐的一幕發(fā)生!

短劇男頂流被前女友舉報涉毒,與女演員亂睡覺,荒唐的一幕發(fā)生!

叨嘮
2026-01-28 04:11:05
溫州網(wǎng)絡(luò)第一人,被抓了!

溫州網(wǎng)絡(luò)第一人,被抓了!

溫百君
2026-01-27 22:58:52
閆學晶風波終于落幕,6個男人慘遭牽連,兒媳與繼女最不好過

閆學晶風波終于落幕,6個男人慘遭牽連,兒媳與繼女最不好過

青橘罐頭
2026-01-26 20:19:38
2026-01-28 06:11:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會講話透露了哪些關(guān)鍵信息

頭條要聞

美報告稱中國是其19世紀以來面對過的最強大國家

頭條要聞

美報告稱中國是其19世紀以來面對過的最強大國家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學?

娛樂要聞

張雨綺風波持續(xù)發(fā)酵,曝多個商務(wù)被取消

財經(jīng)要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

態(tài)度原創(chuàng)

手機
家居
教育
本地
公開課

手機要聞

蘋果連發(fā)4版系統(tǒng):從iPhone 5s到iOS 26,果粉福音來了!

家居要聞

現(xiàn)代古典 中性又顯韻味

教育要聞

對話陳妤頡:閃閃發(fā)光的賽道,追逐夢想

本地新聞

云游中國|撥開云霧,巫山每幀都是航拍大片

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版