国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

在線免任務(wù)持續(xù)學(xué)習(xí):基于可擴(kuò)展視覺Transformer的方法

0
分享至

Online Task-Free Continual Learning via Expansible Vision Transformer

在線免任務(wù)持續(xù)學(xué)習(xí):基于可擴(kuò)展視覺Transformer的方法

https://eprints.whiterose.ac.uk/id/eprint/227640/1/LEViT-PR25.pdf



摘要:

近期,視覺Transformer(ViT)展現(xiàn)出卓越的數(shù)據(jù)表征能力,在多個視覺與語言學(xué)習(xí)任務(wù)中取得了當(dāng)前最優(yōu)性能。得益于其強(qiáng)大的表征能力,一些最新研究已開始探索將ViT應(yīng)用于持續(xù)學(xué)習(xí)(continual learning),并借助動態(tài)擴(kuò)展機(jī)制加以實(shí)現(xiàn)。然而,這些方法依賴于任務(wù)信息,因而無法應(yīng)對更貼近現(xiàn)實(shí)的場景,即任務(wù)無關(guān)持續(xù)學(xué)習(xí)(Task-Agnostic Continual Learning, TACL)。與上述基于ViT的持續(xù)學(xué)習(xí)方法不同,本文提出“終身可擴(kuò)展視覺Transformer”(Lifelong Expansible Vision Transformer, LEViT)模型,以應(yīng)對TACL挑戰(zhàn)。該模型通過動態(tài)增加自身容量,來適應(yīng)持續(xù)學(xué)習(xí)過程中數(shù)據(jù)表征底層概率分布的變化。LEViT由多個Transformer組件構(gòu)成,每個組件均配備多頭注意力機(jī)制及線性分類器。我們提出一種新型動態(tài)擴(kuò)展機(jī)制:該機(jī)制無需任務(wù)標(biāo)簽,通過評估所有已學(xué)組件所建模的聯(lián)合分布與新到來數(shù)據(jù)樣本的概率表征之間的統(tǒng)計相似性,來逐步擴(kuò)展LEViT的容量;同時,該機(jī)制可保障LEViT各組件間所學(xué)知識的多樣性。此外,我們引入“動態(tài)知識融合”(Dynamic Knowledge Fusion, DKF)方法,以充分挖掘ViT的特征表征能力,實(shí)現(xiàn)知識遷移。具體而言,我們將所有先前所學(xué)組件視為一個演化的知識庫,為后續(xù)學(xué)習(xí)提供先驗(yàn)知識。所提出的LEViT模型,相較于現(xiàn)有基于ViT的方法,無需任何任務(wù)信息,且能復(fù)用先前學(xué)習(xí)到的表征,以促進(jìn)后續(xù)任務(wù)的學(xué)習(xí)。

關(guān)鍵詞:視覺Transformer;持續(xù)學(xué)習(xí);混合模型

  1. 引言持續(xù)/終身學(xué)習(xí)(Continual/Lifelong Learning)作為人工智能領(lǐng)域新興的研究方向,旨在緩解災(zāi)難性遺忘問題,并使現(xiàn)代計算模型具備應(yīng)對諸多現(xiàn)實(shí)世界挑戰(zhàn)的能力。與依賴于固定數(shù)據(jù)域的傳統(tǒng)訓(xùn)練范式不同,持續(xù)學(xué)習(xí)(CL)是一種訓(xùn)練方法論,目標(biāo)是在無法訪問全部歷史數(shù)據(jù)的前提下,學(xué)習(xí)非平穩(wěn)的任務(wù)序列。盡管深度學(xué)習(xí)系統(tǒng)可通過大量訓(xùn)練樣本在單一任務(wù)上取得優(yōu)異性能,但在任務(wù)序列式學(xué)習(xí)過程中,由于模型參數(shù)需經(jīng)重新訓(xùn)練以適應(yīng)新任務(wù),往往導(dǎo)致其在過往任務(wù)上的性能顯著下降——此現(xiàn)象被稱為“災(zāi)難性遺忘”[1]。此外,對計算資源受限的系統(tǒng)(如基于現(xiàn)場可編程門陣列FPGA、無人機(jī)或機(jī)器人等的平臺)而言,序列式訓(xùn)練是訓(xùn)練深度學(xué)習(xí)模型的最優(yōu)策略。

多數(shù)CL研究預(yù)設(shè):訓(xùn)練與評估階段均可獲取任務(wù)標(biāo)簽,而這并不符合現(xiàn)實(shí)場景的復(fù)雜性。近期,任務(wù)無關(guān)持續(xù)學(xué)習(xí)(Task-Agnostic Continual Learning, TACL)[2]作為一種更現(xiàn)實(shí)的框架被提出——其訓(xùn)練全程均不披露任務(wù)身份。與傳統(tǒng)CL方法相比,TACL具備一項(xiàng)關(guān)鍵特性:支持機(jī)器隨時間推移持續(xù)增量式地從數(shù)據(jù)中學(xué)習(xí),因而適用于眾多實(shí)際應(yīng)用場景。例如,在自動駕駛系統(tǒng)中,模型通常依次遭遇來自不同環(huán)境的數(shù)據(jù)樣本,且往往缺乏任務(wù)特定信息。因此,TACL對諸多現(xiàn)實(shí)應(yīng)用至關(guān)重要。然而,TACL面臨的一個重大挑戰(zhàn)在于:模型在任一時刻僅能處理有限批次的樣本,而底層數(shù)據(jù)分布可能不可預(yù)測地持續(xù)變化。

緩解持續(xù)學(xué)習(xí)中遺忘問題的一種思路,是在模型中引入固定長度的記憶緩沖區(qū),為每個任務(wù)存儲部分訓(xùn)練樣本[3]。但緩沖區(qū)最大容量將顯著影響模型性能[4],故基于記憶的方法難以拓展至無限任務(wù)的學(xué)習(xí)[5]。為克服上述局限,研究者提出了生成重放機(jī)制(Generative Replay Mechanism, GRM)模型[6],其通過將過往任務(wù)的知識編碼進(jìn)模型參數(shù),并借助數(shù)據(jù)生成過程重放歷史樣本。然而,隨著任務(wù)數(shù)量不斷增加,GRM模型的性能會因反復(fù)進(jìn)行生成重放過程而逐步下降。

近期研究表明,視覺Transformer(ViT)[7–10]在表征學(xué)習(xí)能力方面優(yōu)于卷積神經(jīng)網(wǎng)絡(luò)(CNN)。憑借其卓越的表征學(xué)習(xí)能力,已有研究探索將ViT應(yīng)用于提升各類持續(xù)學(xué)習(xí)模型的性能[11]——這些方法通常共享一個主干網(wǎng)絡(luò),同時動態(tài)啟用基于自注意力機(jī)制的“專家模塊”以適配新任務(wù),從而提升性能。然而,現(xiàn)有基于ViT的工作主要集中于傳統(tǒng)CL框架(即訓(xùn)練階段可獲取任務(wù)標(biāo)簽),而ViT在TACL中的應(yīng)用目前仍屬空白。本文旨在從兩個方面彌補(bǔ)該空缺:(1)網(wǎng)絡(luò)遺忘問題;(2)知識遷移問題。針對前者,我們提出一種新模型——終身可擴(kuò)展視覺Transformer(LEViT),其根據(jù)數(shù)據(jù)流復(fù)雜性,動態(tài)構(gòu)建新的任務(wù)無關(guān)組件。為使LEViT能在TACL下應(yīng)對數(shù)據(jù)分布偏移問題,我們提出一種新型動態(tài)擴(kuò)展機(jī)制(見圖1):該機(jī)制通過評估所有先前訓(xùn)練組件所建模的聯(lián)合分布與新到數(shù)據(jù)集之間的知識相似性,為LEViT的擴(kuò)展提供恰當(dāng)信號,同時保障各組件知識的多樣性。

受人類大腦啟發(fā)——人類在接觸新信息時,并不會完全替換既有記憶;相反,還能利用畢生積累的知識高效習(xí)得新概念[12]——我們提出一種探索ViT特征表征能力、從數(shù)據(jù)中學(xué)習(xí)新信息的新方法:具體而言,我們將所有先前習(xí)得的組件視為一個預(yù)訓(xùn)練模型(即知識庫),用于從數(shù)據(jù)中提取圖像塊標(biāo)記(patch tokens);隨后,這些patch tokens被輸入至所有先前習(xí)得的多頭注意力模塊,生成特征定義信息,進(jìn)而使當(dāng)前注意力模塊能夠從給定數(shù)據(jù)中學(xué)習(xí)新概念。為有效復(fù)用先前習(xí)得的注意力信息,我們設(shè)計了一種門控機(jī)制,以選擇性地執(zhí)行前向知識遷移。該知識遷移方法可從兩個方面提升LEViT性能:(1)通過更新門控機(jī)制,最大化前向知識遷移收益;(2)隨著LEViT不斷訓(xùn)練并新增組件,其建模能力可通過復(fù)用增強(qiáng)后的多頭注意力模塊而逐步提升。

本文代碼已開源:https://github.com/dtuzi123/LEViT

本文主要貢獻(xiàn)如下:
? 首次探索ViT在訓(xùn)練與測試全程均不依賴任務(wù)信息條件下的持續(xù)學(xué)習(xí)潛力;
? 提出終身可擴(kuò)展視覺Transformer(LEViT)——一種新型終身學(xué)習(xí)方法,可在訓(xùn)練階段無需任務(wù)信息的前提下,通過動態(tài)擴(kuò)展網(wǎng)絡(luò)架構(gòu)應(yīng)對新概念;所提出的動態(tài)擴(kuò)展機(jī)制保障了各組件間統(tǒng)計表征的多樣性,從而使LEViT結(jié)構(gòu)更緊湊;
? 提出動態(tài)知識融合(DKF)方法,在學(xué)習(xí)新概念時利用先前習(xí)得ViT組件的先驗(yàn)知識;并引入門控機(jī)制至DKF中,使LEViT的建模能力可隨時間逐步提升;
? 構(gòu)建一新穎理論框架,用于分析模型在動態(tài)變化學(xué)習(xí)環(huán)境下的遺忘行為;實(shí)驗(yàn)表明,所提LEViT可在保持網(wǎng)絡(luò)架構(gòu)緊湊的同時取得優(yōu)異性能;
? 開展一系列TACL實(shí)驗(yàn),結(jié)果有力驗(yàn)證了所提LEViT框架的有效性。

本文其余部分組織如下:第2節(jié)綜述相關(guān)背景;第3節(jié)介紹所提出的基于ViT的持續(xù)學(xué)習(xí)方法;第4節(jié)闡述支撐該CL方法的理論框架;第5節(jié)給出并討論實(shí)驗(yàn)結(jié)果;第6節(jié)總結(jié)全文。

  1. 背景綜述當(dāng)前大多數(shù)持續(xù)學(xué)習(xí)(CL)研究聚焦于單一固定網(wǎng)絡(luò)架構(gòu)。為緩解遺忘問題,固定模型中常采用正則化方法 [13],以及基于記憶緩沖的方法 [14, 15]。前者通過對目標(biāo)函數(shù)施加正則項(xiàng),以限制在學(xué)習(xí)新任務(wù)時對若干被認(rèn)為重要的網(wǎng)絡(luò)權(quán)重進(jìn)行過度調(diào)整 [16];后者則利用固定長度的記憶緩沖區(qū) [17] 來保存部分歷史數(shù)據(jù),或訓(xùn)練一個數(shù)據(jù)生成器(如生成對抗網(wǎng)絡(luò)GAN [18] 或變分自編碼器VAE [19]),進(jìn)而在后續(xù)任務(wù)學(xué)習(xí)過程中回放生成的數(shù)據(jù) [20]。然而,上述多數(shù)方法均需依賴任務(wù)信息。首個面向任務(wù)無關(guān)持續(xù)學(xué)習(xí)(Task-Agnostic Continual Learning, TACL)的記憶型方法由文獻(xiàn) [2] 提出,并隨后由最大干擾檢索(Maximal Interfered Retrieval, MIR)[21] 進(jìn)一步拓展——MIR將VAE與分類器結(jié)合,并提出一種新穎的檢索機(jī)制,在每步訓(xùn)練中選擇性地將訓(xùn)練樣本存入記憶緩沖區(qū)。持續(xù)原型演化(Continual Prototype Evolution, CoPE)[22] 采用學(xué)習(xí)器–評估器框架,并借助信息多樣性記憶緩沖區(qū)以應(yīng)對TACL挑戰(zhàn)。數(shù)據(jù)編輯(data editing)方法則對數(shù)據(jù)樣本進(jìn)行修改后再存儲以供后續(xù)學(xué)習(xí) [23];此類方法也常與基于記憶的方法集成,以進(jìn)一步提升性能。然而,由于模型容量與記憶存儲能力均受限于固定規(guī)模,這些方法難以拓展至無限數(shù)據(jù)流的學(xué)習(xí)場景。

2.1 動態(tài)擴(kuò)展架構(gòu)
動態(tài)擴(kuò)展模型通過動態(tài)新增處理單元、隱藏層,或任務(wù)特定模塊至現(xiàn)有結(jié)構(gòu)中,以擴(kuò)展模型容量并適應(yīng)新任務(wù) [5, 24]。此類方法通常共享若干適用于所有任務(wù)的參數(shù),并在適配新任務(wù)時將其凍結(jié),以緩解遺忘 [5]。然而,這些方法均假定訓(xùn)練階段已知任務(wù)標(biāo)簽。近期,動態(tài)擴(kuò)展模型已被嘗試用于TACL,并取得了頗具前景的結(jié)果。例如,持續(xù)無監(jiān)督表征學(xué)習(xí)(Continual Unsupervised Representation Learning, CURL)[25] 在檢測到數(shù)據(jù)分布變化時,動態(tài)添加新的推理模型:CURL將對數(shù)似然低于某閾值的樣本存入緩沖區(qū);當(dāng)緩沖區(qū)滿時,即觸發(fā)架構(gòu)擴(kuò)展。一種類似的擴(kuò)展機(jī)制被用于持續(xù)神經(jīng)狄利克雷過程混合模型(Continual Neural Dirichlet Process Mixture, CNDPM)[26],其將組件擴(kuò)展建模為依賴于某一閾值的狄利克雷過程。與CURL不同,CNDPM動態(tài)新增一個獨(dú)立組件,該組件由一個分類器與一個VAE模型構(gòu)成;此外,CNDPM不依賴生成重放機(jī)制緩解遺忘,因而可維持對所有歷史樣本的穩(wěn)定性能。然而,這些動態(tài)擴(kuò)展模型在執(zhí)行擴(kuò)展時,并未評估當(dāng)前記憶緩沖區(qū)與模型已累積知識之間的相似性,通常導(dǎo)致所得網(wǎng)絡(luò)架構(gòu)并非最優(yōu)。

2.2 視覺Transformer(ViT)
自注意力機(jī)制最初被用于機(jī)器翻譯任務(wù) [27],隨后被擴(kuò)展應(yīng)用于語言理解任務(wù),例如在Transformer的雙向編碼器表征(BERT)[28]中。近期,Dosovitskiy 等人 [29] 提出將圖像分割為若干圖像塊(patches),并將這些圖像塊作為標(biāo)記(tokens)輸入Transformer進(jìn)行處理,由此構(gòu)建出視覺Transformer(Vision Transformer, ViT)。此后,一系列工作——如高效數(shù)據(jù)利用的圖像Transformer(DeiT)[9]、圖像Transformer中的類別注意力機(jī)制(CaiT)[10]、卷積視覺Transformer(Convit)[7] 以及Swin Transformer [8]——致力于從計算效率與性能兩方面改進(jìn)原始ViT模型。然而,這些模型僅適用于單一數(shù)據(jù)集,無法應(yīng)對持續(xù)學(xué)習(xí)中所必需的動態(tài)演化數(shù)據(jù)分布。

近期,動態(tài)標(biāo)記擴(kuò)展(Dynamic Token Expansion, DyTox)[11]首次將ViT應(yīng)用于持續(xù)學(xué)習(xí):DyTox在遇到新任務(wù)時動態(tài)學(xué)習(xí)一個任務(wù)特定的標(biāo)記(token),同時在所有任務(wù)間共享大部分參數(shù)。然而,該方法在訓(xùn)練過程中仍需任務(wù)標(biāo)簽,因此無法適用于TACL場景。此外,DyTox未對擴(kuò)展過程施加控制,導(dǎo)致在學(xué)習(xí)無限數(shù)量任務(wù)時,組件數(shù)量會持續(xù)增長。

相較之下,本文所提出的LEViT具備若干優(yōu)勢:
1)LEViT在訓(xùn)練與測試階段均無需訪問任務(wù)標(biāo)簽,因而可適用于更為現(xiàn)實(shí)的持續(xù)學(xué)習(xí)任務(wù);
2)得益于所提出的動態(tài)擴(kuò)展機(jī)制——僅在TACL設(shè)定下檢測到數(shù)據(jù)分布偏移時,才增加模型容量——LEViT具備良好的可擴(kuò)展性,能夠應(yīng)對無限數(shù)據(jù)流的學(xué)習(xí)需求。

  1. 終身可擴(kuò)展視覺Transformer視覺Transformer(ViT)在表征識別特征方面展現(xiàn)出優(yōu)異能力 [30]。自注意力機(jī)制是建模圖像塊之間相關(guān)性表征的一項(xiàng)關(guān)鍵計算機(jī)制。然而,當(dāng)試圖從新的數(shù)據(jù)集中學(xué)習(xí)額外信息時,自注意力模塊易遭受嚴(yán)重的遺忘問題。此外,ViT架構(gòu)本身并不具備可擴(kuò)展性,難以應(yīng)對無限數(shù)據(jù)流的學(xué)習(xí)需求。本文提出一種新型動態(tài)擴(kuò)展方法,可在以連續(xù)方式提供無標(biāo)簽新數(shù)據(jù)的條件下,通過擴(kuò)展ViT的容量,以應(yīng)對任務(wù)無關(guān)持續(xù)學(xué)習(xí)(TACL)的挑戰(zhàn)。

3.1 問題定義


3.2 任務(wù)無關(guān)組件





3.3 動態(tài)擴(kuò)展機(jī)制

固定網(wǎng)絡(luò)架構(gòu)無法處理無限數(shù)據(jù)流,尤其當(dāng)連續(xù)數(shù)據(jù)流具有非平穩(wěn)特性、并以統(tǒng)計屬性頻繁變化為特征時。在本節(jié)中,我們提出一種新的擴(kuò)展框架,即終身可擴(kuò)展視覺Transformer(LEVIT),該框架能夠動態(tài)擴(kuò)展Transformer網(wǎng)絡(luò)架構(gòu),以適應(yīng)概率性數(shù)據(jù)批次表征的變化。具體而言,所提出的LEVIT框架的核心思想是:當(dāng)當(dāng)前專家已學(xué)習(xí)到大量新穎信息時,創(chuàng)建一個新的專家。




方程 (6) 中的閾值 γ 控制模型大小和泛化性能之間的權(quán)衡。如果 γ 較小,LEViT 會創(chuàng)建更多組件,同時捕獲額外的不同數(shù)據(jù)分布。相反,當(dāng) γ 較大時,LEViT 保持緊湊的網(wǎng)絡(luò)架構(gòu)。方程 (6) 的評估是計算效率高的,因?yàn)樗ㄟ^低維潛在空間上的距離來評估信息的新穎性。此外,所提出的擴(kuò)展機(jī)制不需要監(jiān)督信號,可以用于監(jiān)督和無監(jiān)督學(xué)習(xí)。

3.4 通過知識庫進(jìn)行知識轉(zhuǎn)移

重用先前學(xué)習(xí)的信息以學(xué)習(xí)新概念可以促進(jìn)正向知識轉(zhuǎn)移[31]。然而,在TACL范式下,這種方法尚未被探索。在本節(jié)中,我們引入了一種新的動態(tài)知識融合方法,旨在通過ViT探索特征建模能力以進(jìn)行知識轉(zhuǎn)移。所提出的知識融合方法的核心思想是重用并整合來自所有先前學(xué)習(xí)專家的表示信息,以促進(jìn)新任務(wù)的學(xué)習(xí)。



根據(jù)式(9),該模型復(fù)用所有先前習(xí)得的圖像塊標(biāo)記(patch tokens)以及增強(qiáng)后的多頭注意力機(jī)制,從而實(shí)現(xiàn)了遠(yuǎn)超式(5)的建模能力——后者僅使用單一的多頭注意力模塊。此外,式(7)中的門控機(jī)制實(shí)現(xiàn)了選擇性知識遷移,可避免新舊樣本之間的相互干擾。而且,隨著LEViT學(xué)習(xí)到更多組件,我們可通過復(fù)用越來越多的多頭注意力模塊,逐步提升其建模能力。我們在圖3中詳細(xì)展示了所提出的KDF(應(yīng)為DKF,即Dynamic Knowledge Fusion,動態(tài)知識融合)流程,可概括為以下步驟:



3.5 算法實(shí)現(xiàn)

詳細(xì)的網(wǎng)絡(luò)架構(gòu)如圖4所示,而所提出的LEVIT訓(xùn)練算法的實(shí)現(xiàn)則在算法1中概述。我們將該算法總結(jié)為以下步驟:






  1. 理論框架本節(jié)借鑒領(lǐng)域自適應(yīng)理論的相關(guān)成果 [32, 33],以分析所提出的動態(tài)擴(kuò)展模型的遺忘行為。

4.1 預(yù)備知識






4.2 固定模型的理論分析






使用單一組件模型的局限性。由于基于記憶的方法采用固定大小的記憶緩沖區(qū)來存儲數(shù)據(jù)樣本,當(dāng)數(shù)據(jù)流包含大規(guī)模數(shù)據(jù)集時,無法捕獲全部信息,如定理1所示。此外,基于記憶的方法需要設(shè)計一種合適的樣本選擇策略,以實(shí)現(xiàn)從所有數(shù)據(jù)類別中存儲多樣化樣本。然而,當(dāng)數(shù)據(jù)流復(fù)雜且需要大量訓(xùn)練步驟進(jìn)行學(xué)習(xí)時,單一固定容量的記憶緩沖區(qū)無法存儲對應(yīng)于所有類別的足夠信息,從而導(dǎo)致災(zāi)難性遺忘。在下一節(jié)中,我們提出一種動態(tài)擴(kuò)展模型,該模型在學(xué)習(xí)多個任務(wù)時被證明優(yōu)于固定模型。

4.3 所提出的可擴(kuò)展特征表征模型的理論結(jié)果
本節(jié)將分析所提出的終身可擴(kuò)展視覺Transformer(LEViT)框架的遺忘行為。下文首先給出若干重要符號與定義。






由引理1,我們得出以下觀察:

  • 所提出的LEVIT與固定模型不同,它可以通過使用多個專家來緩解遺忘問題。
  • 在所提出的LEVIT框架中,專家的數(shù)量會影響其整體性能。例如,如果僅添加少量專家,則無法捕獲全部過往信息,從而導(dǎo)致一定程度的遺忘。
  • 所提出的LEVIT能夠通過動態(tài)添加新專家以及時捕捉新穎信息,從而應(yīng)對無限數(shù)據(jù)流的學(xué)習(xí)(此時 K K 非常大)。相反,固定模型在學(xué)習(xí)無限數(shù)據(jù)流時會遭受嚴(yán)重的災(zāi)難性遺忘。

  1. 實(shí)驗(yàn)

我們在MNIST [35]、CIFAR10 [36]、CIFAR100 [36] 和 MINI-ImageNet [37] 數(shù)據(jù)集上,采用TACL基準(zhǔn)協(xié)議對LEVIT模型進(jìn)行評估,并隨后進(jìn)行消融研究。

5.1 實(shí)現(xiàn)細(xì)節(jié)與設(shè)置

實(shí)現(xiàn)與超參數(shù)。對于Split MNIST,圖像塊大小為7×7,嵌入維度為Q=100,批次大小b=10。我們實(shí)現(xiàn)的MLP包含一個具有100個處理單元的全連接層。每個VAE的編碼器和解碼器均由兩個全連接層實(shí)現(xiàn),每層包含200個單元。對于Split CIFAR10和Split CIFAR100,圖像塊大小為8×8,嵌入維度為100,MLP由一個具有兩層隱藏單元(分別為500和200個單元)的全連接神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。Split CIFAR10和Split CIFAR100所用的VAE模型由CNN網(wǎng)絡(luò)實(shí)現(xiàn),卷積核大小為3×3。編碼器由四個卷積層和一個全連接層組成,各層單元數(shù)分別為64、128、256、512和1024。我們使用反卷積層實(shí)現(xiàn)VAE解碼器,各層單元數(shù)分別為512、512、256、128和3。

超參數(shù)設(shè)置。我們采用Adam優(yōu)化算法 [38],學(xué)習(xí)率為0.0001。由于超參數(shù)β對所提框架性能影響不大,我們?yōu)樗袛?shù)據(jù)集均采用β=0.5的配置。

所用硬件 - GPU。實(shí)驗(yàn)在Tesla V100-SXM2 (32GB) GPU上運(yùn)行,操作系統(tǒng)為RHEL 8。

基線方法。我們將我們的方法與多個TACL基線方法 [22] 進(jìn)行比較,包括最大干擾檢索(MIR)[21]、增量分類器與表征學(xué)習(xí)(iCARL)[39]、貪婪樣本選擇(GSS)[3]、梯度情景記憶(GEM)[4]、Reservoir [40]、CURL [25]、持續(xù)神經(jīng)狄利克雷過程混合模型(CNDPM)[26]、動態(tài)在線協(xié)同記憶(OCM)[41]、動態(tài)CAA [42](其中CAA指持續(xù)變分自編碼器)、CoPE [22]、在線遞歸變分自編碼器(ORVAE)[43]、ER + GMED以及ER? + GMED [23](其中ER代表經(jīng)驗(yàn)回放(Experience Replay)[44],ER?是結(jié)合了經(jīng)驗(yàn)回放與數(shù)據(jù)增強(qiáng)的模型,GMED代表基于梯度的記憶編輯)。此外,我們還實(shí)現(xiàn)了不包含動態(tài)知識融合(DKF)的LEVIT版本,稱為LEVIT-No-DKF;以及使用非自適應(yīng)權(quán)重的DKF版本,稱為LEVIT-DKF-Fixed。在LEVIT中,若每個組件由全連接深度神經(jīng)網(wǎng)絡(luò)(DNN)而非ViT實(shí)現(xiàn),則該模型被稱為LEVIT-DNN。

5.2 TACL基準(zhǔn)測試

我們在Split MNIST、Split CIFAR10和Split CIFAR100的持續(xù)學(xué)習(xí)場景下訓(xùn)練所提出的模型。五次獨(dú)立運(yùn)行的平均結(jié)果見表1。我們與其它方法進(jìn)行比較,其中除“微調(diào)”(finetune)外,在像Split MNIST這樣簡單的數(shù)據(jù)集上表現(xiàn)良好,而“微調(diào)”在所有數(shù)據(jù)集上的表現(xiàn)都更差,因?yàn)樗淮鎯v史樣本。一些基于記憶的方法,如GEM和iCARL,在包含更復(fù)雜圖像的數(shù)據(jù)集(如Split CIFAR10和Split CIFAR100)上表現(xiàn)較差。動態(tài)擴(kuò)展模型,如CURL和CNDPM,通常在這三個數(shù)據(jù)集上優(yōu)于大多數(shù)基于記憶的方法,因?yàn)樗鼈兛梢酝ㄟ^增加自身容量來適應(yīng)數(shù)據(jù)分布的偏移。所提出的LEVIT-DKF尤其在Split CIFAR10上優(yōu)于其他動態(tài)擴(kuò)展模型,其在合理規(guī)模的網(wǎng)絡(luò)下實(shí)現(xiàn)了51.74%的平均分類準(zhǔn)確率。


從表1的結(jié)果中我們可以觀察到,LEVIT-DKF在所有三個數(shù)據(jù)集上的性能均優(yōu)于LEVIT-No-DKF,后者未利用先前學(xué)習(xí)到的知識。此外,LEVIT-DKF-Fixed未能充分利用所提DKF的潛力,因?yàn)樗桓伦⒁饬?shù),并且在知識遷移時認(rèn)為每個先前訓(xùn)練的表征貢獻(xiàn)相同。LEVIT-DKF與LEVIT-DKF-Fixed之間的對比結(jié)果表明,我們可以利用DKF提升模型性能。我們還將LEVIT-DNN與之進(jìn)行了比較,結(jié)果表明,LEVIT中使用的ViT組件在使用更少參數(shù)的情況下,優(yōu)于采用經(jīng)典深度神經(jīng)網(wǎng)絡(luò)(DNN)的情況,相關(guān)組件數(shù)量和參數(shù)量詳見表2。我們還在由復(fù)雜圖像組成的Split MiniImageNet [45] 數(shù)據(jù)集上評估了各模型的性能,結(jié)果見表3,其中基線方法的結(jié)果除CNDPM外均引自文獻(xiàn)[23]。這些結(jié)果表明,LEVIT-DKF在使用更少參數(shù)的情況下,仍能優(yōu)于其他基線方法。



5.3 跨領(lǐng)域分類

我們進(jìn)一步在更具挑戰(zhàn)性的設(shè)定下評估 LEViT-DKF 的有效性:該設(shè)定中的數(shù)據(jù)流由多個不同領(lǐng)域依次提供。我們構(gòu)建了以下三類跨領(lǐng)域任務(wù):

  • 拆分 MNIST–Fashion(Split M-F):依次學(xué)習(xí) Split MNIST 與 Split Fashion-MNIST;
  • 置換 MNIST(Permuted MNIST, P-MNIST):包含 10 個任務(wù),每個任務(wù)對應(yīng)一種特定的隨機(jī)像素置換(即對 MNIST 數(shù)據(jù)庫中所有圖像統(tǒng)一應(yīng)用相同的隨機(jī)像素重排)[23];
  • 拆分 MNIST–SVHN(Split M-S):依次學(xué)習(xí) Split MNIST 與 Split SVHN(街景門牌號數(shù)據(jù)集),其中所有圖像均被統(tǒng)一調(diào)整為 32 × 32 × 3 的分辨率。

對于 Permuted MNIST、Split MNIST-Fashion 和 Split MNIST-SVHN,所采用的最大記憶緩沖區(qū)容量分別為 2000、2000 和 1000。為公平比較,我們采用大規(guī)模網(wǎng)絡(luò)架構(gòu)重新實(shí)現(xiàn)了 CNDPM [26]。最后,我們在 Permuted MNIST、Split MNIST-Fashion 和 Split MNIST-SVHN 上訓(xùn)練所提出的模型及各基線方法,結(jié)果匯總于表 4;從中可見,在多領(lǐng)域設(shè)定下,LEViT-DKF 的性能優(yōu)于 CNDPM。

5.4 消融研究

在本節(jié)中,我們探究所提出的 LEViT 模型中各組成部分的重要性。

首先,我們研究了在 TACL 場景下改變批次大小 b b 時模型的性能。Split MNIST 上的經(jīng)驗(yàn)準(zhǔn)確率結(jié)果如圖 5 所示,從中可見,準(zhǔn)確率對批次大小并不敏感。我們還在圖 6 中展示了在 Split MNIST、Split CIFAR10 和 Split CIFAR100 上學(xué)習(xí)時的分類準(zhǔn)確率。可以觀察到,當(dāng)持續(xù)提供新的數(shù)據(jù)集分布(任務(wù))時,LEViT-DKF 會擴(kuò)展其網(wǎng)絡(luò)架構(gòu),從而能夠以更少的組件學(xué)習(xí)更多任務(wù)。這些結(jié)果表明,在每個數(shù)據(jù)集上,無論記憶緩沖區(qū)大小如何配置,所提出的模型均優(yōu)于 ER [44] 和 CNDPM [26],證明該模型對記憶緩沖區(qū)大小的變化具有魯棒性。


此外,我們還研究了改變式 (6) 中控制擴(kuò)展模型組件數(shù)量的參數(shù) γ 對所提 LEViT 性能的影響。我們在 CIFAR10 數(shù)據(jù)集上使用不同的閾值 γ 訓(xùn)練模型,結(jié)果如圖 7 所示。隨著 γ 增大,LEViT-DKF 將使用更少的組件,但其性能會隨之下降。所提出方法的動態(tài)擴(kuò)展過程如圖 8 所示,表明一個合適的 γ 可在訓(xùn)練過程中生成適當(dāng)數(shù)量的組件。由于 Split MNIST 和 Split CIFAR10 的 VAE 編碼器潛在維度分別為 50 和 200,因此兩者對應(yīng)的閾值 γ 范圍也不同。



我們進(jìn)一步研究了視覺 Transformer (ViT) 組件中嵌入維度(由式 (2) 定義)的影響。我們在 Split MNIST 上用不同的嵌入維度訓(xùn)練所提出的 LEViT-DAM,并將結(jié)果繪制于圖 9。可以看出,改變嵌入空間的維度并不會導(dǎo)致所提 LEViT-DAM 的性能發(fā)生顯著變化。此類實(shí)驗(yàn)結(jié)果表明,所提出的方法對嵌入維度的變化不敏感。


5.5 討論

與一般的持續(xù)學(xué)習(xí)(通常假設(shè)訓(xùn)練過程中任務(wù)信息與任務(wù)邊界已知)不同,任務(wù)無關(guān)持續(xù)學(xué)習(xí)(TACL)代表了一種更具實(shí)用性的學(xué)習(xí)場景。遵循文獻(xiàn) [2] 的設(shè)定,我們利用不同數(shù)據(jù)集(包括 CIFAR10、CIFAR100 和 TinyImageNet)構(gòu)建了若干數(shù)據(jù)流,并持續(xù)評估所得分類性能。表 1、表 2 與表 3 的結(jié)果表明,相較于所比較的其他基線方法,本文所提出的方法取得了最優(yōu)性能。

此外,TACL 的結(jié)果在許多實(shí)際應(yīng)用中具有重要意義。例如,圖 6 的結(jié)果表明,所提出的方法能夠恰當(dāng)?shù)貦z測數(shù)據(jù)分布發(fā)生重要變化的時刻,并利用此類信號隨時間動態(tài)擴(kuò)展網(wǎng)絡(luò)架構(gòu)。這些結(jié)果表明,所提出的方法具備潛在應(yīng)用價值,例如:

  • 在自動駕駛中,可用于實(shí)時評估車輛周圍環(huán)境條件是否發(fā)生變化;
  • 在醫(yī)療監(jiān)護(hù)中,可用于檢測患者生理狀態(tài)的異常改變。

總體而言,所提出框架的可擴(kuò)展性使其適用于實(shí)時系統(tǒng),以處理連續(xù)數(shù)據(jù)流。

  1. 結(jié)論與局限性

本研究提出了終身可擴(kuò)展視覺Transformer(LEViT)模型,使視覺Transformer(ViT)在任務(wù)無關(guān)持續(xù)學(xué)習(xí)(TACL)范式下具備終身學(xué)習(xí)能力。LEViT采用多個ViT組成的集成架構(gòu),通過動態(tài)擴(kuò)展機(jī)制,實(shí)現(xiàn)對TACL場景中變化數(shù)據(jù)分布的建模。該動態(tài)擴(kuò)展機(jī)制使LEViT能夠表征多樣化數(shù)據(jù)的概率分布。我們還提出了動態(tài)知識融合(DKF)機(jī)制,在無需任何任務(wù)信息的前提下,高效復(fù)用過往知識以學(xué)習(xí)新概念。DKF通過挖掘ViT的內(nèi)在特性實(shí)現(xiàn)前向知識遷移,在優(yōu)化資源利用的同時保持網(wǎng)絡(luò)架構(gòu)緊湊。對持續(xù)學(xué)習(xí)機(jī)制的理論分析表明,與固定架構(gòu)模型相比,所提出的可擴(kuò)展架構(gòu)模型具有更優(yōu)的泛化上界。

我們開展了一系列TACL實(shí)驗(yàn),結(jié)果表明:在TACL設(shè)定下,所提出的LEViT性能優(yōu)于其他基線方法。該方法可應(yīng)用于多種需探索新環(huán)境的建模任務(wù),例如自動駕駛、機(jī)器人與無人機(jī)探索、患者監(jiān)護(hù)與疾病進(jìn)展監(jiān)測及相應(yīng)治療方案制定等。

未來工作中,我們將進(jìn)一步探索融合深度生成模型的新TACL框架。

所提出LEViT框架的一項(xiàng)關(guān)鍵優(yōu)勢在于其可擴(kuò)展性:模型能夠持續(xù)不斷地從無限數(shù)據(jù)流中學(xué)習(xí)并吸收新信息。這一顯著特性使其適用于在線學(xué)習(xí)場景,契合多種實(shí)時應(yīng)用需求。此外,LEViT在保持緊湊網(wǎng)絡(luò)架構(gòu)的同時展現(xiàn)出優(yōu)異性能,大幅降低了存儲開銷。

然而,LEViT框架存在以下局限性:

  1. 參數(shù)持續(xù)累積問題:在長時間連續(xù)學(xué)習(xí)過程中,模型參數(shù)數(shù)量可能過度增長,導(dǎo)致其難以部署于資源受限設(shè)備。為此,我們后續(xù)研究將引入一種創(chuàng)新的專家壓縮機(jī)制,自動剔除冗余或重疊的專家組件,從而維持穩(wěn)定可控的網(wǎng)絡(luò)規(guī)模。
  2. 共享主干更新受限:當(dāng)前框架中,共享主干僅在初始任務(wù)學(xué)習(xí)階段更新參數(shù),后續(xù)階段保持凍結(jié)。因此,每個新實(shí)例化的專家由于活躍參數(shù)數(shù)量受限,難以高效適配新任務(wù)。為解決此問題,未來工作將設(shè)計一種新型目標(biāo)函數(shù),在優(yōu)化共享主干的同時,防止訓(xùn)練過程中產(chǎn)生有害的知識遷移效應(yīng)。

原文: https://eprints.whiterose.ac.uk/id/eprint/227640/1/LEViT-PR25.pdf

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
廣州32歲猝死程序員公司發(fā)內(nèi)部郵件,稱其未按要求做體檢,妻子:每年都有體檢,公司不承認(rèn)三甲醫(yī)院體檢報告

廣州32歲猝死程序員公司發(fā)內(nèi)部郵件,稱其未按要求做體檢,妻子:每年都有體檢,公司不承認(rèn)三甲醫(yī)院體檢報告

大風(fēng)新聞
2026-01-27 20:52:03
給人養(yǎng)了7年閑人,廣汽終于要關(guān)閉洛杉磯的研發(fā)中心

給人養(yǎng)了7年閑人,廣汽終于要關(guān)閉洛杉磯的研發(fā)中心

與車同樂
2025-12-04 10:05:02
深圳重挖 110 米垃圾山,把歐美看呆了:中國已經(jīng)陷入“垃圾荒”了

深圳重挖 110 米垃圾山,把歐美看呆了:中國已經(jīng)陷入“垃圾荒”了

小李子體育
2026-01-27 16:01:14
26歲天才股神坦言:尾盤30分鐘就能買到次日必漲的股票,從不例外

26歲天才股神坦言:尾盤30分鐘就能買到次日必漲的股票,從不例外

股經(jīng)縱橫談
2026-01-27 18:22:52
過年別亂買東西!這5種年貨,全是“科技與狠活”,很多人不知道

過年別亂買東西!這5種年貨,全是“科技與狠活”,很多人不知道

Home范
2026-01-27 14:07:55
運(yùn)價直逼5毛錢/公里,網(wǎng)約車司機(jī)發(fā)出靈魂拷問:這么低的價格究竟誰在跑?

運(yùn)價直逼5毛錢/公里,網(wǎng)約車司機(jī)發(fā)出靈魂拷問:這么低的價格究竟誰在跑?

網(wǎng)約車觀察室
2026-01-26 10:17:32
1997年回歸前夜,香港十幾萬黑幫連夜“大逃亡”,他們最后都去哪了?

1997年回歸前夜,香港十幾萬黑幫連夜“大逃亡”,他們最后都去哪了?

老杉說歷史
2026-01-13 19:14:13
不到48小時,特朗普身體傳噩耗,34國軍方高官集合,對英緊急改口

不到48小時,特朗普身體傳噩耗,34國軍方高官集合,對英緊急改口

夕陽渡史人
2026-01-27 14:35:01
做完手術(shù)人就廢了,這5種手術(shù)不需要做,別讓無知害了自己

做完手術(shù)人就廢了,這5種手術(shù)不需要做,別讓無知害了自己

華庭講美食
2026-01-19 14:27:13
烏外長:澤連斯基愿與普京會面 以解決領(lǐng)土等敏感問題

烏外長:澤連斯基愿與普京會面 以解決領(lǐng)土等敏感問題

財聯(lián)社
2026-01-28 02:36:58
郭艾倫沒想到,辭職遼寧男籃的楊鳴,原來早已給自己準(zhǔn)備好了后路

郭艾倫沒想到,辭職遼寧男籃的楊鳴,原來早已給自己準(zhǔn)備好了后路

行舟問茶
2026-01-28 03:16:53
頂流巨星:已退圈,寧肯做農(nóng)民

頂流巨星:已退圈,寧肯做農(nóng)民

視覺志
2026-01-27 10:34:11
胖改不到一年!北京知名超市突然停業(yè)了!

胖改不到一年!北京知名超市突然停業(yè)了!

大北京早知道
2026-01-27 14:13:08
李平康:賀一然加盟泰山基本差不多了,玄智健基本不可能了

李平康:賀一然加盟泰山基本差不多了,玄智健基本不可能了

懂球帝
2026-01-27 22:34:52
專家:銀價短期或跌回90美元之下

專家:銀價短期或跌回90美元之下

財聯(lián)社
2026-01-27 16:22:25
中國駐日大校王慶簡:定時以開窗為號,竟向日本傳遞了 20 年機(jī)密

中國駐日大校王慶簡:定時以開窗為號,竟向日本傳遞了 20 年機(jī)密

z千年歷史老號
2026-01-23 12:16:03
中美艦艇發(fā)生激烈對峙!外軍突然沖向解放軍,結(jié)果下一刻掉頭跑了

中美艦艇發(fā)生激烈對峙!外軍突然沖向解放軍,結(jié)果下一刻掉頭跑了

杰絲聊古今
2026-01-28 03:38:29
單親媽媽打兩份工賺的錢,被兒子偷轉(zhuǎn)1萬給爸爸,評論區(qū)直接炸鍋

單親媽媽打兩份工賺的錢,被兒子偷轉(zhuǎn)1萬給爸爸,評論區(qū)直接炸鍋

和平聲浪
2026-01-27 14:30:21
1月27日,人社部召開了發(fā)布會,有3個社保養(yǎng)老金好消息,挺重要的

1月27日,人社部召開了發(fā)布會,有3個社保養(yǎng)老金好消息,挺重要的

墨蘭史書
2026-01-27 17:25:03
主場龍客場蟲?火箭隊(duì)竟然成為了全聯(lián)盟的第一魔鬼主場!

主場龍客場蟲?火箭隊(duì)竟然成為了全聯(lián)盟的第一魔鬼主場!

田先生籃球
2026-01-27 12:39:54
2026-01-28 04:15:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會講話透露了哪些關(guān)鍵信息

頭條要聞

美報告稱中國是其19世紀(jì)以來面對過的最強(qiáng)大國家

頭條要聞

美報告稱中國是其19世紀(jì)以來面對過的最強(qiáng)大國家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學(xué)?

娛樂要聞

張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個商務(wù)被取消

財經(jīng)要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗(yàn)車下線

態(tài)度原創(chuàng)

手機(jī)
親子
數(shù)碼
教育
公開課

手機(jī)要聞

蘋果連發(fā)4版系統(tǒng):從iPhone 5s到iOS 26,果粉福音來了!

親子要聞

雙職工家庭,孩子上幼兒園后,無老人幫忙,夫妻倆能獨(dú)立帶娃嗎?

數(shù)碼要聞

這事你怎么看 索尼與TCL簽署意向備忘錄 網(wǎng)友:Sony變Tony了

教育要聞

對話陳妤頡:閃閃發(fā)光的賽道,追逐夢想

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版