国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

IIEU: 重新思考決策視角下的神經(jīng)特征激活機制

0
分享至

神經(jīng)網(wǎng)絡中的非線性激活函數(shù),長期以來被視為深度學習成功的基石。然而,這些激活模型的工作原理一直缺乏清晰的解釋框架。本文從全新的多準則決策理論角度,重新審視神經(jīng)特征激活的本質(zhì)。當我們把激活函數(shù)視為一種選擇性特征重校準器時,一個被長期忽視的關鍵問題浮出水面:特征評分不匹配問題。傳統(tǒng)激活函數(shù)無法有效解耦特征和過濾器的范數(shù)差異,導致特征重要性評估偏差。這一發(fā)現(xiàn)引領我們設計了瞬時重要性估計單元(IIEU),通過自適應范數(shù)解耦的相似度測量,有效提升了神經(jīng)網(wǎng)絡性能。在多個計算機視覺基準測試中,IIEU展現(xiàn)出顯著優(yōu)勢。

激活函數(shù)的局限

在深度學習的世界里,非線性激活函數(shù)扮演著不可或缺的角色。它們就像神經(jīng)網(wǎng)絡中的"開關",決定哪些信息可以傳遞,哪些信息需要被抑制。沒有這些激活函數(shù),再深的網(wǎng)絡也只能表達線性關系,無法學習復雜的模式。

自2012年AlexNet在ImageNet競賽上取得突破性成績以來,神經(jīng)網(wǎng)絡在圖像識別、物體檢測等任務中的表現(xiàn)持續(xù)提升。這些成功很大程度上歸功于ReLU(修正線性單元)等激活函數(shù)的應用。ReLU的簡單公式f(x)=max(0,x)意味著它只傳遞正值,將負值變?yōu)榱恪_@種設計使得網(wǎng)絡訓練速度加快,也緩解了梯度消失問題。

傳統(tǒng)的激活函數(shù)主要受到生物神經(jīng)元行為的啟發(fā)。比如Softplus函數(shù)試圖模擬神經(jīng)元從完全不激活到完全激活的平滑過渡過程。ReLU則可看作是Softplus的一個簡化近似。這些基于生物學的啟發(fā)雖然有效,但缺乏對其為何能在人工神經(jīng)網(wǎng)絡中有效工作的清晰解釋。

隨著研究的深入,學術界提出了多種激活函數(shù)的改進版本。LeakyReLU允許負值以一個小系數(shù)傳遞,以避免"死亡ReLU"問題。PReLU則進一步將這個小系數(shù)設為可學習參數(shù)。GELU引入了高斯誤差線性單元,結合了高斯分布的累積分布函數(shù)。Swish函數(shù)使用Sigmoid函數(shù)對輸入進行門控,形成了自門控激活函數(shù)。

這些改進方向主要集中在三個方面:增加通道上下文(如FReLU、DyReLU)、采用統(tǒng)計策略(如GELU、Pserf)和任務特定的周期函數(shù)。盡管這些方法取得了一定進展,但它們?nèi)匀蝗狈σ粋€統(tǒng)一的解釋框架,來指導如何設計更有效的激活函數(shù)。

更為核心的問題是,現(xiàn)有的激活函數(shù)改進主要基于經(jīng)驗嘗試,缺乏對神經(jīng)網(wǎng)絡中激活機制本質(zhì)的深入理解。它們往往只關注激活函數(shù)的形式,而忽視了激活過程背后的深層原理。這導致了研究方向的分散和改進效果的有限。

在實際應用中,這些激活函數(shù)面臨著各種挑戰(zhàn)。比如在淺層網(wǎng)絡中表現(xiàn)良好的激活函數(shù)在深層網(wǎng)絡中可能效果不佳;為圖像任務優(yōu)化的激活函數(shù)可能不適用于自然語言處理任務;計算復雜度與性能提升之間的權衡也是一個實際問題。

究其根本,現(xiàn)有激活函數(shù)發(fā)展的瓶頸在于缺乏理論指導。沒有清晰的解釋框架,我們難以系統(tǒng)地理解不同激活函數(shù)的優(yōu)劣勢,也難以有針對性地設計更有效的激活機制。這就像在黑暗中摸索前進,可能會有所收獲,但效率低下且方向不明。

決策理論新視角

傳統(tǒng)上,我們理解神經(jīng)網(wǎng)絡激活函數(shù)的方式主要來自神經(jīng)科學,但這種視角有其局限性。如果從多準則決策理論(MCDM)的角度重新思考,我們可以獲得全新的理解。

MCDM是一種在多個標準下評估和選擇最佳方案的理論框架。在這個視角下,神經(jīng)網(wǎng)絡的特征激活過程可以理解為一種選擇性重校準過程——根據(jù)特征的重要性來選擇性地抑制或強調(diào)不同的特征。

具體來說,我們可以把每個濾波器看作一個可更新的"理想候選",而特征向量則是需要評估的"替代候選"。特征和濾波器之間的內(nèi)積(即相似度)就成為了評估特征重要性的一種度量。這種相似度越高,表明特征越符合濾波器所代表的標準,應當被賦予更高的權重;相似度低或為負值的特征則可能對學習有害,應被抑制。

在這個框架下,激活函數(shù)的非線性特性可以被理解為一種"松散選擇性",它是區(qū)分特征重要性的必要但非充分條件。理想的激活函數(shù)應能根據(jù)特征的真實重要性來靈活調(diào)整其影響力。

然而,當我們深入分析特征-濾波器內(nèi)積作為重要性度量時,發(fā)現(xiàn)了一個被長期忽視的關鍵問題:特征評分不匹配問題。這個問題源于特征和濾波器的范數(shù)(即向量的長度)差異。

想象這樣一個場景:兩個特征向量x和y與兩個濾波器w和u,滿足x與w高度相似,而y與u和w都不相似。但由于范數(shù)差異,計算出的內(nèi)積可能會有〈u,y〉=〈w,x〉并且〈w,y〉=〈w,x〉的情況。這意味著,盡管y對u和w都不相似,但它獲得了與x相同的"重要性得分"。這顯然不合理,會導致網(wǎng)絡對特征重要性的錯誤判斷。

為了解決這個問題,我們提出了瞬時重要性(II)和傳遞性重要性(TI)兩個概念。TI分數(shù)就是傳統(tǒng)的特征-濾波器內(nèi)積,它包含了由先前層傳遞過來的信息,但容易受到范數(shù)差異的影響。II分數(shù)則試圖測量特征與濾波器之間的范數(shù)獨立相似度,能更準確地反映特征的當前重要性。

一個自然的解決方案是使用余弦相似度(內(nèi)積除以兩者范數(shù)的乘積)作為II分數(shù)。但簡單的余弦相似度假設濾波器是其標準的完美代表,這在訓練早期階段往往不成立。因此,我們需要一個更靈活的解決方案,能夠適應不同的訓練狀態(tài)。

這就引出了我們的IIEU(瞬時重要性估計單元)設計。IIEU通過結合傳遞性重要性分數(shù)和自適應范數(shù)解耦的瞬時重要性分數(shù),實現(xiàn)了更準確的特征重要性評估。具體來說,IIEU使用公式φ(x?)=?(x?/(||x||||w||)+ν)x?,其中x?是特征-濾波器內(nèi)積,?是調(diào)節(jié)函數(shù),ν是可學習的偏置項。

這種設計讓IIEU能夠有效處理特征評分不匹配問題。通過使用x?/(||x||||w||)作為主相似度項(項-S),IIEU解耦了特征和濾波器的范數(shù)影響;通過引入適應性偏置項ν(項-B),IIEU進一步提高了相似度估計的靈活性。最終,IIEU實現(xiàn)了對特征重要性的更準確評估,從而能更有效地選擇性重校準特征。

與傳統(tǒng)激活函數(shù)相比,IIEU從根本上改變了特征激活的方式。它不再是簡單地應用一個固定或可學習的非線性函數(shù),而是基于特征的真實重要性進行動態(tài)調(diào)整。這種方法能夠更好地利用跨通道信息,并在濾波器更新過程中提供更豐富的指導信號。

在實踐中,IIEU表現(xiàn)出了明顯的優(yōu)勢。在ImageNet圖像分類任務上,使用IIEU的ResNet-26網(wǎng)絡能達到或超過使用其他最先進激活函數(shù)的ResNet-101網(wǎng)絡的性能,同時具有更少的參數(shù)和計算量。這一成果充分證明了從決策理論角度重新思考神經(jīng)特征激活的價值。

IIEU的設計之道

在理解了特征激活的本質(zhì)和發(fā)現(xiàn)特征評分不匹配問題后,我們需要設計一個能解決這些問題的新型激活函數(shù)。IIEU(瞬時重要性估計單元)就是為此而生的。它不僅僅是對已有激活函數(shù)的簡單修改,而是基于全新理論框架構建的激活機制。

IIEU的核心思想很直觀:我們希望激活函數(shù)能夠準確評估特征的重要性,并據(jù)此進行選擇性重校準。為此,IIEU引入了一個關鍵公式:φ(x?)=?(x?/(||x||||w||)+ν)x?。這個看似復雜的公式其實包含了兩個主要部分:范數(shù)解耦的相似度測量(x?/(||x||||w||))和可學習的偏置項(ν)。

范數(shù)解耦的相似度測量(被稱為"項-S")解決了特征評分不匹配問題。傳統(tǒng)的特征-濾波器內(nèi)積會受到向量長度(范數(shù))的影響,導致重要性評估偏差。通過除以兩者范數(shù)的乘積,IIEU消除了這種影響,使得相似度測量更加準確。

可學習的偏置項(被稱為"項-B")則增加了靈活性。理想情況下,濾波器應該是其標準的完美代表,但在實際訓練中特別是早期階段,這一點難以保證。偏置項允許模型根據(jù)訓練狀態(tài)動態(tài)調(diào)整相似度評估,從而更好地適應不同階段的需求。

在IIEU的實際實現(xiàn)中,我們有兩個版本:基礎版IIEU-B和增強版IIEU-DC。IIEU-B直接實現(xiàn)了上述設計理念,其中偏置項ν通過對通道統(tǒng)計量應用LayerNorm和Sigmoid函數(shù)得到。這確保了偏置項是有界且為正的,避免了其對主相似度項的過度干擾。

IIEU-B還使用了一個條件調(diào)節(jié)函數(shù)?。當估計的相似度大于等于學習閾值η時,函數(shù)直接輸出該相似度;當小于η時,函數(shù)應用一個指數(shù)衰減,確保低重要性特征的影響被適當抑制。這種設計滿足了我們之前提出的有效激活模型的多項屬性。

IIEU-DC是對IIEU-B的進一步增強,專門針對包含捷徑連接(shortcut connections)的現(xiàn)代網(wǎng)絡架構。在這些網(wǎng)絡中,來自主分支和捷徑的特征需要融合,但它們的重要性評估可能不具可比性。IIEU-DC通過動態(tài)耦合器(Dynamic Coupler)解決了這個問題。

動態(tài)耦合器是一個輕量級模塊,它利用主分支和捷徑特征的通道上下文信息,動態(tài)估計它們的融合權重。與傳統(tǒng)方法不同,IIEU-DC不僅對主分支應用權重,還同時為捷徑特征分配權重,實現(xiàn)了更智能的特征融合。

IIEU的設計不僅在理論上合理,在實踐中也表現(xiàn)出色。與傳統(tǒng)激活函數(shù)不同,IIEU能夠建模詳細的跨通道特征-濾波器交互,并利用這些信息指導濾波器更新。這種能力使IIEU特別適合處理復雜的模式識別任務。

值得注意的是,盡管IIEU引入了新的計算組件,但其額外開銷相當有限。在標準網(wǎng)絡中,IIEU-B僅增加約0.3%的參數(shù)和1.3%的計算量。這種低開銷高回報的特性使IIEU成為各種神經(jīng)網(wǎng)絡的理想激活函數(shù)選擇。

性能實證檢驗

理論再完美,最終也要靠實際效果說話。IIEU在各種計算機視覺任務上的表現(xiàn)如何?我們通過一系列實驗來回答這個問題。

在ImageNet圖像分類測試中,IIEU顯示出了令人印象深刻的性能。以ResNet-50為例,使用ReLU的基準模型能達到76.0%的Top-1準確率,而使用IIEU-B和IIEU-DC的模型分別達到了79.2%和80.0%的準確率,提升了3.2%和4.0%。這種提升幅度遠超過其他最先進的激活函數(shù),如Swish(77.3%)和SMU(77.5%)。

更為驚人的是,使用IIEU的較小網(wǎng)絡能夠匹配甚至超過使用其他激活函數(shù)的更大網(wǎng)絡。例如,配備IIEU-DC的ResNet-26(僅有16.0M參數(shù))達到了78.7%的準確率,超過了使用ReLU的ResNet-50(76.0%,25.6M參數(shù))。而配備IIEU-DC的ResNet-50(28.3M參數(shù))則達到了80.3%的準確率,超過了使用最先進激活函數(shù)的ResNet-101(約44.5M參數(shù),準確率在77.2%-78.9%之間)。

在輕量級網(wǎng)絡上,IIEU的效果更加顯著。對于MobileNetV2 0.17,使用IIEU-B和IIEU-DC分別將基準準確率從49.7%提升到了58.0%和58.1%,增幅高達8.3%和8.4%。對于ShuffleNetV2 1.0,準確率從69.4%提升到了73.3%和74.0%,增幅為3.9%和4.6%。

除了ImageNet外,IIEU在CIFAR-100數(shù)據(jù)集上也表現(xiàn)出色。對于CIFAR版本的ResNet-56,使用IIEU-B和IIEU-DC分別將準確率從74.4%提升到了77.2%和78.1%。對于ShuffleNetV2,準確率從72.9%提升到了76.0%和76.8%。這些結果表明IIEU在不同規(guī)模的數(shù)據(jù)集上都能穩(wěn)定發(fā)揮作用。

為了驗證IIEU各組件的有效性,我們進行了一系列消融實驗。當移除范數(shù)解耦的相似度測量(項-S)時,模型性能從77.2%驟降至32.6%,證明了這一組件的關鍵性。當替換調(diào)節(jié)函數(shù)時,性能也有不同程度的下降,驗證了我們設計的條件調(diào)節(jié)函數(shù)的合理性。

特別值得一提的是,即使在沒有調(diào)節(jié)函數(shù)的情況下,僅使用范數(shù)解耦的相似度測量也能將準確率提升到76.6%,遠高于ReLU基準的74.4%。這再次證明了特征評分不匹配問題的重要性及我們解決方案的有效性。

在偏置項的設計上,我們嘗試了不同的正約束方式。使用Sigmoid函數(shù)的原始設計(準確率77.2%)優(yōu)于使用Softplus函數(shù)(76.8%)和完全移除正約束(75.8%)的變體。這驗證了我們關于偏置項應當有界且為正的理論推斷。

除了圖像分類,IIEU在其他視覺任務上也表現(xiàn)出色。在COCO對象檢測任務中,用IIEU替換Faster R-CNN中的ReLU將平均精度(AP)從37.4%提升到了40.1%。在KITTI-Materials道路場景材料分割任務中,使用IIEU的DeepLabV3+網(wǎng)絡比使用ReLU的基準提高了1.7%的平均IoU。

這些實驗結果不僅證明了IIEU的有效性和通用性,也驗證了我們從多準則決策理論出發(fā)重新解釋神經(jīng)特征激活的合理性。通過解決特征評分不匹配問題,IIEU能夠更準確地評估特征重要性,從而實現(xiàn)更有效的選擇性重校準。

在訓練穩(wěn)定性方面,IIEU也表現(xiàn)出明顯優(yōu)勢。與一些復雜的激活函數(shù)可能導致訓練不穩(wěn)定或失敗不同,IIEU在各種訓練配置下都能穩(wěn)定收斂。這種穩(wěn)定性使IIEU特別適合實際應用場景。

總的來說,實驗結果表明IIEU不僅在理論上合理,在實踐中也能帶來顯著的性能提升。通過重新思考神經(jīng)特征激活的本質(zhì),我們找到了一條提升神經(jīng)網(wǎng)絡性能的新路徑。

參考資料來源:

  1. Cai, S. (2021). IIEU: Rethinking Neural Feature Activation from Decision-Making. ICCV 2021.

  2. Relu, Softplus等基礎激活函數(shù)相關研究

  3. 多準則決策理論(MCDM)相關文獻

  4. 神經(jīng)網(wǎng)絡中激活函數(shù)的最新進展(2021-2023)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
國家終于出手了!不僅是李梓萌被牽連,就連全紅嬋張文宏也沒逃過

國家終于出手了!不僅是李梓萌被牽連,就連全紅嬋張文宏也沒逃過

巧手曉廚娘
2025-12-26 21:34:40
突發(fā)重傷!再見了,湖人!三巨頭解體倒計時

突發(fā)重傷!再見了,湖人!三巨頭解體倒計時

籃球實戰(zhàn)寶典
2025-12-27 23:56:50
中日關系緊張之際,俄羅斯公然接待日本高層,我們還能相信普京嗎

中日關系緊張之際,俄羅斯公然接待日本高層,我們還能相信普京嗎

吃貨的分享
2025-12-27 06:40:13
突發(fā)交易!湖人!三方交易醞釀中,勇士搞定能濃眉嗎?

突發(fā)交易!湖人!三方交易醞釀中,勇士搞定能濃眉嗎?

劉笤說體壇
2025-12-28 08:31:37
任開斌已任遼寧省公安廳廳長

任開斌已任遼寧省公安廳廳長

警界君
2025-12-27 13:27:53
輸球急了?切爾西欲用中場核心換貝林厄姆,皇馬暗喜

輸球急了?切爾西欲用中場核心換貝林厄姆,皇馬暗喜

瀾歸序
2025-12-28 04:05:33
鳳姐在美國15年,是如何躲過斬殺線的?

鳳姐在美國15年,是如何躲過斬殺線的?

胡嚴亂語
2025-12-26 17:18:31
李弘權:接下來兩場都是硬仗要做好自己,希望2026年一直贏下去

李弘權:接下來兩場都是硬仗要做好自己,希望2026年一直贏下去

懂球帝
2025-12-27 23:10:09
蔣緯國晚年回憶道:父親在洗澡的時候喊媽媽,聲音很大,歇斯底里

蔣緯國晚年回憶道:父親在洗澡的時候喊媽媽,聲音很大,歇斯底里

嘮叨說歷史
2025-12-25 10:39:44
董卿現(xiàn)狀:獨自照顧兒子和父母,丈夫曾失聯(lián),與婆婆有隔閡

董卿現(xiàn)狀:獨自照顧兒子和父母,丈夫曾失聯(lián),與婆婆有隔閡

細品名人
2025-11-28 07:24:47
醫(yī)生:堅持走路鍛煉的老人,過不了幾個月,身體會迎來5大變化

醫(yī)生:堅持走路鍛煉的老人,過不了幾個月,身體會迎來5大變化

岐黃傳人孫大夫
2025-12-24 09:08:19
中國女排聯(lián)賽最新排名!上海降至第二,天津第五,遼寧穩(wěn)坐副班長

中國女排聯(lián)賽最新排名!上海降至第二,天津第五,遼寧穩(wěn)坐副班長

跑者排球視角
2025-12-28 09:09:13
iPhone Fold上手,這質(zhì)感把我整不會了!

iPhone Fold上手,這質(zhì)感把我整不會了!

3C毒物
2025-12-28 00:07:05
劉彬彬吳興涵王彤轉會,魯能泰山93級全部畢業(yè)!

劉彬彬吳興涵王彤轉會,魯能泰山93級全部畢業(yè)!

越嶺尋蹤
2025-12-28 08:20:35
8個動作堅持半年,肝膽不堵、臉蛋又白又亮!

8個動作堅持半年,肝膽不堵、臉蛋又白又亮!

瑜伽解剖學
2025-12-17 08:27:13
薩卡人設崩塌?阿森納 2-1 領跑卻曝內(nèi)訌,球迷怒噴:太自私!

薩卡人設崩塌?阿森納 2-1 領跑卻曝內(nèi)訌,球迷怒噴:太自私!

瀾歸序
2025-12-28 03:37:00
獨家:南博前院長徐湖平“監(jiān)守自盜”,工人逆襲院長發(fā)跡史曝光!

獨家:南博前院長徐湖平“監(jiān)守自盜”,工人逆襲院長發(fā)跡史曝光!

微評社
2025-12-26 12:59:10
宿茂臻:弗格森曾跟我說,董方卓就是個天才!

宿茂臻:弗格森曾跟我說,董方卓就是個天才!

湖報體育
2025-12-27 21:01:21
1994年,一位不懂中文的老人回國奔喪,鄰座老外還在教他怎么游故宮,他哭著說了一句:我是回家給爺爺磕頭的

1994年,一位不懂中文的老人回國奔喪,鄰座老外還在教他怎么游故宮,他哭著說了一句:我是回家給爺爺磕頭的

寄史言志
2025-12-27 16:47:20
“準毒品”擦邊球?霸王茶姬閃崩

“準毒品”擦邊球?霸王茶姬閃崩

智識漂流
2025-12-27 12:51:58
2025-12-28 09:52:49
臆說歷史 incentive-icons
臆說歷史
作有深度的歷史解讀
162文章數(shù) 233關注度
往期回顧 全部

科技要聞

新任NASA掌門放話:特朗普任期內(nèi)必將重返月球

頭條要聞

四川原副省長葉寒冰被通報:長期出入私人會所聚餐飲酒

頭條要聞

四川原副省長葉寒冰被通報:長期出入私人會所聚餐飲酒

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風波落幕:法院認定朋友造謠

財經(jīng)要聞

英偉達的收購史

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

健康
教育
親子
時尚
軍事航空

這些新療法,讓化療不再那么痛苦

教育要聞

家長來討說法,要怎么應對?

親子要聞

62歲懷二胎真相驚人!醫(yī)生擔憂的惡心一幕曝光!

這些穿搭才最適合普通人!不露腿、不花哨,簡約舒適又顯氣質(zhì)

軍事要聞

與特朗普會晤前 澤連斯基亮明“紅線”

無障礙瀏覽 進入關懷版