国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

梯度下降:距離神經(jīng)網(wǎng)絡(luò)模型中的隱式期望最大化

0
分享至

梯度下降:距離神經(jīng)網(wǎng)絡(luò)模型中的隱式期望最大化

Gradient Descent as Implicit EM in Distance-Based Neural Models

https://arxiv.org/pdf/2512.24780



摘要
使用標準目標函數(shù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)展現(xiàn)出概率推理的特征行為:軟聚類、原型特化以及貝葉斯不確定性追蹤。這些現(xiàn)象普遍存在于各種架構(gòu)中——包括注意力機制、分類頭以及基于能量的模型——然而現(xiàn)有的解釋依賴于與混合模型的松散類比或事后架構(gòu)解讀。我們提供了一個直接的推導(dǎo)。對于任何具有基于距離或能量的對數(shù)求和指數(shù)(log-sum-exp)結(jié)構(gòu)的目標函數(shù),其關(guān)于每個距離的梯度恰好等于對應(yīng)分量的負后驗責任:?L/?dj = -rj。這是一個代數(shù)恒等式,而非近似。直接的結(jié)果是,在此類目標函數(shù)上的梯度下降隱式地執(zhí)行了期望最大化——責任不是需要計算的輔助變量,而是要應(yīng)用的梯度。無需顯式的推理算法,因為推理已嵌入優(yōu)化之中。這一結(jié)果將三種學(xué)習(xí)機制統(tǒng)一于單一框架之下:無監(jiān)督混合建模(其中責任完全潛在)、注意力機制(其中責任以查詢?yōu)闂l件)以及交叉熵分類(其中監(jiān)督將責任鉗制到目標)。最近在訓(xùn)練過的Transformer中觀察到的貝葉斯結(jié)構(gòu)并非涌現(xiàn)屬性,而是目標函數(shù)幾何結(jié)構(gòu)的必然結(jié)果。優(yōu)化與推理是同一過程。

1 引言
使用標準目標函數(shù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)反復(fù)展現(xiàn)出與概率推理相關(guān)的行為:軟聚類、原型特化、不確定性追蹤以及混合模型動力學(xué)。這些現(xiàn)象普遍存在于各種架構(gòu)中——注意力機制、分類頭以及基于能量的模型——然而它們的起源至今仍不清楚。它們是規(guī)模擴大后的涌現(xiàn)屬性嗎?是架構(gòu)上的偶然?還是某種更根本的東西?本文認為,這些行為都不是上述原因。它們是常見目標函數(shù)幾何結(jié)構(gòu)的必然結(jié)果。

1.1 謎題

考慮那些在訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)中自發(fā)出現(xiàn)的現(xiàn)象范圍。Transformer中的注意力頭學(xué)會專業(yè)化,各自為不同的語義角色路由信息。分類網(wǎng)絡(luò)將表征空間劃分為若干區(qū)域,這些區(qū)域的行為類似于混合成分。在含噪數(shù)據(jù)上訓(xùn)練的深度網(wǎng)絡(luò)展現(xiàn)出類似貝葉斯推斷的穩(wěn)健性模式:對離群點降權(quán),并在不同輸入間追蹤不確定性。這些行為在沒有顯式概率建模、沒有混合模型架構(gòu)、也沒有任何類似期望最大化(EM)算法的情況下涌現(xiàn)出來。

標準解釋令人難以滿意。一種觀點認為這些是規(guī)模的涌現(xiàn)屬性——足夠多的參數(shù)和數(shù)據(jù)以某種方式產(chǎn)生了統(tǒng)計結(jié)構(gòu)。另一種觀點將其視為架構(gòu)巧合,是特定設(shè)計選擇(如softmax歸一化或殘差連接)的產(chǎn)物。第三種觀點提供松散的類比:注意力“類似于”軟聚類;交叉熵“近似于”混合模型。這些解釋均未回答更深層的問題:為何是這些特定行為出現(xiàn),而非其他行為?又為何它們在如此不同的架構(gòu)和任務(wù)中如此可靠地出現(xiàn)?

1.2 近期證據(jù)

Aggarwal等人[2025a,b]的近期工作顯著深化了這一謎題。在受控實驗環(huán)境——“貝葉斯風(fēng)洞”(其中真實后驗可解析獲知)中,小型Transformer以低于1比特的精度復(fù)現(xiàn)了貝葉斯后驗。這并非近似的貝葉斯行為,而是與解析解在逐位置上精確、可驗證的一致。在相同條件下訓(xùn)練的容量匹配的MLP則完全失敗,表明該現(xiàn)象依賴于注意力的歸納偏置,而非僅靠優(yōu)化。

更引人注目的是Aggarwal等人在梯度動態(tài)中發(fā)現(xiàn)的現(xiàn)象:注意力權(quán)重在訓(xùn)練早期即趨于穩(wěn)定,而值向量則持續(xù)精煉——這種雙時間尺度結(jié)構(gòu)與經(jīng)典期望最大化中的E步和M步相呼應(yīng)。值向量接收的更新由注意力加權(quán),恰如混合模型中原型接收由責任度加權(quán)的更新。作者提供了完整的一階分析,表明這一結(jié)構(gòu)并非偶然,而是系統(tǒng)性的。

然而,Aggarwal等人明確將這種EM聯(lián)系刻畫為“結(jié)構(gòu)性的而非變分的”——是一種類比,而非推導(dǎo)。他們觀察到注意力行為類似EM,但并未聲稱EM是目標函數(shù)的必然結(jié)果。在他們的框架下,為何交叉熵訓(xùn)練會產(chǎn)生貝葉斯幾何這一問題仍未解決。

1.3 本文貢獻
本文填補了這一空白。我們證明,對于在距離或能量上具有l(wèi)og-sum-exp結(jié)構(gòu)的目標函數(shù),損失關(guān)于每個距離的梯度恰好等于對應(yīng)成分的后驗責任度。這并非近似,非相似,亦非類比。它是一個代數(shù)恒等式:


直接的結(jié)果是,在此類目標函數(shù)上的梯度下降就是期望最大化(EM),不過是連續(xù)執(zhí)行,而非采用離散的交替步驟。前向傳播計算非歸一化的似然;歸一化產(chǎn)生責任;反向傳播則將責任加權(quán)后的更新量傳遞給參數(shù)。無需引入輔助的潛在變量,也無需調(diào)用任何推理算法。架構(gòu)并非在近似EM——它就在實現(xiàn)EM,因為梯度本身就是責任。

這重新定義了優(yōu)化與推理之間的關(guān)系。推理并非疊加在學(xué)習(xí)之上的獨立算法層,也不是對學(xué)習(xí)到的表征進行的事后解釋。在我們所分析的目標函數(shù)下,推理和優(yōu)化是同一計算過程在不同抽象層次上的體現(xiàn)。Aggarwal等人觀察到的貝葉斯結(jié)構(gòu)并非偶然出現(xiàn)的涌現(xiàn)屬性,而是由損失函數(shù)的幾何結(jié)構(gòu)所強制的。

1.4 貢獻

本文的貢獻刻意限定在較窄的范圍,可歸納為三個層次遞進的論點。


一種解釋。這一恒等式表明,在基于距離的對數(shù)和指數(shù)目標函數(shù)上進行梯度下降,執(zhí)行的是隱式期望最大化。E步是前向傳播;M步是參數(shù)更新;責任從未被顯式計算,因為它們就是梯度。EM并非被神經(jīng)訓(xùn)練所近似——而是被神經(jīng)訓(xùn)練所實現(xiàn)。

一個統(tǒng)一框架。根據(jù)所施加約束條件的不同,同一種機制體現(xiàn)在三種學(xué)習(xí)模式中。在無監(jiān)督模式下,責任完全潛在,原型之間自由競爭。在條件模式——即注意力機制——下,責任基于共享的原型族,針對每個查詢重新計算。在約束模式——即交叉熵分類——下,監(jiān)督機制將其中一個責任鉗制到目標值,而替代項之間的競爭仍然存在。這三種并非不同的現(xiàn)象,而是同一現(xiàn)象在不同邊界條件下的表現(xiàn)。

2 幾何基礎(chǔ)

本文的主要結(jié)論——即責任作為梯度涌現(xiàn)——建立在一個特定的幾何基礎(chǔ)之上。本節(jié)將確立這一基礎(chǔ)。我們首先借鑒先前工作的成果,總結(jié)將神經(jīng)網(wǎng)絡(luò)輸出解讀為距離或能量而非置信度的觀點。接著,我們定義適用于我們分析的那一類對數(shù)和指數(shù)目標函數(shù)。最后,我們簡要回顧經(jīng)典期望最大化算法的結(jié)構(gòu),并非因為我們的方法需要它,而是為了建立一個參照點,以便與隱式EM進行對比。

2.1 基于距離的表示

神經(jīng)網(wǎng)絡(luò)輸出的標準解釋將其視為置信度或分數(shù),指示證據(jù)支持某一假設(shè)的強度。當一個邏輯值(logit)很高時,表示網(wǎng)絡(luò)"相信"某個類別;當一個注意力分數(shù)很高時,表示一個查詢(query)與一個鍵(key)很"匹配"。這種解釋雖然直觀,但卻模糊了神經(jīng)網(wǎng)絡(luò)實際計算的幾何結(jié)構(gòu)。


這種解釋并非為了方便而強加的一種建模選擇。它是仿射變換與分段線性激活函數(shù)組合而成的數(shù)學(xué)屬性。線性層的權(quán)重定義了一個基;偏置定義了沿該基的偏移量;激活函數(shù)則衡量偏差。變化的并非計算本身,而是我們賦予計算的語義。在本文中,我們采用基于距離的解釋,并將神經(jīng)網(wǎng)絡(luò)的輸出互換地稱為能量或距離。后續(xù)的結(jié)果——特別是將梯度識別為責任(responsibilities)——依賴于這種幾何框架。

2.2 對數(shù)求和指數(shù)目標函數(shù)

給定為輸入 x 計算的一組距離或能量 {d1, d2, ..., dK},我們考慮如下形式的目標函數(shù):


這就是對數(shù)求和指數(shù)(LSE)目標函數(shù)。它有一個自然的解釋:如果 exp(?dj) 表示組件 j 生成該輸入的未歸一化似然,那么 L 就是對數(shù)邊際似然——即某個組件生成該輸入的對數(shù)概率。最大化 L 會促使模型為每個輸入放置至少一個接近的原型。最小化 -L 則會鼓勵分離。


這些責任是非負的且總和為一。它們表示在組件間均勻先驗的假設(shè)下,組件 j j對該輸入負責的后驗概率。


2.3 經(jīng)典 EM 算法

期望最大化算法是擬合帶有潛在分配的混合模型的經(jīng)典算法。它通過兩個交替的步驟進行。

在 E 步中,計算責任。給定當前參數(shù),每個數(shù)據(jù)點根據(jù)相對似然被軟分配至每個組件:


這些責任總和為一,并代表組件 j 生成該觀測值的后驗概率。

在 M 步中,參數(shù)被更新。每個組件的參數(shù)被調(diào)整,以更好地擬合分配給它的數(shù)據(jù)點,并由責任進行加權(quán):


對于高斯混合模型而言,這簡化為計算責任加權(quán)的均值和協(xié)方差。
其關(guān)鍵特性在于,每一個數(shù)據(jù)點都會影響每一個組件,但這種影響受到該組件對該數(shù)據(jù)點所承擔責任大小的控制。

經(jīng)典的 EM 算法是離散且交替進行的:先計算所有責任,然后更新所有參數(shù),接著重復(fù)此過程。E 步和 M 步是具有不同計算作用的獨立步驟。這種分離是算法層面的,并非本質(zhì)上的。


3 主要結(jié)果:責任即梯度

我們現(xiàn)在闡述并推導(dǎo)核心結(jié)果。推導(dǎo)過程是基礎(chǔ)的——僅需一次鏈式法則的應(yīng)用——但其意義深遠。我們證明,對于基于距離的對數(shù)求和指數(shù)(log-sum-exp)目標函數(shù),關(guān)于每個距離的梯度恰好就是對應(yīng)組件的負責任。這一恒等式無需任何近似,并且對任何計算距離并通過梯度下降優(yōu)化 LSE 目標的模型都成立。導(dǎo)數(shù)計算本身是教科書級別的;本文的貢獻在于認識到所得的量恰好就是后驗責任,并且這使得每一個梯度步驟都變成了一個責任加權(quán)的更新。

3.1 推導(dǎo)


3.2 這意味著什么

該定理有一個直接的解釋:責任并非必須被計算和存儲的量。它們是梯度。任何計算距離、應(yīng)用對數(shù)求和指數(shù)目標函數(shù)并通過梯度下降更新參數(shù)的系統(tǒng),都已經(jīng)在計算責任——不是作為一個中間步驟,而是作為學(xué)習(xí)信號本身。

注意,這個恒等式本身是純粹的代數(shù)結(jié)果——它對于任何對數(shù)求和指數(shù)目標函數(shù)都成立,無論我們?nèi)绾谓忉屗婕暗母鱾€量。然而,EM(期望最大化)的解釋依賴于將 理解為距離,并將理解為后驗責任。數(shù)學(xué)結(jié)構(gòu)強制了梯度的形式;語義則賦予了它意義。


其結(jié)果是,在 LSE 目標函數(shù)上的梯度下降恰恰就是 EM 算法。它不是 EM 的近似。經(jīng)典 EM 中離散的交替過程——計算責任,然后更新參數(shù),再重復(fù)——坍縮為連續(xù)的、并行的優(yōu)化。每一個梯度步驟都是責任加權(quán)的更新。每一個訓(xùn)練過的網(wǎng)絡(luò)一直都在執(zhí)行 EM 算法。

在本文中,"隱式 EM"指的是在對數(shù)求和指數(shù)目標函數(shù)上進行梯度下降時,責任加權(quán)的參數(shù)更新的出現(xiàn)——而非指坐標上升式 EM 或關(guān)于收斂性的保證。

3.3 條件

該結(jié)果依賴于三個結(jié)構(gòu)條件。當所有三個條件都滿足時,隱式EM動態(tài)是必然發(fā)生的——它們由數(shù)學(xué)原理強制決定。


當這些條件成立時,不存在額外的設(shè)計選擇來啟用或禁用類似 EM 的行為。這是目標函數(shù)幾何結(jié)構(gòu)的必然結(jié)果。任何計算距離、通過指數(shù)函數(shù)進行歸一化并使用梯度進行訓(xùn)練的網(wǎng)絡(luò)架構(gòu),都會展現(xiàn)出隱式 EM。


4 隱式推理的三種機制

同樣的機制在不同的約束條件下有不同的表現(xiàn)形式:

4.1 無監(jiān)督機制:混合學(xué)習(xí)

在最純粹的情況下,對數(shù)求和指數(shù)目標函數(shù)在沒有監(jiān)督的情況下運行。模型計算從輸入到 K 個組件中每一個的距離 dj(x),并通過訓(xùn)練來最小化:


這就是負對數(shù)邊際似然——經(jīng)典混合模型擬合中使用的目標函數(shù)。所有組件競爭每一個輸入。沒有標簽約束哪個組件應(yīng)該獲勝。


結(jié)果是自發(fā)的特化。即使采用隨機初始化,組件也會在訓(xùn)練過程中分化。每個原型都會漂移到輸入空間中它持續(xù)承擔高責任的區(qū)域,同時將其它區(qū)域讓給競爭對手。聚類的出現(xiàn)并非因為指定了該目標,而是因為目標函數(shù)的幾何結(jié)構(gòu)強制進行了責任加權(quán)的更新。

這種機制與混合模型上的經(jīng)典EM算法完全對應(yīng)。其固定點——以及通向固定點的路徑——都受相同的責任所支配。

4.2 條件機制:注意力機制



注意力權(quán)重恰好滿足了責任的定義。它們是非負的,在所有鍵上總和為一,并代表了每個鍵在多大程度上“解釋”了該查詢。輸出是值的責任加權(quán)組合:



4.3 約束機制:交叉熵分類

交叉熵分類引入了監(jiān)督信息,但這并未使其脫離隱式 EM 的框架。它只是對其施加了約束。




錯誤類別之間的競爭保持不變。當模型分類錯誤時,責任質(zhì)量分布在錯誤的答案中,每個錯誤答案都會接收到與其份額成正比的梯度信號。"錯得最離譜"的類別——即那些具有最高的類別——受到的懲罰最強烈。這不是均勻的排斥;而是責任加權(quán)的修正。


交叉熵并不會消除 EM 動態(tài);它只是引導(dǎo)這些動態(tài)。M 步仍然根據(jù)各組件所承擔的責任比例對其進行更新,但監(jiān)督信息會將該過程偏向一個預(yù)設(shè)的分配。這解釋了為什么交叉熵盡管形式簡單卻如此有效:它繼承了混合模型的軟競爭和自動加權(quán)特性,同時將這些動態(tài)導(dǎo)向一個有監(jiān)督的目標。這個損失函數(shù)所起的作用,比其熟悉的形式所暗示的要更多。

4.4 分類體系

這三種機制——無監(jiān)督機制、條件機制和約束機制——在觀測對象和潛在變量上有所不同。但它們共享一個共同的結(jié)構(gòu):對距離進行指數(shù)化,然后在候選項之間進行歸一化。正是這個結(jié)構(gòu)產(chǎn)生了責任,而責任又產(chǎn)生了隱式 EM。

關(guān)鍵因素是歸一化。當輸出被歸一化時——無論是通過 softmax、通過對數(shù)求和指數(shù)配分函數(shù),還是通過任何強制總和為一的約束操作——組件之間就會產(chǎn)生競爭。一個組件似然的增加,必然會降低其他組件的相對似然。這種競爭是分配產(chǎn)生的根源:每個輸入被概率性地分配給各個組件,而梯度也相應(yīng)地分布。

去除歸一化,這個結(jié)構(gòu)就會崩潰。考慮基于沒有配分函數(shù)的核(如高斯核)的目標函數(shù),例如最大相關(guān)熵:


在這里,每個組件獨立運作。一個遠離所有原型的點,會對所有原型產(chǎn)生微弱的梯度——不是因為責任被分配到了別處,而是因為沒有競爭存在來進行分配。這里沒有隱式的 E 步,因為不存在責任。這種目標函數(shù)增強了對異常值的魯棒性(遠離所有原型的點被有效忽略),但完全失去了分配結(jié)構(gòu)。

這厘清了設(shè)計空間。指數(shù)化將距離轉(zhuǎn)化為似然;歸一化將似然轉(zhuǎn)化為責任。兩者兼?zhèn)鋾r,隱式 EM 就不可避免。僅有指數(shù)化,模型獲得了魯棒性,但放棄了推理。目標函數(shù)的選擇,本質(zhì)上是在決定模型應(yīng)該進行分配還是應(yīng)該忽略——而這種選擇是在損失函數(shù)層面做出的,而非網(wǎng)絡(luò)架構(gòu)層面。

5 與先前工作的關(guān)系

本文推導(dǎo)出的結(jié)果并非孤立存在。它依賴于先前的工作來奠定其幾何基礎(chǔ),并且通過它所能解釋的近期實證發(fā)現(xiàn)而獲得重要性。本節(jié)將闡述本文的貢獻與三個方面工作的關(guān)聯(lián):基于距離的神經(jīng)表示解釋、近期關(guān)于 Transformer 中貝葉斯結(jié)構(gòu)的證據(jù),以及基于能量的學(xué)習(xí)和期望最大化方面的經(jīng)典成果。

5.1 關(guān)于基于距離表示的先前工作

在先前的工作 [Oursland, 2024] 中,我們奠定了本文所依賴的幾何解釋。該工作表明,標準的神經(jīng)網(wǎng)絡(luò)層——仿射變換后接 ReLU 或絕對值激活函數(shù)——計算出的量表現(xiàn)為與學(xué)習(xí)到的原型之間的距離。輸出是偏差,而非置信度;它們衡量的是輸入距離由權(quán)重定義的參考結(jié)構(gòu)有多遠。這種解釋并非強加的,而是從所涉及操作的數(shù)學(xué)原理中推導(dǎo)出來的。

本文以此幾何基礎(chǔ)為前提,提出了一個不同的問題:當基于距離的表示在標準目標函數(shù)下被優(yōu)化時,會發(fā)生什么?我們先前的工作并未涉及學(xué)習(xí)動態(tài)。它描述了神經(jīng)網(wǎng)絡(luò)表示什么,而非它們?nèi)绾螌W(xué)習(xí)。本文的貢獻在于表明,對距離采用對數(shù)求和指數(shù)目標函數(shù)會產(chǎn)生責任加權(quán)的梯度,而這會引發(fā)出隱式 EM。

這兩個結(jié)果是互補的,共同構(gòu)成了一幅完整的圖景。第一個結(jié)果指出:神經(jīng)網(wǎng)絡(luò)計算距離。第二個結(jié)果指出:用 LSE 目標函數(shù)優(yōu)化距離就是在執(zhí)行推理。兩者互不包含。如果沒有距離的解釋,將梯度等同于責任只是一個形式上的趣聞。如果沒有梯度恒等式,距離的解釋描述的只是靜態(tài)的表示,無法說明它們是如何產(chǎn)生的。幾何基礎(chǔ)支撐了學(xué)習(xí)動態(tài);學(xué)習(xí)動態(tài)則證明關(guān)注幾何基礎(chǔ)是合理的。

Aggarwal 等人 [2025b] 從靜態(tài)分析轉(zhuǎn)向動態(tài)分析,研究了交叉熵訓(xùn)練下注意力機制的梯度。他們推導(dǎo)出值向量接收的是責任加權(quán)的更新,并且注意力分數(shù)會根據(jù)一種類似優(yōu)勢函數(shù)的規(guī)則進行調(diào)整。他們觀察到一種雙時間尺度的結(jié)構(gòu):注意力模式早期就穩(wěn)定下來,而值向量則持續(xù)細化——這鏡像了經(jīng)典 EM 算法中的 E 步和 M 步。該分析十分透徹,并且與 EM 的平行關(guān)系是明確的。

然而,作者們謹慎地將這種聯(lián)系描述為"結(jié)構(gòu)性的,而非變分性的"。他們觀察到注意力的行為類似于 EM,但并未斷言 EM 是目標函數(shù)的必然結(jié)果。他們記錄了這種相似性,但未嘗試進行推導(dǎo)。

本文提供了這一推導(dǎo)。在基于距離的神經(jīng)輸出解釋下,梯度恒等式 ?L/?dj = ?rj 并非結(jié)構(gòu)上的類比,而是一個代數(shù)事實。Aggarwal 等人觀察到的類 EM 動態(tài)并非恰好出現(xiàn)在Transformer 中的涌現(xiàn)屬性——它們是由損失函數(shù)的幾何結(jié)構(gòu)強制決定的。任何計算距離并優(yōu)化對數(shù)求和指數(shù)目標函數(shù)的模型,無論其是否類似于 Transformer,都會展現(xiàn)出相同的動態(tài)。

這兩項貢獻之間的關(guān)系是觀察與解釋的關(guān)系。Aggarwal 等人以精確和嚴謹?shù)姆绞桨l(fā)現(xiàn)并記錄了該現(xiàn)象的實證證據(jù)。我們則提供了使該現(xiàn)象成為必然的理論機制。

5.3 其他聯(lián)系

LeCun 等人 [2006] 的基于能量的學(xué)習(xí)框架提供了重要的概念性支撐。該工作將學(xué)習(xí)重新定義為最小化能量函數(shù),其中概率通過指數(shù)化和歸一化推導(dǎo)得出。本文分析的對數(shù)求和指數(shù)目標函數(shù)是基于能量的模型中"自由能"公式的一個特例。我們的貢獻在于表明,這個自由能關(guān)于組件能量的梯度恰好就是后驗責任——這個聯(lián)系在該框架中隱含存在,但據(jù)我們所知,此前未被作為一個形式恒等式明確提出。

Dempster 等人 [1977] 提出了期望最大化算法,用于含隱變量的極大似然估計。他們將 E 步和 M 步定義為離散的、交替進行的操作。本文表明,對于基于距離的目標函數(shù),這些步驟坍縮為梯度下降:前向傳播隱式計算責任,反向傳播則應(yīng)用這些責任。這并非與經(jīng)典公式相矛盾,而是揭示出它是更普遍現(xiàn)象的一個特例。EM 不僅僅是一個可以選擇應(yīng)用的算法;它是某些目標函數(shù)幾何結(jié)構(gòu)在基于梯度的優(yōu)化下的一個屬性。

Vaswani 等人 [2017] 引入了以注意力為核心機制的 Transformer 架構(gòu)。最初的闡述強調(diào)注意力是一種軟檢索操作——查詢關(guān)注鍵以聚合值。隱式 EM 的視角將注意力重新定義為條件混合推理,其中注意力權(quán)重作為責任,值投影作為原型參數(shù)。這種解釋與最初的公式一致,但提供了架構(gòu)描述所缺乏的概率語義。

混合專家模型 [Jacobs 等人, 1991] 使用顯式的門控網(wǎng)絡(luò)將輸入路由到專門的子網(wǎng)絡(luò)。門控權(quán)重換個名字就是責任。區(qū)別在于架構(gòu):在混合專家模型中,門控是一個單獨的學(xué)習(xí)函數(shù);而在標準注意力和分類中,責任是作為目標函數(shù)的梯度出現(xiàn)的,無需專門的門控機制。隱式 EM 揭示了混合專家模型中的顯式門控并非必需——任何對數(shù)求和指數(shù)目標函數(shù)都會自動產(chǎn)生責任加權(quán)的路由。

6 局限性與失效模式

隱式 EM 框架并非普遍適用。它在特定條件下成立,而當這些條件不滿足時,該分析也隨之失效。本節(jié)將界定其邊界:隱式 EM 在何種情況下不會出現(xiàn),即使出現(xiàn)時可能發(fā)生哪些病理現(xiàn)象,以及哪些現(xiàn)象完全超出其范圍。清晰地闡述局限性非但不會削弱,反而會加強本文的貢獻——它區(qū)分了精確的主張與過度的延伸。

6.1 隱式EM不出現(xiàn)的情況


在這種設(shè)置下,責任不存在。沒有一個量能在所有類別上總和為一;也沒有軟分配將輸入在不同候選項之間進行分配。每個輸出通道孤立地運作。一個點可能離所有原型同樣近,或者離所有原型同樣遠,而梯度不會重新分配——它們僅僅反映獨立的誤差。

這不是架構(gòu)的失敗,而是缺少所需的目標函數(shù)結(jié)構(gòu)。隱式 EM 源于競爭,而競爭源于歸一化。具有獨立輸出的系統(tǒng)可以學(xué)習(xí)到有用的表示,但它們不執(zhí)行混合推理,也不會展現(xiàn)出責任加權(quán)的動態(tài)。該框架的解釋范圍止于歸一化失效之處。

6.2 尺度與坍縮

完整的高斯混合模型在似然函數(shù)中包含一個對數(shù)行列式項——這是對每個組件協(xié)方差體積的懲罰。這一項防止了坍縮:沒有它,組件可以將其協(xié)方差收縮為零,在單個點上放置無限密度,從而獲得無界似然。當協(xié)方差坍縮時,對數(shù)行列式會發(fā)散,從而平衡密度的增長。

大多數(shù)神經(jīng)網(wǎng)絡(luò)目標函數(shù)省略了這一項。交叉熵和注意力 softmax 在距離或分數(shù)上操作,沒有顯式的體積懲罰。隱式 EM 動態(tài)仍然成立——梯度仍然是責任加權(quán)的——但沒有什么能阻止學(xué)習(xí)到的度量發(fā)生退化。網(wǎng)絡(luò)可以學(xué)會將所有輸入映射到鄰近的點,從而坍縮距離結(jié)構(gòu)并使責任變得無意義。

在實踐中,坍縮通常通過隱式機制來避免:權(quán)重衰減正則化投影的尺度;層歸一化約束激活值的幅度;像殘差連接這樣的架構(gòu)選擇則保留了信號的多樣性。這些干預(yù)措施是有效的,但它們并非源自目標函數(shù)——它們只是恰好穩(wěn)定了幾何結(jié)構(gòu)的啟發(fā)式方法。

隱式 EM 框架闡明了為什么坍縮是一種風(fēng)險。當組件根據(jù)其責任比例進行更新時,一個捕獲了稍多概率質(zhì)量的組件會接收到更強的梯度,進而捕獲更多質(zhì)量,并可能完全主導(dǎo)。這種正反饋是 EM 動態(tài)固有的,在經(jīng)典模型中由體積項控制。神經(jīng)網(wǎng)絡(luò)移除了這種控制,并依賴其他機制來填補這一空白。該框架并未解決這個問題;它解釋了問題為何存在。

6.3 監(jiān)督約束

在無監(jiān)督機制下,責任完全是潛在的——僅由數(shù)據(jù)決定哪些組件擁有哪些輸入。監(jiān)督學(xué)習(xí)改變了這一點。標簽聲明了哪個組件應(yīng)該承擔責任,覆蓋了幾何結(jié)構(gòu)原本可能決定的結(jié)果。

這種約束強大但僵化。交叉熵訓(xùn)練強制正確類別的責任趨近于 1,無論輸入是靠近該類別原型還是遠離所有原型。一個與所有類別邊界等距的輸入仍然會得到一個硬標簽;模型必須將其分配到某處。在錯誤類別之間,責任的軟性、分級結(jié)構(gòu)依然存在,但正確類別是被"夾住"的。

其后果之一是封閉世界的假設(shè)。Softmax 歸一化保證了責任之和為 1——某個類別必須為每個輸入承擔全部責任。沒有"以上皆非"的選項,模型無法將輸入視為所有已知類別之外的異類而予以拒絕。一個分布外的輸入,無論多么異常,都會被分配到距離最小的那個類別,并且模型的置信度可能任意高。

6.4 該框架無法解釋的內(nèi)容

隱式 EM 框架解釋了一種現(xiàn)象:基于距離的目標函數(shù)中責任加權(quán)學(xué)習(xí)動態(tài)的出現(xiàn)。它并不能解釋神經(jīng)網(wǎng)絡(luò)所做的所有事情。

泛化能力——即網(wǎng)絡(luò)為何能在未見數(shù)據(jù)上表現(xiàn)良好——并未涉及。該框架描述了訓(xùn)練的動態(tài)過程,而非那些能夠?qū)崿F(xiàn)訓(xùn)練分布之外泛化的歸納偏置。規(guī)模法則——即模型大小、數(shù)據(jù)和性能之間可預(yù)測的關(guān)系——完全不在該分析的范圍內(nèi)。梯度恒等式本身并未說明性能應(yīng)如何隨參數(shù)或計算量擴展。

長程推理、規(guī)劃以及序列決策涉及該框架未能捕獲的時間結(jié)構(gòu)。隱式EM描述了單個輸入如何被軟分配到各個組件,以及這些組件如何更新。它并未描述表征如何隨時間組合、目標如何通過動作序列反向傳播,或者模型如何學(xué)習(xí)搜索。

涌現(xiàn)能力——即隨著規(guī)模擴大而突然出現(xiàn)的性質(zhì)上的新行為——仍未得到解釋。該框架沒有說明為何某些能力會不連續(xù)地出現(xiàn),或者為何它們需要特定的模型規(guī)模閾值。如果涌現(xiàn)能力源自隱式EM動態(tài),其聯(lián)系并不明顯;如果它們源自其他機制,該框架則對此保持沉默。

這些并非分析的失敗,而是其范圍的邊界。本文的貢獻在于精確地識別并推導(dǎo)出一種機制,而非解釋整個深度學(xué)習(xí)。明確主張的范圍可以防止過度解讀——并為解釋隱式EM無法觸及的現(xiàn)象留下補充說明的空間。

7 討論

本節(jié)反思隱式EM框架統(tǒng)一了哪些內(nèi)容,它對我們理解神經(jīng)網(wǎng)絡(luò)的方式有何啟示,以及它為未來的工作留下了哪些待解決的問題。

7.1 統(tǒng)一性

該框架揭示出,高斯混合模型、注意力機制和交叉熵分類并非三種具有表面相似性的不同方法。它們是在不同約束條件下運作的同一種機制。在GMM中,責任完全是潛在的。在注意力機制中,責任以查詢?yōu)闂l件,并為每個輸入重新計算。在交叉熵中,責任受到監(jiān)督信息的部分約束。其底層動態(tài)——指數(shù)化、歸一化、責任加權(quán)更新——是相同的。

這暗示了我們在解讀神經(jīng)網(wǎng)絡(luò)訓(xùn)練方式上的轉(zhuǎn)變。概率常被視為原始量:我們定義分布,推導(dǎo)似然,然后進行優(yōu)化。隱式EM的視角則反轉(zhuǎn)了這一關(guān)系。距離是首要的。網(wǎng)絡(luò)計算幾何量——與所學(xué)結(jié)構(gòu)的偏差——而概率僅在指數(shù)化和歸一化之后才出現(xiàn)。幾何先于概率;推理是在幾何目標上進行優(yōu)化的結(jié)果。

在這種觀點下,損失函數(shù)并非為追求性能而任意選擇的。它們是幾何先驗。交叉熵編碼了一種假設(shè),即輸入應(yīng)被完全地分配給離散類別。距離的對數(shù)和指數(shù)假設(shè)輸入源于潛在原因的混合。相關(guān)熵假設(shè)異常值應(yīng)被忽略。每個目標函數(shù)都會引發(fā)不同的分配幾何結(jié)構(gòu)和不同的梯度流模式。選擇一個損失函數(shù),就是選擇一種關(guān)于數(shù)據(jù)如何與結(jié)構(gòu)相關(guān)聯(lián)的理論——無論這種選擇是有意還是無意的。

7.2 意義

對于可解釋性而言,該框架提供了一條從訓(xùn)練動態(tài)到語義結(jié)構(gòu)的直接路徑。如果責任就是梯度,那么網(wǎng)絡(luò)所做的分配就不再是需要探測或事后分析的隱藏量。它們存在于反向傳播中,在每個訓(xùn)練步驟都被計算。"哪個組件對這個輸入負責?"這個問題在梯度本身中就有一個答案。這并不能解決可解釋性的全部問題——理解一個組件為何承擔責任需要進一步分析——但它將分配結(jié)構(gòu)定位在一個已被計算出的量中,而非一個必須被提取出來的量。

對于目標函數(shù)設(shè)計而言,該分析將對數(shù)和指數(shù)函數(shù)重新定義為一種結(jié)構(gòu)性要求,而非僅僅是數(shù)值上的便利。引入Softmax通常是為了避免溢出或產(chǎn)生性質(zhì)良好的梯度。隱式EM的視角揭示了一個更深層的作用:對數(shù)和指數(shù)函數(shù)引發(fā)了競爭,競爭產(chǎn)生了責任,而責任則使學(xué)習(xí)表現(xiàn)得像推理。如果需要類似推理的行為,LSE結(jié)構(gòu)就是必不可少的。如果不需要這種行為——如果更傾向于獨立的預(yù)測或魯棒的異常值處理——那么就應(yīng)該有意識地避免使用LSE。這個選擇無關(guān)數(shù)值穩(wěn)定性;它關(guān)乎目標函數(shù)將產(chǎn)生何種類型的學(xué)習(xí)動態(tài)。

對于理論而言,該框架消解了一個長期存在的分野。優(yōu)化和推理傳統(tǒng)上是不同的:一個關(guān)注尋找最小化損失的參數(shù),另一個關(guān)注計算潛在變量的后驗。隱式EM的結(jié)果表明,在正確的目標函數(shù)下,這兩者是同一過程在不同層次上的觀察。當梯度就是責任時,梯度下降就是推理。這并不是聲稱所有優(yōu)化都是推理,而是指對于一類明確界定的目標函數(shù),其間的區(qū)別消失了。前向傳播計算后驗;反向傳播應(yīng)用后驗。訓(xùn)練就是推理,在整個數(shù)據(jù)集上持續(xù)進行。

7.3 開放方向

仍有幾個方向待探索。神經(jīng)目標函數(shù)中缺乏體積控制——缺失的對數(shù)行列式——導(dǎo)致了目前由啟發(fā)式方法管理的坍縮風(fēng)險。一個原則性的方法要么從架構(gòu)選擇中推導(dǎo)出隱含的體積項,要么設(shè)計顯式包含這些項的目標函數(shù)。理解歸一化層何時能夠替代體積控制,何時不能,這將把隱式EM框架與實際訓(xùn)練中的穩(wěn)定性問題聯(lián)系起來。

現(xiàn)實環(huán)境中的監(jiān)督很少是干凈的。標簽可能帶有噪聲、是部分的或不確定的。約束機制的分析假設(shè)硬標簽?zāi)芫_地固定責任;更全面的處理應(yīng)將軟性或概率性監(jiān)督建模為對責任結(jié)構(gòu)的部分約束。這可能將半監(jiān)督學(xué)習(xí)、標簽平滑以及從眾包標注中學(xué)習(xí)統(tǒng)一到隱式EM框架下。

開放集推理需要擺脫封閉世界的假設(shè)。當前的目標函數(shù)強制每個輸入都被分配;現(xiàn)實的部署需要提供拒絕的選項。支持非分配的目標函數(shù)——一個顯式的"以上皆非"組件,或者一個低于其則沒有組件承擔責任的門檻——將把隱式EM擴展到并非所有輸入都屬于已知類別的環(huán)境中。

最后,需要診斷工具。如果訓(xùn)練好的網(wǎng)絡(luò)執(zhí)行了隱式EM,那么這應(yīng)該是可以測量的:從梯度中提取責任,追蹤訓(xùn)練過程中的特化,檢測機制何時失效或退化。這樣的工具將把該框架從解釋性理論轉(zhuǎn)變?yōu)閷嵱霉ぞ撸寡芯咳藛T能夠驗證給定模型是否展現(xiàn)出理論預(yù)測的動態(tài)。


8 結(jié)論


其意義是直接的。在基于距離的對數(shù)求和指數(shù)目標函數(shù)上進行梯度下降,隱式地執(zhí)行了期望最大化算法。責任并非作為輔助量計算得到;它們就是梯度本身。前向傳播是 E 步;反向傳播是 M 步。不需要顯式的推理算法,因為推理已經(jīng)嵌入在優(yōu)化之中。

這種機制統(tǒng)一了以往被視為不同的現(xiàn)象。無監(jiān)督混合學(xué)習(xí)、Transformer 中的注意力機制以及交叉熵分類,是同一底層過程的三種表現(xiàn)形式——它們在觀測內(nèi)容和潛在變量上有所不同,但受相同的動態(tài)所支配。最近在訓(xùn)練好的 Transformer 中觀察到的貝葉斯結(jié)構(gòu)并非一個涌現(xiàn)的謎團;它是用于訓(xùn)練它們的目標函數(shù)的必然結(jié)果。

優(yōu)化和推理是同一過程在不同尺度上的觀察。

原文鏈接:https://arxiv.org/pdf/2512.24780

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
內(nèi)娛女神劉詩詩驚艷蛻變?飽滿身姿暗藏極致女人味,這身材太絕?

內(nèi)娛女神劉詩詩驚艷蛻變?飽滿身姿暗藏極致女人味,這身材太絕?

娛樂領(lǐng)航家
2026-03-10 22:00:04
伊朗總統(tǒng):結(jié)束戰(zhàn)爭將以維護國家尊嚴、利益和安全為前提

伊朗總統(tǒng):結(jié)束戰(zhàn)爭將以維護國家尊嚴、利益和安全為前提

財聯(lián)社
2026-03-30 23:54:10
單依純不簡單啊

單依純不簡單啊

牛鍋巴小釩
2026-03-30 10:43:11
4月1日醫(yī)保新規(guī)落地!缺2樣?xùn)|西報銷從80%砍到50%,很多人不清楚

4月1日醫(yī)保新規(guī)落地!缺2樣?xùn)|西報銷從80%砍到50%,很多人不清楚

老特有話說
2026-03-29 13:55:54
5萬億網(wǎng)貸迎來“史上最強監(jiān)管”!你的貸款賬單,必須說人話

5萬億網(wǎng)貸迎來“史上最強監(jiān)管”!你的貸款賬單,必須說人話

聽心堂
2026-03-30 10:04:46
特朗普宣布訪華新日期,不到48個小時,中方不留情面,連續(xù)反制

特朗普宣布訪華新日期,不到48個小時,中方不留情面,連續(xù)反制

聞識
2026-03-30 23:39:29
合作伙伴要烏克蘭停止襲擊俄羅斯石油設(shè)施,以避免推高全球油價

合作伙伴要烏克蘭停止襲擊俄羅斯石油設(shè)施,以避免推高全球油價

山河路口
2026-03-30 23:49:52
風(fēng)向變了,中東傳來消息,黎巴嫩跪在了黎明前,向美以舉起白旗

風(fēng)向變了,中東傳來消息,黎巴嫩跪在了黎明前,向美以舉起白旗

策略述
2026-03-30 15:03:09
真怕了:美軍向伊朗空投大批地雷,要將其導(dǎo)彈“堵死”在隧道中

真怕了:美軍向伊朗空投大批地雷,要將其導(dǎo)彈“堵死”在隧道中

華史談
2026-03-31 01:29:39
兒子自殺六年后,母親在人體展看到具剝皮尸體,秒認出:那是我兒子

兒子自殺六年后,母親在人體展看到具剝皮尸體,秒認出:那是我兒子

新歐洲
2025-11-28 21:21:41
2026年“純電動車”續(xù)航新排名:純電續(xù)航創(chuàng)新高,第一名1036km

2026年“純電動車”續(xù)航新排名:純電續(xù)航創(chuàng)新高,第一名1036km

柳先說
2026-03-18 16:04:38
中央定調(diào)!農(nóng)村六大新政全面放開,農(nóng)民自主決策,不搞強制一刀切

中央定調(diào)!農(nóng)村六大新政全面放開,農(nóng)民自主決策,不搞強制一刀切

三農(nóng)雷哥
2026-03-30 18:17:56
張康陽現(xiàn)狀證明,不怕富二代躺平就怕有野心,僅5年千億身價歸零

張康陽現(xiàn)狀證明,不怕富二代躺平就怕有野心,僅5年千億身價歸零

青杉依舊啊啊
2026-03-19 22:10:26
專家:梅西不再是阿根廷核心,阿爾瓦雷斯將是激活他的關(guān)鍵

專家:梅西不再是阿根廷核心,阿爾瓦雷斯將是激活他的關(guān)鍵

夢憶之淺
2026-03-31 00:03:53
程瀟不愧是“奶瀟”

程瀟不愧是“奶瀟”

情感大頭說說
2026-03-16 00:19:50
壞消息,掘金隊在116-93戰(zhàn)勝勇士隊比賽中卡姆·約翰遜因傷離場

壞消息,掘金隊在116-93戰(zhàn)勝勇士隊比賽中卡姆·約翰遜因傷離場

好火子
2026-03-31 00:16:52
張雪峰前妻:90后歷史學(xué)博士、高校副教授,兩人離婚后一起上節(jié)目

張雪峰前妻:90后歷史學(xué)博士、高校副教授,兩人離婚后一起上節(jié)目

百曉生談歷史
2026-03-31 00:01:41
白酒再次被關(guān)注!醫(yī)生研究發(fā)現(xiàn):喝得越多,壽命或越短告訴你真相

白酒再次被關(guān)注!醫(yī)生研究發(fā)現(xiàn):喝得越多,壽命或越短告訴你真相

健康科普365
2026-03-29 18:30:09
祁東女教師的瓜

祁東女教師的瓜

皮蛋兒電影
2026-03-23 15:30:40
百度、騰訊、阿里、京東,集體下跌

百度、騰訊、阿里、京東,集體下跌

第一財經(jīng)資訊
2026-03-30 16:42:19
2026-03-31 04:11:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1314文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

一句謊言引發(fā)的硅谷血案

頭條要聞

特朗普:對伊朗襲擊以煉油廠的回應(yīng)“很快到來”

頭條要聞

特朗普:對伊朗襲擊以煉油廠的回應(yīng)“很快到來”

體育要聞

想進世界杯,意大利還要過他這一關(guān)

娛樂要聞

全紅嬋聊到體重哭了,每天只吃一頓飯

財經(jīng)要聞

本輪地緣沖突,A股憑什么走出獨立行情

汽車要聞

限時12.58萬起 銀河星耀8遠航家系列上市

態(tài)度原創(chuàng)

健康
房產(chǎn)
數(shù)碼
游戲
本地

干細胞抗衰4大誤區(qū),90%的人都中招

房產(chǎn)要聞

重磅!番禺20宗涉宅地亮相,萬博CBD宅地將上新!

數(shù)碼要聞

OPPO Pad 5 Pro平板現(xiàn)身官網(wǎng),消息稱將搭載第五代驍龍8至尊版

《紅色沙漠》Steam熱更新上線 修復(fù)光線重建問題

本地新聞

用Color Walk的方式解鎖城市春日

無障礙瀏覽 進入關(guān)懷版