国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Transformer注意力的貝葉斯幾何(貝葉斯注意力三部曲 Paper I)

0
分享至

Transformer注意力的貝葉斯幾何(貝葉斯注意力三部曲 Paper I)

The Bayesian Geometry of Transformer Attention

https://arxiv.org/pdf/2512.22471


ransformer 模型在上下文中常常表現(xiàn)出類似貝葉斯推理的行為,但要嚴格驗證這一點一直不可能:自然數(shù)據(jù)缺乏解析形式的后驗分布,而大型模型又將推理與記憶混雜在一起。我們通過構(gòu)建“貝葉斯風洞”(Bayesian wind tunnels)來解決這一問題——即受控環(huán)境中真實后驗分布具有閉式解,且記憶被證明是不可能的。在這些設(shè)定下,小型 Transformer 能以 10?3–10?? 比特的精度復現(xiàn)貝葉斯后驗分布,而容量匹配的多層感知機(MLP)則誤差高出數(shù)個數(shù)量級,從而確立了明確的架構(gòu)差異。

在兩個任務(wù)中——雙射消除(bijection elimination)和隱馬爾可夫模型(HMM)狀態(tài)追蹤——我們發(fā)現(xiàn),Transformer 通過一種一致的幾何機制實現(xiàn)貝葉斯推理:殘差流(residual streams)充當信念的載體,前饋網(wǎng)絡(luò)(feed-forward networks)執(zhí)行后驗更新,而注意力機制則提供基于內(nèi)容的路由功能。幾何診斷揭示出正交的鍵(key)基底、逐步對齊的查詢–鍵(query–key)關(guān)系,以及一個由后驗熵參數(shù)化的低維值(value)流形。在訓練過程中,該流形逐漸展開,而注意力模式保持穩(wěn)定——這種“框架–精度解耦”(frame–precision dissociation)正是近期梯度分析所預測的現(xiàn)象。

綜上所述,這些結(jié)果表明:層級化注意力機制通過幾何設(shè)計實現(xiàn)了貝葉斯推理,既解釋了注意力機制的必要性,也說明了扁平架構(gòu)(如 MLP)為何失敗!柏惾~斯風洞”為從機制上將小型、可驗證系統(tǒng)與大型語言模型中觀察到的推理現(xiàn)象聯(lián)系起來奠定了基礎(chǔ)。

1 引言

Transformer 是否真正執(zhí)行貝葉斯推理,還是僅僅通過模式匹配來模仿它?自然語言缺乏可用于驗證預測的真值后驗分布,而現(xiàn)代大語言模型(LLM)又過于龐大且與其訓練數(shù)據(jù)高度糾纏,無法將真實的概率計算與記憶區(qū)分開來。即使模型表現(xiàn)出貝葉斯行為,我們也無法直接確認其內(nèi)部計算是否符合貝葉斯規(guī)則。

我們的方法:我們用“貝葉斯風洞”替代無法驗證的自然數(shù)據(jù)——即一類受控的預測任務(wù),其中:(1) 每一步的解析后驗分布都精確已知;(2) 假設(shè)空間極其龐大,使得記憶成為不可能;(3) 上下文中的預測必須依賴真正的概率推理。

這將一個定性問題(“它是否執(zhí)行貝葉斯推理?”)轉(zhuǎn)化為一個定量檢驗:模型的預測熵是否在每個位置上都與解析后驗熵相匹配?

兩類風洞:我們研究了兩個難度遞增的設(shè)定:? 雙射學習(Bijection learning):一個具有閉式后驗的離散假設(shè)消除問題。? 隱馬爾可夫模型(HMMs):一個需要遞歸更新的序列化隨機推理問題。

在這兩類任務(wù)中,Transformer 均達到了機器級的貝葉斯一致性,而采用相同容量、相同訓練方式的 MLP 則在兩類任務(wù)中均遭遇災難性失敗。

機制性發(fā)現(xiàn)。在不同任務(wù)中,Transformer 通過一個統(tǒng)一的三組件架構(gòu)實現(xiàn)貝葉斯推理:(1) 殘差流作為信念狀態(tài):后驗信息逐層累積;(2) 前饋網(wǎng)絡(luò)(FFN)作為貝葉斯更新:FFN 執(zhí)行后驗分布的數(shù)值計算;(3) 注意力機制作為路由:查詢–鍵(QK)幾何結(jié)構(gòu)為每次更新檢索信念中相關(guān)組成部分。

幾何診斷揭示出正交的鍵(key)軸、逐步對齊的查詢–鍵關(guān)系,以及一個在訓練過程中展開的一維值(value)流形。這些觀察結(jié)果與近期基于梯度的 Transformer 學習分析所做出的預測相吻合。

貢獻。本文首次提供了實證證據(jù),證明 Transformer 能夠?qū)崿F(xiàn)精確的貝葉斯后驗分布;識別出實現(xiàn)這一能力的幾何機制;并引入“貝葉斯風洞”作為一種工具,用于在小型、可驗證的環(huán)境中探查算法推理過程。

關(guān)于“貝葉斯推理”的澄清。我們并非聲稱網(wǎng)絡(luò)權(quán)重上存在貝葉斯后驗;我們所展示的是,所學習到的預測器實現(xiàn)了對任務(wù)潛在變量的貝葉斯后驗預測——即在 HMM 中對隱狀態(tài)的濾波后驗,或在雙射任務(wù)中對可能映射的消除后驗。這是一種關(guān)于 Transformer 所計算的輸入–輸出函數(shù)的陳述,而非關(guān)于權(quán)重空間不確定性的陳述。

2 理論框架:交叉熵與貝葉斯推理

在上下文預測任務(wù)中,交叉熵訓練具有一個眾所周知的總體最優(yōu)解:即貝葉斯后驗預測分布。本節(jié)對該聯(lián)系進行形式化描述。該理論確立了在無限數(shù)據(jù)、無限容量極限下,所學習函數(shù)應(yīng)當是什么;而實證部分則評估哪些架構(gòu)能在有限設(shè)置下逼近它。

2.1 設(shè)定

考慮一組由潛參數(shù) θ ~ π(θ) 索引的任務(wù)。對于每個任務(wù):


2.2 交叉熵最小化收斂于貝葉斯后驗預測分布

定理 1(交叉熵的總體最優(yōu)解):式 (1) 的最小化器是貝葉斯后驗預測分布。



2.3 在雙射風洞中的應(yīng)用

在雙射任務(wù)中,每個 是一個雙射 : {1, . . . , } → {1, . . . , }。一個訓練序列揭示了 ?1 個輸入—輸出對。令 O??? 為已觀測到的輸出集合。由于每個輸入在每條序列中至多出現(xiàn)一次,當前查詢 ? 之前從未出現(xiàn)過,因此貝葉斯規(guī)則簡化為:


這種閉式后驗分布允許直接逐位置比較模型熵與貝葉斯熵;由于假設(shè)空間大小 V! 極其龐大,記憶是不可能的。

2.4 在 HMM 風洞中的應(yīng)用


由于每條訓練序列都是由新采樣的 (, ) 生成的,假設(shè)空間極其龐大,因此記憶是不可能的。模型必須學會:(i) 解析編碼了 和 的頭部信息,以及 (ii) 實現(xiàn)遞歸的貝葉斯更新。

2.5 對模型評估的啟示

上述理論結(jié)果引出一個實用的診斷方法:若一個模型在每個位置上都達到了正確的后驗熵,則該模型在功能上是貝葉斯的——它所產(chǎn)生的預測具有與精確后驗相同的不確定性分布。結(jié)合交叉熵訓練目標(其唯一的總體最小化器即為貝葉斯后驗預測分布),低熵校準誤差為模型執(zhí)行了貝葉斯計算提供了有力證據(jù)。


3 實驗設(shè)計

我們通過將小型 Transformer 置于兩個受控的“貝葉斯風洞”中,來評估其是否能夠?qū)崿F(xiàn)精確的貝葉斯推理。在這些環(huán)境中,記憶是不可能的,且解析形式的后驗分布具有閉式解。兩項任務(wù)——雙射學習(bijection learning)和隱馬爾可夫模型(HMM)狀態(tài)追蹤——分別考察了不同類型的推理結(jié)構(gòu):雙射任務(wù)要求進行離散假設(shè)消除;HMM 任務(wù)則要求遞歸地整合隨機狀態(tài)轉(zhuǎn)移與觀測似然。


我們使用平均絕對熵誤差(Mean Absolute Entropy Error, MAE)來衡量這一匹配程度:


其中,L 是監(jiān)督預測位置的數(shù)量。由于每個訓練實例都使用一個新的雙射或一個新的 HMM,記憶化是不可行的;模型必須執(zhí)行真正的上下文內(nèi)推理。

3.1 任務(wù)1:雙射學習

每個序列都源自一個新的隨機雙射 π: {1, …, V} → {1, …, V},其中 V = 20。在位置 k 處,模型已觀察到 k?1 個不同的輸入-輸出對,并且必須預測 π(x?)。由于輸入從不重復,π(x?) 的貝葉斯最優(yōu)后驗分布在其 V?k+1 個未見值上是均勻分布的。


3.2 任務(wù)2:隱馬爾可夫模型狀態(tài)追蹤

第二個風洞探測了一種定性上不同的推理結(jié)構(gòu):遞歸信念更新。每個序列都源自一個新的 HMM,該 HMM 具有 S = 5 個隱藏狀態(tài)和 V = 5 個觀測符號。轉(zhuǎn)移行和發(fā)射行均獨立地從一個對稱的狄利克雷分布中抽取,所有濃度參數(shù)均等于 1(即,Dirichlet(1, 1, 1, 1, 1)),以確保動態(tài)多樣且非退化。

序列格式。每個序列包含:

  • 一個由10個標記組成的頭信息(header),用于編碼扁平化的 T 和 E,以及
  • K 個觀測—預測對,每一對包含:
    • 觀測到的符號 o?,
    • 在同一位置對 p(s? | o?:?) 的監(jiān)督預測。

貝葉斯真實值:前向算法。對于每個 HMM 及每個時間點 t,我們計算


評估長度。模型在具有 K = 20 個預測位置的序列上進行訓練,并在以下條件下進行評估:

  • K = 20(驗證:在訓練范圍內(nèi)),
  • K = 30(1.5 倍訓練長度),
  • K = 50(2.5 倍訓練長度)。

這用于測試模型是否學習到了一種與位置無關(guān)的遞歸算法,或者僅僅是記住了有限范圍內(nèi)的計算。

為何記憶化不可行。每個序列均使用新的 T、E 矩陣以及新的隨機發(fā)射軌跡。即使在粗略離散化的情況下,可能的 HMM 空間也超過 10??,從而確保所學行為不能依賴于對任何特定 HMM 的回憶。

3.3 架構(gòu)

Transformer。我們使用小型但現(xiàn)實的 Transformer 堆棧:

  • 雙射 Transformer(2.67M 參數(shù)):6 層,6 個頭,d_model = 192,d_ffn = 768。
  • HMM Transformer(2.68M 參數(shù)):9 層,8 個頭,d_model = 256,d_ffn = 1024。

兩者均使用學習到的詞元嵌入、學習到的絕對位置嵌入、預歸一化殘差塊和標準多頭自注意力機制。

容量匹配的 MLP 基線。為了隔離注意力的作用,我們訓練具有以下配置的 MLP:

  • 18–20 層,
  • 寬度 384–400,
  • 殘差連接和層歸一化,
  • 與 Transformer 相同的嵌入層和訓練協(xié)議。

參數(shù)數(shù)量在 1% 范圍內(nèi)與 Transformer 匹配。這些 MLP 作為對照組,用于檢驗分層注意力對該任務(wù)是否必不可少。

3.4 訓練協(xié)議

對于每個任務(wù),不同架構(gòu)的訓練過程完全相同。

優(yōu)化。使用 AdamW 優(yōu)化器,其中 β? = 0.9,β? = 0.999,權(quán)重衰減為 0.01,梯度裁剪閾值為 1.0。

學習率。

  • 雙射任務(wù):恒定學習率為 10?3。
  • HMM 任務(wù):3 × 10??,配合 1000 步預熱和余弦衰減。

數(shù)據(jù)采樣。每個批次均抽取新的雙射或新的 HMM;序列從不重復。

教師強制。在每個監(jiān)督預測位置應(yīng)用交叉熵損失。

消融穩(wěn)定性。按層和按頭的消融結(jié)果報告為三個隨機種子的平均值;HMM 長度泛化結(jié)果也跨多個種子進行評估,以確保魯棒性。

4 結(jié)果:Transformer 跟蹤貝葉斯后驗

我們通過兩個行為測試評估 Transformer 是否位于解析貝葉斯流形上:(1) 逐點校準——模型熵 H_model(t) 在每個位置是否與貝葉斯熵 H_Bayes(t) 匹配?(2) 泛化能力——所學計算能否擴展到未見過的雙射、未見過的 HMM 和更長的序列?

我們并行呈現(xiàn)雙射和 HMM 的結(jié)果,隨后是 MLP 對照組和多種子魯棒性分析。

4.1 雙射風洞:精確假設(shè)消除

一個參數(shù)量為 2.67M 的 Transformer 以接近機器精度收斂至解析后驗分布。圖1 展示了預測熵。



按序列的證據(jù)。聚合校準可能掩蓋平均化帶來的偽影。圖2 繪制了八條獨立的熵軌跡。每條軌跡均顯示特征性的階梯狀模式:每當一個新的輸入-輸出對消除了假設(shè)時,熵會離散地下降;當輸入重復且映射已知時,熵會坍縮至接近零。該模型執(zhí)行的是逐步貝葉斯消除,逐序列重現(xiàn)曲線序列,而非僅僅在期望值上匹配。


模型內(nèi)部一致性。按層消融(圖3)表明,移除任意一層都會使誤差增加一個數(shù)量級以上,證實了其深層組合式計算特性。按頭消融(圖4)識別出一個位于第0層的“假設(shè)框架”注意力頭,其移除具有獨特破壞性,這與第5節(jié)中的幾何分析一致。


4.2 HMM 風洞:遞歸貝葉斯狀態(tài)追蹤

這個參數(shù)量為 2.68M 的 Transformer 同樣學會了用于 HMM 推理的前向算法。

在訓練范圍內(nèi)(K=20)。當 ≤ 20 時,模型熵追蹤精確的前向遞歸熵,其值為


這兩條曲線在視覺上幾乎無法區(qū)分(圖5)。


超出訓練范圍(K=30,K=50)。為了測試算法的泛化能力,我們將模型推演至1.5倍和2.5倍的訓練長度。Transformer 仍顯著接近解析后驗分布:


誤差隨 t 平滑增加,在 t = 20(訓練邊界)處無間斷。這是模型學習了一種與位置無關(guān)的遞歸算法、而非僅記憶有限范圍計算的有力證據(jù)。

逐位置校準。圖6 顯示了絕對誤差 |H_model(t) ? H_Bayes(t)|。出現(xiàn)三種模式: (1) 早期位置略帶噪聲(初始狀態(tài)不確定); (2) 序列中段位置在所有長度下均達到接近零的誤差; (3) 后期位置隨序列長度平滑退化,與累積數(shù)值漂移一致。


逐序列動態(tài)。圖7 展示了模型追蹤序列特異性波動的情況:當發(fā)射信號能強有力地識別狀態(tài)時熵下降,當觀測模糊時熵上升。Transformer 精確捕捉了這些動態(tài)。

隱藏狀態(tài)重標記下的語義不變性。隱藏狀態(tài)索引純粹是符號性的:對標簽進行置換對應(yīng)于相同的潛在過程。我們采樣一個 {1, …, S} 的隨機置換 σ,并通過置換 T 的行和列(即,T′σ(i),σ(j) = Ti,j)以及置換 E 的行(即,E′σ(i),o = Ei,o)將其應(yīng)用于 HMM 參數(shù)。然后我們基于 (T′, E′) 重新計算解析后驗,并在由置換后的 HMM 生成的序列上評估模型。如果模型實現(xiàn)的是貝葉斯濾波而非將意義與特定狀態(tài) ID 關(guān)聯(lián),則其熵校準應(yīng)保持不變,最多只受數(shù)值噪聲影響。圖8 顯示了置換前后的平均絕對誤差(MAE),結(jié)果落在對角線上,ΔMAE 集中在零附近。


4.3 長度泛化需要后期層注意力

為了識別哪些組件支持穩(wěn)定的推演,我們訓練了一個變體 Transformer,其中頂層兩層的注意力被禁用,但前饋網(wǎng)絡(luò)(FFNs)和殘差連接保持完整。

無后期注意力的模型在訓練范圍內(nèi)擬合得尚可(1.57 × 10?3 比特),但在推演時失效:


退化因子從 21 倍(在 K = 20 時)增長至 62 倍(在 K = 50 時),表明后期層注意力對于擬合 K = 20 并非必需,但對于穩(wěn)定的長時域貝葉斯更新至關(guān)重要(圖9)。


4.4 MLP 對照組:注意力機制的架構(gòu)必要性

在相同條件下訓練的容量匹配 MLP,在兩個風洞測試中均失敗。

雙射任務(wù)。MLP 達到的平均絕對誤差(MAE)約為 1.85 比特——比 Transformer 差約 618 倍——且在 100k 到 150k 步之間未見任何改進。其熵曲線幾乎保持平坦,表明它僅學習了輸出的邊緣分布。

HMM 任務(wù)。MLP 在所有長度下均達到約 0.40 比特的平均絕對誤差(表1),未顯示出任何遞歸計算的跡象。平坦的逐位置誤差分布(圖10)表明其退化為一種位置平均近似,而非信念追蹤。



這些失敗不能歸因于優(yōu)化、數(shù)據(jù)或容量問題。它們反映出缺乏內(nèi)容尋址路由和殘差組合性——而這兩者正是注意力機制所提供的關(guān)鍵幾何要素。

4.5 多種子一致性

為確保貝葉斯追蹤并非初始化或優(yōu)化噪聲造成的偽影,我們在五個獨立的隨機種子上重復了所有 HMM 實驗。所有種子在 K = 20、K = 30 和 K = 50 時的逐位置誤差曲線(圖11)幾乎完全重疊。



種子間的差異相比 Transformer 與 MLP 性能之間的差距可忽略不計,這證實所學習的貝葉斯算法對初始化和訓練噪聲具有魯棒性。

5 機制:Transformer 如何實現(xiàn)貝葉斯推斷

第4節(jié)的行為結(jié)果表明,小型 Transformer 能夠在兩個不同的風洞任務(wù)中以低于1比特的精度追蹤解析貝葉斯后驗分布。我們現(xiàn)在考察這一計算在內(nèi)部是如何實現(xiàn)的。來自消融實驗、QK 幾何結(jié)構(gòu)、探測動態(tài)和訓練軌跡的證據(jù)揭示了一種一致的架構(gòu)機制:Transformer 通過構(gòu)建一個表征框架,在該框架內(nèi)執(zhí)行序列式假設(shè)消除,并逐層逐步精煉后驗精度,從而實現(xiàn)貝葉斯推斷。

5.1 第0層構(gòu)建假設(shè)框架

計算始于一項結(jié)構(gòu)性操作:第0層的注意力機制構(gòu)建了所有后續(xù)推斷發(fā)生所依賴的假設(shè)空間。該層的鍵(Keys)在輸入標記上形成近似正交的基底(圖14),為后驗概率質(zhì)量的表示與操作提供了一個坐標系。


按頭消融實驗確認了這一步驟的不可或缺性。一個單一的第0層“假設(shè)框架頭”主導了該層的貢獻(圖4),僅移除該頭便嚴重破壞校準效果。此處“假設(shè)框架頭”指其鍵(Keys)在假設(shè)標記上張成近似正交基底、其值(Values)在殘差流中實例化對應(yīng)每個假設(shè)槽位的注意力頭。其他任何注意力頭均未表現(xiàn)出類似的敏感性。這揭示了一個結(jié)構(gòu)性瓶頸:構(gòu)建假設(shè)框架是后續(xù)所有貝葉斯計算的前提條件。

一旦建立,該框架在整個訓練過程中保持穩(wěn)定。第0層的注意力圖譜在不同檢查點之間變化極小,即使值流形和校準性能已顯著提升。因此,模型在早期即學習了推斷問題的幾何結(jié)構(gòu),并隨后在此固定框架內(nèi)精煉數(shù)值精度。

5.2 跨深度的序列式貝葉斯消除

在假設(shè)框架建立之后,中間層逐層執(zhí)行一個與貝葉斯消除相仿的過程。

QK 逐步銳化。隨著網(wǎng)絡(luò)深度增加,查詢(Queries)越來越強地對齊于與觀測證據(jù)一致的鍵(Keys)子集(圖15)。早期層注意力分布較廣;深層則幾乎完全將注意力集中在可行假設(shè)上。這種幾何聚焦過程與解析貝葉斯條件化平行:不一致的假設(shè)權(quán)重逐漸趨近于零。

層級組合性。按層消融實驗(圖3)表明,移除任意單一層(包括注意力與前饋網(wǎng)絡(luò),按實際實現(xiàn)方式)會使校準誤差增加一個數(shù)量級以上。這表明該計算并非淺層或冗余的:每一層都提供一個獨特且不可互換的精煉步驟,共同構(gòu)成貝葉斯更新的序列式、組合式實現(xiàn)。

綜上,這些觀察表明,Transformer 并非通過單一變換實現(xiàn)貝葉斯消除,而是通過在第0層框架內(nèi)逐層進行投影與精煉的深度序列來完成。

5.3 注意力作為內(nèi)容尋址路由

在所有深度上,注意力機制扮演著一致的幾何角色:它檢索與下一次更新相關(guān)的信念狀態(tài)組件。

三個觀察支持這一路由解釋:

  • 正交鍵(圖14)為假設(shè)的內(nèi)容尋址查找提供了基礎(chǔ)。
  • 跨深度的 QK 對齊銳化(圖15)將殘差流中的信息導向可行假設(shè)子空間。
  • 在后期精煉階段保持穩(wěn)定的路由(圖16 和 17)表明,一旦框架正確建立,即使校準性能持續(xù)提升,注意力圖譜也幾乎不再變化。


路由對于維持穩(wěn)定的遞歸推斷同樣至關(guān)重要。在 HMM 任務(wù)中,僅禁用頂層兩層的注意力時,模型在訓練范圍內(nèi)的表現(xiàn)基本完好,但長時域推斷會崩潰(圖9)。因此,注意力既對構(gòu)建初始假設(shè)框架是必需的,也對在擴展推演過程中維持穩(wěn)定的信念更新是必需的。

5.4 值空間流形與精度精煉

在路由穩(wěn)定之后,最終層精煉后驗表示的精度。圖16 和 17 顯示:

  • 在中間檢查點,低熵狀態(tài)的值表示已近乎坍縮,無法可靠地編碼剩余小假設(shè)集之間的區(qū)別。
  • 到最終檢查點時,這些狀態(tài)沿一條由后驗熵參數(shù)化的平滑一維流形分布。

這種幾何展開使后驗置信度得以細粒度編碼,并解釋了后期位置校準性能的提升。重要的是,這種精煉發(fā)生在注意力圖譜幾乎不變的情況下,從而產(chǎn)生清晰的“框架—精度分離”:注意力定義信息流向何處,而下游變換則精煉信念被編碼的精確程度。


5.5 綜合:一種三階段架構(gòu)機制

在兩個風洞任務(wù)中,證據(jù)均匯聚于一個三階段機制(圖18):


(1) 基礎(chǔ)綁定(第0層)。構(gòu)建一個正交假設(shè)框架。(鍵幾何結(jié)構(gòu);災難性的第0層頭消融實驗。)

(2) 漸進式消除(中間層)。通過逐步銳化 QK 對齊,依次抑制不一致的假設(shè)。(按層組合性;幾何聚焦。)

(3) 精度精煉(后期層)。在保持路由固定的條件下,在平滑的值流形上編碼后驗熵。(值流形展開;框架—精度分離。)

該結(jié)構(gòu)映射了貝葉斯條件化的解析分解:定義假設(shè)空間,依據(jù)證據(jù)更新信念,并隨著不確定性降低而精煉置信度。

5.6 與梯度動力學預測的關(guān)系

這些經(jīng)驗觀察結(jié)果與近期關(guān)于梯度動力學分析所作的預測相吻合,即一旦正確的路由結(jié)構(gòu)形成,注意力分數(shù)趨于穩(wěn)定,而值和殘差表示則持續(xù)精煉精度。所觀察到的注意力圖譜穩(wěn)定性,連同值流形的展開,為這種路由與精度的“差異性收斂”提供了直接證據(jù)。

6 分析與討論

風洞實驗表明,小型 Transformer 在僅使用標準優(yōu)化方法、且未進行任何架構(gòu)修改的情況下,能夠以驚人的保真度實現(xiàn)貝葉斯推斷。在本節(jié)中,我們將討論這些結(jié)果對可解釋性、架構(gòu)必要性以及受控風洞實驗與大型語言模型行為之間關(guān)聯(lián)的更廣泛意義。

6.1 為何分層注意力實現(xiàn)貝葉斯推斷

在雙射和 HMM 設(shè)置中,第5節(jié)所揭示的內(nèi)部幾何結(jié)構(gòu)展現(xiàn)出一種一致的計算模式。Transformer 通過一系列堆疊的幾何操作實現(xiàn)貝葉斯條件化:

(1) 基礎(chǔ)綁定(第0層)。正交鍵構(gòu)建一個假設(shè)框架。移除第0層“假設(shè)框架頭”所帶來的災難性影響(圖4)表明,該框架在結(jié)構(gòu)上是不可或缺的。

(2) 漸進式消除(中間層)。QK 對齊隨深度增加而銳化(圖15),這與解析貝葉斯更新中對被排除假設(shè)的乘法抑制相呼應(yīng)。按層消融實驗(圖3)表明,每一層都貢獻一個不可互換的精煉步驟。

(3) 精度精煉(后期層)。一旦路由穩(wěn)定,值表示會展開為一個由后驗熵參數(shù)化的低維流形(圖16),尤其在后期位置顯著提升校準效果(圖17)。這種“框架—精度分離”反映了勞動分工:注意力確定信息流向何處,而后續(xù)變換則精煉信念的數(shù)值精度。

這一層級結(jié)構(gòu)與貝葉斯法則平行:定義假設(shè)空間、整合證據(jù)、并精煉后驗分布。Transformer 利用注意力幾何和殘差流表示來實現(xiàn)這些步驟。

6.2 深度作為組合性必要條件

消融研究得出的一個核心結(jié)論是:深度并非冗余。在兩個風洞任務(wù)中,移除任意單一層都會使校準誤差增加一個數(shù)量級以上(圖3)。這表明貝葉斯推理表現(xiàn)為一系列組合式投影,每一層以無法壓縮為單一變換的方式精煉信念狀態(tài)。

這與寬而淺的架構(gòu)形成鮮明對比:即使參數(shù)量相當且訓練方式相同,MLP 也無法執(zhí)行假設(shè)消除或狀態(tài)追蹤(第4.4節(jié))。貝葉斯推斷需要分層精煉,而 Transformer 通過深度和殘差組合提供了適當?shù)臍w納偏置。

6.3 從風洞實驗到自然語言

盡管風洞實驗是刻意簡化的,但它們捕捉了概率推斷的核心結(jié)構(gòu):隨時間整合證據(jù)以更新潛在信念。大型語言模型在更為復雜的環(huán)境中運行,其潛在空間維度更高,且證據(jù)具有模糊性、多模態(tài)特性。然而,此處觀察到的幾何要素——正交假設(shè)軸、逐層精煉和穩(wěn)定路由——屬于結(jié)構(gòu)性特征,而非任務(wù)特定特征。

因此,這些結(jié)果表明,大型語言模型(LLMs)所表現(xiàn)出的概率行為,可能不僅源于規(guī)模或數(shù)據(jù)豐富度,也源于架構(gòu)幾何結(jié)構(gòu)。風洞實驗提供了一個可驗證的下界:它們證明當后驗分布已知時,Transformer 確實能夠精確實現(xiàn)貝葉斯推斷。

6.4 架構(gòu)必要性與 MLP 的失敗

容量匹配的 MLP 對照組澄清了哪些架構(gòu)組件是必需的。即使參數(shù)量相似、數(shù)據(jù)暴露相同,MLP 在兩個風洞任務(wù)中均災難性地失敗,熵誤差高達約 0.4 比特(表1)。這些失敗并非源于優(yōu)化困難:任務(wù)簡單、梯度表現(xiàn)良好、訓練過程平穩(wěn)收斂。

相反,這一差距反映了以下要素的缺失:

  • 假設(shè)的內(nèi)容尋址檢索,
  • 通過深度實現(xiàn)的組合式精煉,
  • 支持長時域推斷的穩(wěn)定路由結(jié)構(gòu)。

Transformer 成功的原因在于注意力機制提供了 MLP 所缺乏的幾何機制——正交基底、選擇性路由和漸進聚焦。因此,匹配容量的 MLP 的失敗清晰地證明,在所測試的架構(gòu)中,注意力對于上下文中的貝葉斯結(jié)構(gòu)學習是必不可少的。

6.5 大型語言模型推理能力的一個下界

風洞實驗為 Transformer 中的機制化推理建立了一個有原則的基準。如果一個模型在后驗分布封閉且無法記憶的設(shè)定下都無法實現(xiàn)貝葉斯推斷,則它在自然語言中具備真實推斷能力的證據(jù)就十分有限。反之,小型、可驗證的 Transformer 在此成功——并展現(xiàn)出可解釋的幾何機制——這暗示類似結(jié)構(gòu)可能支撐著大型模型中的推理能力。

這提供了一個具體的研究方向:在前沿大型語言模型中尋找相同的幾何特征。本文使用的診斷工具——鍵的正交性、QK 銳化、值流形結(jié)構(gòu)以及路由穩(wěn)定性——為分析預訓練語言模型提供了可檢驗的預測。

7 相關(guān)工作
7.1 深度學習的貝葉斯解釋

長期以來,大量研究從貝葉斯視角解釋神經(jīng)網(wǎng)絡(luò),從對預測不確定性的經(jīng)典分析 [10, 12],到后驗推斷的變分或隨機近似方法 [3, 7]。近期一些論文指出,在大數(shù)據(jù)極限下,最小化交叉熵隱式地以貝葉斯后驗預測為目標 [15, 16]。這些結(jié)果關(guān)注的是在總體(population)層面上訓練應(yīng)當產(chǎn)生什么。我們的貢獻是互補的:我們構(gòu)建了一個受控環(huán)境,其中真實后驗分布已知、記憶化不可行,并且可以直接檢驗一個有限規(guī)模的 Transformer 是否確實實現(xiàn)了這一貝葉斯計算。

7.2 上下文內(nèi)學習與算法泛化

已有研究表明,Transformer 能在上下文中執(zhí)行算法任務(wù),包括算術(shù)運算 [6]、合成歸納 [5] 以及更一般的模式外推 [2, 13]。從行為上看,這些模型常表現(xiàn)出類似貝葉斯學習者的特性,這一觀察已被近期的解釋性理論形式化 [15, 16]。然而,以往工作無法區(qū)分真正的貝葉斯計算與習得的啟發(fā)式策略或記憶化的模板,因為自然語言任務(wù)中真實后驗分布是未知的。我們的風洞方法解決了這一識別問題:通過構(gòu)建具有解析閉式后驗且假設(shè)空間組合爆炸的任務(wù),我們得以直接對模型預測與貝葉斯規(guī)則進行逐點比較。這將討論從相關(guān)性推進到了機制層面。

7.3 機制可解釋性與注意力幾何

對 Transformer 的機制研究已揭示出專門用于歸納、復制和檢索的注意力頭 [4, 11]。其他工作則考察了 QKV 空間、電路分解,以及訓練過程中出現(xiàn)的稀疏結(jié)構(gòu) [13]。這些研究為模型行為提供了定性及電路層面的洞察。

我們的貢獻在于,在后驗已知的設(shè)定下,將這些幾何結(jié)構(gòu)直接關(guān)聯(lián)到貝葉斯推斷。我們表明:鍵(keys)形成近似正交的假設(shè)軸;查詢(queries)隨網(wǎng)絡(luò)深度逐步聚焦于可行假設(shè);值(values)表示則展開為一維的熵流形。這以嚴格的方式將機制可解釋性與概率計算聯(lián)系起來:實現(xiàn)貝葉斯推理所需的內(nèi)部幾何結(jié)構(gòu)變得直接可見。

7.4 架構(gòu)比較

其他序列模型——狀態(tài)空間架構(gòu) [8, 9]、卷積變體 [14] 和深度 MLP——在自然文本上的困惑度(perplexity)常與 Transformer 相當。但困惑度混淆了建模能力與推理能力。我們的結(jié)果提供了一種更精細的檢驗:在嚴格的非記憶化約束下,某架構(gòu)是否能復現(xiàn)解析貝葉斯后驗。容量匹配的 MLP 對照組明確表明,至少相對于扁平的前饋架構(gòu),基于注意力的路由對于上下文中的貝葉斯結(jié)構(gòu)學習是必不可少的。

7.5 訓練動力學

最后,同期工作分析了訓練過程中生成這些結(jié)構(gòu)的梯度動力學 [1]。他們表明,注意力與值的更新遵循耦合規(guī)律,從而產(chǎn)生一個穩(wěn)定的路由框架和一個逐步精煉的值流形。我們的實證發(fā)現(xiàn)與此圖景一致:注意力早期即趨于穩(wěn)定,而值向量則持續(xù)以更高分辨率編碼后驗分布。綜合來看,這些視角將優(yōu)化軌跡與實現(xiàn)貝葉斯推斷的幾何結(jié)構(gòu)聯(lián)系了起來。

8 局限性與未來工作

我們的實驗有意保持小規(guī)模:使用具有解析后驗分布的受控貝葉斯風洞、較小的詞匯量,以及參數(shù)量為200萬至300萬的小型Transformer。正是這種設(shè)定使得機制驗證成為可能,但同時也自然地抽象掉了自然語言推理的全部復雜性。因此,仍存在若干局限性,而這些局限性直接指向未來的拓展方向。

推理任務(wù)的規(guī)模與豐富性。雙射和隱馬爾可夫模型(HMM)捕捉了貝葉斯計算的核心要素——離散假設(shè)消除與遞歸狀態(tài)追蹤——但它們僅代表大型語言模型所面對的推理問題中一個狹窄的切片。未來的風洞實驗可納入更豐富的潛在變量結(jié)構(gòu),包括卡爾曼濾波、分層貝葉斯模型或因果圖模型,這些模型均具有閉式后驗分布,從而允許精確驗證。

假設(shè)空間的維度。盡管兩個任務(wù)中的假設(shè)空間已足夠大以防止記憶化,但其表征維度仍然有限(例如,HMM 中僅有5個隱藏狀態(tài))。在具有高維潛在變量的更大系統(tǒng)中測試我們觀察到的幾何機制——正交假設(shè)軸、逐層Q–K銳化、值流形精煉——是否能隨維度平滑擴展,將是一個重要方向。

與大規(guī)模預訓練模型的聯(lián)系。我們提出的幾何診斷工具(鍵的正交性、注意力得分梯度結(jié)構(gòu)、值流形)可作為對前沿大語言模型(LLMs)的可檢驗預測。在自然文本上訓練的大模型中是否也會出現(xiàn)類似的貝葉斯流形,仍是一個開放問題。下一步自然的做法是將這些工具直接應(yīng)用于預訓練Transformer的各層,這或許能揭示近似貝葉斯結(jié)構(gòu)在更復雜場景中如何顯現(xiàn)。

架構(gòu)的普適性。本實驗使用的是標準Transformer。尚不清楚其他架構(gòu)——如狀態(tài)空間模型、帶有更復雜門控機制的深度MLP,或混合循環(huán)-注意力系統(tǒng)——是否也能形成類似的貝葉斯流形。風洞評估可提供一個基于推理保真度(而非僅困惑度)的原理性基準,用于架構(gòu)間的系統(tǒng)比較。

訓練動力學與相變。一個顯著的實證現(xiàn)象是“框架—精度解耦”:注意力圖譜早期即趨于穩(wěn)定,而值流形則持續(xù)展開并精煉后驗精度。對這些階段進行系統(tǒng)研究——框架何時形成、精度提升的速度、以及這些動態(tài)如何依賴于網(wǎng)絡(luò)深度、寬度和數(shù)據(jù)復雜性——有望推動形成關(guān)于Transformer中表征形成的更一般理論。

邁向自然語言風洞。最終,我們的目標是理解此處所展示的精確貝葉斯推理如何與自然語言任務(wù)中觀察到的近似推理相關(guān)聯(lián)。風洞實驗提供了一個下界:它確立了當問題定義良好時,Transformer 能夠?qū)崿F(xiàn)貝葉斯更新。下一個挑戰(zhàn)是設(shè)計嵌入于自然語言數(shù)據(jù)中的受控任務(wù),在引入現(xiàn)實世界模糊性的同時,仍保留可解析的結(jié)構(gòu)。

9 結(jié)論

我們提出了貝葉斯風洞——一種具有解析后驗分布和組合爆炸式假設(shè)空間的受控實驗環(huán)境——用于檢驗 Transformer 是否真正實現(xiàn)了貝葉斯推斷,而不僅僅是對其行為的模仿。在兩類根本不同的推理問題上——離散雙射的假設(shè)消除與隱馬爾可夫模型(HMM)中的序列狀態(tài)追蹤——小型 Transformer 均以低于1比特的校準誤差收斂至精確的貝葉斯后驗,即便在遠超訓練長度的序列上亦是如此。容量匹配的 MLP 在兩種設(shè)定下均災難性失敗,表明這種能力源于注意力機制的幾何結(jié)構(gòu),而非模型規(guī)模或優(yōu)化技巧。

幾何診斷提供了統(tǒng)一解釋:鍵(keys)在假設(shè)空間上形成近似正交基底;查詢(queries)隨深度逐步對齊于該基底中的可行區(qū)域;值(values)則沿一條由后驗熵參數(shù)化的低維流形組織起來。訓練過程塑造了這一流形:注意力模式早期即趨于穩(wěn)定,而值表示則持續(xù)精煉后驗精度——這種“框架—精度解耦”現(xiàn)象與同期關(guān)于梯度動力學的理論預測一致。這些機制共同實現(xiàn)了貝葉斯條件化的核心組成部分:綁定(binding)、消除(elimination)與精煉(refinement),并以跨深度的一系列結(jié)構(gòu)化線性變換形式表達出來。

風洞設(shè)定雖有意簡化,卻確立了一個清晰的下界:如果一個模型在后驗已知且無法記憶的環(huán)境中都無法實現(xiàn)貝葉斯推斷,那么它在自然語言中也不可能做到。反之,我們的結(jié)果表明,當任務(wù)允許驗證時,Transformer 的幾何結(jié)構(gòu)足以實現(xiàn)精確的貝葉斯推斷。這為研究更大模型中的近似推理提供了原理性基礎(chǔ),并提出了具體、可檢驗的預測——正交假設(shè)軸、逐層Q–K銳化、值流形結(jié)構(gòu)——可用于分析預訓練的大語言模型(LLMs)。

Transformer 在此成功,是因為其架構(gòu)提供了恰當?shù)臍w納偏置,而非依賴規(guī)模:殘差流承載不斷演化的信念狀態(tài),注意力機制選擇性地路由信息,前饋層則執(zhí)行局部貝葉斯更新。這些組件共同在模型的表征空間中刻畫出一個貝葉斯流形。理解這一流形如何形成、如何隨規(guī)模擴展、以及在真實語言環(huán)境中如何退化,仍是未來工作的重要方向。

原文:https://arxiv.org/pdf/2512.22471

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭議

天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭議

阿SIR觀察
2026-01-27 10:38:05
高詩巖單節(jié)15分!山東男籃逆轉(zhuǎn)黑馬,克里斯低迷,兩大功臣發(fā)威

高詩巖單節(jié)15分!山東男籃逆轉(zhuǎn)黑馬,克里斯低迷,兩大功臣發(fā)威

牛眼看球
2026-01-27 21:45:55
徐文海、程用文、雷文潔已任湖北省人大常委會黨組成員

徐文海、程用文、雷文潔已任湖北省人大常委會黨組成員

澎湃新聞
2026-01-27 13:57:11
江蘇一餐飲老板李金良去世,僅37歲,新店才幾個月,妻子心都碎了

江蘇一餐飲老板李金良去世,僅37歲,新店才幾個月,妻子心都碎了

深析古今
2026-01-27 09:48:29
“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

妍妍教育日記
2026-01-27 19:58:28
央視坐實!成本2元售價19800元!不少人受騙,趕緊別用了

央視坐實!成本2元售價19800元!不少人受騙,趕緊別用了

白色得季節(jié)
2026-01-27 21:30:49
要打就打痛!中國手段已升級,日本:中方不批準駐重慶總領(lǐng)事任命

要打就打痛!中國手段已升級,日本:中方不批準駐重慶總領(lǐng)事任命

滄海旅行家
2026-01-27 17:17:15
凱恩將續(xù)約拜仁,創(chuàng)隊史頂薪紀錄

凱恩將續(xù)約拜仁,創(chuàng)隊史頂薪紀錄

星耀國際足壇
2026-01-27 21:18:40
你知道咱媽為何要拍《太平年》嗎?知道這是拍給誰看的嗎?

你知道咱媽為何要拍《太平年》嗎?知道這是拍給誰看的嗎?

李健政觀察
2026-01-27 09:50:28
我們贏了!中國成功研制全球首款二維芯片,ASML慌了:更可怕的還在后頭

我們贏了!中國成功研制全球首款二維芯片,ASML慌了:更可怕的還在后頭

芯火相承
2026-01-26 21:29:42
牢A爆火后留學圈炸了!陪讀媽媽、女留學生成狩獵目標,家長必看

牢A爆火后留學圈炸了!陪讀媽媽、女留學生成狩獵目標,家長必看

烏娛子醬
2026-01-27 16:50:05
云南“毒紅薯”后續(xù):10億產(chǎn)業(yè)崩盤,無辜農(nóng)戶欲哭無淚

云南“毒紅薯”后續(xù):10億產(chǎn)業(yè)崩盤,無辜農(nóng)戶欲哭無淚

過了法考的新聞人
2026-01-27 17:19:11
突擊檢查全國武器庫!一定要嚴防被掉包,甲午戰(zhàn)爭悲劇絕不能重演

突擊檢查全國武器庫!一定要嚴防被掉包,甲午戰(zhàn)爭悲劇絕不能重演

愛吃醋的貓咪
2026-01-27 20:31:00
紫牛頭條|大連一業(yè)主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團陷僵局

紫牛頭條|大連一業(yè)主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團陷僵局

揚子晚報
2026-01-27 21:52:52
性行為缺失會促癌?華中大最新:性行為缺失會削弱抗癌免疫力,保持性行為則有利于抗癌

性行為缺失會促癌?華中大最新:性行為缺失會削弱抗癌免疫力,保持性行為則有利于抗癌

醫(yī)諾維
2026-01-26 17:02:36
首都機場“大老虎”:下班飛澳門,早上坐專機上班,一晚輸600萬

首都機場“大老虎”:下班飛澳門,早上坐專機上班,一晚輸600萬

牛牛叨史
2026-01-27 23:54:21
在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進醫(yī)院,盒馬回應(yīng)

在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進醫(yī)院,盒馬回應(yīng)

瀟湘晨報
2026-01-27 18:01:05
小區(qū)內(nèi)裝卸鋼化玻璃,不到一小時連發(fā)兩起事故,有傷者送醫(yī)后身亡;家屬:用工方負責人已被逮捕

小區(qū)內(nèi)裝卸鋼化玻璃,不到一小時連發(fā)兩起事故,有傷者送醫(yī)后身亡;家屬:用工方負責人已被逮捕

大風新聞
2026-01-27 17:10:11
爬山遺失80克金吊墜男子:把對講機掛在了金吊墜的鏈子上,快登頂才發(fā)現(xiàn)吊墜丟了,目前還沒找到

爬山遺失80克金吊墜男子:把對講機掛在了金吊墜的鏈子上,快登頂才發(fā)現(xiàn)吊墜丟了,目前還沒找到

魯中晨報
2026-01-27 16:23:14
沉默24小時后,卡尼終于發(fā)聲,與中國協(xié)議作廢,美財長得寸進尺

沉默24小時后,卡尼終于發(fā)聲,與中國協(xié)議作廢,美財長得寸進尺

天仙無味小仙女
2026-01-28 00:41:45
2026-01-28 04:16:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會講話透露了哪些關(guān)鍵信息

頭條要聞

美報告稱中國是其19世紀以來面對過的最強大國家

頭條要聞

美報告稱中國是其19世紀以來面對過的最強大國家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學?

娛樂要聞

張雨綺風波持續(xù)發(fā)酵,曝多個商務(wù)被取消

財經(jīng)要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

態(tài)度原創(chuàng)

家居
手機
房產(chǎn)
旅游
公開課

家居要聞

現(xiàn)代古典 中性又顯韻味

手機要聞

蘋果連發(fā)4版系統(tǒng):從iPhone 5s到iOS 26,果粉福音來了!

房產(chǎn)要聞

實景兌現(xiàn)在即!綠城,在海棠灣重新定義終極旅居想象!

旅游要聞

紅燈籠映北海:皇家園林里的年味,藏著中國人的精神原鄉(xiāng)!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版