清華大學(xué)等機(jī)構(gòu)聯(lián)合揭秘Transformer的"注意力陷阱"問題

2026-04-21 21:30:50　來源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由清華大學(xué)、香港大學(xué)、美團(tuán)LongCat團(tuán)隊(duì)、廈門大學(xué)、密歇根大學(xué)和俄亥俄州立大學(xué)聯(lián)合開展的研究，以預(yù)印本形式發(fā)布于2026年4月，論文編號為arXiv:2604.10098。這是該領(lǐng)域首篇系統(tǒng)性綜述，感興趣的讀者可通過上述編號查詢完整論文。

每當(dāng)你使用ChatGPT、文心一言或其他AI助手時(shí)，背后都有一套叫做"Transformer"的架構(gòu)在驅(qū)動。這套架構(gòu)的核心能力，是讓AI能夠"關(guān)注"輸入信息中最重要的部分——就像你讀一篇文章時(shí)，眼睛會自然停留在關(guān)鍵詞和核心句子上，而不是把每個(gè)字都盯同樣長的時(shí)間。這種"選擇性關(guān)注"的能力，學(xué)術(shù)上叫做"注意力機(jī)制"（Attention Mechanism）。

然而，有一個(gè)長期被忽視的怪現(xiàn)象潛伏在這套機(jī)制里：AI有時(shí)會把大量的注意力集中在某些毫無實(shí)質(zhì)意義的詞上——比如句子開頭的感嘆詞、標(biāo)點(diǎn)符號，甚至是一個(gè)什么語義都沒有的占位符。這些詞就像黑洞一樣，把本該分配給真正重要內(nèi)容的注意力統(tǒng)統(tǒng)"吸走"。研究者們給這個(gè)現(xiàn)象起了一個(gè)形象的名字：**注意力沉積（Attention Sink，簡稱AS）**。

這篇綜述系統(tǒng)梳理了超過180篇相關(guān)研究，從三個(gè)維度——如何利用它、如何解釋它、如何消除它——為整個(gè)領(lǐng)域提供了第一份全面的知識地圖。

一、先從頭說起：AI的"注意力"到底是什么

要理解注意力沉積，得先搞清楚AI的注意力是怎么工作的。

以一個(gè)簡單的句子"蘋果很甜"為例。當(dāng)AI處理這個(gè)句子時(shí)，它會讓每個(gè)詞都去"詢問"其他詞："你對我理解自己有多大幫助？"這個(gè)"詢問"的過程，就是注意力計(jì)算。最后，每個(gè)詞會得到一份"分配方案"——比如"甜"這個(gè)詞，會對"蘋果"給予較高的注意力，因?yàn)?是什么甜"這個(gè)信息對理解"甜"至關(guān)重要。

這套機(jī)制有一個(gè)數(shù)學(xué)上的硬性約束：所有注意力權(quán)重加起來必須等于1。就像你有100元零花錢，必須全部花完，不能存下來，也不能透支。這個(gè)約束來自于一個(gè)叫做**Softmax**的數(shù)學(xué)函數(shù)——它把一堆原始分?jǐn)?shù)轉(zhuǎn)換成加和為1的概率分布。

問題就藏在這個(gè)"必須花完"的規(guī)則里。

二、"必須花完"的錢，花到哪里去了

回到那100元零花錢的比喻。假設(shè)某天你逛超市，發(fā)現(xiàn)貨架上真的沒有任何你想買的東西。但規(guī)則規(guī)定你必須花完這100元——你會怎么辦？大概率你會隨便抓一包薯片或者一瓶礦泉水，把錢湊完。

AI的注意力機(jī)制面臨完全相同的困境。當(dāng)一個(gè)詞處理它的上下文時(shí)，如果上下文中沒有任何詞對它"真正有用"，Softmax函數(shù)依然會強(qiáng)迫它把全部100%的注意力分配出去。那多余的注意力去哪了？就堆積到了那些"最無害"的地方——句子開頭的詞、標(biāo)點(diǎn)符號、或者什么語義都沒有的占位符。

這些被堆積了大量多余注意力的詞，就是注意力沉積詞（sink token）。它們有兩個(gè)一致的特征：第一，接收到的注意力遠(yuǎn)超平均水平，有時(shí)高達(dá)普通詞的數(shù)百甚至上千倍；第二，它們本身攜帶的語義信息極少，對AI真正理解內(nèi)容沒有實(shí)質(zhì)貢獻(xiàn)。

在不同類型的模型里，這些"垃圾桶詞"的具體形態(tài)有所不同。在像BERT這樣的雙向語言模型中，充當(dāng)"垃圾桶"的通常是特殊分隔符[SEP]和分類標(biāo)記[CLS]。在像GPT、LLaMA這樣的生成式語言模型中，序列最開始的那個(gè)詞（通常是句子起始標(biāo)記[BOS]）幾乎永遠(yuǎn)是最大的"注意力黑洞"——研究發(fā)現(xiàn)，在LLaMA等主流大模型中，第一個(gè)詞在98%的注意力頭中都是獲得最多注意力的那個(gè)。在視覺Transformer中，充當(dāng)"垃圾桶"的則是圖片背景區(qū)域的圖像塊，那些純粹是天空、墻壁等無信息內(nèi)容的區(qū)域。在多模態(tài)大模型中，文字側(cè)和圖像側(cè)各有自己的"垃圾桶"。

三、這個(gè)"垃圾桶"有多嚴(yán)重

你可能會想：注意力分配稍微不均勻，大不了AI理解稍差一點(diǎn)，有那么嚴(yán)重嗎？

研究者們發(fā)現(xiàn)，后果遠(yuǎn)比你想象的深遠(yuǎn)。

首先是**推理效率**的問題。現(xiàn)代大語言模型處理長文本時(shí)，需要把之前看過的信息存儲在一個(gè)叫做KV緩存的地方（可以理解為AI的工作記憶）。這個(gè)緩存是有上限的——就像你的書桌空間有限，放不下所有的書。因此工程師們需要定期清理，刪掉"不重要"的內(nèi)容。但如果不保留那些注意力沉積詞，AI的表現(xiàn)會急劇惡化，就像把書桌上一個(gè)看似空白但實(shí)際上維持著整個(gè)書桌秩序的"底座"移走一樣，整個(gè)結(jié)構(gòu)會崩塌。

其次是**幻覺問題**。多模態(tài)AI（同時(shí)處理圖文的模型）中，注意力沉積會導(dǎo)致AI把本該關(guān)注圖中重要物體的注意力，揮霍在圖片背景上。結(jié)果是AI"看見"了背景，卻"忽略"了前景中的關(guān)鍵信息，進(jìn)而在描述圖片時(shí)胡說八道。

再者是**量化部署**的困難。為了讓大模型跑在手機(jī)或嵌入式設(shè)備上，工程師需要壓縮模型精度（比如從32位浮點(diǎn)數(shù)壓到8位甚至4位整數(shù)）。注意力沉積詞會產(chǎn)生極端的數(shù)值異?！粋€(gè)詞的某個(gè)特征維度數(shù)值可能高達(dá)幾千，而其他詞的同一維度只有個(gè)位數(shù)。這種極端不均勻?qū)е铝炕`差急劇放大，壓縮后模型性能大幅下降。

最后還有**安全隱患**。由于注意力沉積詞的位置固定、注意力集中，攻擊者可以把惡意觸發(fā)器植入這些位置，讓模型在正常情況下表現(xiàn)正常，但一旦出現(xiàn)特定觸發(fā)詞就"復(fù)活"被刪除的有害知識——這是一種難以察覺的后門攻擊。

四、研究者們是怎么"利用"這個(gè)現(xiàn)象的

這篇綜述把研究者對注意力沉積的利用方式歸納為四大類。

第一類是**保留沉積詞**（Sink Token Preservation）。既然注意力沉積詞是模型穩(wěn)定運(yùn)行的"錨點(diǎn)"，最簡單的辦法就是永遠(yuǎn)別刪它們。以StreamingLLM為例，這個(gè)系統(tǒng)讓AI可以處理無限長的文章，核心技巧就是在每次更新工作記憶時(shí)，保留最開頭那幾個(gè)沉積詞，再加上最近的一個(gè)滑動窗口內(nèi)的內(nèi)容——其余中間部分可以大膽刪除。實(shí)驗(yàn)表明，這樣做性能損失極小，但可以支持理論上無限長的文本流。類似地，在視頻生成領(lǐng)域，研究者發(fā)現(xiàn)保留最初幾幀視頻的記憶作為"全局錨點(diǎn)"，可以讓長達(dá)幾分鐘的視頻保持前后一致的風(fēng)格和內(nèi)容，否則視頻越到后面越像在"另起爐灶"。在量化技術(shù)中，將沉積詞保持在高精度（16位或32位），其余詞壓縮到低精度（2位或4位），既節(jié)省了內(nèi)存，又避免了性能崩塌。

第二類是**注意力重新分配**（Attention Redistribution）。既然沉積詞"搶走"了本該給重要內(nèi)容的注意力，那就把這部分注意力搶回來，重新分配給真正有價(jià)值的詞。這類方法在多模態(tài)AI的幻覺治理上效果顯著。一個(gè)典型例子是VAR方法：它先識別出哪些圖像塊是"垃圾桶"（被過多注意力盯著卻沒有語義的背景塊），然后把這部分注意力重新導(dǎo)向前景中的重要物體。結(jié)果是AI描述圖片時(shí)更準(zhǔn)確，幻覺明顯減少。另一個(gè)有趣的應(yīng)用是ZeroTuning：它發(fā)現(xiàn)調(diào)整第一個(gè)詞（最大的注意力沉積詞）的注意力得分，就像調(diào)節(jié)一個(gè)旋鈕一樣，能間接控制整個(gè)模型的注意力分布。通過這個(gè)單一旋鈕，可以在不重新訓(xùn)練模型的情況下，優(yōu)化模型在各種任務(wù)上的表現(xiàn)。

第三類是**可學(xué)習(xí)的前綴詞**（Learnable Prefix Tokens）。既然自然產(chǎn)生的沉積詞位置不固定、行為難以預(yù)測，為什么不直接人為插入一個(gè)專門設(shè)計(jì)的"吸收詞"？這就是寄存器詞（register token）的概念。在視覺Transformer中，在圖片patch序列前插入幾個(gè)可訓(xùn)練的寄存器詞，訓(xùn)練時(shí)模型會學(xué)會把所有"多余的"注意力都傾倒到這些寄存器詞上，而不是隨機(jī)選擇背景圖像塊。結(jié)果是注意力圖變得干凈，真正的語義結(jié)構(gòu)清晰顯現(xiàn)，模型在各種視覺任務(wù)上的表現(xiàn)都有提升。VGGT這個(gè)用于三維視覺理解的Transformer也采用了同樣的策略。

第四類是**重新利用沉積詞**（Sink Token Repurposing）。注意力沉積詞有一些獨(dú)特的幾何和數(shù)學(xué)性質(zhì)，研究者發(fā)現(xiàn)可以把這些性質(zhì)用于完全不同的目的。比如KeyDiff方法發(fā)現(xiàn)，沉積詞的"鍵向量"（key vector，可以理解為該詞的"身份標(biāo)簽"）在高維空間里處于一個(gè)非常獨(dú)特的位置——它和所有其他詞的平均位置幾乎垂直，余弦相似度接近0。這個(gè)獨(dú)特性質(zhì)可以用來快速識別哪些詞是真正重要的信息詞（和沉積詞越不像的詞，往往越重要），從而高效地管理AI的工作記憶。另一個(gè)應(yīng)用是OrthoRank：它直接用沉積詞作為參考點(diǎn)，通過測量其他詞與沉積詞的"垂直程度"來評估每個(gè)詞的信息含量，垂直程度越高，說明這個(gè)詞和沉積詞越不一樣，也就越有可能包含真正有用的信息。

五、這個(gè)現(xiàn)象到底從哪來：五種解釋理論

理解了注意力沉積的表現(xiàn)和用途，接下來要問一個(gè)更深的問題：這個(gè)現(xiàn)象到底為什么會出現(xiàn)？研究者們從不同角度提出了多種理論，每種都照亮了現(xiàn)象的一個(gè)側(cè)面。

**Softmax局限與無操作理論**是最早也是最直接的解釋。它說的是：Softmax的"總和必須為1"約束，使得當(dāng)AI某個(gè)注意力頭想要"什么都不做"時(shí)，它無法真正做到什么都不做。唯一的替代方案是把所有注意力集中到某個(gè)固定的詞上，同時(shí)把那個(gè)詞的"值向量"（value vector，也就是該詞能貢獻(xiàn)給輸出的信息）壓縮到接近零——這樣注意力雖然集中了，但因?yàn)橹祹缀跏橇?，最終的信息貢獻(xiàn)也接近零。這就實(shí)現(xiàn)了"名義上分配了注意力，實(shí)際上什么也沒貢獻(xiàn)"的無操作行為。

研究者通過一個(gè)關(guān)鍵觀察驗(yàn)證了這個(gè)理論：沉積詞接收到大量注意力，但它們的值向量幅度遠(yuǎn)小于普通詞。換句話說，它們就像是一個(gè)很大的容器里裝著極少的液體——容器看起來很重要，實(shí)際上里面幾乎是空的。當(dāng)研究者修改Softmax函數(shù)，讓注意力權(quán)重不再強(qiáng)制加和為1時(shí)，注意力沉積現(xiàn)象果然大幅減少甚至消失。

**異常值電路理論**提供了更底層的數(shù)值機(jī)制解釋。研究者發(fā)現(xiàn)，在Transformer模型的權(quán)重和激活值中，存在一類系統(tǒng)性的"異常值"——某些特征維度的數(shù)值比其他維度高出幾個(gè)數(shù)量級，就像一群人中有人身高兩米而其他人都在一米七左右。這些異常值通過一條固定的因果鏈制造出注意力沉積：首先，某些MLP層的權(quán)重矩陣中存在異常大的值；這些大值被激活時(shí)，產(chǎn)生異常大的激活值；這些激活值通過殘差連接傳播，使得特定詞在特定特征維度上的表示變得極端突出；這種突出使得這個(gè)詞的"鍵向量"與幾乎所有詞的"查詢向量"都能產(chǎn)生異常高的點(diǎn)積；Softmax于是把大量注意力權(quán)重分配給這個(gè)詞，形成注意力沉積。

在混合專家模型（MoE，一種讓不同"專家"模塊處理不同類型信息的架構(gòu)）中，研究者還發(fā)現(xiàn)了一個(gè)驚人現(xiàn)象：整個(gè)模型中只有極少數(shù)幾個(gè)"超級專家"（Super Experts）——比如在Qwen3-30B-A3B這個(gè)模型的6144個(gè)專家中，只有3個(gè)超級專家——是產(chǎn)生異常激活值的主要來源。刪掉這3個(gè)專家，整個(gè)模型的注意力沉積就會崩潰，模型性能急劇下降。這說明注意力沉積現(xiàn)象是由模型內(nèi)部少數(shù)幾個(gè)關(guān)鍵組件維持的，具有高度集中性。

**隱式注意力偏置理論**從功能角度解釋了注意力沉積存在的意義。這個(gè)理論發(fā)現(xiàn)，注意力沉積詞對所有位置的輸出貢獻(xiàn)幾乎是恒定的、與輸入無關(guān)的——不管你輸入什么句子，沉積詞給每個(gè)詞的貢獻(xiàn)值基本都是同一個(gè)固定向量。換句話說，沉積詞實(shí)際上在扮演一個(gè)"隱式偏置項(xiàng)"的角色，就像神經(jīng)網(wǎng)絡(luò)每個(gè)層都有的偏置參數(shù)，只不過這個(gè)偏置是被隱藏在注意力機(jī)制里、通過一個(gè)詞來實(shí)現(xiàn)的。

驗(yàn)證這個(gè)理論最直接的方式是：給注意力機(jī)制添加顯式的偏置參數(shù)（一個(gè)可訓(xùn)練的向量，不依附于任何詞）。當(dāng)GPT-2在這種修改后的架構(gòu)上重新訓(xùn)練時(shí)，注意力沉積現(xiàn)象完全消失——模型直接使用那個(gè)顯式偏置參數(shù)來實(shí)現(xiàn)相同的功能，不再需要"劫持"某個(gè)詞來充當(dāng)偏置。

**幾何錨定理論**則從高維空間的幾何結(jié)構(gòu)角度提供了解釋。在Transformer內(nèi)部，每個(gè)詞都被表示為一個(gè)高維向量（比如4096維），隨著層數(shù)加深，這些向量會根據(jù)語境不斷更新。研究者發(fā)現(xiàn)，注意力沉積詞的向量非常特殊：它在整個(gè)處理過程中幾乎不變，就像一個(gè)固定在原點(diǎn)的錨點(diǎn)；而其他詞的向量則會逐漸向這個(gè)錨點(diǎn)靠攏，被它"拉著走"。這種幾何上的穩(wěn)定性使得沉積詞成為整個(gè)表示空間的參照系，幫助模型維持內(nèi)部表示的穩(wěn)定性。

除了以上四種主要理論，還有幾種輔助性的解釋視角。其一是**結(jié)構(gòu)偏置**：由于因果掩碼（causal mask，一種確保AI處理當(dāng)前詞時(shí)只能看到它之前的詞而非后面的詞的機(jī)制）的存在，序列最開始的詞是唯一一個(gè)能被所有后續(xù)詞"看見"的詞，這種天然的可見性優(yōu)勢使它成為注意力的天然匯聚點(diǎn)。其二是**反過度混合理論**：注意力沉積詞通過"吸走"多余的注意力，防止了不同詞的表示在深層網(wǎng)絡(luò)中互相混淆到難以區(qū)分的程度——沉積詞是一個(gè)信息"減壓閥"，維持了表示的多樣性。其三是**主動-休眠注意力頭理論**：模型訓(xùn)練過程中，各個(gè)注意力頭會逐漸分化，一部分頭專門負(fù)責(zé)接收注意力（主動頭），另一部分頭則主要把注意力傾倒給沉積詞（休眠頭），這種分工是在訓(xùn)練中通過梯度反饋?zhàn)匀谎莼鰜淼摹?/p>

這些理論并非相互排斥，而是從不同尺度、不同角度描述同一個(gè)現(xiàn)象的不同側(cè)面。

六、如何徹底消除這個(gè)"垃圾桶"

如果注意力沉積是個(gè)問題，能不能從根源上消除它？研究者提出了四類策略。

第一類是**門控注意力機(jī)制**（Gated Attention Mechanisms）。核心思路是：既然Softmax強(qiáng)迫注意力頭"不得不分配注意力"，那就給注意力頭加一個(gè)"總閘門"——一個(gè)可學(xué)習(xí)的開關(guān)，可以直接把某個(gè)注意力頭的整體輸出乘以一個(gè)接近零的系數(shù)，從而實(shí)現(xiàn)真正的"什么都不做"，而無需依賴注意力沉積詞來實(shí)現(xiàn)這個(gè)效果。

最簡單的形式是給每個(gè)注意力頭加一個(gè)標(biāo)量門控值：輸出 = sigmoid(門控參數(shù)) × 注意力輸出。當(dāng)模型學(xué)到某個(gè)注意力頭在某種情境下不需要更新信息時(shí)，門控值會收縮到接近零，整個(gè)頭的輸出就被抑制了。這樣就徹底打破了注意力必須分配給某個(gè)詞的循環(huán)。

實(shí)驗(yàn)表明，這個(gè)改動效果相當(dāng)顯著。在超過30種變體的系統(tǒng)性對比實(shí)驗(yàn)中，在標(biāo)度點(diǎn)積注意力（SDPA）之后加門控是效果最好的位置，能把訓(xùn)練損失降低，減少訓(xùn)練時(shí)的損失尖峰（一種訓(xùn)練不穩(wěn)定的表現(xiàn)），并把第一個(gè)詞獲得的平均注意力從46.7%壓低到4.8%。這個(gè)設(shè)計(jì)已被Qwen3等產(chǎn)品級模型采用。

另一個(gè)變體是值狀態(tài)門控注意力（VGA），它把門控加在值向量上而非輸出上，可以從根源上切斷"注意力高但貢獻(xiàn)零"的循環(huán)。

第二類是**修改Softmax函數(shù)**（Modified Softmax Functions）。這條路更激進(jìn)——直接改變Softmax的數(shù)學(xué)性質(zhì)，讓注意力權(quán)重不再強(qiáng)制加和為1。

裁剪Softmax（Clipped Softmax）把正常Softmax的輸出范圍從[0,1]擴(kuò)展后再裁剪，使得模型在計(jì)算時(shí)可以得到精確的零值，不需要靠極端的logit值來壓制不想關(guān)注的詞。Softmax-1在分母上加了一個(gè)常數(shù)1，允許所有注意力權(quán)重之和小于1，給"注意力不需要花完"留出了空間。在GPT-2規(guī)模的模型上，這個(gè)改動把第一個(gè)詞獲得的注意力從65%降到了3.3%，同時(shí)把激活值的"峰度"（一種衡量異常值程度的指標(biāo)）從1657降到了3.1。

Softpick則更徹底：它先算出普通Softmax值，然后減去一個(gè)閾值并做ReLU截?cái)?，允許輸出精確為零——這意味著模型可以完全忽略某些詞，而不必給它們?nèi)魏巫⒁饬?。?.4億參數(shù)的模型上，注意力沉積率從有到無，完全降到0%。

Sigmoid注意力則徹底放棄了Softmax，對每個(gè)詞的得分獨(dú)立使用sigmoid函數(shù)，詞與詞之間完全沒有"競爭"關(guān)系，自然也就沒有Softmax強(qiáng)制分配帶來的問題。

第三類是**可學(xué)習(xí)的注意力偏置**（Learnable Attention Bias）。既然沉積詞在充當(dāng)"隱式偏置"，那就直接把這個(gè)偏置明確化、參數(shù)化，讓模型直接學(xué)習(xí)一個(gè)與詞無關(guān)的偏置向量。

最參數(shù)高效的版本是在Softmax的分母里加一個(gè)可學(xué)習(xí)標(biāo)量b，形成一個(gè)"虛擬沉積"——超出正常詞上限的注意力會被這個(gè)虛擬位置吸收，而不是強(qiáng)加給某個(gè)真實(shí)詞。MiMo-V2和GPT-OSS等產(chǎn)品級模型都采用了這種設(shè)計(jì)。稍復(fù)雜的版本是直接在鍵矩陣和值矩陣上拼接一組可學(xué)習(xí)的偏置向量，實(shí)驗(yàn)證明加上這個(gè)顯式偏置后，注意力沉積和大規(guī)模激活值都會消失。

第四類是**預(yù)訓(xùn)練干預(yù)**（Pre-training Interventions）。這條路不修改模型結(jié)構(gòu)，而是通過改變訓(xùn)練過程來從源頭防止注意力沉積的形成。

研究發(fā)現(xiàn)，標(biāo)準(zhǔn)的Adam優(yōu)化器（大多數(shù)模型訓(xùn)練使用的算法）有一個(gè)隱藏的副作用：它傾向于在權(quán)重矩陣中"偏愛"某些特定方向，使得這些方向的參數(shù)被過度更新，最終產(chǎn)生異常大的權(quán)重值，進(jìn)而引發(fā)激活值異常和注意力沉積。Muon優(yōu)化器通過正交變換預(yù)處理梯度，消除了這種方向偏好，從而大幅減少異常激活值。

在損失函數(shù)層面，直接添加一個(gè)懲罰激活值尾部極端值的正則項(xiàng)，可以將激活值的最大值從超過10000壓縮到20以下，同時(shí)讓原本在FP8精度下會災(zāi)難性失效的訓(xùn)練（因?yàn)镕P8能表示的數(shù)值范圍非常有限，裝不下這么大的異常值）變得可行，訓(xùn)練吞吐量還提升了36%。

更系統(tǒng)性的方案是"異常值安全預(yù)訓(xùn)練框架"（OSP），它組合了三個(gè)互補(bǔ)的改動：使用Muon優(yōu)化器消除權(quán)重中的特權(quán)方向；把RMSNorm中每個(gè)通道獨(dú)立的縮放系數(shù)改為整層統(tǒng)一的單一系數(shù)，防止某些通道被過度放大；在嵌入層后加一個(gè)可學(xué)習(xí)的投影矩陣，重新分配激活值幅度。在14億參數(shù)的模型上用一萬億token訓(xùn)練驗(yàn)證，產(chǎn)生了迄今為止第一個(gè)沒有極端激活值異常的產(chǎn)品級大模型。

七、這個(gè)研究對我們的生活意味著什么

這篇綜述不只是一份學(xué)術(shù)清單，它實(shí)際上描繪了AI工程實(shí)踐的一張路線圖。

對于每天使用AI助手的普通用戶來說，這些研究直接影響到AI回答是否準(zhǔn)確、是否會胡說八道（即幻覺問題），以及AI能否在手機(jī)等資源有限的設(shè)備上流暢運(yùn)行。注意力沉積的治理，是讓AI從"實(shí)驗(yàn)室玩具"變成"可靠助手"的一道必經(jīng)關(guān)口。

對于AI應(yīng)用開發(fā)者來說，這篇綜述提供了一份清晰的決策指南：如果你在做推理加速，可以用保留沉積詞的方式壓縮KV緩存而不損失性能；如果你在治理多模態(tài)AI的幻覺，可以通過注意力重新分配把多余注意力導(dǎo)向真正重要的圖像區(qū)域；如果你在訓(xùn)練新模型，門控注意力或修改Softmax是消除激活值異常、支持低精度部署的有效選擇。

對于AI研究者來說，這篇綜述還指出了幾個(gè)尚未解決的核心問題。如何在不重新訓(xùn)練整個(gè)模型的前提下，把注意力沉積消除技術(shù)引入已有的大模型（比如通過LoRA微調(diào)或適配器方法），是最迫切的工程挑戰(zhàn)之一。如何建立標(biāo)準(zhǔn)化的評測基準(zhǔn)，讓不同的消除方法可以在統(tǒng)一尺度下公平比較，也是推動領(lǐng)域進(jìn)步的重要基礎(chǔ)設(shè)施。

說到底，注意力沉積這件事告訴我們一個(gè)關(guān)于AI的深刻事實(shí)：AI的很多行為背后，隱藏著簡單但強(qiáng)大的數(shù)學(xué)約束。理解這些約束，才能更有針對性地改進(jìn)AI、信任AI，乃至預(yù)測AI在極端情況下會出什么岔子。這篇綜述走過了這個(gè)領(lǐng)域三年的發(fā)展歷程，把散落各處的拼圖整理成一幅完整的圖景。

有興趣深入了解的讀者，可以通過arXiv編號2604.10098獲取完整論文，或者訪問論文團(tuán)隊(duì)在GitHub上維護(hù)的持續(xù)更新的論文列表：https://github.com/ZunhaiSu/Awesome-Attention-Sink。

Q&A

Q1：注意力沉積（Attention Sink）是什么？

A：注意力沉積是指Transformer模型中，大量注意力權(quán)重被集中分配到某些語義信息極少的詞上（如句子開頭的標(biāo)記、標(biāo)點(diǎn)符號）的現(xiàn)象。這是由于Softmax函數(shù)強(qiáng)制讓注意力權(quán)重之和為1，當(dāng)沒有真正相關(guān)的內(nèi)容可以關(guān)注時(shí)，多余的注意力就被"傾倒"到這些固定位置，就像必須把預(yù)算花完卻找不到值得買的東西，只能隨便買些無用物品。

Q2：注意力沉積會導(dǎo)致AI出現(xiàn)哪些具體問題？

A：注意力沉積會帶來多方面的問題。在多模態(tài)AI中，它會導(dǎo)致模型忽略圖片中的關(guān)鍵物體，把注意力浪費(fèi)在背景上，從而產(chǎn)生幻覺（描述圖中沒有的東西）。在模型壓縮時(shí)，沉積詞產(chǎn)生的極端數(shù)值異常會讓低精度量化失敗，導(dǎo)致模型性能崩潰。在安全層面，攻擊者可以利用沉積詞的固定位置植入后門觸發(fā)器，使模型在特定條件下恢復(fù)被刪除的有害知識。

Q3：消除注意力沉積有哪些主要方法？

A：目前主要有四類方法。第一是門控注意力機(jī)制，給注意力頭加一個(gè)可學(xué)習(xí)的開關(guān)，讓它可以直接抑制整個(gè)輸出而無需依賴沉積詞，Qwen3等產(chǎn)品模型已采用此方案。第二是修改Softmax函數(shù)，打破注意力權(quán)重必須加和為1的約束，讓模型可以選擇真正"什么都不關(guān)注"。第三是添加可學(xué)習(xí)的注意力偏置參數(shù)，用顯式的參數(shù)替代沉積詞充當(dāng)?shù)碾[式偏置功能。第四是預(yù)訓(xùn)練干預(yù)，通過改變優(yōu)化器或損失函數(shù)，在訓(xùn)練階段就防止異常激活值和沉積現(xiàn)象的形成。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.