国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華大學(xué)等機(jī)構(gòu)聯(lián)合揭秘Transformer的"注意力陷阱"問題

0
分享至


這項(xiàng)由清華大學(xué)、香港大學(xué)、美團(tuán)LongCat團(tuán)隊(duì)、廈門大學(xué)、密歇根大學(xué)和俄亥俄州立大學(xué)聯(lián)合開展的研究,以預(yù)印本形式發(fā)布于2026年4月,論文編號為arXiv:2604.10098。這是該領(lǐng)域首篇系統(tǒng)性綜述,感興趣的讀者可通過上述編號查詢完整論文。

每當(dāng)你使用ChatGPT、文心一言或其他AI助手時(shí),背后都有一套叫做"Transformer"的架構(gòu)在驅(qū)動。這套架構(gòu)的核心能力,是讓AI能夠"關(guān)注"輸入信息中最重要的部分——就像你讀一篇文章時(shí),眼睛會自然停留在關(guān)鍵詞和核心句子上,而不是把每個(gè)字都盯同樣長的時(shí)間。這種"選擇性關(guān)注"的能力,學(xué)術(shù)上叫做"注意力機(jī)制"(Attention Mechanism)。

然而,有一個(gè)長期被忽視的怪現(xiàn)象潛伏在這套機(jī)制里:AI有時(shí)會把大量的注意力集中在某些毫無實(shí)質(zhì)意義的詞上——比如句子開頭的感嘆詞、標(biāo)點(diǎn)符號,甚至是一個(gè)什么語義都沒有的占位符。這些詞就像黑洞一樣,把本該分配給真正重要內(nèi)容的注意力統(tǒng)統(tǒng)"吸走"。研究者們給這個(gè)現(xiàn)象起了一個(gè)形象的名字:**注意力沉積(Attention Sink,簡稱AS)**。

這篇綜述系統(tǒng)梳理了超過180篇相關(guān)研究,從三個(gè)維度——如何利用它、如何解釋它、如何消除它——為整個(gè)領(lǐng)域提供了第一份全面的知識地圖。

一、先從頭說起:AI的"注意力"到底是什么

要理解注意力沉積,得先搞清楚AI的注意力是怎么工作的。

以一個(gè)簡單的句子"蘋果很甜"為例。當(dāng)AI處理這個(gè)句子時(shí),它會讓每個(gè)詞都去"詢問"其他詞:"你對我理解自己有多大幫助?"這個(gè)"詢問"的過程,就是注意力計(jì)算。最后,每個(gè)詞會得到一份"分配方案"——比如"甜"這個(gè)詞,會對"蘋果"給予較高的注意力,因?yàn)?是什么甜"這個(gè)信息對理解"甜"至關(guān)重要。

這套機(jī)制有一個(gè)數(shù)學(xué)上的硬性約束:所有注意力權(quán)重加起來必須等于1。就像你有100元零花錢,必須全部花完,不能存下來,也不能透支。這個(gè)約束來自于一個(gè)叫做**Softmax**的數(shù)學(xué)函數(shù)——它把一堆原始分?jǐn)?shù)轉(zhuǎn)換成加和為1的概率分布。

問題就藏在這個(gè)"必須花完"的規(guī)則里。

二、"必須花完"的錢,花到哪里去了

回到那100元零花錢的比喻。假設(shè)某天你逛超市,發(fā)現(xiàn)貨架上真的沒有任何你想買的東西。但規(guī)則規(guī)定你必須花完這100元——你會怎么辦?大概率你會隨便抓一包薯片或者一瓶礦泉水,把錢湊完。

AI的注意力機(jī)制面臨完全相同的困境。當(dāng)一個(gè)詞處理它的上下文時(shí),如果上下文中沒有任何詞對它"真正有用",Softmax函數(shù)依然會強(qiáng)迫它把全部100%的注意力分配出去。那多余的注意力去哪了?就堆積到了那些"最無害"的地方——句子開頭的詞、標(biāo)點(diǎn)符號、或者什么語義都沒有的占位符。

這些被堆積了大量多余注意力的詞,就是注意力沉積詞(sink token)。它們有兩個(gè)一致的特征:第一,接收到的注意力遠(yuǎn)超平均水平,有時(shí)高達(dá)普通詞的數(shù)百甚至上千倍;第二,它們本身攜帶的語義信息極少,對AI真正理解內(nèi)容沒有實(shí)質(zhì)貢獻(xiàn)。

在不同類型的模型里,這些"垃圾桶詞"的具體形態(tài)有所不同。在像BERT這樣的雙向語言模型中,充當(dāng)"垃圾桶"的通常是特殊分隔符[SEP]和分類標(biāo)記[CLS]。在像GPT、LLaMA這樣的生成式語言模型中,序列最開始的那個(gè)詞(通常是句子起始標(biāo)記[BOS])幾乎永遠(yuǎn)是最大的"注意力黑洞"——研究發(fā)現(xiàn),在LLaMA等主流大模型中,第一個(gè)詞在98%的注意力頭中都是獲得最多注意力的那個(gè)。在視覺Transformer中,充當(dāng)"垃圾桶"的則是圖片背景區(qū)域的圖像塊,那些純粹是天空、墻壁等無信息內(nèi)容的區(qū)域。在多模態(tài)大模型中,文字側(cè)和圖像側(cè)各有自己的"垃圾桶"。

三、這個(gè)"垃圾桶"有多嚴(yán)重

你可能會想:注意力分配稍微不均勻,大不了AI理解稍差一點(diǎn),有那么嚴(yán)重嗎?

研究者們發(fā)現(xiàn),后果遠(yuǎn)比你想象的深遠(yuǎn)。

首先是**推理效率**的問題。現(xiàn)代大語言模型處理長文本時(shí),需要把之前看過的信息存儲在一個(gè)叫做KV緩存的地方(可以理解為AI的工作記憶)。這個(gè)緩存是有上限的——就像你的書桌空間有限,放不下所有的書。因此工程師們需要定期清理,刪掉"不重要"的內(nèi)容。但如果不保留那些注意力沉積詞,AI的表現(xiàn)會急劇惡化,就像把書桌上一個(gè)看似空白但實(shí)際上維持著整個(gè)書桌秩序的"底座"移走一樣,整個(gè)結(jié)構(gòu)會崩塌。

其次是**幻覺問題**。多模態(tài)AI(同時(shí)處理圖文的模型)中,注意力沉積會導(dǎo)致AI把本該關(guān)注圖中重要物體的注意力,揮霍在圖片背景上。結(jié)果是AI"看見"了背景,卻"忽略"了前景中的關(guān)鍵信息,進(jìn)而在描述圖片時(shí)胡說八道。

再者是**量化部署**的困難。為了讓大模型跑在手機(jī)或嵌入式設(shè)備上,工程師需要壓縮模型精度(比如從32位浮點(diǎn)數(shù)壓到8位甚至4位整數(shù))。注意力沉積詞會產(chǎn)生極端的數(shù)值異?!粋€(gè)詞的某個(gè)特征維度數(shù)值可能高達(dá)幾千,而其他詞的同一維度只有個(gè)位數(shù)。這種極端不均勻?qū)е铝炕`差急劇放大,壓縮后模型性能大幅下降。

最后還有**安全隱患**。由于注意力沉積詞的位置固定、注意力集中,攻擊者可以把惡意觸發(fā)器植入這些位置,讓模型在正常情況下表現(xiàn)正常,但一旦出現(xiàn)特定觸發(fā)詞就"復(fù)活"被刪除的有害知識——這是一種難以察覺的后門攻擊。

四、研究者們是怎么"利用"這個(gè)現(xiàn)象的

這篇綜述把研究者對注意力沉積的利用方式歸納為四大類。

第一類是**保留沉積詞**(Sink Token Preservation)。既然注意力沉積詞是模型穩(wěn)定運(yùn)行的"錨點(diǎn)",最簡單的辦法就是永遠(yuǎn)別刪它們。以StreamingLLM為例,這個(gè)系統(tǒng)讓AI可以處理無限長的文章,核心技巧就是在每次更新工作記憶時(shí),保留最開頭那幾個(gè)沉積詞,再加上最近的一個(gè)滑動窗口內(nèi)的內(nèi)容——其余中間部分可以大膽刪除。實(shí)驗(yàn)表明,這樣做性能損失極小,但可以支持理論上無限長的文本流。類似地,在視頻生成領(lǐng)域,研究者發(fā)現(xiàn)保留最初幾幀視頻的記憶作為"全局錨點(diǎn)",可以讓長達(dá)幾分鐘的視頻保持前后一致的風(fēng)格和內(nèi)容,否則視頻越到后面越像在"另起爐灶"。在量化技術(shù)中,將沉積詞保持在高精度(16位或32位),其余詞壓縮到低精度(2位或4位),既節(jié)省了內(nèi)存,又避免了性能崩塌。

第二類是**注意力重新分配**(Attention Redistribution)。既然沉積詞"搶走"了本該給重要內(nèi)容的注意力,那就把這部分注意力搶回來,重新分配給真正有價(jià)值的詞。這類方法在多模態(tài)AI的幻覺治理上效果顯著。一個(gè)典型例子是VAR方法:它先識別出哪些圖像塊是"垃圾桶"(被過多注意力盯著卻沒有語義的背景塊),然后把這部分注意力重新導(dǎo)向前景中的重要物體。結(jié)果是AI描述圖片時(shí)更準(zhǔn)確,幻覺明顯減少。另一個(gè)有趣的應(yīng)用是ZeroTuning:它發(fā)現(xiàn)調(diào)整第一個(gè)詞(最大的注意力沉積詞)的注意力得分,就像調(diào)節(jié)一個(gè)旋鈕一樣,能間接控制整個(gè)模型的注意力分布。通過這個(gè)單一旋鈕,可以在不重新訓(xùn)練模型的情況下,優(yōu)化模型在各種任務(wù)上的表現(xiàn)。

第三類是**可學(xué)習(xí)的前綴詞**(Learnable Prefix Tokens)。既然自然產(chǎn)生的沉積詞位置不固定、行為難以預(yù)測,為什么不直接人為插入一個(gè)專門設(shè)計(jì)的"吸收詞"?這就是寄存器詞(register token)的概念。在視覺Transformer中,在圖片patch序列前插入幾個(gè)可訓(xùn)練的寄存器詞,訓(xùn)練時(shí)模型會學(xué)會把所有"多余的"注意力都傾倒到這些寄存器詞上,而不是隨機(jī)選擇背景圖像塊。結(jié)果是注意力圖變得干凈,真正的語義結(jié)構(gòu)清晰顯現(xiàn),模型在各種視覺任務(wù)上的表現(xiàn)都有提升。VGGT這個(gè)用于三維視覺理解的Transformer也采用了同樣的策略。

第四類是**重新利用沉積詞**(Sink Token Repurposing)。注意力沉積詞有一些獨(dú)特的幾何和數(shù)學(xué)性質(zhì),研究者發(fā)現(xiàn)可以把這些性質(zhì)用于完全不同的目的。比如KeyDiff方法發(fā)現(xiàn),沉積詞的"鍵向量"(key vector,可以理解為該詞的"身份標(biāo)簽")在高維空間里處于一個(gè)非常獨(dú)特的位置——它和所有其他詞的平均位置幾乎垂直,余弦相似度接近0。這個(gè)獨(dú)特性質(zhì)可以用來快速識別哪些詞是真正重要的信息詞(和沉積詞越不像的詞,往往越重要),從而高效地管理AI的工作記憶。另一個(gè)應(yīng)用是OrthoRank:它直接用沉積詞作為參考點(diǎn),通過測量其他詞與沉積詞的"垂直程度"來評估每個(gè)詞的信息含量,垂直程度越高,說明這個(gè)詞和沉積詞越不一樣,也就越有可能包含真正有用的信息。

五、這個(gè)現(xiàn)象到底從哪來:五種解釋理論

理解了注意力沉積的表現(xiàn)和用途,接下來要問一個(gè)更深的問題:這個(gè)現(xiàn)象到底為什么會出現(xiàn)?研究者們從不同角度提出了多種理論,每種都照亮了現(xiàn)象的一個(gè)側(cè)面。

**Softmax局限與無操作理論**是最早也是最直接的解釋。它說的是:Softmax的"總和必須為1"約束,使得當(dāng)AI某個(gè)注意力頭想要"什么都不做"時(shí),它無法真正做到什么都不做。唯一的替代方案是把所有注意力集中到某個(gè)固定的詞上,同時(shí)把那個(gè)詞的"值向量"(value vector,也就是該詞能貢獻(xiàn)給輸出的信息)壓縮到接近零——這樣注意力雖然集中了,但因?yàn)橹祹缀跏橇?,最終的信息貢獻(xiàn)也接近零。這就實(shí)現(xiàn)了"名義上分配了注意力,實(shí)際上什么也沒貢獻(xiàn)"的無操作行為。

研究者通過一個(gè)關(guān)鍵觀察驗(yàn)證了這個(gè)理論:沉積詞接收到大量注意力,但它們的值向量幅度遠(yuǎn)小于普通詞。換句話說,它們就像是一個(gè)很大的容器里裝著極少的液體——容器看起來很重要,實(shí)際上里面幾乎是空的。當(dāng)研究者修改Softmax函數(shù),讓注意力權(quán)重不再強(qiáng)制加和為1時(shí),注意力沉積現(xiàn)象果然大幅減少甚至消失。

**異常值電路理論**提供了更底層的數(shù)值機(jī)制解釋。研究者發(fā)現(xiàn),在Transformer模型的權(quán)重和激活值中,存在一類系統(tǒng)性的"異常值"——某些特征維度的數(shù)值比其他維度高出幾個(gè)數(shù)量級,就像一群人中有人身高兩米而其他人都在一米七左右。這些異常值通過一條固定的因果鏈制造出注意力沉積:首先,某些MLP層的權(quán)重矩陣中存在異常大的值;這些大值被激活時(shí),產(chǎn)生異常大的激活值;這些激活值通過殘差連接傳播,使得特定詞在特定特征維度上的表示變得極端突出;這種突出使得這個(gè)詞的"鍵向量"與幾乎所有詞的"查詢向量"都能產(chǎn)生異常高的點(diǎn)積;Softmax于是把大量注意力權(quán)重分配給這個(gè)詞,形成注意力沉積。

在混合專家模型(MoE,一種讓不同"專家"模塊處理不同類型信息的架構(gòu))中,研究者還發(fā)現(xiàn)了一個(gè)驚人現(xiàn)象:整個(gè)模型中只有極少數(shù)幾個(gè)"超級專家"(Super Experts)——比如在Qwen3-30B-A3B這個(gè)模型的6144個(gè)專家中,只有3個(gè)超級專家——是產(chǎn)生異常激活值的主要來源。刪掉這3個(gè)專家,整個(gè)模型的注意力沉積就會崩潰,模型性能急劇下降。這說明注意力沉積現(xiàn)象是由模型內(nèi)部少數(shù)幾個(gè)關(guān)鍵組件維持的,具有高度集中性。

**隱式注意力偏置理論**從功能角度解釋了注意力沉積存在的意義。這個(gè)理論發(fā)現(xiàn),注意力沉積詞對所有位置的輸出貢獻(xiàn)幾乎是恒定的、與輸入無關(guān)的——不管你輸入什么句子,沉積詞給每個(gè)詞的貢獻(xiàn)值基本都是同一個(gè)固定向量。換句話說,沉積詞實(shí)際上在扮演一個(gè)"隱式偏置項(xiàng)"的角色,就像神經(jīng)網(wǎng)絡(luò)每個(gè)層都有的偏置參數(shù),只不過這個(gè)偏置是被隱藏在注意力機(jī)制里、通過一個(gè)詞來實(shí)現(xiàn)的。

驗(yàn)證這個(gè)理論最直接的方式是:給注意力機(jī)制添加顯式的偏置參數(shù)(一個(gè)可訓(xùn)練的向量,不依附于任何詞)。當(dāng)GPT-2在這種修改后的架構(gòu)上重新訓(xùn)練時(shí),注意力沉積現(xiàn)象完全消失——模型直接使用那個(gè)顯式偏置參數(shù)來實(shí)現(xiàn)相同的功能,不再需要"劫持"某個(gè)詞來充當(dāng)偏置。

**幾何錨定理論**則從高維空間的幾何結(jié)構(gòu)角度提供了解釋。在Transformer內(nèi)部,每個(gè)詞都被表示為一個(gè)高維向量(比如4096維),隨著層數(shù)加深,這些向量會根據(jù)語境不斷更新。研究者發(fā)現(xiàn),注意力沉積詞的向量非常特殊:它在整個(gè)處理過程中幾乎不變,就像一個(gè)固定在原點(diǎn)的錨點(diǎn);而其他詞的向量則會逐漸向這個(gè)錨點(diǎn)靠攏,被它"拉著走"。這種幾何上的穩(wěn)定性使得沉積詞成為整個(gè)表示空間的參照系,幫助模型維持內(nèi)部表示的穩(wěn)定性。

除了以上四種主要理論,還有幾種輔助性的解釋視角。其一是**結(jié)構(gòu)偏置**:由于因果掩碼(causal mask,一種確保AI處理當(dāng)前詞時(shí)只能看到它之前的詞而非后面的詞的機(jī)制)的存在,序列最開始的詞是唯一一個(gè)能被所有后續(xù)詞"看見"的詞,這種天然的可見性優(yōu)勢使它成為注意力的天然匯聚點(diǎn)。其二是**反過度混合理論**:注意力沉積詞通過"吸走"多余的注意力,防止了不同詞的表示在深層網(wǎng)絡(luò)中互相混淆到難以區(qū)分的程度——沉積詞是一個(gè)信息"減壓閥",維持了表示的多樣性。其三是**主動-休眠注意力頭理論**:模型訓(xùn)練過程中,各個(gè)注意力頭會逐漸分化,一部分頭專門負(fù)責(zé)接收注意力(主動頭),另一部分頭則主要把注意力傾倒給沉積詞(休眠頭),這種分工是在訓(xùn)練中通過梯度反饋?zhàn)匀谎莼鰜淼摹?/p>

這些理論并非相互排斥,而是從不同尺度、不同角度描述同一個(gè)現(xiàn)象的不同側(cè)面。

六、如何徹底消除這個(gè)"垃圾桶"

如果注意力沉積是個(gè)問題,能不能從根源上消除它?研究者提出了四類策略。

第一類是**門控注意力機(jī)制**(Gated Attention Mechanisms)。核心思路是:既然Softmax強(qiáng)迫注意力頭"不得不分配注意力",那就給注意力頭加一個(gè)"總閘門"——一個(gè)可學(xué)習(xí)的開關(guān),可以直接把某個(gè)注意力頭的整體輸出乘以一個(gè)接近零的系數(shù),從而實(shí)現(xiàn)真正的"什么都不做",而無需依賴注意力沉積詞來實(shí)現(xiàn)這個(gè)效果。

最簡單的形式是給每個(gè)注意力頭加一個(gè)標(biāo)量門控值:輸出 = sigmoid(門控參數(shù)) × 注意力輸出。當(dāng)模型學(xué)到某個(gè)注意力頭在某種情境下不需要更新信息時(shí),門控值會收縮到接近零,整個(gè)頭的輸出就被抑制了。這樣就徹底打破了注意力必須分配給某個(gè)詞的循環(huán)。

實(shí)驗(yàn)表明,這個(gè)改動效果相當(dāng)顯著。在超過30種變體的系統(tǒng)性對比實(shí)驗(yàn)中,在標(biāo)度點(diǎn)積注意力(SDPA)之后加門控是效果最好的位置,能把訓(xùn)練損失降低,減少訓(xùn)練時(shí)的損失尖峰(一種訓(xùn)練不穩(wěn)定的表現(xiàn)),并把第一個(gè)詞獲得的平均注意力從46.7%壓低到4.8%。這個(gè)設(shè)計(jì)已被Qwen3等產(chǎn)品級模型采用。

另一個(gè)變體是值狀態(tài)門控注意力(VGA),它把門控加在值向量上而非輸出上,可以從根源上切斷"注意力高但貢獻(xiàn)零"的循環(huán)。

第二類是**修改Softmax函數(shù)**(Modified Softmax Functions)。這條路更激進(jìn)——直接改變Softmax的數(shù)學(xué)性質(zhì),讓注意力權(quán)重不再強(qiáng)制加和為1。

裁剪Softmax(Clipped Softmax)把正常Softmax的輸出范圍從[0,1]擴(kuò)展后再裁剪,使得模型在計(jì)算時(shí)可以得到精確的零值,不需要靠極端的logit值來壓制不想關(guān)注的詞。Softmax-1在分母上加了一個(gè)常數(shù)1,允許所有注意力權(quán)重之和小于1,給"注意力不需要花完"留出了空間。在GPT-2規(guī)模的模型上,這個(gè)改動把第一個(gè)詞獲得的注意力從65%降到了3.3%,同時(shí)把激活值的"峰度"(一種衡量異常值程度的指標(biāo))從1657降到了3.1。

Softpick則更徹底:它先算出普通Softmax值,然后減去一個(gè)閾值并做ReLU截?cái)?,允許輸出精確為零——這意味著模型可以完全忽略某些詞,而不必給它們?nèi)魏巫⒁饬?。?.4億參數(shù)的模型上,注意力沉積率從有到無,完全降到0%。

Sigmoid注意力則徹底放棄了Softmax,對每個(gè)詞的得分獨(dú)立使用sigmoid函數(shù),詞與詞之間完全沒有"競爭"關(guān)系,自然也就沒有Softmax強(qiáng)制分配帶來的問題。

第三類是**可學(xué)習(xí)的注意力偏置**(Learnable Attention Bias)。既然沉積詞在充當(dāng)"隱式偏置",那就直接把這個(gè)偏置明確化、參數(shù)化,讓模型直接學(xué)習(xí)一個(gè)與詞無關(guān)的偏置向量。

最參數(shù)高效的版本是在Softmax的分母里加一個(gè)可學(xué)習(xí)標(biāo)量b,形成一個(gè)"虛擬沉積"——超出正常詞上限的注意力會被這個(gè)虛擬位置吸收,而不是強(qiáng)加給某個(gè)真實(shí)詞。MiMo-V2和GPT-OSS等產(chǎn)品級模型都采用了這種設(shè)計(jì)。稍復(fù)雜的版本是直接在鍵矩陣和值矩陣上拼接一組可學(xué)習(xí)的偏置向量,實(shí)驗(yàn)證明加上這個(gè)顯式偏置后,注意力沉積和大規(guī)模激活值都會消失。

第四類是**預(yù)訓(xùn)練干預(yù)**(Pre-training Interventions)。這條路不修改模型結(jié)構(gòu),而是通過改變訓(xùn)練過程來從源頭防止注意力沉積的形成。

研究發(fā)現(xiàn),標(biāo)準(zhǔn)的Adam優(yōu)化器(大多數(shù)模型訓(xùn)練使用的算法)有一個(gè)隱藏的副作用:它傾向于在權(quán)重矩陣中"偏愛"某些特定方向,使得這些方向的參數(shù)被過度更新,最終產(chǎn)生異常大的權(quán)重值,進(jìn)而引發(fā)激活值異常和注意力沉積。Muon優(yōu)化器通過正交變換預(yù)處理梯度,消除了這種方向偏好,從而大幅減少異常激活值。

在損失函數(shù)層面,直接添加一個(gè)懲罰激活值尾部極端值的正則項(xiàng),可以將激活值的最大值從超過10000壓縮到20以下,同時(shí)讓原本在FP8精度下會災(zāi)難性失效的訓(xùn)練(因?yàn)镕P8能表示的數(shù)值范圍非常有限,裝不下這么大的異常值)變得可行,訓(xùn)練吞吐量還提升了36%。

更系統(tǒng)性的方案是"異常值安全預(yù)訓(xùn)練框架"(OSP),它組合了三個(gè)互補(bǔ)的改動:使用Muon優(yōu)化器消除權(quán)重中的特權(quán)方向;把RMSNorm中每個(gè)通道獨(dú)立的縮放系數(shù)改為整層統(tǒng)一的單一系數(shù),防止某些通道被過度放大;在嵌入層后加一個(gè)可學(xué)習(xí)的投影矩陣,重新分配激活值幅度。在14億參數(shù)的模型上用一萬億token訓(xùn)練驗(yàn)證,產(chǎn)生了迄今為止第一個(gè)沒有極端激活值異常的產(chǎn)品級大模型。

七、這個(gè)研究對我們的生活意味著什么

這篇綜述不只是一份學(xué)術(shù)清單,它實(shí)際上描繪了AI工程實(shí)踐的一張路線圖。

對于每天使用AI助手的普通用戶來說,這些研究直接影響到AI回答是否準(zhǔn)確、是否會胡說八道(即幻覺問題),以及AI能否在手機(jī)等資源有限的設(shè)備上流暢運(yùn)行。注意力沉積的治理,是讓AI從"實(shí)驗(yàn)室玩具"變成"可靠助手"的一道必經(jīng)關(guān)口。

對于AI應(yīng)用開發(fā)者來說,這篇綜述提供了一份清晰的決策指南:如果你在做推理加速,可以用保留沉積詞的方式壓縮KV緩存而不損失性能;如果你在治理多模態(tài)AI的幻覺,可以通過注意力重新分配把多余注意力導(dǎo)向真正重要的圖像區(qū)域;如果你在訓(xùn)練新模型,門控注意力或修改Softmax是消除激活值異常、支持低精度部署的有效選擇。

對于AI研究者來說,這篇綜述還指出了幾個(gè)尚未解決的核心問題。如何在不重新訓(xùn)練整個(gè)模型的前提下,把注意力沉積消除技術(shù)引入已有的大模型(比如通過LoRA微調(diào)或適配器方法),是最迫切的工程挑戰(zhàn)之一。如何建立標(biāo)準(zhǔn)化的評測基準(zhǔn),讓不同的消除方法可以在統(tǒng)一尺度下公平比較,也是推動領(lǐng)域進(jìn)步的重要基礎(chǔ)設(shè)施。

說到底,注意力沉積這件事告訴我們一個(gè)關(guān)于AI的深刻事實(shí):AI的很多行為背后,隱藏著簡單但強(qiáng)大的數(shù)學(xué)約束。理解這些約束,才能更有針對性地改進(jìn)AI、信任AI,乃至預(yù)測AI在極端情況下會出什么岔子。這篇綜述走過了這個(gè)領(lǐng)域三年的發(fā)展歷程,把散落各處的拼圖整理成一幅完整的圖景。

有興趣深入了解的讀者,可以通過arXiv編號2604.10098獲取完整論文,或者訪問論文團(tuán)隊(duì)在GitHub上維護(hù)的持續(xù)更新的論文列表:https://github.com/ZunhaiSu/Awesome-Attention-Sink。

Q&A

Q1:注意力沉積(Attention Sink)是什么?

A:注意力沉積是指Transformer模型中,大量注意力權(quán)重被集中分配到某些語義信息極少的詞上(如句子開頭的標(biāo)記、標(biāo)點(diǎn)符號)的現(xiàn)象。這是由于Softmax函數(shù)強(qiáng)制讓注意力權(quán)重之和為1,當(dāng)沒有真正相關(guān)的內(nèi)容可以關(guān)注時(shí),多余的注意力就被"傾倒"到這些固定位置,就像必須把預(yù)算花完卻找不到值得買的東西,只能隨便買些無用物品。

Q2:注意力沉積會導(dǎo)致AI出現(xiàn)哪些具體問題?

A:注意力沉積會帶來多方面的問題。在多模態(tài)AI中,它會導(dǎo)致模型忽略圖片中的關(guān)鍵物體,把注意力浪費(fèi)在背景上,從而產(chǎn)生幻覺(描述圖中沒有的東西)。在模型壓縮時(shí),沉積詞產(chǎn)生的極端數(shù)值異常會讓低精度量化失敗,導(dǎo)致模型性能崩潰。在安全層面,攻擊者可以利用沉積詞的固定位置植入后門觸發(fā)器,使模型在特定條件下恢復(fù)被刪除的有害知識。

Q3:消除注意力沉積有哪些主要方法?

A:目前主要有四類方法。第一是門控注意力機(jī)制,給注意力頭加一個(gè)可學(xué)習(xí)的開關(guān),讓它可以直接抑制整個(gè)輸出而無需依賴沉積詞,Qwen3等產(chǎn)品模型已采用此方案。第二是修改Softmax函數(shù),打破注意力權(quán)重必須加和為1的約束,讓模型可以選擇真正"什么都不關(guān)注"。第三是添加可學(xué)習(xí)的注意力偏置參數(shù),用顯式的參數(shù)替代沉積詞充當(dāng)?shù)碾[式偏置功能。第四是預(yù)訓(xùn)練干預(yù),通過改變優(yōu)化器或損失函數(shù),在訓(xùn)練階段就防止異常激活值和沉積現(xiàn)象的形成。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
特斯拉中國車機(jī)將接入豆包大模型:支持語音命令功能

特斯拉中國車機(jī)將接入豆包大模型:支持語音命令功能

識礁Farsight
2026-04-22 14:53:26
錢留下,人別來!西班牙主席對中國甩出一句話,全網(wǎng)炸鍋了

錢留下,人別來!西班牙主席對中國甩出一句話,全網(wǎng)炸鍋了

菁菁子衿
2026-04-21 10:11:50
鄧紫棋改編偶像周杰倫《愛琴?!返菬崴?,周董回復(fù):感謝翻唱,聽起來太棒了;兩人曾在演唱會互動,周杰倫后悔沒簽下鄧紫棋

鄧紫棋改編偶像周杰倫《愛琴?!返菬崴?,周董回復(fù):感謝翻唱,聽起來太棒了;兩人曾在演唱會互動,周杰倫后悔沒簽下鄧紫棋

魯中晨報(bào)
2026-04-22 17:28:12
87年,39歲,我終于不怕失業(yè)了。

87年,39歲,我終于不怕失業(yè)了。

老陸不老
2026-04-22 12:08:06
為什么觀眾明知有毒卻嗑到上頭?

為什么觀眾明知有毒卻嗑到上頭?

晚風(fēng)也遺憾
2026-04-21 11:54:52
他錯(cuò)殺袁文才、王佐,使井岡山失守,后飲彈自盡,建國后被評烈士

他錯(cuò)殺袁文才、王佐,使井岡山失守,后飲彈自盡,建國后被評烈士

老謝談史
2026-04-08 22:51:53
被網(wǎng)友的“回形針用法”驚到了!果然,人類對回形針的開發(fā)不足1%

被網(wǎng)友的“回形針用法”驚到了!果然,人類對回形針的開發(fā)不足1%

美家指南
2026-04-22 16:26:39
新易盛股價(jià)突破600元/股

新易盛股價(jià)突破600元/股

證券時(shí)報(bào)
2026-04-22 14:32:04
還有15天!伊朗石油業(yè)將被迫減產(chǎn),隨后全面停產(chǎn)

還有15天!伊朗石油業(yè)將被迫減產(chǎn),隨后全面停產(chǎn)

華爾街見聞官方
2026-04-22 14:04:02
一場21揪出蓉城大水貨!表現(xiàn)拉胯拖全隊(duì)后腿,再不調(diào)整榜首懸了

一場21揪出蓉城大水貨!表現(xiàn)拉胯拖全隊(duì)后腿,再不調(diào)整榜首懸了

硯底沉香
2026-04-22 16:02:18
別被騙了!宋朝官帽那兩根“翅膀”,根本不是用來防交頭接耳的

別被騙了!宋朝官帽那兩根“翅膀”,根本不是用來防交頭接耳的

瘋狂的小歷史
2026-04-11 08:47:51
激烈交鋒!解放軍全軍待命,日本恐重蹈二戰(zhàn)覆轍,岸田文雄已扛旗

激烈交鋒!解放軍全軍待命,日本恐重蹈二戰(zhàn)覆轍,岸田文雄已扛旗

標(biāo)體
2026-04-21 16:53:36
弗洛倫蒂諾還是震怒了,皇馬計(jì)劃開啟清洗模式

弗洛倫蒂諾還是震怒了,皇馬計(jì)劃開啟清洗模式

K唐伯虎
2026-04-22 07:56:28
高校院長疑似學(xué)術(shù)不端,博士論文未公開,學(xué)生論文被其配偶摘桃子

高校院長疑似學(xué)術(shù)不端,博士論文未公開,學(xué)生論文被其配偶摘桃子

報(bào)人老張
2026-04-22 18:50:27
日本賭中方不會動手,軍艦直接開進(jìn)臺海,解放軍為何仍保持克制?

日本賭中方不會動手,軍艦直接開進(jìn)臺海,解放軍為何仍保持克制?

阿尢說歷史
2026-04-21 16:05:51
二戰(zhàn)時(shí),德國為何送中國40萬套裝備?要走了垂涎已久的三樣?xùn)|西

二戰(zhàn)時(shí),德國為何送中國40萬套裝備?要走了垂涎已久的三樣?xùn)|西

抽象派大師
2026-04-03 14:30:57
網(wǎng)購?fù)晔O碌摹翱爝f氣柱袋”都能拿來干嘛?網(wǎng)友的點(diǎn)子,絕了

網(wǎng)購?fù)晔O碌摹翱爝f氣柱袋”都能拿來干嘛?網(wǎng)友的點(diǎn)子,絕了

美家指南
2026-04-20 16:05:59
普通家庭能給孩子最好的托舉是什么?網(wǎng)友:真的說到點(diǎn)上了

普通家庭能給孩子最好的托舉是什么?網(wǎng)友:真的說到點(diǎn)上了

夜深愛雜談
2025-11-21 20:20:12
你見過老板是怎么把生意干黃的?網(wǎng)友:拿了雙一次性筷子還追出來

你見過老板是怎么把生意干黃的?網(wǎng)友:拿了雙一次性筷子還追出來

夜深愛雜談
2026-04-20 09:31:31
助攻基因!22歲曼城新核碾壓全歐中場,藍(lán)月亮3650萬歐撿漏新梅西

助攻基因!22歲曼城新核碾壓全歐中場,藍(lán)月亮3650萬歐撿漏新梅西

體壇老球迷
2026-04-22 11:48:46
2026-04-22 19:43:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國道歉

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國道歉

體育要聞

網(wǎng)易傳媒再度簽約法國隊(duì)和阿根廷隊(duì)

娛樂要聞

復(fù)婚無望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長?;鹌谙?/h3>

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
手機(jī)
數(shù)碼
公開課

房產(chǎn)要聞

官宣!今年9月起,廣州中小學(xué)“重點(diǎn)班”將成歷史!

藝術(shù)要聞

無花不風(fēng)景

手機(jī)要聞

續(xù)航滅霸降臨!vivo Y600 Pro 全配置曝光,10200mAh 電池沖擊中端機(jī)

數(shù)碼要聞

Beats發(fā)布3米USB-C數(shù)據(jù)線:售229元 最高240W快充

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版