国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

MBZUAI揭秘:為什么擴(kuò)散語言模型中的"注意力錨點(diǎn)"其實(shí)并不重要?

0
分享至


當(dāng)我們談?wù)撊斯ぶ悄軐懽鲿r(shí),大多數(shù)人想到的都是那種一個(gè)字一個(gè)字往外蹦的ChatGPT式生成方式。但最近,一種全新的AI寫作方法正在崛起——擴(kuò)散語言模型。這種模型就像畫家作畫一樣,先勾勒出整個(gè)文本的輪廓,然后反復(fù)修改潤色,直到寫出完美的文章。這種方法雖然效果很好,但有一個(gè)致命問題:太慢了,因?yàn)樾枰磸?fù)修改多次才能完成一段文本。

為了讓這種新型AI寫作更快更實(shí)用,科學(xué)家們開始研究如何給它"瘦身"——也就是所謂的模型剪枝。但問題來了:現(xiàn)有的剪枝方法都是基于傳統(tǒng)AI寫作模型設(shè)計(jì)的,就像給轎車設(shè)計(jì)的輪胎直接裝到了卡車上,顯然不太合適。

這項(xiàng)由阿聯(lián)酋MBZUAI大學(xué)VILA實(shí)驗(yàn)室主導(dǎo)的研究發(fā)表在了arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2602.17664v1),研究團(tuán)隊(duì)首次深入分析了擴(kuò)散語言模型中的"注意力錨點(diǎn)"現(xiàn)象,發(fā)現(xiàn)了一個(gè)顛覆性的結(jié)論:在傳統(tǒng)AI寫作中被視為神圣不可侵犯的"注意力錨點(diǎn)",在擴(kuò)散語言模型中其實(shí)經(jīng)常變來變?nèi)?,并不那么重要。基于這個(gè)發(fā)現(xiàn),他們開發(fā)了一種全新的剪枝方法,能夠在不重新訓(xùn)練模型的情況下,顯著提升擴(kuò)散語言模型的運(yùn)行效率。

要理解這項(xiàng)研究的重要性,我們得先弄明白什么是"注意力錨點(diǎn)"。在傳統(tǒng)的AI寫作中,每當(dāng)模型要寫下一個(gè)詞時(shí),它會(huì)把注意力分配給前面已經(jīng)寫好的所有詞。而"注意力錨點(diǎn)"就是那些總是能吸引大量注意力的特殊位置,通常是文本開頭的幾個(gè)詞,就像磁石一樣持續(xù)吸引著模型的關(guān)注。這些錨點(diǎn)在傳統(tǒng)AI寫作中極其重要,因?yàn)樗鼈儙椭P捅3謱懽鞯倪B貫性和穩(wěn)定性。

但在擴(kuò)散語言模型中,情況完全不同。這種模型不是從左到右逐字生成文本,而是在每個(gè)時(shí)間步驟中同時(shí)處理整個(gè)句子,就像雕刻家同時(shí)雕琢雕像的各個(gè)部分。研究團(tuán)隊(duì)發(fā)現(xiàn),在這種工作模式下,注意力錨點(diǎn)的位置會(huì)隨著生成過程的進(jìn)展而不斷變化,表現(xiàn)出很高的"方差"——也就是不穩(wěn)定性。

研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)證明了這一點(diǎn)。他們分析了多個(gè)主流的擴(kuò)散語言模型,包括LLaDA、Dream和MMaDA等,發(fā)現(xiàn)在傳統(tǒng)AI寫作模型中,注意力錨點(diǎn)的位置幾乎不變,就像房子的地基一樣穩(wěn)固。但在擴(kuò)散語言模型中,錨點(diǎn)位置會(huì)隨著生成步驟的推進(jìn)而顯著漂移,有時(shí)在文本開頭,有時(shí)移動(dòng)到中間,有時(shí)又跑到末尾。

這種現(xiàn)象背后有其深層原因。在擴(kuò)散語言模型的早期步驟中,文本還處于高噪聲狀態(tài),模型需要關(guān)注全局結(jié)構(gòu)的建立;而在后期步驟中,噪聲減少,模型轉(zhuǎn)而關(guān)注局部細(xì)節(jié)的完善。這種需求的變化導(dǎo)致注意力錨點(diǎn)也跟著變化,從關(guān)注全局轉(zhuǎn)向關(guān)注局部。

基于這個(gè)重要發(fā)現(xiàn),研究團(tuán)隊(duì)提出了"感知錨點(diǎn)剪枝"方法。這種方法的核心思想是:既然擴(kuò)散語言模型中的注意力錨點(diǎn)并不穩(wěn)定,那么我們就不應(yīng)該像對待傳統(tǒng)模型那樣小心翼翼地保護(hù)它們。相反,我們可以識(shí)別出那些不穩(wěn)定的、經(jīng)常變化的錨點(diǎn),然后在剪枝過程中適當(dāng)?shù)叵魅跛鼈兊挠绊憽?/p>

具體來說,這種方法首先會(huì)測量每個(gè)位置在整個(gè)生成過程中作為注意力錨點(diǎn)的穩(wěn)定性。研究團(tuán)隊(duì)引入了兩個(gè)關(guān)鍵指標(biāo):空間方差和時(shí)間方差??臻g方差衡量注意力在不同位置之間的分布不均勻程度,而時(shí)間方差則測量錨點(diǎn)位置隨時(shí)間的變化程度。通過這兩個(gè)指標(biāo),他們能夠準(zhǔn)確識(shí)別出哪些錨點(diǎn)是穩(wěn)定的(應(yīng)該保護(hù)),哪些是不穩(wěn)定的(可以適當(dāng)削弱)。

然后,方法會(huì)為每個(gè)位置計(jì)算一個(gè)"錨點(diǎn)得分",得分越高表示該位置越經(jīng)常充當(dāng)注意力錨點(diǎn)。對于得分較高但穩(wěn)定性較差的位置,方法會(huì)計(jì)算一個(gè)"下權(quán)重因子",在剪枝時(shí)適當(dāng)抑制這些位置的激活值。這樣做的效果是讓剪枝算法更多地關(guān)注那些真正重要而穩(wěn)定的連接,而不會(huì)被那些看似重要但實(shí)際上變化多端的連接所誤導(dǎo)。

研究團(tuán)隊(duì)在多個(gè)主流剪枝算法上驗(yàn)證了他們的方法,包括Wanda和SparseGPT。Wanda算法通過結(jié)合權(quán)重大小和輸入激活的范數(shù)來評估每個(gè)權(quán)重的重要性,而SparseGPT算法則使用二階信息進(jìn)行層級重建。感知錨點(diǎn)剪枝方法可以與這些基礎(chǔ)算法無縫結(jié)合,只需要在計(jì)算重要性得分時(shí)對激活值進(jìn)行適當(dāng)?shù)恼{(diào)整。

實(shí)驗(yàn)結(jié)果令人印象深刻。在多個(gè)標(biāo)準(zhǔn)測試基準(zhǔn)上,包括MMLU、ARC-C、PIQA、WinoGrande、HellaSwag、RACE、GSM8K和GPQA等,感知錨點(diǎn)剪枝方法都顯示出了明顯的優(yōu)勢。特別是在中高剪枝比例(50%到75%)下,改進(jìn)效果最為顯著。比如在LLaDA模型上,當(dāng)剪枝比例為75%時(shí),感知錨點(diǎn)方法相比基線方法平均提升了近1個(gè)百分點(diǎn)的準(zhǔn)確率。

更重要的是,這種改進(jìn)在不同的模型和任務(wù)上都很一致。無論是文本理解任務(wù)還是數(shù)學(xué)推理任務(wù),無論是LLaDA、Dream還是LLaDA-1.5模型,感知錨點(diǎn)剪枝都能帶來性能提升。這說明該方法抓住了擴(kuò)散語言模型的本質(zhì)特征,而不是針對某個(gè)特定模型或任務(wù)的臨時(shí)優(yōu)化。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的可視化分析,展示了感知錨點(diǎn)剪枝如何改變模型的剪枝決策。他們發(fā)現(xiàn),在采用感知錨點(diǎn)方法后,模型在不同層和不同注意力頭上的剪枝模式發(fā)生了顯著變化。具體來說,那些錨點(diǎn)強(qiáng)度高但穩(wěn)定性差的注意力頭會(huì)被更激進(jìn)地剪枝,而那些真正重要且穩(wěn)定的連接則得到了更好的保護(hù)。

這種方法的一個(gè)重要優(yōu)勢是它不需要重新訓(xùn)練模型。傳統(tǒng)的模型壓縮方法往往需要在剪枝后對模型進(jìn)行微調(diào),這個(gè)過程既耗時(shí)又需要大量計(jì)算資源。而感知錨點(diǎn)剪枝是一種"一次性"方法,剪枝完成后模型就可以直接使用,大大降低了實(shí)際應(yīng)用的門檻。

研究團(tuán)隊(duì)也誠實(shí)地承認(rèn)了他們方法的局限性。首先,錨點(diǎn)統(tǒng)計(jì)是基于固定的校準(zhǔn)數(shù)據(jù)集估算的,如果實(shí)際應(yīng)用中的數(shù)據(jù)分布與校準(zhǔn)數(shù)據(jù)差異較大,方法的可靠性可能會(huì)受到影響。其次,他們主要評估的是訓(xùn)練后剪枝,沒有結(jié)合輕量級的后剪枝適應(yīng)來進(jìn)一步提升魯棒性。此外,雖然他們包含了一個(gè)多模態(tài)擴(kuò)散語言模型的實(shí)驗(yàn),但在更大規(guī)模的多模態(tài)和長上下文設(shè)置下的驗(yàn)證仍然需要更多工作。

展望未來,這項(xiàng)研究為擴(kuò)散語言模型的優(yōu)化開辟了新的方向。研究團(tuán)隊(duì)建議可以探索層級時(shí)間步自適應(yīng)的錨點(diǎn)策略,以及將感知錨點(diǎn)方法與量化技術(shù)結(jié)合來進(jìn)一步提升質(zhì)量-效率的平衡點(diǎn)。隨著擴(kuò)散語言模型在實(shí)際應(yīng)用中的普及,這類針對性的優(yōu)化方法將變得越來越重要。

這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面的改進(jìn)。它揭示了一個(gè)更深層的道理:不同的AI架構(gòu)有著不同的內(nèi)在機(jī)制,我們不能簡單地將一種架構(gòu)的優(yōu)化經(jīng)驗(yàn)套用到另一種架構(gòu)上。在AI技術(shù)快速發(fā)展的今天,這種深入理解不同模型本質(zhì)特征的研究顯得尤為珍貴。它提醒我們,真正的技術(shù)進(jìn)步往往來自于對問題本質(zhì)的深刻洞察,而不是簡單的經(jīng)驗(yàn)移植。

說到底,這項(xiàng)研究為我們提供了一個(gè)全新的視角來理解擴(kuò)散語言模型。它告訴我們,在這種新型的AI寫作模式中,那些看似重要的"注意力錨點(diǎn)"其實(shí)并沒有想象中那么神圣不可侵犯。通過識(shí)別和適當(dāng)處理這些不穩(wěn)定的錨點(diǎn),我們可以讓擴(kuò)散語言模型運(yùn)行得更快、更高效,同時(shí)保持良好的性能。這不僅為實(shí)際應(yīng)用提供了有價(jià)值的工具,也為我們進(jìn)一步理解和優(yōu)化這類模型奠定了重要基礎(chǔ)。對于那些希望在實(shí)際項(xiàng)目中使用擴(kuò)散語言模型的開發(fā)者來說,這項(xiàng)研究提供的感知錨點(diǎn)剪枝方法無疑是一個(gè)值得嘗試的選擇。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過論文編號(hào)arXiv:2602.17664v1查詢完整論文。

Q&A

Q1:擴(kuò)散語言模型和傳統(tǒng)AI寫作模型有什么區(qū)別?

A:傳統(tǒng)AI寫作模型像打字機(jī)一樣從左到右逐字生成文本,而擴(kuò)散語言模型更像畫家作畫,先勾勒出整個(gè)文本輪廓,然后反復(fù)修改潤色多次才完成。這種方式效果更好但速度較慢,因?yàn)樾枰鄠€(gè)步驟才能生成一段文本。

Q2:什么是注意力錨點(diǎn),為什么在擴(kuò)散語言模型中不重要?

A:注意力錨點(diǎn)是AI模型中總是吸引大量注意力的特殊位置,在傳統(tǒng)AI寫作中很重要且位置穩(wěn)定。但在擴(kuò)散語言模型中,這些錨點(diǎn)位置會(huì)隨著生成過程不斷變化,從關(guān)注全局轉(zhuǎn)向局部,因此不像傳統(tǒng)模型中那樣關(guān)鍵。

Q3:感知錨點(diǎn)剪枝方法如何提升擴(kuò)散語言模型效率?

A:這種方法通過識(shí)別那些不穩(wěn)定、經(jīng)常變化的注意力錨點(diǎn),在模型剪枝時(shí)適當(dāng)削弱它們的影響,讓剪枝算法更關(guān)注真正重要且穩(wěn)定的連接。這樣可以在不重新訓(xùn)練的情況下顯著提升模型運(yùn)行效率,特別在50%-75%剪枝比例下效果最佳。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
游客吐槽“杭州西湖景區(qū)停車費(fèi)30元一小時(shí)”,官方回應(yīng):節(jié)假日差別化收費(fèi),倡導(dǎo)公交出行,日常收費(fèi)10元一小時(shí)

游客吐槽“杭州西湖景區(qū)停車費(fèi)30元一小時(shí)”,官方回應(yīng):節(jié)假日差別化收費(fèi),倡導(dǎo)公交出行,日常收費(fèi)10元一小時(shí)

大象新聞
2026-02-27 15:45:09
淮安人徐亮被查!

淮安人徐亮被查!

淮安網(wǎng)
2026-02-27 14:18:25
春天,少吃蘋果多吃它,一次買20斤,曬干囤起來,從春天吃到夏天

春天,少吃蘋果多吃它,一次買20斤,曬干囤起來,從春天吃到夏天

阿龍美食記
2026-02-26 19:13:38
央視直播28日新加坡大滿貫,王曼昱對張本美和,王楚欽戰(zhàn)張禹珍

央視直播28日新加坡大滿貫,王曼昱對張本美和,王楚欽戰(zhàn)張禹珍

乒乓球球
2026-02-27 21:56:06
大瓜!黃曉明小22歲新歡曝光,照片流出,網(wǎng)友:這眼光,挺專一的

大瓜!黃曉明小22歲新歡曝光,照片流出,網(wǎng)友:這眼光,挺專一的

烏娛子醬
2026-02-27 10:40:54
少婦當(dāng)眾猥褻年輕男子:脫褲裸露下體,正面照流出,私密細(xì)節(jié)披露

少婦當(dāng)眾猥褻年輕男子:脫褲裸露下體,正面照流出,私密細(xì)節(jié)披露

博士觀察
2026-02-27 14:51:00
轉(zhuǎn)發(fā)提醒!在伊朗的中國公民盡快撤離

轉(zhuǎn)發(fā)提醒!在伊朗的中國公民盡快撤離

閃電新聞
2026-02-27 19:30:43
老朋友伊朗,快要退出群聊了

老朋友伊朗,快要退出群聊了

基本常識(shí)
2026-02-27 23:10:46
新加坡第1冠!雨果愛侶狀態(tài)高昂,3-0橫掃頭號(hào)種子首奪冠獲2000分

新加坡第1冠!雨果愛侶狀態(tài)高昂,3-0橫掃頭號(hào)種子首奪冠獲2000分

乒談
2026-02-27 21:15:34
澳門的賭臺(tái),大面積關(guān)停!不是沒人去,而是被“算法”割廢的?

澳門的賭臺(tái),大面積關(guān)停!不是沒人去,而是被“算法”割廢的?

水泥土的搞笑
2026-02-27 17:09:36
南博通報(bào)里“張某”身份的大瓜:被網(wǎng)友爆料系“徐湖平干女兒”?

南博通報(bào)里“張某”身份的大瓜:被網(wǎng)友爆料系“徐湖平干女兒”?

穿透
2026-02-27 11:40:39
紅軍城或已失守,歐爾班開始支持歐盟對烏貸款

紅軍城或已失守,歐爾班開始支持歐盟對烏貸款

史政先鋒
2026-02-27 21:13:14
至少又有2萬移英港人要回流香港?比他們更慘的是潤日華人!許多變賣家產(chǎn)舉家移日的中產(chǎn)家庭被排外右翼“三記悶棍”夢碎日本!

至少又有2萬移英港人要回流香港?比他們更慘的是潤日華人!許多變賣家產(chǎn)舉家移日的中產(chǎn)家庭被排外右翼“三記悶棍”夢碎日本!

澳門月刊
2026-02-27 09:16:32
俄羅斯“居住服役”法令頒布華人蜂擁回國,機(jī)票暴漲200%

俄羅斯“居住服役”法令頒布華人蜂擁回國,機(jī)票暴漲200%

史政先鋒
2026-02-27 14:48:38
男子高速上語音呼叫“關(guān)閉閱讀燈”,語音助手卻誤將大燈熄滅致車輛撞上護(hù)欄,領(lǐng)克致歉:已更新,行駛狀態(tài)下只能手動(dòng)關(guān)閉大燈

男子高速上語音呼叫“關(guān)閉閱讀燈”,語音助手卻誤將大燈熄滅致車輛撞上護(hù)欄,領(lǐng)克致歉:已更新,行駛狀態(tài)下只能手動(dòng)關(guān)閉大燈

大象新聞
2026-02-27 09:57:17
表姑向我借了85000,17年沒還,我去銀行注銷舊卡時(shí),柜員看了眼卡說:女士,最后一筆轉(zhuǎn)賬留言您要看嗎?

表姑向我借了85000,17年沒還,我去銀行注銷舊卡時(shí),柜員看了眼卡說:女士,最后一筆轉(zhuǎn)賬留言您要看嗎?

黎兜兜
2026-02-27 21:20:19
一路走好!2026年春晚才過10天,已有4位名人接連去世,令人唏噓

一路走好!2026年春晚才過10天,已有4位名人接連去世,令人唏噓

阿訊說天下
2026-02-26 11:23:19
阿富汗被巴基斯坦暴捶:塔利班軍事依舊簡陋,財(cái)政多用于宗教建設(shè)

阿富汗被巴基斯坦暴捶:塔利班軍事依舊簡陋,財(cái)政多用于宗教建設(shè)

黃娜老師
2026-02-27 22:32:30
外資撤不走,中國攔不住,如今的中國廣東,制造早已不是代工

外資撤不走,中國攔不住,如今的中國廣東,制造早已不是代工

甜檸聊史
2026-01-23 14:01:57
晚上九點(diǎn)!中國男籃上訴成功,國際籃協(xié)正式道歉,郭士強(qiáng)被聲討

晚上九點(diǎn)!中國男籃上訴成功,國際籃協(xié)正式道歉,郭士強(qiáng)被聲討

多特體育說
2026-02-27 20:52:20
2026-02-28 04:00:49
至頂AI實(shí)驗(yàn)室 incentive-icons
至頂AI實(shí)驗(yàn)室
一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
1958文章數(shù) 162關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

特朗普警告伊朗:“有時(shí)候不得不打”

頭條要聞

特朗普警告伊朗:“有時(shí)候不得不打”

體育要聞

一場必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

郭晶晶霍啟剛現(xiàn)身香港藝術(shù)節(jié)盡顯恩愛

財(cái)經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

時(shí)尚
教育
房產(chǎn)
游戲
數(shù)碼

舒淇最愛穿的裙子搭配,真的很適合春天!

教育要聞

不好意思,我玩電腦AI已經(jīng)超高段位了!

房產(chǎn)要聞

重磅!海南“十五五”規(guī)劃出爐!未來五年,方向定了!

Oi朋友!你聽說過大只切的故事嗎?

數(shù)碼要聞

Omdia:時(shí)隔5年,小米去年再度回歸可穿戴設(shè)備出貨榜首

無障礙瀏覽 進(jìn)入關(guān)懷版