擴(kuò)散語言模型總是均勻發(fā)力，華為諾亞教它「抓重點(diǎn)」

2026-03-22 18:56:22　來源: 機(jī)器之心Pro

北京舉報

分享至

機(jī)器之心編輯部

這兩年，擴(kuò)散語言模型（Diffusion LLM）一直是個很有討論度的方向。

和傳統(tǒng)自回歸模型不同，擴(kuò)散模型不是嚴(yán)格按從左到右一個 token 一個 token 往外吐，它在生成方式上更靈活，也天然更適合并行建模。可問題也一直擺在那里：這條路很有潛力，但真正把效果做上去并不容易。

最近有一篇來自華為諾亞方舟實(shí)驗室的工作，探究了擴(kuò)散模型訓(xùn)練中的 “默認(rèn)設(shè)置”。論文標(biāo)題叫 Mask Is What DLLM Needs: A Masked Data Training Paradigm for Diffusion LLMs。作者沒有先去改模型結(jié)構(gòu)，而是把目光放回了訓(xùn)練過程里一個看起來很基礎(chǔ)、但其實(shí)一直被默認(rèn)接受的設(shè)定：masking 到底該怎么做

論文鏈接：https://arxiv.org/abs/2603.15803
數(shù)據(jù)集鏈接：https://huggingface.co/datasets/malr07/opc-sft-stage2-dense-extracted

這篇文章給出的判斷是，現(xiàn)有很多離散擴(kuò)散語言模型在訓(xùn)練時采用的均勻隨機(jī) masking，其實(shí)有點(diǎn) “平均用力” 了。

這個問題在一般文本里可能還沒那么明顯，但到了代碼和數(shù)學(xué)推理任務(wù)上，就會變得很突出。因為這類數(shù)據(jù)里，真正決定模型能不能做對的，往往只是少數(shù)幾個關(guān)鍵位置：在代碼任務(wù)里，可能是關(guān)鍵的分支條件、判斷邏輯；在數(shù)學(xué)里，可能是關(guān)鍵的化簡步驟、函數(shù)替換，這些東西顯然比連接詞或者格式內(nèi)容更重要。事實(shí)上，真實(shí)序列里的信息密度本來就不是均勻分布的，而傳統(tǒng)隨機(jī) masking 卻默認(rèn)每個位置都差不多，這會被動地讓模型把不少優(yōu)化資源花在不那么關(guān)鍵的地方。

說白了，就是模型學(xué)的時候沒太分清主次，所有東西都一樣對待了。

不是所有 token 都一樣重要

這篇工作的核心想法其實(shí)一句話就能概括：

既然不同 token 的信息量不一樣，那訓(xùn)練時就不該對它們一視同仁。

圍繞這個想法，作者提出了一個更加 Smart（Input Information Density Aware）的 Noise Scheduler。它做了一件很簡單且直觀的事情：先想辦法把樣本里那些 “信息密度高” 的位置找出來，然后在訓(xùn)練時更優(yōu)先地 mask 掉這些位置，逼著模型去學(xué)會恢復(fù)真正關(guān)鍵的部分。

這套做法背后的直覺其實(shí)很自然，人做完形填空的時候，也不會覺得補(bǔ)一個逗號和補(bǔ)一句關(guān)鍵結(jié)論的難度是一樣的。真正能拉開差距的，通常就是那些牽一發(fā)而動全身的地方。論文里也提到，這種設(shè)計的直覺和人類的挖空練習(xí)很接近：更高效的學(xué)習(xí)，往往不是去恢復(fù)冗余內(nèi)容，而是去恢復(fù)核心概念。

先找 “重點(diǎn)”，再決定怎么 mask

具體做法上，作者先做了一步高信息密度區(qū)域提取（Step 1）。

對于代碼數(shù)據(jù)和數(shù)學(xué)數(shù)據(jù)，作者設(shè)計了一些不同的 criteria。將數(shù)據(jù)中的關(guān)鍵信息區(qū)域提取出來之后，這些區(qū)域會在原始序列中被高亮標(biāo)記出來，后面訓(xùn)練時的噪聲調(diào)度就會參考這些特殊標(biāo)記。

接下來進(jìn)入真正的 masking 階段（Step 2）。和傳統(tǒng)做法不同，這里不是所有位置都按同樣概率被 mask。作者把序列分成兩類：一類是優(yōu)先區(qū)域，也就是那些信息密度高的 token；另一類是普通區(qū)域。前者會被賦予更高的 mask 概率，后者保持較低概率。與此同時，整體的 mask 比例仍然會被控制住，不會因為 “偏心” 了某些位置就把整個噪聲調(diào)度搞亂。

這個設(shè)計最關(guān)鍵的一點(diǎn)在于，它不是單純 “多遮一點(diǎn)”，而是把訓(xùn)練難點(diǎn)往真正值得學(xué)的地方推。模型被反復(fù)要求補(bǔ)全的，不再只是隨機(jī)缺失的內(nèi)容，而是那些決定代碼是否成立、推理是否走通的關(guān)鍵片段。

另一個小巧思：一條數(shù)據(jù)，兩種學(xué)法

如果只是優(yōu)先 mask 掉高信息區(qū)域，很容易讓人擔(dān)心另一個問題：模型會不會變得更會 “做題”，但對語言結(jié)構(gòu)本身？

所以這里引入了擴(kuò)散模型訓(xùn)練中常用的 Complementary Masking。

思路是：對同一條樣本，Trainer 不只根據(jù)前文的 token-level 優(yōu)先標(biāo)記構(gòu)造一個 priority mask，還會構(gòu)造它的完全邏輯互補(bǔ)版本。也就是說，一份樣本會變成兩種互補(bǔ)的訓(xùn)練視角：一種把重點(diǎn)放在邏輯骨架上，另一種則更多保留這些關(guān)鍵位置，轉(zhuǎn)而讓模型去處理結(jié)構(gòu)、語法和上下文連貫性。

這種將互補(bǔ)掩碼與優(yōu)先級掩碼結(jié)合的設(shè)計得到了一種 1+1>2 的效果，因為它沒有把問題簡化成 “只要盯住重點(diǎn)就行”，而是承認(rèn)：語言模型最終還是既要會推理，也得會組織語言。前一種視角更像是在逼模型抓住關(guān)鍵邏輯，后一種視角則是在防止它把句子寫散、把上下文關(guān)系學(xué)丟。論文把這種效果稱為一種基于信息密度的 decoupling，本質(zhì)上是在把一條訓(xùn)練樣本里的不同學(xué)習(xí)目標(biāo)拆開。

改改噪聲調(diào)度就能直接提點(diǎn)

實(shí)驗部分，作者使用 LLaDA-2.0-mini 作為基礎(chǔ)模型，在代碼和數(shù)學(xué)數(shù)據(jù)上進(jìn)行訓(xùn)練，最后在 HumanEval、MBPP、GSM8K、MATH500 四個 benchmark 上做評測。結(jié)果顯示，相比標(biāo)準(zhǔn)的隨機(jī) masking baseline，這套方法的平均成績提升了大約 4%。

這個幅度不屬于那種一眼看上去特別炸裂的數(shù)字，但放在這里其實(shí)挺有說服力。原因在于，這項工作并沒有去改 backbone，也沒有上特別重的額外模塊，它動的是訓(xùn)練范式本身，兩個數(shù)字之間唯一的差異只有噪聲調(diào)度。換句話說，它不是靠 “再堆一點(diǎn)結(jié)構(gòu)” 把結(jié)果抬上去，而是證明了只要訓(xùn)練信號分配得更合理，擴(kuò)散模型本身還有不少潛力沒被用出來。

有個消融結(jié)果很值得注意：不是越狠越好

論文里另一個有啟發(fā)性的部分，其實(shí)是關(guān)于 hard masking 和 soft masking 的比較。

直覺上你可能會覺得，既然高信息區(qū)域重要，那就干脆把這些位置狠狠遮掉，讓模型專門練這個，不是更好嗎？但實(shí)驗結(jié)果并不是這樣。作者發(fā)現(xiàn)，確定性的 hard masking 反而容易把訓(xùn)練搞壞，效果反而不如帶概率的 soft masking。

他們給出的解釋也挺合理。代碼和數(shù)學(xué)里的高信息區(qū)域，很多時候在文本里是連續(xù)出現(xiàn)的。如果把這一整段連續(xù)內(nèi)容都直接硬遮掉，那么在 block diffusion 的訓(xùn)練過程中，就相當(dāng)于突然挖掉了一大片局部錨點(diǎn)，出現(xiàn)了一大片連續(xù)的 “內(nèi)容黑洞”。論文把這個現(xiàn)象叫做 contextual collapse：局部參照一旦沒了，訓(xùn)練過程就容易失穩(wěn)，梯度軌跡也會變得很難控制。相比之下，soft mask 雖然也提高了這些位置被遮掉的概率，但畢竟還保留了隨機(jī)性，不至于每次都把關(guān)鍵部分整個掏空，因此優(yōu)化會平滑得多。

這一點(diǎn)其實(shí)挺像很多訓(xùn)練技巧最后都會落到的那個結(jié)論：方向?qū)α瞬淮砹Χ仍酱笤胶?，給模型留一點(diǎn)緩沖，往往更重要。

只處理一小部分?jǐn)?shù)據(jù)，就已經(jīng)能看到收益

另一個比較實(shí)用的發(fā)現(xiàn)，是這套方法的數(shù)據(jù)效率。

作者沒有要求對全部訓(xùn)練數(shù)據(jù)都做離線的信息密度提取，而是做了不同比例的數(shù)據(jù)實(shí)驗。結(jié)果顯示，只對 10% 的代碼數(shù)據(jù)做這一步處理，就已經(jīng)能把平均成績從 55.32 拉到 59.45。再繼續(xù)往上加到 30%，甚至加到 100%，性能提升會逐漸趨于飽和；到了 100% 時，雖然代碼類指標(biāo)還能沖高，但數(shù)學(xué)推理表現(xiàn)反而會掉下來。論文把這種現(xiàn)象歸因于 domain shift：代碼側(cè)結(jié)構(gòu)先驗加得太多，反而擠占了模型在其他推理任務(wù)上的泛化空間。

這部分結(jié)果挺重要，因為它說明這件事并不一定是個 “高成本、重工程” 的方案。相反，作者給出的結(jié)論很明確：不需要全量標(biāo)注，也不需要把整個訓(xùn)練流水線推倒重來，只要在一小部分?jǐn)?shù)據(jù)上引入這種結(jié)構(gòu)化先驗，就能把基礎(chǔ)擴(kuò)散模型往上推一截。

擴(kuò)散模型的訓(xùn)練過程還有很多細(xì)節(jié)可供挖掘

從結(jié)果上看，這篇工作當(dāng)然是在講一個 masked data training 的新做法。但如果再往后退一步看，它其實(shí)碰到了一個更根本的問題：擴(kuò)散語言模型到底應(yīng)該怎樣分配自己的學(xué)習(xí)注意力。

過去很多工作習(xí)慣從模型結(jié)構(gòu)、采樣策略或者推理機(jī)制上找突破，這篇文章反而提醒了一件很樸素的事：你讓模型學(xué)什么、在哪些位置上用力，本身就會決定它最后學(xué)成什么樣。對于 DLLM 這種本來就高度依賴 noising /denoising 過程的模型來說，masking 不是配角，某種程度上它就是訓(xùn)練邏輯本身的一部分。

論文最后也提到，當(dāng)前這套信息密度提取流程還是偏離線、偏啟發(fā)式的。后面可以繼續(xù)往幾個方向走，比如基于 AST 的規(guī)則提取、基于模型自身置信度的自適應(yīng)提取，或者干脆引入 GAN 的思想做成端到端可學(xué)習(xí)的對抗式 mask 模塊。

如果這些方向后面能繼續(xù)推進(jìn)，那這篇工作的意義可能就不只是 “提出了一個有效的小改動”，而是在給 Diffusion LLM 提供一種更像樣的訓(xùn)練思路：

先別急著讓模型學(xué)會所有東西，先讓它學(xué)會什么東西值得優(yōu)先學(xué)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.