国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

訓(xùn)練到推理「瘦身」演進(jìn):首篇高效擴(kuò)散語言模型(dLLM)深度綜述

0
分享至



在生成式 AI 的浪潮中,自回歸(Autoregressive, AR)模型憑借其卓越的性能占據(jù)了統(tǒng)治地位。然而,其「從左到右」逐個預(yù)測 Token 的串行機(jī)制,天生限制了并行生成的可能性。

作為一種極具潛力的替代方案,擴(kuò)散語言模型(Diffusion Language Models, dLLMs)引入了全新的非自回歸范式:通過迭代去噪來優(yōu)化文本序列 。這種機(jī)制不僅支持雙向上下文建模,更允許并行更新多個 Token,為更快的生成速度和更強(qiáng)的可控性打開了大門。

但在「美好愿景」與「實際落地」之間,橫亙著一道巨大的鴻溝 ——效率。

相比于高度成熟的 AR 模型,dLLM 面臨著訓(xùn)練成本高昂、推理步驟繁瑣、KV Cache 難以復(fù)用等棘手問題 。為了厘清這一新興領(lǐng)域的關(guān)鍵技術(shù)路徑,自動化所、香港中文大學(xué)與香港大學(xué)等機(jī)構(gòu)撰寫了一篇最新的綜述論文,該綜述系統(tǒng)地梳理了高效 dLLM 的研究進(jìn)展,從訓(xùn)練、推理、上下文及系統(tǒng)框架等維度,拆解 dLLM 是如何一步步跨越效率瓶頸的。





  • 論文標(biāo)題:Efficient Diffusion Language Models: A Comprehensive Survey
  • 論文鏈接:https://www.authorea.com/users/1021451/articles/1381451-efficient-diffusion-language-models-a-comprehensive-survey
  • 項目倉庫:https://github.com/FelixMessi/Awesome-Efficient-dLLMs

一、訓(xùn)練效率:如何站在 AR 的肩膀上起飛?

dLLM 若要從頭訓(xùn)練,不僅數(shù)據(jù)需求大,算力消耗也極其驚人。因此,如何「借力」現(xiàn)有的預(yù)訓(xùn)練模型成為關(guān)鍵。

論文將訓(xùn)練側(cè)的提效策略主要歸納為「AR 到 dLLM 的遷移」與「架構(gòu)優(yōu)化」。

  • 從 AR 到擴(kuò)散模型的無縫遷移:

與其從零開始,不如利用已有的 AR 模型權(quán)重。DiffuLLaMA 和 Dream 等工作探索了通過調(diào)整注意力掩碼(Attention Mask)或引入特定的過渡微調(diào)階段,將 AR 模型的能力「蒸餾」或「轉(zhuǎn)換」為擴(kuò)散模型 。更有趣的是Block Diffusion(塊擴(kuò)散)的思路,它保留了部分自回歸的結(jié)構(gòu)(塊與塊之間串行),但在塊內(nèi)部進(jìn)行并行擴(kuò)散,這種折中方案在保留 AR 預(yù)訓(xùn)練優(yōu)勢的同時,顯著降低了適應(yīng)成本 。

  • 架構(gòu)層面的「加減法」:

為了減少計算量,研究人員開始對架構(gòu)動刀。E2D2 采用了編碼器 - 解碼器(Encoder-Decoder)架構(gòu),讓編碼器處理清晰的輸入,解碼器專注于去噪,從而復(fù)用特征并降低訓(xùn)練成本 。此外,MoE(混合專家)架構(gòu)也被引入 dLLM(如 LLaDA-MoE),通過稀疏激活在保持模型容量的同時減少推理時的參數(shù)計算量 。

二、推理加速:并行解碼與采樣策略的博弈

推理速度是 dLLM 能否落地的核心痛點。由于擴(kuò)散過程本質(zhì)上是多步迭代,如果每一步都全量計算,延遲將無法接受。綜述將推理加速主要分為「并行解碼」和「壓縮技術(shù)」兩大類。



1. 并行解碼(Parallel Decoding)

dLLM 的核心優(yōu)勢在于可以一次性更新多個 Token。但具體更新哪些?更新多少?

  • 啟發(fā)式方法(Heuristic Methods):這類方法不需要重新訓(xùn)練模型,而是利用「不確定性」作為信號。例如 Fast-dLLM 會計算每個 Token 的置信度,只有置信度高的 Token 才會保留,低的則繼續(xù)去噪 。還有基于「屬性感知」的采樣,利用生成的局部一致性或早期收斂現(xiàn)象來提前終止計算 。

  • 基于學(xué)習(xí)的方法(Learning-based Methods):這是一種更「主動」的策略。通過訓(xùn)練額外的輕量級網(wǎng)絡(luò)或使用強(qiáng)化學(xué)習(xí)(RL),讓模型自己學(xué)會規(guī)劃「這一步該解開哪些 Token」。dParallel和LSD等工作通過蒸餾技術(shù),讓學(xué)生模型用更少的步數(shù)模仿教師模型的采樣軌跡 。

2. 壓縮與量化

除了少走幾步,把模型「變小」也是硬道理。雖然量化(Quantization)在 AR 模型中已很成熟,但 dLLM 對異常值和時間步(Timestep)高度敏感。QDLM和Quant-dLLM等工作專門針對擴(kuò)散過程中的激活分布特點,設(shè)計了細(xì)粒度的量化方案,甚至實現(xiàn)了 2-bit 的極低比特量化 。

三、KV Cache 管理:應(yīng)對「動態(tài)」挑戰(zhàn)

這是 dLLM 與 AR 模型在底層機(jī)制上最大的不同點,也是工程優(yōu)化的深水區(qū)。

在 AR 模型中,歷史 Token 是固定的,因此 KV Cache 可以一直復(fù)用。但在 dLLM 中,整個序列在每一步去噪中都在變化,雙向注意力機(jī)制意味著所有 Token 互相依賴,導(dǎo)致標(biāo)準(zhǔn)的 KV Cache 失效。



綜述總結(jié)了三種應(yīng)對策略:

1.架構(gòu)范式調(diào)整:采用 Block Diffusion 或 DualCache 設(shè)計,將序列分為「固定的前綴」和「動態(tài)的后綴」,只對變化的部分進(jìn)行重計算 。

2.自適應(yīng)刷新(Adaptive Refresh):利用 Token 的穩(wěn)定性。如果某個 Token 的特征在兩步之間變化很小(Similarity Threshold),就直接復(fù)用上一輪的 Cache,否則才更新。dKV-Cache 和 d2Cache 就是此類策略的代表 。

3.稀疏化與驅(qū)逐(Sparsity & Eviction):既然存不下,就只存重要的。通過注意力顯著性(Attention Saliency)判斷哪些 Token 對當(dāng)前生成最關(guān)鍵,動態(tài)驅(qū)逐不重要的 KV 對,從而在有限顯存下支持更長的序列 。

四、投機(jī)解碼:dLLM 的「自我博弈」與「協(xié)同作戰(zhàn)」

投機(jī)解碼(Speculative Decoding, SD)在 dLLM 中呈現(xiàn)出兩種獨特的形態(tài):

  • dLLM-only 自我投機(jī):模型自己預(yù)測未來的中間狀態(tài)(Self-Speculation),或者利用 "Jump-Share" 機(jī)制,在迭代中跳過某些去噪步驟并共享計算結(jié)果 。
  • dLLM-AR 協(xié)同(Synergy):結(jié)合 AR 和 dLLM 的長處。一種思路是用小的 AR 模型輔助 dLLM 判斷采樣的聯(lián)合概率;另一種則是用 dLLM 快速生成草稿(Draft),再由大參數(shù)的 AR 模型進(jìn)行驗證(Verify)。這種 "Diffusion-as-Drafter" 的模式正在成為提升 AR 模型整體吞吐量的新熱點 。

五、總結(jié)與展望:邁向生產(chǎn)環(huán)境

除了上述算法層面的優(yōu)化,論文還探討了上下文擴(kuò)展(Context Scalability)和系統(tǒng)框架(System Framework)。目前,包括 SGLang 在內(nèi)的主流推理引擎已開始初步支持 dLLM,但相比 vLLM 對 AR 模型的那種極致優(yōu)化,dLLM 的生態(tài)系統(tǒng)仍處于「基建」階段 。

未來值得關(guān)注的方向:

1.統(tǒng)一的評測標(biāo)準(zhǔn):目前的效率對比往往基于不同的假設(shè),急需建立涵蓋訓(xùn)練成本、顯存占用、端到端延遲的統(tǒng)一 Benchmark。

2.硬件感知的內(nèi)核優(yōu)化:目前的加速很多停留在算法層,缺乏針對 FlashAttention 那樣底層的 CUDA Kernel 優(yōu)化,這限制了理論加速比向?qū)嶋H墻鐘時間(Wall-clock time)的轉(zhuǎn)化 。

3.多模態(tài)融合:dLLM 天然適合多模態(tài)任務(wù)(因為圖像生成本身多為擴(kuò)散模型),如何在多模態(tài)場景下實現(xiàn)統(tǒng)一的高效推理,將是下一個爆發(fā)點 。

這篇綜述不僅是對現(xiàn)有技術(shù)的總結(jié),更是一份「作戰(zhàn)地圖」。它清晰地表明,dLLM 正從純粹的學(xué)術(shù)探索走向工業(yè)級應(yīng)用。隨著 KV Cache 管理、并行解碼策略的日益成熟,我們有理由相信,在不久的將來,dLLM 將在需要高質(zhì)量、高可控性生成的場景中,成為 AR 模型強(qiáng)有力的競爭者甚至互補(bǔ)者。

延伸閱讀與資源

紙上得來終覺淺。為了方便大家查閱文中提到的所有算法實現(xiàn)及后續(xù)更新的論文,作者整理了配套的 GitHub 資源庫。如果你關(guān)注擴(kuò)散語言模型推理加速、模型壓縮 或 高性能計算,建議將此鏈接加入書簽:

  • https://github.com/FelixMessi/Awesome-Efficient-dLLMs

該倉庫實時追蹤 dLLM 領(lǐng)域的最新動態(tài),歡迎 Star 關(guān)注或貢獻(xiàn)你的代碼!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
條件不符就別尬演女知青!全程擠眉弄眼,老戲骨董勇也帶不動

條件不符就別尬演女知青!全程擠眉弄眼,老戲骨董勇也帶不動

青橘罐頭
2026-03-09 17:11:26
立省499!我給你們找到了最傻瓜的OpenClaw安裝方式。

立省499!我給你們找到了最傻瓜的OpenClaw安裝方式。

數(shù)字生命卡茲克
2026-03-10 10:08:30
隨著烏茲別克斯坦4-0,中國2-1朝鮮,2026女足亞洲杯最新積分榜出爐

隨著烏茲別克斯坦4-0,中國2-1朝鮮,2026女足亞洲杯最新積分榜出爐

側(cè)身凌空斬
2026-03-09 19:03:26
馬斯克評比亞迪:產(chǎn)能跌破50%是"巨大痛苦",BYD連續(xù)六個月銷量下滑

馬斯克評比亞迪:產(chǎn)能跌破50%是"巨大痛苦",BYD連續(xù)六個月銷量下滑

新浪財經(jīng)
2026-03-07 20:46:51
中方:令人遺憾

中方:令人遺憾

中國網(wǎng)
2026-03-10 10:47:47
伊拉克方浩明成中國準(zhǔn)女婿!11歲隨姐姐逃到中國,今人生堪比開掛

伊拉克方浩明成中國準(zhǔn)女婿!11歲隨姐姐逃到中國,今人生堪比開掛

嫹筆牂牂
2026-03-09 07:15:44
人民日報怒批!炫富、偷稅749萬、跑國外,現(xiàn)又來“割內(nèi)地韭菜”

人民日報怒批!炫富、偷稅749萬、跑國外,現(xiàn)又來“割內(nèi)地韭菜”

小熊侃史
2026-01-18 07:20:09
央視力推也沒用?《我的山與?!吩鈵涸u,這“戲混子”有很大責(zé)任

央視力推也沒用?《我的山與?!吩鈵涸u,這“戲混子”有很大責(zé)任

往史過眼云煙
2026-03-08 16:42:45
最全橫測!哪個大模型更適合養(yǎng)"龍蝦"?GPT拉胯,MiniMax/Kimi驚喜

最全橫測!哪個大模型更適合養(yǎng)"龍蝦"?GPT拉胯,MiniMax/Kimi驚喜

AI先鋒官
2026-03-10 07:01:06
老撾放棄中國提案,效仿韓國抄襲三峽大壩技術(shù),大壩潰決后中國持何態(tài)度?

老撾放棄中國提案,效仿韓國抄襲三峽大壩技術(shù),大壩潰決后中國持何態(tài)度?

史海孤雁
2026-01-30 16:20:15
中國人民解放軍國防部突然改口,不再稱臺軍,直接定性為臺獨武裝

中國人民解放軍國防部突然改口,不再稱臺軍,直接定性為臺獨武裝

Ck的蜜糖
2026-03-06 19:21:36
美國恨透了中國北斗,卻不敢輕易干擾北斗信號,美在害怕什么?

美國恨透了中國北斗,卻不敢輕易干擾北斗信號,美在害怕什么?

阿纂看事
2026-03-04 11:40:53
大跳水!沈陽網(wǎng)友:抄底了,太劃算

大跳水!沈陽網(wǎng)友:抄底了,太劃算

沈陽公交網(wǎng)小林
2026-03-09 00:09:11
世預(yù)賽:中國女籃12人名單確定,兩名球員落選,宮魯鳴將出大招

世預(yù)賽:中國女籃12人名單確定,兩名球員落選,宮魯鳴將出大招

領(lǐng)悟看世界
2026-03-10 01:21:36
890億美元,600架飛機(jī),特朗普訪華之前,中國要送美國一份大禮?

890億美元,600架飛機(jī),特朗普訪華之前,中國要送美國一份大禮?

近史博覽
2026-03-09 15:48:53
美媒公布美軍戰(zhàn)損,美國8年心血構(gòu)建的防線,只撐了不到一個星期

美媒公布美軍戰(zhàn)損,美國8年心血構(gòu)建的防線,只撐了不到一個星期

安珈使者啊
2026-03-10 10:30:40
1天賺近兩個億,“寧王”盈利創(chuàng)新高!A股首批2025年年度報告出爐

1天賺近兩個億,“寧王”盈利創(chuàng)新高!A股首批2025年年度報告出爐

數(shù)據(jù)寶
2026-03-10 07:49:55
山西大同案發(fā)酵!女生調(diào)侃男友信不信,我把你送進(jìn)去,結(jié)果分手了

山西大同案發(fā)酵!女生調(diào)侃男友信不信,我把你送進(jìn)去,結(jié)果分手了

火山詩話
2026-03-08 13:15:15
抖音“國際軍事”博主天天說伊朗大反攻,美以尿了!收割大批韭菜

抖音“國際軍事”博主天天說伊朗大反攻,美以尿了!收割大批韭菜

廖保平
2026-03-09 09:06:29
瑞幸咖啡創(chuàng)始人:錢治亞

瑞幸咖啡創(chuàng)始人:錢治亞

歲月有情1314
2026-03-09 02:05:28
2026-03-10 11:43:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12455文章數(shù) 142579關(guān)注度
往期回顧 全部

科技要聞

“龍蝦”狂歡 賣“飼料”先掙錢了?

頭條要聞

業(yè)主舉報違建次日接"鄰居"電話:連我媽在哪打拳都知道

頭條要聞

業(yè)主舉報違建次日接"鄰居"電話:連我媽在哪打拳都知道

體育要聞

韓國女足羨慕的奢侈品,為何選擇中國女足

娛樂要聞

肖戰(zhàn)首奪SMG視帝,孫儷四封視后創(chuàng)歷史

財經(jīng)要聞

全民"養(yǎng)龍蝦"背后 第一批受害者浮現(xiàn)

汽車要聞

蔚來換電和理想5C,誰能硬剛,比亞迪兆瓦閃充?

態(tài)度原創(chuàng)

藝術(shù)
家居
房產(chǎn)
親子
軍事航空

藝術(shù)要聞

30000畝杏花開了,新疆的春天這么美!

家居要聞

自然肌理 溫度質(zhì)感婚房

房產(chǎn)要聞

海口鳳翔觀邸,方案大變!

親子要聞

這就是傳說中的黑市嗎?

軍事要聞

伊媒發(fā)布小學(xué)被炸瞬間 戰(zhàn)斧導(dǎo)彈從天而降

無障礙瀏覽 進(jìn)入關(guān)懷版