国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

擴散語言模型一口氣沖到100B規(guī)模?!首份技術(shù)報告揭曉背后秘密

0
分享至


來源 | 機器之心

萬萬沒想到,年初還是個小眾方向的「擴散語言模型(dLLM)」,現(xiàn)在已經(jīng)被擴展到千億參數(shù)的規(guī)模了。

前段時間,我們在 HuggingFace 頁面發(fā)現(xiàn)了兩個新模型:LLaDA2.0-mini 和 LLaDA2.0-flash。它們來自螞蟻集團與人大、浙大、西湖大學組成的聯(lián)合團隊,都采用了 MoE 架構(gòu)。前者總參數(shù)量為 16B,后者總參數(shù)量則高達 100B—— 在「擴散語言模型」這個領(lǐng)域,這是從未見過的規(guī)模。


更令人欣慰的是,模型變大了,也確實變強了:在涵蓋知識、推理、編碼、數(shù)學、智能體與對齊幾大維度的 47 個基準測試中,LLaDA2.0-flash 平均得分 73.18,與強 AR(自回歸)模型 Qwen3-30B-A3B-Instruct-2507(73.60)持平,在編碼(如 HumanEval、MBPP)、智能體(BFCL)等復(fù)雜任務(wù)上優(yōu)勢顯著。


長期以來,自回歸生成范式在大模型領(lǐng)域始終占據(jù)主導(dǎo)地位,這種從前到后依次生成下一個 token 的方法曾被寄予厚望。然而,其固有弊端也逐漸顯現(xiàn):長文本生成的計算成本較高、推理速度較慢,且難以捕捉 token 之間的雙向依賴關(guān)系。一旦前期生成的內(nèi)容出現(xiàn)錯誤,不僅無法直接修正,后續(xù)輸出也會受到干擾,最終導(dǎo)致誤差累積。


dLLM 的成功擴展讓人們看到了另一條路的可行性。更值得注意的是,這類模型的快速演進并不是沿著單一路線不斷推高規(guī)模,而是來自研究者們「多線并進」的探索。

就在今年 9 月,LLaDA 系列模型的研究者剛剛驗證了 MoE 架構(gòu)下從頭訓練 dLLM 的可行性,推出了 7B 的 LLaDA-MoE,這為擴散范式提供了新的實現(xiàn)方式。而僅僅三個月后,團隊又在另一條路線 —— 從成熟的 AR 模型平滑遷移到擴散框架 —— 上取得突破,直接將模型規(guī)模擴展到了 100B。


LLaDA2.0 生成效果演示。可以看到,模型會在多個位置并行生成,而且已生成內(nèi)容可以修改。

這背后涉及哪些關(guān)鍵的技術(shù)選擇?哪些方法在 dLLM 中能 work?在最近發(fā)布的技術(shù)報告中,LLaDA2.0 幕后團隊披露了很多細節(jié)。


  • 報告標題:LLaDA2.0: Scaling Up Diffusion Language Models to 100B

  • 報告鏈接:https://github.com/inclusionAI/LLaDA2.0/blob/main/tech_report.pdf

  • HuggingFace 鏈接:https://hf.co/collections/inclusionAI/llada-20


將 dLLM 擴展到 100B

—— 一個公認的難題

最近,有研究發(fā)現(xiàn),在數(shù)據(jù)不夠多的情況下,dLLM 會越訓越強,最后反超傳統(tǒng)自回歸模型。訓練得越久,優(yōu)勢越明顯。如果數(shù)據(jù)更豐富或質(zhì)量更高,這個「反超」會來得更晚;如果模型更大,反超會來得更早。


這些證據(jù)的出現(xiàn)讓「訓練 dLLM」這件事變得越來越有吸引力。但是,怎么把 dLLM「做大做強」卻是一個公認的難題。在過去的一兩年間,研究者們已經(jīng)嘗試了不少方法。

首先是從頭開始訓練。此前的 LLaDA、LLaDA-MoE 都是這一方向的成功嘗試,證明了從頭訓練的 dLLM 性能可以接近同尺寸的 AR 模型,并且在加入 MoE 后,dLLM 還能更高效、更強。不過,受限于可用數(shù)據(jù)量、基礎(chǔ)設(shè)施成熟度、計算成本、訓練周期等因素,從頭訓練的 dLLM 通常規(guī)模較?。ā?B),在整體性能上仍落后于最先進的 AR 模型。

其次是從已經(jīng)訓練好的 AR 模型出發(fā),讓 dLLM 繼承其知識與能力,從而減少訓練成本并縮小性能差距。這一方向已經(jīng)出現(xiàn)了多個代表性工作,包括 DiffusionLLaMA、Dream-7B、RND1、Block DLM 等。它們通過掩碼退火、block diffusion 等方法,將 AR 模型預(yù)訓練好的語言能力「挪」到擴散結(jié)構(gòu)中。但這類嘗試也沒有突破 30B 的規(guī)模。再加上 block diffusion 本身的訓練效率不高,很難把這種方法直接擴展到大規(guī)模模型的海量語料訓練中。

最后是后訓練階段的努力微調(diào)方面,已有工作證明 dLLM 經(jīng)過 SFT 后可以在代碼生成、復(fù)雜規(guī)劃等任務(wù)上媲美頂級 AR 模型。強化學習方面,由于 dLLM 的對數(shù)似然難以計算,研究者不得不另辟蹊徑設(shè)計新算法,甚至訓出了首個具備長鏈思維推理能力的 dLLM。推理加速方面,通過動態(tài)剪枝或混合 AR - 擴散范式,dLLM 的推理速度已首次超越同規(guī)模 AR 模型。但總體而言,后訓練研究仍處于起步階段,這些技術(shù)如何協(xié)同、如何擴展到千億參數(shù)規(guī)模,都還是開放問題。

LLaDA2.0 模型的出現(xiàn),給這些問題提供了一個解決思路。


千億級擴散模型的穩(wěn)定訓練

LLaDA2.0 給出了更優(yōu)解

和之前的 LLaDA-MoE 等模型不同,LLaDA2.0 沒有選擇從頭訓練 dLLM,而是把已有的 AR 模型「平滑地」轉(zhuǎn)化成擴散模型,并在這個基礎(chǔ)上做大規(guī)模訓練與對齊。

為了完成這種轉(zhuǎn)化,LLaDA2.0 提出了一套系統(tǒng)性的解決方案。從訓練范式的重構(gòu)、預(yù)訓練與后訓練流程的強化協(xié)同,到訓練與推理基礎(chǔ)設(shè)施的適配與優(yōu)化,給出了區(qū)別于以往方法的獨特實現(xiàn)路徑。

整體來講,LLaDA2.0 通過構(gòu)建一個分段式、可擴展的訓練體系,高效完成了從 AR 模型轉(zhuǎn)化為 dLLM 的目標。

如下圖 2 所示,首先通過持續(xù)預(yù)訓練(CPT)將一個 AR 基座模型重建為掩碼擴散語言模型(MDLM),并使其能夠?qū)W習雙向去噪能力,從而在保持原 AR 模型表征幾何結(jié)構(gòu)的前提下平滑過渡到擴散范式。

接下來,在已訓練的 MDLM 基礎(chǔ)上引入了塊擴散預(yù)訓練(Block Diffusion Pre-training)。此時,模型不再針對單個 token,而是訓練其對連續(xù)文本片段(即塊)的去噪。從 token 到塊的轉(zhuǎn)變,顯著增強了生成的長程一致性,并帶來更高的計算效率。

最后,在兼具 token 與塊兩級 AR 生成能力之后,模型通過后訓練(包括 SFT 與 DPO)具備了更強的人類意圖與指令遵從特性,并更能滿足下游任務(wù)的需求。經(jīng)過這一階段,擴散預(yù)訓練過程中獲得的強大生成能力可以高效地轉(zhuǎn)化為實際任務(wù)中的性能表現(xiàn)。


LLaDA2.0 訓練流程圖。

接下來,我們將逐一剖析這些關(guān)鍵環(huán)節(jié)。

持續(xù)預(yù)訓練

由于 AR 模型的因果建模方式與 dLLM 的雙向去噪機制存在天然差異,前者到后者的轉(zhuǎn)化并不是簡單替換訓練目標就能完成。為此,LLaDA2.0 采取了 Warmup–Stable–Decay(WSD)的持續(xù)預(yù)訓練策略。

其中在 Warmup(熱身)階段,團隊將 Ling-mini-2.0(16B)等 AR 基座模型視為塊大小 = 1 的塊擴散語言模型(BDLM)起點,并按照「1→4→32 → 64 → 4096」逐步增加塊大小。塊大小的每次調(diào)整在中等規(guī)模數(shù)據(jù)上進行訓練,以確保模型平穩(wěn)過渡。在塊大小達到最大 4096 時,BDLM 轉(zhuǎn)化為標準的掩碼擴散語言模型(MDLM),完成從因果生成向全局雙向去噪的結(jié)構(gòu)性遷移。

接下來是 Stable(穩(wěn)定)階段。在塊大小固定為 4096 且模型轉(zhuǎn)化為全局雙向去噪范式之后,在大規(guī)模語料上進行 MDLM 訓練,以掌握擴散式生成與雙向上下文建模能力。

完成 MDLM 訓練之后,進入到 Decay(衰減)階段。團隊逐步將塊大小從 4096 減少到更適合推理的尺寸(如 32),從而轉(zhuǎn)換回高效的 BDLM。這樣一來,模型在 MDLM 階段學到的全局上下文知識被蒸餾回更緊湊的塊級結(jié)構(gòu)中,讓擴散式的雙向語義能力與塊級生成的推理效率二者兼得。

此外,由于訓練過程中會將多個文檔拼接成長序列,這會在語義無關(guān)的文本之間造成長程依賴。為此,團隊引入了文檔級注意力掩碼(Document-level Attention Mask),可以避免這種跨文檔干擾,防止語義污染,并確保雙向建模穩(wěn)定性。

為了進一步增強 BDLM 的泛化性和穩(wěn)健性,團隊又采用了 Top-k 檢查點融合策略。在預(yù)訓練結(jié)束后,根據(jù)困惑度等驗證指標選取表現(xiàn)最優(yōu)的 k 個模型檢查點,并對它們的權(quán)重、偏置等參數(shù)進行算數(shù)平均,得到了更穩(wěn)健的 BDLM 初始化。

一整套流程走下來,LLaDA2.0 為行業(yè)內(nèi)千億規(guī)模的擴散模型訓練提供了可借鑒的穩(wěn)定解決方案。

后訓練

在完成從 AR 到 dLLM 范式的持續(xù)預(yù)訓練之后,LLaDA2.0 還進行了系統(tǒng)化的后訓練,主要包括以下三個核心環(huán)節(jié)。

一是 SFT(監(jiān)督微調(diào)):在預(yù)訓練階段完成之后,通過 SFT 來對齊用戶指令。過程中引入多項關(guān)鍵改進:對序列長度進行塊對齊,確保與塊級注意力結(jié)構(gòu)兼容;利用「Mask ratio bandwidth」避免近乎無噪聲和過度噪聲樣本造成的訓練無效與梯度不穩(wěn)定;利用「Complementary Masking」,保證同一序列的所有 token 在一個訓練 batch 中至少被學習一次,大幅提升樣本利用率與收斂速度;通過覆蓋推理、通用與工業(yè)三類數(shù)據(jù),確保模型能力分布均衡而不偏科。

二是 CAP(置信度感知并行訓練):通過在訓練中添加額外置信度損失,CAP 為正確預(yù)測的 token 引入了熵最小化目標,提升模型預(yù)測置信度,并實現(xiàn)更快并行解碼,生成質(zhì)量與推理速度之間取得了良好權(quán)衡。

三是 DPO(直接偏好對齊):使模型更好地對齊人類偏好。團隊構(gòu)建了涵蓋通用、數(shù)學、指令遵循等多個領(lǐng)域的偏好數(shù)據(jù)集,共包含 150 萬對偏好樣本。另外將重構(gòu)損失的證據(jù)下界(Evidence Lower Bound,ELBO)作為對數(shù)似然替代,構(gòu)建出適配擴散模型的 DPO 框架。

通過三項后訓練技術(shù)的協(xié)同,LLaDA2.0 在能力塑造、推理效率提升與人類偏好對齊之間形成了完善的優(yōu)化體系,使其從通用的擴散式生成模型進一步邁向高性能實用型大模型。

訓練與推理基礎(chǔ)設(shè)施

為了進一步解決訓練穩(wěn)定性、大規(guī)??蓴U展性和推理效率問題,LLaDA2.0 分別在預(yù)訓練、后訓練與推理階段進行了針對性的工程優(yōu)化與機制設(shè)計。

在預(yù)訓練階段,團隊將 Megatron-LM 用作訓練后端,并結(jié)合數(shù)據(jù)并行(DP)、流水線并行(PP)、張量并行(TP)、上下文并行(CP)與專家并行(EP)的多并行策略,使得千億級模型在長序列與復(fù)雜注意力結(jié)構(gòu)下仍能保持高吞吐與強擴展性。

此外,團隊通過引入基于 cuDNN 的注意力實現(xiàn),為任意塊擴散訓練帶來顯著加速。在訓練 LLaDA2.0-mini 時,相較于 TransformerEngine 中未融合的注意力實現(xiàn),這一做法實現(xiàn)了 1.3 倍 + 的端到端加速,以及 90%+ 的注意力層顯存節(jié)省。團隊還通過在「masked token embedding」輸出中添加獨立高斯噪聲,解決了擴散訓練初期的數(shù)值不穩(wěn)定問題。


預(yù)訓練階段的多并行策略

在后訓練階段,團隊通過專為 dLLM 提供高效訓練范式的開源庫 dFactory 實現(xiàn)了復(fù)雜的并行化策略。同時采用「數(shù)據(jù)打包」策略,將多個短序列拼接在一起,提升數(shù)據(jù)吞吐與硬件利用率。

在推理階段,團隊對原為 dLLM 推理框架的 dInfer 進行改造,使其能夠支持塊擴散推理,并在能力實現(xiàn)上更接近 AR 模型。關(guān)鍵優(yōu)化包括有效復(fù)用 KV-cache,大幅降低 prefill 開銷;另外,在 SGLang 中加入塊擴散支持,使得 dLLM 也能享受 AR 模型的成熟推理優(yōu)化生態(tài)。

下圖 3 的結(jié)果顯示,在 HumanEval、MBPP、GSM8K、CRUXEval 等基準測試中,LLaDA2.0-flash-CAP 達到了 535 TPS(Token/s),相較于基線 AR 模型(Ling-flash-2.0 與 Qwen3-30B-A3B-Inst-2507)實現(xiàn)最高 2.1 倍推理加速。


通過大規(guī)模訓練、穩(wěn)定性保障、分布式并行、高效推理框架的適配等多個工程環(huán)節(jié)的全面優(yōu)化,LLaDA2.0 有望成為擴散模型實現(xiàn)真正工業(yè)級可用的關(guān)鍵轉(zhuǎn)折點。


性能比肩 AR

dLLM 的路走通了?

說了這么多,LLaDA2.0 到底表現(xiàn)如何?

整體來看,該系列模型不僅具備競爭力,而且在一些關(guān)鍵領(lǐng)域展現(xiàn)出接近甚至超越 AR 模型的趨勢。

先看 LLaDA2.0-mini。它的綜合得分為 64.34,接近同級別 AR 模型 Ling-mini-2.0 的 65.77,證明了擴散路線的基本可行性。值得一提的是,它在一些復(fù)雜任務(wù)上已經(jīng)超過了直接對標的 Qwen3-8B,比如 SQuAD 2.0 閱讀理解(86.50)、代碼生成 HumanEval(86.59)。


再看更大的 LLaDA2.0-flash。它的綜合得分為 73.18,與 Qwen3-30B-A3B-Instruct-2507(73.60)基本持平。而在編碼任務(wù)上,它開始展現(xiàn)出更明顯的優(yōu)勢:HumanEval 94.51、MBPP 88.29、MultiPL-E 74.87,均高于 AR 對手。這一趨勢也延伸到了 Agent 能力(BFCL v3: 75.43)上。


一個值得關(guān)注的現(xiàn)象是:隨著模型規(guī)模增大,擴散架構(gòu)在結(jié)構(gòu)化生成和工具調(diào)用上的優(yōu)勢似乎愈發(fā)明顯。

LLaDA 2.0 的性能表明,擴散語言模型是一條可擴展且有競爭力的技術(shù)路線。它在通用基準上快速縮小了與 AR 模型的差距,同時在代碼生成、工具使用等復(fù)雜任務(wù)上展現(xiàn)出超越的潛力。


100B 之后

dLLM 未來可期

作為業(yè)內(nèi)首個沖刺到 100B 參數(shù)規(guī)模的 dLLM,LLaDA2.0 系列模型的出現(xiàn)無疑給整個領(lǐng)域注入了一針強心劑。

除了規(guī)模本身,LLaDA2.0「將成熟 AR 大模型平滑過渡到擴散框架」的思路同樣值得關(guān)注。它表明,不同生成范式并非非此即彼的對立關(guān)系,而是可以串聯(lián)、融合、相互繼承。這為擴散語言模型的規(guī)?;剿魈峁┝艘粭l切實可行的工程路徑,打開了一片更廣闊的設(shè)計空間。

與此同時,越來越多的玩家正在入場,其中不乏馬斯克旗下 xAI 這樣的科技巨頭。


當然,dLLM 距離真正成熟還有很長的路要走。更大的參數(shù)規(guī)模、更高效的強化學習與推理范式、更快的解碼速度…… 每一項都是待攻克的難題。但方向已經(jīng)明確,剩下的只是時間。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
廣東隊兵發(fā)山西!胡明軒跟隊 薩林杰超多行李 李奕臻露面

廣東隊兵發(fā)山西!胡明軒跟隊 薩林杰超多行李 李奕臻露面

胖子噴球
2025-12-27 13:54:59
川名麻耶承認:我是孫正義女兒

川名麻耶承認:我是孫正義女兒

21世紀經(jīng)濟報道
2025-12-26 23:04:30
那些立遺囑的中國女明星們……

那些立遺囑的中國女明星們……

新民周刊
2025-12-26 19:59:15
又被棄用!到底為什么不讓楊瀚森上場?斯普利特終于說出心里話

又被棄用!到底為什么不讓楊瀚森上場?斯普利特終于說出心里話

阿嚼影視評論
2025-12-27 14:49:56
三連勝!大洛9記三分救快船?哈登+倫納德無奈:泰倫盧“臥底”?

三連勝!大洛9記三分救快船?哈登+倫納德無奈:泰倫盧“臥底”?

海棠侃球
2025-12-27 14:36:46
末節(jié)11+決勝時刻7分!哈登一人破解開拓者防線 火箭真不眼饞嗎?

末節(jié)11+決勝時刻7分!哈登一人破解開拓者防線 火箭真不眼饞嗎?

顏小白的籃球夢
2025-12-27 13:57:44
北約亮底線:支持烏克蘭沒問題,但基輔入約絕不可能寫進和平協(xié)議

北約亮底線:支持烏克蘭沒問題,但基輔入約絕不可能寫進和平協(xié)議

東風寄的千愁
2025-12-27 14:48:31
日本網(wǎng)友:直呼好慘?當熊貓離開后:和歌山用8000日元的“角色扮演”留住游客

日本網(wǎng)友:直呼好慘?當熊貓離開后:和歌山用8000日元的“角色扮演”留住游客

東京在線
2025-12-26 23:23:39
除夕提前放假,煙花限時解禁,今年春節(jié)終于像過年了

除夕提前放假,煙花限時解禁,今年春節(jié)終于像過年了

燕梳樓頻道
2025-12-26 22:06:04
吳學謙乘飛機去新疆,空姐為他提供特殊服務(wù),他說:我是普通乘客

吳學謙乘飛機去新疆,空姐為他提供特殊服務(wù),他說:我是普通乘客

帝哥說史
2025-12-26 06:30:03
剛剛,央行、上交所重磅來襲,釋放兩個信號,下周,將迎來新行情

剛剛,央行、上交所重磅來襲,釋放兩個信號,下周,將迎來新行情

云鵬敘事
2025-12-27 00:00:05
天塌了!我花500元請人做的紅包抽獎網(wǎng)頁,豆包居然一秒免費生成?!

天塌了!我花500元請人做的紅包抽獎網(wǎng)頁,豆包居然一秒免費生成?!

秋葉PPT
2025-12-26 08:22:04
教育部動真格了。新規(guī)明確:小學一至六年級,全面取消跨校聯(lián)考…

教育部動真格了。新規(guī)明確:小學一至六年級,全面取消跨校聯(lián)考…

夢想的現(xiàn)實
2025-12-24 00:14:09
挑釁原配、“睡”遍京圈,定居美國7年的徐靜蕾,私生活太狂野了

挑釁原配、“睡”遍京圈,定居美國7年的徐靜蕾,私生活太狂野了

天天熱點見聞
2025-12-27 05:11:58
美軍玩砸了,后悔搶中國原油,新令開啟“熬鷹游戲”,看誰先眨眼

美軍玩砸了,后悔搶中國原油,新令開啟“熬鷹游戲”,看誰先眨眼

科普100克克
2025-12-27 15:43:09
0.2毫克就中招!上海男子誤以為是胡椒粉,舀4勺放進餃子餡里

0.2毫克就中招!上海男子誤以為是胡椒粉,舀4勺放進餃子餡里

萬象硬核本尊
2025-12-26 18:41:48
重要決策,記者:快船正權(quán)衡在交易截止日前進行拆隊還是引援

重要決策,記者:快船正權(quán)衡在交易截止日前進行拆隊還是引援

懂球帝
2025-12-27 13:49:28
關(guān)店1500家的“肯德基鄰居”,栽在一個雞腿上

關(guān)店1500家的“肯德基鄰居”,栽在一個雞腿上

金錯刀
2025-12-25 16:23:45
真當中國不敢動手?中方向全世界宣布:退出1900億大項目

真當中國不敢動手?中方向全世界宣布:退出1900億大項目

云舟史策
2025-12-27 07:24:03
扣押中國油輪后,美方發(fā)現(xiàn)中國貨輪填滿導(dǎo)彈,白宮的說法終于變了

扣押中國油輪后,美方發(fā)現(xiàn)中國貨輪填滿導(dǎo)彈,白宮的說法終于變了

書中自有顏如玉
2025-12-27 13:41:09
2025-12-27 16:27:00
CSDN incentive-icons
CSDN
成就一億技術(shù)人
26215文章數(shù) 242203關(guān)注度
往期回顧 全部

科技要聞

小米也漲價了!業(yè)界稱終端再不漲明年必虧

頭條要聞

"和平計劃"差臨門一腳 特朗普放話烏命運掌握在他手里

頭條要聞

"和平計劃"差臨門一腳 特朗普放話烏命運掌握在他手里

體育要聞

NBA教練圈的布朗尼,花了22年證明自己

娛樂要聞

劉宇寧:我的價值不需要靠番位來證明

財經(jīng)要聞

注意,開始拉物價了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

教育
本地
健康
游戲
公開課

教育要聞

美國境內(nèi)旅游簽轉(zhuǎn)學簽到底需要花多少錢?

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

這些新療法,讓化療不再那么痛苦

《死亡森林》重制版登陸Switch 經(jīng)典恐怖冒險

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版