網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

跳過“逐字生成”！螞蟻趙俊博：擴(kuò)散模型讓我們能直接修改Token

2025-12-12 12:32:54　來(lái)源: 量子位

北京舉報(bào)

分享至

當(dāng)主流大語(yǔ)言模型還在采用自回歸架構(gòu)時(shí)，有人已經(jīng)盯上了擴(kuò)散架構(gòu)。

在本次量子位MEET2026智能未來(lái)大會(huì)上，浙江大學(xué)百人計(jì)劃研究員、博士生導(dǎo)師，螞蟻集團(tuán)資深技術(shù)專家趙俊博表示：

擴(kuò)散架構(gòu)在推理過程中可以直接修改和控制token，而不需要像自回歸模型那樣重新生成整段內(nèi)容。

這意味著，相比自回歸模型，擴(kuò)散模型理論上有望實(shí)現(xiàn)更快的生成速度以及更低的計(jì)算成本。

基于此，他和團(tuán)隊(duì)將重點(diǎn)押注于擴(kuò)散架構(gòu)，并致力于探索擴(kuò)散語(yǔ)言模型獨(dú)有的Scaling Law。

而作為這一探索的關(guān)鍵里程碑，他們近期發(fā)布并開源了LLaDA 2.0，率先將擴(kuò)散語(yǔ)言模型做到千億體量。

趙俊博坦言，該領(lǐng)域在訓(xùn)練與推理層面仍處早期，但發(fā)展勢(shì)頭迅猛，已吸引包括谷歌、字節(jié)在內(nèi)的巨頭及一批初創(chuàng)公司積極布局。

編者注：就在MEET2026智能未來(lái)大會(huì)結(jié)束后，趙俊博和團(tuán)隊(duì)也發(fā)布了全新的技術(shù)報(bào)告，揭示了千億體量擴(kuò)散語(yǔ)言模型背后的關(guān)鍵技術(shù)選擇。
報(bào)告標(biāo)題：LLaDA2.0: Scaling Up Diffusion Language Models to 100B
報(bào)告鏈接（github）：https://github.com/inclusionAI/LLaDA2.0/blob/main/tech_report.pdf

為了完整體現(xiàn)趙俊博的思考，在不改變?cè)獾幕A(chǔ)上，量子位對(duì)演講內(nèi)容進(jìn)行了編輯整理，希望能給你帶來(lái)更多啟發(fā)。

MEET2026智能未來(lái)大會(huì)是由量子位主辦的行業(yè)峰會(huì)，近30位產(chǎn)業(yè)代表與會(huì)討論。線下到場(chǎng)參會(huì)觀眾近1500人，線上直播觀眾350萬(wàn)+，獲得了主流媒體的廣泛關(guān)注與報(bào)道。

核心觀點(diǎn)梳理

所有生成模型本質(zhì)上都是在擬合數(shù)據(jù)分布。自回歸模型提供了一種擬合方式，它將整體分布拆解為一系列遵循單向因果順序的條件概率來(lái)逐步建模。但這種方式并不是唯一的路徑
開源模型LLaDA采用擴(kuò)散語(yǔ)言模型架構(gòu)，暫不考慮MoE的情況下，在相同的計(jì)算量和性能目標(biāo)下，LLaDA所需的參數(shù)規(guī)?？梢员茸曰貧w模型更小
擴(kuò)散架構(gòu)在推理過程中可以直接修改和控制token，而不需要像自回歸模型那樣重新生成整段內(nèi)容。
在計(jì)算受限情況下，LLaDA采用“完形填空”式預(yù)測(cè)，相比自回歸模型更為“data-hungry”，對(duì)數(shù)據(jù)需求更大、吸收數(shù)據(jù)更快
LLaDA與自回歸模型的Scaling Law存在差異，已驗(yàn)證LLaDA可以擴(kuò)展到千億規(guī)模，但繼續(xù)往上會(huì)面臨新的挑戰(zhàn)。

以下為趙俊博演講全文：

押注擴(kuò)散語(yǔ)言模型的Scaling Law

大家好，今天我稍微講點(diǎn)不一樣的，來(lái)一場(chǎng)技術(shù)上的脫口秀。

剛才幾位嘉賓已反復(fù)提及，目前主流的大語(yǔ)言模型幾乎都基于自回歸架構(gòu)構(gòu)建。但我接下來(lái)介紹的，我們最近開源的全新系列模型——架構(gòu)完全不同。

要想了解不同之處何在，先讓我們來(lái)厘清幾個(gè)基本概念。

相信大家都很熟悉Midjourney、Sora、Emu Video等圖像/視頻賽道的熱門模型，實(shí)際上，它們里面都有一個(gè)非常明確的機(jī)制叫擴(kuò)散。

何謂擴(kuò)散？簡(jiǎn)單來(lái)說就是加噪后再去噪，從噪聲中恢復(fù)圖像。

所有的Auto-Regressive Model（AR，自回歸模型）基本都遵循同一機(jī)制——給定前N個(gè)詞，要求模型預(yù)測(cè)并生成第N+1個(gè)詞，然后基于前N+1個(gè)詞，再去預(yù)測(cè)第N+2個(gè)詞，依此類推。

而擴(kuò)散語(yǔ)言模型另辟蹊徑，可能有些觀眾也知道這個(gè)東西叫Masked Diffusion Language Models，我們看一下它的解碼過程，簡(jiǎn)單來(lái)說它的機(jī)制不是“做接龍”，而是“做完形填空”。

如圖所示，給定一句話之后我們會(huì)Mask（遮蓋）掉一部分詞，再讓它恢復(fù)，這就非常像我們小時(shí)候做的完形填空。

而我們現(xiàn)在要做的，就是Diffusion Language Model（dLLM，擴(kuò)散語(yǔ)言模型）的Scaling Law。

為什么做這件事？其實(shí)這是我們的一個(gè)賭注。

本質(zhì)上來(lái)說，所有的大模型只要是生成模型，都是對(duì)P(X)，也就是對(duì)本身數(shù)據(jù)分布的擬合。

自回歸模型提供了一種擬合方式，它將整體分布拆解為一系列遵循單向因果順序的條件概率來(lái)逐步建模。但這種方式并不是唯一的路徑。

下圖由新加坡國(guó)立大學(xué)SEA AI研究員Jinjie Ni提供，里面點(diǎn)明了幾個(gè)非常重要的觀點(diǎn)。

第一，在計(jì)算受限的情況下，基于“完形填空”這一方式進(jìn)行預(yù)測(cè)的擴(kuò)散語(yǔ)言模型，比一般的自回歸模型需要的數(shù)據(jù)量更大，即所謂的“data-hungry”，在數(shù)據(jù)上能吃得更快。

第二，同樣是dense結(jié)構(gòu)（先不管MoE），在參數(shù)和計(jì)算量相同的情況下，其實(shí)dLLM可以做得比AR更小。

所謂的“Super Data Learners”，如果了解圖像或視頻的擴(kuò)散模型就會(huì)知道，它們有個(gè)特點(diǎn)——你可以一直訓(xùn)練。

比如我們現(xiàn)在所有的自回歸模型，基本上訓(xùn)練到多個(gè)epoch，效果就不再變動(dòng)，數(shù)據(jù)也就這樣了。

而在同樣數(shù)據(jù)集、同樣架構(gòu)下，紅色那條代表Diffusion的曲線可以一直訓(xùn)——跟圖像領(lǐng)域觀測(cè)到的現(xiàn)象一致，確實(shí)可以一直做訓(xùn)練。

第三是Diffusion獨(dú)有的優(yōu)勢(shì)。都知道CoT（思維鏈）和RL（強(qiáng)化學(xué)習(xí)），或者說見識(shí)過DeepSeek上的深度思考過程。這個(gè)東西我之前做了個(gè)比喻，AR像一個(gè)不能帶草稿紙的考生：

進(jìn)了考場(chǎng)之后不允許寫提綱，跟下棋一樣落子無(wú)悔，在解所有題的時(shí)候落筆無(wú)悔。寫下一個(gè)token就釘死，再寫下一個(gè)，沒有給你任何機(jī)會(huì)回頭修改。中間寫錯(cuò)了有一個(gè)CoT的機(jī)制，就好像“突然有一個(gè)token說這個(gè)地方好像中間有一步算錯(cuò)了，我再重新開始”。

實(shí)際上這就解釋了為什么會(huì)有test-time scaling——AR在推理側(cè)的token efficiency其實(shí)并不高，有一些簡(jiǎn)單的問題也要推理很久，生成很多token。

如圖所示，我們正在進(jìn)行的研究叫Editable and Controllable Generation（等待跑通中），是指在Diffusion框架下，隨時(shí)“做完形填空”、隨時(shí)改；不像DeepSeek-R1或OpenAI-o1必須整段token推倒重來(lái)，我們可以直接在推理過程里改token。

這個(gè)東西有大量的工程細(xì)節(jié)，時(shí)間關(guān)系我只能簡(jiǎn)單放一些。

發(fā)布并開源千億規(guī)模dLLM

首先是注意力掩碼（Attention Mask）的適配問題。

我們的模型中既包含細(xì)粒度的Block，也包含由Block組成的更大區(qū)塊——區(qū)塊之間采用自回歸的注意力機(jī)制（確保序列的總體連貫性），區(qū)塊內(nèi)部并行解碼（以提升計(jì)算效率）。

因此，模型中同時(shí)存在兩種注意力模式。有些地方用全局Attention（以捕捉長(zhǎng)程依賴），有些地方用Causal Attention（以維持自回歸約束）。

這里頭還包括對(duì)隨機(jī)長(zhǎng)度序列的處理、集成港大孔令鵬老師提出的幾何加權(quán)方法，以及實(shí)現(xiàn)文本與文檔的長(zhǎng)序列切分注意力等關(guān)鍵技術(shù)。

我們開源了一套訓(xùn)練框架和推理框架，讓社區(qū)能把我們?cè)贖ugging Face上發(fā)布的模型直接跑起來(lái)。其中涉及5D并行集成、分區(qū)塊Diffusion下的Flex-Attention與Attention Mask適配，細(xì)節(jié)不再展開。

這是我們開源的第一個(gè)面向擴(kuò)散語(yǔ)言模型的訓(xùn)練框架，已支持SFT（監(jiān)督微調(diào)）與DPO（直接偏好優(yōu)化）。

這里我想把整個(gè)脈絡(luò)稍微介紹一下：

中國(guó)人民大學(xué)文繼榮和李崇軒老師團(tuán)隊(duì)，率先開源了擴(kuò)散語(yǔ)言模型LLaDA的第一個(gè)版本LLaDA 1.0。

LLaDA 1.0的研究過程非常痛苦，當(dāng)時(shí)訓(xùn)練和推理框架都很原始，踩坑無(wú)數(shù)，不過其8B版本在Hugging Face上零推廣就拿到二十幾萬(wàn)下載。

這是第一個(gè)大規(guī)模訓(xùn)練到80億參數(shù)的擴(kuò)散語(yǔ)言模型，效果可對(duì)標(biāo)LLaMA-3-8B。

后來(lái)螞蟻技術(shù)研究院聯(lián)合人大、浙大、西湖大學(xué)把整條線接過來(lái)，下重注要把這個(gè)領(lǐng)域的一些“非共識(shí)”變成“共識(shí)”。

第一件事就是解決架構(gòu)問題。LLaDA是一個(gè)dense模型，而dense的痛點(diǎn)大家都提過，比如第一個(gè)就是怎么在Diffusion的框架里集成MoE。

今年9月，我們發(fā)布了LLaDA-MoE，總參數(shù)7B（激活參數(shù)1B），是全球第一個(gè)原生訓(xùn)練出來(lái)的MoE架構(gòu)擴(kuò)散語(yǔ)言模型。

最近一段時(shí)間，相關(guān)研究幾乎已經(jīng)在全球鋪開——谷歌有Gemini Diffusion、有家美國(guó)創(chuàng)業(yè)公司在做Mercury系列，包括字節(jié)也在做。

其最大特點(diǎn)就是一個(gè)字：快。

因?yàn)樗褪恰白鐾晷翁羁铡?。比如做一個(gè)解碼，我先把最后一個(gè)token解出來(lái)，然后再去填中間，這些東西確實(shí)是實(shí)際解碼過程中能看到的。

上上周，我們發(fā)布了LLaDA 2.0，率先把擴(kuò)散語(yǔ)言模型做到千億體量。踩坑史太長(zhǎng)，技術(shù)報(bào)告已上線，這里就不再展開。

這里有幾個(gè)視頻。

第一個(gè)視頻表明，在全局注意力機(jī)制的支持下，擴(kuò)散模型在效果上相比自回歸模型具備一定優(yōu)勢(shì)。

轉(zhuǎn)到Coding，現(xiàn)在比較神奇的一點(diǎn)是——擴(kuò)散語(yǔ)言模型在“調(diào)用”和“寫代碼”這兩個(gè)任務(wù)上比自回歸模型有明顯優(yōu)勢(shì)。

得益于并行解碼，一次能同時(shí)吐出幾個(gè)token，現(xiàn)場(chǎng)看起來(lái)就像你在Cursor里按Tab自動(dòng)補(bǔ)全。這些行為全是模型自己學(xué)出來(lái)的，我們也沒完全搞懂為啥。

以及再看文學(xué)創(chuàng)作，這個(gè)東西比較有意思。看一下這個(gè)解碼過程，先把開頭和結(jié)尾的框架定下來(lái)，中間部分先寫個(gè)大概，然后再根據(jù)上下文反復(fù)修改、潤(rùn)色中間的內(nèi)容。

這種“非共識(shí)”的解碼軌跡，在Gemini、OpenAI等任何原生App里都看不到。

接下來(lái)的一兩個(gè)月，我們會(huì)聯(lián)合ZenMux（一站式模型接入平臺(tái)）放出部分API，體量雖還比不過主流大模型，但社區(qū)已在慢慢長(zhǎng)大。

dLLM的訓(xùn)練推理仍處于早期發(fā)展階段

最后用一點(diǎn)時(shí)間聊下推理。

10月份左右，我們發(fā)布了一個(gè)帶有試驗(yàn)性質(zhì)的推理引擎dInfer。

通過新的模型架構(gòu)與范式，若能將關(guān)鍵場(chǎng)景的TPS推上千量級(jí)，實(shí)現(xiàn)五倍乃至更高的速度提升，其體驗(yàn)將是革命性的。

回頭看，Data/Parameter Scaling Law已不新鮮，去年9月OpenAI又帶出testing-time Scaling Law。

接下來(lái)會(huì)不會(huì)出現(xiàn)Diffusion Scaling Law？

今天沒人能給出答案。唯一確定的是，dLLM與AR的Scaling Law有很大區(qū)別，繼續(xù)擴(kuò)展下去也會(huì)面臨新的挑戰(zhàn)。

但不管怎樣，我們會(huì)在這條路上繼續(xù)走下去。在我看來(lái)，AR發(fā)展了三年（從ChatGPT出來(lái)之后發(fā)展了三年），dLLM的訓(xùn)推生態(tài)才剛起步，希望社區(qū)一起下場(chǎng)共建，謝謝。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.