国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

跳過“逐字生成”!螞蟻趙俊博:擴(kuò)散模型讓我們能直接修改Token

0
分享至

當(dāng)主流大語(yǔ)言模型還在采用自回歸架構(gòu)時(shí),有人已經(jīng)盯上了擴(kuò)散架構(gòu)。

在本次量子位MEET2026智能未來(lái)大會(huì)上,浙江大學(xué)百人計(jì)劃研究員、博士生導(dǎo)師,螞蟻集團(tuán)資深技術(shù)專家趙俊博表示:

  • 擴(kuò)散架構(gòu)在推理過程中可以直接修改和控制token,而不需要像自回歸模型那樣重新生成整段內(nèi)容。

這意味著,相比自回歸模型,擴(kuò)散模型理論上有望實(shí)現(xiàn)更快的生成速度以及更低的計(jì)算成本。

基于此,他和團(tuán)隊(duì)將重點(diǎn)押注于擴(kuò)散架構(gòu),并致力于探索擴(kuò)散語(yǔ)言模型獨(dú)有的Scaling Law。

而作為這一探索的關(guān)鍵里程碑,他們近期發(fā)布并開源了LLaDA 2.0,率先將擴(kuò)散語(yǔ)言模型做到千億體量。

趙俊博坦言,該領(lǐng)域在訓(xùn)練與推理層面仍處早期,但發(fā)展勢(shì)頭迅猛,已吸引包括谷歌、字節(jié)在內(nèi)的巨頭及一批初創(chuàng)公司積極布局。

編者注:就在MEET2026智能未來(lái)大會(huì)結(jié)束后,趙俊博和團(tuán)隊(duì)也發(fā)布了全新的技術(shù)報(bào)告,揭示了千億體量擴(kuò)散語(yǔ)言模型背后的關(guān)鍵技術(shù)選擇。
報(bào)告標(biāo)題:LLaDA2.0: Scaling Up Diffusion Language Models to 100B
報(bào)告鏈接(github):https://github.com/inclusionAI/LLaDA2.0/blob/main/tech_report.pdf



為了完整體現(xiàn)趙俊博的思考,在不改變?cè)獾幕A(chǔ)上,量子位對(duì)演講內(nèi)容進(jìn)行了編輯整理,希望能給你帶來(lái)更多啟發(fā)。

MEET2026智能未來(lái)大會(huì)是由量子位主辦的行業(yè)峰會(huì),近30位產(chǎn)業(yè)代表與會(huì)討論。線下到場(chǎng)參會(huì)觀眾近1500人,線上直播觀眾350萬(wàn)+,獲得了主流媒體的廣泛關(guān)注與報(bào)道。

核心觀點(diǎn)梳理

  • 所有生成模型本質(zhì)上都是在擬合數(shù)據(jù)分布。自回歸模型提供了一種擬合方式,它將整體分布拆解為一系列遵循單向因果順序的條件概率來(lái)逐步建模。但這種方式并不是唯一的路徑
  • 開源模型LLaDA采用擴(kuò)散語(yǔ)言模型架構(gòu),暫不考慮MoE的情況下,在相同的計(jì)算量和性能目標(biāo)下,LLaDA所需的參數(shù)規(guī)??梢员茸曰貧w模型更小
  • 擴(kuò)散架構(gòu)在推理過程中可以直接修改和控制token,而不需要像自回歸模型那樣重新生成整段內(nèi)容。
  • 在計(jì)算受限情況下,LLaDA采用“完形填空”式預(yù)測(cè),相比自回歸模型更為“data-hungry”,對(duì)數(shù)據(jù)需求更大、吸收數(shù)據(jù)更快
  • LLaDA與自回歸模型的Scaling Law存在差異,已驗(yàn)證LLaDA可以擴(kuò)展到千億規(guī)模,但繼續(xù)往上會(huì)面臨新的挑戰(zhàn)。

以下為趙俊博演講全文:

押注擴(kuò)散語(yǔ)言模型的Scaling Law

大家好,今天我稍微講點(diǎn)不一樣的,來(lái)一場(chǎng)技術(shù)上的脫口秀。

剛才幾位嘉賓已反復(fù)提及,目前主流的大語(yǔ)言模型幾乎都基于自回歸架構(gòu)構(gòu)建。但我接下來(lái)介紹的,我們最近開源的全新系列模型——架構(gòu)完全不同

要想了解不同之處何在,先讓我們來(lái)厘清幾個(gè)基本概念。

相信大家都很熟悉Midjourney、Sora、Emu Video等圖像/視頻賽道的熱門模型,實(shí)際上,它們里面都有一個(gè)非常明確的機(jī)制叫擴(kuò)散。

何謂擴(kuò)散?簡(jiǎn)單來(lái)說就是加噪后再去噪,從噪聲中恢復(fù)圖像。

所有的Auto-Regressive Model(AR,自回歸模型)基本都遵循同一機(jī)制——給定前N個(gè)詞,要求模型預(yù)測(cè)并生成第N+1個(gè)詞,然后基于前N+1個(gè)詞,再去預(yù)測(cè)第N+2個(gè)詞,依此類推。

而擴(kuò)散語(yǔ)言模型另辟蹊徑,可能有些觀眾也知道這個(gè)東西叫Masked Diffusion Language Models,我們看一下它的解碼過程,簡(jiǎn)單來(lái)說它的機(jī)制不是“做接龍”,而是“做完形填空”

如圖所示,給定一句話之后我們會(huì)Mask(遮蓋)掉一部分詞,再讓它恢復(fù),這就非常像我們小時(shí)候做的完形填空。



而我們現(xiàn)在要做的,就是Diffusion Language Model(dLLM,擴(kuò)散語(yǔ)言模型)的Scaling Law。

為什么做這件事?其實(shí)這是我們的一個(gè)賭注。

本質(zhì)上來(lái)說,所有的大模型只要是生成模型,都是對(duì)P(X),也就是對(duì)本身數(shù)據(jù)分布的擬合。

自回歸模型提供了一種擬合方式,它將整體分布拆解為一系列遵循單向因果順序的條件概率來(lái)逐步建模。但這種方式并不是唯一的路徑。

下圖由新加坡國(guó)立大學(xué)SEA AI研究員Jinjie Ni提供,里面點(diǎn)明了幾個(gè)非常重要的觀點(diǎn)。

第一,在計(jì)算受限的情況下,基于“完形填空”這一方式進(jìn)行預(yù)測(cè)的擴(kuò)散語(yǔ)言模型,比一般的自回歸模型需要的數(shù)據(jù)量更大,即所謂的“data-hungry”,在數(shù)據(jù)上能吃得更快。



第二,同樣是dense結(jié)構(gòu)(先不管MoE),在參數(shù)和計(jì)算量相同的情況下,其實(shí)dLLM可以做得比AR更小。

所謂的“Super Data Learners”,如果了解圖像或視頻的擴(kuò)散模型就會(huì)知道,它們有個(gè)特點(diǎn)——你可以一直訓(xùn)練。

比如我們現(xiàn)在所有的自回歸模型,基本上訓(xùn)練到多個(gè)epoch,效果就不再變動(dòng),數(shù)據(jù)也就這樣了。

而在同樣數(shù)據(jù)集、同樣架構(gòu)下,紅色那條代表Diffusion的曲線可以一直訓(xùn)——跟圖像領(lǐng)域觀測(cè)到的現(xiàn)象一致,確實(shí)可以一直做訓(xùn)練。



第三是Diffusion獨(dú)有的優(yōu)勢(shì)。都知道CoT(思維鏈)和RL(強(qiáng)化學(xué)習(xí)),或者說見識(shí)過DeepSeek上的深度思考過程。這個(gè)東西我之前做了個(gè)比喻,AR像一個(gè)不能帶草稿紙的考生:

進(jìn)了考場(chǎng)之后不允許寫提綱,跟下棋一樣落子無(wú)悔,在解所有題的時(shí)候落筆無(wú)悔。寫下一個(gè)token就釘死,再寫下一個(gè),沒有給你任何機(jī)會(huì)回頭修改。中間寫錯(cuò)了有一個(gè)CoT的機(jī)制,就好像“突然有一個(gè)token說這個(gè)地方好像中間有一步算錯(cuò)了,我再重新開始”。

實(shí)際上這就解釋了為什么會(huì)有test-time scaling——AR在推理側(cè)的token efficiency其實(shí)并不高,有一些簡(jiǎn)單的問題也要推理很久,生成很多token。

如圖所示,我們正在進(jìn)行的研究叫Editable and Controllable Generation(等待跑通中),是指在Diffusion框架下,隨時(shí)“做完形填空”、隨時(shí)改;不像DeepSeek-R1或OpenAI-o1必須整段token推倒重來(lái),我們可以直接在推理過程里改token。



這個(gè)東西有大量的工程細(xì)節(jié),時(shí)間關(guān)系我只能簡(jiǎn)單放一些。

發(fā)布并開源千億規(guī)模dLLM

首先是注意力掩碼(Attention Mask)的適配問題。

我們的模型中既包含細(xì)粒度的Block,也包含由Block組成的更大區(qū)塊——區(qū)塊之間采用自回歸的注意力機(jī)制(確保序列的總體連貫性),區(qū)塊內(nèi)部并行解碼(以提升計(jì)算效率)。

因此,模型中同時(shí)存在兩種注意力模式。有些地方用全局Attention(以捕捉長(zhǎng)程依賴),有些地方用Causal Attention(以維持自回歸約束)。

這里頭還包括對(duì)隨機(jī)長(zhǎng)度序列的處理、集成港大孔令鵬老師提出的幾何加權(quán)方法,以及實(shí)現(xiàn)文本與文檔的長(zhǎng)序列切分注意力等關(guān)鍵技術(shù)。

我們開源了一套訓(xùn)練框架和推理框架,讓社區(qū)能把我們?cè)贖ugging Face上發(fā)布的模型直接跑起來(lái)。其中涉及5D并行集成、分區(qū)塊Diffusion下的Flex-Attention與Attention Mask適配,細(xì)節(jié)不再展開。

這是我們開源的第一個(gè)面向擴(kuò)散語(yǔ)言模型的訓(xùn)練框架,已支持SFT(監(jiān)督微調(diào))與DPO(直接偏好優(yōu)化)。



這里我想把整個(gè)脈絡(luò)稍微介紹一下:

中國(guó)人民大學(xué)文繼榮和李崇軒老師團(tuán)隊(duì),率先開源了擴(kuò)散語(yǔ)言模型LLaDA的第一個(gè)版本LLaDA 1.0。

LLaDA 1.0的研究過程非常痛苦,當(dāng)時(shí)訓(xùn)練和推理框架都很原始,踩坑無(wú)數(shù),不過其8B版本在Hugging Face上零推廣就拿到二十幾萬(wàn)下載。

這是第一個(gè)大規(guī)模訓(xùn)練到80億參數(shù)的擴(kuò)散語(yǔ)言模型,效果可對(duì)標(biāo)LLaMA-3-8B。

后來(lái)螞蟻技術(shù)研究院聯(lián)合人大、浙大、西湖大學(xué)把整條線接過來(lái),下重注要把這個(gè)領(lǐng)域的一些“非共識(shí)”變成“共識(shí)”。

第一件事就是解決架構(gòu)問題。LLaDA是一個(gè)dense模型,而dense的痛點(diǎn)大家都提過,比如第一個(gè)就是怎么在Diffusion的框架里集成MoE。

今年9月,我們發(fā)布了LLaDA-MoE,總參數(shù)7B(激活參數(shù)1B),是全球第一個(gè)原生訓(xùn)練出來(lái)的MoE架構(gòu)擴(kuò)散語(yǔ)言模型。

最近一段時(shí)間,相關(guān)研究幾乎已經(jīng)在全球鋪開——谷歌有Gemini Diffusion、有家美國(guó)創(chuàng)業(yè)公司在做Mercury系列,包括字節(jié)也在做。

其最大特點(diǎn)就是一個(gè)字:。

因?yàn)樗褪恰白鐾晷翁羁铡?。比如做一個(gè)解碼,我先把最后一個(gè)token解出來(lái),然后再去填中間,這些東西確實(shí)是實(shí)際解碼過程中能看到的。

上上周,我們發(fā)布了LLaDA 2.0,率先把擴(kuò)散語(yǔ)言模型做到千億體量。踩坑史太長(zhǎng),技術(shù)報(bào)告已上線,這里就不再展開。



這里有幾個(gè)視頻。

第一個(gè)視頻表明,在全局注意力機(jī)制的支持下,擴(kuò)散模型在效果上相比自回歸模型具備一定優(yōu)勢(shì)。



轉(zhuǎn)到Coding,現(xiàn)在比較神奇的一點(diǎn)是——擴(kuò)散語(yǔ)言模型在“調(diào)用”和“寫代碼”這兩個(gè)任務(wù)上比自回歸模型有明顯優(yōu)勢(shì)

得益于并行解碼,一次能同時(shí)吐出幾個(gè)token,現(xiàn)場(chǎng)看起來(lái)就像你在Cursor里按Tab自動(dòng)補(bǔ)全。這些行為全是模型自己學(xué)出來(lái)的,我們也沒完全搞懂為啥。



以及再看文學(xué)創(chuàng)作,這個(gè)東西比較有意思。看一下這個(gè)解碼過程,先把開頭和結(jié)尾的框架定下來(lái),中間部分先寫個(gè)大概,然后再根據(jù)上下文反復(fù)修改、潤(rùn)色中間的內(nèi)容。



這種“非共識(shí)”的解碼軌跡,在Gemini、OpenAI等任何原生App里都看不到。

接下來(lái)的一兩個(gè)月,我們會(huì)聯(lián)合ZenMux(一站式模型接入平臺(tái))放出部分API,體量雖還比不過主流大模型,但社區(qū)已在慢慢長(zhǎng)大。

dLLM的訓(xùn)練推理仍處于早期發(fā)展階段

最后用一點(diǎn)時(shí)間聊下推理。

10月份左右,我們發(fā)布了一個(gè)帶有試驗(yàn)性質(zhì)的推理引擎dInfer。

通過新的模型架構(gòu)與范式,若能將關(guān)鍵場(chǎng)景的TPS推上千量級(jí),實(shí)現(xiàn)五倍乃至更高的速度提升,其體驗(yàn)將是革命性的。

回頭看,Data/Parameter Scaling Law已不新鮮,去年9月OpenAI又帶出testing-time Scaling Law。

接下來(lái)會(huì)不會(huì)出現(xiàn)Diffusion Scaling Law?

今天沒人能給出答案。唯一確定的是,dLLM與AR的Scaling Law有很大區(qū)別,繼續(xù)擴(kuò)展下去也會(huì)面臨新的挑戰(zhàn)。

但不管怎樣,我們會(huì)在這條路上繼續(xù)走下去。在我看來(lái),AR發(fā)展了三年(從ChatGPT出來(lái)之后發(fā)展了三年),dLLM的訓(xùn)推生態(tài)才剛起步,希望社區(qū)一起下場(chǎng)共建,謝謝。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中國(guó)游客不去了,日本街頭反倒更吵了,轉(zhuǎn)而抱怨歐美游客素質(zhì)低

中國(guó)游客不去了,日本街頭反倒更吵了,轉(zhuǎn)而抱怨歐美游客素質(zhì)低

老特有話說
2025-12-19 17:56:16
美航母艦隊(duì)進(jìn)戰(zhàn)位,委電話打到北京,救不救馬杜羅?王毅斬釘截鐵

美航母艦隊(duì)進(jìn)戰(zhàn)位,委電話打到北京,救不救馬杜羅?王毅斬釘截鐵

芊芊子吟
2025-12-19 10:40:13
工信部一錘定音:新國(guó)標(biāo)電動(dòng)車可載人、能安裝后視鏡、續(xù)航80公里

工信部一錘定音:新國(guó)標(biāo)電動(dòng)車可載人、能安裝后視鏡、續(xù)航80公里

電動(dòng)車的那些事兒
2025-12-18 07:51:56
場(chǎng)均24分,主動(dòng)上位搶球隊(duì)老大!奪冠熱門倒下,你們或許該交易

場(chǎng)均24分,主動(dòng)上位搶球隊(duì)老大!奪冠熱門倒下,你們或許該交易

老梁體育漫談
2025-12-20 00:06:57
華子轟26+12仍無(wú)緣今日最佳!對(duì)不起,你碰到不講理的文班亞馬了

華子轟26+12仍無(wú)緣今日最佳!對(duì)不起,你碰到不講理的文班亞馬了

世界體育圈
2025-12-20 13:38:48
半節(jié)下班!森林狼主帥怒噴裁判連吃兩T被驅(qū)逐 華子表達(dá)疑問

半節(jié)下班!森林狼主帥怒噴裁判連吃兩T被驅(qū)逐 華子表達(dá)疑問

醉臥浮生
2025-12-20 11:15:15
詹姆斯怎么退化?不是斷崖式下滑!而是在穩(wěn)定中保持強(qiáng)勢(shì)!

詹姆斯怎么退化?不是斷崖式下滑!而是在穩(wěn)定中保持強(qiáng)勢(shì)!

氧氣是個(gè)地鐵
2025-12-19 16:10:07
泰國(guó)被曝要求中國(guó)調(diào)查與柬埔寨“生命研究中心”合作的中方機(jī)構(gòu)

泰國(guó)被曝要求中國(guó)調(diào)查與柬埔寨“生命研究中心”合作的中方機(jī)構(gòu)

環(huán)球熱點(diǎn)快評(píng)
2025-12-20 11:18:27
上海城投(集團(tuán))有限公司原黨委副書記楊茂鐸被查

上海城投(集團(tuán))有限公司原黨委副書記楊茂鐸被查

界面新聞
2025-12-19 22:32:12
攤牌了!勇士考慮交易庫(kù)里!內(nèi)部無(wú)情討論,一人一城成空談

攤牌了!勇士考慮交易庫(kù)里!內(nèi)部無(wú)情討論,一人一城成空談

阿泰希特
2025-12-20 12:31:02
曾仕強(qiáng):2026年是一道坎,有些人會(huì)撐不過去!

曾仕強(qiáng):2026年是一道坎,有些人會(huì)撐不過去!

神奇故事
2025-12-19 22:52:47
國(guó)防部:與柬泰邊境沖突無(wú)關(guān),不要主觀臆測(cè)

國(guó)防部:與柬泰邊境沖突無(wú)關(guān),不要主觀臆測(cè)

觀察者網(wǎng)
2025-12-18 19:24:05
北京公交一卡通,可以退錢了!

北京公交一卡通,可以退錢了!

美麗大北京
2025-12-20 12:58:42
海南封關(guān),iPhone 17 全系猛降價(jià)!

海南封關(guān),iPhone 17 全系猛降價(jià)!

花果科技
2025-12-19 12:42:01
國(guó)乒年度獎(jiǎng)金排行:大迪121萬(wàn),蒯曼第5,曼昱第3,孫穎莎第2

國(guó)乒年度獎(jiǎng)金排行:大迪121萬(wàn),蒯曼第5,曼昱第3,孫穎莎第2

觀察鑒娛
2025-12-20 09:51:05
愛潑斯坦“惡魔島”明碼標(biāo)價(jià)多國(guó)美女?蓋茨攬女伴新照流出,多位億萬(wàn)富翁首公開!

愛潑斯坦“惡魔島”明碼標(biāo)價(jià)多國(guó)美女?蓋茨攬女伴新照流出,多位億萬(wàn)富翁首公開!

英國(guó)報(bào)姐
2025-12-19 21:47:31
雷霆凈負(fù)17罰球創(chuàng)本季輸罰球紀(jì)錄!美媒打趣:芬奇被驅(qū)逐很值

雷霆凈負(fù)17罰球創(chuàng)本季輸罰球紀(jì)錄!美媒打趣:芬奇被驅(qū)逐很值

Emily說個(gè)球
2025-12-20 13:58:11
日本加息落地:暴跌沒有,麻煩在后頭

日本加息落地:暴跌沒有,麻煩在后頭

吳曉波頻道
2025-12-20 08:31:19
市井、病榻與戰(zhàn)場(chǎng),晚清影像里的時(shí)代肌理

市井、病榻與戰(zhàn)場(chǎng),晚清影像里的時(shí)代肌理

歷史小破站
2025-12-17 05:00:03
明日冬至!無(wú)論有錢沒錢,牢記:1不去,2不曬,3多吃,安穩(wěn)過冬

明日冬至!無(wú)論有錢沒錢,牢記:1不去,2不曬,3多吃,安穩(wěn)過冬

今日美食分享
2025-12-20 12:43:03
2025-12-20 16:31:01
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11884文章數(shù) 176340關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來(lái)

頭條要聞

91歲老人欲把亡妻房子過戶給50歲女友:這是我的權(quán)利

頭條要聞

91歲老人欲把亡妻房子過戶給50歲女友:這是我的權(quán)利

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

戚薇女兒大變樣,10歲就進(jìn)入“尷尬期”

財(cái)經(jīng)要聞

求解“地方財(cái)政困難”

汽車要聞

嵐圖推進(jìn)L3量產(chǎn)測(cè)試 已完成11萬(wàn)公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

健康
手機(jī)
教育
時(shí)尚
本地

這些新療法,讓化療不再那么痛苦

手機(jī)要聞

40+臺(tái)iPhone 17 Pro Max全程4K記錄,圍觀紅牛車手水上飛車

教育要聞

山東家校錄音曝真相:老師失控放狠話,家長(zhǎng)挖坑!最慘的是孩子?

今年冬天流行的“露襪”穿法,時(shí)髦又減齡!

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版