国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

小眾架構(gòu)贏麻了:讓100B擴(kuò)散模型飆出892 tokens/秒的速度!

0
分享至

金磊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

誰能想到啊,在自回歸模型(Autoregressive,AR)當(dāng)?shù)赖默F(xiàn)在,一個(gè)非主流架構(gòu)的模型突然殺了回馬槍——

被長期視為學(xué)術(shù)玩具的擴(kuò)散語言模型,直接在復(fù)雜編程任務(wù)中飆出了892 tokens/秒的速度!



你沒看錯,當(dāng)主流大模型還在以幾十token的速度逐字蹦詞時(shí),這個(gè)非主流模型已經(jīng)在100B參數(shù)規(guī)模上,跑出了如此的速度。

2025年,螞蟻集團(tuán)資深技術(shù)專家趙俊博曾經(jīng)帶著LLaDA2.0登上量子位MEET大會的舞臺,而如今,他們的最新版本LLaDA2.1來了,螞蟻技術(shù)研究院重磅開源!



三個(gè)月前,在LLaDA2.0時(shí)代,這更多是一個(gè)充滿挑戰(zhàn)的研究性模型。

而這一次,LLaDA2.1的誕生,標(biāo)志著這個(gè)路線的歷史性轉(zhuǎn)折。它不再只是一個(gè)“學(xué)術(shù)研究”,而是真正可用、甚至在效率上更為優(yōu)越的強(qiáng)大工具。

那么在整個(gè)行業(yè)都在卷更大的自回歸模型時(shí),螞蟻到底是怎么低調(diào)修了另一條“能跑通的高速公路”的?

接下來,我們就再一起扒一扒這個(gè)非共識技術(shù)背后的原理。

怎么做到的?

在深入技術(shù)之前,我們先得聊聊為什么現(xiàn)在的ChatGPT、Claude們總是慢條斯理。

因?yàn)樗鼈儙缀跞坎捎米曰貧w架構(gòu),這種模式如同一個(gè)不能打草稿的考生,必須從左到右、一字一句地生成文本,寫完即定稿,無法回頭修改。

而擴(kuò)散模型的理論優(yōu)勢在于并行,可以同時(shí)處理所有文本位置,理論上能一次成篇,擁有巨大的速度潛力。

但擴(kuò)散語言模型在早期一直有個(gè)致命傷,那就是容易胡說八道,且缺乏全局一致性。因?yàn)椴⑿猩蓵r(shí),各個(gè)部分可能是各玩各的,導(dǎo)致前后文邏輯不通。

為此,螞蟻的LLaDA2.1先亮出了第一個(gè)技術(shù)殺手锏:

一個(gè)模型兩種模式設(shè)計(jì),把怎么用模型的權(quán)力交給用戶

基于可糾錯編輯的底層能力,LLaDA2.1引入了靈活的雙模式解碼策略,實(shí)現(xiàn)了單個(gè)模型,同時(shí)支持極速與質(zhì)量兩種模式:

  • Speedy Mode(極速模式):大幅降低τ_mask閾值,激進(jìn)并行生成初稿,依賴T2T編輯進(jìn)行后期修正。適合代碼草稿、快速推理、多輪試探式生成等對吞吐量敏感的場景。
  • Quality Mode(質(zhì)量模式):采用保守閾值,減少編輯次數(shù),優(yōu)先保障輸出準(zhǔn)確性。適合正式文檔生成、高精度推理等對結(jié)果質(zhì)量要求嚴(yán)苛的場合。

在此之前,LLaDA-MoE和LLaDA2.0需要二次開發(fā)提供額外的加速版本,比如基于路徑蒸餾的加速等;這類加速版本因?yàn)榉锹?lián)合訓(xùn)練優(yōu)化,雖然實(shí)現(xiàn)了對基礎(chǔ)版本的一定加速,但是精度掉點(diǎn)普遍嚴(yán)重;同時(shí)一個(gè)模型多個(gè)版本,也增加用戶選擇的難度以及模型管理的成本。

單模型雙模式,避免了上述問題。用戶可以根據(jù)具體需求,僅需一條config就能實(shí)現(xiàn)模式切換。

這種設(shè)計(jì)標(biāo)志著LLaDA系列從研究模型向?qū)嵱卯a(chǎn)品的關(guān)鍵轉(zhuǎn)變。

技術(shù)報(bào)告顯示,在HumanEval+編程基準(zhǔn)上,LLaDA2.1-flash(100B)在Speedy Mode下達(dá)到892 TPS的峰值速度,而Quality Mode則在多項(xiàng)推理任務(wù)上超越了前代模型。



可糾錯編輯,讓模型像人類一樣“寫作+修改”

為了更好的理解雙模式背后的機(jī)制,我們可以回憶一下自己寫作的流程。

自回歸模型像是一個(gè)不允許帶草稿紙、不允許帶提綱的作者,它下筆無悔,不允許修改自己寫好的內(nèi)容。

但現(xiàn)實(shí)中,大部分情況下我們可能是先有了想法去寫草稿,哪怕有錯別字,先動筆寫著;寫完之后,我們再回頭細(xì)讀一遍,把不通順的、有錯別字的地方改掉。

LLaDA2.1工作原理正是如此,引入的機(jī)制叫做可糾錯編輯(Error-Correcting Editable,ECE)。

它的推理過程被分為了兩個(gè)階段:

  • 階段一(M2T, Mask-to-Token):模型以極高的速度,并行生成一個(gè)草稿。這個(gè)階段可能會有一些噪聲和錯誤,但速度極快。
  • 階段二(T2T, Token-to-Token):立即啟動編輯模式。模型站在全局視角,對剛才生成的草稿進(jìn)行檢查。如果發(fā)現(xiàn)某些token置信度低或者邏輯不通,就直接進(jìn)行回溯式修正。

技術(shù)報(bào)告中的一個(gè)例子生動說明了其價(jià)值。



當(dāng)模型嘗試補(bǔ)全赫拉克利特名言“No man ever steps in the same river twice”時(shí),傳統(tǒng)擴(kuò)散模型在早期步驟錯誤生成了“walks”,由于狀態(tài)凍結(jié),最終輸出錯誤的“walks in the same river twice”。

而LLaDA2.1在后續(xù)步驟中檢測到“steps”的置信度更高,果斷將“walks”替換為“steps”,成功恢復(fù)正確引文。

這種允許自我修正的能力,從根本上解決了擴(kuò)散模型的曝光偏差問題。它讓模型敢于在初稿階段追求速度,再通過編輯階段保障質(zhì)量。

它在毫秒級的閃電采樣中完成了“草稿”到“正卷”的華麗轉(zhuǎn)身,不再被困在序列的起點(diǎn),而是直接站在全局的高度,去編輯、去重塑、去定義AGI時(shí)代的推理新范式。

這是第一次在擴(kuò)散架構(gòu)上實(shí)現(xiàn)了速度與質(zhì)量的解耦。

首次在100B擴(kuò)散語言模型上跑通強(qiáng)化學(xué)習(xí)

如果說可糾錯編輯解決了怎么生成的問題,那么強(qiáng)化學(xué)習(xí)則是解決了生成得好不好的問題。

但此前,在擴(kuò)散模型上應(yīng)用RL曾被視為不可能的任務(wù)。

原因在于,自回歸模型的序列似然可直接分解為token級概率乘積,而擴(kuò)散模型基于塊狀采樣(block-diffusion),序列級似然難以直接計(jì)算,導(dǎo)致傳統(tǒng)策略梯度方法失效。

LLaDA2.1團(tuán)隊(duì)為此定制了EBPO(ELBO-based Block-level Policy Optimization)算法:

  • 以證據(jù)下界(ELBO)作為序列似然的代理目標(biāo);
  • 通過向量化似然估計(jì)技術(shù),并行計(jì)算多時(shí)間步的塊條件概率;
  • 設(shè)計(jì)專門的梯度穩(wěn)定機(jī)制,適配擴(kuò)散模型的編輯特性。

這是業(yè)界首次在100B規(guī)模擴(kuò)散模型上成功實(shí)施大規(guī)模RL訓(xùn)練。

結(jié)果顯而易見:LLaDA2.1在IFEval(指令遵循評估)、BFCL(函數(shù)調(diào)用)等對齊類任務(wù)上顯著提升,證明擴(kuò)散模型不僅能快,更能懂你。



魚和熊掌,可以兼得

正如我們剛才提到的,LLaDA2.1百億參數(shù)版本在處理HumanEval+等復(fù)雜編程任務(wù)時(shí),實(shí)現(xiàn)了892 tokens/秒的峰值速度。

在同級別的基準(zhǔn)測試中,這一速度表現(xiàn)已經(jīng)對主流自回歸架構(gòu)形成了顯著優(yōu)勢。

更值得關(guān)注的是,這種速度并非以犧牲質(zhì)量為代價(jià)。

在涵蓋知識、推理、代碼、數(shù)學(xué)及指令遵循的33個(gè)權(quán)威基準(zhǔn)測試 中,LLaDA2.1在質(zhì)量模式下全面超越了前代LLaDA2.0。

即使在追求速度的極速模式下,其性能下降也微乎其微,真正做到了 “魚與熊掌可以兼得”。

除此之外,團(tuán)隊(duì)還開源了16B的Mini版本,其在部分任務(wù)上的峰值速度甚至超過1500 tokens/秒,為更輕量化的部署提供了可能。

最后,LLaDA2.1背后的哲學(xué)也是值得說道說道。

它證明了一件事:

在大模型時(shí)代,有敢把非共識走到底的耐心,亦可取得勝利。

技術(shù)報(bào)告:
https://huggingface.co/papers/2602.08676

GitHub地址:
https://github.com/inclusionAI/LLaDA2.X

項(xiàng)目權(quán)重:
https://huggingface.co/collections/inclusionAI/llada21
https://modelscope.cn/collections/inclusionAI/LLaDA21

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
我用三個(gè)真實(shí)的病例告訴你:為啥我總建議重癥病人去一線城市看病

我用三個(gè)真實(shí)的病例告訴你:為啥我總建議重癥病人去一線城市看病

千秋文化
2026-02-24 20:25:25
斯諾克賽程:決出16強(qiáng),3場冠軍PK,趙心童領(lǐng)銜,中國9人披掛上陣

斯諾克賽程:決出16強(qiáng),3場冠軍PK,趙心童領(lǐng)銜,中國9人披掛上陣

劉姚堯的文字城堡
2026-02-25 08:33:55
曝成毅和歡瑞正式解約,前老板發(fā)聲祝福,歡瑞官網(wǎng)已今非昔比!

曝成毅和歡瑞正式解約,前老板發(fā)聲祝福,歡瑞官網(wǎng)已今非昔比!

古希臘掌管月桂的神
2026-01-18 15:40:24
如果不差錢,退休后首選這3座城市久居,物價(jià)低,還舒服

如果不差錢,退休后首選這3座城市久居,物價(jià)低,還舒服

蜉蝣說
2026-02-14 16:06:23
票房不好,自己反思,別賣慘別賴觀眾

票房不好,自己反思,別賣慘別賴觀眾

閑人電影
2026-02-24 19:29:17
突發(fā)!黃金直線拉升突破5200美元,白銀站上90美元

突發(fā)!黃金直線拉升突破5200美元,白銀站上90美元

每日經(jīng)濟(jì)新聞
2026-02-25 15:36:12
這你敢信?C羅罷賽的效果出來了!

這你敢信?C羅罷賽的效果出來了!

田先生籃球
2026-02-25 11:28:10
小S被曝住進(jìn)了大S豪宅,黃春梅終于盼來了救星,具俊曄指望不上

小S被曝住進(jìn)了大S豪宅,黃春梅終于盼來了救星,具俊曄指望不上

可樂談情感
2026-02-25 13:29:42
宏大敘事是窮人最后的“精神鴉片”

宏大敘事是窮人最后的“精神鴉片”

浪子說
2026-02-24 22:08:10
“全屋定制”漸漸退出中國家庭?學(xué)學(xué)浙江人的做法,美觀無甲醛!

“全屋定制”漸漸退出中國家庭?學(xué)學(xué)浙江人的做法,美觀無甲醛!

家居設(shè)計(jì)師蘇哥
2026-02-25 13:36:32
女子乘坐動車上廁所時(shí) 不慎沖走50g金手鏈 鐵路人員回應(yīng)

女子乘坐動車上廁所時(shí) 不慎沖走50g金手鏈 鐵路人員回應(yīng)

閃電新聞
2026-02-24 15:53:21
她在非誠勿擾上站五年,爆燈無數(shù)卻不牽手,最終被主持人趕下臺

她在非誠勿擾上站五年,爆燈無數(shù)卻不牽手,最終被主持人趕下臺

琴聲飛揚(yáng)
2026-02-22 15:21:45
克努佩爾21分布利澤斯空砍32+7 黃蜂送公牛10連敗

克努佩爾21分布利澤斯空砍32+7 黃蜂送公牛10連敗

北青網(wǎng)-北京青年報(bào)
2026-02-25 15:24:56
54歲楊鈺瑩近況曝光:定居深圳,每天打理菜園子,生活平淡

54歲楊鈺瑩近況曝光:定居深圳,每天打理菜園子,生活平淡

小徐講八卦
2025-11-17 07:29:28
小臥室不要再放“雙人床”了,學(xué)年輕人的做法,美觀又實(shí)用!

小臥室不要再放“雙人床”了,學(xué)年輕人的做法,美觀又實(shí)用!

室內(nèi)設(shè)計(jì)師有料兒
2026-02-24 21:03:27
BBA春節(jié)檔掀史上最猛降價(jià)潮,寶馬7系狂降27萬,新能源車企卻換了一種打法

BBA春節(jié)檔掀史上最猛降價(jià)潮,寶馬7系狂降27萬,新能源車企卻換了一種打法

金融界
2026-02-24 18:07:07
55歲主持人李靜自曝絕經(jīng)過程,很快失去性魅力,連男人也沒興趣了

55歲主持人李靜自曝絕經(jīng)過程,很快失去性魅力,連男人也沒興趣了

林輕吟
2026-02-23 07:16:08
他們兩個(gè)不會偷偷的在一起了吧,確實(shí)他們挺合適的男才女貌

他們兩個(gè)不會偷偷的在一起了吧,確實(shí)他們挺合適的男才女貌

老吳教育課堂
2026-02-24 06:25:10
上海發(fā)布樓市“新七條”!專家:帶動置換鏈條的良性循環(huán)

上海發(fā)布樓市“新七條”!專家:帶動置換鏈條的良性循環(huán)

南方都市報(bào)
2026-02-25 14:59:09
100萬賭一個(gè)未來:從中乙替補(bǔ)到中超首發(fā),那個(gè)被罵水貨的大男孩

100萬賭一個(gè)未來:從中乙替補(bǔ)到中超首發(fā),那個(gè)被罵水貨的大男孩

林子說事
2026-02-25 11:57:01
2026-02-25 16:12:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12199文章數(shù) 176392關(guān)注度
往期回顧 全部

科技要聞

“機(jī)器人只跳舞,沒什么用”

頭條要聞

中方就涉烏克蘭問題的決議草案投棄權(quán)票 中國代表發(fā)聲

頭條要聞

中方就涉烏克蘭問題的決議草案投棄權(quán)票 中國代表發(fā)聲

體育要聞

曝雄鹿計(jì)劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂要聞

撒貝寧到沈陽跑親戚 老婆李白模特身材

財(cái)經(jīng)要聞

GEO亂象:誰為AI營銷的泡沫買單?

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

教育
藝術(shù)
旅游
親子
公開課

教育要聞

【調(diào)劑專區(qū)】26考研調(diào)劑信息第二彈

藝術(shù)要聞

這位藝術(shù)家的馬賽克畫讓人驚嘆不已!

旅游要聞

櫻桃花開了!來烏當(dāng)赴一場春暖花開之約

親子要聞

拇指發(fā)育不良是懷孕吃了雞爪?無理取鬧,無中生有,無稽之談

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版