国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

LangFlow: 挑戰(zhàn)離散擴(kuò)散,探索下一代語言模型新范式

0
分享至



主要作者團(tuán)隊(duì):Yuxin Chen 現(xiàn)為伊利諾伊大學(xué)厄巴納 - 香檳分校(UIUC)碩士一年級(jí)學(xué)生,Chumeng Liang 為 UIUC 博士一年級(jí)學(xué)生,Hangke Sui 為 UIUC 博士二年級(jí)學(xué)生,Ge Liu 為 UIUC 計(jì)算機(jī)系助理教授。Liu Lab 團(tuán)隊(duì)長期聚焦擴(kuò)散 / 流模型方向,已產(chǎn)出 Riemannian Consistency Model (RCM), Statistical Flow Matching, 及本文 LangFlow 等多項(xiàng)代表性研究成果。



  • 論文標(biāo)題:LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling
  • 論文鏈接:https://arxiv.org/abs/2604.11748
  • github:https://github.com/nealchen2003/LangFlow
  • huggingface:https://huggingface.co/papers/2604.11748

“在圖像視頻領(lǐng)域統(tǒng)治的連續(xù)擴(kuò)散模型,為何在文本上遲遲無法突破壁壘,甚至被迫走向‘模仿自回歸’的妥協(xié)之路?”

當(dāng)前擴(kuò)散語言模型(DLM)深陷 “越像 AR 性能越好” 的怪圈。為逼近 AR,主流研究轉(zhuǎn)向離散擴(kuò)散,卻陷入并行解碼困境,逐漸喪失了低延遲與多模態(tài)等原生潛力。

面對(duì)路線分歧,UIUC Ge Liu 團(tuán)隊(duì)發(fā)布新作《LangFlow: Continuous Flow Matching for Large Language Models》,徹底回歸最傳統(tǒng)的連續(xù)擴(kuò)散架構(gòu)。研究指出,連續(xù)擴(kuò)散在文本上的受挫并非先天缺陷,而是受限于訓(xùn)練與評(píng)估策略。經(jīng)過系統(tǒng)性優(yōu)化,LangFlow 首次讓連續(xù)擴(kuò)散在標(biāo)準(zhǔn)基準(zhǔn)上追平離散擴(kuò)散。

這項(xiàng)工作不僅打破了文本生成的離散壁壘,更證明了保留 Diffusion 原生特性的連續(xù)架構(gòu) “同樣能打”,為探索低延遲、高可控的多模態(tài)統(tǒng)一架構(gòu),重新打通了一條被長期忽視的底層路線。

語言模型的發(fā)展方向

當(dāng)今大語言模型(不論是 ChatGPT 還是 DeepSeek)的基礎(chǔ)是自回歸(Autoregressive, AR)架構(gòu),也就是常說的 “預(yù)測下個(gè)詞元”。雖然 AR 架構(gòu)已經(jīng)取得了巨大的成功,但有幾個(gè)本質(zhì)性的天花板難以突破:

1)推理延遲。 AR 架構(gòu)每次推理只預(yù)測下一個(gè)詞元,這意味著:

推理延遲 = 推理步數(shù) × 單步延遲 = 輸出詞元數(shù) × 單步延遲.

對(duì)于 AR 模型來說,單步延遲主要受限于從顯存中讀取之前的內(nèi)容(KV 緩存)。所以,每讀一次 KV 緩存只計(jì)算一個(gè)新詞元是很浪費(fèi)的。

2)可控性。 AR 架構(gòu)主要兼容使用提示詞的控制方式。提示詞與其它信息處于同等地位,因此 AR 受制于指令失效的問題。

3)模態(tài)局限性。 AR 架構(gòu)主要用于預(yù)測離散模態(tài),生成圖像、視頻、空間位置、機(jī)器人動(dòng)作等連續(xù)模態(tài)則需要搭載擴(kuò)散生成頭,不利于架構(gòu)統(tǒng)一。

擴(kuò)散語言模型簡史

近年來,主流思想認(rèn)為,擴(kuò)散語言模型越像自回歸,表現(xiàn)就越好。而最經(jīng)典的連續(xù)擴(kuò)散,一般認(rèn)為存在先天劣勢;但這一偏見正在逐漸被打破



隨著 Stable Diffusion 等先進(jìn)生成模型的發(fā)布,Diffusion 在圖像和視頻生成中確立了統(tǒng)治地位。2022-2023 年,大家自然想把它遷到文本上,以期解決以上三個(gè)問題:

1)低延遲。 Diffusion 可以蒸餾成一步生成模型(如 Consistency Model),讀一次 KV 緩存同時(shí)輸出多個(gè)詞元,大幅降低推理延遲。

2)高可控。 Diffusion 有 Classifier Guidance 以及 Classifier-Free Guidance 等成熟技術(shù),可以強(qiáng)化指令跟隨的質(zhì)量。

3)多模態(tài)。 Diffusion 已經(jīng)是連續(xù)模態(tài)的主流范式,若將離散模態(tài)連續(xù)化,則可以統(tǒng)一架構(gòu),同時(shí)不會(huì)損失任何信息,反之則不然。

盡管上述愿景富有吸引力,但早期的實(shí)驗(yàn)結(jié)果并不理想,且隨著模型規(guī)模的擴(kuò)大,性能差距愈發(fā)明顯。例如,參數(shù)量擴(kuò)展至 1B 的連續(xù)擴(kuò)散模型 Plaid,其性能僅與 100M 參數(shù)的 AR Transformer 相當(dāng)。而 Diffusion-LM 等模型甚至難以在無條件情況下生成通順句子。

傳統(tǒng)擴(kuò)散模型在語言任務(wù)上的局限性,促使研究社區(qū)轉(zhuǎn)向一種 “離散 Diffusion”,也就是從初態(tài)(全 [MASK] 或者詞表中均勻隨機(jī))出發(fā),每步以一個(gè)小概率替換部分詞元。2024 年,離散 Diffusion 取得了顯著進(jìn)展,尤其是初始為全 [MASK] 態(tài)的 Masked Diffusion 家族最為突出,把與 AR 的 PPL 差距縮到 10 以內(nèi)。近期的里程碑是 Block Diffusion,它把數(shù)據(jù)每 4–32 個(gè) token 分一塊,塊內(nèi)是 MDLM,塊間是 AR,PPL 只比 AR 差 3 左右。

截至 2025 年中,DLM 的演進(jìn)路線是很明確的:

(連續(xù))Diffusion → 離散 Diffusion → Masked Diffusion → Block Diffusion

趨勢十分清晰:Diffusion 越像 AR,性能就越接近 AR。這逐漸成為工業(yè)界的共識(shí):在擴(kuò)展 DLM 規(guī)模時(shí),工業(yè)界普遍采用 Block Diffusion,平均每次推理能預(yù)測接下來 32 個(gè)詞元中的 4 個(gè)。這其實(shí)與 DeepSeek-V3 的多詞元預(yù)測(multi-token prediction)技術(shù)不謀而合。

然而,Masked Diffusion 在逼近 AR 性能的同時(shí),也弱化了 Diffusion 的特色,犧牲了以上三個(gè)核心潛力中的兩個(gè):推理延遲與多模態(tài)能力。

(連續(xù))Diffusion 之所以能蒸餾為一步,是因?yàn)槠涓怕柿?ODE 形式下(注:DDIM 的連續(xù)時(shí)間版本,每步不注入噪聲,等價(jià)于一般意義下的 Flow Matching),每個(gè)隨機(jī)初態(tài)確定性地對(duì)應(yīng)一個(gè)終點(diǎn)。然而,Masked Diffusion 初始為單一的全 [MASK] 態(tài),通過逐步注入隨機(jī)性,才能生成多種不同的結(jié)果;如果一步同時(shí)解碼多個(gè) token,其間的對(duì)應(yīng)關(guān)系是捕捉不到的。因此,Masked Diffusion 深陷并行解碼困境(parallel decoding dilemma),也就是隨著生成步數(shù)的減少,多種可能的目標(biāo)句交叉混疊,質(zhì)量不可避免地走向崩潰,如下圖:



Masked Diffusion 的得失引出一個(gè)核心問題:如果 Diffusion 必須依賴模仿 AR 才能提升性能,其作為獨(dú)立語言模型架構(gòu)的獨(dú)特價(jià)值便有待商榷了。

連續(xù)擴(kuò)散模型的回歸

2025 年,前沿研究開始重新審視這一路線,嘗試回歸多初始態(tài)架構(gòu),以保留 Diffusion 的核心特性。代表作 Duo 改進(jìn)了基于均勻隨機(jī)噪聲的離散 Diffusion,雖然在 OpenWebText 上未能超過 Masked Diffusion,但在少步蒸餾后仍保持生成質(zhì)量,并采用專為離散 Diffusion 設(shè)計(jì)的引導(dǎo)機(jī)制。近期研究甚至表明,在 GSM8K(數(shù)學(xué)基準(zhǔn))的擴(kuò)大規(guī)模測試中,Duo 擊敗了 Masked Diffusion 和 AR。這表明模仿 AR 并非提升擴(kuò)散模型性能的唯一路徑。

在最新工作 LangFlow 中,研究團(tuán)隊(duì)比 Duo 更徹底地回歸 —— 直接回到最傳統(tǒng)的 Diffusion。該研究證明:早期連續(xù) DLM 的表現(xiàn)不佳并非源于架構(gòu)的先天缺陷,而是受限于訓(xùn)練策略與評(píng)估方法。經(jīng)優(yōu)化后,同樣在 GPT-2-small 規(guī)模下,連續(xù) Diffusion 追平了離散 Diffusion,甚至可與 AR 相當(dāng)。具體來說,該團(tuán)隊(duì)發(fā)布的模型 LangFlow,在 7 個(gè)零樣本遷移測試中,有 3 個(gè)超過 AR。

下文說明具體做法。

更有效的訓(xùn)練:

刻畫連續(xù)擴(kuò)散的信息熵

Embedding 空間上的 Diffusion

研究團(tuán)隊(duì)采用了embedding 空間上的 diffusion 框架。模型輸入帶噪的 embedding,預(yù)測干凈 token 的概率分布,然后以封閉形式算出 diffusion 的去噪目標(biāo)。

















噪聲的 Schedule

優(yōu)化噪聲 schedule 是提升 DLM 性能的關(guān)鍵。與圖像不同的是,研究團(tuán)隊(duì)發(fā)現(xiàn):DLM 必須偏重極高噪聲區(qū),才能學(xué)得有效信息。

1、標(biāo)準(zhǔn)噪聲 Scheduler 的局限











2、讓 Schedule 匹配信息增量











3、信息量服從 Gumbel 分布









更精準(zhǔn)的測試:還原連續(xù)擴(kuò)散的實(shí)力

關(guān)鍵指標(biāo)解釋

根據(jù)以往的 DLM 工作,該研究沿用以下兩項(xiàng)指標(biāo)(都是越低越好):





Self-Conditioning

研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)指出:關(guān)閉 Self-Conditioning 的對(duì)比對(duì)連續(xù) DLM 是不公平的。







ODE 生成的 PPL 估計(jì)

研究團(tuán)隊(duì)還注意到:之前的工作的變分上界不適用于 LangFlow 所用的 ODE 生成。

準(zhǔn)確的 PPL 度量是公平比較的前提。AR 逐詞元計(jì)算似然;離散擴(kuò)散用變分推導(dǎo)一個(gè)上界。在本研究中,團(tuán)隊(duì)為 LangFlow 的 ODE 生成路徑推導(dǎo)了一個(gè)更適配的 NLL 上界,按序列長度平均并取指數(shù)后即為 PPL:



這個(gè)上界由三部分構(gòu)成:第一項(xiàng)是從噪聲中抽取軌跡起點(diǎn)的 NLL;第二項(xiàng)是 ODE 對(duì)概率密度的壓縮或膨脹;第三項(xiàng)是從軌跡終點(diǎn)還原 token 的 NLL。最后的一項(xiàng),是以上三項(xiàng)中的常數(shù)項(xiàng)相互抵消剩下的總和。

這個(gè)界完全適配 LangFlow 的 ODE 生成,為連續(xù) DLM 的 PPL 評(píng)估提供了更可靠的理論基礎(chǔ)。

多項(xiàng)基準(zhǔn)全面追平:

語言建模與零樣本遷移均進(jìn)入第一梯隊(duì)

連續(xù)擴(kuò)散在 LM1B 和 OWT 的 PPL/Gen. PPL 上整體匹敵離散擴(kuò)散,并取得擴(kuò)散模型中最強(qiáng)的零樣本遷移表現(xiàn)。

研究團(tuán)隊(duì)在 LM1B(句子級(jí))和 OpenWebText(OWT,類似 GPT-2 語料)上評(píng)估 LangFlow。模型都是 130M 參數(shù)的雙向 DiT,訓(xùn)練 1M 步。

語言建模





在 LM1B 上,LangFlow 生成 PPL 達(dá) 91.8,優(yōu)于最強(qiáng)離散 DLM(Duo 97.6)6 分以上。測試集 PPL(31.7)超過所有均勻隨機(jī)噪聲的離散 DLM,與 Masked Diffusion 的 SOTA MDLM(31.0)持平。在 OWT 上,LangFlow(24.3)與 MDLM(23.2)差距僅在 1 左右。這是連續(xù) DLM 首次在標(biāo)準(zhǔn)語言建模基準(zhǔn)上追平離散 DLM。

零樣本遷移

在 7 個(gè) 零樣本遷移測試中,LangFlow 在 3 個(gè)上超過 AR 基線,在 4 個(gè)上超過 MDLM。尤其在 Pubmed 和 Arxiv(充滿結(jié)構(gòu)化、專業(yè)術(shù)語)上,LangFlow 相對(duì) AR 優(yōu)勢顯著(36.45 vs 49.01,32.84 vs 41.73)。LangFlow 不僅放大了離散擴(kuò)散對(duì) AR 的相對(duì)優(yōu)勢,還在其弱勢項(xiàng)目上補(bǔ)齊了短板。

總結(jié):走向多架構(gòu)協(xié)同的下一代語言模型

LangFlow 證明了連續(xù) DLM 完全具備在標(biāo)準(zhǔn)基準(zhǔn)上打平離散 DLM 的基礎(chǔ)能力。然而,Diffusion 的長期價(jià)值并不在于與 AR 進(jìn)行零和博弈,而在于作為 AR 架構(gòu)的關(guān)鍵補(bǔ)充。在低延遲解碼、細(xì)粒度指令控制以及原生多模態(tài)融合等 AR 存在固有局限的領(lǐng)域,連續(xù) Diffusion 展現(xiàn)出了不可替代的天然優(yōu)勢。

未來的語言模型發(fā)展趨勢正指向多種架構(gòu)優(yōu)勢互補(bǔ)的組合,而非單一范式的壟斷。與其將 Diffusion 強(qiáng)行 “改造” 成 AR 的離散生成模式,不如徹底釋放其連續(xù)架構(gòu)的原生潛力。

LangFlow 完整保留了擴(kuò)散模型的核心特性,不僅為連續(xù) DLM 的后續(xù)擴(kuò)展提供了堅(jiān)實(shí)的基線,更為構(gòu)建下一代低延遲、高可控、多模態(tài)共生的 AI 基礎(chǔ)設(shè)施確立了重要的底層路線。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國家發(fā)改委: 禁止外資收購Manus 要求撤銷交易

國家發(fā)改委: 禁止外資收購Manus 要求撤銷交易

每日經(jīng)濟(jì)新聞
2026-04-27 16:29:58
3-0到3-5!趙心童遭5連鞭落后 世錦賽奪冠難度大 附第二階段時(shí)間

3-0到3-5!趙心童遭5連鞭落后 世錦賽奪冠難度大 附第二階段時(shí)間

侃球熊弟
2026-04-28 20:41:54
丟人現(xiàn)眼!女子老太地鐵互毆后續(xù):官方介入,真相曝光,恐將社死

丟人現(xiàn)眼!女子老太地鐵互毆后續(xù):官方介入,真相曝光,恐將社死

派大星紀(jì)錄片
2026-04-28 16:23:41
2026年全面禁麻將?公安部劃定紅線,不超這個(gè)金額全合法!

2026年全面禁麻將?公安部劃定紅線,不超這個(gè)金額全合法!

筆墨V
2026-04-28 14:08:20
外交部再次提醒:中國公民暫勿前往伊朗

外交部再次提醒:中國公民暫勿前往伊朗

界面新聞
2026-04-28 16:55:00
張雪:中國摩托未來必將取代日本品牌

張雪:中國摩托未來必將取代日本品牌

第一財(cái)經(jīng)資訊
2026-04-28 00:20:45
5月1日起!摩托“非禁即行”落地,13省高速禁行,摩友有福了

5月1日起!摩托“非禁即行”落地,13省高速禁行,摩友有福了

老特有話說
2026-04-28 16:04:51
某境外組織大力資助“躺平網(wǎng)紅”,系統(tǒng)性開展“躺平洗腦”,國安部提醒

某境外組織大力資助“躺平網(wǎng)紅”,系統(tǒng)性開展“躺平洗腦”,國安部提醒

界面新聞
2026-04-28 08:10:01
男子曝入職全球頂尖科技公司時(shí)突然被降薪20萬,拒offer后被嘲諷:你的愛國情懷不值20萬嗎

男子曝入職全球頂尖科技公司時(shí)突然被降薪20萬,拒offer后被嘲諷:你的愛國情懷不值20萬嗎

爆角追蹤
2026-04-27 14:54:06
山西大同“訂婚強(qiáng)奸案”男子將于5月4日出獄,母親:為兒子買了新衣,計(jì)劃親自去接,帶他回歸正常生活

山西大同“訂婚強(qiáng)奸案”男子將于5月4日出獄,母親:為兒子買了新衣,計(jì)劃親自去接,帶他回歸正常生活

大風(fēng)新聞
2026-04-28 17:18:06
AI速度超快!算法專家郭宇認(rèn)為Claude Code在6個(gè)月內(nèi)就能淘汰知識(shí)工作者

AI速度超快!算法專家郭宇認(rèn)為Claude Code在6個(gè)月內(nèi)就能淘汰知識(shí)工作者

知識(shí)圈
2026-04-28 19:09:54
售價(jià)200萬!華為新車震驚行業(yè)

售價(jià)200萬!華為新車震驚行業(yè)

李東陽朋友圈
2026-04-28 16:07:38
沙特可能將6月對(duì)亞洲的官方原油售價(jià)從創(chuàng)紀(jì)錄水平下調(diào)

沙特可能將6月對(duì)亞洲的官方原油售價(jià)從創(chuàng)紀(jì)錄水平下調(diào)

財(cái)聯(lián)社
2026-04-28 16:24:28
張柱任農(nóng)業(yè)農(nóng)村部黨組書記

張柱任農(nóng)業(yè)農(nóng)村部黨組書記

界面新聞
2026-04-28 20:57:23
10年19冠!曼城官宣31歲功勛自由身離隊(duì) 周薪25萬  意甲3豪門哄搶

10年19冠!曼城官宣31歲功勛自由身離隊(duì) 周薪25萬 意甲3豪門哄搶

我愛英超
2026-04-28 20:29:10
從北京車展,重新認(rèn)識(shí)“豪華引領(lǐng)者”問界

從北京車展,重新認(rèn)識(shí)“豪華引領(lǐng)者”問界

一點(diǎn)財(cái)經(jīng)
2026-04-28 09:21:08
4000萬粉網(wǎng)紅白冰,偷稅超900萬被查!從發(fā)廊小哥到富豪,靠“接地氣、不割韭菜”立人設(shè)!

4000萬粉網(wǎng)紅白冰,偷稅超900萬被查!從發(fā)廊小哥到富豪,靠“接地氣、不割韭菜”立人設(shè)!

新民周刊
2026-04-28 20:08:08
最高檢:用人單位未及時(shí)足額繳納社保將面臨法律制裁

最高檢:用人單位未及時(shí)足額繳納社保將面臨法律制裁

新華社
2026-04-28 17:29:20
甘肅榆中山洪災(zāi)害調(diào)查評(píng)估報(bào)告公布

甘肅榆中山洪災(zāi)害調(diào)查評(píng)估報(bào)告公布

界面新聞
2026-04-28 16:01:49
云南14歲男生殺害同班15歲女生,一審被判處無期徒刑;女孩父親終日借酒澆愁已飲酒300斤

云南14歲男生殺害同班15歲女生,一審被判處無期徒刑;女孩父親終日借酒澆愁已飲酒300斤

大風(fēng)新聞
2026-04-28 17:08:25
2026-04-29 01:07:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12883文章數(shù) 142638關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

媒體:臺(tái)海軍退役少校登烏魯木齊艦 給出的結(jié)論很直接

頭條要聞

媒體:臺(tái)海軍退役少校登烏魯木齊艦 給出的結(jié)論很直接

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長在未來審美點(diǎn)上

態(tài)度原創(chuàng)

健康
時(shí)尚
本地
手機(jī)
數(shù)碼

干細(xì)胞治療燒燙傷三大優(yōu)勢!

普通女性春天穿什么好看?這些穿搭值得借鑒,自然舒適

本地新聞

用青花瓷的方式,打開西溪濕地

手機(jī)要聞

三星裸眼3D屏來了,廣告牌能“跳”出來

數(shù)碼要聞

機(jī)械革命蒼龍16 / 18 Pro游戲本RTX 5070 12GB款開啟預(yù)約

無障礙瀏覽 進(jìn)入關(guān)懷版