網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

LangFlow: 挑戰(zhàn)離散擴(kuò)散，探索下一代語言模型新范式

2026-04-28 22:22:24　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

主要作者團(tuán)隊(duì)：Yuxin Chen 現(xiàn)為伊利諾伊大學(xué)厄巴納 - 香檳分校（UIUC）碩士一年級(jí)學(xué)生，Chumeng Liang 為 UIUC 博士一年級(jí)學(xué)生，Hangke Sui 為 UIUC 博士二年級(jí)學(xué)生，Ge Liu 為 UIUC 計(jì)算機(jī)系助理教授。Liu Lab 團(tuán)隊(duì)長(zhǎng)期聚焦擴(kuò)散 / 流模型方向，已產(chǎn)出 Riemannian Consistency Model (RCM), Statistical Flow Matching, 及本文 LangFlow 等多項(xiàng)代表性研究成果。

論文標(biāo)題：LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling
論文鏈接：https://arxiv.org/abs/2604.11748
github：https://github.com/nealchen2003/LangFlow
huggingface：https://huggingface.co/papers/2604.11748

“在圖像視頻領(lǐng)域統(tǒng)治的連續(xù)擴(kuò)散模型，為何在文本上遲遲無法突破壁壘，甚至被迫走向‘模仿自回歸’的妥協(xié)之路？”

當(dāng)前擴(kuò)散語言模型（DLM）深陷 “越像 AR 性能越好” 的怪圈。為逼近 AR，主流研究轉(zhuǎn)向離散擴(kuò)散，卻陷入并行解碼困境，逐漸喪失了低延遲與多模態(tài)等原生潛力。

面對(duì)路線分歧，UIUC Ge Liu 團(tuán)隊(duì)發(fā)布新作《LangFlow: Continuous Flow Matching for Large Language Models》，徹底回歸最傳統(tǒng)的連續(xù)擴(kuò)散架構(gòu)。研究指出，連續(xù)擴(kuò)散在文本上的受挫并非先天缺陷，而是受限于訓(xùn)練與評(píng)估策略。經(jīng)過系統(tǒng)性優(yōu)化，LangFlow 首次讓連續(xù)擴(kuò)散在標(biāo)準(zhǔn)基準(zhǔn)上追平離散擴(kuò)散。

這項(xiàng)工作不僅打破了文本生成的離散壁壘，更證明了保留 Diffusion 原生特性的連續(xù)架構(gòu) “同樣能打”，為探索低延遲、高可控的多模態(tài)統(tǒng)一架構(gòu)，重新打通了一條被長(zhǎng)期忽視的底層路線。

語言模型的發(fā)展方向

當(dāng)今大語言模型（不論是 ChatGPT 還是 DeepSeek）的基礎(chǔ)是自回歸（Autoregressive, AR）架構(gòu)，也就是常說的 “預(yù)測(cè)下個(gè)詞元”。雖然 AR 架構(gòu)已經(jīng)取得了巨大的成功，但有幾個(gè)本質(zhì)性的天花板難以突破：

1)推理延遲。 AR 架構(gòu)每次推理只預(yù)測(cè)下一個(gè)詞元，這意味著：

推理延遲 = 推理步數(shù) × 單步延遲 = 輸出詞元數(shù) × 單步延遲.

對(duì)于 AR 模型來說，單步延遲主要受限于從顯存中讀取之前的內(nèi)容（KV 緩存）。所以，每讀一次 KV 緩存只計(jì)算一個(gè)新詞元是很浪費(fèi)的。

2)可控性。 AR 架構(gòu)主要兼容使用提示詞的控制方式。提示詞與其它信息處于同等地位，因此 AR 受制于指令失效的問題。

3)模態(tài)局限性。 AR 架構(gòu)主要用于預(yù)測(cè)離散模態(tài)，生成圖像、視頻、空間位置、機(jī)器人動(dòng)作等連續(xù)模態(tài)則需要搭載擴(kuò)散生成頭，不利于架構(gòu)統(tǒng)一。

擴(kuò)散語言模型簡(jiǎn)史

近年來，主流思想認(rèn)為，擴(kuò)散語言模型越像自回歸，表現(xiàn)就越好。而最經(jīng)典的連續(xù)擴(kuò)散，一般認(rèn)為存在先天劣勢(shì)；但這一偏見正在逐漸被打破。

隨著 Stable Diffusion 等先進(jìn)生成模型的發(fā)布，Diffusion 在圖像和視頻生成中確立了統(tǒng)治地位。2022-2023 年，大家自然想把它遷到文本上，以期解決以上三個(gè)問題：

1)低延遲。 Diffusion 可以蒸餾成一步生成模型（如 Consistency Model），讀一次 KV 緩存同時(shí)輸出多個(gè)詞元，大幅降低推理延遲。

2)高可控。 Diffusion 有 Classifier Guidance 以及 Classifier-Free Guidance 等成熟技術(shù)，可以強(qiáng)化指令跟隨的質(zhì)量。

3)多模態(tài)。 Diffusion 已經(jīng)是連續(xù)模態(tài)的主流范式，若將離散模態(tài)連續(xù)化，則可以統(tǒng)一架構(gòu)，同時(shí)不會(huì)損失任何信息，反之則不然。

盡管上述愿景富有吸引力，但早期的實(shí)驗(yàn)結(jié)果并不理想，且隨著模型規(guī)模的擴(kuò)大，性能差距愈發(fā)明顯。例如，參數(shù)量擴(kuò)展至 1B 的連續(xù)擴(kuò)散模型 Plaid，其性能僅與 100M 參數(shù)的 AR Transformer 相當(dāng)。而 Diffusion-LM 等模型甚至難以在無條件情況下生成通順句子。

傳統(tǒng)擴(kuò)散模型在語言任務(wù)上的局限性，促使研究社區(qū)轉(zhuǎn)向一種 “離散 Diffusion”，也就是從初態(tài)（全 [MASK] 或者詞表中均勻隨機(jī)）出發(fā)，每步以一個(gè)小概率替換部分詞元。2024 年，離散 Diffusion 取得了顯著進(jìn)展，尤其是初始為全 [MASK] 態(tài)的 Masked Diffusion 家族最為突出，把與 AR 的 PPL 差距縮到 10 以內(nèi)。近期的里程碑是 Block Diffusion，它把數(shù)據(jù)每 4–32 個(gè) token 分一塊，塊內(nèi)是 MDLM，塊間是 AR，PPL 只比 AR 差 3 左右。

截至 2025 年中，DLM 的演進(jìn)路線是很明確的：

（連續(xù)）Diffusion → 離散 Diffusion → Masked Diffusion → Block Diffusion

趨勢(shì)十分清晰：Diffusion 越像 AR，性能就越接近 AR。這逐漸成為工業(yè)界的共識(shí)：在擴(kuò)展 DLM 規(guī)模時(shí)，工業(yè)界普遍采用 Block Diffusion，平均每次推理能預(yù)測(cè)接下來 32 個(gè)詞元中的 4 個(gè)。這其實(shí)與 DeepSeek-V3 的多詞元預(yù)測(cè)（multi-token prediction）技術(shù)不謀而合。

然而，Masked Diffusion 在逼近 AR 性能的同時(shí)，也弱化了 Diffusion 的特色，犧牲了以上三個(gè)核心潛力中的兩個(gè)：推理延遲與多模態(tài)能力。

（連續(xù)）Diffusion 之所以能蒸餾為一步，是因?yàn)槠涓怕柿?ODE 形式下（注：DDIM 的連續(xù)時(shí)間版本，每步不注入噪聲，等價(jià)于一般意義下的 Flow Matching），每個(gè)隨機(jī)初態(tài)確定性地對(duì)應(yīng)一個(gè)終點(diǎn)。然而，Masked Diffusion 初始為單一的全 [MASK] 態(tài)，通過逐步注入隨機(jī)性，才能生成多種不同的結(jié)果；如果一步同時(shí)解碼多個(gè) token，其間的對(duì)應(yīng)關(guān)系是捕捉不到的。因此，Masked Diffusion 深陷并行解碼困境（parallel decoding dilemma），也就是隨著生成步數(shù)的減少，多種可能的目標(biāo)句交叉混疊，質(zhì)量不可避免地走向崩潰，如下圖：

Masked Diffusion 的得失引出一個(gè)核心問題：如果 Diffusion 必須依賴模仿 AR 才能提升性能，其作為獨(dú)立語言模型架構(gòu)的獨(dú)特價(jià)值便有待商榷了。

連續(xù)擴(kuò)散模型的回歸

2025 年，前沿研究開始重新審視這一路線，嘗試回歸多初始態(tài)架構(gòu)，以保留 Diffusion 的核心特性。代表作 Duo 改進(jìn)了基于均勻隨機(jī)噪聲的離散 Diffusion，雖然在 OpenWebText 上未能超過 Masked Diffusion，但在少步蒸餾后仍保持生成質(zhì)量，并采用專為離散 Diffusion 設(shè)計(jì)的引導(dǎo)機(jī)制。近期研究甚至表明，在 GSM8K（數(shù)學(xué)基準(zhǔn)）的擴(kuò)大規(guī)模測(cè)試中，Duo 擊敗了 Masked Diffusion 和 AR。這表明模仿 AR 并非提升擴(kuò)散模型性能的唯一路徑。

在最新工作 LangFlow 中，研究團(tuán)隊(duì)比 Duo 更徹底地回歸 —— 直接回到最傳統(tǒng)的 Diffusion。該研究證明：早期連續(xù) DLM 的表現(xiàn)不佳并非源于架構(gòu)的先天缺陷，而是受限于訓(xùn)練策略與評(píng)估方法。經(jīng)優(yōu)化后，同樣在 GPT-2-small 規(guī)模下，連續(xù) Diffusion 追平了離散 Diffusion，甚至可與 AR 相當(dāng)。具體來說，該團(tuán)隊(duì)發(fā)布的模型 LangFlow，在 7 個(gè)零樣本遷移測(cè)試中，有 3 個(gè)超過 AR。

下文說明具體做法。

更有效的訓(xùn)練：

刻畫連續(xù)擴(kuò)散的信息熵

Embedding 空間上的 Diffusion

研究團(tuán)隊(duì)采用了embedding 空間上的 diffusion 框架。模型輸入帶噪的 embedding，預(yù)測(cè)干凈 token 的概率分布，然后以封閉形式算出 diffusion 的去噪目標(biāo)。

噪聲的 Schedule

優(yōu)化噪聲 schedule 是提升 DLM 性能的關(guān)鍵。與圖像不同的是，研究團(tuán)隊(duì)發(fā)現(xiàn)：DLM 必須偏重極高噪聲區(qū)，才能學(xué)得有效信息。

1、標(biāo)準(zhǔn)噪聲 Scheduler 的局限

2、讓 Schedule 匹配信息增量

3、信息量服從 Gumbel 分布

更精準(zhǔn)的測(cè)試：還原連續(xù)擴(kuò)散的實(shí)力

關(guān)鍵指標(biāo)解釋

根據(jù)以往的 DLM 工作，該研究沿用以下兩項(xiàng)指標(biāo)（都是越低越好）：

Self-Conditioning

研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)指出：關(guān)閉 Self-Conditioning 的對(duì)比對(duì)連續(xù) DLM 是不公平的。

ODE 生成的 PPL 估計(jì)

研究團(tuán)隊(duì)還注意到：之前的工作的變分上界不適用于 LangFlow 所用的 ODE 生成。

準(zhǔn)確的 PPL 度量是公平比較的前提。AR 逐詞元計(jì)算似然；離散擴(kuò)散用變分推導(dǎo)一個(gè)上界。在本研究中，團(tuán)隊(duì)為 LangFlow 的 ODE 生成路徑推導(dǎo)了一個(gè)更適配的 NLL 上界，按序列長(zhǎng)度平均并取指數(shù)后即為 PPL：

這個(gè)上界由三部分構(gòu)成：第一項(xiàng)是從噪聲中抽取軌跡起點(diǎn)的 NLL；第二項(xiàng)是 ODE 對(duì)概率密度的壓縮或膨脹；第三項(xiàng)是從軌跡終點(diǎn)還原 token 的 NLL。最后的一項(xiàng)，是以上三項(xiàng)中的常數(shù)項(xiàng)相互抵消剩下的總和。

這個(gè)界完全適配 LangFlow 的 ODE 生成，為連續(xù) DLM 的 PPL 評(píng)估提供了更可靠的理論基礎(chǔ)。

多項(xiàng)基準(zhǔn)全面追平：

語言建模與零樣本遷移均進(jìn)入第一梯隊(duì)

連續(xù)擴(kuò)散在 LM1B 和 OWT 的 PPL/Gen. PPL 上整體匹敵離散擴(kuò)散，并取得擴(kuò)散模型中最強(qiáng)的零樣本遷移表現(xiàn)。

研究團(tuán)隊(duì)在 LM1B（句子級(jí)）和 OpenWebText（OWT，類似 GPT-2 語料）上評(píng)估 LangFlow。模型都是 130M 參數(shù)的雙向 DiT，訓(xùn)練 1M 步。

語言建模

在 LM1B 上，LangFlow 生成 PPL 達(dá) 91.8，優(yōu)于最強(qiáng)離散 DLM（Duo 97.6）6 分以上。測(cè)試集 PPL（31.7）超過所有均勻隨機(jī)噪聲的離散 DLM，與 Masked Diffusion 的 SOTA MDLM（31.0）持平。在 OWT 上，LangFlow（24.3）與 MDLM（23.2）差距僅在 1 左右。這是連續(xù) DLM 首次在標(biāo)準(zhǔn)語言建?；鶞?zhǔn)上追平離散 DLM。

零樣本遷移

在 7 個(gè) 零樣本遷移測(cè)試中，LangFlow 在 3 個(gè)上超過 AR 基線，在 4 個(gè)上超過 MDLM。尤其在 Pubmed 和 Arxiv（充滿結(jié)構(gòu)化、專業(yè)術(shù)語）上，LangFlow 相對(duì) AR 優(yōu)勢(shì)顯著（36.45 vs 49.01，32.84 vs 41.73）。LangFlow 不僅放大了離散擴(kuò)散對(duì) AR 的相對(duì)優(yōu)勢(shì)，還在其弱勢(shì)項(xiàng)目上補(bǔ)齊了短板。

總結(jié)：走向多架構(gòu)協(xié)同的下一代語言模型

LangFlow 證明了連續(xù) DLM 完全具備在標(biāo)準(zhǔn)基準(zhǔn)上打平離散 DLM 的基礎(chǔ)能力。然而，Diffusion 的長(zhǎng)期價(jià)值并不在于與 AR 進(jìn)行零和博弈，而在于作為 AR 架構(gòu)的關(guān)鍵補(bǔ)充。在低延遲解碼、細(xì)粒度指令控制以及原生多模態(tài)融合等 AR 存在固有局限的領(lǐng)域，連續(xù) Diffusion 展現(xiàn)出了不可替代的天然優(yōu)勢(shì)。

未來的語言模型發(fā)展趨勢(shì)正指向多種架構(gòu)優(yōu)勢(shì)互補(bǔ)的組合，而非單一范式的壟斷。與其將 Diffusion 強(qiáng)行 “改造” 成 AR 的離散生成模式，不如徹底釋放其連續(xù)架構(gòu)的原生潛力。

LangFlow 完整保留了擴(kuò)散模型的核心特性，不僅為連續(xù) DLM 的后續(xù)擴(kuò)展提供了堅(jiān)實(shí)的基線，更為構(gòu)建下一代低延遲、高可控、多模態(tài)共生的 AI 基礎(chǔ)設(shè)施確立了重要的底層路線。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.