国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

LangFlow: 挑戰(zhàn)離散擴(kuò)散,探索下一代語言模型新范式

0
分享至



主要作者團(tuán)隊(duì):Yuxin Chen 現(xiàn)為伊利諾伊大學(xué)厄巴納 - 香檳分校(UIUC)碩士一年級(jí)學(xué)生,Chumeng Liang 為 UIUC 博士一年級(jí)學(xué)生,Hangke Sui 為 UIUC 博士二年級(jí)學(xué)生,Ge Liu 為 UIUC 計(jì)算機(jī)系助理教授。Liu Lab 團(tuán)隊(duì)長(zhǎng)期聚焦擴(kuò)散 / 流模型方向,已產(chǎn)出 Riemannian Consistency Model (RCM), Statistical Flow Matching, 及本文 LangFlow 等多項(xiàng)代表性研究成果。



  • 論文標(biāo)題:LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling
  • 論文鏈接:https://arxiv.org/abs/2604.11748
  • github:https://github.com/nealchen2003/LangFlow
  • huggingface:https://huggingface.co/papers/2604.11748

“在圖像視頻領(lǐng)域統(tǒng)治的連續(xù)擴(kuò)散模型,為何在文本上遲遲無法突破壁壘,甚至被迫走向‘模仿自回歸’的妥協(xié)之路?”

當(dāng)前擴(kuò)散語言模型(DLM)深陷 “越像 AR 性能越好” 的怪圈。為逼近 AR,主流研究轉(zhuǎn)向離散擴(kuò)散,卻陷入并行解碼困境,逐漸喪失了低延遲與多模態(tài)等原生潛力。

面對(duì)路線分歧,UIUC Ge Liu 團(tuán)隊(duì)發(fā)布新作《LangFlow: Continuous Flow Matching for Large Language Models》,徹底回歸最傳統(tǒng)的連續(xù)擴(kuò)散架構(gòu)。研究指出,連續(xù)擴(kuò)散在文本上的受挫并非先天缺陷,而是受限于訓(xùn)練與評(píng)估策略。經(jīng)過系統(tǒng)性優(yōu)化,LangFlow 首次讓連續(xù)擴(kuò)散在標(biāo)準(zhǔn)基準(zhǔn)上追平離散擴(kuò)散。

這項(xiàng)工作不僅打破了文本生成的離散壁壘,更證明了保留 Diffusion 原生特性的連續(xù)架構(gòu) “同樣能打”,為探索低延遲、高可控的多模態(tài)統(tǒng)一架構(gòu),重新打通了一條被長(zhǎng)期忽視的底層路線。

語言模型的發(fā)展方向

當(dāng)今大語言模型(不論是 ChatGPT 還是 DeepSeek)的基礎(chǔ)是自回歸(Autoregressive, AR)架構(gòu),也就是常說的 “預(yù)測(cè)下個(gè)詞元”。雖然 AR 架構(gòu)已經(jīng)取得了巨大的成功,但有幾個(gè)本質(zhì)性的天花板難以突破:

1)推理延遲。 AR 架構(gòu)每次推理只預(yù)測(cè)下一個(gè)詞元,這意味著:

推理延遲 = 推理步數(shù) × 單步延遲 = 輸出詞元數(shù) × 單步延遲.

對(duì)于 AR 模型來說,單步延遲主要受限于從顯存中讀取之前的內(nèi)容(KV 緩存)。所以,每讀一次 KV 緩存只計(jì)算一個(gè)新詞元是很浪費(fèi)的。

2)可控性。 AR 架構(gòu)主要兼容使用提示詞的控制方式。提示詞與其它信息處于同等地位,因此 AR 受制于指令失效的問題。

3)模態(tài)局限性。 AR 架構(gòu)主要用于預(yù)測(cè)離散模態(tài),生成圖像、視頻、空間位置、機(jī)器人動(dòng)作等連續(xù)模態(tài)則需要搭載擴(kuò)散生成頭,不利于架構(gòu)統(tǒng)一。

擴(kuò)散語言模型簡(jiǎn)史

近年來,主流思想認(rèn)為,擴(kuò)散語言模型越像自回歸,表現(xiàn)就越好。而最經(jīng)典的連續(xù)擴(kuò)散,一般認(rèn)為存在先天劣勢(shì);但這一偏見正在逐漸被打破。



隨著 Stable Diffusion 等先進(jìn)生成模型的發(fā)布,Diffusion 在圖像和視頻生成中確立了統(tǒng)治地位。2022-2023 年,大家自然想把它遷到文本上,以期解決以上三個(gè)問題:

1)低延遲。 Diffusion 可以蒸餾成一步生成模型(如 Consistency Model),讀一次 KV 緩存同時(shí)輸出多個(gè)詞元,大幅降低推理延遲。

2)高可控。 Diffusion 有 Classifier Guidance 以及 Classifier-Free Guidance 等成熟技術(shù),可以強(qiáng)化指令跟隨的質(zhì)量。

3)多模態(tài)。 Diffusion 已經(jīng)是連續(xù)模態(tài)的主流范式,若將離散模態(tài)連續(xù)化,則可以統(tǒng)一架構(gòu),同時(shí)不會(huì)損失任何信息,反之則不然。

盡管上述愿景富有吸引力,但早期的實(shí)驗(yàn)結(jié)果并不理想,且隨著模型規(guī)模的擴(kuò)大,性能差距愈發(fā)明顯。例如,參數(shù)量擴(kuò)展至 1B 的連續(xù)擴(kuò)散模型 Plaid,其性能僅與 100M 參數(shù)的 AR Transformer 相當(dāng)。而 Diffusion-LM 等模型甚至難以在無條件情況下生成通順句子。

傳統(tǒng)擴(kuò)散模型在語言任務(wù)上的局限性,促使研究社區(qū)轉(zhuǎn)向一種 “離散 Diffusion”,也就是從初態(tài)(全 [MASK] 或者詞表中均勻隨機(jī))出發(fā),每步以一個(gè)小概率替換部分詞元。2024 年,離散 Diffusion 取得了顯著進(jìn)展,尤其是初始為全 [MASK] 態(tài)的 Masked Diffusion 家族最為突出,把與 AR 的 PPL 差距縮到 10 以內(nèi)。近期的里程碑是 Block Diffusion,它把數(shù)據(jù)每 4–32 個(gè) token 分一塊,塊內(nèi)是 MDLM,塊間是 AR,PPL 只比 AR 差 3 左右。

截至 2025 年中,DLM 的演進(jìn)路線是很明確的:

(連續(xù))Diffusion → 離散 Diffusion → Masked Diffusion → Block Diffusion

趨勢(shì)十分清晰:Diffusion 越像 AR,性能就越接近 AR。這逐漸成為工業(yè)界的共識(shí):在擴(kuò)展 DLM 規(guī)模時(shí),工業(yè)界普遍采用 Block Diffusion,平均每次推理能預(yù)測(cè)接下來 32 個(gè)詞元中的 4 個(gè)。這其實(shí)與 DeepSeek-V3 的多詞元預(yù)測(cè)(multi-token prediction)技術(shù)不謀而合。

然而,Masked Diffusion 在逼近 AR 性能的同時(shí),也弱化了 Diffusion 的特色,犧牲了以上三個(gè)核心潛力中的兩個(gè):推理延遲與多模態(tài)能力。

(連續(xù))Diffusion 之所以能蒸餾為一步,是因?yàn)槠涓怕柿?ODE 形式下(注:DDIM 的連續(xù)時(shí)間版本,每步不注入噪聲,等價(jià)于一般意義下的 Flow Matching),每個(gè)隨機(jī)初態(tài)確定性地對(duì)應(yīng)一個(gè)終點(diǎn)。然而,Masked Diffusion 初始為單一的全 [MASK] 態(tài),通過逐步注入隨機(jī)性,才能生成多種不同的結(jié)果;如果一步同時(shí)解碼多個(gè) token,其間的對(duì)應(yīng)關(guān)系是捕捉不到的。因此,Masked Diffusion 深陷并行解碼困境(parallel decoding dilemma),也就是隨著生成步數(shù)的減少,多種可能的目標(biāo)句交叉混疊,質(zhì)量不可避免地走向崩潰,如下圖:



Masked Diffusion 的得失引出一個(gè)核心問題:如果 Diffusion 必須依賴模仿 AR 才能提升性能,其作為獨(dú)立語言模型架構(gòu)的獨(dú)特價(jià)值便有待商榷了。

連續(xù)擴(kuò)散模型的回歸

2025 年,前沿研究開始重新審視這一路線,嘗試回歸多初始態(tài)架構(gòu),以保留 Diffusion 的核心特性。代表作 Duo 改進(jìn)了基于均勻隨機(jī)噪聲的離散 Diffusion,雖然在 OpenWebText 上未能超過 Masked Diffusion,但在少步蒸餾后仍保持生成質(zhì)量,并采用專為離散 Diffusion 設(shè)計(jì)的引導(dǎo)機(jī)制。近期研究甚至表明,在 GSM8K(數(shù)學(xué)基準(zhǔn))的擴(kuò)大規(guī)模測(cè)試中,Duo 擊敗了 Masked Diffusion 和 AR。這表明模仿 AR 并非提升擴(kuò)散模型性能的唯一路徑。

在最新工作 LangFlow 中,研究團(tuán)隊(duì)比 Duo 更徹底地回歸 —— 直接回到最傳統(tǒng)的 Diffusion。該研究證明:早期連續(xù) DLM 的表現(xiàn)不佳并非源于架構(gòu)的先天缺陷,而是受限于訓(xùn)練策略與評(píng)估方法。經(jīng)優(yōu)化后,同樣在 GPT-2-small 規(guī)模下,連續(xù) Diffusion 追平了離散 Diffusion,甚至可與 AR 相當(dāng)。具體來說,該團(tuán)隊(duì)發(fā)布的模型 LangFlow,在 7 個(gè)零樣本遷移測(cè)試中,有 3 個(gè)超過 AR。

下文說明具體做法。

更有效的訓(xùn)練:

刻畫連續(xù)擴(kuò)散的信息熵

Embedding 空間上的 Diffusion

研究團(tuán)隊(duì)采用了embedding 空間上的 diffusion 框架。模型輸入帶噪的 embedding,預(yù)測(cè)干凈 token 的概率分布,然后以封閉形式算出 diffusion 的去噪目標(biāo)。

















噪聲的 Schedule

優(yōu)化噪聲 schedule 是提升 DLM 性能的關(guān)鍵。與圖像不同的是,研究團(tuán)隊(duì)發(fā)現(xiàn):DLM 必須偏重極高噪聲區(qū),才能學(xué)得有效信息。

1、標(biāo)準(zhǔn)噪聲 Scheduler 的局限











2、讓 Schedule 匹配信息增量











3、信息量服從 Gumbel 分布









更精準(zhǔn)的測(cè)試:還原連續(xù)擴(kuò)散的實(shí)力

關(guān)鍵指標(biāo)解釋

根據(jù)以往的 DLM 工作,該研究沿用以下兩項(xiàng)指標(biāo)(都是越低越好):





Self-Conditioning

研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)指出:關(guān)閉 Self-Conditioning 的對(duì)比對(duì)連續(xù) DLM 是不公平的。







ODE 生成的 PPL 估計(jì)

研究團(tuán)隊(duì)還注意到:之前的工作的變分上界不適用于 LangFlow 所用的 ODE 生成。

準(zhǔn)確的 PPL 度量是公平比較的前提。AR 逐詞元計(jì)算似然;離散擴(kuò)散用變分推導(dǎo)一個(gè)上界。在本研究中,團(tuán)隊(duì)為 LangFlow 的 ODE 生成路徑推導(dǎo)了一個(gè)更適配的 NLL 上界,按序列長(zhǎng)度平均并取指數(shù)后即為 PPL:



這個(gè)上界由三部分構(gòu)成:第一項(xiàng)是從噪聲中抽取軌跡起點(diǎn)的 NLL;第二項(xiàng)是 ODE 對(duì)概率密度的壓縮或膨脹;第三項(xiàng)是從軌跡終點(diǎn)還原 token 的 NLL。最后的一項(xiàng),是以上三項(xiàng)中的常數(shù)項(xiàng)相互抵消剩下的總和。

這個(gè)界完全適配 LangFlow 的 ODE 生成,為連續(xù) DLM 的 PPL 評(píng)估提供了更可靠的理論基礎(chǔ)。

多項(xiàng)基準(zhǔn)全面追平:

語言建模與零樣本遷移均進(jìn)入第一梯隊(duì)

連續(xù)擴(kuò)散在 LM1B 和 OWT 的 PPL/Gen. PPL 上整體匹敵離散擴(kuò)散,并取得擴(kuò)散模型中最強(qiáng)的零樣本遷移表現(xiàn)。

研究團(tuán)隊(duì)在 LM1B(句子級(jí))和 OpenWebText(OWT,類似 GPT-2 語料)上評(píng)估 LangFlow。模型都是 130M 參數(shù)的雙向 DiT,訓(xùn)練 1M 步。

語言建模





在 LM1B 上,LangFlow 生成 PPL 達(dá) 91.8,優(yōu)于最強(qiáng)離散 DLM(Duo 97.6)6 分以上。測(cè)試集 PPL(31.7)超過所有均勻隨機(jī)噪聲的離散 DLM,與 Masked Diffusion 的 SOTA MDLM(31.0)持平。在 OWT 上,LangFlow(24.3)與 MDLM(23.2)差距僅在 1 左右。這是連續(xù) DLM 首次在標(biāo)準(zhǔn)語言建?;鶞?zhǔn)上追平離散 DLM。

零樣本遷移

在 7 個(gè) 零樣本遷移測(cè)試中,LangFlow 在 3 個(gè)上超過 AR 基線,在 4 個(gè)上超過 MDLM。尤其在 Pubmed 和 Arxiv(充滿結(jié)構(gòu)化、專業(yè)術(shù)語)上,LangFlow 相對(duì) AR 優(yōu)勢(shì)顯著(36.45 vs 49.01,32.84 vs 41.73)。LangFlow 不僅放大了離散擴(kuò)散對(duì) AR 的相對(duì)優(yōu)勢(shì),還在其弱勢(shì)項(xiàng)目上補(bǔ)齊了短板。

總結(jié):走向多架構(gòu)協(xié)同的下一代語言模型

LangFlow 證明了連續(xù) DLM 完全具備在標(biāo)準(zhǔn)基準(zhǔn)上打平離散 DLM 的基礎(chǔ)能力。然而,Diffusion 的長(zhǎng)期價(jià)值并不在于與 AR 進(jìn)行零和博弈,而在于作為 AR 架構(gòu)的關(guān)鍵補(bǔ)充。在低延遲解碼、細(xì)粒度指令控制以及原生多模態(tài)融合等 AR 存在固有局限的領(lǐng)域,連續(xù) Diffusion 展現(xiàn)出了不可替代的天然優(yōu)勢(shì)。

未來的語言模型發(fā)展趨勢(shì)正指向多種架構(gòu)優(yōu)勢(shì)互補(bǔ)的組合,而非單一范式的壟斷。與其將 Diffusion 強(qiáng)行 “改造” 成 AR 的離散生成模式,不如徹底釋放其連續(xù)架構(gòu)的原生潛力。

LangFlow 完整保留了擴(kuò)散模型的核心特性,不僅為連續(xù) DLM 的后續(xù)擴(kuò)展提供了堅(jiān)實(shí)的基線,更為構(gòu)建下一代低延遲、高可控、多模態(tài)共生的 AI 基礎(chǔ)設(shè)施確立了重要的底層路線。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

一種觀點(diǎn)
2026-05-05 19:24:58
1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

葉青足球世界
2026-05-06 07:54:58
偉偉道來 | 伊朗的反應(yīng)為何如此激烈

偉偉道來 | 伊朗的反應(yīng)為何如此激烈

經(jīng)濟(jì)觀察報(bào)
2026-05-06 11:40:46
吳宜澤透露拿到獎(jiǎng)金后準(zhǔn)備在英國(guó)買房,50萬英鎊獎(jiǎng)金需交稅超23萬鎊,實(shí)際到手約26.5萬鎊

吳宜澤透露拿到獎(jiǎng)金后準(zhǔn)備在英國(guó)買房,50萬英鎊獎(jiǎng)金需交稅超23萬鎊,實(shí)際到手約26.5萬鎊

大風(fēng)新聞
2026-05-06 11:53:02
定了!斯諾克巨星邀請(qǐng)賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

定了!斯諾克巨星邀請(qǐng)賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

劉姚堯的文字城堡
2026-05-06 08:31:36
女性跑步:暴露這個(gè)隱私,是性感嗎?

女性跑步:暴露這個(gè)隱私,是性感嗎?

馬拉松跑步健身
2026-05-05 19:18:07
吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

懂球帝
2026-05-05 19:39:09
在中國(guó)人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個(gè)人,沒一個(gè)在出現(xiàn)場(chǎng)

在中國(guó)人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個(gè)人,沒一個(gè)在出現(xiàn)場(chǎng)

侃故事的阿慶
2026-05-06 09:21:32
被延長(zhǎng)的搶救時(shí)間,被卡住的工傷認(rèn)定

被延長(zhǎng)的搶救時(shí)間,被卡住的工傷認(rèn)定

新京報(bào)
2026-05-06 11:03:07
51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

漢史趣聞
2026-05-05 11:40:36
世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動(dòng)筷子

世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動(dòng)筷子

畫夕
2026-05-05 14:38:17
廣州第一爛尾樓 兩千家庭半生遺憾!

廣州第一爛尾樓 兩千家庭半生遺憾!

說故事的阿襲
2026-05-05 20:20:30
8.84億的美國(guó)工廠說關(guān)就關(guān)?曹德旺:美國(guó)不講理,我就不陪玩了

8.84億的美國(guó)工廠說關(guān)就關(guān)?曹德旺:美國(guó)不講理,我就不陪玩了

番外行
2026-05-06 10:29:59
伯納烏大地震!皇馬放話出售姆巴佩,天價(jià)報(bào)價(jià)就接

伯納烏大地震!皇馬放話出售姆巴佩,天價(jià)報(bào)價(jià)就接

奶蓋熊本熊
2026-05-06 00:00:36
《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

汪巗的創(chuàng)業(yè)之路
2026-05-06 12:26:17
47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買菜大姐

47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買菜大姐

胖松松與瘦二毛
2026-05-06 12:40:53
張亮兒子17歲當(dāng)?shù)耍。?>
    </a>
        <h3>
      <a href=八卦瘋叔
2026-05-06 11:04:32
連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

南方都市報(bào)
2026-05-06 12:38:05
中美同時(shí)向全球下達(dá)禁令,各國(guó)都傻眼了!美媒:中國(guó)此舉史無前例

中美同時(shí)向全球下達(dá)禁令,各國(guó)都傻眼了!美媒:中國(guó)此舉史無前例

福建睿平
2026-05-06 08:56:38
男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

漢史趣聞
2026-05-05 11:36:31
2026-05-06 14:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12925文章數(shù) 142643關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

頭條要聞

男子購百萬保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬買"熊膽"心虛

頭條要聞

男子購百萬保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬買"熊膽"心虛

體育要聞

活塞1比0騎士:坎寧安不再是一個(gè)人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財(cái)經(jīng)要聞

人形機(jī)器人七小龍:誰真能賣 誰在講故事?

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無論能源形式 領(lǐng)克都要快樂

態(tài)度原創(chuàng)

房產(chǎn)
時(shí)尚
旅游
教育
手機(jī)

房產(chǎn)要聞

五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

卷首語|這屆年輕人,全員渡劫奧德賽

旅游要聞

龍江新觀察|“五一”文旅熱力十足 特色體驗(yàn)燃動(dòng)春日消費(fèi)

教育要聞

六條邏輯主線替代四個(gè)大概念,反映了怎樣的理念? | 高中課標(biāo)修訂解讀⑥

手機(jī)要聞

谷歌推送5月Pixel手機(jī)更新,修復(fù)無線充電慢、相機(jī)卡死等問題

無障礙瀏覽 進(jìn)入關(guān)懷版