国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

微信煉出擴(kuò)散語(yǔ)言模型,vLLM部署AR模型3倍加速,低熵場(chǎng)景超10倍

0
分享至



騰訊微信 AI 團(tuán)隊(duì)提出 WeDLM(WeChat Diffusion Language Model),通過(guò)在標(biāo)準(zhǔn)因果注意力下實(shí)現(xiàn)擴(kuò)散式解碼,在數(shù)學(xué)推理等任務(wù)上實(shí)現(xiàn)相比 vLLM 部署的 AR 模型 3 倍以上加速,低熵場(chǎng)景更可達(dá) 10 倍以上,同時(shí)保持甚至提升生成質(zhì)量。

引言

自回歸(AR)生成是當(dāng)前大語(yǔ)言模型的主流解碼范式,但其逐 token 生成的特性限制了推理效率。擴(kuò)散語(yǔ)言模型(Diffusion LLMs)通過(guò)并行恢復(fù)多個(gè) mask token 提供了一種替代方案,然而在實(shí)踐中,現(xiàn)有擴(kuò)散模型往往難以在推理速度上超越經(jīng)過(guò)高度優(yōu)化的 AR 推理引擎(如 vLLM)。

問(wèn)題的關(guān)鍵在于:大多數(shù)擴(kuò)散語(yǔ)言模型采用雙向注意力機(jī)制,這與標(biāo)準(zhǔn)的 KV 緩存機(jī)制不兼容,導(dǎo)致并行預(yù)測(cè)的優(yōu)勢(shì)無(wú)法轉(zhuǎn)化為實(shí)際的速度提升。

近日,騰訊微信 AI 團(tuán)隊(duì)提出了WeDLM(WeChat Diffusion Language Model),這是首個(gè)在工業(yè)級(jí)推理引擎(vLLM)優(yōu)化條件下,推理速度超越同等 AR 模型的擴(kuò)散語(yǔ)言模型。



  • 論文標(biāo)題:WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference
  • 論文作者:劉璦瑋、何明樺、曾少勛、張思鈞、張林昊、武楚涵、賈巍、劉源、周霄、周杰(騰訊微信 AI)
  • 項(xiàng)目主頁(yè):https://wedlm.github.io
  • GitHub:https://github.com/tencent/WeDLM
  • 模型權(quán)重:https://huggingface.co/collections/tencent/wedlm

以下是模型效果:



上圖展示了vLLM 部署的 Qwen3-8B-Instruct(左) 與 WeDLM-8B-Instruct(右) 在相同 prompt 下的實(shí)時(shí)生成對(duì)比。可以直觀看到,WeDLM 的生成速度明顯更快。

核心思路:讓擴(kuò)散解碼兼容 KV 緩存

WeDLM 的核心洞察是:mask 恢復(fù)并不需要雙向注意力。擴(kuò)散式解碼只需要讓每個(gè) mask 位置能夠訪問(wèn)所有已觀測(cè)的 token,這完全可以在標(biāo)準(zhǔn)因果注意力下實(shí)現(xiàn)。

研究團(tuán)隊(duì)提出了一個(gè)關(guān)鍵指標(biāo) ——前綴可緩存性(Prefix Cacheability):在 KV 緩存解碼中,只有形成連續(xù)左到右前綴的 token 才能被緩存復(fù)用。因此,真正影響推理效率的不是「每步預(yù)測(cè)多少 token」,而是「有多少預(yù)測(cè)能夠轉(zhuǎn)化為可緩存的前綴」。



圖:WeDLM-8B 在數(shù)學(xué)推理任務(wù)上實(shí)現(xiàn)約 3 倍加速,同時(shí)在準(zhǔn)確率和推理速度上顯著超越 LLaDA、Dream 等擴(kuò)散模型。

技術(shù)方案

拓?fù)渲嘏判颍═opological Reordering)

WeDLM 通過(guò)拓?fù)渲嘏判蛟诒3忠蚬⒁饬Φ耐瑫r(shí),讓 mask 位置能夠訪問(wèn)完整的觀測(cè)上下文。具體而言,將所有已觀測(cè) token 移動(dòng)到物理序列的前端,同時(shí)通過(guò) RoPE 位置編碼保留其邏輯位置。這樣,在標(biāo)準(zhǔn)因果 mask 下,每個(gè)待預(yù)測(cè)位置都能看到所有已知信息。



雙流掩碼(Dual-Stream Masking)

為縮小訓(xùn)練與推理的分布差異,WeDLM 設(shè)計(jì)了雙流訓(xùn)練策略:構(gòu)建一個(gè)干凈的「記憶流」和一個(gè)帶 mask 的「預(yù)測(cè)流」,兩者共享位置編碼。預(yù)測(cè)流中的每個(gè) block 從記憶流獲取干凈的歷史上下文,而非可能帶噪的中間預(yù)測(cè)結(jié)果。

流式并行解碼(Streaming Parallel Decoding)

推理階段,WeDLM 采用流式并行解碼策略:

  • 距離懲罰機(jī)制:優(yōu)先解碼靠左的位置,促進(jìn)左到右的前綴增長(zhǎng)
  • 即時(shí)緩存:在因果注意力下,已解碼 token 立即成為有效緩存
  • 動(dòng)態(tài)滑動(dòng)窗口:持續(xù)填充新的 mask 位置,避免 block 邊界的等待開(kāi)銷(xiāo)



圖:傳統(tǒng) block 解碼需要等待整個(gè) block 完成才能提交,而 WeDLM 的流式解碼可以即時(shí)提交已解析的前綴。

實(shí)驗(yàn)結(jié)果

生成質(zhì)量

WeDLM 基于 Qwen2.5-7B 和 Qwen3-8B 進(jìn)行訓(xùn)練,使用 100B token 進(jìn)行繼續(xù)預(yù)訓(xùn)練,10B token 進(jìn)行 SFT。



在 base 模型評(píng)測(cè)中,WeDLM-8B 平均得分 74.72,超越 Qwen3-8B(72.61)2.1 個(gè)點(diǎn)。在數(shù)學(xué)推理任務(wù)上提升尤為顯著:GSM8K 提升 4.2 個(gè)點(diǎn),MATH 提升 2.8 個(gè)點(diǎn)。



在 instruct 模型評(píng)測(cè)中,WeDLM-8B-Instruct 平均得分 77.53,超越 Qwen3-8B-Instruct(75.12)2.4 個(gè)點(diǎn),也領(lǐng)先于 SDAR-8B-Instruct(74.22)等擴(kuò)散模型。

推理速度

關(guān)鍵亮點(diǎn):所有速度對(duì)比均基于 vLLM 部署的 AR 模型基線(xiàn),而非未優(yōu)化的實(shí)現(xiàn)。



研究團(tuán)隊(duì)在論文中展示了不同熵值場(chǎng)景下的速度差異:

  • 低熵場(chǎng)景(如計(jì)數(shù)任務(wù)):由于輸出高度可預(yù)測(cè),模型可以大膽并行預(yù)測(cè)并接受多個(gè) token,實(shí)測(cè)達(dá)到 1673.3 tokens/s
  • 中熵場(chǎng)景(如數(shù)學(xué)推導(dǎo)):結(jié)構(gòu)化的推理步驟仍然具有較好的可預(yù)測(cè)性,實(shí)測(cè) 745.2 tokens/s
  • 高熵場(chǎng)景(如開(kāi)放問(wèn)答):語(yǔ)義多樣性高,并行接受率下降,實(shí)測(cè) 197.8 tokens/s

快速上手

安裝方式非常簡(jiǎn)單,只需通過(guò) pip 從 GitHub 安裝即可。安裝完成后,可使用 Python API 快速調(diào)用模型進(jìn)行推理。詳細(xì)的使用文檔和示例代碼請(qǐng)參見(jiàn)項(xiàng)目 GitHub 主頁(yè)。

總結(jié)

WeDLM 的貢獻(xiàn)可以歸納為:

  • 因果擴(kuò)散框架:在標(biāo)準(zhǔn)因果注意力下實(shí)現(xiàn) mask 恢復(fù),天然兼容 KV 緩存和現(xiàn)有推理基礎(chǔ)設(shè)施(FlashAttention、PagedAttention、CUDA Graphs 等)
  • 流式并行解碼:通過(guò)距離懲罰和動(dòng)態(tài)滑動(dòng)窗口,最大化前綴提交率
  • 首次在速度上超越工業(yè)級(jí)推理引擎部署的 AR 模型:在 vLLM 優(yōu)化條件下的公平對(duì)比中,數(shù)學(xué)推理實(shí)現(xiàn) 3 倍以上加速,低熵場(chǎng)景超過(guò) 10 倍

研究團(tuán)隊(duì)指出,這項(xiàng)工作表明「前綴可緩存性」應(yīng)當(dāng)作為并行文本生成的一等設(shè)計(jì)目標(biāo)。未來(lái)的擴(kuò)散語(yǔ)言模型應(yīng)更多地被視為高效的多 token 預(yù)測(cè)機(jī)制 —— 并行生成 token 的價(jià)值,取決于這些 token 能多快地轉(zhuǎn)化為可緩存的前綴。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
蒯曼4-1長(zhǎng)崎美柚,連勝兩位日乒隊(duì)員,晉級(jí)女單四強(qiáng),轟兩局11:3

蒯曼4-1長(zhǎng)崎美柚,連勝兩位日乒隊(duì)員,晉級(jí)女單四強(qiáng),轟兩局11:3

湘楚風(fēng)云
2026-01-11 00:30:01
果然不出中國(guó)所料:日本喊話(huà)俄羅斯,72年基業(yè)絕不能毀在中國(guó)手上

果然不出中國(guó)所料:日本喊話(huà)俄羅斯,72年基業(yè)絕不能毀在中國(guó)手上

歷史有些冷
2026-01-09 18:50:02
施海榮有魄力,換大量替補(bǔ)出場(chǎng)!郭中楠魏伊衫范泊寧都有出色表現(xiàn)

施海榮有魄力,換大量替補(bǔ)出場(chǎng)!郭中楠魏伊衫范泊寧都有出色表現(xiàn)

金毛愛(ài)女排
2026-01-11 00:00:09
陪玩陪睡已過(guò)時(shí)!拳頭塞嘴、集體開(kāi)嫖、戚薇遭殃,陰暗面徹底曝光

陪玩陪睡已過(guò)時(shí)!拳頭塞嘴、集體開(kāi)嫖、戚薇遭殃,陰暗面徹底曝光

涵豆說(shuō)娛
2025-11-20 16:35:46
雙豐收,雄鹿戰(zhàn)勝湖人后,字母哥收到了一份來(lái)自詹姆斯的特別禮物

雙豐收,雄鹿戰(zhàn)勝湖人后,字母哥收到了一份來(lái)自詹姆斯的特別禮物

好火子
2026-01-11 00:44:14
人有沒(méi)有錢(qián),一看便知:沒(méi)錢(qián)的子女,大多有3大特質(zhì)、3大窮習(xí)慣

人有沒(méi)有錢(qián),一看便知:沒(méi)錢(qián)的子女,大多有3大特質(zhì)、3大窮習(xí)慣

第一桶金學(xué)派
2025-06-30 10:18:46
牡丹花下死,做鬼也風(fēng)流!37歲“縱欲過(guò)度”的王思聰,再陷大丑聞

牡丹花下死,做鬼也風(fēng)流!37歲“縱欲過(guò)度”的王思聰,再陷大丑聞

瓜汁橘長(zhǎng)Dr
2025-12-22 15:12:57
哈工大發(fā)現(xiàn):喜歡睡午覺(jué)的人,壽命比不睡午覺(jué)的人長(zhǎng)幾年不止?

哈工大發(fā)現(xiàn):喜歡睡午覺(jué)的人,壽命比不睡午覺(jué)的人長(zhǎng)幾年不止?

健康之光
2026-01-05 14:22:46
WTT冠軍賽四強(qiáng)對(duì)陣,三位國(guó)乒冠軍出局,蒯曼立功,陳幸同壓力大

WTT冠軍賽四強(qiáng)對(duì)陣,三位國(guó)乒冠軍出局,蒯曼立功,陳幸同壓力大

云隱南山
2026-01-11 02:36:52
一舉超越美日!中國(guó)砸下263億建全球最大海上機(jī)場(chǎng),到底有多牛?

一舉超越美日!中國(guó)砸下263億建全球最大海上機(jī)場(chǎng),到底有多牛?

科學(xué)知識(shí)點(diǎn)秀
2026-01-10 08:00:04
專(zhuān)家提醒:不要買(mǎi)!不要吃!里面含有硼砂,危害健康,別害了自己

專(zhuān)家提醒:不要買(mǎi)!不要吃!里面含有硼砂,危害健康,別害了自己

蜉蝣說(shuō)
2025-10-31 10:56:39
四川省城市足球聯(lián)賽總決賽階段抽簽結(jié)果揭曉,首戰(zhàn)計(jì)劃在3月14日打響!

四川省城市足球聯(lián)賽總決賽階段抽簽結(jié)果揭曉,首戰(zhàn)計(jì)劃在3月14日打響!

紅星新聞
2026-01-11 00:23:08
1950年,師級(jí)首長(zhǎng)在成都遭活剝?毛主席拍案而起:116萬(wàn)土匪,一個(gè)不留!

1950年,師級(jí)首長(zhǎng)在成都遭活剝?毛主席拍案而起:116萬(wàn)土匪,一個(gè)不留!

寄史言志
2026-01-07 20:37:09
第一次去男友家,我吃了一桌剩菜,偷聽(tīng)母子對(duì)話(huà)后,我連夜逃離

第一次去男友家,我吃了一桌剩菜,偷聽(tīng)母子對(duì)話(huà)后,我連夜逃離

云端小院
2026-01-10 10:44:29
特朗普通告全球,不許3國(guó)買(mǎi)俄油,話(huà)音剛落,中方第一個(gè)宣布不服

特朗普通告全球,不許3國(guó)買(mǎi)俄油,話(huà)音剛落,中方第一個(gè)宣布不服

南宗歷史
2026-01-10 13:06:24
福建婚禮上新娘顏值爆表走紅,新郎長(zhǎng)相惹爭(zhēng)議:懂事早和董事長(zhǎng)?

福建婚禮上新娘顏值爆表走紅,新郎長(zhǎng)相惹爭(zhēng)議:懂事早和董事長(zhǎng)?

梅子的小情緒
2025-11-29 14:26:05
伊朗多個(gè)城市宣布脫離政府控制,革命衛(wèi)隊(duì)軍人被打死!

伊朗多個(gè)城市宣布脫離政府控制,革命衛(wèi)隊(duì)軍人被打死!

知兵
2026-01-11 00:07:45
爆笑經(jīng)典侄女糗事冷笑話(huà),侄女三歲多初上幼兒園不知天高地厚,當(dāng)老師教育她時(shí)她居然說(shuō)!

爆笑經(jīng)典侄女糗事冷笑話(huà),侄女三歲多初上幼兒園不知天高地厚,當(dāng)老師教育她時(shí)她居然說(shuō)!

天天明星
2026-01-10 12:08:36
婆婆把80萬(wàn)全給小叔子,兩年后哭著敲門(mén),入贅老公的做法讓我意外

婆婆把80萬(wàn)全給小叔子,兩年后哭著敲門(mén),入贅老公的做法讓我意外

木子言故事
2026-01-04 13:01:59
一生僅存六首詩(shī),卻有兩首被寫(xiě)進(jìn)課本,成七絕五絕之最

一生僅存六首詩(shī),卻有兩首被寫(xiě)進(jìn)課本,成七絕五絕之最

長(zhǎng)風(fēng)文史
2025-11-26 15:26:24
2026-01-11 03:24:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
12088文章數(shù) 142534關(guān)注度
往期回顧 全部

科技要聞

必看 | 2026開(kāi)年最頂格的AI對(duì)話(huà)

頭條要聞

特朗普簽署行政令 宣布進(jìn)入國(guó)家緊急狀態(tài)

頭條要聞

特朗普簽署行政令 宣布進(jìn)入國(guó)家緊急狀態(tài)

體育要聞

怒摔水瓶!杜蘭特30+12 難阻火箭遭雙殺

娛樂(lè)要聞

吳速玲曝兒子Joe是戀愛(ài)腦

財(cái)經(jīng)要聞

這不算詐騙嗎?水滴保誘導(dǎo)扣款惹眾怒

汽車(chē)要聞

寶馬25年全球銷(xiāo)量246.3萬(wàn)臺(tái) 中國(guó)仍是第一大市場(chǎng)

態(tài)度原創(chuàng)

藝術(shù)
手機(jī)
本地
房產(chǎn)
公開(kāi)課

藝術(shù)要聞

601米,150億美元!沙特目前第一高樓是它!

手機(jī)要聞

魅族22Air、22 Next不開(kāi)售發(fā)布,魅族23確認(rèn)

本地新聞

云游內(nèi)蒙|“包”你再來(lái)?一座在硬核里釀出詩(shī)意的城

房產(chǎn)要聞

66萬(wàn)方!4755套!三亞巨量房源正瘋狂砸出!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版