国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

大模型推理8倍加速,完全無損,以Qwen3.5-27B-DFlash為例

0
分享至

前文介紹了 Qwen3.5-27B-DFlash,非常神奇

本文更進一步,深入了解一下 DFlash 技術細節(jié)


DFlash + DDTree 加速流水線 先說背景:推測解碼(Speculative Decoding)

大模型生成文本的時候,最大的瓶頸是什么?一個 token 一個 token 地吐

不管你 GPU 有多猛,自回歸生成就是一步一步來,快不了

推測解碼(Speculative Decoding)是目前主流的加速思路:用一個小模型快速"猜"一串 token,再讓大模型一次性驗證。猜對了就賺了,猜錯了也不虧——大模型自己糾正就行

但傳統(tǒng)推測解碼有個問題:小模型也是自回歸的,猜的速度也不夠快。

DFlash:用擴散模型替代自回歸草稿

DFlash(Block Diffusion for Flash Speculative Decoding)來自 Z Lab,核心創(chuàng)新就一句話:用輕量級 block diffusion 模型,單次前向傳播并行生成整個 token block 作為草稿

傳統(tǒng)小模型一個一個猜,DFlash 一次猜一整塊(block size = 16)


DFlash 方法流水線

怎么做到的?

關鍵技術叫 KV Injection——把目標大模型多層 hidden features 融合后注入草稿小模型的 KV cache,讓小模型也能高質量預測

加速效果有多猛?

基準

模型

DFlash 加速

HumanEval T=0.0

Qwen3-30B-MoE

6.09x

MATH-500 T=0.0

Qwen3-8B

6.17x

GSM8K T=0.0

Qwen3-8B

5.20x

AIME24 T=0.0

Qwen3-8B

5.91x

MBPP T=0.0

Qwen3-8B

4.75x

對比 EAGLE-3(目前最流行的推測解碼方案),DFlash 快了約 2.5 倍。EAGLE-3 的極限大概 2-3x 加速,DFlash 直接干到 5-6x

而且在采樣模式(Temperature=1)和 thinking mode 下仍然保持約 4.5x 加速,這一點非常重要——大部分加速方案在有隨機性的時候就拉胯了

DDTree:把 DFlash 再推一把

DDTree(Diffusion Draft Tree)是以色列理工學院 Liran Ringel 在 DFlash 基礎上做的進一步優(yōu)化

核心思路:DFlash 一次前向傳播輸出的是每個位置的概率分布。DDTree 不是從中只取一條路徑,而是用 best-first heap 算法構建一棵草稿樹,選出最有希望的多條分支,然后讓目標模型一次前向傳播驗證整棵樹


DDTree 四步流程:

  1. Block diffusion 一次前向生成 L 個位置的分布

  2. Best-first heap 在節(jié)點預算 B 下構建最優(yōu)草稿樹

  3. Tree attention 編譯為目標模型輸入

  4. 驗證遍歷:匹配子節(jié)點則繼續(xù),不匹配則取 bonus token 進入下輪

這套方案有個數學保證:構建的樹在 draft 模型分布下可證明最大化期望接受長度

效果:

在 HumanEval T=0.0 上,DDTree 把 DFlash 的 6.09x 直接拉到了 8.22x,額外多賺了 2.13x。

最關鍵的是——完全無損。目標模型用自己的解碼規(guī)則,DDTree 只是幫它更高效地探索搜索空間,輸出分布和不加速時完全一致。

已支持的模型

DFlash 已經為一批主流模型訓好了 Draft 模型:

目標模型

Draft 模型

Kimi-K2.5 (Preview)

z-lab/Kimi-K2.5-DFlash

Qwen3.5-4B/9B/27B

z-lab/Qwen3.5-*-DFlash

Qwen3.5-35B-A3B

z-lab/Qwen3.5-35B-A3B-DFlash

Qwen3-Coder-30B-A3B

z-lab/Qwen3-Coder-30B-A3B-DFlash

Llama-3.1-8B-Instruct

z-lab/LLaMA3.1-8B-Instruct-DFlash

Qwen3.5-122B、397B 和 GLM-5.1 的 Draft 模型也在路上了。

怎么用?

DFlash 已經接入了三大推理框架:

SGLang:

python -m sglang.launch_server \
--model-path Qwen/Qwen3.5-35B-A3B \
--speculative-algorithm DFLASH \
--speculative-draft-model-path z-lab/Qwen3.5-35B-A3B-DFlash \
--tp-size 1 --attention-backend trtllm_mha

vLLM:

vllm serve Qwen/Qwen3.5-27B \
--speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.5-27B-DFlash", "num_speculative_tokens": 15}'

Apple Silicon(MLX):

pip install -e ".[mlx]"

對,Mac 用戶也能用。

DDTree 跑基準測試:

git clone https://github.com/liranringel/ddtree
cd ddtree
pip install -r requirements.txt
bash run_benchmark.sh
python3 plot_results.py
總結

DFlash + DDTree 這對組合拳,代表了推測解碼的下一個階段:

  • DFlash 解決了"猜得慢"的問題 ——用 block diffusion 一次猜一整塊

  • DDTree 解決了"猜得不夠多"的問題 ——用概率樹探索多條路徑

最終效果是 8x+ 無損加速,而且已經接入 SGLang、vLLM、MLX 三大框架,實際可用。

對于部署大模型推理服務的團隊來說,這幾乎是免費的午餐——加速 5-8 倍,不犧牲任何輸出質量,只需要加載一個很小的 Draft 模型

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發(fā)和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
罰15億!拼多多一員工故意關門,對抗調查,導致執(zhí)法人員手指骨折

罰15億!拼多多一員工故意關門,對抗調查,導致執(zhí)法人員手指骨折

魔都姐姐雜談
2026-04-19 08:03:27
長沙火了!全球最大零食店開業(yè)3天就被擠停售,背后真相曝光

長沙火了!全球最大零食店開業(yè)3天就被擠停售,背后真相曝光

西昆侖Bruce
2026-04-19 19:52:58
不敢相信她有五十多歲了

不敢相信她有五十多歲了

科學發(fā)掘
2026-04-19 21:09:22
“磨膝大戶”被公布,是跑步的20倍,醫(yī)生:不想軟骨磨光,早扔掉

“磨膝大戶”被公布,是跑步的20倍,醫(yī)生:不想軟骨磨光,早扔掉

垚垚分享健康
2026-04-19 14:35:09
北京國際電影節(jié)開幕式,韓紅:李乃文是不是真的他唱的

北京國際電影節(jié)開幕式,韓紅:李乃文是不是真的他唱的

韓小娛
2026-04-17 07:45:14
“最快女護士”張水華云南石屏馬拉松退賽,本人回應:不舒服就沒跑;其辭職后已拿下兩個冠軍,獲折現超20萬獎勵

“最快女護士”張水華云南石屏馬拉松退賽,本人回應:不舒服就沒跑;其辭職后已拿下兩個冠軍,獲折現超20萬獎勵

極目新聞
2026-04-19 12:01:08
哈工大畢業(yè)失業(yè)四五年被吐槽!網友:農村大學生大多數過得比較差

哈工大畢業(yè)失業(yè)四五年被吐槽!網友:農村大學生大多數過得比較差

火山詩話
2026-04-19 10:40:38
普京訪華行程敲定,特朗普已下命令,中國向全球通告,無懼美國

普京訪華行程敲定,特朗普已下命令,中國向全球通告,無懼美國

老牧說說
2026-04-20 00:29:36
中國人在哈薩克斯坦生活實錄:飯?zhí)唷⑴颂S、聊天太上頭了!

中國人在哈薩克斯坦生活實錄:飯?zhí)?、女人太颯、聊天太上頭了!

老特有話說
2026-04-19 15:29:16
蒜苔開始上市!再三強調:高血壓患者吃蒜苔時,多注意這5點

蒜苔開始上市!再三強調:高血壓患者吃蒜苔時,多注意這5點

芹姐說生活
2026-04-18 14:47:34
隨著41歲C羅破門+利雅得勝利4-0,亞冠二級4強已誕生3席

隨著41歲C羅破門+利雅得勝利4-0,亞冠二級4強已誕生3席

側身凌空斬
2026-04-20 00:01:29
調查發(fā)現:每天都走路的人,大多到了75歲后,身體或有5種變化

調查發(fā)現:每天都走路的人,大多到了75歲后,身體或有5種變化

白話電影院
2026-04-07 13:28:35
德國戰(zhàn)敗后,古德里安為什么能無罪釋放?他是一個有底線的軍人

德國戰(zhàn)敗后,古德里安為什么能無罪釋放?他是一個有底線的軍人

小莜讀史
2026-04-18 14:46:46
神秘消失數月后突然現身!美國最頭疼的人,悄悄到了巴格達

神秘消失數月后突然現身!美國最頭疼的人,悄悄到了巴格達

菁菁子衿
2026-04-19 19:41:04
丁俊暉7-2吉爾伯特,罕見“生氣”扔了巧粉夾,中國裁判幫他撿回

丁俊暉7-2吉爾伯特,罕見“生氣”扔了巧粉夾,中國裁判幫他撿回

真理是我親戚
2026-04-19 22:16:28
魏積安現狀:在山東過田園生活,70歲身體很硬朗,妻兒都是普通人

魏積安現狀:在山東過田園生活,70歲身體很硬朗,妻兒都是普通人

大魚簡科
2026-04-19 19:19:17
痛苦,火箭隊杜蘭特在打湖人隊首場比賽前的訓練中表情說明了一切

痛苦,火箭隊杜蘭特在打湖人隊首場比賽前的訓練中表情說明了一切

好火子
2026-04-20 03:29:10
火箭3主力身價暴跌!申京三無產品,謝潑德攻守全崩,阿門狂被帽

火箭3主力身價暴跌!申京三無產品,謝潑德攻守全崩,阿門狂被帽

籃球資訊達人
2026-04-19 12:26:12
伊朗未證實伊美復談消息

伊朗未證實伊美復談消息

界面新聞
2026-04-19 20:45:22
馬蹄露自薦做團長后續(xù)!張敬軒粉絲不忍了,開始發(fā)文攻擊了

馬蹄露自薦做團長后續(xù)!張敬軒粉絲不忍了,開始發(fā)文攻擊了

小徐講八卦
2026-04-19 11:27:40
2026-04-20 03:55:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3334文章數 11137關注度
往期回顧 全部

科技要聞

50分26秒破人類紀錄!300臺機器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內娛隔空掀桌第一人

財經要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

本地
教育
親子
家居
游戲

本地新聞

12噸巧克力有難,全網化身超級偵探添亂

教育要聞

655家單位、1.29萬個崗位,湖南用心幫大學生找工作

親子要聞

孩子總打噴嚏、起疹子,時過敏嗎?

家居要聞

法式線條 時光靜淌

如何將ZH-1火力最大化?《戰(zhàn)艦世界》15.3版本造船廠加點攻略

無障礙瀏覽 進入關懷版