国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Qwen3.6-35B,量化、蒸餾版本推薦

0
分享至

一文中我已經(jīng)把這個(gè)模型和部署(原版 + 量化版)介紹的很清楚了,閑逛又發(fā)現(xiàn)幾個(gè)版本(4bit 量化版、推理加速版、Claude Opus 蒸餾版)很亮眼,推薦給大家。

第一路:三個(gè) 4bit 量化版本

Qwen3.6 發(fā)布還沒(méi)捂熱,社區(qū)已經(jīng)搞出了三個(gè) 4bit 量化版本

目標(biāo)很明確:把顯存需求壓下來(lái),讓消費(fèi)級(jí)顯卡能跑起來(lái)

1. cyankiwi/Qwen3.6-35B-A3B-AWQ-4bit

AWQ(Activation-aware Weight Quantization)量化,可以用 vLLM 0.19 直接拉起來(lái)

網(wǎng)友測(cè)試 2x4060 可以跑出 83tok/s


2. QuantTrio/Qwen3.6-35B-A3B-AWQ

同樣是 AWQ 量化,這個(gè)版本出自 QuantTrio 團(tuán)隊(duì),量化后模型大小約 24GB

有詳細(xì)的 vLLM 啟動(dòng)腳本,支持 MTP(Multi-Token Prediction)推測(cè)解碼

啟動(dòng)命令參考:

vllm serve QuantTrio/Qwen3.6-35B-A3B-AWQ \
--served-model-name MY_MODEL \
--max-model-len 32768 \
--gpu-memory-utilization 0.9 \
--tensor-parallel-size 4 \
--enable-expert-parallel \
--reasoning-parser qwen3 \
--speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}' \
--trust-remote-code

注意 TP=8 時(shí)要加--enable-expert-parallel,否則專家參數(shù)分片不均勻會(huì)出問(wèn)題。

效果在線


3. RedHatAI/Qwen3.6-35B-A3B-NVFP4

這個(gè)來(lái)自 Red Hat AI 團(tuán)隊(duì),用的是 NVFP4 格式——權(quán)重和激活都量化到 FP4

用 llm-compressor 工具做的量化

初步評(píng)測(cè)結(jié)果有個(gè)小驚喜:

模型

GSM8K Platinum 準(zhǔn)確率

Qwen3.6-35B-A3B(原版)

95.62%

Qwen3.6-35B-A3B-NVFP4

96.28%

恢復(fù)率

100.69%

量化后準(zhǔn)確率居然還漲了一點(diǎn)點(diǎn)

當(dāng)然 Red Hat 團(tuán)隊(duì)也說(shuō)了這只是初步結(jié)果,更嚴(yán)格的評(píng)測(cè)還在進(jìn)行中

三個(gè)量化版本怎么選?

版本

量化格式

特點(diǎn)

推薦場(chǎng)景

cyankiwi

AWQ 4bit

快速可用

想嘗鮮、快速驗(yàn)證

QuantTrio

AWQ

文檔詳細(xì)、附啟動(dòng)腳本

生產(chǎn)部署參考

RedHatAI

NVFP4

權(quán)重 + 激活雙量化、官方團(tuán)隊(duì)出品

追求更極致壓縮

三個(gè)版本都兼容 vLLM 0.19+,直接vllm serve就能跑

第二路:DFlash 推理加速版

DFlash 我介紹過(guò)兩次了,老讀者應(yīng)該不陌生

簡(jiǎn)單回顧一下:DFlash 是一種基于塊擴(kuò)散模型(Block Diffusion)的推測(cè)解碼方法。傳統(tǒng)推測(cè)解碼(比如 EAGLE-3)的草稿模型還是自回歸的,一次只能預(yù)測(cè)一個(gè) token。DFlash 換了個(gè)思路——用一個(gè)輕量的擴(kuò)散模型,一次并行生成一整個(gè) block 的 token。

核心技巧在于:DFlash 不讓小模型從零開(kāi)始預(yù)測(cè),而是從目標(biāo)大模型的隱層特征中提取上下文信息,注入到草稿模型的每一層 KV Cache 中。這樣即使草稿模型很小,也能"借用"大模型的推理能力。

在 Qwen3-8B 上的實(shí)測(cè)數(shù)據(jù):

基準(zhǔn)測(cè)試

原版

EAGLE-3 加速

DFlash 加速

GSM8K

2.13×

5.20×

MATH-500

2.18×

6.17×

HumanEval

2.48×

5.20×

MBPP

2.27×

4.75×

EAGLE-3 大概 2-2.5 倍加速,DFlash 直接拉到 5-6 倍

而且這是完全無(wú)損的——輸出跟原版一模一樣

現(xiàn)在 z-lab 團(tuán)隊(duì)第一時(shí)間跟進(jìn)了 Qwen3.6:

? z-lab/Qwen3.6-35B-A3B-DFlash

需要注意的是,這個(gè)草稿模型還在訓(xùn)練中(目前 2000 步),所以效果還會(huì)繼續(xù)提升。

使用方式也很簡(jiǎn)單,vLLM 一行命令:

vllm serve Qwen/Qwen3.6-35B-A3B \
--speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.6-35B-A3B-DFlash", "num_speculative_tokens": 15}' \
--attention-backend flash_attn \
--max-num-batched-tokens 32768

SGLang 也已經(jīng)支持了:

python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-35B-A3B \
--speculative-algorithm DFLASH \
--speculative-draft-model-path z-lab/Qwen3.6-35B-A3B-DFlash \
--speculative-num-draft-tokens 16 \
--tp-size 1 \
--attention-backend fa3 \
--mem-fraction-static 0.75 \
--trust-remote-code

早期測(cè)試的接受長(zhǎng)度(Accept Length)數(shù)據(jù):

數(shù)據(jù)集

接受長(zhǎng)度

GSM8K

6.5

Math500

7.2

HumanEval

6.2

MBPP

5.6

MT-Bench

5.0

接受長(zhǎng)度越高意味著加速比越大

Math500 上平均每次能接受 7.2 個(gè) token,這個(gè)數(shù)字相當(dāng)可觀


第三路:Claude Opus 4.6 蒸餾版

這條路線大家也應(yīng)該很熟悉了,我一直在追

Jackrong 在 Qwen3.5 上做的 Claude Opus 蒸餾系列我介紹過(guò) V2 和 V3,每一版都有明顯提升

現(xiàn)在社區(qū)開(kāi)發(fā)者 hesamation 把這套思路搬到了 Qwen3.6 上:

? hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled

核心思路:保留 Qwen3.6 強(qiáng)大的 Agentic Coding 底座,同時(shí)注入 Claude Opus 4.6 風(fēng)格的結(jié)構(gòu)化推理能力

訓(xùn)練方式是用 LoRA 做有監(jiān)督微調(diào)(SFT),然后合并回完整模型

訓(xùn)練數(shù)據(jù)來(lái)自三個(gè)公開(kāi)數(shù)據(jù)集:

數(shù)據(jù)集

樣本量

用途

nohurry/Opus-4.6-Reasoning-3000x-filtered

3,900

Claude Opus 推理軌跡

Jackrong/Qwen3.5-reasoning-700x

700

精選 Qwen 推理樣本

Roman1111111/claude-opus-4.6-10000x

9,633

更多 Claude Opus 推理示例

總共約 14,000 條數(shù)據(jù),規(guī)模不大,但質(zhì)量很高——都是經(jīng)過(guò)篩選的鏈?zhǔn)酵评恚–hain-of-Thought)示例。

訓(xùn)練配置:

配置項(xiàng)

微調(diào)方法

LoRA(僅 Attention 模塊)

LoRA rank / alpha

32 / 32

梯度累積

32

訓(xùn)練輪次

2

最終訓(xùn)練 loss

最大序列長(zhǎng)度

初步評(píng)測(cè)數(shù)據(jù)很亮眼:

基準(zhǔn)測(cè)試

Base 模型

蒸餾后

提升

MMLU-Pro(70 題子集)

42.86%

75.71%+32.85pp

當(dāng)然,作者也說(shuō)了這只是 70 道題的小規(guī)模測(cè)試(14 個(gè)學(xué)科各 5 題),應(yīng)該當(dāng)做 smoke test 看,不是完整評(píng)測(cè)。但 +32.85 個(gè)百分點(diǎn)的提升還是很說(shuō)明問(wèn)題的——Claude Opus 的推理數(shù)據(jù)確實(shí)能顯著增強(qiáng)模型的結(jié)構(gòu)化推理能力。

值得注意的是,這個(gè)微調(diào)是純文本的。Qwen3.6 底座雖然自帶視覺(jué)編碼器,但這輪訓(xùn)練沒(méi)有用到圖像/視頻數(shù)據(jù),所以多模態(tài)能力基本就是繼承自 base model。

三路并行,選哪個(gè)?

需求

推薦方案

顯存有限,想跑 Qwen3.6

AWQ/NVFP4 量化版

追求推理速度,愿意多占點(diǎn)顯存

DFlash 加速版

需要更強(qiáng)的推理/分析能力

Claude Opus 蒸餾版

又想快又想省顯存

量化版 + DFlash(理論可疊加,待驗(yàn)證)

這三條路線其實(shí)不沖突

量化解決的是"跑得起"的問(wèn)題

DFlash 解決的是"跑得快"的問(wèn)題

蒸餾解決的是"跑得好"的問(wèn)題

我的看法

  1. 評(píng)測(cè)數(shù)據(jù)普遍不夠充分。蒸餾版只跑了 70 道 MMLU-Pro 題,NVFP4 版只有一個(gè) GSM8K 分?jǐn)?shù),量化版基本沒(méi)有獨(dú)立評(píng)測(cè)。社區(qū)還需要更多人來(lái)做嚴(yán)格的 benchmark

  2. DFlash 版本還在訓(xùn)練中。2000 步的草稿模型效果肯定不是最終水平,現(xiàn)階段的性能數(shù)據(jù)參考價(jià)值有限

  3. Qwen3.6 的 base model 本身也是新出的。官方 benchmark 看著很強(qiáng),但實(shí)際使用中的表現(xiàn)還需要時(shí)間檢驗(yàn)

總的來(lái)說(shuō),開(kāi)源 AI 社區(qū)圍繞一個(gè)模型形成了量化→加速→蒸餾的完整優(yōu)化鏈,每條路線都有獨(dú)立團(tuán)隊(duì)在推進(jìn)。

這種分布式協(xié)作的效率和活力,可能比任何單個(gè)模型的發(fā)布都更值得關(guān)注

.6

制作不易,如果這篇文章覺(jué)得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見(jiàn)!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
B席:我花了很長(zhǎng)時(shí)間才做出離隊(duì)決定,我只想好好結(jié)束這旅程

B席:我花了很長(zhǎng)時(shí)間才做出離隊(duì)決定,我只想好好結(jié)束這旅程

懂球帝
2026-04-20 04:39:46
我媽93歲,獨(dú)居自理,她的長(zhǎng)壽秘訣就六個(gè)字:別老想著走動(dòng)!

我媽93歲,獨(dú)居自理,她的長(zhǎng)壽秘訣就六個(gè)字:別老想著走動(dòng)!

蟬吟槐蕊
2026-04-19 06:23:45
7中7!火箭遮羞布!可能是今夏離隊(duì)第一人

7中7!火箭遮羞布!可能是今夏離隊(duì)第一人

籃球?qū)崙?zhàn)寶典
2026-04-19 15:47:41
特朗普第一任期的白宮律師突然爆猛料:特朗普已經(jīng)撐不下去了

特朗普第一任期的白宮律師突然爆猛料:特朗普已經(jīng)撐不下去了

西樓知趣雜談
2026-04-19 21:25:23
畸形審美?這4位男演員長(zhǎng)相平平,卻總當(dāng)主角演帥哥,實(shí)在不理解

畸形審美?這4位男演員長(zhǎng)相平平,卻總當(dāng)主角演帥哥,實(shí)在不理解

史鹷的生活科普
2026-04-19 22:51:14
一個(gè)卡扣要換13萬(wàn)電池包!國(guó)產(chǎn)這種售后,到外國(guó)會(huì)罰到懷疑人生!

一個(gè)卡扣要換13萬(wàn)電池包!國(guó)產(chǎn)這種售后,到外國(guó)會(huì)罰到懷疑人生!

沙雕小琳琳
2026-04-19 12:32:36
(深入分析)特朗普已被逼到了懸崖邊上,因?yàn)橹袊?guó)擊中了其要害

(深入分析)特朗普已被逼到了懸崖邊上,因?yàn)橹袊?guó)擊中了其要害

阿胡
2025-04-12 11:30:46
1949年,解放軍打開(kāi)馬鴻逵的倉(cāng)庫(kù),全都愣?。豪锩媸?286公斤羊毛

1949年,解放軍打開(kāi)馬鴻逵的倉(cāng)庫(kù),全都愣?。豪锩媸?286公斤羊毛

野史日記
2026-04-18 21:00:03
真子公主低調(diào)慶祝孩子1周歲生日,離開(kāi)王室5年未回日本,比哈里狠

真子公主低調(diào)慶祝孩子1周歲生日,離開(kāi)王室5年未回日本,比哈里狠

毒舌小紅帽
2026-04-19 21:42:56
14歲被送上導(dǎo)演的床,17歲拍全裸寫(xiě)真,被操控半生,如今怎樣了?

14歲被送上導(dǎo)演的床,17歲拍全裸寫(xiě)真,被操控半生,如今怎樣了?

不似少年游
2026-04-17 19:31:49
一夜成名!張雪的岳父登上熱搜,被麻陽(yáng)當(dāng)?shù)仡I(lǐng)導(dǎo)邀請(qǐng)參加騎行活動(dòng)

一夜成名!張雪的岳父登上熱搜,被麻陽(yáng)當(dāng)?shù)仡I(lǐng)導(dǎo)邀請(qǐng)參加騎行活動(dòng)

火山詩(shī)話
2026-04-19 17:46:25
鹵菜店使用“四姐”二字被索賠50萬(wàn)元,店主:大家都叫我四姐,為什么告我侵權(quán)

鹵菜店使用“四姐”二字被索賠50萬(wàn)元,店主:大家都叫我四姐,為什么告我侵權(quán)

環(huán)球網(wǎng)資訊
2026-04-11 21:50:22
張柏芝三胎生父被封,coco再曝猛料謝賢名譽(yù)受損

張柏芝三胎生父被封,coco再曝猛料謝賢名譽(yù)受損

阿紵美食
2026-04-20 04:11:18
警惕:上了年紀(jì)再過(guò)性生活,最怕這2點(diǎn)!保護(hù)男性精氣,做好4點(diǎn)

警惕:上了年紀(jì)再過(guò)性生活,最怕這2點(diǎn)!保護(hù)男性精氣,做好4點(diǎn)

周哥一影視
2026-04-08 12:20:15
哈里梅根的全球身份危機(jī):這場(chǎng)高仿王室出訪,正在拖垮整個(gè)君主制

哈里梅根的全球身份危機(jī):這場(chǎng)高仿王室出訪,正在拖垮整個(gè)君主制

李Dog嗨
2026-04-19 22:51:40
別只盯著特朗普!美國(guó)為何總在制造沖突,背后是喂養(yǎng)怪物的饑渴?

別只盯著特朗普!美國(guó)為何總在制造沖突,背后是喂養(yǎng)怪物的饑渴?

星落山間
2026-04-19 12:15:00
第一次對(duì)「鋁箔紙」產(chǎn)生了敬意!以為烘焙專用,沒(méi)想到是家居神器

第一次對(duì)「鋁箔紙」產(chǎn)生了敬意!以為烘焙專用,沒(méi)想到是家居神器

裝修秀
2026-04-18 11:55:03
《八千里路云和月》朱管家想不到,算計(jì)田家泰家業(yè),卻成全了萬(wàn)福

《八千里路云和月》朱管家想不到,算計(jì)田家泰家業(yè),卻成全了萬(wàn)福

白淺娛樂(lè)聊
2026-04-19 12:37:15
一個(gè)家庭最大的悲哀,是父母年過(guò)70了,還在做三件事

一個(gè)家庭最大的悲哀,是父母年過(guò)70了,還在做三件事

大熊歡樂(lè)坊
2026-04-02 14:23:28
演員何潤(rùn)東回應(yīng)穿項(xiàng)羽鎧甲亮相蘇超:14年后受邀過(guò)來(lái),內(nèi)心滿是感動(dòng),等下去逛項(xiàng)王故里

演員何潤(rùn)東回應(yīng)穿項(xiàng)羽鎧甲亮相蘇超:14年后受邀過(guò)來(lái),內(nèi)心滿是感動(dòng),等下去逛項(xiàng)王故里

極目新聞
2026-04-19 10:17:37
2026-04-20 05:36:49
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3334文章數(shù) 11137關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒(méi)法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒(méi)法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂(lè)要聞

何潤(rùn)東漲粉百萬(wàn)!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬(wàn) 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

親子
健康
藝術(shù)
家居
公開(kāi)課

親子要聞

孩子總打噴嚏、起疹子,時(shí)過(guò)敏嗎?

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

藝術(shù)要聞

超模施特洛耶克寫(xiě)真曝光,簡(jiǎn)直美到窒息,別錯(cuò)過(guò)!

家居要聞

法式線條 時(shí)光靜淌

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版