国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Claude Opus 蒸餾 Qwen3.5,V3 來了

0
分享至

大家好,我是 Ai 學習的老章

Claude Opus 蒸餾 Qwen3.5 這條線,我從 v1 一路追到現(xiàn)在,算是全網(wǎng)跟得最緊的了:

Now,v3 來了

這一版改動很大,大到連名字都換了——從原來拗口的Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled,改名為Qwopus3.5(Qwen + Opus 的合體)

名字更短了,野心更大了

一句話說清 v3 的核心變化

v1 是"讓 Qwen 學會 Opus 的推理",v2 是"讓它想得更少答得更快",**v3 是"讓它學會用工具干活"**。

這是一個質的飛躍——從"會思考"到"會行動"

先看下載量:大家用腳投票

在聊技術細節(jié)之前,先看一組數(shù)據(jù)

Jackrong 這次 v3 同時發(fā)布了 4B、9B、27B 三個尺寸,加上各種量化和 MLX 版本,一共 9 個模型

大家猜猜哪個最火?

模型

參數(shù)量

下載量

Qwopus3.5-9B-v3-GGUF9B10.9k

112

Qwopus3.5-4B-v3-GGUF

4B

699

7

Qwopus3.5-9B-v3

10B

603

47

MLX-Qwopus3.5-9B-v3-4bit

1B

435

13

MLX-Qwopus3.5-9B-v3-8bit

9B

232

6

MLX-Qwopus3.5-9B-v3-bf16

9B

166

1

MLX-Qwopus3.5-9B-v3-6bit

9B

170

2

Qwopus3.5-4B-v3

5B

72

4

Qwopus3.5-27B-v3-GGUF

27B

39

39

Qwopus3.5-27B-v3

27B

13

39

9B GGUF 版本以 10.9k 的下載量斷崖式領先,是第二名的 15 倍。

這說明什么?大家心里門兒清——9B 是甜蜜點

16GB 內存的 MacBook 就能跑,Windows 上普通顯卡也沒壓力

27B 雖然能力更強,但門檻也更高;4B 太小,容易翻車

9B 剛好在"能用"和"能跑"之間找到了最佳平衡

所以今天這篇文章,我重點實測的就是Qwopus3.5-9B-v3。

v3 到底改了什么?從"想好再做"到"做了再改"

v3 最大的理念轉變,用一句話概括:

從 "reason-then-act"(想好再做)到 "act-then-refine"(做了再改)

這個思路來自兩篇重要的研究:

  1. Reflexion論文證明,Agent 通過"試錯 + 反思"的方式,比純靠內心推理更有效

  2. 另一項研究發(fā)現(xiàn),失敗后反思再重試能帶來巨大提升:數(shù)學推理任務 **+34.7%**,函數(shù)調用任務+18.1%

說人話就是:與其讓模型在腦子里反復推演(v2 的路線),不如讓它先動手試,試錯了再修正。這對做 Agent、用工具的場景特別管用——畢竟現(xiàn)實世界的反饋比模型自己的想象靠譜得多

v3 三大核心升級

1?? 結構化推理優(yōu)化

v2 靠蒸餾 Claude 的思維鏈(CoT),但 Jackrong 在 v3 里坦誠地指出了一個問題:v2 用的第三方蒸餾數(shù)據(jù),有些思維鏈可能是"偽造"的——看起來像是 Claude 生成的,實際上未必是

Anthropic 自己也發(fā)表過研究,說推理模型的思維鏈有時候只是"事后合理化",并非真正的逐步推理

學生模型去模仿這種"假推理",學到的可能只是表面的模式匹配,而非真正的問題解決能力

v3 的做法是:用更高質量、可驗證的推理鏈做訓練,讓模型學的是過程級推理,而非簡單模仿答案

對比項

v2(蒸餾)

v3(結構對齊)

思維鏈來源

第三方蒸餾數(shù)據(jù)

精選可驗證推理鏈

學習目標

模仿教師輸出

學習過程級推理

推理風格

壓縮式

顯式、逐步、可驗證

泛化能力

較弱

更強

2?? 工具調用強化訓練

這是 v3 最重要的新增能力

v3專門做了針對工具調用的強化學習(RL)訓練,為 Agent 框架(如 OpenClaw)優(yōu)化了工具調用的穩(wěn)定性和準確性

這意味著 v3 在 Agent 場景下——比如自動搜索、調用 API、操作文件——應該比 v1/v2 強得多

3?? "做了再改" 范式

整個模型的設計理念從"一次推理到位"轉向"迭代交互糾正"

這對多步驟任務特別友好——不要求第一步就完美,允許在執(zhí)行中不斷修正

HumanEval 跑分:9B 打出了新高度

Jackrong 在相同條件下測了三個 9B 級別的模型:

模型

Base pass@1

Plus pass@1

相比 Qwen3.5-9B

Qwopus3.5-9B-v387.80% (144/164)82.93% (136/164)

+4.87 / +5.49

Qwen3.5-9B

82.93% (136/164)

77.44% (127/164)

基線

Claude-Distilled-v2

82.32% (135/164)

78.66% (129/164)

-0.61 / +1.22

幾個關鍵發(fā)現(xiàn):

  • v3 在 HumanEval 上比原版 Qwen3.5-9B 高了將近 5 個百分點,這個差距在 9B 級別已經(jīng)非常顯著

  • v2 在 9B 上其實沒怎么提升(甚至 base 還略降了),但v3 一下子拉開了差距

  • 在更嚴格的 Plus 評估中,v3 領先原版超過 5.49 個百分點

MMLU-Pro 跑分:這次知識能力也沒掉

還記得 v2 的一個代價嗎?

MMLU-Pro(通用知識推理)掉了 7.2%。當時我說這是"專精 vs 通用"的權衡

v3 把這個問題修復了:

模型

正確數(shù)

總數(shù)

準確率

Qwen3.5-9B

225

280

80.36%

Qwopus3.5-9B-v322928081.79%

v3 在 MMLU-Pro 上反超原版 1.43 個百分點!

代碼能力提升的同時,通用知識也沒丟——這是 v2 做不到的

推理效率:用更少的 Token 辦更多的事

指標

Qwen3.5-9B

Qwopus3.5-9B-v3

平均思維鏈長度

7116 字符

5313 字符

每萬字符通過數(shù)

1.26

1.66

每個正確答案的字符成本

7938

6032

三組數(shù)據(jù)總結:

  • 思維鏈縮短 25.3%

  • 推理效率提升 31.7%

  • 每個正確答案的 Token 成本降低 24.0%

跟 v2 的 27B 版本效率提升幾乎一致,但這次是在 9B 上做到的,意義完全不同——9B 模型本來就是為資源受限場景設計的,效率提升的價值在這里被放大了。

v1 → v2 → v3 全家族進化圖譜

v1

v2

v3

名字

Claude-4.6-Opus-Reasoning-Distilled

同上

Qwopus3.5核心思路

蒸餾 Claude 推理能力

優(yōu)化推理效率

工具調用 + 結構對齊

訓練方法

SFT + LoRA

SFT + LoRA

SFT + LoRA +RL(工具調用)

HumanEval(9B)

~82%

~82%

87.80%MMLU-Pro

基準

-7.2%

+1.43%思維鏈長度

短(-24%)

短(-25.3%)

工具調用

未優(yōu)化

未優(yōu)化

專項 RL 訓練理念

模仿 Claude

更快更省

做了再改

一路看下來,v3 是一次全面的升級:代碼更準、知識不丟、效率更高、還新增了工具調用能力

這在蒸餾模型里相當少見——通常每一代都要在某個維度做取舍,v3 居然做到了"全都要"

怎么跑?

老規(guī)矩,GGUF 格式用 LM Studio、Ollama、llama.cpp 都行:

模型地址:Jackrong/Qwopus3.5-9B-v3-GGUF

硬件需求:

  • Mac:16GB 內存即可流暢運行(推薦 MLX 版本)

  • Windows/Linux:8GB 顯存的顯卡即可(如 RTX 3060/4060)

  • 量化推薦:根據(jù)之前的 ToolCall-15 測試經(jīng)驗,Q6 是工具調用場景的最優(yōu)量化精度

快速上手(以 Ollama 為例):

# 下載并運行
ollama run hf.co/Jackrong/Qwopus3.5-9B-v3-GGUF:Q6_K

,支持 Gemma 4,支持 Anthropic 的 1/messages(low,medium,high,max)


用 ToolCall-15 實測 9B-v3 的工具調用能力

說到工具調用,我之前在寫 這篇文章時,介紹過一個很好用的開源測試工具——ToolCall-15

簡單回顧一下:ToolCall-15(github.com/stevibe/ToolCall-15)是一個專門測大模型工具調用能力的基準測試框架:

  • 15 個場景,覆蓋 5 大類能力

  • 12 個工具,模型每次都能看到全部工具

  • 模擬響應,確保結果確定可復現(xiàn)

  • Temperature 設為 0,排除隨機性

五大考核維度:

類別

測試內容

舉例

工具選擇

能不能選對工具?

問天氣,該用get_weather還是web_search?

參數(shù)精度

參數(shù)傳對了嗎?

用戶要華氏溫度,你傳了fahrenheit沒?

多步鏈式

能不能串聯(lián)多個工具?

搜文件 → 讀內容 → 查聯(lián)系人 → 發(fā)郵件

克制與拒絕

不該用工具時能忍住嗎?

"二戰(zhàn)哪年結束?" 你別去搜啊

? 錯誤恢復

工具報錯了怎么辦?

搜索沒結果,是放棄還是換關鍵詞?

之前測 v2 的 27B 版本拿了15/15 滿分

這次 v3 專門做了工具調用的 RL 訓練,還是在更小的 9B 上——到底行不行?



自然很行!

  • Qwen3.5:9b Q8 (官方)

  • Jackrong 的 Qwopus v3 Q8

ToolCall-15: Qwopus v3 完美通過全部 15 題

ToolCall-15 實測

大家也可以用這個工具自行測試已經(jīng)本地部署的模型

環(huán)境搭建:

git clone https://github.com/stevibe/ToolCall-15.git
cd ToolCall-15
npm install
cp .env.example .env

配置 .env:

# 如果用 LM Studio
LMSTUDIO_HOST=http://localhost:1234
LLM_MODELS=lmstudio:qwopus3.5-9b-v3


# 如果你用的是 Ollama
OLLAMA_HOST=http://localhost:11434
LLM_MODELS=ollama:qwopus3.5-9b-v3

啟動測試:

npm run dev
# 打開 http://localhost:3000,點擊 Run 開始測試
總結:v3 是這個系列真正成熟的一代

從 v1 到 v3,Jackrong 的這個蒸餾系列走過了三個階段:

  • v1:證明了"小模型也能學到大模型的推理能力"

  • v2:證明了"推理效率可以大幅優(yōu)化,用更少的 Token 辦同樣的事"

  • v3:證明了"蒸餾模型也能做 Agent,工具調用不再是大模型的專利"

v3 的數(shù)據(jù)也確實支撐了這個結論:

  • HumanEval 87.80%,比原版 Qwen3.5-9B 高了近 5 個百分點

  • MMLU-Pro 81.79%,通用知識也反超了基線

  • 推理效率提升 31.7%,成本降低 24%

  • 新增工具調用 RL 訓練,專為 Agent 場景優(yōu)化

對于想在本地跑一個"能寫代碼、能調工具、還不太吃資源"的模型來說,Qwopus3.5-9B-v3 可能是目前最值得一試的選擇。

下載量已經(jīng)說明了一切——10.9k,社區(qū)用腳投票的結果。

.5

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發(fā)和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
B席:我花了很長時間才做出離隊決定,我只想好好結束這旅程

B席:我花了很長時間才做出離隊決定,我只想好好結束這旅程

懂球帝
2026-04-20 04:39:46
我媽93歲,獨居自理,她的長壽秘訣就六個字:別老想著走動!

我媽93歲,獨居自理,她的長壽秘訣就六個字:別老想著走動!

蟬吟槐蕊
2026-04-19 06:23:45
7中7!火箭遮羞布!可能是今夏離隊第一人

7中7!火箭遮羞布!可能是今夏離隊第一人

籃球實戰(zhàn)寶典
2026-04-19 15:47:41
特朗普第一任期的白宮律師突然爆猛料:特朗普已經(jīng)撐不下去了

特朗普第一任期的白宮律師突然爆猛料:特朗普已經(jīng)撐不下去了

西樓知趣雜談
2026-04-19 21:25:23
畸形審美?這4位男演員長相平平,卻總當主角演帥哥,實在不理解

畸形審美?這4位男演員長相平平,卻總當主角演帥哥,實在不理解

史鹷的生活科普
2026-04-19 22:51:14
一個卡扣要換13萬電池包!國產(chǎn)這種售后,到外國會罰到懷疑人生!

一個卡扣要換13萬電池包!國產(chǎn)這種售后,到外國會罰到懷疑人生!

沙雕小琳琳
2026-04-19 12:32:36
(深入分析)特朗普已被逼到了懸崖邊上,因為中國擊中了其要害

(深入分析)特朗普已被逼到了懸崖邊上,因為中國擊中了其要害

阿胡
2025-04-12 11:30:46
1949年,解放軍打開馬鴻逵的倉庫,全都愣?。豪锩媸?286公斤羊毛

1949年,解放軍打開馬鴻逵的倉庫,全都愣?。豪锩媸?286公斤羊毛

野史日記
2026-04-18 21:00:03
真子公主低調慶祝孩子1周歲生日,離開王室5年未回日本,比哈里狠

真子公主低調慶祝孩子1周歲生日,離開王室5年未回日本,比哈里狠

毒舌小紅帽
2026-04-19 21:42:56
14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

不似少年游
2026-04-17 19:31:49
一夜成名!張雪的岳父登上熱搜,被麻陽當?shù)仡I導邀請參加騎行活動

一夜成名!張雪的岳父登上熱搜,被麻陽當?shù)仡I導邀請參加騎行活動

火山詩話
2026-04-19 17:46:25
鹵菜店使用“四姐”二字被索賠50萬元,店主:大家都叫我四姐,為什么告我侵權

鹵菜店使用“四姐”二字被索賠50萬元,店主:大家都叫我四姐,為什么告我侵權

環(huán)球網(wǎng)資訊
2026-04-11 21:50:22
張柏芝三胎生父被封,coco再曝猛料謝賢名譽受損

張柏芝三胎生父被封,coco再曝猛料謝賢名譽受損

阿紵美食
2026-04-20 04:11:18
警惕:上了年紀再過性生活,最怕這2點!保護男性精氣,做好4點

警惕:上了年紀再過性生活,最怕這2點!保護男性精氣,做好4點

周哥一影視
2026-04-08 12:20:15
哈里梅根的全球身份危機:這場高仿王室出訪,正在拖垮整個君主制

哈里梅根的全球身份危機:這場高仿王室出訪,正在拖垮整個君主制

李Dog嗨
2026-04-19 22:51:40
別只盯著特朗普!美國為何總在制造沖突,背后是喂養(yǎng)怪物的饑渴?

別只盯著特朗普!美國為何總在制造沖突,背后是喂養(yǎng)怪物的饑渴?

星落山間
2026-04-19 12:15:00
第一次對「鋁箔紙」產(chǎn)生了敬意!以為烘焙專用,沒想到是家居神器

第一次對「鋁箔紙」產(chǎn)生了敬意!以為烘焙專用,沒想到是家居神器

裝修秀
2026-04-18 11:55:03
《八千里路云和月》朱管家想不到,算計田家泰家業(yè),卻成全了萬福

《八千里路云和月》朱管家想不到,算計田家泰家業(yè),卻成全了萬福

白淺娛樂聊
2026-04-19 12:37:15
一個家庭最大的悲哀,是父母年過70了,還在做三件事

一個家庭最大的悲哀,是父母年過70了,還在做三件事

大熊歡樂坊
2026-04-02 14:23:28
演員何潤東回應穿項羽鎧甲亮相蘇超:14年后受邀過來,內心滿是感動,等下去逛項王故里

演員何潤東回應穿項羽鎧甲亮相蘇超:14年后受邀過來,內心滿是感動,等下去逛項王故里

極目新聞
2026-04-19 10:17:37
2026-04-20 05:36:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3334文章數(shù) 11137關注度
往期回顧 全部

科技要聞

50分26秒破人類紀錄!300臺機器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內娛隔空掀桌第一人

財經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

教育
本地
時尚
公開課
軍事航空

教育要聞

655家單位、1.29萬個崗位,湖南用心幫大學生找工作

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

裝修“精神角落”,就是這么上癮

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗逼退美掃雷艇:美方求給15分鐘撤退

無障礙瀏覽 進入關懷版