国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

<samp id="sqwko"><kbd id="sqwko"></kbd></samp>

<table id="sqwko"><dl id="sqwko"></dl></table>

<samp id="sqwko"></samp>

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴選
郵箱大師
網(wǎng)易云課堂

注冊免費郵箱

注冊VIP郵箱（特權(quán)郵箱，付費）
免費下載網(wǎng)易官方手機郵箱應用

移動端
網(wǎng)易公開課
網(wǎng)易嚴選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Qwen3.5 系列，最優(yōu)選擇 27B，最優(yōu)精度 Q6

2026-03-28 22:27:02　來源: Ai學習的老章

北京舉報

0

分享至

我之前也寫過

工具調(diào)用（Tool Calling / Function Calling）是大模型從"能聊天"進化到"能干活"的關鍵能力，沒有這個能力，Agent 就是空中樓閣

問題來了：Qwen3.5 系列這么多模型，從 0.8B 一路到 397B，到底哪個尺寸真的能可靠地調(diào)用工具？

ToolCall-15：15 道題，照出模型真面目

這個ToolCall-15開源基準測試框架（github.com/stevibe/ToolCall-15），專門測試 LLM 的工具調(diào)用能力：

15 個場景，覆蓋 5 大類能力（每類 3 個）
12 個工具，模型每次都能看到全部工具
模擬響應，確保結(jié)果確定性、可復現(xiàn)
Temperature 設為 0，排除隨機性干擾
不挑測試，全部跑完，沒有選擇性地只跑好看的

下面是 ToolCall-15 的測試看板：

ToolCall-15 測試看板五大考核維度，全是實戰(zhàn)場景

ToolCall-15 測的不是什么花里胡哨的學術指標，全是真實場景下模型會遇到的問題：

類別

測試內(nèi)容

舉例

工具選擇

能不能選對工具？

問柏林天氣，該用get_weather還是web_search？

參數(shù)精度

參數(shù)傳對了嗎？

用戶要華氏溫度，你傳了fahrenheit沒？

多步鏈式

能不能串聯(lián)多個工具？

搜文件 → 讀內(nèi)容 → 查聯(lián)系人 → 發(fā)郵件

克制與拒絕

不該用工具時能忍住嗎？

"二戰(zhàn)哪年結(jié)束？" 你別去web_search啊

? 錯誤恢復

工具報錯了怎么辦？

搜索沒結(jié)果，是放棄還是換個關鍵詞重試？

每個場景評分：? 滿分（2分）、?? 半分（1分）、? 零分

Qwen3.5 全家桶測試結(jié)果：27B 獨占鰲頭

原作者 stevibe 把 Qwen3.5 全系列模型都拉出來溜了一遍——從 0.8B 到 397B，甚至還包括了 Jackrong 的蒸餾版本

結(jié)果出來，我直接震驚了，397B 的巨無霸打不過 27B：

模型

通過數(shù)

Qwen3.5-27B15/15

唯一滿分的原版模型

Qwen3.5-27B 蒸餾版15/15

蒸餾也滿分，工具調(diào)用能力保留完整

Qwen3.5-397B

13/15

兩個測試未通過

Qwen3.5-122B

14/15

一個測試未通過

Qwen3.5-35B

13/15

兩個測試未通過

小參數(shù)模型（0.8B~14B）

大量超時

陷入工具調(diào)用死循環(huán)

最暴露模型的一道題

15 個場景里，最有意思的是第 15 題（TC-15）：

"搜索冰島的人口數(shù)量，然后計算其 2% "

看起來簡單吧？先搜索，拿到數(shù)據(jù)，再算個乘法。但就這道題，暴露了不同尺寸模型的致命弱點：

小模型（0.8B~14B）：直接編數(shù)據(jù)，連搜索都不做，或者陷入死循環(huán)反復調(diào)用同一個工具，直到 30 秒超時
大模型（35B、122B、397B）：明明搜索結(jié)果返回了精確數(shù)字 372,520，它們偏偏用自己腦子里的"大約 370,000"去算。搜了，但不信
?27B：老老實實搜索，拿到 372,520，傳給計算器算372520 * 0.02 = 7450.4，完美

一句話總結(jié)：

小模型會憑空捏造數(shù)據(jù)，大模型會忽略數(shù)據(jù)，27B 直接串行處理了。

這其實揭示了一個深層問題：大參數(shù)模型因為"見多識廣"，反而更傾向于依賴自己的記憶，對工具返回的實際數(shù)據(jù)產(chǎn)生了某種"不信任"

量化測試：Q6 是最佳選擇

確定了 27B 是最能打的模型后，下一個問題來了：該用哪個量化版本？

stevibe 繼續(xù)測試了 Unsloth 提供的所有量化版本，從 Q2_K_XL 到 Q8_K_XL：

Qwen3.5-27B 量化版本

量化級別

通過數(shù)

Q8

15/15 ?

Q615/15

Q5

14/15

Q4

14/15

Q3

14/15

Q2

13/15

結(jié)論很清晰：Q6 是最佳甜蜜點

跟 Q8 拿到了一模一樣的滿分，但占用空間更小，推理速度更快

Q5 往下就開始丟分了，說明量化到一定程度確實會損失工具調(diào)用的精確性

更有意思的是，測試結(jié)果幾乎呈線性下降，這說明 ToolCall-15 這個基準測試確實在測量一些真實的東西，分數(shù)變化不是隨機噪聲

下面是量化版本的詳細對比圖：

量化版本測試結(jié)果對比

有人質(zhì)疑：用 Temperature 0 測試是否公平，日常使用不都是 Temp 1 嗎？

stevibe 解釋：Temp 1 確實是通用場景下的默認設置，但對于工具調(diào)用而言，Temperature 0 表現(xiàn)更好。Databricks 的研究發(fā)現(xiàn)，在函數(shù)調(diào)用任務中，Temp 0 和 0.7 之間的準確率可能相差高達 10%。

這很好理解——工具調(diào)用本質(zhì)上是結(jié)構(gòu)化輸出：選對工具、傳對參數(shù)、按對格式。你需要的是確定性，而不是創(chuàng)造性。這跟你用低 Temperature 生成 JSON 或代碼是一個道理。

伯克利大學的 BFCL和 Databricks 的評估中，都使用較低的溫度來測試函數(shù)調(diào)用能力，可重復性基本上要求這樣做。當然，如果你的使用場景包含創(chuàng)意元素，0.7+ 完全合理，目標不同。

總結(jié)："Qwen3.5-27B 它緊湊、推理能力強、工具調(diào)用出色，Q6 精度 YYDS"

加上更是如有神助了！

ToolCall-15 這個開源項目本身也值得一玩，如果你想評估自己本地部署的模型在工具調(diào)用上到底行不行，直接拿來用就好。

.5

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

印度油輪在霍爾木茲遭炮擊船員喊話伊朗海軍錄音公布

紅星新聞 2026-04-19 17:03:18
12515 跟貼 12515
中俄關系比傳統(tǒng)“聯(lián)盟”更深厚、更可靠

看看新聞Knews 2026-04-19 08:36:10
44306 跟貼 44306

比賽提前結(jié)束，WSBK荷蘭站第二輪正賽張雪機車斬獲第七名

澎湃新聞 2026-04-19 20:28:26
3910 跟貼 3910

五一假期火車票開售以來，鐵路12306拒絕出票105.6萬張

環(huán)球網(wǎng)資訊 2026-04-19 15:23:04
3432 跟貼 3432
山東乳山銀灘“195平米復式房”1萬元起拍，已有多人競價，拍賣公司：產(chǎn)證面積97.94平米，另有贈送面積，非法拍可隨時過戶

極目新聞 2026-04-19 14:06:31
7060 跟貼 7060

揭秘年銷10億的爆款宋柚汁：“宋柚”是商標，柚含量不到3%，主配料為糖水，品牌號稱全國銷量第一

藍鯨新聞 2026-04-15 09:44:24
4065 跟貼 4065

網(wǎng)購的2800多元垃圾桶退貨時被申通弄壞商家拒收后天貓極速退款變欠款網(wǎng)購退貨在途風險該誰擔

信網(wǎng) 2026-04-19 14:15:08
320 跟貼 320
飛行員披露：最棘手時一天22小時坐在機艙準備起飛

環(huán)球網(wǎng)資訊 2026-04-19 09:53:02
476 跟貼 476

快檢查自家陽臺！有人家里已大量出現(xiàn)，官方提醒：千萬別摸

環(huán)球網(wǎng)資訊 2026-04-18 16:23:18
1026 跟貼 1026
榮耀機器人包攬半馬前三工程師回應

新京報 2026-04-19 12:25:11
4203 跟貼 4203
“真銅實料”互嗆升級，海信高管稱格力部分機型用鋁線電機

紅星資本局 2026-04-17 18:26:04
1517 跟貼 1517
男子采蘑菇發(fā)現(xiàn)五步蛇離自己5米，盤縮落葉中和環(huán)境“融為一體”

星視頻 2026-04-19 15:46:19
323 跟貼 323
追到第8名了！申花這個賽季還能爭冠？

新民晚報 2026-04-19 09:21:21
129 跟貼 129
男子爬上泰山“五岳獨尊”石刻拍照，景區(qū)：將核查其身份進行處理

揚子晚報 2026-04-17 12:09:40
1572 跟貼 1572
哥倫比亞總統(tǒng)：美國若一意孤行將激起拉美國家“反抗”

財聯(lián)社 2026-04-19 09:28:11
151 跟貼 151
虛報77億、9.6億投資憑空造，河南：堅決整改追責問責

新京報 2026-04-19 17:01:05
373 跟貼 373
“不差錢”的DeepSeek要融資了？投資人：或為期權(quán)定價留人才

第一財經(jīng)資訊 2026-04-19 13:10:09
540 跟貼 540
俄羅斯海軍艦艇編隊結(jié)束訪問離開湛江

環(huán)球網(wǎng)資訊 2026-04-19 10:17:26
341 跟貼 341
甘肅3歲女孩撫養(yǎng)權(quán)最新進展，生父消停半個月，頭發(fā)已被修剪清爽

九方魚論 2026-04-20 06:40:53
0 跟貼 0
“偽洋牌”曝光是一記警鐘

經(jīng)濟日報 2026-04-20 07:00:06
0 跟貼 0
江蘇一出租車司機發(fā)現(xiàn)“上班搭子”突然電話不接消息不回、車一直停在路邊，果斷報警！救回同事一命

臺州交通廣播 2026-04-20 06:39:30
0 跟貼 0

伊朗宣布對所有商船開放霍爾木茲海峽，美維持對伊海上封鎖，伊朗議長：特朗普7項聲明“均不屬實”

伊朗宣布對所有商船開放霍爾木茲海峽，美維持對伊海上封鎖，伊朗議長：特朗普7項聲明“均不屬實”

縱相新聞

2026-04-18 12:36:03

突然“值錢了”！不少人家里都有，專家提醒：別賣！

突然“值錢了”！不少人家里都有，專家提醒：別賣！

劉哥談體育

2026-04-19 21:40:06

王偉中對俄羅斯后貝加爾邊疆區(qū)交通事故作出批示

王偉中對俄羅斯后貝加爾邊疆區(qū)交通事故作出批示

澎湃新聞

2026-04-19 13:55:05

不裝了賴清德、馬英九暴露真面目！國民黨發(fā)甲級動員，想決一死戰(zhàn)

不裝了賴清德、馬英九暴露真面目！國民黨發(fā)甲級動員，想決一死戰(zhàn)

青梅侃史啊

2026-04-19 19:17:48

中小學生上課時間大調(diào)整：9點上課或成新規(guī)，周六上課引家長熱議

中小學生上課時間大調(diào)整：9點上課或成新規(guī)，周六上課引家長熱議

復轉(zhuǎn)這些年

2026-04-18 12:47:43

美國全世界逛一圈才發(fā)現(xiàn)，自己扶持所有小弟里，最能打的還是老蔣

美國全世界逛一圈才發(fā)現(xiàn)，自己扶持所有小弟里，最能打的還是老蔣

呼呼體壇

2026-04-19 18:26:54

局勢生變，全球接到消息，美軍全部撤離，所有軍事基地被敘國接管

局勢生變，全球接到消息，美軍全部撤離，所有軍事基地被敘國接管

聞識

2026-04-19 21:08:29

美國證實！伊朗最高領袖“已受傷但仍活著”，伊朗方面此前稱穆杰塔巴·哈梅內(nèi)伊身體健康，但因戰(zhàn)爭推遲公開露面

美國證實！伊朗最高領袖“已受傷但仍活著”，伊朗方面此前稱穆杰塔巴·哈梅內(nèi)伊身體健康，但因戰(zhàn)爭推遲公開露面

每日經(jīng)濟新聞

2026-04-16 23:06:57

曼城羅德里傷病令人擔憂，瓜迪奧拉給出更新

曼城羅德里傷病令人擔憂，瓜迪奧拉給出更新

綠茵情報局

2026-04-20 04:22:15

研究表明，中學生的抑郁率已高達36%！

研究表明，中學生的抑郁率已高達36%！

黯泉

2026-04-18 18:06:01

《八千里路云和月》朱管家想不到，算計田家泰家業(yè)，卻成全了萬福

《八千里路云和月》朱管家想不到，算計田家泰家業(yè)，卻成全了萬福

白淺娛樂聊

2026-04-19 12:37:15

難怪能成為大明星，小時候居然這么漂亮！大家看出來她是誰了嗎？

難怪能成為大明星，小時候居然這么漂亮！大家看出來她是誰了嗎？

阿廢冷眼觀察所

2026-04-19 22:13:42

國產(chǎn)光纖全球“爆單”：部分產(chǎn)品價格暴漲650%

國產(chǎn)光纖全球“爆單”：部分產(chǎn)品價格暴漲650%

環(huán)球網(wǎng)資訊

2026-04-19 11:16:14

身材纖細、體態(tài)修長的日本業(yè)界骨感美人·TOP10

身材纖細、體態(tài)修長的日本業(yè)界骨感美人·TOP10

吃瓜黨二號頭目

2026-04-19 09:58:57

神替補！桑喬兩次送禮，鴨脖救主，維拉先被絕平又反絕殺，太刺激

神替補！桑喬兩次送禮，鴨脖救主，維拉先被絕平又反絕殺，太刺激

硬腿子聊個球

2026-04-19 22:58:51

真給力！5月1日起，65歲老人坐公交全省都免費福建老人幸福感拉滿

真給力！5月1日起，65歲老人坐公交全省都免費福建老人幸福感拉滿

今日搞笑分享

2026-04-19 16:37:15

第一次對「鋁箔紙」產(chǎn)生了敬意！以為烘焙專用，沒想到是家居神器

第一次對「鋁箔紙」產(chǎn)生了敬意！以為烘焙專用，沒想到是家居神器

裝修秀

2026-04-18 11:55:03

莫蘭特灰熊時代終章：從天之驕子到無人問津的墜落

莫蘭特灰熊時代終章：從天之驕子到無人問津的墜落

漫川舟船

2026-04-19 15:03:30

打蛇打七寸！中國全面斷供開始，日本多行業(yè)停擺，高市真慌了

打蛇打七寸！中國全面斷供開始，日本多行業(yè)停擺，高市真慌了

有你便是晴天呢

2026-04-19 09:27:13

吃相太難看！莫氏雞煲爆火后，惡心一幕出現(xiàn)，終走上呆呆妹的老路

吃相太難看！莫氏雞煲爆火后，惡心一幕出現(xiàn)，終走上呆呆妹的老路

以茶帶書

2026-04-15 17:30:12

Ai學習的老章

Ai學習的老章

3334文章數(shù) 11137關注度

往期回顧全部

科技要聞

50分26秒破人類紀錄！300臺機器人狂飆半馬

頭條要聞

半年下沉22厘米女子家中坐擁價值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米女子家中坐擁價值上億別墅卻沒法住人

體育要聞

湖人1比0火箭：老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬！內(nèi)娛隔空掀桌第一人

財經(jīng)要聞

華誼兄弟，8年虧光85億

汽車要聞

29分鐘大定破萬極氪8X為什么這么多人買？

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

手機

游戲

房產(chǎn)

公開課

親子要聞

孩子總打噴嚏、起疹子，時過敏嗎？

手機要聞

8.8英寸小鋼炮！REDMI K Pad 2核心配置揭曉

"二次元GTA"直播爆了：疑似貼臉嘲諷其他二游！

房產(chǎn)要聞

官宣簽約最強城更！海口樓市，突然殺入神秘房企！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產(chǎn)30天

© 1997-2026 網(wǎng)易公司版權(quán)所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權(quán)投訴

無障礙瀏覽進入關懷版