国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

三大推理框架vLLM、llama.cpp、MLX 全部跟進(jìn)?。?!

0
分享至

本文是續(xù)集,看下主流推理框架跟進(jìn)了情況

全面開(kāi)花:誰(shuí)在做,做到了什么程度?

先給一張全景圖,讓你 30 秒掌握當(dāng)前進(jìn)展:

框架

平臺(tái)

狀態(tài)

核心亮點(diǎn)

oMLX

Apple Silicon

? 已發(fā)布(v0.2.21)

128K 上下文 KV 省 79%,一鍵開(kāi)啟

mlx-vlm

Apple Silicon

PR 進(jìn)行中

Metal kernel 實(shí)現(xiàn),解碼速度逼近全精度

llama.cpp

全平臺(tái)

實(shí)驗(yàn)中

已有可編譯分支,社區(qū)在推進(jìn)

vLLM

CUDA

方案已出

完整 6 步集成計(jì)劃,等 PR


oMLX:Mac 用戶(hù)已經(jīng)可以用了

這是目前進(jìn)度最快的——oMLX v0.2.21 已經(jīng)把 TurboQuant KV Cache 作為實(shí)驗(yàn)功能正式發(fā)布了。


oMLX TurboQuant KV Cache 功能界面

先簡(jiǎn)單說(shuō)說(shuō) oMLX 是什么:這是一個(gè)專(zhuān)為 Mac 優(yōu)化的本地 LLM 推理服務(wù)器,支持菜單欄管理、連續(xù)批處理、熱/冷兩級(jí) KV Cache(內(nèi)存+SSD),還有漂亮的 Admin Dashboard。用 Homebrew 裝完就能跑,OpenAI API 兼容,Claude Code、OpenCode 都能直接對(duì)接。

更具體介紹請(qǐng)看:

TurboQuant 在 oMLX 里的實(shí)現(xiàn)思路很巧妙:

Prefill 階段完全用 fp16,零質(zhì)量損失。第一個(gè) decode token 生成時(shí),才把累積的 KV Cache 量化成 3-bit 或 4-bit 的 codebook 索引。Decode 注意力用的是一個(gè) fused 兩遍 Flash Attention Metal kernel,直接從 packed 索引讀取——不需要反量化,不需要 fp16 中間張量。

這個(gè)設(shè)計(jì)太聰明了,Prefill 不碰你的精度,decode 階段才壓縮,而且 kernel 直接操作壓縮后的數(shù)據(jù),不走解壓再算的老路。

實(shí)測(cè)大海撈針(Qwen3.5-35B-A3B,3-bit TurboQuant):

上下文長(zhǎng)度

Baseline

TurboQuant

KV 內(nèi)存節(jié)省

32K

735MB → 195MB(省 73%)

64K

1407MB → 327MB(省 77%)

128K

2749MB → 589MB(省 79%)

128K 上下文,KV Cache 從 2.7GB 壓到 589MB,質(zhì)量零損失。

對(duì)于 Mac 用戶(hù)來(lái)說(shuō),這意味著你的機(jī)器一下子能裝下更長(zhǎng)的上下文了。

速度方面也很穩(wěn):

模型

Prefill 速度

Decode 速度

Qwen3.5-35B-A3B

fp16 的 95%

fp16 的 87%

Qwen3.5-27B

fp16 的 97%

fp16 的 95%

用起來(lái)也簡(jiǎn)單——Admin UI → 模型設(shè)置 → 實(shí)驗(yàn)功能 → 打開(kāi) TurboQuant KV Cache 開(kāi)關(guān),完事。

# 安裝 oMLX
brew tap jundot/omlx https://github.com/jundot/omlx
brew install omlx


# 啟動(dòng)服務(wù)
brew services start omlx

順便提一句,這個(gè)版本還帶了 **oQ+**——在 oQ 的混合精度量化基礎(chǔ)上加了 GPTQ 權(quán)重優(yōu)化。對(duì) MoE 模型做了批處理算法加速,Qwen3.5-35B-A3B(256 experts × 40 layers)6 分鐘搞定,比順序處理快 15 倍。

mlx-vlm:Metal Kernel 正在逼近全精度

mlx-vlm 的作者 Blaizzy 在 PR [1] 里提交了一套完整的 TurboQuant Metal kernel 實(shí)現(xiàn)。

這個(gè) PR 一共提了 5 個(gè) commit,逐步構(gòu)建了完整的 TurboQuant 推理鏈路:

基礎(chǔ) kernel:

  • _mse_score_kernel—— MSE 評(píng)分

  • _pack_lowbit_kernel/_unpack_lowbit_kernel—— 低位打包/解包

  • _qjl_score_kernel—— QJL 1-bit 殘差糾偏

  • _prod_score_kernel—— 內(nèi)積計(jì)算

多頭優(yōu)化 kernel:

  • _prod_score_multi_kernel—— 多頭批處理

  • _mse_weighted_rot_multi_kernel—— 加權(quán)旋轉(zhuǎn)多頭處理

  • _prod_score_repeat_kernel—— 重復(fù)模式優(yōu)化

4-bit PolarQuant 路徑:

  • _polar_prod_score_kernel—— 極坐標(biāo)內(nèi)積

  • _polar_turbo_score_repeat_kernel—— 極坐標(biāo)重復(fù)模式

同時(shí)scaled_dot_product_attention函數(shù)也做了適配,針對(duì)單 query 輸入走 TurboQuant 快速解碼路徑。

從已知數(shù)據(jù)看,MLX TurboQuant kernel 的解碼速度已經(jīng)追到全精度的 **70-85%**,還在繼續(xù)優(yōu)化。這個(gè) PR 合進(jìn)去之后,所有用 mlx-vlm 的項(xiàng)目都能直接受益。

llama.cpp:Issue 已開(kāi),社區(qū)在推

llama.cpp 這邊,Issue [2] 已經(jīng)有人開(kāi)了 feature request。

更值得關(guān)注的是,開(kāi)發(fā)者 @mudler 已經(jīng)在動(dòng)手了——他 fork 了一個(gè) feat/turbo-quant 分支[3],目前已經(jīng)能編譯和啟動(dòng),正在評(píng)估效果。

llama.cpp 一旦正式支持 TurboQuant,影響面是最大的。

因?yàn)?llama.cpp 是目前本地部署生態(tài)的基石——Ollama、LM Studio、GPT4All 等等一大堆上層應(yīng)用都依賴(lài)它。

llama.cpp 支持了,意味著整個(gè)本地部署生態(tài)都支持了。

vLLM:方案最詳細(xì),等 PR

vLLM 這邊開(kāi)的 Issue [4] 信息量最大,直接給出了一份 6 步集成方案:

  1. 擴(kuò)展 Cache 配置—— 在CacheDType里加"turboquant"

  2. 創(chuàng)建 TurboQuantConfig 類(lèi)—— 用@register_quantization_config裝飾器

  3. 實(shí)現(xiàn) KV Cache Method—— 繼承BaseKVCacheMethod,注冊(cè) codebook 參數(shù)

  4. 更新量化檢測(cè)—— 讓is_quantized_kv_cache()識(shí)別 TurboQuant

  5. 實(shí)現(xiàn) CUDA/Triton Kernel—— 編碼 kernel(量化存儲(chǔ))+ 解碼 kernel(注意力計(jì)算前還原)

  6. 內(nèi)存管理更新—— 適配 codebook 額外開(kāi)銷(xiāo)和可變壓縮率

這個(gè) Issue 寫(xiě)得像一份小型技術(shù)設(shè)計(jì)文檔,給后來(lái)接手的開(kāi)發(fā)者鋪好了路。

對(duì)于跑云端推理的場(chǎng)景,vLLM + TurboQuant 的組合會(huì)非常有沖擊力——4-5 倍 KV Cache 壓縮,意味著同樣的 H100 能撐更多并發(fā)、更長(zhǎng)上下文。

2026 年的本地 AI 體驗(yàn),會(huì)因?yàn)?TurboQuant 而躍遷一個(gè)檔次。我很期待。

.cpp

制作不易,如果這篇文章覺(jué)得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè) ,謝謝你看我的文章,我們下篇再見(jiàn)!

參考資料

PR : https://github.com/Blaizzy/mlx-vlm/pull/858

Issue : https://github.com/ggml-org/llama.cpp/issues/20977

feat/turbo-quant 分支: https://github.com/mudler/llama.cpp/tree/feat/turbo-quant

Issue : https://github.com/vllm-project/vllm/issues/38171

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗宣布對(duì)所有商船開(kāi)放霍爾木茲海峽,美維持對(duì)伊海上封鎖,伊朗議長(zhǎng):特朗普7項(xiàng)聲明“均不屬實(shí)”

伊朗宣布對(duì)所有商船開(kāi)放霍爾木茲海峽,美維持對(duì)伊海上封鎖,伊朗議長(zhǎng):特朗普7項(xiàng)聲明“均不屬實(shí)”

縱相新聞
2026-04-18 12:36:03
突然“值錢(qián)了”!不少人家里都有,專(zhuān)家提醒:別賣(mài)!

突然“值錢(qián)了”!不少人家里都有,專(zhuān)家提醒:別賣(mài)!

劉哥談體育
2026-04-19 21:40:06
王偉中對(duì)俄羅斯后貝加爾邊疆區(qū)交通事故作出批示

王偉中對(duì)俄羅斯后貝加爾邊疆區(qū)交通事故作出批示

澎湃新聞
2026-04-19 13:55:05
不裝了賴(lài)清德、馬英九暴露真面目!國(guó)民黨發(fā)甲級(jí)動(dòng)員,想決一死戰(zhàn)

不裝了賴(lài)清德、馬英九暴露真面目!國(guó)民黨發(fā)甲級(jí)動(dòng)員,想決一死戰(zhàn)

青梅侃史啊
2026-04-19 19:17:48
中小學(xué)生上課時(shí)間大調(diào)整:9點(diǎn)上課或成新規(guī),周六上課引家長(zhǎng)熱議

中小學(xué)生上課時(shí)間大調(diào)整:9點(diǎn)上課或成新規(guī),周六上課引家長(zhǎng)熱議

復(fù)轉(zhuǎn)這些年
2026-04-18 12:47:43
美國(guó)全世界逛一圈才發(fā)現(xiàn),自己扶持所有小弟里,最能打的還是老蔣

美國(guó)全世界逛一圈才發(fā)現(xiàn),自己扶持所有小弟里,最能打的還是老蔣

呼呼體壇
2026-04-19 18:26:54
局勢(shì)生變,全球接到消息,美軍全部撤離,所有軍事基地被敘國(guó)接管

局勢(shì)生變,全球接到消息,美軍全部撤離,所有軍事基地被敘國(guó)接管

聞識(shí)
2026-04-19 21:08:29
美國(guó)證實(shí)!伊朗最高領(lǐng)袖“已受傷但仍活著”,伊朗方面此前稱(chēng)穆杰塔巴·哈梅內(nèi)伊身體健康 ,但因戰(zhàn)爭(zhēng)推遲公開(kāi)露面

美國(guó)證實(shí)!伊朗最高領(lǐng)袖“已受傷但仍活著”,伊朗方面此前稱(chēng)穆杰塔巴·哈梅內(nèi)伊身體健康 ,但因戰(zhàn)爭(zhēng)推遲公開(kāi)露面

每日經(jīng)濟(jì)新聞
2026-04-16 23:06:57
曼城羅德里傷病令人擔(dān)憂(yōu),瓜迪奧拉給出更新

曼城羅德里傷病令人擔(dān)憂(yōu),瓜迪奧拉給出更新

綠茵情報(bào)局
2026-04-20 04:22:15
研究表明,中學(xué)生的抑郁率已高達(dá)36%!

研究表明,中學(xué)生的抑郁率已高達(dá)36%!

黯泉
2026-04-18 18:06:01
《八千里路云和月》朱管家想不到,算計(jì)田家泰家業(yè),卻成全了萬(wàn)福

《八千里路云和月》朱管家想不到,算計(jì)田家泰家業(yè),卻成全了萬(wàn)福

白淺娛樂(lè)聊
2026-04-19 12:37:15
難怪能成為大明星,小時(shí)候居然這么漂亮!大家看出來(lái)她是誰(shuí)了嗎?

難怪能成為大明星,小時(shí)候居然這么漂亮!大家看出來(lái)她是誰(shuí)了嗎?

阿廢冷眼觀察所
2026-04-19 22:13:42
國(guó)產(chǎn)光纖全球“爆單”:部分產(chǎn)品價(jià)格暴漲650%

國(guó)產(chǎn)光纖全球“爆單”:部分產(chǎn)品價(jià)格暴漲650%

環(huán)球網(wǎng)資訊
2026-04-19 11:16:14
身材纖細(xì)、體態(tài)修長(zhǎng)的日本業(yè)界骨感美人·TOP10

身材纖細(xì)、體態(tài)修長(zhǎng)的日本業(yè)界骨感美人·TOP10

吃瓜黨二號(hào)頭目
2026-04-19 09:58:57
神替補(bǔ)!桑喬兩次送禮,鴨脖救主,維拉先被絕平又反絕殺,太刺激

神替補(bǔ)!桑喬兩次送禮,鴨脖救主,維拉先被絕平又反絕殺,太刺激

硬腿子聊個(gè)球
2026-04-19 22:58:51
真給力!5月1日起,65歲老人坐公交全省都免費(fèi) 福建老人幸福感拉滿(mǎn)

真給力!5月1日起,65歲老人坐公交全省都免費(fèi) 福建老人幸福感拉滿(mǎn)

今日搞笑分享
2026-04-19 16:37:15
第一次對(duì)「鋁箔紙」產(chǎn)生了敬意!以為烘焙專(zhuān)用,沒(méi)想到是家居神器

第一次對(duì)「鋁箔紙」產(chǎn)生了敬意!以為烘焙專(zhuān)用,沒(méi)想到是家居神器

裝修秀
2026-04-18 11:55:03
莫蘭特灰熊時(shí)代終章:從天之驕子到無(wú)人問(wèn)津的墜落

莫蘭特灰熊時(shí)代終章:從天之驕子到無(wú)人問(wèn)津的墜落

漫川舟船
2026-04-19 15:03:30
打蛇打七寸!中國(guó)全面斷供開(kāi)始,日本多行業(yè)停擺,高市真慌了

打蛇打七寸!中國(guó)全面斷供開(kāi)始,日本多行業(yè)停擺,高市真慌了

有你便是晴天呢
2026-04-19 09:27:13
吃相太難看!莫氏雞煲爆火后,惡心一幕出現(xiàn),終走上呆呆妹的老路

吃相太難看!莫氏雞煲爆火后,惡心一幕出現(xiàn),終走上呆呆妹的老路

以茶帶書(shū)
2026-04-15 17:30:12
2026-04-20 07:12:49
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3334文章數(shù) 11137關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類(lèi)紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒(méi)法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒(méi)法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂(lè)要聞

何潤(rùn)東漲粉百萬(wàn)!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車(chē)要聞

29分鐘大定破萬(wàn) 極氪8X為什么這么多人買(mǎi)?

態(tài)度原創(chuàng)

家居
教育
數(shù)碼
公開(kāi)課
軍事航空

家居要聞

法式線(xiàn)條 時(shí)光靜淌

教育要聞

中國(guó)為什么不禁網(wǎng)絡(luò)游戲?

數(shù)碼要聞

華為新機(jī)發(fā)布前瞻:闊折疊X Max+影像旗艦Pura 90,都沒(méi)懸念了

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗逼退美掃雷艇:美方求給15分鐘撤退

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版