国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

最近很熱門(mén)的oMLX,Mac端大模型本地部署新選擇,Claude-Opus-4.6 蒸餾版 Qwen3.5-9B 實(shí)測(cè)

0
分享至

oMLX 走的是 Apple Silicon + MLX 這條路,Windows 和 NVIDIA 這邊的朋友,這篇先看看熱鬧就好

前文,評(píng)論區(qū)好幾個(gè)兄弟推薦測(cè)試 oMLX:

  • 博主有時(shí)間可以研究一下oMLX這個(gè)替代 LM Studio,據(jù)說(shuō)比 lm 快很多倍。

  • 聽(tīng)說(shuō) omlx 比 lm studio 更好用些,占用內(nèi)存更小,有沒(méi)有嘗試部署一下?

  • 有大佬做成適合 omlx 跑的 fp8 量化版了,大概 10G,可以試試。同樣機(jī)器配置,換用了 oMLX 跑 qwen3.5 9b MLX Q4 版,利落了些,15token 左右吧。雖然回復(fù)慢,但還能用。而 ollama 跑就卡頓的很。

花半天玩了一下,先看大家最關(guān)心的測(cè)試情況:

  • oMLX 有很多亮點(diǎn),UI、菜單欄、管理后臺(tái)儀表板,Chat 頁(yè)面都很漂亮,底層有 SSD KV 緩存、設(shè)置熱緩存、支持 MCP、一鍵對(duì)接各種 AI Coding Agent,OpenAI/Anthropic 兼容接口、針對(duì) Claude Code 優(yōu)化等

  • 單請(qǐng)求生成速度約 20 token/s,峰值顯存/統(tǒng)一內(nèi)存占用約 5.7GB

  • 無(wú)法硬跑 Qwen3.5-27B-Claude-4.6-Opus-Distilled-MLX-4bit,LM Studio 可以強(qiáng)跑,但只能加載,執(zhí)行任務(wù)直接徹底卡死

安裝、配置、使用教程

安裝后直接進(jìn)入 Perference,自定義模型位置,端口號(hào)

模型位置后面我把他改到了外接移動(dòng)硬盤(pán)


菜單欄確實(shí)方便,一鍵啟停 server、進(jìn)入管理后臺(tái),進(jìn)入聊天界面


先要進(jìn)入模型 tab 然后點(diǎn)下載器


下面的瀏覽模型可以直接看能否支持當(dāng)前主機(jī)


下載速度極慢,后來(lái)我換成了 modelcope


感覺(jué)也有 bug,直接從上面下載,他會(huì)默認(rèn)下載整個(gè)項(xiàng)目下的不同精度模型,而我只需要 Q4


27B 我也下了


沒(méi)有選擇 Jackrong 原版,主要是被 mlx-community 這句話(huà)吸引了


但是 27B 最低使得 24 GB 及以上統(tǒng)一內(nèi)存的 Mac 都能運(yùn)行該模型,且還有足夠空間容納大型上下文窗口,推薦是 32GB

官方測(cè)試數(shù)據(jù):

Metric

Result

Model load time

2.4 seconds

Prompt ingestion

86.5 tokens/sec

Generation speed

15.7 tokens/sec

Peak RAM usage

15.6 GB

Bit-rate

4.501 bits/weight

Final size

14 GB (3 shards)

下載過(guò)程中進(jìn)入設(shè)置頁(yè)


資源管理這里可以控制內(nèi)存占用情況,


下載完畢,可以選擇在設(shè)置 - 模型設(shè)置中啟動(dòng),剛開(kāi)始居然沒(méi)找到哪里加載


聊天頁(yè)面,很清爽


儀表盤(pán)會(huì)記錄模型運(yùn)行情況


現(xiàn)在往下也能把啟動(dòng)的模型一見(jiàn)接入到 Codex、OpenCode、OpenClaw


它還可以做基準(zhǔn)測(cè)試


32K 單請(qǐng)求測(cè)試,電腦已經(jīng)有點(diǎn)卡了,TTFT 高的離譜,TPS 只有 11

測(cè)試

TTFT (ms)

TPOT (ms/tok)

pp TPS

tg TPS

端到端延遲

吞吐量

峰值內(nèi)存

pp32768/tg128

187.4 tok/s

11.8 tok/s

185.686s

177.2 tok/s

9.06 GB

單請(qǐng)求 + 批處理能力沒(méi)敢開(kāi)高,tg TPS 20.2 tok/s。輸入拉長(zhǎng)到 4096 token 后 TTFT 從 4.8s 變成 18.8s,tg TPS 還在 19.8 tok/s,幾乎沒(méi)掉,Peak Mem 從 5.66 GB 到 6.40 GB

并發(fā)到 2-4 路時(shí)總吞吐提升明顯,但 8 路已經(jīng)接近平臺(tái)上限,延遲代價(jià)很大。


依舊測(cè)試閱讀理解+SVG 代碼生成 + 審美

感覺(jué)不穩(wěn)了,需要抽卡


重新嘗試可以識(shí)別到四次,svg 寫(xiě)的很丑


讓其優(yōu)化之后,它的腦回路讓我想笑,它直接設(shè)計(jì)了模擬人物動(dòng)作,完全偏離了主題


27B 無(wú)法跑起來(lái)

改了 N 多配置都不行,有高手可以出出主意

我要換 32G 的 Mac 了


但是 LM Studio 就可以用 option 按鍵強(qiáng)跑,只是無(wú)法執(zhí)行任務(wù),機(jī)器卡死


其他再說(shuō)說(shuō)

看了官方文檔,再說(shuō)幾個(gè) oMLX 的亮點(diǎn),可是我都沒(méi)嘗試

1. 連續(xù)批處理

它基于mlx-lmBatchGenerator做并發(fā)處理,首頁(yè)給了一組非常直觀的 benchmark,機(jī)器是 M3 Ultra 512GB,模型是 Qwen3.5-122B-A10B-4bit:

  • 單請(qǐng)求、8k 上下文時(shí),Prompt 處理速度能到941 tok/s

  • Token 生成速度大約54.0 tok/s

  • 8x連續(xù)批處理下,總吞吐能到190.2 tok/s

  • 對(duì)應(yīng)3.36 倍吞吐提升

  • 內(nèi)存占用峰值 73 GB

另一組我很關(guān)注的數(shù)據(jù)是Qwen3-Coder-Next-8bit

  • 8k 上下文時(shí),Prompt 處理速度2009 tok/s

  • 8x批處理總吞吐243.3 tok/s

  • 加速比來(lái)到4.14 倍

  • 內(nèi)存占用峰值 85GB

2. Claude Code 優(yōu)化

README 里有一句:

支持在 Claude Code 中使用較小上下文模型的上下文縮放。通過(guò)縮放上報(bào)的 Token 數(shù)量,讓自動(dòng)壓縮在合適的時(shí)機(jī)觸發(fā),同時(shí)提供 SSE keep-alive 防止長(zhǎng)時(shí)間預(yù)填充導(dǎo)致的讀取超時(shí)。

官方給出的方向主要有兩個(gè):

  • 通過(guò)上下文縮放,讓較小上下文模型在 Claude Code 里更容易觸發(fā)合適的自動(dòng)壓縮時(shí)機(jī)

  • 通過(guò) SSE keep-alive,降低長(zhǎng)時(shí)間 prefill 時(shí)讀超時(shí)的風(fēng)險(xiǎn)

它本身還支持:

  • OpenAI 兼容接口:http://localhost:8000/v1

  • Anthropic 兼容接口:POST /v1/messages

  • 工具調(diào)用

  • MCP 集成

3. 多模型服務(wù)

它在同一服務(wù)里支持:

  • 文本 LLM

  • VLM

  • OCR 模型

  • Embedding

  • Reranker

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗宣布對(duì)所有商船開(kāi)放霍爾木茲海峽,美維持對(duì)伊海上封鎖,伊朗議長(zhǎng):特朗普7項(xiàng)聲明“均不屬實(shí)”

伊朗宣布對(duì)所有商船開(kāi)放霍爾木茲海峽,美維持對(duì)伊海上封鎖,伊朗議長(zhǎng):特朗普7項(xiàng)聲明“均不屬實(shí)”

縱相新聞
2026-04-18 12:36:03
突然“值錢(qián)了”!不少人家里都有,專(zhuān)家提醒:別賣(mài)!

突然“值錢(qián)了”!不少人家里都有,專(zhuān)家提醒:別賣(mài)!

劉哥談體育
2026-04-19 21:40:06
王偉中對(duì)俄羅斯后貝加爾邊疆區(qū)交通事故作出批示

王偉中對(duì)俄羅斯后貝加爾邊疆區(qū)交通事故作出批示

澎湃新聞
2026-04-19 13:55:05
不裝了賴(lài)清德、馬英九暴露真面目!國(guó)民黨發(fā)甲級(jí)動(dòng)員,想決一死戰(zhàn)

不裝了賴(lài)清德、馬英九暴露真面目!國(guó)民黨發(fā)甲級(jí)動(dòng)員,想決一死戰(zhàn)

青梅侃史啊
2026-04-19 19:17:48
中小學(xué)生上課時(shí)間大調(diào)整:9點(diǎn)上課或成新規(guī),周六上課引家長(zhǎng)熱議

中小學(xué)生上課時(shí)間大調(diào)整:9點(diǎn)上課或成新規(guī),周六上課引家長(zhǎng)熱議

復(fù)轉(zhuǎn)這些年
2026-04-18 12:47:43
美國(guó)全世界逛一圈才發(fā)現(xiàn),自己扶持所有小弟里,最能打的還是老蔣

美國(guó)全世界逛一圈才發(fā)現(xiàn),自己扶持所有小弟里,最能打的還是老蔣

呼呼體壇
2026-04-19 18:26:54
局勢(shì)生變,全球接到消息,美軍全部撤離,所有軍事基地被敘國(guó)接管

局勢(shì)生變,全球接到消息,美軍全部撤離,所有軍事基地被敘國(guó)接管

聞識(shí)
2026-04-19 21:08:29
美國(guó)證實(shí)!伊朗最高領(lǐng)袖“已受傷但仍活著”,伊朗方面此前稱(chēng)穆杰塔巴·哈梅內(nèi)伊身體健康 ,但因戰(zhàn)爭(zhēng)推遲公開(kāi)露面

美國(guó)證實(shí)!伊朗最高領(lǐng)袖“已受傷但仍活著”,伊朗方面此前稱(chēng)穆杰塔巴·哈梅內(nèi)伊身體健康 ,但因戰(zhàn)爭(zhēng)推遲公開(kāi)露面

每日經(jīng)濟(jì)新聞
2026-04-16 23:06:57
曼城羅德里傷病令人擔(dān)憂(yōu),瓜迪奧拉給出更新

曼城羅德里傷病令人擔(dān)憂(yōu),瓜迪奧拉給出更新

綠茵情報(bào)局
2026-04-20 04:22:15
研究表明,中學(xué)生的抑郁率已高達(dá)36%!

研究表明,中學(xué)生的抑郁率已高達(dá)36%!

黯泉
2026-04-18 18:06:01
《八千里路云和月》朱管家想不到,算計(jì)田家泰家業(yè),卻成全了萬(wàn)福

《八千里路云和月》朱管家想不到,算計(jì)田家泰家業(yè),卻成全了萬(wàn)福

白淺娛樂(lè)聊
2026-04-19 12:37:15
難怪能成為大明星,小時(shí)候居然這么漂亮!大家看出來(lái)她是誰(shuí)了嗎?

難怪能成為大明星,小時(shí)候居然這么漂亮!大家看出來(lái)她是誰(shuí)了嗎?

阿廢冷眼觀察所
2026-04-19 22:13:42
國(guó)產(chǎn)光纖全球“爆單”:部分產(chǎn)品價(jià)格暴漲650%

國(guó)產(chǎn)光纖全球“爆單”:部分產(chǎn)品價(jià)格暴漲650%

環(huán)球網(wǎng)資訊
2026-04-19 11:16:14
身材纖細(xì)、體態(tài)修長(zhǎng)的日本業(yè)界骨感美人·TOP10

身材纖細(xì)、體態(tài)修長(zhǎng)的日本業(yè)界骨感美人·TOP10

吃瓜黨二號(hào)頭目
2026-04-19 09:58:57
神替補(bǔ)!桑喬兩次送禮,鴨脖救主,維拉先被絕平又反絕殺,太刺激

神替補(bǔ)!桑喬兩次送禮,鴨脖救主,維拉先被絕平又反絕殺,太刺激

硬腿子聊個(gè)球
2026-04-19 22:58:51
真給力!5月1日起,65歲老人坐公交全省都免費(fèi) 福建老人幸福感拉滿(mǎn)

真給力!5月1日起,65歲老人坐公交全省都免費(fèi) 福建老人幸福感拉滿(mǎn)

今日搞笑分享
2026-04-19 16:37:15
第一次對(duì)「鋁箔紙」產(chǎn)生了敬意!以為烘焙專(zhuān)用,沒(méi)想到是家居神器

第一次對(duì)「鋁箔紙」產(chǎn)生了敬意!以為烘焙專(zhuān)用,沒(méi)想到是家居神器

裝修秀
2026-04-18 11:55:03
莫蘭特灰熊時(shí)代終章:從天之驕子到無(wú)人問(wèn)津的墜落

莫蘭特灰熊時(shí)代終章:從天之驕子到無(wú)人問(wèn)津的墜落

漫川舟船
2026-04-19 15:03:30
打蛇打七寸!中國(guó)全面斷供開(kāi)始,日本多行業(yè)停擺,高市真慌了

打蛇打七寸!中國(guó)全面斷供開(kāi)始,日本多行業(yè)停擺,高市真慌了

有你便是晴天呢
2026-04-19 09:27:13
吃相太難看!莫氏雞煲爆火后,惡心一幕出現(xiàn),終走上呆呆妹的老路

吃相太難看!莫氏雞煲爆火后,惡心一幕出現(xiàn),終走上呆呆妹的老路

以茶帶書(shū)
2026-04-15 17:30:12
2026-04-20 07:12:49
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3334文章數(shù) 11137關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類(lèi)紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒(méi)法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒(méi)法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂(lè)要聞

何潤(rùn)東漲粉百萬(wàn)!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車(chē)要聞

29分鐘大定破萬(wàn) 極氪8X為什么這么多人買(mǎi)?

態(tài)度原創(chuàng)

藝術(shù)
教育
時(shí)尚
本地
健康

藝術(shù)要聞

蒲華寫(xiě)水仙,清健嫵媚

教育要聞

中國(guó)為什么不禁網(wǎng)絡(luò)游戲?

裝修“精神角落”,就是這么上癮

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版