国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Ollama 0.19 來了

0
分享至


Ollama 0.19 版來了,直接在 Apple Silicon 上用 MLX 重寫了推理引擎,速度飆到了一個讓人難以忽視的水平。

還有英偉達(dá) NVPF4 傍身,強(qiáng)強(qiáng)聯(lián)合,贏麻了。

Ollama 0.19:MLX 駕到

Ollama 一直是 Mac 用戶跑本地大模型的首選

但說實(shí)話,之前的速度只能算"能用",跟云端推理比起來還是差了點(diǎn)意思。

這次 0.19 版本,Ollama 做了一個根本性的改變:底層推理引擎直接換成了 Apple 的 MLX 框架

MLX 是 Apple 專門為自家芯片的統(tǒng)一內(nèi)存架構(gòu)(Unified Memory Architecture)打造的機(jī)器學(xué)習(xí)框架。

簡單說,CPU 和 GPU 共享同一塊內(nèi)存,數(shù)據(jù)不用來回拷貝,天然就快。之前 Ollama 用的是 llama.cpp 的推理后端,現(xiàn)在直接上了 MLX,等于換了個渦輪增壓。

效果有多猛?來看官方數(shù)據(jù)(基于 M5 芯片 + Qwen3.5-35B-A3B 模型):

指標(biāo)

Ollama 0.19 (MLX + NVFP4)

Ollama 0.18 (llama.cpp + Q4_K_M)

提升

Prefill(預(yù)填充)

1810 tokens/s

1154 tokens/s

+57%Decode(生成)

112 tokens/s

58 tokens/s

+93%

Prefill 速度提了 57%,生成速度幾乎翻倍

跑 Coding Agent 的時候,那種"嗖嗖嗖"往外吐代碼的感覺,爽。

而且 Ollama 還透露,用 int4 量化時數(shù)據(jù)更好看:prefill 能到 1851 token/s,decode 到 134 token/s。

在 M5、M5 Pro 和 M5 Max 上,Ollama 還能利用新的GPU Neural Accelerators來同時加速首 token 延遲(TTFT)和生成速度。

NVFP4:英偉達(dá)的 4 位浮點(diǎn)量化格式

這次 Ollama 選用的量化格式是 NVIDIA 的NVFP4,這個值得多聊兩句。

你可能會問:Mac 上跑大模型,跟英偉達(dá)有什么關(guān)系?

關(guān)系大了

NVFP4 是英偉達(dá)基于 Blackwell GPU 架構(gòu)推出的一種 4 位浮點(diǎn)數(shù)格式,最大的特點(diǎn)就是在極低精度下仍然保持很高的模型準(zhǔn)確率。

Ollama 把它引入到 MLX 推理中,目的是讓本地用戶跑出來的結(jié)果和云端生產(chǎn)環(huán)境盡量一致。

傳統(tǒng)量化(比如之前的 Q4_K_M)雖然也是 4 位,但精度損失比較明顯。NVFP4 的兩個核心設(shè)計讓它脫穎而出:

1. 高精度縮放因子

每 16 個值組成一個"微塊"(micro-block),共享一個 FP8(E4M3)格式的縮放因子。相比 MXFP4 的 32 值一組 + 粗粒度的 power-of-two 縮放,NVFP4 的分組更細(xì)、縮放更準(zhǔn)。

2. 雙層縮放策略

在微塊級別 FP8 縮放之上,還有一個張量級別的 FP32 二級縮放因子,兩層一起工作,大幅降低量化誤差。

英偉達(dá)官方給出的 DeepSeek-R1-0528 測試數(shù)據(jù)很有說服力:

評測

FP8

NVFP4

精度差異

MMLU-PRO

85%

84%

GPQA Diamond

81%

80%

Math-500

98%

98%

0

AIME 2024

89%

91%

在 AIME 2024 上 NVFP4 甚至比 FP8 還高了 2%。你沒看錯,4 位量化比 8 位的分還高。

對 Ollama 用戶來說,NVFP4 意味著你本地跑的模型和云端推理服務(wù)(用 TensorRT-LLM、vLLM 部署的)結(jié)果幾乎一致。以前本地量化和云端之間總有一條"質(zhì)量鴻溝",現(xiàn)在這條溝被大幅填平了。

更多關(guān)于 NVFP4 的技術(shù)細(xì)節(jié),可以看英偉達(dá)官方博客:https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/

緩存升級:Agent 場景更絲滑

除了推理引擎大換血,0.19 在緩存機(jī)制上也做了三項重要改進(jìn),主要面向 Coding Agent 和多輪對話場景:

  • 更低的內(nèi)存占用:跨會話復(fù)用緩存。跑 Claude Code 這類工具時,多個分支會話共享系統(tǒng)提示的緩存,內(nèi)存利用率更高。

  • 智能檢查點(diǎn):Ollama 會在 prompt 的關(guān)鍵位置保存緩存快照,后續(xù)請求命中緩存的概率更高,prompt 處理更快。

  • 更聰明的淘汰策略:共享前綴的緩存不會因為舊分支被清理而丟失,存活時間更長。

這三點(diǎn)對 Agent 場景特別友好——Claude Code、OpenCode、Codex 這些 AI 編程工具,底下都是不停地發(fā) prompt 給大模型,緩存命中率高了,整體響應(yīng)就快了。

快速上手

下載 Ollama 0.19 預(yù)覽版:https://ollama.com/download

?? 目前需要 32GB 以上統(tǒng)一內(nèi)存的 Mac

目前優(yōu)先支持的是 Qwen3.5-35B-A3B 模型(Alibaba 最新的 MoE 模型,35B 參數(shù)但只激活 3B),采樣參數(shù)已經(jīng)針對編程任務(wù)做了優(yōu)化。

Claude Code 用戶:

ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4

OpenClaw 用戶:

ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4

直接跑模型聊天:

ollama run qwen3.5:35b-a3b-coding-nvfp4

模型名稱里的nvfp4就是告訴你用的 NVFP4 量化格式。Ollama 后續(xù)會支持更多模型和架構(gòu),同時也會跟 NVIDIA 的 Model Optimizer 打通,讓你可以導(dǎo)入更多 NVFP4 優(yōu)化的模型。

社區(qū)實(shí)測:M5 Max vs M4 Max

說到 Apple Silicon 上的推理性能,這里推薦一個開源的MLX 推理速度測試工具

inference-speed-tests:https://github.com/itsmostafa/inference-speed-tests

這個項目和 Ollama 無關(guān),它用的是mlx-lm直接跑推理基準(zhǔn)測試。但對于想了解自己 Mac 芯片在本地大模型推理上到底什么水平的人來說,它太有用了。

有網(wǎng)友用它對比了M5 MaxM4 Max(都是 16 寸、128GB、40 核 GPU 的頂配),結(jié)論很有參考價值:

短 prompt(512 tokens 輸出上限):

  • Prompt 處理速度:M5 Max 提升14%~42%

  • 生成吞吐量:M5 Max 提升14%~17%

長 prompt(~21K tokens 的摘要任務(wù),壓力測試內(nèi)存帶寬):

  • 生成速度提升類似

  • Prompt 處理差距巨大:M5 Max快了 2~3 倍

長上下文處理快 2~3 倍,這個數(shù)據(jù)對實(shí)際使用影響很大。你想想,跑 Agent 的時候動不動就是幾萬 token 的上下文,prompt 處理快了就意味著首 token 來得更快,整個交互體驗就上了一個臺階。

怎么用這個工具:

# 安裝
git clone https://github.com/itsmostafa/inference-speed-tests
cd inference-speed-tests
uv sync

# 跑個基準(zhǔn)測試
uv run src/main.py mlx-community/Qwen3-8B-4bit -n 1

# 跑多個模型對比
uv run src/main.py mlx-community/Qwen3-8B-4bit mlx-community/Qwen3-14B-4bit

# 長文本壓力測試
uv run src/main.py mlx-community/Qwen3-8B-4bit \
--dataset cnn_dailymail --dataset-config 3.0.0 --dataset-field article

結(jié)果會自動按你的機(jī)器型號保存到results/目錄下,包含 prompt tps、generation tps、TTFT、峰值內(nèi)存、總時間等詳細(xì)指標(biāo)。如果你有新機(jī)器,跑完提個 PR 到倉庫,就能給社區(qū)貢獻(xiàn)你的數(shù)據(jù)。

總結(jié)

Ollama 0.19 這次更新的核心就三件事:

  1. MLX 引擎替換:Apple Silicon 上推理速度翻倍級提升

  2. NVFP4 量化格式:英偉達(dá)的 4 位精度方案,精度損失極小,本地推理結(jié)果跟云端一致

  3. 緩存大升級:Agent 和多輪對話場景更流暢

對 Mac 用戶來說,這是 Ollama 有史以來最重要的一次更新。之前那種"本地跑模型就是慢"的印象,現(xiàn)在該更新了。M4/M5 芯片 + 128GB 統(tǒng)一內(nèi)存 + MLX + NVFP4,這套組合拳打下來,本地推理的體驗已經(jīng)逼近可用的門檻。

  • Ollama 博客原文:https://ollama.com/blog/mlx

  • Ollama 下載:https://ollama.com/download

  • NVFP4 技術(shù)詳解(英偉達(dá)官方):https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/

  • 社區(qū)推理速度測試工具:https://github.com/itsmostafa/inference-speed-tests

制作不易,如果這篇文章覺得對你有用,可否點(diǎn)個關(guān)注。給我個三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
鎢價暴漲6倍!這兩家企業(yè)才是真正悶聲發(fā)財

鎢價暴漲6倍!這兩家企業(yè)才是真正悶聲發(fā)財

戶外釣魚哥阿旱
2026-04-20 07:39:30
他有上將的能力,更有上將資歷:兩任首長都不看好他,最后成中將

他有上將的能力,更有上將資歷:兩任首長都不看好他,最后成中將

浩渺青史
2026-04-20 02:35:41
女人多久會主動跟你發(fā)生關(guān)系?別害羞,真實(shí)的答案在這里

女人多久會主動跟你發(fā)生關(guān)系?別害羞,真實(shí)的答案在這里

阿凱銷售場
2026-04-20 10:52:10
車主速看!4月30日前未辦理,5月1日起一律扣分罰款

車主速看!4月30日前未辦理,5月1日起一律扣分罰款

西莫的藝術(shù)宮殿
2026-04-20 08:03:03
民進(jìn)黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨(dú)大政黨

民進(jìn)黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨(dú)大政黨

李橑在北漂
2026-04-02 10:22:26
中國校園關(guān)閉簡史

中國校園關(guān)閉簡史

必記本
2026-04-19 00:21:08
東莞通往深圳最堵大動脈,五車道突然變兩車道,這樣的設(shè)計合理嗎

東莞通往深圳最堵大動脈,五車道突然變兩車道,這樣的設(shè)計合理嗎

旭芯怡
2026-04-20 09:45:14
軍費(fèi)90億卻砸120億?美印看懵,巴鐵清空中國武器,背后金主攤牌

軍費(fèi)90億卻砸120億?美印看懵,巴鐵清空中國武器,背后金主攤牌

小蘭聊歷史
2026-04-18 15:27:37
小寶與王某雷,誰探訪花的數(shù)量更多?

小寶與王某雷,誰探訪花的數(shù)量更多?

挪威森林
2026-01-31 12:15:26
深圳空姐月入一萬五,負(fù)債102萬,申請個人破產(chǎn)獲立案

深圳空姐月入一萬五,負(fù)債102萬,申請個人破產(chǎn)獲立案

一口老湯
2026-04-19 17:39:21
下一站英超?曝法布雷加斯有望執(zhí)教阿森納,球迷不滿前隊長回歸

下一站英超?曝法布雷加斯有望執(zhí)教阿森納,球迷不滿前隊長回歸

夏侯看英超
2026-04-20 11:28:36
善惡有報!許家印剛認(rèn)罪1天,子女近況曝光,大兒子的安排全白費(fèi)

善惡有報!許家印剛認(rèn)罪1天,子女近況曝光,大兒子的安排全白費(fèi)

來科點(diǎn)譜
2026-04-20 07:14:44
出大事了,特朗普病癥已晚期?和伊朗開戰(zhàn),竟是內(nèi)塔尼亞胡的圈套

出大事了,特朗普病癥已晚期?和伊朗開戰(zhàn),竟是內(nèi)塔尼亞胡的圈套

史智文道
2026-04-20 09:28:50
45歲宋佳:陪玩陪睡、風(fēng)流成性傳聞?wù)嫦嘟颐?>
    </a>
        <h3>
      <a href=暗香暗香
2026-03-23 04:26:38
五一假期火車票開售以來,鐵路12306拒絕出票105.6萬張

五一假期火車票開售以來,鐵路12306拒絕出票105.6萬張

環(huán)球網(wǎng)資訊
2026-04-19 15:23:04
酒館老板娘,光看腿就先醉了三分

酒館老板娘,光看腿就先醉了三分

飛娛日記
2026-04-12 11:40:25
G1輸球不可怕!可怕的是火箭主帥烏度卡賽后這番話,習(xí)慣性甩鍋!

G1輸球不可怕!可怕的是火箭主帥烏度卡賽后這番話,習(xí)慣性甩鍋!

田先生籃球
2026-04-19 15:17:44
廢掉一個人最快的方法:讓他學(xué)滿一肚子“無用的文化”

廢掉一個人最快的方法:讓他學(xué)滿一肚子“無用的文化”

青蘋果sht
2026-04-16 05:33:08
韋東奕終于升了!七年講師熬出頭,評審會開到院長臉通紅

韋東奕終于升了!七年講師熬出頭,評審會開到院長臉通紅

娛小余
2026-04-03 22:52:32
肯帕努:中國聯(lián)賽水平遠(yuǎn)高于羅馬尼亞;中國發(fā)展水平遙遙領(lǐng)先

肯帕努:中國聯(lián)賽水平遠(yuǎn)高于羅馬尼亞;中國發(fā)展水平遙遙領(lǐng)先

懂球帝
2026-04-19 11:49:41
2026-04-20 11:55:00
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3334文章數(shù) 11137關(guān)注度
往期回顧 全部

科技要聞

藍(lán)色起源一級火箭完美回收 客戶衛(wèi)星未入軌

頭條要聞

男子收到陌生賬號轉(zhuǎn)賬8萬余元 3天后奢侈品牌商家找來

頭條要聞

男子收到陌生賬號轉(zhuǎn)賬8萬余元 3天后奢侈品牌商家找來

體育要聞

七大獎項候選官宣!文班或全票DPOY

娛樂要聞

鹿晗生日上熱搜,被關(guān)曉彤撕下體面

財經(jīng)要聞

月之暗面IPO迷局

汽車要聞

外觀非常驚艷 全新一代寶馬6系有望回歸

態(tài)度原創(chuàng)

教育
時尚
手機(jī)
游戲
本地

教育要聞

我發(fā)現(xiàn)一個殘酷真相:孩子長大后,最怨恨的不是管太嚴(yán)的父母……

今年最流行的衣服竟然是它?高級又氣質(zhì)!

手機(jī)要聞

消息稱某廠驍龍8 Elite Gen6 Pro手機(jī)新開6.9英寸直屏

光榮特庫摩《仁王3》大更新官宣!DLC也有新進(jìn)展

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

無障礙瀏覽 進(jìn)入關(guān)懷版