国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

國產(chǎn)雙開源:讓Mac成為你的私人AI工作站

0
分享至



編輯|panda、+0

2026 年 3 月底,Ollama 發(fā)布了一則更新公告:其 Mac 版本的底層推理引擎,將從沿用多年的 llama.cpp 切換為蘋果的 MLX 框架。



這條消息在開發(fā)者社區(qū)引發(fā)了激烈討論,原因很簡單:數(shù)字太好看了。在搭載 M5 芯片的 Mac 上,切換到 MLX 后,prefill 速度提升超過 57%,生成速度接近翻倍,部分場景下,生成第一個 token 的等待時間(TTFT)縮短至原先的四分之一。一位開發(fā)者在社區(qū)里寫道,他的 Mac 的「解碼速度提升了 93%」。

為什么性能提升如此之大?背后的原因其實并不神秘。Apple Silicon 采用的是統(tǒng)一內(nèi)存架構,即 CPU、GPU 共享同一塊物理內(nèi)存,數(shù)據(jù)無需在不同存儲池之間搬運。MLX 正是為這種架構專門設計的框架,因此天然獲得了傳統(tǒng)框架在 Mac 上得不到的底層優(yōu)勢。

從 M5 芯片開始,蘋果還在每個 GPU 核心里嵌入了專門的矩陣乘法單元 Neural Accelerator,通過 Metal 4 的 TensorOps API 來調(diào)用,這是蘋果首次在 GPU 層面提供可編程的、專屬于 AI 推理的硬件加速。



Ollama 的這次選擇,實際上是在向整個開發(fā)者生態(tài)發(fā)出一個明確信號:Apple Silicon + MLX 正在成為本地 AI 推理的主流路線,Mac 開始從「連接云端的終端」變成「獨立運行 AI 的工作站」。基于此,用戶甚至可以完全離線地使用 OpenClaw 和 Hermes Agent 等智能體。

然而,當這場遷徙熱潮稍稍退去,一個更細節(jié)的問題浮出水面。MLX 目前支持的量化模式 W4A16 和 W8A16 只對模型「權重」進行了量化壓縮,計算過程中的「激活值」仍然以 FP16 格式運行。這意味著,蘋果專門為 INT8 運算設計的 Neural Accelerator 硬件,在現(xiàn)有 MLX 框架下并沒有被完整調(diào)動。性能強勁又昂貴的硬件,用了一半,閑了一半。

就在這個時間節(jié)點,明略科技以兩個開源項目遞出了答案。一個叫Cider,一個叫Mano-P

Cider:為蘋果補齊端側 AI 生態(tài)

Cider 是明略科技自研并開源的端側推理加速框架,構建于 MLX 之上,專為 macOS 與 Apple Silicon 設計。





  • 倉庫地址:https://github.com/Mininglamp-AI/cider

如果把 Apple Silicon 的推理過程想象成一條工廠流水線,MLX 目前的做法是:把原材料(模型權重)壓縮成較小的規(guī)格運來,但到了加工環(huán)節(jié)(計算),還是用原來的精密工具在正常精度下操作。

Cider 的做法則是把加工環(huán)節(jié)本身也換成了適配壓縮材料的專用工具:不僅讓權重以更低精度存儲,還讓計算過程直接在 INT8 精度下執(zhí)行,并借助 Metal 4 的 TensorOps API 調(diào)用 Apple GPU 里那塊專門為此設計的硬件。

具體來說,Cider 提供了 MLX 原生框架缺失的兩種量化推理模式。

其一是 W8A8:權重和激活值同時量化至 INT8,直接利用 Apple GPU 的 TensorOps 完成矩陣乘法,計算結束后再反量化回 FP16 輸出。

其二是 W4A8:在 W8A8 的基礎上進一步將權重壓縮至 INT4,權重內(nèi)存占用較 W8A8 減半。兩種模式均以「融合算子」(fused kernel)實現(xiàn),將量化、矩陣乘法、反量化三個步驟合并為一次 GPU 調(diào)度,避免了中間結果在顯存里多次搬運的開銷。

目前,W8A8/W4A8 激活量化功能在 Apple M5 Pro 上已穩(wěn)定支持,M1-M4 則不支持。

再來看看實測數(shù)據(jù)。在單算子層面,以 10240 × 2560 的矩陣規(guī)模在 Apple M5 Pro 上進行測試,W8A8(Per-channel)模式相比原生 MLX W8A16 方案展現(xiàn)出顯著的速度優(yōu)勢:在序列長度 M=1024 時速度提升 1.82 倍,M=4096 時提升 1.84 倍,而達到 M=8192 時則提升了 1.86 倍。



在真實 VLM 模型的端到端測試中,以 Qwen3-VL-2B 進行 chunked prefill 推理,W8A8 模式下整體 prefill 加速約 57%~61%。



這組數(shù)字之所以值得關注,還有一個維度:精度損失極小。以 Qwen3-8B 為例,W8A8(Per-channel)量化后的困惑度(PPL)為 9.756,與 FP16 原始精度(9.726)相比,差距僅為 0.03;同時其整體 Prefill 耗時從 FP16 的 179.9 秒大幅縮短至 123.5 秒,提速約 45%。也就是說,用極小的精度代價,換來了遠超原精度方案的推理速度——這在量化領域并不常見。



Cider 并非某一個模型的專屬工具,其服務對象涵蓋了整個 MLX 生態(tài)。只要模型已經(jīng)適配 MLX,開發(fā)者只需一行代碼即可接入 Cider 加速:convert_model(model)。



Qwen、Llama、Mistral 等主流開源模型,以及 Qwen3-VL 等 VLM 模型,均可直接受益,接入過程無需修改模型結構。對于 VLM 場景,Cider 還內(nèi)置了 OpenAI 兼容的推理服務接口,開發(fā)者可以直接在本地部署一個支持圖文輸入的推理服務,無需額外適配即可對接現(xiàn)有工具鏈;這對于需要在本地處理截圖、文檔或產(chǎn)品圖的企業(yè)應用來說,是一個開箱即用的能力。但需要注意的是,針對 VLM 模型,為避免影響視覺編碼器的精度,官方建議僅對 VLM 中的語言模型部分調(diào)用convert_model(language_model)。

值得一提的是,Cider 的量化加速僅作用于 prefill 階段,decode 階段會自動回落到原始權重進行推理,切換零開銷,對輸出質量無任何影響。

Cider 還包含一個實驗性模塊,方向更為大膽。在 Apple 芯片的推理過程中,GPU 和 CPU 是主要的計算單元,而神經(jīng)網(wǎng)絡引擎(ANE,Apple Neural Engine)幾乎全程閑置。Cider 的實驗性 ANE+GPU 異構并行模塊,嘗試在 prefill 階段將線性層的矩陣運算按輸出維度拆分,ANE 負責約 65% 的通道,GPU 負責剩余 35%,兩者并行運行后合并結果。在 M4 芯片上的 Qwen3-VL-2B prefill 的同步測試中,這種方案相比純 GPU 推理帶來了約 3%~17% 的速度提升。



這個探索仍處于早期階段,尚未實現(xiàn) MLX 慣用的延遲求值(lazy evaluation),且目前僅在 M4 上經(jīng)過驗證。但它揭示了一個更長遠的意圖:Mac 上每一塊算力單元都可以用起來。我們十分期待明略團隊未來能基于這一方向,帶來更多突破性的研究發(fā)現(xiàn)與技術成果。

Mano-P:讓你的 Mac 長出「手」

與 Cider 同步開源的,還有明略科技的 GUI-VLA 智能體模型 Mano-P 1.0。其中,Mano 是西班牙語里「手」的意思,P 代表 Private。其項目頁面寫到:「我們相信,個體和組織都能夠創(chuàng)造屬于自己的私有 AI,人機協(xié)同的美好世界即將到來!



  • 倉庫地址:https://github.com/Mininglamp-AI/Mano-P

Mano-P 的核心能力是通過純視覺理解,讓 AI 直接看懂屏幕并操作圖形界面(GUI),不依賴 CDP 協(xié)議或 HTML 解析,不局限于瀏覽器場景,桌面軟件、Web 系統(tǒng)乃至更復雜的專業(yè)工具均可覆蓋。

在全自動編程流水線中,它最直接的價值是替代人工完成 GUI 測試:Claude Code 寫完代碼,Mano-P 接手打開界面、點擊驗證、反饋結果,整個軟件開發(fā)閉環(huán)不再需要人類介入。要知道,在常規(guī)的全自動編程流水線中,GUI 測試消耗的云端 token 占比超過 50%,Mano-P 端側模型將這部分開銷直接歸零。



在 OSWorld 基準測試中,Mano-P 1.0-72B 以 58.2% 的成功率位列所有專用 GUI 智能體模型全球第一,領先第二名逾 13 個百分點;在 WebRetriever Protocol I 上,以 41.7 分超越 Gemini 2.5 Pro Computer Use(40.9)和 Claude 4.5 Computer Use(31.3)。



端側方面,4B 量化模型在 Apple M4 Pro 上可實現(xiàn) 476 tokens/s prefill 和 76 tokens/s 解碼、峰值內(nèi)存僅 4.3GB,一臺搭載 M4 芯片、32GB 內(nèi)存的 Mac mini 即可本地運行,所有截圖與任務數(shù)據(jù)不出設備。相比標準 PyTorch CPU 推理,其端側推理提速 60 倍以上,且 8-bit 量化與全精度輸出保持一致,坐標偏差嚴格控制在 1 像素以內(nèi)。

而在 Apple M5 Pro + Cider 推理 SDK 組合下,Mano-P 1.0-4B 啟用 Cider 的 W8A8 激活量化后,同一輸入下 prefill 時間從 2.839s 降到 2.519s,prefill 約加速 12.7%。



Mano-P 與 Cider 配合落地的效果,也經(jīng)過了一輪真實任務的嚴格測試。明略科技圍繞其端到端自動化應用構建流水線 Mano-AFK 構建的五個 Web 應用(涵蓋差旅分賬、訂單管理、家庭記賬等場景),設計了一套包含 100 條任務的 CUA 基準,每條任務都區(qū)分「無 bug 版本」和「預注入 bug 版本」,考察模型能否正確判斷應用是否可用。在搭載 MacBook Pro M5(16GB 內(nèi)存)的設備上,Mano-P 在 W8A16 模式下準確率為 58.0%,而接入 Cider 的 W8A8 模式下準確率為 54.0%。



數(shù)據(jù)說明了一個值得正視的工程細節(jié):在 16GB 內(nèi)存的設備上,W8A8 模式需要同時保留原始權重與 INT8 權重,內(nèi)存占用近似翻倍,在內(nèi)存偏緊的情況下可能引發(fā)換頁,抵消 prefill 階段的加速收益。

官方建議在內(nèi)存余量超出模型體積 4GB 以上的設備(如 32GB 或更高配置)上使用 W8A8,以充分發(fā)揮 Cider 的加速優(yōu)勢——這恰恰也是 Mano-P 推薦的標準硬件配置。這組數(shù)據(jù)的意義,不是說明 W8A8 在所有場景下都優(yōu)于 W8A16,而是說明 Cider 與 Mano-P 的組合在真實任務中已經(jīng)可以端到端跑通,性能的邊界和適配條件也已經(jīng)有了明確的工程結論。



文中視頻鏈接:https://mp.weixin.qq.com/s/eLN0bUO-hGAxEwPFQ7zsjg

本視頻展示 Mano-AFK 與 Cider 推理加速 SDK 的聯(lián)合能力。Mano-AFK 從一句自然語言需求出發(fā),自主完成需求澄清、架構設計、代碼生成、本地部署,并在 E2E 測試環(huán)節(jié)調(diào)用由 Cider 加速的本地 Mano-P 視覺模型驅動真實瀏覽器完成 GUI 自動化測試;測試失敗時自動定位缺陷、修復代碼并重新驗證,直至交付可運行的應用。Cider 提供 INT8 激活量化原語,讓 Mano-P 在 Apple Silicon 上獲得顯著的 prefill 加速,整個「構建-測試-修復」閉環(huán)完全在本地執(zhí)行,兼顧自主性、隱私與性能。

Mano-P 以 Apache 2.0 協(xié)議開源,支持商業(yè)使用與二次開發(fā),完整技術棧(含訓練方法、剪枝與量化方案)同樣將后續(xù)開源,賦能廣大企業(yè)或開發(fā)者基于自己的數(shù)據(jù)訓練定制化 GUI Agent 模型。

更多詳情可見我們之前的專題報道《全球第一,13 個 SOTA!我們找到了龍蝦界掌管 GUI 的神》。

Cider + Mano-P = 快且實用的 Private AI

單獨看 Cider,它是一個面向開發(fā)者的推理加速工具,受益的是所有跑在 Mac 上的 MLX 模型。單獨看 Mano-P,它是一個 GUI 智能體,價值在于特定的自動化場景。

但把兩者放在一起,指向的是同一件事:Private AI——讓 AI 真正屬于使用它的人,而不是服務提供商。

這個理念,在明略科技此前對 Mano-P 的闡述中已經(jīng)有過完整表達,彼時稱為 Personal AI!窤I for personal,不是說每個人可以用 AI,是每個人可以做 AI」。這句話的核心是 AI 的所有權問題。當所有人都調(diào)用同一個云端模型,AI 只是一種服務;而當模型跑在你自己的設備上、適應你的數(shù)據(jù)和場景,AI 才能成為真正意義上「屬于你的工具」。

Private AI 是這一理念的延續(xù)和深化:Private 不只意味著私密,更意味著私有:數(shù)據(jù)私有、推理私有、能力私有。

  • Cider 解決的是「速度」問題:讓端側推理足夠快,讓本地運行不再是對云端的妥協(xié),而是一個真實的工程選項。
  • Mano-P 解決的是「場景」問題:證明端側 AI 可以在一個具體的、高價值的場景里真正可用。

兩者疊加,才讓「數(shù)據(jù)零上云」從安全口號變成可以被實際部署的工程方案:不調(diào) API,不傳截圖,不花一分錢,成本可控、離線可用、數(shù)據(jù)完全自主。純視覺感知與極速本地推理的結合,讓數(shù)據(jù)隱私從一種承諾變成了物理隔離的必然。端側不是縮水版 AI,而是下一階段 AI 落地的重要形態(tài)!

這也是 Apple Silicon 生態(tài)里值得關注的一個位置。Apple 自身在 MLX 方向上持續(xù)加碼;在剛結束的 ICLR 2026 大會上,Apple 在展位演示的核心內(nèi)容之一,正是 MLX 在 MacBook Pro M5 上的本地 LLM 推理能力。

而 Cider 做的事,是在 Apple 官方生態(tài)已經(jīng)建好的地基上,補齊了官方框架尚未覆蓋的那一層:讓 Apple 自家芯片里的專用硬件,被更充分地利用起來。用明略科技自己的說法:「我們擁抱了 Apple 的官方開源生態(tài),并且比 Apple 原生框架把硬件潛能激發(fā)得更徹底!

基于 Private AI 的未來……

在我們之前對明略集團副總裁,多模態(tài)首席科學家趙晨旭的采訪中,他描述了一個即將到來的使用場景:假設你有一個公司內(nèi)部的保密系統(tǒng),需要讓 AI 幫你操作,F(xiàn)有的方式,是把賬號密碼以明文寫進 AI 的記憶文件里,安全隱患顯而易見。

但如果模型跑在本地,就有了另一種可能:直接通過自然語言告訴它「把這個密碼記進你的參數(shù)」,模型自動觸發(fā)學習流程,把這段信息訓練進自己的權重,而不是存成可以被讀取的明文。你再問它密碼,它說不知道;讓它去登錄,它卻能做到。

這套能力,明略科技將其稱為Auto Agent Learning。據(jù)了解,這也是他們即將公布的下一個技術方向。

Auto Agent Learning 要解決的核心問題是:如何讓一個跑在本地的小模型,能夠在用戶自己的設備上,用自然語言持續(xù)更新參數(shù),進而適應用戶的私有場景、工作習慣和專屬數(shù)據(jù)。

正如前文在探討 Private AI 時所提及的,這不僅是隱私保護,更是對 AI 所有權的重新定義:你將告別傳統(tǒng)的 AI 服務調(diào)用模式,轉為培養(yǎng)一個完全專屬的智能體;因為模型是基于你的個人數(shù)據(jù)與習慣進行本地演進的,它真正實現(xiàn)了從「屬于你」向「更懂你」的跨越。它會跟著你的使用場景持續(xù)成長,最終蛻變?yōu)樽钇鹾夏銈人需求的專屬形態(tài)。

Cider 和 Mano-P 是這條路上已經(jīng)落地的兩步棋。Cider 讓本地推理足夠快,讓模型能在你的蘋果設備上快速響應;Mano-P 讓模型能看懂屏幕、操作界面,打通從「理解」到「行動」的最后一步。兩者都以開源協(xié)議發(fā)布,向更廣泛的開發(fā)者遞出了邀請。

而 Auto Agent Learning 是這條路上下一塊被等待著放下的棋子。

當模型跑在用戶自己的設備上,當它能夠在用戶場景里持續(xù)學習和進化,Private AI 才會從一個概念變成可以被每個人真正擁有的東西。

Private AI 無疑是未來不可忽視的重要趨勢之一,令人欣慰的是,我們已經(jīng)在這條通往個人專屬智能的道路上,看到了先行者的身影。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
白人女性與黑人女性的體味差異,網(wǎng)友真實分享引發(fā)熱議

白人女性與黑人女性的體味差異,網(wǎng)友真實分享引發(fā)熱議

特約前排觀眾
2025-12-22 00:20:06
十年前,易建聯(lián)花1000萬在洛杉磯買下豪宅,如今出售市值多少?

十年前,易建聯(lián)花1000萬在洛杉磯買下豪宅,如今出售市值多少?

小蘭聊歷史
2026-04-26 08:44:22
國企機關化帶來的問題,已經(jīng)愈來愈嚴重了

國企機關化帶來的問題,已經(jīng)愈來愈嚴重了

細說職場
2026-05-07 13:25:20
王海稱胖東來套取國家補貼資金,情節(jié)嚴重負責人可承擔刑事責任

王海稱胖東來套取國家補貼資金,情節(jié)嚴重負責人可承擔刑事責任

映射生活的身影
2026-05-06 23:38:17
女子趁男友熟睡 偷偷通過人臉識別解鎖其手機 刷臉21次盜轉27萬余元 女子已被刑拘

女子趁男友熟睡 偷偷通過人臉識別解鎖其手機 刷臉21次盜轉27萬余元 女子已被刑拘

閃電新聞
2026-05-07 10:24:02
李敏因生病入住301醫(yī)院,護士得知她是毛主席的女兒,開了個玩笑

李敏因生病入住301醫(yī)院,護士得知她是毛主席的女兒,開了個玩笑

翠羽
2026-04-29 08:50:11
置換了2輛車,才知道舊車賣給給4S店和車販子的差別,都是真心話

置換了2輛車,才知道舊車賣給給4S店和車販子的差別,都是真心話

侃故事的阿慶
2026-05-07 07:27:26
波波維奇出山!馬刺133-95狂勝森林狼,誰是贏球功臣?數(shù)據(jù)不說謊

波波維奇出山!馬刺133-95狂勝森林狼,誰是贏球功臣?數(shù)據(jù)不說謊

毒舌NBA
2026-05-07 12:24:32
南宋為洗靖康之恥有多狠?700萬金人僅剩10萬,辱金后還留一畫作

南宋為洗靖康之恥有多狠?700萬金人僅剩10萬,辱金后還留一畫作

掠影后有感
2026-05-07 10:01:40
《陳翔六點半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

《陳翔六點半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

汪巗的創(chuàng)業(yè)之路
2026-05-06 12:26:17
歐冠狂歡夜:凱恩補時破門絕平 拜仁5-6遭巴黎淘汰 決賽對陣誕生

歐冠狂歡夜:凱恩補時破門絕平 拜仁5-6遭巴黎淘汰 決賽對陣誕生

侃球熊弟
2026-05-07 03:57:40
蘋果新品上架,5月8日,正式開售

蘋果新品上架,5月8日,正式開售

科技堡壘
2026-05-06 12:16:23
手球不判 兩黃不罰 越位硬吹 VAR裝睡!拜仁輸給了1只看不見的手

手球不判 兩黃不罰 越位硬吹 VAR裝睡!拜仁輸給了1只看不見的手

看透足球專欄
2026-05-07 05:53:52
央視不播世界杯?萬達出局3中國贊助商恐成最大輸家:34億打水漂

央視不播世界杯?萬達出局3中國贊助商恐成最大輸家:34億打水漂

念洲
2026-05-07 11:04:47
伊朗外長向中方通報伊美談判情況,中方:全面止戰(zhàn)刻不容緩,重啟戰(zhàn)端更不可取,堅持談判尤為重要

伊朗外長向中方通報伊美談判情況,中方:全面止戰(zhàn)刻不容緩,重啟戰(zhàn)端更不可取,堅持談判尤為重要

環(huán)球網(wǎng)資訊
2026-05-07 06:48:13
黃仁勛很生氣:中國芯片用“落后”7nm工藝,搶走了英偉達50%市場

黃仁勛很生氣:中國芯片用“落后”7nm工藝,搶走了英偉達50%市場

科技專家
2026-05-07 11:39:11
終于理解王京花了,就沖孫怡吃飯的這個樣子,沒幾個婆婆能喜歡

終于理解王京花了,就沖孫怡吃飯的這個樣子,沒幾個婆婆能喜歡

西樓知趣雜談
2026-05-06 10:58:39
一塊H200芯片都沒賣出去!黃仁勛不裝了:中國不應獲得最先進芯片

一塊H200芯片都沒賣出去!黃仁勛不裝了:中國不應獲得最先進芯片

混沌錄
2026-05-06 16:51:09
突發(fā)異動!300868,強勢20%漲停!002384,超27億主力資金凈流入!

突發(fā)異動!300868,強勢20%漲停!002384,超27億主力資金凈流入!

證券時報e公司
2026-05-07 12:20:59
吳宜澤名下臺球館人流量暴增,接受“臺球皇帝”專訪時談奧沙利文,在比賽時他曾發(fā)私信“支招”

吳宜澤名下臺球館人流量暴增,接受“臺球皇帝”專訪時談奧沙利文,在比賽時他曾發(fā)私信“支招”

極目新聞
2026-05-06 16:55:05
2026-05-07 16:51:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12937文章數(shù) 142644關注度
往期回顧 全部

科技要聞

月之暗面完成20億美元融資,估值突破200億

頭條要聞

費高云落馬:任市委書記僅一年多 曾因爆炸事故被問責

頭條要聞

費高云落馬:任市委書記僅一年多 曾因爆炸事故被問責

體育要聞

巴黎再進歐冠決賽,最尷尬的情況還是發(fā)生了

娛樂要聞

小S阿雅重返大S母校,翻看大S畢業(yè)照

財經(jīng)要聞

特朗普:美伊“很有可能”達成協(xié)議

汽車要聞

理想為什么不做轎車,有了解釋……

態(tài)度原創(chuàng)

時尚
數(shù)碼
藝術
公開課
軍事航空

“白色闊腿褲”今年夏天又火了!這樣穿時髦又高級

數(shù)碼要聞

網(wǎng)傳蘋果已下單新一批A18 Pro芯片,以確保MacBook Neo供應

藝術要聞

這位老教授筆下的青年,活力滿滿

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美伊"很可能"達成協(xié)議

無障礙瀏覽 進入關懷版