網易首頁 > 網易號 > 正文申請入駐

Mac mini不止養(yǎng)AI龍蝦！蘋果M4算力機密被曝光，Claude立新功

2026-03-08 09:04:52　來源: 新智元

北京舉報

分享至

新智元報道

編輯：KingHZ

【新智元導讀】Claude立大功！開發(fā)者靠它剖析MIL語言與E5二進制，繞過CoreML直達硬件，證明NPU訓練從來不是硬件不行，而是蘋果不讓用。

AI界再迎地震，LLM訓練未來或從此改變！

OpenClaw引起全球AI龍蝦熱潮，意外讓蘋果Mac mini賣爆——

美國百強連鎖店之一的microCenter，本來主打的個人消費級PC，最近甚至宣稱「Mac mini和OpenClaw天生一對」！

還有好消息：MAC mini養(yǎng)完小龍蝦，不用吃灰了——

剛剛，蘋果神經引擎（Apple Neural Engine，ANE）被破解，可能引爆AI訓練革命！

工程師Manjeet Singh用Claude逆向工程Apple Neural Engine了，還訓練了一個單層Transformer。

想象一下：不用GPU，不用TPU，就在M4芯片上完成的。

這并不意味著現(xiàn)在任何人都能構建LLM。還沒到那一步。但現(xiàn)在你已經可以在自己的MacBook上用一個小數(shù)據集做家庭實驗了。

無需CoreML，無需Metal，無需GPU。純粹利用高速運行的ANE芯片。

如果屬實，這無疑意義重大——

而且Claude深度參與了破解全程，包括整個逆向工程、基準測試以及訓練代碼的開發(fā)——由人類的直覺引領探索方向，由AI進行數(shù)據推理并撰寫分析報告。

Manjeet Singh直言一切都靠Claude，他只是引導方向：

我們認為，這種人機協(xié)作是進行系統(tǒng)研究的一種新穎且自然的方式：

一個伙伴扮演富有直覺的架構師，另一個則充當編寫代碼和設計實驗的工程師。

鏈接：http://github.com/maderix/ANE

Mac就能訓單層Transformer！

Claude在這里扮演了關鍵角色。

通過Claude的智能分析，開發(fā)者鉤住了私有方法、剖析了MIL語言的秘密，并拆解了E5二進制的迷霧，最終繞過CoreML框架，直接操控ANE硬件實現(xiàn)前向和反向傳播。

一個單層Transformer（dim=768, seq=512）僅需9.3毫秒一步，峰值效率高達6.6 TFLOPS/W——

這是A100的80倍，H100的50倍以上。

這一發(fā)現(xiàn)讓無數(shù)人的算力賬單顯得像個笑話。

更驚人的是，最新更新已實現(xiàn)完整Stories110M模型（109百萬參數(shù)，12層Llama-2架構）在TinyStories數(shù)據集上的訓練，損失實時下降，功耗低到「小于一瓦特」。

你的桌面Mac，從此不再是消費工具，而是AI訓練的超級電腦，成本暴降至電費的零頭。

這將改變世界。

首次，任何擁有Mac的人都可以在本地、私密地以遠低于云GPU的成本微調、訓練或迭代大規(guī)模模型。

不再租用4萬美元的A100集群。不再排隊等待。不再留下巨大的碳足跡。

過去動輒數(shù)萬甚至數(shù)十萬美元的訓練成本？如今暴跌至幾乎只需幾美分——基本就是你那臺閑置Mac本就在消耗的電費。

AI革命剛剛從耗資數(shù)十億美元的數(shù)據中心轉移到了你的桌面。

我們才剛剛起步，但大門已經敞開——今天是單層，明天就是完整模型。

超低成本的設備端訓練時代已經到來。

未來不是即將來臨，它已經在你的Mac上運行。不過，我們西岸看一下什么是ANE？

什么是蘋果神經引擎ANE？

大多數(shù)新款iPhone和iPad都配備了神經引擎，這是一種能極大加速機器學習模型的特殊處理器，但關于這款處理器實際工作原理的公開信息并不多。

蘋果神經引擎（簡稱 ANE）是一種NPU，即神經網絡處理單元。

NPU類似于GPU，但GPU加速圖形處理，而NPU則加速卷積、矩陣乘法等神經網絡運算，是一種定制化的固定功能加速器。

它接收的是已經編譯好的神經網絡計算圖，然后將整張圖作為一個原子操作一次性執(zhí)行完畢。

你無法像操作CPU或GPU那樣逐條發(fā)出乘加指令（multiply-accumulate）。你提交的是一份描述完整計算圖的編譯程序，而硬件會從頭到尾一次性跑完。

ANE并非唯一的NPU——

除了神經引擎，最著名的NPU當屬谷歌的TPU（張量處理單元）。

2017年，Apple在A11 芯片中首次引入Neural Engine，當時是雙核心設計。

此后每一代都在擴展規(guī)模。

此次研究的對象，是蘋果M4芯片的ANE（代號H16G）：

16核心，支持127條評估請求的隊列深度；

具備獨立的DVFS（動態(tài)電壓/頻率調節(jié)）；

并且擁有嚴格的電源門控機制，空閑時功耗精確降至0毫瓦。

推理芯片竟能用于訓練，能效還很高！

ANE本身性能極其強大，但蘋果通過CoreM將它限制在「僅推理」用途。

真正的障礙，從來不是硬件能力，而是軟件支持。

以下是完整的ANE軟件堆棧的樣子，從公共的CoreML API到硬件：

關鍵洞察：CoreML不是唯一的入口。AppleNeuralEngine.framework中的_ANEClient類提供了對編譯→加載→評估流程的直接訪問。CoreML只是頂部的一個便利層。

而Manjeet Singh想證明在Apple Neural Engine（ANE）上進行訓練——以及在其他NPU上進行訓練——是可行的。

起因是他買了一臺Mac mini M4，想利用它的算力來完成他的編譯器項目。

這個項目通過逆向私有API，繞過了這一限制，展示了當你真正釋放硬件能力時，它能做到什么。

這款NPU宣稱擁有38 TFLOPS的INT8算力（但它實際是FP16處理器，所以實際算力減半）。

最終，他搭建了一個定制化的訓練流水線，成功訓練了一個1.1億參數(shù)的微型GPT模型。

實際上，目前無法用單芯片訓練更大的模型，但理論上，通過集群或許可以訓練更大規(guī)模的模型。不過即使單臺設備，也應該能對30億或70億參數(shù)的模型進行LoRA微調。

再次強調，為什么要在NPU上訓練？

因為能效極高。

ANE在峰值算力下功耗僅2.8W，19 TFLOPS能效比高達6.6 TFLOPS/瓦，堪稱瘋狂！

對比之下，Metal GPU只有為1 TFLOPS/瓦，H100為1.4 TFLOPS/瓦）

需要明確的是：

訓練是可行的，但利用率很低（約峰值的 2-3%），并且還存在重大的工程挑戰(zhàn)。
許多逐元素運算仍然會回退到 CPU 執(zhí)行。
目前，這除了用于小型研究模型外，還不能替代GPU訓練。

測試結果令人驚訝

最后的發(fā)現(xiàn)令人驚訝：

雖然「38 TOPS」這個數(shù)字在技術層面沒有錯誤，但卻極具誤導性。

蘋果從未公開過關于如何榨取ANE最大吞吐量的優(yōu)化模式。

這里多解釋一下——

TOPS是Tera Operations Per Second的縮寫，1TOPS代表處理器每秒鐘可進行一萬億次（10^12）操作。

它主要衡量理論最大吞吐量，而非實際吞吐量。由于大多數(shù)運算都是乘加運算（MAC），因此TOPS的計算公式為：（乘積累加運算MAC單元數(shù)量）x（MAC操作頻率）x 2。

這是決定AI運行速度的最重要的參數(shù)。

矩陣乘法擴展：基礎測試

他們從最簡單的基準測試開始：對遞增尺寸的方陣執(zhí)行乘法運算。

測試結果揭示兩大關鍵現(xiàn)象：

256×256矩陣受限于調度開銷：在0.101毫秒的運行時間中，大部分（約0.095毫秒）消耗于XPC和IOKit框架的通信，真正的計算僅占約0.006毫秒。
性能在4096尺寸時顯著下降：從2048尺寸時的5.7 TFLOPS降至4096尺寸時的4.0 TFLOPS，這表明存在資源溢出問題。

SRAM性能懸崖

2048到4096尺寸的性能驟降正是SRAM性能懸崖的體現(xiàn)。

一次矩陣乘法的計算集包含三個矩陣（A、B、C）。

以FP16精度計算：

當尺寸為2048×2048時，24 MB的計算集完全適配芯片上的SRAM，因此能達到峰值單次運算吞吐量（5.7 TFLOPS）。
當尺寸增至4096×4096時，96 MB的計算集遠超SRAM容量（約3倍），迫使數(shù)據頻繁交換至DRAM，導致吞吐量銳減30%。

這一性能在24MB（快速）和96MB（慢速）之間的劇烈變化，表明ANE的片上SRAM容量約為32 MB。

性能并非在達到界限時突然崩潰，而是逐漸下降，這暗示其采用了一種類似緩存的分層架構，而非固定的便簽式存儲器。

卷積運算優(yōu)于矩陣乘法

蘋果文檔中并未明確的一點是：ANE本質上是一個為卷積設計的引擎。將相同的計算任務表達為1×1卷積，而非矩陣乘法，能獲得顯著提升的吞吐量。

一個矩陣乘法運算 C[M,N] = A[M,K] @ B[K,N] 可以通過重塑數(shù)據，完美轉化為一個1×1卷積：

輸入重塑為：(1, K, 1, M)
權重重塑為：(N, K, 1, 1)
輸出重塑為：(1, N, 1, M)

運算量和最終結果完全相同，但ANE的卷積數(shù)據通路能以高得多的效率處理這種形式。

深度圖網絡能填滿流水線

單個矩陣乘法操作僅能利用ANE約30%的峰值能力。

該硬件專為處理圖網絡而設計——即能夠持續(xù)讓全部16個核心保持忙碌狀態(tài)的運算鏈條。

鏈接的運算越多，就越接近理論上的峰值性能。

最大化ANE吞吐量的黃金法則：

構建深度圖，而非廣度圖：在一個MIL程序中鏈接16至64個運算。孤立的單次運算會浪費70%的硬件能力。
優(yōu)先使用卷積而非矩陣乘法：1×1卷積能利用快速數(shù)據通路，而矩陣乘法的速度要慢3倍。
嚴格控制數(shù)據在32MB以內：確保每個張量的內存占用不超過SRAM容量。數(shù)據溢出到DRAM會嚴重損害吞吐量。
避免受限于調度的微小運算：任何執(zhí)行時間低于約1毫秒的操作，其主要耗時都來自于約0.095毫秒的調度開銷。

CoreML vs _ANEClient：難以忽視的開銷稅

CoreML究竟損失了多少性能？

可以通過兩條路徑測量相同的運算，來計算性能損失：

對于小型運算，CoreML增加了2-4倍的開銷。

在高吞吐量配置下，由于ANE計算時間占主導，這一差距會縮小。但對于延遲敏感型的工作負載（如大語言模型的token解碼、實時推理），CoreML帶來的性能損失相當嚴重。

INT8 = FP16：「38 TOPS」的現(xiàn)實含義

蘋果宣稱M4神經引擎擁有「38 TOPS」的算力。以下是這一數(shù)字的真實含義。

在FP16和INT8兩種精度下，測量了完全相同的運算：

最后發(fā)現(xiàn)：

INT8并未帶來預期的2倍速度提升。

INT8和FP16的吞吐量幾乎相同。ANE在執(zhí)行計算前，會將INT8權重反量化為FP16格式。

INT8僅節(jié)省了內存帶寬（從DRAM內存加載更小的權重），并未節(jié)省計算周期。

蘋果的「38 TOPS INT8」是這樣計算出來的：19 TFLOPS FP16 × 2。

這符合行業(yè)慣例，即將INT8操作數(shù)視為FP16的兩倍。但硬件實際上并不能以兩倍的速度執(zhí)行INT8運算。

真正的峰值性能是19 TFLOPS FP16，無論你使用何種量化精度，所獲得的最高性能就是如此。

這恰好是根據硬件配置（16核心×約 1.2 TFLOPS/核心）計算出的理論峰值的100%。

在32層以上的深度網絡中達到94%的利用率，意味著幾乎測量了硬件的原始極限能力。

能效：ANE隱藏的王者

如果只看吞吐量，GPU穩(wěn)贏。

但ANE真正的優(yōu)勢在于其驚人的效率。

零功耗待機。ANE 采用了硬性電源門控技術——它不僅關閉時鐘，而是在閑置時完全切斷電源。這消除了任何泄漏電流和待機電量消耗。

在峰值負載下，它能實現(xiàn) 6.6 TFLOPS/瓦的能效，遙遙領先GPU：

這意味著，ANE在執(zhí)行每個浮點運算時的能效，能效大約是A100的80倍。當然，A100擁有50倍于ANE的總吞吐量。但對于依賴電池供電的設備端推理而言，ANE性能非凡。

ANE與SME：何時選擇使用哪種

M4的CPU核心還配備了蘋果的SME（可擴展矩陣擴展）功能。

以下是兩者的對比：

適合使用ANE的場景：大批量推理、包含16層以上的深度圖網絡、對能耗有嚴格限制的場景、需要持續(xù)高吞吐量的任務。

適合使用SME的場景：單token解碼（零調度開銷）、ANE不支持的自定義運算、小矩陣運算、任何需要FP32+精度的計算。

在M4上進行理想的大語言模型推理策略是混合模式：預填充階段（大批量、高吞吐量）使用ANE，解碼階段（單token、對延遲敏感）使用SME。

這次挖掘了ANE的真實能力：在2.8W功耗下，配合正確的網絡結構，可實現(xiàn)19 TFLOPS FP16的性能。

而接下來，Manjeet Singh還將詳細演示蘋果明確不支持的功能：在神經引擎上訓練神經網絡。

參考資料：

https://www.reddit.com/r/LocalLLaMA/comments/1rhx5pc/reverse_engineered_apple_neural_engineane_to/

https://x.com/ronaldmannak/status/2028560995875168292

https://maderix.substack.com/p/inside-the-m4-apple-neural-engine

https://maderix.substack.com/p/inside-the-m4-apple-neural-engine-615

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

微軟和英偉達聯(lián)手丟“王炸”！所有游戲玩家都能用上光追了？

雷科技 2026-03-08 13:42:27
4 跟貼 4
全能形態(tài)適配多元場景，這才是優(yōu)秀全能本該有的樣子

雷科技 2026-02-06 15:20:01
0 跟貼 0

蘋果用 5 年時間就優(yōu)化了一個聲音

愛范兒 2026-02-06 21:26:06
0 跟貼 0

科學家研發(fā)大模型新框架，助力解決RISC-V軟件生態(tài)瓶頸

DeepTech深科技 2025-10-12 19:05:00
0 跟貼 0
Sakana AI造了個數(shù)字生命「培養(yǎng)皿」，AI學會打架、結盟、搶地盤

機器之心Pro 2025-11-05 13:58:14
0 跟貼 0

蘋果偷偷換工藝，Ultra 3 表殼上竟然有細密紋理！

愛范兒 2025-11-19 13:45:55
26 跟貼 26

ApdativeNN：建模類人自適應感知機制，突破機器視覺不可能三角

機器之心Pro 2025-11-28 17:15:19
0 跟貼 0
對話鹿明機器人：在具身智能的“數(shù)據荒”里，做一個送水人｜AI Founder 請回答

鈦媒體APP 2026-01-11 12:48:38
0 跟貼 0

一文速通「機器人3D場景表示」發(fā)展史

機器之心Pro 2026-01-23 13:01:05
0 跟貼 0
上海最新官宣：全市中小學、高中課間休息有序調整至15分鐘！這個區(qū)率先試點

新民晚報 2026-03-08 15:19:36
2744 跟貼 2744
4599元起蘋果最便宜筆記本！MacBook Neo預售

快科技 2026-03-07 05:47:27
0 跟貼 0
爺爺在網上花了980買的蘋果17

奇妙觀探 2026-03-07 11:59:29
1 跟貼 1
西方不講道理，中國整整300年成果被偷走，占為己有，還抹黑中國

墨印齋 2026-03-09 09:07:07
0 跟貼 0
如果你買的是小米汽車，那么恭喜你，百分百是“純血”小米！

i王石頭 2026-03-08 23:26:37
65 跟貼 65
充氣模型如何騙取導彈

純白的夢j 2026-03-07 07:35:38
0 跟貼 0
蘋果發(fā)布MacBook Neo：首次用iPhone芯片做平價電腦

每日經濟新聞 2026-03-06 17:24:47
0 跟貼 0
庫克最后的防御

虎嗅APP 2026-03-09 04:48:07
4 跟貼 4
蘋果iPhoneAir國行版當前僅支持中國聯(lián)通eSIM服務！那什么是eSIM？

每日經濟新聞 2025-09-10 18:35:23
0 跟貼 0
蘋果發(fā)布史上最便宜MacBook，售價￥4599起

愛范兒 2026-03-06 19:59:43
0 跟貼 0
蘋果祖?zhèn)鳝h(huán)保！MacBook不送充電器，價格一分不降

極果酷玩 2026-03-06 18:43:40
0 跟貼 0
粉色好看哭了！蘋果最便宜MacBook真機體驗

極果酷玩 2026-03-06 18:43:51
0 跟貼 0
反直覺！擴散模型「跨界」復原: 只用臥室模型，竟能復原人臉

機器之心Pro 2026-03-09 13:35:23
0 跟貼 0
蘋果MacBook Neo還未開賣破首發(fā)？

數(shù)科先驅 2026-03-09 14:24:27
0 跟貼 0
77歲「AI教父」Hinton：AI早有意識！我們打造的智能，可能終結人類文明

新智元 2025-10-11 13:21:31
49 跟貼 49
伊朗媒體發(fā)布一則用玩具模型制作的視頻，講述戰(zhàn)爭如何結束

車馬點兵V 2026-03-08 13:42:50
0 跟貼 0
女子在杭州西湖景區(qū)把“西泠印社”認成“杜帥冷面”，網友：四個字認錯五個，當事人：沒有文化確實不行

揚子晚報 2026-03-06 17:44:56
1502 跟貼 1502
誰在消耗5萬億模型算力？

經濟觀察報 2026-03-07 10:32:05
11 跟貼 11
他用一根橡皮筋，講透了AI的底層邏輯

孤獨大腦 2026-03-05 22:52:18
0 跟貼 0
小米們開始下場“養(yǎng)蝦”，豆包手機應如何接招？

鈦媒體APP 2026-03-08 10:47:30
9 跟貼 9
1000 倍效率神話，Taalas如何用 “模型即芯片” 暴打英偉達

鈦媒體APP 2026-02-24 15:35:10
0 跟貼 0
垂直貴州｜在群山之間，書寫向上生長的中國樣本

新浪財經 2026-03-09 10:41:38
0 跟貼 0
讓搜索快一億倍，科學家造出記憶搜索引擎，直接在存儲里完成計算

DeepTech深科技 2026-03-07 15:49:01
0 跟貼 0
卡樂比 1:72B-58“盜賊”戰(zhàn)略轟炸機合金成品模型開箱測評

DS北風 2026-03-07 19:49:42
6 跟貼 6
3B打32B？海外病毒式傳播的小模型，竟然來自BOSS直聘

機器之心Pro 2026-03-09 14:09:17
0 跟貼 0
歐豪竟用數(shù)學公式，就成功破了兇殺案的奇怪數(shù)字

CT電影 2026-03-07 15:21:02
0 跟貼 0
帝國理工大學提出DyMo：讓多模態(tài)模型學會選擇，突破模態(tài)缺失難題

機器之心Pro 2026-03-09 11:38:34
0 跟貼 0
德比，玄學，爭冠！勝利就是米蘭的一針強心劑

澎湃新聞 2026-03-09 12:16:27
14 跟貼 14
OpenAI測謊13款大模型：Claude 3.7封神，GPT-5.2近乎失控！

新智元 2026-03-09 09:36:47
0 跟貼 0
NBA｜贏下“德州內戰(zhàn)”，誰能阻止文班亞馬

澎湃新聞 2026-03-09 10:44:31
9 跟貼 9
早報｜折疊屏iPhone或命名為iPhone Ultra/雷軍：未來每天上班兩小時就夠了/龍蝦之父辟謠官方微博賬號：從沒用過微博

愛范兒 2026-03-09 08:01:31
5 跟貼 5

新智元

AI產業(yè)主平臺領航智能+時代

14677文章數(shù) 66669關注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

本地

家居

旅游

公開課

津南好·四時總相宜
妝藝大游行2026：愿
春花齊放2026：《駿馬奔騰迎新歲》

家居要聞

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產30天

手機 / 數(shù)碼

房產 / 家居

Mac mini不止養(yǎng)AI龍蝦！蘋果M4算力機密被曝光，Claude立新功

榮耀宣布行業(yè)首發(fā)可編輯的AI文檔智能體 明日晚間問世！

媒體：借口中東局勢 高市政府更明確要為武器出口松綁

媒體：借口中東局勢 高市政府更明確要為武器出口松綁

36連勝終結！大魔王也是可以戰(zhàn)勝的

姆巴佩戀情確認！與26歲新歡共度良宵

油價直逼120美元！

沖上熱搜，馬化騰說沒想到“龍蝦”這么火

對標奔馳小號G級 路虎小型衛(wèi)士最新消息曝光

態(tài)度原創(chuàng)

全國人大代表黃花春：對學生心理問題先當耳朵再動嘴巴 #寫給未來的五年 #2026全國兩會

食味印象｜一口入魂！康樂烤肉串起千年絲路香

獨棟獨院 精致親子墅

【花young貴陽】貴陽這8種春花，誰能C位出圈？

Mac mini不止養(yǎng)AI龍蝦！蘋果M4算力機密被曝光，Claude立新功

榮耀宣布行業(yè)首發(fā)可編輯的AI文檔智能體明日晚間問世！

媒體：借口中東局勢高市政府更明確要為武器出口松綁

媒體：借口中東局勢高市政府更明確要為武器出口松綁

36連勝終結！大魔王也是可以戰(zhàn)勝的

姆巴佩戀情確認！與26歲新歡共度良宵

油價直逼120美元！

沖上熱搜，馬化騰說沒想到“龍蝦”這么火

對標奔馳小號G級路虎小型衛(wèi)士最新消息曝光

食味印象｜一口入魂！康樂烤肉串起千年絲路香

獨棟獨院精致親子墅

【花young貴陽】貴陽這8種春花，誰能C位出圈？