国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

24小時90次實驗,全程AI寫代碼,他獨自復(fù)現(xiàn)蘋果三年前的論文成果

0
分享至

內(nèi)存墻是計算機體系結(jié)構(gòu)中的一個經(jīng)典瓶頸,簡單來說,就是處理器的運算速度飛快,但內(nèi)存的容量和傳輸速度卻遠遠跟不上需求。

尤其是像 Qwen3.5-397B 這樣擁有 3,970 億參數(shù)的巨型模型,即使經(jīng)過 4 比特壓縮,其體積也高達 209 GB,是頂級消費級筆記本內(nèi)存容量的 4 倍以上。在傳統(tǒng)的推理模式下,這意味著你必須擁有數(shù)張價值不菲的專業(yè)顯卡集群才能勉強運行。

近日,來自美國最大的醫(yī)療保健和藥房連鎖公司之一 CVS Health 的人工智能平臺副總裁丹·伍茲(Dan Woods)完成了一項看似不可能的挑戰(zhàn):他運行了一個名為 Flash-MoE的項目,成功在一臺僅有 48GB 內(nèi)存的 MacBook Pro 上離線運行了擁有 3,970 億參數(shù)的 Qwen3.5-397B,運行速度達到約 5.7 tokens/秒,峰值可到 7.07 tokens/秒。


圖 | 伍茲(來源:社交媒體 X)

對伍茲而言,在本地設(shè)備上運行頂級規(guī)模的大模型,是他多年來的愿望。早在三年前,蘋果就發(fā)布過一篇名為“LLM in a flash: Efficient Large Language Model Inference with Limited Memory”的論文,明確指出通過從閃存流式傳輸權(quán)重,運行超出內(nèi)存容量的大模型完全可行。他一直期待這一天的到來,但即便蘋果的硬件架構(gòu)似乎為這一技術(shù)量身定制,官方卻始終沒有推出對應(yīng)的落地方案。

伍茲深知,編寫底層 Metal 著色器、Objective-C 推理引擎以及復(fù)雜的 I/O 優(yōu)化并不在自己的專業(yè)領(lǐng)域內(nèi)。但隨著 Claude Opus 4.6 的進化和 Claude Code 智能體化工程的成熟,時機終于來了。

他將研究思路和論文交給 Claude Code,并采用安德烈·卡帕西(Andrej Karpathy)“自動研究”模式的變體,讓 Claude 在 24 小時內(nèi)運行了 90 個實驗,以確定最佳推理策略、量化方法和架構(gòu)選擇。從 5,000 行的 Objective-C 推理引擎到 1,100 行的 Metal 著色器,再到 2 比特重分配量化管線及全部測試代碼,沒有一行是由他親手編寫的,全部出自 Claude 之手。

在相關(guān)論文中,伍茲還將 Claude Opus 4.6 列為第一作者。


(來源:GitHub)

在傳統(tǒng)的稠密模型中,每生成一個字,模型中的每一個參數(shù)都必須參與計算。Qwen3.5-397B 是一款極具代表性的超大規(guī)模混合專家模型(MoE)。這類模型并非所有參數(shù)同時工作,而是被拆分成為數(shù)百個“專家”模塊,每個 Token 只激活少數(shù)專家,其余模塊均處于閑置,天生具備極高的權(quán)重稀疏性。Qwen3.5-397B,總參數(shù)量為 3,970 億,但每個 token 僅激活 17B 參數(shù)。

Qwen3.5-397B 擁有 512 個專家,但在處理每個 Token 時,默認只會激活 10 個專家。伍茲進一步發(fā)現(xiàn),即使只激活 4 個專家,模型的邏輯推理、數(shù)學(xué)和編程能力依然保持卓越,而一旦激活數(shù)量少于 3 個,模型輸出會直接崩潰。這意味著在任何一個計算瞬間,只有不到 2% 的專家權(quán)重是真正需要的。

因此,伍茲的想法是:如果能把這部分需要的權(quán)重從高速 NVMe 固態(tài)硬盤(SSD)快速傳輸?shù)絻?nèi)存/顯卡,就不用把整個模型塞進內(nèi)存,相當于讓固態(tài)硬盤成為模型的“外部內(nèi)存”,流式給模型供能。

蘋果 M3 Max 的統(tǒng)一內(nèi)存架構(gòu)(CPU、GPU、SSD 共享一個地址空間,內(nèi)存帶寬達 400GB/s)和 3 倍于前代的 NVMe 速度,剛好提供了硬件基礎(chǔ),能在模型計算的時間內(nèi),把需要的專家權(quán)重傳過來。


(來源:GitHub)

為了實現(xiàn)這一想法,伍茲做了一些創(chuàng)新改進。

首先是給模型權(quán)重“瘦身”,在原有 4 比特量化的基礎(chǔ)上,對專家權(quán)重做 2 比特二次量化,單個專家大小從 7.08MB 降至 3.93MB,總存儲需求從 209GB 降到 120GB,數(shù)據(jù)傳輸量直接減少 44%,且每層量化誤差僅 0.001-0.003,模型輸出質(zhì)量幾乎沒有損失。

其次,在 MacBook Pro M3 Max 上,NVMe SSD 的順序讀取速度高達 17.5 GB/s。伍茲利用這一特性,開發(fā)了一套基于 C 語言和 Metal 指令集的管線,核心路徑上完全沒有 Python,也沒有使用任何現(xiàn)成的 ML 框架,把計算分成三個命令緩沖區(qū),讓 CPU 準備下一層的同時,GPU 在算當前層,實現(xiàn)重疊執(zhí)行,減少等待。

最令人意外的是緩存策略的反常識優(yōu)化。研究人員最初為提升速度搭建了 9.8GB 的應(yīng)用層緩存,結(jié)果卻發(fā)現(xiàn)速度不升反降。深入研究后發(fā)現(xiàn),蘋果硅芯片的硬件內(nèi)存壓縮器會因這類 GPU 可見緩存瘋狂工作,每秒數(shù)萬次的解壓縮消耗了大量 CPU 資源和內(nèi)存帶寬,反而擠占了數(shù)據(jù)傳輸和計算的資源。最終研究人員果斷刪掉所有應(yīng)用層緩存,讓 macOS 系統(tǒng)的頁緩存完全接管,這一調(diào)整直接讓模型運行速度提升 38%,解壓縮操作幾乎降至零。

一系列優(yōu)化下來,這款 3,970 億參數(shù)的大模型在 48GB 內(nèi)存的筆記本上,僅占用 6.5GB 內(nèi)存就能穩(wěn)定運行,每層計算耗時僅 2.9 毫秒,其中固態(tài)硬盤的數(shù)據(jù)傳輸是最大瓶頸,占比近 50%。經(jīng)測試,模型在 2 比特量化下的輸出質(zhì)量與 4 比特幾乎無差別,能正確完成數(shù)字因式分解、編寫規(guī)范 Python 代碼、用通俗類比解釋科學(xué)概念等任務(wù),完全達到實用標準。

伍茲指出,當前系統(tǒng)僅受限于 SSD 帶寬,理論吞吐量底線可達 18.6 tokens/秒,而目前的 5.74 tokens/秒僅利用了硬件的部分潛能,仍有巨大提升空間。隨著蘋果 SSD 帶寬每代約 20% 的穩(wěn)步增長,預(yù)計在未來 2 到 3 代硬件更迭內(nèi),在個人筆記本上以 10 tokens/秒以上速度運行 4,000 億參數(shù)模型將成為常態(tài)。

他還表示,這種方法同樣適用于 DeepSeek-V3 等其他以專家權(quán)重為主導(dǎo)的 MoE 模型。

1https://github.com/danveloper/flash-moe/blob/main/paper/flash_moe.pdf

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
北京一男子提前回家,發(fā)現(xiàn)妻子在父親房中,崩潰后竟捅死二人

北京一男子提前回家,發(fā)現(xiàn)妻子在父親房中,崩潰后竟捅死二人

第四思維
2025-03-22 16:49:32
清朝對領(lǐng)土的貢獻功不可沒,晚明內(nèi)憂外患,領(lǐng)土僅350萬平方公里

清朝對領(lǐng)土的貢獻功不可沒,晚明內(nèi)憂外患,領(lǐng)土僅350萬平方公里

文史道
2026-03-20 23:27:42
全紅嬋不再隱瞞!坦言身材發(fā)胖原因,原來高敏4年內(nèi)提醒過2次

全紅嬋不再隱瞞!坦言身材發(fā)胖原因,原來高敏4年內(nèi)提醒過2次

八斗小先生
2026-03-31 14:44:12
唯一被滅亡的世界級宗教,曾在中國盛極一時,不少人知道它的名字

唯一被滅亡的世界級宗教,曾在中國盛極一時,不少人知道它的名字

凡人侃史
2026-03-31 12:20:37
微信公告:永久封禁!

微信公告:永久封禁!

蓬勃新聞
2026-03-31 14:15:38
濃眉賽前欲加入湖人出場儀式?昔日奪冠功臣引球迷淚目

濃眉賽前欲加入湖人出場儀式?昔日奪冠功臣引球迷淚目

仰臥撐FTUer
2026-03-31 19:29:12
警惕!這種“毒碗”已經(jīng)上黑榜了,檢查一下,家里有的趕緊扔了吧

警惕!這種“毒碗”已經(jīng)上黑榜了,檢查一下,家里有的趕緊扔了吧

削桐作琴
2025-10-24 15:45:22
一個網(wǎng)友說:張雪峰老師曾坦言,去了一家自助餐廳,人均400塊

一個網(wǎng)友說:張雪峰老師曾坦言,去了一家自助餐廳,人均400塊

歲月有情1314
2026-03-31 12:15:27
混得很熟!楊瀚森女友社媒曬抱著利拉德兒子場邊轉(zhuǎn)圈引熱議

混得很熟!楊瀚森女友社媒曬抱著利拉德兒子場邊轉(zhuǎn)圈引熱議

狼叔評論
2026-03-31 16:54:06
最長連休8天!多地陸續(xù)宣布

最長連休8天!多地陸續(xù)宣布

澎湃新聞
2026-03-31 13:54:14
78歲連路都走不穩(wěn)還開演唱會,全網(wǎng)罵聲一片,她卻揚言回饋粉絲

78歲連路都走不穩(wěn)還開演唱會,全網(wǎng)罵聲一片,她卻揚言回饋粉絲

洲洲影視娛評
2026-01-28 12:23:18
玄學(xué)提醒:如果一個人還在穿著10年前的衣服,只說明3個問題

玄學(xué)提醒:如果一個人還在穿著10年前的衣服,只說明3個問題

洞讀君
2026-03-04 14:30:12
氣候大局定了:如果不出意外的話,2026年中國極端天氣迎3大變化

氣候大局定了:如果不出意外的話,2026年中國極端天氣迎3大變化

丁丁鯉史紀
2026-03-31 15:10:34
又一個美女老板病逝了,才41歲!

又一個美女老板病逝了,才41歲!

皮蛋兒電影
2026-03-31 19:16:42
男人不管多少歲,運動鞋盡量別穿耐克、李寧,換成這些品牌更高級

男人不管多少歲,運動鞋盡量別穿耐克、李寧,換成這些品牌更高級

白宸侃片
2026-03-23 00:39:46
老年人的性需求可能比年輕人更旺盛!

老年人的性需求可能比年輕人更旺盛!

黯泉
2026-03-30 13:58:50
外交部: 近日中方有三艘船舶 過航霍爾木茲海峽

外交部: 近日中方有三艘船舶 過航霍爾木茲海峽

每日經(jīng)濟新聞
2026-03-31 16:03:47
吳佳尼心累,兩個兒子一年開支上百萬,64歲前夫馬景濤只提供學(xué)費

吳佳尼心累,兩個兒子一年開支上百萬,64歲前夫馬景濤只提供學(xué)費

話娛論影
2026-03-30 20:57:14
空缺八個月后,山東省教育廳廳長到任!

空缺八個月后,山東省教育廳廳長到任!

山東教育
2026-03-31 13:56:54
世上有兩個國家,一個誰也打不過,一個誰也不敢打

世上有兩個國家,一個誰也打不過,一個誰也不敢打

近史談
2026-03-28 23:06:25
2026-03-31 21:12:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16515文章數(shù) 514821關(guān)注度
往期回顧 全部

科技要聞

華為2025年銷售收入8809億,凈利潤680億元

頭條要聞

騎張雪機車奪冠的"邊緣人" 告別主流摩托賽事長達10年

頭條要聞

騎張雪機車奪冠的"邊緣人" 告別主流摩托賽事長達10年

體育要聞

縣城修車工,用20年成為世界冠軍

娛樂要聞

《月鱗綺紀》空降 鞠婧祎卻被舉報偷稅

財經(jīng)要聞

油價暴漲 我們的生活成本會飆升多少?

汽車要聞

騰勢Z9GT到底GT在哪?

態(tài)度原創(chuàng)

親子
手機
本地
時尚
公開課

親子要聞

《終于理解為什么孩子能栓住媽了》

手機要聞

vivo專訪:更清晰的定位,值得更高期待

本地新聞

用Color Walk的方式解鎖城市春日

春天別總傻傻的穿一身黑,試試白色配彩色,高級養(yǎng)眼又減齡

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版