国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

24小時(shí)90次實(shí)驗(yàn),全程AI寫(xiě)代碼,他獨(dú)自復(fù)現(xiàn)蘋(píng)果三年前的論文成果

0
分享至

內(nèi)存墻是計(jì)算機(jī)體系結(jié)構(gòu)中的一個(gè)經(jīng)典瓶頸,簡(jiǎn)單來(lái)說(shuō),就是處理器的運(yùn)算速度飛快,但內(nèi)存的容量和傳輸速度卻遠(yuǎn)遠(yuǎn)跟不上需求。

尤其是像 Qwen3.5-397B 這樣擁有 3,970 億參數(shù)的巨型模型,即使經(jīng)過(guò) 4 比特壓縮,其體積也高達(dá) 209 GB,是頂級(jí)消費(fèi)級(jí)筆記本內(nèi)存容量的 4 倍以上。在傳統(tǒng)的推理模式下,這意味著你必須擁有數(shù)張價(jià)值不菲的專(zhuān)業(yè)顯卡集群才能勉強(qiáng)運(yùn)行。

近日,來(lái)自美國(guó)最大的醫(yī)療保健和藥房連鎖公司之一 CVS Health 的人工智能平臺(tái)副總裁丹·伍茲(Dan Woods)完成了一項(xiàng)看似不可能的挑戰(zhàn):他運(yùn)行了一個(gè)名為 Flash-MoE的項(xiàng)目,成功在一臺(tái)僅有 48GB 內(nèi)存的 MacBook Pro 上離線(xiàn)運(yùn)行了擁有 3,970 億參數(shù)的 Qwen3.5-397B,運(yùn)行速度達(dá)到約 5.7 tokens/秒,峰值可到 7.07 tokens/秒。


圖 | 伍茲(來(lái)源:社交媒體 X)

對(duì)伍茲而言,在本地設(shè)備上運(yùn)行頂級(jí)規(guī)模的大模型,是他多年來(lái)的愿望。早在三年前,蘋(píng)果就發(fā)布過(guò)一篇名為“LLM in a flash: Efficient Large Language Model Inference with Limited Memory”的論文,明確指出通過(guò)從閃存流式傳輸權(quán)重,運(yùn)行超出內(nèi)存容量的大模型完全可行。他一直期待這一天的到來(lái),但即便蘋(píng)果的硬件架構(gòu)似乎為這一技術(shù)量身定制,官方卻始終沒(méi)有推出對(duì)應(yīng)的落地方案。

伍茲深知,編寫(xiě)底層 Metal 著色器、Objective-C 推理引擎以及復(fù)雜的 I/O 優(yōu)化并不在自己的專(zhuān)業(yè)領(lǐng)域內(nèi)。但隨著 Claude Opus 4.6 的進(jìn)化和 Claude Code 智能體化工程的成熟,時(shí)機(jī)終于來(lái)了。

他將研究思路和論文交給 Claude Code,并采用安德烈·卡帕西(Andrej Karpathy)“自動(dòng)研究”模式的變體,讓 Claude 在 24 小時(shí)內(nèi)運(yùn)行了 90 個(gè)實(shí)驗(yàn),以確定最佳推理策略、量化方法和架構(gòu)選擇。從 5,000 行的 Objective-C 推理引擎到 1,100 行的 Metal 著色器,再到 2 比特重分配量化管線(xiàn)及全部測(cè)試代碼,沒(méi)有一行是由他親手編寫(xiě)的,全部出自 Claude 之手。

在相關(guān)論文中,伍茲還將 Claude Opus 4.6 列為第一作者。


(來(lái)源:GitHub)

在傳統(tǒng)的稠密模型中,每生成一個(gè)字,模型中的每一個(gè)參數(shù)都必須參與計(jì)算。Qwen3.5-397B 是一款極具代表性的超大規(guī)?;旌蠈?zhuān)家模型(MoE)。這類(lèi)模型并非所有參數(shù)同時(shí)工作,而是被拆分成為數(shù)百個(gè)“專(zhuān)家”模塊,每個(gè) Token 只激活少數(shù)專(zhuān)家,其余模塊均處于閑置,天生具備極高的權(quán)重稀疏性。Qwen3.5-397B,總參數(shù)量為 3,970 億,但每個(gè) token 僅激活 17B 參數(shù)。

Qwen3.5-397B 擁有 512 個(gè)專(zhuān)家,但在處理每個(gè) Token 時(shí),默認(rèn)只會(huì)激活 10 個(gè)專(zhuān)家。伍茲進(jìn)一步發(fā)現(xiàn),即使只激活 4 個(gè)專(zhuān)家,模型的邏輯推理、數(shù)學(xué)和編程能力依然保持卓越,而一旦激活數(shù)量少于 3 個(gè),模型輸出會(huì)直接崩潰。這意味著在任何一個(gè)計(jì)算瞬間,只有不到 2% 的專(zhuān)家權(quán)重是真正需要的。

因此,伍茲的想法是:如果能把這部分需要的權(quán)重從高速 NVMe 固態(tài)硬盤(pán)(SSD)快速傳輸?shù)絻?nèi)存/顯卡,就不用把整個(gè)模型塞進(jìn)內(nèi)存,相當(dāng)于讓固態(tài)硬盤(pán)成為模型的“外部?jī)?nèi)存”,流式給模型供能。

蘋(píng)果 M3 Max 的統(tǒng)一內(nèi)存架構(gòu)(CPU、GPU、SSD 共享一個(gè)地址空間,內(nèi)存帶寬達(dá) 400GB/s)和 3 倍于前代的 NVMe 速度,剛好提供了硬件基礎(chǔ),能在模型計(jì)算的時(shí)間內(nèi),把需要的專(zhuān)家權(quán)重傳過(guò)來(lái)。


(來(lái)源:GitHub)

為了實(shí)現(xiàn)這一想法,伍茲做了一些創(chuàng)新改進(jìn)。

首先是給模型權(quán)重“瘦身”,在原有 4 比特量化的基礎(chǔ)上,對(duì)專(zhuān)家權(quán)重做 2 比特二次量化,單個(gè)專(zhuān)家大小從 7.08MB 降至 3.93MB,總存儲(chǔ)需求從 209GB 降到 120GB,數(shù)據(jù)傳輸量直接減少 44%,且每層量化誤差僅 0.001-0.003,模型輸出質(zhì)量幾乎沒(méi)有損失。

其次,在 MacBook Pro M3 Max 上,NVMe SSD 的順序讀取速度高達(dá) 17.5 GB/s。伍茲利用這一特性,開(kāi)發(fā)了一套基于 C 語(yǔ)言和 Metal 指令集的管線(xiàn),核心路徑上完全沒(méi)有 Python,也沒(méi)有使用任何現(xiàn)成的 ML 框架,把計(jì)算分成三個(gè)命令緩沖區(qū),讓 CPU 準(zhǔn)備下一層的同時(shí),GPU 在算當(dāng)前層,實(shí)現(xiàn)重疊執(zhí)行,減少等待。

最令人意外的是緩存策略的反常識(shí)優(yōu)化。研究人員最初為提升速度搭建了 9.8GB 的應(yīng)用層緩存,結(jié)果卻發(fā)現(xiàn)速度不升反降。深入研究后發(fā)現(xiàn),蘋(píng)果硅芯片的硬件內(nèi)存壓縮器會(huì)因這類(lèi) GPU 可見(jiàn)緩存瘋狂工作,每秒數(shù)萬(wàn)次的解壓縮消耗了大量 CPU 資源和內(nèi)存帶寬,反而擠占了數(shù)據(jù)傳輸和計(jì)算的資源。最終研究人員果斷刪掉所有應(yīng)用層緩存,讓 macOS 系統(tǒng)的頁(yè)緩存完全接管,這一調(diào)整直接讓模型運(yùn)行速度提升 38%,解壓縮操作幾乎降至零。

一系列優(yōu)化下來(lái),這款 3,970 億參數(shù)的大模型在 48GB 內(nèi)存的筆記本上,僅占用 6.5GB 內(nèi)存就能穩(wěn)定運(yùn)行,每層計(jì)算耗時(shí)僅 2.9 毫秒,其中固態(tài)硬盤(pán)的數(shù)據(jù)傳輸是最大瓶頸,占比近 50%。經(jīng)測(cè)試,模型在 2 比特量化下的輸出質(zhì)量與 4 比特幾乎無(wú)差別,能正確完成數(shù)字因式分解、編寫(xiě)規(guī)范 Python 代碼、用通俗類(lèi)比解釋科學(xué)概念等任務(wù),完全達(dá)到實(shí)用標(biāo)準(zhǔn)。

伍茲指出,當(dāng)前系統(tǒng)僅受限于 SSD 帶寬,理論吞吐量底線(xiàn)可達(dá) 18.6 tokens/秒,而目前的 5.74 tokens/秒僅利用了硬件的部分潛能,仍有巨大提升空間。隨著蘋(píng)果 SSD 帶寬每代約 20% 的穩(wěn)步增長(zhǎng),預(yù)計(jì)在未來(lái) 2 到 3 代硬件更迭內(nèi),在個(gè)人筆記本上以 10 tokens/秒以上速度運(yùn)行 4,000 億參數(shù)模型將成為常態(tài)。

他還表示,這種方法同樣適用于 DeepSeek-V3 等其他以專(zhuān)家權(quán)重為主導(dǎo)的 MoE 模型。

1https://github.com/danveloper/flash-moe/blob/main/paper/flash_moe.pdf

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
4月“斷網(wǎng)”風(fēng)暴:“翻墻”時(shí)代迎來(lái)終局?

4月“斷網(wǎng)”風(fēng)暴:“翻墻”時(shí)代迎來(lái)終局?

虔青
2026-04-11 12:28:42
馬斯克發(fā)出重磅警告!日本如果不做出改變,將徹底從這個(gè)世界消失

馬斯克發(fā)出重磅警告!日本如果不做出改變,將徹底從這個(gè)世界消失

西樓知趣雜談
2026-04-11 08:52:51
禽獸不如!武漢4歲女童被親生父親殺害拋江,曾買(mǎi)60元意外保險(xiǎn)

禽獸不如!武漢4歲女童被親生父親殺害拋江,曾買(mǎi)60元意外保險(xiǎn)

派大星紀(jì)錄片
2026-04-10 17:31:01
湖人鎖前4無(wú)需爭(zhēng)第3!首輪挑火箭比森林狼更優(yōu):41歲詹皇多休2天

湖人鎖前4無(wú)需爭(zhēng)第3!首輪挑火箭比森林狼更優(yōu):41歲詹皇多休2天

顏小白的籃球夢(mèng)
2026-04-11 13:31:02
烏克蘭摧毀俄羅斯最后一艘鐵路輪渡,俄羅斯占領(lǐng)烏東四州的目標(biāo)更加虛無(wú)

烏克蘭摧毀俄羅斯最后一艘鐵路輪渡,俄羅斯占領(lǐng)烏東四州的目標(biāo)更加虛無(wú)

李未熟擒話(huà)2
2026-04-11 11:42:35
快訊!“臺(tái)獨(dú)分子”賴(lài)清德公開(kāi)發(fā)表聲明了!

快訊!“臺(tái)獨(dú)分子”賴(lài)清德公開(kāi)發(fā)表聲明了!

達(dá)文西看世界
2026-04-11 13:26:14
“窮到吃豆豉,還生呢?”農(nóng)村家長(zhǎng)曬5兒3女,大兒子眼神好可怕

“窮到吃豆豉,還生呢?”農(nóng)村家長(zhǎng)曬5兒3女,大兒子眼神好可怕

妍妍教育日記
2026-04-11 07:30:06
關(guān)于兩岸和平統(tǒng)一,鄭麗文正式表態(tài),國(guó)民黨三人罕見(jiàn)支持,不簡(jiǎn)單

關(guān)于兩岸和平統(tǒng)一,鄭麗文正式表態(tài),國(guó)民黨三人罕見(jiàn)支持,不簡(jiǎn)單

DS北風(fēng)
2026-04-10 17:16:33
40余歲女子從日本“人肉”背回244本淫穢漫畫(huà),法院:走私淫穢物品,判一年六個(gè)月

40余歲女子從日本“人肉”背回244本淫穢漫畫(huà),法院:走私淫穢物品,判一年六個(gè)月

極目新聞
2026-04-11 12:39:46
鄭麗文在北京新造型!穿藍(lán)紫色西服彰顯貴氣,還雙手背后很有氣勢(shì)

鄭麗文在北京新造型!穿藍(lán)紫色西服彰顯貴氣,還雙手背后很有氣勢(shì)

八八尚語(yǔ)
2026-04-10 12:58:23
俄羅斯警告全世界,真正在研發(fā)核武器的不是伊朗,恰恰在美國(guó)身邊

俄羅斯警告全世界,真正在研發(fā)核武器的不是伊朗,恰恰在美國(guó)身邊

林子說(shuō)事
2026-04-11 13:33:24
長(zhǎng)安汽車(chē)回應(yīng)“上百輛網(wǎng)約車(chē)頻現(xiàn)電池故障,被重慶一企業(yè)狀告”:確收到一企業(yè)就單一車(chē)輛的起訴,對(duì)該企業(yè)涉嫌歪曲夸大等行為強(qiáng)烈譴責(zé)

長(zhǎng)安汽車(chē)回應(yīng)“上百輛網(wǎng)約車(chē)頻現(xiàn)電池故障,被重慶一企業(yè)狀告”:確收到一企業(yè)就單一車(chē)輛的起訴,對(duì)該企業(yè)涉嫌歪曲夸大等行為強(qiáng)烈譴責(zé)

極目新聞
2026-04-11 10:35:06
雷軍:小米冰淇淋用工程師思維研發(fā)

雷軍:小米冰淇淋用工程師思維研發(fā)

觀(guān)察者網(wǎng)
2026-04-10 18:22:05
阿耳忒彌斯2號(hào)最終一搏:13分鐘穿越2760℃,時(shí)隔53年月球歸來(lái)大考

阿耳忒彌斯2號(hào)最終一搏:13分鐘穿越2760℃,時(shí)隔53年月球歸來(lái)大考

三體引力波
2026-04-11 01:02:06
縣城少婦們的幸福感很強(qiáng)

縣城少婦們的幸福感很強(qiáng)

微微熱評(píng)
2026-04-11 12:04:02
難以置信??!一餐吃掉562339.80元,上海一張消費(fèi)清單刷爆網(wǎng)絡(luò)

難以置信??!一餐吃掉562339.80元,上海一張消費(fèi)清單刷爆網(wǎng)絡(luò)

火山詩(shī)話(huà)
2026-04-10 06:49:46
湖南祁東沿路插了百余米的白事支架燈籠,上面印“奠” 下面掛長(zhǎng)條幅,當(dāng)?shù)孛裾郑阂讶坎鸪?>
    </a>
        <h3>
      <a href=大風(fēng)新聞
2026-04-11 10:41:08
以色列,終成人類(lèi)公敵!

以色列,終成人類(lèi)公敵!

燕梳樓頻道
2026-04-10 15:02:39
紅帽撤離中國(guó),一個(gè)時(shí)代的落幕。

紅帽撤離中國(guó),一個(gè)時(shí)代的落幕。

開(kāi)源中國(guó)
2026-04-10 15:36:24
突發(fā):以軍發(fā)動(dòng)襲擊

突發(fā):以軍發(fā)動(dòng)襲擊

第一財(cái)經(jīng)資訊
2026-04-11 10:21:30
2026-04-11 15:08:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16564文章數(shù) 514863關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

媒體:多套雷達(dá)系統(tǒng)受損 美國(guó)尷尬發(fā)現(xiàn)"又要求助中國(guó)"

頭條要聞

媒體:多套雷達(dá)系統(tǒng)受損 美國(guó)尷尬發(fā)現(xiàn)"又要求助中國(guó)"

體育要聞

換帥之后,他們從降級(jí)區(qū)沖到升級(jí)區(qū)

娛樂(lè)要聞

浪姐7淘汰 該走的沒(méi)走,不該走的走了

財(cái)經(jīng)要聞

從日本翻身看:這次誰(shuí)能扛住高油價(jià)?

汽車(chē)要聞

煥新極氪007/007GT上市 限時(shí)19.39萬(wàn)起

態(tài)度原創(chuàng)

家居
藝術(shù)
手機(jī)
房產(chǎn)
親子

家居要聞

復(fù)古風(fēng)格 自然簡(jiǎn)約

藝術(shù)要聞

17位當(dāng)代青年畫(huà)家油畫(huà)欣賞

手機(jī)要聞

行業(yè)首款橫向擴(kuò)折疊!華為新機(jī)命名Pura X Max:4月20日見(jiàn)

房產(chǎn)要聞

28條新規(guī)落地!好房子,終于有了“廣州標(biāo)準(zhǔn)”!

親子要聞

碳板跑鞋又貴,又有害健康,但為什么小孩哥都這么喜歡?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版