国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

突破T級模型“內(nèi)存墻”:協(xié)同壓縮框架將1.3TB MoE模型塞入128GB筆記本

0
分享至


本文介紹的“協(xié)同壓縮”框架,首次成功將 T 級參數(shù)的 MoE 大模型部署到 128GB 內(nèi)存的消費級 PC 上,實現(xiàn)了 >5 tokens/秒的本地推理。該工作由 Moxin AI 團(tuán)隊完成,于 GOSIM HANGZHOU 2025 大會上由美國東北大學(xué)王言治教授進(jìn)行了演講收錄。


近年來, 混合專家(MoE)架 構(gòu)已成為擴展大語言模型(LLMs)至數(shù)萬億參數(shù)的首選路徑。通過稀疏激活策略,MoE 模型在保持計算成本(FLOPs)相對較低的同時,實現(xiàn)了模型容量的巨大飛躍。

然而,這種架構(gòu)也帶來了新的系統(tǒng)挑戰(zhàn),即“內(nèi)存墻”悖論(Memory Wall):盡管推理時的計算是稀疏的,但模型的存儲卻是密集的。為了讓路由網(wǎng)絡(luò)(Gating)能從龐大的專家?guī)熘羞M(jìn)行選擇,所有專家的全量參數(shù)(如 DeepSeek-V3 的 1.3TB)都必須完整加載到內(nèi)存中。這使得T級模型被牢牢限制在數(shù)據(jù)中心,邊緣部署(Edge Deployment)幾無可能。

為了突破 128GB 這樣的消費級硬件內(nèi)存限制,模型必須實現(xiàn)超過 10x 的極端壓縮率。傳統(tǒng)的單一壓縮策略在如此激進(jìn)的目標(biāo)下面臨失效:

1. 激進(jìn)剪枝(Pruning)的失效:為達(dá)到目標(biāo)而裁剪掉(例如 90%)的專家,將導(dǎo)致模型知識的災(zāi)難性損失和路由機制的紊亂,性能嚴(yán)重下降。

2. 激進(jìn)量化(Quantization)的失效:統(tǒng)一的極低比特量化(如 1.5-bit)會嚴(yán)重破壞權(quán)重精度。如下圖所示,強行量化到 1.5bpw 的 130GB 模型,其性能已完全崩潰,面對提問只會輸出亂碼。


低比特量化模型輸出亂碼

3. 傳統(tǒng)方案的局限:

  • 卸載(Offloading):僅靠權(quán)重卸載策略不足以滿足 128GB 的嚴(yán)格內(nèi)存限制。

  • 主流框架的短板:GPTQ/AWQ 等量化方法缺乏對超低比特的支持(通常僅限 3/4-bit CUDA 核);同時,KTransformers 等基于 PyTorch 的框架缺乏對 Apple Silicon、AMD、Windows 等多樣化邊緣平臺的兼容性。

單一策略無法解決這個系統(tǒng)性問題。為此,Moxin AI 團(tuán)隊提出了一種全新的“協(xié)同壓縮”(Collaborative Compression)框架,旨在通過多階段、多策略的協(xié)同優(yōu)化,在實現(xiàn)極限壓縮率的同時,保持模型的推理能力。

核心方法:三階段協(xié)同壓縮框架

該框架的核心思想是,壓縮不是一個單一的步驟,而是一個環(huán)環(huán)相扣的流程。團(tuán)隊設(shè)計了一個由專家剪枝、激活調(diào)整與卸載、和混合精度量化三個階段組成的協(xié)同系統(tǒng)。


第一階段:性能感知專家剪枝 (Performance-Aware Expert Pruning)

傳統(tǒng)剪枝要么隨機移除,要么僅憑粗略指標(biāo)。本框架則采用“性能感知”策略,對專家的貢獻(xiàn)度進(jìn)行精細(xì)評估。

具體而言,框架會分析專家的兩個關(guān)鍵指標(biāo):激活頻率 (Freq) 和路由得分 (Score)。通過加權(quán)公式 ( I = α × Freq + (1 - α) × Score ) 量化每個專家的實際貢獻(xiàn)度,從而智能地移除那些“貢獻(xiàn)最低”的專家,最大限度地保留模型的“核心智囊”。

第二階段:硬件感知激活調(diào)整 (Hardware-Aware Activation Adjustment)

這是確保剪枝后性能穩(wěn)定的關(guān)鍵。在移除大量專家后,原始的路由機制如果保持不變,會導(dǎo)致嚴(yán)重的路由不匹配(Mismatch)。

本框架專注于修復(fù)這種結(jié)構(gòu)性損傷:它根據(jù)剪枝后保留的專家比例,按比例縮放路由器的激活參數(shù)(如num_experts_per_tok)。這一步驟使路由機制與新的、更精簡的專家集重新對齊,確保模型在結(jié)構(gòu)大幅精簡后,依然能夠維持正確的邏輯通路。

第三階段:混合精度量化 (Mixed-Precision Quantization)

在模型結(jié)構(gòu)精簡并確定卸載策略后,框架會進(jìn)行最后、也是最關(guān)鍵的量化階段。這是一種非統(tǒng)一的、精細(xì)化的混合精度策略,其核心是 llama.cpp 等支持跨平臺(Apple, AMD, Intel)超低比特(IQ1/IQ2)的 GGUF 格式。

1. 基準(zhǔn)量化:首先,將精簡后的模型整體量化到一個極低的基準(zhǔn)精度(如 IQ1M)。

2. 敏感性分析:隨后,框架執(zhí)行“張量級敏感性分析”(Tensor-Level Sensitivity Analysis)。它會遍歷模型的關(guān)鍵張量(尤其是 Attention 模塊和路由層),通過“試探性”地將其臨時升級到更高精度(如 Q8、Q4)來測量模型性能(如 PPL)的提升。

3. 預(yù)算分配與回退:最后,在一個嚴(yán)格的全局內(nèi)存預(yù)算(例如 103GB)內(nèi),框架會優(yōu)先將“比特預(yù)算”分配給那些“敏感性最高”的張量。如果超出預(yù)算,則啟動“回退策略”(Back-off strategy),例如將低敏感度的張量降級,以確保模型大小絕對符合硬件限制。

這套“剪枝-調(diào)整-量化”的協(xié)同策略,實現(xiàn)了在保留核心性能的前提下,對模型體積的極限壓縮。

部署策略:動態(tài)權(quán)重卸載 (Dynamic Weight Offloading)

為突破 128GB 內(nèi)存瓶頸,框架引入了推理時的動態(tài)卸載機制。它能智能地將低頻專家張量卸載至 CPU,通過 CPU/GPU 協(xié)同計算平衡負(fù)載,在確保模型完整加載的同時帶來最高 25% 的加速。

實驗結(jié)果與驗證

團(tuán)隊通過一系列實驗,驗證了該協(xié)同框架的有效性和優(yōu)越性。

1. 核心成果:實現(xiàn) T 級模型的本地化部署

最引人注目的成果是,團(tuán)隊將 671B 參數(shù)的 DeepSeek-V3 模型(原始 1.3TB)壓縮至 103GB。

這不是一次理論模擬。團(tuán)隊成功在 128G B內(nèi)存的商用 AI 筆記本(AMD RyzenAI Max + "StrixHalo")上實現(xiàn)了該模型的本地部署和運行,并獲得了 >5 tokens/秒的可用推理速度。據(jù)我們所知,這是 T 級參數(shù)的 MoE 模型首次在消費級 PC 硬件上成功運行。


2. 性能對比 (1):103GB vs 140GB (DeepSeek-V3)

壓縮不僅是為了“能跑”,更是為了“好用”。團(tuán)隊將他們的 103GB 壓縮模型與標(biāo)準(zhǔn)的 140GB 統(tǒng)一低比特量化模型(llama.cpp IQ1_M)進(jìn)行了基準(zhǔn)對比。

結(jié)果顯示(見下表),在 MMLU、GSM8K 等多項測試中,103GB 的協(xié)同壓縮模型全面超越了 140GB 的統(tǒng)一量化模型。特別是在 Big-Bench Hard (BBH) 推理任務(wù)上,140GB 模型的準(zhǔn)確性出現(xiàn)顯著下降(24.68),而 103GB 模型依然保持了高水準(zhǔn)的推理能力(73.83)。


3. 性能對比 (2):130GB vs 230GB (DeepSeek-V3)

協(xié)同壓縮框架的優(yōu)勢在不同預(yù)算下同樣明顯。如下表所示,團(tuán)隊的 130GB 混合精度模型,其性能與 230GB 的 Q2_K_L 模型(一個更高比特的量化)相比,在 CMMLU 和 GSM8K 上甚至更高,在其他基準(zhǔn)上也極具競爭力。這顯示了在同等性能下,協(xié)同壓縮能節(jié)省近 100GB 的內(nèi)存。


4. 框架通用性:210GB (DeepSeek-R1) vs 233GB (Qwen3)

為驗證該框架并非“特調(diào)”優(yōu)化,團(tuán)隊將其應(yīng)用于另一款 671B 的 DeepSeek-R1 (0528) 推理模型。

結(jié)果顯示,壓縮后的 210GB DeepSeek-R1 模型,在 AIME24、GPQA Diamond 和 GSM8K 等高級推理任務(wù)上,持續(xù)優(yōu)于一個體積更大(233GB)的 8-bit Qwen3 MoE 模型。這證明了該協(xié)同壓縮框架具有強大的通用性。


5. Kimi K2 Thinking 量化

與此同時,在 Kimi K2 Thinking 模型發(fā)布后,Moxin AI 團(tuán)隊迅速應(yīng)用此框架,推出了 GGUF 量化版本。這展示了該工具鏈快速跟進(jìn)業(yè)界最新 SOTA 模型的能力,不僅再次驗證了框架的通用性,也凸顯了其作為 T 級模型邊緣化部署工具的價值。


總結(jié)與未來展望

這項研究的意義在于,它為 T 級模型“下放”到邊緣設(shè)備提供了一條切實可行的技術(shù)路徑。MoE 模型的“內(nèi)存墻”并非不可逾越,通過智能的、協(xié)同的壓縮策略,可以在消費級硬件的嚴(yán)格限制下,依然保留 SOTA 模型的核心智能。

“協(xié)同壓縮”框架的成功,使得在本地設(shè)備上運行強大的、保護(hù)隱私的、無網(wǎng)絡(luò)延遲的 AI 應(yīng)用成為可能。隨著 T 級 AI 正從數(shù)據(jù)中心走向每個人的桌面,一個真正由端側(cè)大模型驅(qū)動的個性化 AI 時代或?qū)⒓铀俚絹怼?/p>

目前,Moxin AI 團(tuán)隊已將所有成果開源,包括論文和 GGUF 模型文件。

資源鏈接

  • 閱讀完整論文:https://arxiv.org/abs/2509.25689

  • 下載 GGUF 模型 (Hugging Face):

https://huggingface.co/collections/moxin-org/moxin-gguf( 投稿或?qū)で髨蟮溃簔hanghy@csdn.net )


【活動分享】2025 年是 C++ 正式發(fā)布以來的 40 周年,也是全球 C++ 及系統(tǒng)軟件技術(shù)大會舉辦 20 周年。這一次,C++ 之父 Bjarne Stroustrup 將再次親臨「2025 全球 C++及系統(tǒng)軟件技術(shù)大會」現(xiàn)場,與全球頂尖的系統(tǒng)軟件工程師、編譯器專家、AI 基礎(chǔ)設(shè)施研究者同臺對話。

本次大會共設(shè)立現(xiàn)代 C++ 最佳實踐、架構(gòu)與設(shè)計演化、軟件質(zhì)量建設(shè)、安全與可靠、研發(fā)效能、大模型驅(qū)動的軟件開發(fā)、AI 算力與優(yōu)化、異構(gòu)計算、高性能與低時延、并發(fā)與并行、系統(tǒng)級軟件、嵌入式系統(tǒng)十二大主題,共同構(gòu)建了一個全面而立體的知識體系,確保每一位參會者——無論是語言愛好者、系統(tǒng)架構(gòu)師、性能優(yōu)化工程師,還是技術(shù)管理者——都能在這里找到自己的坐標(biāo),收獲深刻的洞見與啟發(fā)。詳情參考官網(wǎng):https://cpp-summit.org/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
河南鹿邑一貨車發(fā)生事故后貨物被哄搶,官方:拘留5人,拿走的日化用品全部追回

河南鹿邑一貨車發(fā)生事故后貨物被哄搶,官方:拘留5人,拿走的日化用品全部追回

大風(fēng)新聞
2025-12-26 15:43:17
當(dāng)段奕宏和00后演員同框,一個健壯一個油頭粉面,才懂啥叫真男人

當(dāng)段奕宏和00后演員同框,一個健壯一個油頭粉面,才懂啥叫真男人

銀河史記
2025-12-24 14:32:30
79歲李保田現(xiàn)狀:定居山東衰老明顯,兒子李彧長得像父親“翻版”

79歲李保田現(xiàn)狀:定居山東衰老明顯,兒子李彧長得像父親“翻版”

小熊侃史
2025-12-20 10:56:45
山西女教師被奸殺,法醫(yī)保留精斑21年,真兇讓警察不敢相信

山西女教師被奸殺,法醫(yī)保留精斑21年,真兇讓警察不敢相信

紙鳶奇譚
2024-10-30 19:57:03
停火協(xié)議公布,澤連斯基通告全球,美歐負(fù)全責(zé),基輔暫時放棄領(lǐng)土

?;饏f(xié)議公布,澤連斯基通告全球,美歐負(fù)全責(zé),基輔暫時放棄領(lǐng)土

歷史有些冷
2025-12-25 17:50:03
得罪上司被調(diào)崗淪為前臺后,我爸深夜接我下班,竟讓上司當(dāng)場嚇癱

得罪上司被調(diào)崗淪為前臺后,我爸深夜接我下班,竟讓上司當(dāng)場嚇癱

云端小院
2025-12-25 09:42:26
南京博物院的事,炸出了一個去年的視頻

南京博物院的事,炸出了一個去年的視頻

麥杰遜
2025-12-21 12:17:15
達(dá)成了!西蒙斯正式收購!這可是NBA狀元秀

達(dá)成了!西蒙斯正式收購!這可是NBA狀元秀

籃球?qū)崙?zhàn)寶典
2025-12-25 22:19:36
張震岳硬核回懟朱孝天

張震岳硬核回懟朱孝天

究竟誰主沉浮
2025-12-25 20:41:29
逃離商場的“特斯拉們”,為何撐不下去了?

逃離商場的“特斯拉們”,為何撐不下去了?

金錯刀
2025-12-24 10:09:57
A股:周五,突然跳水,發(fā)生了什么?原因可能有兩點!

A股:周五,突然跳水,發(fā)生了什么?原因可能有兩點!

明心
2025-12-26 12:23:05
中俄為啥不結(jié)盟?俄專家:中國拒絕與俄羅斯結(jié)盟,原因有3個

中俄為啥不結(jié)盟?俄專家:中國拒絕與俄羅斯結(jié)盟,原因有3個

博覽歷史
2025-12-26 06:40:03
第一個房價回升的城市出現(xiàn)了!

第一個房價回升的城市出現(xiàn)了!

新浪財經(jīng)
2025-12-26 00:23:14
“中國宜家”崩了,創(chuàng)始人套現(xiàn)200億離場,美的太子接盤血虧?

“中國宜家”崩了,創(chuàng)始人套現(xiàn)200億離場,美的太子接盤血虧?

蜉蝣說
2025-12-23 20:00:55
大量游戲廳街機流入閑魚!32寸大屏+雙搖桿,二手350塊

大量游戲廳街機流入閑魚!32寸大屏+雙搖桿,二手350塊

金科技觀察家
2025-12-25 18:22:34
藏不住了,當(dāng)年陸挺的《江南春》,是從徐湘江手里購買的

藏不住了,當(dāng)年陸挺的《江南春》,是從徐湘江手里購買的

吃瓜盟主
2025-12-24 15:26:30
中日德11月車輛產(chǎn)銷量斷崖,日本82萬,德國14萬,中國令人意外

中日德11月車輛產(chǎn)銷量斷崖,日本82萬,德國14萬,中國令人意外

艾米手工作品
2025-12-26 15:30:43
徐湖平父子只是沾光的小卒,真正害怕的幕后“大人物”是他

徐湖平父子只是沾光的小卒,真正害怕的幕后“大人物”是他

李博世財經(jīng)
2025-12-26 14:26:17
王詩齡冰雪大世界捧冰塊拍照又美又萌,迪奧束腰棉服藏不住少女感

王詩齡冰雪大世界捧冰塊拍照又美又萌,迪奧束腰棉服藏不住少女感

暖心萌阿菇?jīng)?/span>
2025-12-19 10:17:48
前TVB花旦被前未婚夫溫暖舉動感動,坦誠有被愛感覺:我覺得很甜蜜

前TVB花旦被前未婚夫溫暖舉動感動,坦誠有被愛感覺:我覺得很甜蜜

TVB劇評社
2025-12-26 18:03:06
2025-12-26 20:48:49
CSDN incentive-icons
CSDN
成就一億技術(shù)人
26214文章數(shù) 242203關(guān)注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

寶馬網(wǎng)紅銷冠推行"一口價"賣車:來回談價累 8天賣11輛

頭條要聞

寶馬網(wǎng)紅銷冠推行"一口價"賣車:來回談價累 8天賣11輛

體育要聞

開翻航母之后,他決定親手造一艘航母

娛樂要聞

王傳君生病后近照變化大,面部浮腫

財經(jīng)要聞

投資巨鱷羅杰斯最新持倉:只留四種資產(chǎn)

汽車要聞

兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

態(tài)度原創(chuàng)

家居
旅游
數(shù)碼
游戲
公開課

家居要聞

格調(diào)時尚 智慧品質(zhì)居所

旅游要聞

第三屆新疆公路文化節(jié)網(wǎng)絡(luò)主題活動啟動

數(shù)碼要聞

ColorOS公布OPPO Pad 5十二月升級內(nèi)容

EA又翻車了!最新大作被扒用了AI 藝術(shù)錯誤太明顯

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版