国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

三星研究院發(fā)布手機端側(cè)大模型MeKi:基于Memory的LLM擴展新范式,支持旗艦手機端側(cè)部署

0
分享至


三星發(fā)布MeKi,用手機ROM擴容大模型,性能媲美更大模型。

隨著三星最新一代旗艦手機 Samsung Galaxy S26 的正式發(fā)布,移動端AI體驗迎來了質(zhì)的飛躍。新機集成了多種創(chuàng)新AI功能以及多款A(yù)I智能體。這些AI應(yīng)用極大地豐富了用戶的日常體驗,也標志著智能手機正逐步轉(zhuǎn)型為高度智能化的個人助理平臺。然而,支撐這些復(fù)雜功能的背后,是對端側(cè)大模型性能與效率的極致追求。

最近,三星研究院在上月發(fā)布了題為《MeKi: Memory-based Expert Knowledge Injection for Efficient LLM Scaling》的端側(cè)大模型架構(gòu),提出一種全新的大模型擴展思路——通過存儲空間來擴展模型容量、提升LLM的性能,而非依賴激活參數(shù)量和計算量的提升,這種新范式為在邊緣設(shè)備部署高性能LLM提供了新的解決方案。

與傳統(tǒng)的部署方式不同,MeKi架構(gòu)巧妙地利用了手機上豐富的ROM存儲空間,而非僅僅受限于RAM。在移動端 SoC 上,從ROM進行查找讀取的操作相對廉價且能效高,且ROM帶寬在大模型推理期間通常處于閑置狀態(tài),MeKi利用這一特性將ROM轉(zhuǎn)化為模型知識的擴展存儲庫,從而緩解了內(nèi)存(RAM)的壓力。這種設(shè)計在不增加計算量(FLOPs)和推理時延的前提下,實現(xiàn)了模型容量與性能的顯著提升。

文章地址:https://www.arxiv.org/pdf/2602.03359

項目主頁:https://github.com/ningding-o/MeKi


01


核心痛點:邊緣部署的計算與內(nèi)存困境

當前大模型的主流擴展路徑(增大參數(shù)量、提升推理時計算量)在數(shù)據(jù)中心表現(xiàn)優(yōu)異,但在智能手機等邊緣設(shè)備上面臨致命瓶頸:

- 稠密模型參數(shù)量增加會導(dǎo)致浮點運算(FLOPs)激增,帶來不可接受的延遲和功耗;

- 混合專家(MoE)架構(gòu)雖通過稀疏激活降低單token計算量,但頻繁加載離散專家權(quán)重會造成嚴重的內(nèi)存訪問延遲,成為邊緣設(shè)備的主要性能瓶頸;

- 邊緣設(shè)備的RAM和NPU資源有限,而ROM帶寬在推理過程中大量閑置,現(xiàn)有方案未充分利用這一資源優(yōu)勢。

據(jù)此,研究團隊提出了本文的核心動機:能否在不增加推理延遲和計算量的前提下,通過利用存儲空間實現(xiàn)模型容量的有效擴展?


02


MeKi:將存儲內(nèi)容注入推理過程的LLM架構(gòu)

MeKi(Memory-based Expert Knowledge Injection)通過"存儲替代計算"的設(shè)計思路,實現(xiàn)模型容量與計算成本的解耦,其核心架構(gòu)包含三大關(guān)鍵組件:

1. token級專家知識:靜態(tài)與動態(tài)知識融合

MeKi為每個Transformer層配備專屬的知識庫,將其視為token級專家的集合,用來存儲在預(yù)訓(xùn)練階段學(xué)習(xí)到的語義知識。每個token的專家向量由兩部分融合而成:

- 靜態(tài)知識:通過token ID從一個靜態(tài)的詞嵌入矩陣中直接查詢,存儲基礎(chǔ)語義知識;

- 動態(tài)知識:在訓(xùn)練階段通過非線性投影從全局詞嵌入中合成特定的特征向量,增強表示能力;

兩者經(jīng)過歸一化處理后,由逐層可學(xué)習(xí)的系數(shù)進行加權(quán)調(diào)節(jié),形成最終的專家知識向量。

模型每層所用的專家知識庫的大小為 ,為了控制ROM空間的占用,我們控制知識向量的維度 遠小于模型的hidden size ( )。

2. 低秩門控融合:高效的知識注入機制

為了將專家知識高效率的注入到Transformer的前向傳播過程中,MeKi采用了一種低秩空間下的加法門控融合策略:

首先利用低秩線性投影和激活函數(shù)利用輸入FFN模塊的token hidden state來生成與上下文相關(guān)的低維門控信號(維度為 ),門控信號與檢索到的專家知識向量相加,從而實現(xiàn)了hidden state與知識的動態(tài)融合;融合后的embedding(維度為 )經(jīng)過升維的線性投影被映射回模型維度( ),最終通過殘差連接融入主數(shù)據(jù)流。

該設(shè)計使得MeKi模塊可以與FFN模塊并行運行,實現(xiàn)模型容量的隱式擴展,且低秩空間下的融合操作擁有很少的FLOPs開銷,幾乎不會增加額外計算量。

3. 重參數(shù)化策略:訓(xùn)練復(fù)雜度與推理效率的平衡

為解決訓(xùn)練階段的計算復(fù)雜與推理階段需要高效部署的矛盾,MeKi提出使用重參數(shù)化技術(shù)來進一步降低推理階段的FLOPs開銷。

在訓(xùn)練階段,MeKi保留動態(tài)的非線性投影等復(fù)雜結(jié)構(gòu),最大化模型的表征學(xué)習(xí)能力;部署之前,將MeKi模塊中的動態(tài)投影和歸一化層等操作進行預(yù)先計算、并融合成為統(tǒng)一的靜態(tài)查找表,形成緊湊的ROM存儲結(jié)構(gòu);在推理時,MeKi僅需通過token ID進行查找,其I/O過程以及輕量級特征融合可以實現(xiàn)幾乎零延遲的極低額外開銷。

03


實驗驗證:端側(cè)性能與推理效率的雙重突破

研究團隊在基于Qualcomm Snapdragon 8 Elite的安卓移動平臺上,對激活參數(shù)量為0.6B、1.7B、4B三個規(guī)模的MeKi模型進行了全面驗證,核心結(jié)果如下:

1.性能對標更大參數(shù)量的模型:MeKi-1.7B模型在10個下游基準測試中平均得分59.7,與4B稠密模型(60.5)性能相當;

2.推理效率保持最優(yōu)水平:MeKi通過將知識權(quán)重卸載到ROM空間,保持與同參數(shù)量稠密模型一致的推理速度:MeKi-1.7B模型在端側(cè)的解碼速度達13.7 token/s,是4B稠密模型(6.1 token/s)的2.26倍;


3.極低的ROM帶寬需求:重參數(shù)化之后的推理階段僅需少量的內(nèi)存查找操作,對于28層的Transformer模型,每個token所需的ROM數(shù)據(jù)傳輸量僅為14KB,完全適配移動設(shè)備的存儲帶寬。

4.超越同期其他基于存儲的LLM架構(gòu): MeKi-1.7B在10項下游任務(wù)上的平均得分為59.7,與DeepMind的PLE(57.0分)和DeepSeek的Engram(57.9分)等ROM擴展方案相比,分別超出了2.7和1.8個百分點,驗證了本方法在融合ROM知識的機制上的優(yōu)越性。


04


關(guān)鍵洞察:架構(gòu)設(shè)計消融分析

研究團隊通過一系列的消融實驗進一步揭示了MeKi架構(gòu)性能優(yōu)勢的核心來源:

?靜態(tài)知識+動態(tài)知識的融合:作者在0.6B參數(shù)量的模型上實驗了兩種知識來源的協(xié)同作用,與只使用單一知識來源的變體相比,兩種知識互補之后分別提升了0.7和0.8個點,驗證了知識互補的價值;


?最優(yōu)的知識注入位置:作者實驗了將MeKi模塊插入到模型中的不同位置上,其中MeKi與FFN并行的部署方式效果最佳,較其他位置(例如與Attention并行、放在FFN之后)平均提升0.4-0.8個百分點;



?最優(yōu)的融合方式:在對token 的hidden state和ROM專家知識進行融合時,作者提出了 “相乘后Sigmoid”、“相加后Sigmoid”、“相乘后SiLU”、“相加后SiLU”四種門控融合策略,其中相加后Sigmoid方案的Training Loss最低,實驗得到的模型性能最優(yōu);



?知識庫容量的擴展定律:作者通過實驗證明了MeKi架構(gòu)的模型性能會隨著ROM中存儲的知識容量呈對數(shù)線性增長,通過改變預(yù)訓(xùn)練階段的知識向量維度( )即可調(diào)整模型的知識容量。為了實現(xiàn)性能與存儲成本的平衡,作者將MeKi-0.6B模型的 設(shè)置為128,MeKi-1.7B模型的 設(shè)置為256。


05


總結(jié)與展望

MeKi架構(gòu)打破了"性能提升依賴計算量增加"的傳統(tǒng)認知,通過"ROM替代RAM"的內(nèi)存化擴展范式,首次實現(xiàn)了邊緣設(shè)備上"零延遲開銷+大模型性能"的雙重目標。,為智能手機、物聯(lián)網(wǎng)設(shè)備等邊緣場景部署高性能LLM提供了全新思路。

對于深度集成AI功能的手機產(chǎn)品,MeKi架構(gòu)意味著用戶可以運行性能更強大的本地大模型,在保護隱私的前提下,享受更精準的智能體服務(wù)和更流暢的影像處理體驗,而無需擔心網(wǎng)絡(luò)延遲導(dǎo)致的體驗割裂,這手機真正地成為了懂知識、懂場景的“私人口袋專家”。

未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中醫(yī)怒斥:軟化血管騙了國人幾十年,洋蔥、黑木耳、魚油全都胡扯

中醫(yī)怒斥:軟化血管騙了國人幾十年,洋蔥、黑木耳、魚油全都胡扯

岐黃傳人孫大夫
2026-03-07 21:55:03
女生主動起來有多黏人?網(wǎng)友:這些女的太開放了

女生主動起來有多黏人?網(wǎng)友:這些女的太開放了

帶你感受人間冷暖
2026-01-27 00:20:06
1955年副軍職只授大校 他看了三遍名單:我二十年老紅軍不夠?qū)④?>
    </a>
        <h3>
      <a href=鍋鍋愛歷史
2026-03-10 23:41:40
蘇聯(lián)式解體將重演?俄羅斯專家大膽預(yù)測:美國或?qū)⒎至殉?個國家

蘇聯(lián)式解體將重演?俄羅斯專家大膽預(yù)測:美國或?qū)⒎至殉?個國家

文史旺旺旺
2026-01-16 20:50:38
讀秒破門!歐冠神奇1戰(zhàn):紐卡一聲長嘆,亞馬爾助巴薩驚險身退

讀秒破門!歐冠神奇1戰(zhàn):紐卡一聲長嘆,亞馬爾助巴薩驚險身退

話體壇
2026-03-11 06:38:10
伊朗方面回應(yīng)了,戰(zhàn)爭即將結(jié)束!

伊朗方面回應(yīng)了,戰(zhàn)爭即將結(jié)束!

新浪財經(jīng)
2026-03-11 02:56:10
中方最擔心的事情發(fā)生了,伊朗越過紅線,秘密武器直逼以方心臟?

中方最擔心的事情發(fā)生了,伊朗越過紅線,秘密武器直逼以方心臟?

小蘭聊歷史
2026-03-10 17:09:37
55歲主持人李靜自曝絕經(jīng)過程,很快失去性魅力,連男人也沒興趣了

55歲主持人李靜自曝絕經(jīng)過程,很快失去性魅力,連男人也沒興趣了

林輕吟
2026-02-23 07:16:08
奉勸男性:若不想被前列腺炎折磨下半生,盡早改掉這4大習(xí)慣!

奉勸男性:若不想被前列腺炎折磨下半生,盡早改掉這4大習(xí)慣!

全球軍事記
2026-03-02 10:13:18
在真正的代表呼吁提高養(yǎng)老金時,某些人連別“落石”,都那么難?

在真正的代表呼吁提高養(yǎng)老金時,某些人連別“落石”,都那么難?

走讀新生
2026-03-10 21:07:29
西方觀察家認為:這次的美伊以沖突會導(dǎo)致永久改寫臺海戰(zhàn)爭的規(guī)則

西方觀察家認為:這次的美伊以沖突會導(dǎo)致永久改寫臺海戰(zhàn)爭的規(guī)則

安安說
2026-03-06 11:28:08
別再裝修這些“家務(wù)刺客”!只是好看,難伺候卻是一輩子

別再裝修這些“家務(wù)刺客”!只是好看,難伺候卻是一輩子

裝修秀
2026-03-08 11:35:03
爸媽!真的不要再往馬桶里倒水了!

爸媽!真的不要再往馬桶里倒水了!

家居設(shè)計師宅哥
2026-03-08 18:21:44
消金圈大地震:M1、M2全面禁止委外催收

消金圈大地震:M1、M2全面禁止委外催收

新浪財經(jīng)
2026-03-10 18:26:59
比賽還沒開打 山東泰山先迎來一個利好喜訊 取勝北京國安概率大增

比賽還沒開打 山東泰山先迎來一個利好喜訊 取勝北京國安概率大增

零度眼看球
2026-03-11 06:45:58
老板跑路澳洲,讓26名員工背債坐牢,上海“富婆會所”藏著什么?

老板跑路澳洲,讓26名員工背債坐牢,上?!案黄艜辈刂裁??

帥真商業(yè)
2026-03-09 18:50:01
賽季報銷被裁!被伊森毀掉職業(yè)生涯,剛展現(xiàn)天賦,才25歲無球可打

賽季報銷被裁!被伊森毀掉職業(yè)生涯,剛展現(xiàn)天賦,才25歲無球可打

你的籃球頻道
2026-03-10 08:09:57
恐怖!美軍的陰暗操作令世界不寒而栗

恐怖!美軍的陰暗操作令世界不寒而栗

補壹刀
2026-03-09 15:41:03
“地球上最危險的工作”:伊朗彈道導(dǎo)彈發(fā)射機組人員的生活

“地球上最危險的工作”:伊朗彈道導(dǎo)彈發(fā)射機組人員的生活

鐵錘妹妹是只貓
2026-03-09 02:15:52
再次提醒!中國公民暫勿前往;人臉驗證時千萬記得穿衣服;女子起訴離婚遭威脅,丈夫獲刑|早安,你好

再次提醒!中國公民暫勿前往;人臉驗證時千萬記得穿衣服;女子起訴離婚遭威脅,丈夫獲刑|早安,你好

全國婦聯(lián)女性之聲
2026-03-11 07:24:12
2026-03-11 08:04:49
AI科技評論 incentive-icons
AI科技評論
點評學(xué)術(shù),服務(wù)AI
7111文章數(shù) 20739關(guān)注度
往期回顧 全部

數(shù)碼要聞

Sonos推出Play和Era 100 SL兩款音箱,支持蘋果隔空播放

頭條要聞

"一對老夫妻雙雙129歲相戀100年"視頻引熱議 當?shù)鼗貞?yīng)

頭條要聞

"一對老夫妻雙雙129歲相戀100年"視頻引熱議 當?shù)鼗貞?yīng)

體育要聞

加蘭沒那么差,但鱸魚會用嗎?

娛樂要聞

《逐玉》注水風波升級!315評論區(qū)淪陷

財經(jīng)要聞

“龍蝦補貼”密集出爐 最高1000萬!

科技要聞

蔚來今年要少虧150億,沖擊年度盈利

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

本地
藝術(shù)
健康
教育
公開課

本地新聞

云游中國|候鳥高顏值亮相!沉浸式打卡青海濕地

藝術(shù)要聞

這組剪紙?zhí)懒耍?/h3>

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

教育要聞

初中競賽題,化簡,說難的建議多學(xué)學(xué)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版