国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

MoE路由擁有「記憶」:RMS-MoE用檢索記憶協(xié)同實現(xiàn)更高效專家調(diào)度

0
分享至



機(jī)器之心發(fā)布

大模型越來越大,Mixture-of-Experts(MoE)已經(jīng)成為擴(kuò)展模型參數(shù)規(guī)模、降低單次計算成本的重要架構(gòu)之一。但在真實的 Web-scale 系統(tǒng)中,MoE 路由機(jī)制仍然存在一個容易被忽視的問題:它往往是「無記憶」的。

對于搜索、問答、對話等高并發(fā)場景,大量輸入并非完全獨(dú)立,而是具有顯著的語義重復(fù)性和結(jié)構(gòu)相似性。傳統(tǒng) MoE 路由器每次都從當(dāng)前輸入出發(fā),重新判斷應(yīng)該激活哪些專家。這意味著,即使模型此前已經(jīng)在相似輸入上找到過有效的專家組合,下一次遇到類似問題時,仍然可能重新探索一遍。

這種「短視」的路由方式會帶來三個問題:一是重復(fù)計算,導(dǎo)致推理延遲和資源浪費(fèi);二是路由不穩(wěn)定,輸入稍有擾動就可能觸發(fā)完全不同的專家集合;三是專家之間的協(xié)作關(guān)系難以沉淀,模型只是在選擇單個專家,而沒有顯式復(fù)用歷史上有效的「專家團(tuán)隊」。

針對這一問題,來自馬上消費(fèi)金融、南京航空航天大學(xué)、阿里巴巴等機(jī)構(gòu)的研究團(tuán)隊提出了RMS-MoE(Retrieval-Memory Synergy Mixture-of-Experts)。該工作將 MoE 路由從一次性的分類決策,重新定義為一個「檢索 — 記憶 — 融合」的過程:模型不再只依賴當(dāng)前 router 的即時判斷,而是會從歷史記憶中檢索相似輸入曾經(jīng)激活過的高效專家組合,并與當(dāng)前路由結(jié)果動態(tài)融合。



  • 論文標(biāo)題:Rethinking MoE with Retrieval-Memory Synergy: Towards Efficient Expert Coordination
  • 會議:The ACM Web Conference 2026(WWW 2026)
  • 作者:Wanjie Tao, Qun Dai, Yantong Lv, Quan Lu, Ning Jiang, Zulong Chen
  • 機(jī)構(gòu):馬上消費(fèi)金融、南京航空航天大學(xué)、阿里巴巴
  • 論文鏈接:https://dl.acm.org/doi/epdf/10.1145/3774904.3792922

MoE 路由為什么需要「記憶」?

MoE 的優(yōu)勢在于稀疏激活。給定一個輸入,router 會從多個專家中選擇少數(shù)幾個參與計算,從而在保持模型容量的同時降低每次前向計算成本。

然而,當(dāng)前主流 MoE 路由方式大多仍然遵循一種 stateless paradigm:每個輸入獨(dú)立處理,歷史上相似輸入的專家選擇經(jīng)驗并不會被系統(tǒng)性利用。

這在離線 benchmark 中可能不明顯,但在真實 Web 場景中會變得非常關(guān)鍵。例如,在搜索、開放域問答、智能客服和多輪對話中,用戶請求往往存在大量語義重疊。同類問題、同類任務(wù)、同類表達(dá)會反復(fù)出現(xiàn)。如果系統(tǒng)每次都重新計算專家分配,就會造成明顯的計算冗余。更重要的是,對于語義相近的輸入,如果專家激活集合頻繁波動,模型行為也會變得不穩(wěn)定。

RMS-MoE 的出發(fā)點是:既然用戶輸入具有重復(fù)性,專家協(xié)作模式也應(yīng)該可以被記住和復(fù)用。與傳統(tǒng) RAG 從外部知識庫檢索文本內(nèi)容不同,RMS-MoE 檢索的不是知識片段,而是模型內(nèi)部的專家協(xié)作模式。換句話說,它做的是一種 architectural memory:讓模型記住自己過去是如何調(diào)度專家的

RMS-MoE:

從「即時路由」到「檢索增強(qiáng)路由」

RMS-MoE 的整體框架由三個核心模塊構(gòu)成:Co-Activation Memory(CAM)、Adaptive Fusion Module(AFM)和 Reinforcement-Guided Memory Update。CAM 用于存儲和檢索歷史上有效的專家組合;AFM 用于動態(tài)融合記憶先驗和當(dāng)前 router 的實時判斷;強(qiáng)化反饋式更新則用任務(wù)反饋持續(xù)維護(hù)記憶質(zhì)量。

從流程上看,當(dāng)一個新輸入進(jìn)入模型后,RMS-MoE 首先通過 Input Encoder 得到輸入表示,同時標(biāo)準(zhǔn) router 會生成一個實時專家激活結(jié)果。與此同時,CAM 會根據(jù)當(dāng)前輸入表示,從記憶庫中檢索最相似的歷史樣本,并取出這些樣本對應(yīng)的專家激活模式。隨后,模型會根據(jù)檢索相似度和歷史效用信息,聚合得到一個 memory prior,也就是「歷史上相似輸入更可能適合哪些專家團(tuán)隊」。最后,AFM 會學(xué)習(xí)一個動態(tài)融合權(quán)重,將 memory prior 與實時 router 輸出結(jié)合,得到最終專家激活結(jié)果。

這種設(shè)計帶來的好處是:對于熟悉、重復(fù)、語義相近的輸入,模型可以更多依賴歷史上驗證有效的專家組合;對于新穎或低相似度輸入,模型仍然可以回退到實時 router,保持靈活性。



RMS-MoE 方法框架圖

Co-Activation Memory:

記住的不是知識,而是「專家團(tuán)隊」

RMS-MoE 的關(guān)鍵模塊是Co-Activation Memory。CAM 可以理解為一個動態(tài) key-value memory。每條記憶包含兩部分:key 是輸入 embedding,value 是對應(yīng)的專家激活模式以及相關(guān)元信息,例如歷史 reward、最近使用情況等。

當(dāng)新輸入到來時,模型會用當(dāng)前輸入 embedding 去 CAM 中檢索 top-K 個相似條目。每個條目不僅代表一個相似輸入,還攜帶了該輸入曾經(jīng)激活過的專家組合。隨后,RMS-MoE 會結(jié)合相似度和歷史效用,對這些專家組合進(jìn)行加權(quán)聚合,得到一個專家選擇先驗。

這里的核心思想是:專家之間的共同激活關(guān)系本身就是一種可復(fù)用的結(jié)構(gòu)知識。傳統(tǒng) MoE router 往往獨(dú)立評估每個專家是否應(yīng)該被激活,而 RMS-MoE 更關(guān)注「哪些專家曾經(jīng)一起有效工作」。這使得模型不只是選擇專家,而是在復(fù)用專家團(tuán)隊的協(xié)作經(jīng)驗。

Adaptive Fusion:

既相信記憶,也保留實時判斷

僅有記憶是不夠的。如果模型過度依賴歷史經(jīng)驗,就可能在遇到新任務(wù)、新表達(dá)或低頻場景時產(chǎn)生錯誤遷移。因此,RMS-MoE 引入了Adaptive Fusion Module,用一個可學(xué)習(xí)的動態(tài)門控系數(shù) β 來控制記憶先驗和實時路由之間的平衡。

當(dāng)當(dāng)前輸入與 CAM 中的歷史樣本高度相似時,β 會更大,模型更傾向于使用記憶檢索得到的專家組合;當(dāng)相似度較低時,β 會降低,模型則更多依賴當(dāng)前 router 的即時判斷。這使得 RMS-MoE 不會變成一個簡單的緩存系統(tǒng),而是一個能夠根據(jù)輸入熟悉程度自適應(yīng)決策的路由框架。

簡單來說,RMS-MoE 的路由邏輯可以概括為:熟悉的問題,優(yōu)先復(fù)用歷史上表現(xiàn)好的專家團(tuán)隊;陌生的問題,回退到當(dāng)前 router,保持探索能力;模糊的問題,在記憶和實時判斷之間動態(tài)折中。

強(qiáng)化反饋式更新:讓記憶持續(xù)進(jìn)化

為了避免 CAM 退化成靜態(tài)緩存,RMS-MoE 還設(shè)計了reinforcement-guided memory update。在訓(xùn)練過程中,模型會根據(jù)任務(wù)反饋更新記憶條目的效用分?jǐn)?shù)。論文中將負(fù)訓(xùn)練損失作為 reward 信號,并使用指數(shù)滑動平均更新歷史 reward。

同時,CAM 還會記錄條目的新近程度,并在容量受限時基于 utility-recency score 進(jìn)行淘汰。也就是說,一個專家組合如果在歷史上多次帶來較好任務(wù)表現(xiàn),它就會更容易被保留和再次檢索;如果一個組合長期無效或過時,則會逐漸被削弱甚至移除。

此外,CAM 更新被設(shè)計為異步機(jī)制。模型不會在每次前向傳播中同步修改索引,而是將更新操作緩沖后批量執(zhí)行。這種設(shè)計避免了檢索索引對梯度計算的干擾,也降低了在線更新帶來的系統(tǒng)開銷。

實驗:

在 WebQA 和 MultiWOZ 上同時提升準(zhǔn)確率、延遲和穩(wěn)定性

論文主要在 WebQA 上進(jìn)行評估。WebQA 包含 120 萬個問答樣本,并具有約 30% 的查詢?nèi)哂,非常適合測試記憶增強(qiáng)路由在高重復(fù) Web 場景中的效果。同時,研究團(tuán)隊還在 MultiWOZ 上驗證了方法在多輪任務(wù)型對話中的泛化能力。

實驗對比了多種強(qiáng) MoE 基線,包括 Switch Transformer、Expert-Choice MoE、Hash-MoE、Soft-MoE 和 DeepSeekMoE。所有模型使用相同的 MoE 基礎(chǔ)架構(gòu):32 個專家,hidden dimension 為 1024,每個 token 激活 top-4 專家。RMS-MoE 額外設(shè)置 CAM 容量為 10^5,檢索 top-5 個記憶條目。實驗在 8 張 NVIDIA A100 GPU 上運(yùn)行,并報告 10 次運(yùn)行的均值和標(biāo)準(zhǔn)差。

在 WebQA 上,RMS-MoE 取得了最優(yōu)結(jié)果。相較于 DeepSeekMoE,RMS-MoE 的 F1 提升 2.7 個點,歸一化延遲從 0.72× 降至 0.53×,約降低 26%。相較于 Switch Transformer,RMS-MoE 的端到端延遲幾乎減半。在 MultiWOZ 上,RMS-MoE 也保持了類似趨勢,實現(xiàn)了 2.5 個 BLEU 分?jǐn)?shù)提升和 34% 的延遲降低。這說明該方法并不局限于單一問答任務(wù),也能夠遷移到多輪對話場景。



WebQA 主實驗結(jié)果(Latency 歸一化至 Switch Transformer)

消融實驗:CAM 是性能提升的關(guān)鍵

為了分析各模塊貢獻(xiàn),論文進(jìn)一步進(jìn)行了消融實驗。結(jié)果顯示,移除 CAM 后,模型 F1 從 82.5 降至 77.3,穩(wěn)定性從 0.94 降至 0.85,性能退化最明顯。這說明歷史專家協(xié)作模式的檢索與復(fù)用是 RMS-MoE 的核心收益來源。

移除 Adaptive Fusion 后,F(xiàn)1 降至 78.2,說明簡單使用記憶并不足夠,模型必須根據(jù)輸入情況動態(tài)決定「相信記憶」還是「相信當(dāng)前 router」。移除 reinforcement-guided update 后,F(xiàn)1 降至 79.8,穩(wěn)定性也出現(xiàn)下降,說明記憶質(zhì)量的持續(xù)維護(hù)同樣重要。

敏感性分析進(jìn)一步表明,RMS-MoE 對關(guān)鍵超參數(shù)較為穩(wěn)健。CAM 容量在 10^5 附近達(dá)到較好效果,top-K 檢索數(shù)量在 K=5 時形成較優(yōu)的準(zhǔn)確率 — 延遲平衡,而融合門控 β 最終穩(wěn)定收斂到約 0.6,說明模型會在相當(dāng)一部分決策中主動利用記憶先驗。



WebQA 消融實驗結(jié)果

為什么這項工作重要?

RMS-MoE 的意義不只是提出了一個新的 MoE 變體,更重要的是,它重新思考了 MoE 路由的本質(zhì)。過去,MoE 路由通常被看作一個即時決策問題:給定當(dāng)前 token,選擇若干專家。RMS-MoE 則把它擴(kuò)展為一個具有歷史經(jīng)驗的動態(tài)過程:當(dāng)前輸入不僅由當(dāng)前 router 決定,也可以參考過去相似輸入中已經(jīng)驗證有效的專家協(xié)作模式。

這帶來了三個層面的變化。第一,路由從「無狀態(tài)」變成「有記憶」。模型能夠復(fù)用歷史上成功的專家組合,減少重復(fù)探索。第二,專家選擇從「單專家打分」走向「專家團(tuán)隊復(fù)用」。RMS-MoE 顯式建模共同激活模式,讓專家協(xié)作關(guān)系成為可檢索、可強(qiáng)化、可淘汰的結(jié)構(gòu)。第三,檢索增強(qiáng)不再只發(fā)生在內(nèi)容層。傳統(tǒng) RAG 檢索的是外部知識或文本片段,而 RMS-MoE 檢索的是模型內(nèi)部架構(gòu)行為。

對于 Web-scale 推理系統(tǒng)而言,這一點尤其關(guān)鍵。搜索、問答、對話、推薦和智能客服等場景都存在高頻、重復(fù)、相似的用戶請求。如何在保證模型效果的同時降低推理成本、提升響應(yīng)穩(wěn)定性,是大模型落地過程中非常現(xiàn)實的問題。RMS-MoE 提供了一種輕量但有效的思路:讓模型記住自己過去做過的有效計算,并在相似場景中復(fù)用這些經(jīng)驗。

結(jié)語

隨著大模型規(guī)模持續(xù)擴(kuò)大,MoE 已經(jīng)成為提升模型容量與推理效率的重要路線。但真正高效的 MoE,不應(yīng)只是「稀疏激活更多專家」,還應(yīng)當(dāng)能夠?qū)W習(xí)和復(fù)用專家之間的協(xié)作規(guī)律。

RMS-MoE 將檢索、記憶與專家路由結(jié)合起來,為 MoE 架構(gòu)引入了一種新的 architectural memory。實驗結(jié)果表明,這種設(shè)計能夠在 Web-scale QA 和多輪對話任務(wù)中同時改善準(zhǔn)確率、推理延遲和路由穩(wěn)定性

未來,隨著大模型在搜索、對話、智能客服和復(fù)雜任務(wù)系統(tǒng)中的進(jìn)一步部署,如何讓模型的內(nèi)部計算路徑更加穩(wěn)定、可復(fù)用、可解釋,將成為提升大模型系統(tǒng)效率的重要方向。RMS-MoE 的工作表明:大模型不僅需要記住外部知識,也需要記住自己「如何思考」和「如何調(diào)度計算資源」。

作者介紹

陶萬杰:馬上消費(fèi)金融人工智能研究院算法副總監(jiān),北京郵電大學(xué)碩士,長期從事金融垂直領(lǐng)域大模型、智能客服、知識工程與高可信 AI 服務(wù)系統(tǒng)研究。當(dāng)前重點關(guān)注檢索增強(qiáng)、混合專家模型、多智能體協(xié)同與金融場景下可控、可解釋、可規(guī);拇竽P蛻(yīng)用,致力于構(gòu)建面向真實業(yè)務(wù)場景的高效、穩(wěn)定、可信智能服務(wù)系統(tǒng)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
廁紙是丟紙簍好,還是直接扔馬桶沖走好?原來兩個差別這么大!

廁紙是丟紙簍好,還是直接扔馬桶沖走好?原來兩個差別這么大!

室內(nèi)設(shè)計師有料兒
2026-05-08 11:49:43
吳彥祖妻子素顏真實模樣曝光,完全沒女人味,一眼看著像硬漢

吳彥祖妻子素顏真實模樣曝光,完全沒女人味,一眼看著像硬漢

調(diào)侃國際觀點
2026-05-05 08:32:47
5000萬英鎊報價敲定!巴黎全力挖阿森納邊鋒,歐冠決賽趁機(jī)談判

5000萬英鎊報價敲定!巴黎全力挖阿森納邊鋒,歐冠決賽趁機(jī)談判

夜白侃球
2026-05-09 08:50:12
突然確診癌癥!男子當(dāng)場急了:我不痛不癢,能吃能睡……很多人發(fā)現(xiàn)已是中晚期

突然確診癌癥!男子當(dāng)場急了:我不痛不癢,能吃能睡……很多人發(fā)現(xiàn)已是中晚期

福建衛(wèi)生報
2026-05-09 20:53:54
至少在已經(jīng)過去的25年里,中國的“財神”不是趙公明,而是WTO!

至少在已經(jīng)過去的25年里,中國的“財神”不是趙公明,而是WTO!

細(xì)雨中的呼喊
2026-02-21 06:59:07
中年男性破產(chǎn)被“斬殺”四件套:陽痿、失業(yè)、老婆出軌離婚和心梗

中年男性破產(chǎn)被“斬殺”四件套:陽痿、失業(yè)、老婆出軌離婚和心梗

黯泉
2026-05-09 20:15:36
朱辰杰拯救申花!8分鐘頭球雙響,中超生涯首次,創(chuàng)單季進(jìn)球紀(jì)錄

朱辰杰拯救申花!8分鐘頭球雙響,中超生涯首次,創(chuàng)單季進(jìn)球紀(jì)錄

奧拜爾
2026-05-09 21:21:53
不老神話!41歲C羅賽季通殺沙特聯(lián)對手,達(dá)成聯(lián)賽百球大關(guān)

不老神話!41歲C羅賽季通殺沙特聯(lián)對手,達(dá)成聯(lián)賽百球大關(guān)

星耀國際足壇
2026-05-09 22:14:18
名記:如果米切爾今夏進(jìn)入交易市場,火箭將積極爭取將其引進(jìn)

名記:如果米切爾今夏進(jìn)入交易市場,火箭將積極爭取將其引進(jìn)

懂球帝
2026-05-09 12:00:08
德云社弟子大洗牌!3人自斷后路,岳云鵬邊緣,燒餅一哥地位穩(wěn)了

德云社弟子大洗牌!3人自斷后路,岳云鵬邊緣,燒餅一哥地位穩(wěn)了

笑談歷史阿晡
2026-05-08 10:07:35
小米“YU9”胎死腹中,將被全新獨(dú)立子品牌“尋天”替代

小米“YU9”胎死腹中,將被全新獨(dú)立子品牌“尋天”替代

新浪財經(jīng)
2026-05-09 00:52:13
籃球名宿鄭永剛現(xiàn)狀:定居廣東,是一線教練,1.8米女兒顏值很高

籃球名宿鄭永剛現(xiàn)狀:定居廣東,是一線教練,1.8米女兒顏值很高

素衣讀史
2026-05-09 22:17:07
自民黨高層訪華無果后,日媒:高市打算親自訪華,中方態(tài)度堅決

自民黨高層訪華無果后,日媒:高市打算親自訪華,中方態(tài)度堅決

說歷史的老牢
2026-05-08 14:20:33
陜西這個“石破天驚”的發(fā)現(xiàn),將要改寫歷史?它比夏朝還早幾百年

陜西這個“石破天驚”的發(fā)現(xiàn),將要改寫歷史?它比夏朝還早幾百年

娛樂圈的嗶嗶王
2026-05-09 13:38:28
妹子,你露個大白胸脯,在這兒干什么呢?

妹子,你露個大白胸脯,在這兒干什么呢?

飛娛日記
2026-04-18 10:48:09
上汽奧迪高管炮轟行業(yè)亂象:很多品牌用特調(diào)車刷圈速 輪胎換過、懸掛改過、軟件單獨(dú)寫

上汽奧迪高管炮轟行業(yè)亂象:很多品牌用特調(diào)車刷圈速 輪胎換過、懸掛改過、軟件單獨(dú)寫

快科技
2026-05-09 15:40:14
莫拉蒂:坎通納飛踹球迷后我內(nèi)心竊喜,以為國米能簽下他了

莫拉蒂:坎通納飛踹球迷后我內(nèi)心竊喜,以為國米能簽下他了

懂球帝
2026-05-09 22:33:14
其他方面的表現(xiàn)都相當(dāng)不錯,但馬刺強(qiáng)力投手的手感依然沒有恢復(fù)?

其他方面的表現(xiàn)都相當(dāng)不錯,但馬刺強(qiáng)力投手的手感依然沒有恢復(fù)?

稻谷與小麥
2026-05-09 22:58:42
19時48分27秒,我國正式進(jìn)入……

19時48分27秒,我國正式進(jìn)入……

譚老師地理大課堂
2026-05-06 14:52:48
U17國足對決日本!董路:上去就干拼到抽筋 像爺們戰(zhàn)死沙場不要慫

U17國足對決日本!董路:上去就干拼到抽筋 像爺們戰(zhàn)死沙場不要慫

風(fēng)過鄉(xiāng)
2026-05-09 08:18:32
2026-05-09 23:48:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12957文章數(shù) 142646關(guān)注度
往期回顧 全部

科技要聞

美國政府強(qiáng)力下場 蘋果英特爾達(dá)成代工協(xié)議

頭條要聞

演員文章面館大火后又開酒吧 多位明星到場母親也現(xiàn)身

頭條要聞

演員文章面館大火后又開酒吧 多位明星到場母親也現(xiàn)身

體育要聞

成立128年后,這支升班馬首奪頂級聯(lián)賽冠軍

娛樂要聞

50歲趙薇臉頰凹陷滄桑得認(rèn)不出!

財經(jīng)要聞

多地號召,公職人員帶頭繳納物業(yè)費(fèi)

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態(tài)度原創(chuàng)

游戲
藝術(shù)
本地
手機(jī)
公開課

《明末》被收購后國內(nèi)首條動態(tài):江湖又見!

藝術(shù)要聞

齊白石 紫藤蜜蜂

本地新聞

用蘇繡的方式,打開江西婺源

手機(jī)要聞

華為Mate 90首發(fā)!鴻蒙7定檔6月:和iOS安卓三分天下

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版