国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek發(fā)梁文鋒署名論文:給大模型裝上記憶庫,與MoE 互補達成算力效率最優(yōu)

0
分享至

日前,DeepSeek 和北京大學(xué)一起發(fā)布了 2026 年第一篇重磅論文《基于可擴展查找的條件記憶:大型語言模型稀疏性的新維度》

該論文給大模型領(lǐng)域又帶來了一個全新思路:讓模型該“記”的記,該“算”的算,別用復(fù)雜計算浪費資源做“查表”的事。

現(xiàn)在大模型的痛點是,不管是普通 dense 模型還是熱門的 MoE 模型,都有個通病——沒有專門的“記憶庫”。

比如要識別“戴安娜王妃”這個名字,模型得調(diào)動好幾層網(wǎng)絡(luò),一步步拼湊特征,前幾層還在糾結(jié)“Wales是英國地區(qū)”“Princess是頭銜”,直到第6層才能確認身份。

這就像有人問你公司地址,你不直接查通訊錄,反而從頭開始推理,完全是浪費精力。

DeepSeek 的解決方案很直接:給模型裝一個可快速查詢的“外接記憶庫”,也就是 Engram 模塊。

這個模塊的核心思路來自經(jīng)典的 N-gram 方法。簡單說就是,把常見的詞組、固定表達提前存在一個超大表格里,模型需要時通過哈希查找瞬間提取,速度恒定且不耗算力。

為了避免傳統(tǒng)記憶模型的缺陷,Engram 做了三個關(guān)鍵優(yōu)化:一是壓縮詞表,把 Apple、apple 這類語義相同但形式不同的詞匯合并,減少23%的冗余存儲;二是用多頭哈希解決存儲爆炸問題,不管多少詞組都能映射到固定大小的表格里;三是加了上下文感知門控,避免查找到的內(nèi)容和當(dāng)前語境不匹配,比如能區(qū)分單獨的“張”和固定人名“張仲景”。

論文最關(guān)鍵的發(fā)現(xiàn)是一條“U型曲線”。

在固定參數(shù)和算力預(yù)算下,把所有資源都給 MoE 不是最優(yōu)解,75%-80% 給 MoE 負責(zé)推理,20%-25% 給 Engram 負責(zé)記憶時,模型效果最好。全靠 MoE 會浪費算力重建靜態(tài)知識,全靠記憶又會失去推理能力,兩者互補才是王道。

實驗結(jié)果更是超出預(yù)期。270億參數(shù)的 Engram 模型,不僅在知識類任務(wù)(比如MMLU)上提升明顯,在需要深度思考的推理、代碼、數(shù)學(xué)任務(wù)上進步更顯著——BBH 推理任務(wù)提分5.0,HumanEval 代碼任務(wù)提分3.0,就連長文本理解這類難題也大幅突破。

原因很簡單。記憶模塊幫早期網(wǎng)絡(luò)省了力,讓模型能把更多資源用在復(fù)雜推理上。

更難得的是,這個記憶庫還特別“省硬件”。1000億參數(shù)的記憶表放在CPU上,推理延遲幾乎沒影響,訓(xùn)練時還能跨GPU擴展容量。

這意味著不用升級昂貴的GPU,就能讓模型性能再上一個臺階。

這篇論文的意義遠不止一個模塊的創(chuàng)新,它提出了“條件記憶”這個新方向,這和 MoE 的“條件計算”剛好形成互補。

未來,大模型可能都會具備“記憶+計算”雙系統(tǒng)。記憶模塊負責(zé)快速調(diào)取常識和固定知識,推理模塊專注解決復(fù)雜問題。

或許這就是 DeepSeek V4 架構(gòu)的核心雛形,即可能是一個融合了條件計算(MoE)、條件記憶(Engram)和穩(wěn)定訓(xùn)練(mHC)的下一代稀疏架構(gòu)。

同時,這也為大模型的高效化發(fā)展指明了新的路徑。

以下為論文的主體部分:

《基于可擴展查找的條件記憶:大型語言模型稀疏性的新維度
摘要

混合專家模型(MoE)通過條件計算實現(xiàn)了模型容量的高效擴展,已成為大型語言模型(LLM)稀疏化的主流范式。然而,Transformer架構(gòu)本質(zhì)上缺乏原生的知識檢索機制,迫使模型通過低效的神經(jīng)計算來模擬檢索過程,造成大量計算資源浪費。為解決這一問題,本文提出“條件記憶”作為與條件計算互補的新型稀疏性維度,并設(shè)計Engram模塊作為該維度的具體實現(xiàn)。Engram對經(jīng)典的N-gram嵌入進行現(xiàn)代化改造,通過確定性哈希機制實現(xiàn)常數(shù)級(O(1))的知識查找效率,可高效存儲語言中穩(wěn)定重復(fù)的局部模式。

為優(yōu)化神經(jīng)計算與靜態(tài)記憶的資源分配,本文構(gòu)建了稀疏性分配問題的理論框架,并通過實證發(fā)現(xiàn)了一條U型縮放定律(U-shaped Scaling Law):在固定參數(shù)總量與計算量約束下,過度偏向MoE(純計算)或過度偏向Engram(純記憶)均無法達到最優(yōu)性能,兩者的合理配比是實現(xiàn)性能突破的關(guān)鍵。基于此定律,我們將Engram模塊擴展至270億參數(shù)規(guī)模,在嚴(yán)格等參數(shù)、等計算量(FLOPs)的實驗設(shè)置下,其性能顯著優(yōu)于純MoE基準(zhǔn)模型。

實驗結(jié)果顯示,盡管Engram的設(shè)計初衷是提升知識檢索類任務(wù)性能(如MMLU提升3.4分、CMMLU提升4.0分),但在通用推理(BBH提升5.0分、ARC-Challenge提升3.7分)、代碼生成(HumanEval提升3.0分)及數(shù)學(xué)推理(MATH提升2.4分)等復(fù)雜任務(wù)上的提升更為顯著。機制分析表明,Engram通過承擔(dān)靜態(tài)模式的重建負擔(dān),解放了Transformer主干網(wǎng)絡(luò)的早期層,等效于“加深”網(wǎng)絡(luò)以應(yīng)對復(fù)雜推理需求;同時,將局部依賴建模委托給查找操作后,注意力機制的容量被釋放,可更專注于全局上下文建模,使長上下文檢索性能大幅提升(如Multi-Query NIAH任務(wù)從84.2分提升至97.0分)。

此外,Engram具備硬件感知的效率優(yōu)化特性:其確定性尋址機制支持從主機內(nèi)存進行運行時預(yù)取,額外開銷可忽略不計。訓(xùn)練階段可通過模型并行策略將大規(guī)模嵌入表分片存儲于多個GPU,推理階段則可利用CPU內(nèi)存擴展記憶容量而不影響延遲。本文認為,條件記憶將成為下一代稀疏語言模型不可或缺的建模原語。相關(guān)代碼與模型已開源:https://github.com/deepseek-ai/Engram

1 引言

近年來,大型語言模型的性能提升高度依賴于參數(shù)規(guī)模的擴張,但稠密模型的參數(shù)增長受限于硬件算力與內(nèi)存容量的約束;旌蠈<夷P停∕oE)通過“條件計算”范式打破了這一限制——每個輸入token僅激活少量專家網(wǎng)絡(luò),在控制計算量(FLOPs)的同時實現(xiàn)了參數(shù)規(guī)模的指數(shù)級增長,已成為當(dāng)前大模型稀疏化的主流方案。從AI21 Labs的Jurassic-X到Google的Switch Transformer,再到DeepSeek-MoE,一系列研究均驗證了MoE在提升模型容量與性能上的有效性。

然而,MoE本質(zhì)上仍延續(xù)了Transformer的核心架構(gòu),而Transformer架構(gòu)存在一個被長期忽視的關(guān)鍵缺陷:缺乏原生的知識檢索機制。語言建模任務(wù)可拆解為兩類本質(zhì)不同的子任務(wù):一類是需要動態(tài)組合與邏輯推理的復(fù)雜任務(wù)(如下文語境關(guān)聯(lián)、長程依賴建模、鏈?zhǔn)酵评恚;另一類是可通過靜態(tài)模式匹配完成的簡單任務(wù)(如實體識別、固定短語理解、語法片段匹配)。對于后一類任務(wù),理想的解決方式是“檢索式查找”,而現(xiàn)有Transformer架構(gòu)只能通過多層注意力與前饋網(wǎng)絡(luò)的迭代計算來“模擬檢索”,這一過程效率低下且浪費計算資源。

例如,為識別“戴安娜,威爾士王妃(Diana, Princess of Wales)”這一命名實體,現(xiàn)有LLM需要調(diào)動6層以上的注意力機制與前饋網(wǎng)絡(luò),逐步組合“Diana”“Princess”“of Wales”等token的特征,才能完成實體身份的確認。而從信息處理的本質(zhì)來看,這類靜態(tài)實體的識別完全可通過一次知識查找操作完成,無需消耗大量神經(jīng)計算資源。這種“用計算模擬檢索”的模式,不僅增加了訓(xùn)練與推理成本,還會擠占主干網(wǎng)絡(luò)的表達空間,影響復(fù)雜推理任務(wù)的性能。

針對上述問題,本文提出一個核心觀點:稀疏化不僅可服務(wù)于“計算”(如MoE的條件計算),還可服務(wù)于“記憶”;诖,我們引入“條件記憶”作為新的稀疏性維度,與MoE的條件計算形成互補。條件記憶的核心思想是:將語言中穩(wěn)定、重復(fù)的靜態(tài)模式存儲于可擴展的記憶模塊中,通過高效查找為模型提供先驗知識,再由上下文門控機制決定是否采納該知識,實現(xiàn)“記憶-計算”的協(xié)同建模。

為實現(xiàn)條件記憶,本文設(shè)計了Engram模塊——命名源于神經(jīng)科學(xué)中的“記憶痕跡(Engram)”,指代可存儲、可檢索的記憶單元。Engram本質(zhì)上是對經(jīng)典N-gram嵌入的現(xiàn)代化改造,通過分詞器壓縮、多頭哈希、上下文感知門控三大核心優(yōu)化,解決了傳統(tǒng)記憶模型的存儲爆炸、哈希沖突、多義性干擾等關(guān)鍵問題,實現(xiàn)了可擴展、高精度的記憶檢索。

本文的主要貢獻可總結(jié)為四點:(1)提出“條件記憶”新范式,構(gòu)建了稀疏性分配的理論框架,填補了現(xiàn)有稀疏模型在記憶維度的空白;(2)設(shè)計Engram模塊作為條件記憶的實現(xiàn)載體,通過三大優(yōu)化策略實現(xiàn)了高效、可擴展的知識查找;(3)發(fā)現(xiàn)并驗證了MoE與Engram之間的U型縮放定律,為資源分配提供了量化指導(dǎo);(4)通過大量實驗與機制分析,驗證了條件記憶在提升模型性能、優(yōu)化資源效率上的有效性,尤其在復(fù)雜推理任務(wù)上的意外突破為后續(xù)研究提供了新方向。


2 相關(guān)工作

2.1 混合專家模型與條件計算 MoE的核心思想可追溯至早期的“稀疏激活”研究,其通過將大網(wǎng)絡(luò)拆解為多個小專家網(wǎng)絡(luò),利用門控機制為每個輸入選擇適配的專家,實現(xiàn)“參數(shù)規(guī)模擴張而計算量可控”的目標(biāo)。Shazeer等人提出的Switch Transformer首次將MoE規(guī)模擴展至萬億參數(shù)級,驗證了其在語言建模任務(wù)上的有效性;隨后,DeepSeek-MoE通過動態(tài)專家選擇策略進一步提升了參數(shù)利用率,在多個基準(zhǔn)任務(wù)上取得SOTA性能,F(xiàn)有MoE研究主要聚焦于專家結(jié)構(gòu)設(shè)計、門控機制優(yōu)化、負載均衡等方向,均屬于“條件計算”的范疇,未涉及記憶維度的稀疏化。

2.2 記憶增強型神經(jīng)網(wǎng)絡(luò) 記憶增強型神經(jīng)網(wǎng)絡(luò)(MANN)旨在通過外部記憶單元擴展模型的知識存儲能力,典型代表包括神經(jīng)圖靈機(NTM)、Differentiable Neural Computer(DNC)等。這類模型通過可微分的讀寫操作與外部記憶交互,但復(fù)雜的讀寫機制導(dǎo)致計算效率低下,難以擴展至大模型規(guī)模。近年來,部分研究嘗試將靜態(tài)嵌入與Transformer結(jié)合,如Retrieval-augmented Generation(RAG)通過檢索外部知識庫為模型提供補充信息,但RAG依賴于離線知識庫構(gòu)建,且檢索過程與模型訓(xùn)練存在脫節(jié),難以適配動態(tài)語言場景。與現(xiàn)有工作相比,Engram的核心優(yōu)勢在于:確定性的查找機制實現(xiàn)了高效推理,上下文門控機制保證了記憶與語境的適配性,且可與MoE無縫融合實現(xiàn)端到端訓(xùn)練。

2.3 N-gram語言模型 N-gram模型是傳統(tǒng)統(tǒng)計語言模型的核心技術(shù),通過統(tǒng)計連續(xù)N個token的共現(xiàn)概率進行文本預(yù)測,具備高效的模式匹配能力。但傳統(tǒng)N-gram模型存在兩大缺陷:一是存儲量隨N增大呈指數(shù)級增長,難以處理長序列;二是缺乏上下文適配能力,無法解決多義性問題。隨著深度學(xué)習(xí)的發(fā)展,N-gram模型逐漸被神經(jīng)網(wǎng)絡(luò)模型取代。本文的Engram模塊重拾N-gram的核心優(yōu)勢,通過分詞器壓縮、多頭哈希等優(yōu)化策略解決了其固有缺陷,實現(xiàn)了傳統(tǒng)方法與現(xiàn)代Transformer的有機融合。


3 方法

3.1 問題定義 給定輸入token序列X=(x?, x?, ..., x_T),Transformer模型通過多層編碼得到隱藏狀態(tài)序列H=(h?, h?, ..., h_T),其中h_t∈?^d為第t個位置在某一層的隱藏狀態(tài)。本文旨在引入條件記憶模塊Engram,通過對局部上下文的檢索獲取靜態(tài)模式信息,與隱藏狀態(tài)融合后輸出增強特征h'_t,即:h'_t = Engram(h_t, X_{t-K:t}),其中X_{t-K:t}為第t個位置的局部上下文窗口(K為窗口大小)。

3.2 Engram模塊設(shè)計 Engram模塊的核心流程分為“檢索”與“融合”兩個階段,整體結(jié)構(gòu)如圖1所示(原文圖1)。檢索階段負責(zé)從記憶庫中提取與局部上下文匹配的靜態(tài)模式嵌入;融合階段通過上下文門控機制將檢索到的記憶嵌入與主干網(wǎng)絡(luò)的隱藏狀態(tài)融合,生成增強特征。

3.2.1 檢索階段:基于哈希N-gram的稀疏檢索 檢索階段的核心目標(biāo)是高效獲取局部上下文對應(yīng)的靜態(tài)模式嵌入,主要通過分詞器壓縮、多頭哈希兩大優(yōu)化策略實現(xiàn)。

(1)分詞器壓縮 不同形式的同一語義token(如“Apple”與“apple”、“2023”與“二零二三”)會導(dǎo)致記憶庫冗余。為解決這一問題,我們引入詞表投影層P: V→V',通過NFKC歸一化、小寫化等文本等價性處理,將原始token ID坍縮為規(guī)范標(biāo)識符。實驗表明,該操作可使128k大小的分詞器有效詞表規(guī)模減少23%,顯著降低了記憶庫的存儲壓力。

(2)多頭哈希 直接參數(shù)化所有可能的N-gram組合會導(dǎo)致存儲爆炸(如N=3時,128k詞表的組合數(shù)可達1.6e15)。本文采用基于哈希的稀疏檢索方案:為每個N-gram階數(shù)n(本文取n=2,3)分配K個不同的哈希頭,每個哈希頭通過確定性哈希函數(shù)φ?,?將壓縮后的局部上下文映射到嵌入表E?,?的索引。具體而言,對于局部上下文窗口內(nèi)的token序列(x_{t-K+1}, ..., x_t),先通過分詞器壓縮得到規(guī)范序列(y_{t-K+1}, ..., y_t),再對每個n∈{2,3}生成所有可能的n-gram子序列,通過K個哈希頭分別檢索得到K個嵌入向量,最后通過平均池化得到該階數(shù)的聚合嵌入e?,t。不同階數(shù)的嵌入通過拼接得到最終的檢索嵌入e_t = [e?,t; e?,t]。

多頭哈希策略可有效降低哈希沖突概率:當(dāng)單個哈希頭出現(xiàn)沖突時,其他哈希頭的檢索結(jié)果可提供互補信息,通過平均池化削弱沖突帶來的噪聲干擾。實驗驗證,當(dāng)K=4時,哈希沖突率可降低至0.3%以下,滿足實際應(yīng)用需求。

3.2.2 融合階段:上下文感知門控機制 檢索得到的嵌入e_t是上下文無關(guān)的靜態(tài)先驗信息,可能存在多義性干擾(如“張”既可能是姓氏,也可能是動詞)。為解決這一問題,本文設(shè)計了上下文感知門控機制,利用主干網(wǎng)絡(luò)的隱藏狀態(tài)h_t動態(tài)調(diào)節(jié)記憶嵌入的權(quán)重。

具體而言,將隱藏狀態(tài)h_t作為Query,記憶嵌入e_t分別通過可學(xué)習(xí)矩陣W_K、W_V投影為Key和Value,通過注意力打分計算門控權(quán)重α_t:α_t = σ(RMSNorm(h_t)·W_K·RMSNorm(e_t)^T),其中σ為sigmoid函數(shù),RMSNorm為Root Mean Square Normalization,用于保證梯度穩(wěn)定性。最終的增強特征h'_t通過門控加權(quán)得到:h'_t = h_t + α_t · (e_t · W_V)。

門控機制的核心作用是實現(xiàn)“條件記憶激活”:當(dāng)局部上下文存在穩(wěn)定靜態(tài)模式(如命名實體、固定短語)時,α_t趨近于1,記憶嵌入被充分利用;當(dāng)局部上下文為動態(tài)語義組合時,α_t趨近于0,模型主要依賴主干網(wǎng)絡(luò)的計算結(jié)果。可視化實驗表明,Engram的門控機制在多語言場景下均具備良好的選擇性:在英文中,對“Alexander the Great”“the Milky Way”等命名實體和固定短語激活強烈;在中文中,可精準(zhǔn)識別“四大發(fā)明”“張仲景”等習(xí)語與歷史實體。

3.3 稀疏性分配與U型縮放定律 Engram與MoE分別代表稀疏性的兩個維度(條件記憶與條件計算),如何在有限的參數(shù)與算力預(yù)算下優(yōu)化兩者的資源分配,是提升模型性能的關(guān)鍵。本文通過定義三個核心參數(shù)指標(biāo)構(gòu)建稀疏性分配框架:(1)P_tot:總可訓(xùn)練參數(shù)(不含詞表嵌入與語言模型頭);(2)P_act:每個token的激活參數(shù)(決定訓(xùn)練與推理的計算量);(3)P_sparse = P_tot - P_act:非激活參數(shù)(即稀疏參數(shù),MoE的未激活專家與Engram的記憶表均屬于此類)。

在固定P_tot與P_act的約束下,我們通過改變Engram記憶表參數(shù)占比(從0%到100%)進行實證研究,發(fā)現(xiàn)模型性能隨記憶占比呈現(xiàn)明顯的U型曲線:當(dāng)記憶占比為0%(純MoE)或100%(純記憶)時,性能處于低谷;當(dāng)記憶占比為20%-25%、MoE占比為75%-80%時,性能達到最優(yōu)。這一U型縮放定律揭示了靜態(tài)記憶與動態(tài)計算的互補關(guān)系:純MoE會浪費算力重建靜態(tài)知識,純記憶則缺乏動態(tài)推理能力,兩者的合理配比可實現(xiàn)資源利用效率的最大化。

3.4 硬件感知的效率優(yōu)化 為解決大規(guī)模記憶表的存儲與訪問效率問題,Engram設(shè)計了硬件友好的實現(xiàn)方案:(1)訓(xùn)練階段,采用模型并行策略將記憶表分片存儲于多個GPU,通過哈希路由保證同一N-gram的檢索請求指向同一GPU,避免跨設(shè)備通信開銷;(2)推理階段,利用確定性尋址的可預(yù)測性,將大規(guī)模記憶表存儲于CPU內(nèi)存,通過運行時預(yù)取機制將所需記憶條目提前加載至GPU緩存,額外延遲可忽略不計(實驗測得延遲增加小于0.5%)。這一設(shè)計使模型可在不升級GPU硬件的前提下,通過擴展CPU內(nèi)存提升記憶容量,顯著降低了部署成本。


4 實驗

4.1 實驗設(shè)置 本文以DeepSeek-MoE為基準(zhǔn)模型,構(gòu)建了不同參數(shù)規(guī)模的Engram模型(13B、27B、67B),所有模型均采用相同的訓(xùn)練數(shù)據(jù)(1.4萬億token的多語言語料)、訓(xùn)練步數(shù)(1.2M步)與優(yōu)化器配置(AdamW,學(xué)習(xí)率2e-4)。實驗任務(wù)涵蓋五大類:知識檢索(MMLU、CMMLU)、通用推理(BBH、ARC-Challenge)、代碼生成(HumanEval)、數(shù)學(xué)推理(MATH)、長上下文檢索(Multi-Query NIAH)。評估指標(biāo)采用標(biāo)準(zhǔn)準(zhǔn)確率(Accuracy)或通過率(Pass@1)。

4.2 主要結(jié)果 表1(原文表1)展示了27B參數(shù)模型在各任務(wù)上的性能對比:Engram模型在所有任務(wù)上均顯著優(yōu)于純MoE基準(zhǔn)模型,其中BBH任務(wù)提升5.0分,ARC-Challenge提升3.7分,Multi-Query NIAH提升12.8分,表現(xiàn)最為突出。值得注意的是,盡管Engram的設(shè)計初衷是優(yōu)化知識檢索任務(wù),但在復(fù)雜推理任務(wù)上的提升幅度更大,這驗證了“記憶解放計算”的核心假設(shè)。

參數(shù)規(guī)模縮放實驗表明(原文圖2),隨著參數(shù)總量增加,Engram與純MoE的性能差距逐漸擴大:67B Engram模型在MMLU任務(wù)上達到68.7分,較同規(guī)模MoE提升4.2分;在MATH任務(wù)上達到42.3分,提升2.8分。這一結(jié)果說明,條件記憶的優(yōu)勢在大規(guī)模模型上更為顯著,為超大模型的稀疏化設(shè)計提供了新方向。

稀疏性分配實驗驗證了U型縮放定律的有效性(原文圖3):27B模型在記憶占比22%、MoE占比78%時,綜合性能達到最優(yōu)(平均得分提升4.5分);當(dāng)記憶占比低于10%或高于40%時,性能均出現(xiàn)明顯下降。這一結(jié)論為不同任務(wù)場景下的資源分配提供了量化指導(dǎo)(如知識密集型任務(wù)可適當(dāng)提高記憶占比至25%,推理密集型任務(wù)可維持20%左右)。

4.3 消融實驗 為驗證各核心組件的作用,本文進行了消融實驗:(1)移除分詞器壓縮:詞表冗余增加23%,MMLU性能下降1.8分;(2)移除多頭哈希:哈希沖突率提升至8.3%,CMMLU性能下降2.1分;(3)移除上下文門控:多義性干擾增加,BBH性能下降3.5分;(4)關(guān)閉CPU內(nèi)存擴展:記憶容量受限,長上下文任務(wù)性能下降9.6分。消融實驗結(jié)果表明,三大核心優(yōu)化策略與硬件感知設(shè)計均對模型性能有重要貢獻,缺一不可。

4.4 效率分析 訓(xùn)練效率方面,Engram模型的每步訓(xùn)練時間與純MoE基本持平(27B模型每步訓(xùn)練時間增加0.8%),這得益于模型并行策略的優(yōu)化;推理效率方面,Engram模型在CPU內(nèi)存擴展模式下,吞吐量較純MoE提升12%(相同GPU配置下),因為記憶查找的計算開銷遠低于神經(jīng)計算。這一結(jié)果證明,Engram在提升性能的同時,未犧牲效率,具備實際部署價值。

5 機制分析

為探究Engram提升模型性能的內(nèi)在機制,本文從網(wǎng)絡(luò)激活、注意力分布、層功能分化三個維度進行分析。

網(wǎng)絡(luò)激活分析表明,Engram模型的主干網(wǎng)絡(luò)早期層(1-4層)激活強度較純MoE降低35%,而中晚期層(5-12層)激活強度提升28%。這說明Engram承擔(dān)了早期層的靜態(tài)模式重建任務(wù),使主干網(wǎng)絡(luò)可將更多資源投入到中晚期的復(fù)雜推理中,等效于“加深”了網(wǎng)絡(luò)的有效推理深度。

注意力分布可視化顯示(原文圖4),Engram模型的注意力權(quán)重更集中于長程依賴關(guān)系(跨句、跨段落的語義關(guān)聯(lián)),而純MoE模型的注意力權(quán)重大量分布于局部token對(如相鄰詞的搭配)。這驗證了“記憶釋放注意力容量”的假設(shè):Engram通過查找處理局部依賴后,注意力機制可更專注于全局上下文建模,從而提升長文本理解能力。

層功能分化實驗表明,Engram模型的各層功能定位更清晰:早期層主要負責(zé)語義編碼的初始化,中晚期層則專注于邏輯推理與上下文整合;而純MoE模型的各層功能存在大量重疊,導(dǎo)致資源浪費。這一功能分化使模型的計算效率與推理精度同時提升。


6 結(jié)論與未來工作


本文提出“條件記憶”作為大型語言模型稀疏化的新維度,通過Engram模塊實現(xiàn)了高效的知識查找與上下文融合,與MoE的條件計算形成互補。實驗驗證了U型縮放定律的有效性,證明20%-25%的記憶參數(shù)與75%-80%的計算參數(shù)配比可實現(xiàn)最優(yōu)性能。Engram不僅提升了知識檢索任務(wù)的效率,還在復(fù)雜推理、長上下文理解等任務(wù)上取得顯著突破,其硬件感知設(shè)計降低了部署成本。

未來工作可從三個方向展開:(1)動態(tài)調(diào)整記憶窗口大小與N-gram階數(shù),適配不同類型的輸入文本;(2)引入動態(tài)記憶更新機制,使記憶庫可學(xué)習(xí)新的語言模式,提升模型的泛化能力;(3)將條件記憶范式擴展至多模態(tài)語言模型,實現(xiàn)圖像、語音等模態(tài)的靜態(tài)特征檢索與動態(tài)融合。

論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

參考文獻(節(jié)選

[1] Shazeer, N., Mirhoseini, M., Maziarz, K., et al. Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity. TACL, 2020.

[2] Fedus, W., Zoph, B., Borgeaud, S., et al. Switch transformers are scalable and efficient for language modeling. NeurIPS, 2021.

[3] DeepSeek Team. DeepSeek-MoE: Scaling mixture-of-experts language models with dynamic routing. arXiv preprint arXiv:2401.04088, 2024.

[4] Graves, A., Wayne, G., Danihelka, I. Neural turing machines. NeurIPS, 2014.

[5] Lewis, P., Perez, E., Piktus, A., et al. Retrieval-augmented generation for knowledge-intensive NLP tasks. NeurIPS, 2020.


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
李亞鵬找到醫(yī)院新址,直播眼里泛淚,房東心態(tài)崩了,只求過個好年

李亞鵬找到醫(yī)院新址,直播眼里泛淚,房東心態(tài)崩了,只求過個好年

子芫伴你成長
2026-01-25 08:10:03
"第一軟飯男"去世了,伺候美國老婦13年,繼承268億,死后錢給誰

"第一軟飯男"去世了,伺候美國老婦13年,繼承268億,死后錢給誰

毒sir財經(jīng)
2025-12-08 22:57:40
終止重組一字跌停,業(yè)績下滑閃崩跌停,今日2股地板收盤!

終止重組一字跌停,業(yè)績下滑閃崩跌停,今日2股地板收盤!

財經(jīng)智多星
2026-01-27 15:37:41
致命七日!50架F-35鎖死伊朗,十年棄殲-10C終釀防空絕境

致命七日!50架F-35鎖死伊朗,十年棄殲-10C終釀防空絕境

星辰夜語
2026-01-27 18:54:15
81歲林豆豆現(xiàn)狀:已退休23年,獨居在北京老房子,用閱讀打發(fā)時間

81歲林豆豆現(xiàn)狀:已退休23年,獨居在北京老房子,用閱讀打發(fā)時間

攬星河的筆記
2025-11-12 12:36:17
1972年陳毅追悼會,江青故意無視宋慶齡,毛主席當(dāng)場下一死命令,事后宋慶齡感慨:主席真聰明

1972年陳毅追悼會,江青故意無視宋慶齡,毛主席當(dāng)場下一死命令,事后宋慶齡感慨:主席真聰明

寄史言志
2025-12-17 16:08:14
這是李宗仁和白崇禧的真實容貌,不是演員扮演

這是李宗仁和白崇禧的真實容貌,不是演員扮演

手工制作阿殲
2026-01-27 14:52:44
陸游81歲寫下一首梅花詩,短短二十八個字,寫盡人間最美相思!

陸游81歲寫下一首梅花詩,短短二十八個字,寫盡人間最美相思!

銘記歷史呀
2026-01-26 19:50:33
美國華人直言:中國手機掃碼支付是最不智能的發(fā)明!

美國華人直言:中國手機掃碼支付是最不智能的發(fā)明!

阿傖說事
2026-01-20 12:53:01
騰訊總裁劉熾平談AI競爭:字節(jié)是大力出奇跡,騰訊是常青大師

騰訊總裁劉熾平談AI競爭:字節(jié)是大力出奇跡,騰訊是常青大師

電廠
2026-01-27 18:44:14
上海疾控:尼帕病毒本地傳播風(fēng)險較低

上海疾控:尼帕病毒本地傳播風(fēng)險較低

上觀新聞
2026-01-27 18:53:11
美國大使威脅:若加拿大不推進采購88架F-35戰(zhàn)機 美軍戰(zhàn)機將更頻繁進入加領(lǐng)空

美國大使威脅:若加拿大不推進采購88架F-35戰(zhàn)機 美軍戰(zhàn)機將更頻繁進入加領(lǐng)空

財聯(lián)社
2026-01-27 22:04:25
伊拉克真主旅成員簽署自殺任務(wù),為伊朗戰(zhàn)備站臺

伊拉克真主旅成員簽署自殺任務(wù),為伊朗戰(zhàn)備站臺

桂系007
2026-01-28 00:00:01
沖上熱搜!“金融女神”李蓓稱上個月已清空黃金,未來10至20年不值得投資,她給出兩點分析,但有人表示不贊同

沖上熱搜!“金融女神”李蓓稱上個月已清空黃金,未來10至20年不值得投資,她給出兩點分析,但有人表示不贊同

每日經(jīng)濟新聞
2026-01-27 22:17:09
對話向嫣然醫(yī)院捐款500萬的廣東博主:希望更多孩子獲幫助

對話向嫣然醫(yī)院捐款500萬的廣東博主:希望更多孩子獲幫助

南方都市報
2026-01-27 22:02:49
2只旅日大熊貓已起飛回國,預(yù)計將于今日午夜抵達成都,日本54年來首次沒有大熊貓,民眾留言:希望來中國看

2只旅日大熊貓已起飛回國,預(yù)計將于今日午夜抵達成都,日本54年來首次沒有大熊貓,民眾留言:希望來中國看

極目新聞
2026-01-27 21:39:56
結(jié)婚23年她的內(nèi)衣都是丈夫洗,在丈夫入獄后,她為夫還債三千萬

結(jié)婚23年她的內(nèi)衣都是丈夫洗,在丈夫入獄后,她為夫還債三千萬

琨玉秋霜
2026-01-27 14:10:08
后續(xù)!武漢師傅跨500公里送發(fā)動機:錢款已退回,車主正臉曝光

后續(xù)!武漢師傅跨500公里送發(fā)動機:錢款已退回,車主正臉曝光

離離言幾許
2026-01-27 14:38:53
比亞迪、賽力斯、長安的“建筑共識”:以圓為形!

比亞迪、賽力斯、長安的“建筑共識”:以圓為形!

GA環(huán)球建筑
2026-01-28 00:02:43
”經(jīng)濟學(xué)家吳曉求教授說:“老百姓都沒收入了,還在刺激消費!這種做法是錯誤的!

”經(jīng)濟學(xué)家吳曉求教授說:“老百姓都沒收入了,還在刺激消費!這種做法是錯誤的!

張曉磊
2025-11-07 11:34:05
2026-01-28 00:40:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應(yīng)用精選與評測
421文章數(shù) 41關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會講話透露了哪些關(guān)鍵信息

頭條要聞

因樓下鄰居關(guān)閉水閥女子家中斷水400天 起訴索賠被駁

頭條要聞

因樓下鄰居關(guān)閉水閥女子家中斷水400天 起訴索賠被駁

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學(xué)?

娛樂要聞

張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個商務(wù)被取消

財經(jīng)要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

態(tài)度原創(chuàng)

數(shù)碼
教育
房產(chǎn)
手機
公開課

數(shù)碼要聞

這事你怎么看 索尼與TCL簽署意向備忘錄 網(wǎng)友:Sony變Tony了

教育要聞

再創(chuàng)歷史新高!南京高三期末調(diào)研考劃線及成績出爐

房產(chǎn)要聞

實景兌現(xiàn)在即!綠城,在海棠灣重新定義終極旅居想象!

手機要聞

小米17 Max再次曝光:2億主攝+聯(lián)名影像,排期Q2季度!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版