DeepSeek開源大模型「記憶」模塊，梁文鋒署名新論文，下一代稀疏模型提前劇透

2026-01-13 16:26:08　來源: 人工智能學(xué)家

北京舉報

分享至

來源：機(jī)器之心

就在十幾個小時前，DeepSeek 發(fā)布了一篇新論文，主題為《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》，與北京大學(xué)合作完成，作者中同樣有梁文鋒署名。

論文地址：https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

簡單總結(jié)一波這項新研究要解決的問題：目前大語言模型主要通過混合專家（MoE）來實現(xiàn)稀疏化，這被稱為「條件計算」。但是，現(xiàn)有的 Transformer 缺少原生的知識查找機(jī)制，只能被迫通過計算過程低效地模擬檢索行為。

針對這一現(xiàn)狀，DeepSeek 提出了條件記憶（conditional memory），從而與 MoE 的條件計算互補，并通過引入一個新模塊 Engram 來實現(xiàn)。

目前，模塊「Engram」相關(guān)的實現(xiàn)已經(jīng)上傳到了 GitHub。

項目地址：https://github.com/deepseek-ai/Engram

這讓網(wǎng)友們感慨：「DeepSeek is back！」

此外，結(jié)合元旦期間公布的研究《mHC:Manifold-ConstrainedHyper-Connections》，我們可以明確的是 DeepSeek v4 的模樣愈發(fā)清晰，就等上新了！

除了條件計算（MoE），

LLM 還需要一個獨立的條件記憶 Engram

MoE 模型通過條件計算實現(xiàn)了模型容量的擴(kuò)展，但現(xiàn)有的 Transformer 架構(gòu)缺乏原生的知識查找原語，只能通過計算過程低效地模擬檢索行為。

為了解決這一問題，DeepSeek 提出了條件記憶（conditional memory）這一與條件計算互補的稀疏化維度，并通過 Engram 模塊加以實現(xiàn)。Engram 在經(jīng)典 -gram 嵌入的基礎(chǔ)上進(jìn)行了現(xiàn)代化改造，使其能夠以 O (1) 時間復(fù)雜度完成知識查找。

通過形式化提出稀疏性分配問題，DeepSeek 還發(fā)現(xiàn)了一條呈 U 型的擴(kuò)展規(guī)律，用以刻畫神經(jīng)計算（MoE）與靜態(tài)記憶（Engram）之間的最優(yōu)權(quán)衡關(guān)系。

在這一規(guī)律的指導(dǎo)下，DeepSeek 將 Engram 擴(kuò)展至 270 億參數(shù)規(guī)模，并在嚴(yán)格等參數(shù)量、等 FLOPs 的條件下，其整體性能顯著優(yōu)于純 MoE 基線模型。

尤為值得注意的是，盡管記憶模塊本身主要被用于提升知識檢索能力（如 MMLU 提升 +3.4、CMMLU 提升 +4.0），但 DeepSeek 觀察到其在通用推理能力（如 BBH 提升 +5.0、ARC-Challenge 提升 +3.7）以及代碼與數(shù)學(xué)推理任務(wù)（HumanEval 提升 +3.0、MATH 提升 +2.4）上帶來了更為顯著的增益。

進(jìn)一步的分析表明，Engram 能夠?qū)㈧o態(tài)知識的重建負(fù)擔(dān)從模型的淺層中剝離出來，從而有效加深網(wǎng)絡(luò)用于復(fù)雜推理的有效深度。此外，通過將局部依賴關(guān)系交由查表機(jī)制處理，Engram 釋放了注意力機(jī)制的容量，使其能夠更專注于全局上下文建模，從而顯著提升了長上下文檢索能力（例如 Multi-Query NIAH 的準(zhǔn)確率從 84.2 提升至 97.0）。

最后，Engram 在系統(tǒng)層面同樣展現(xiàn)出基礎(chǔ)設(shè)施感知的高效性：其確定性的尋址方式支持在運行時從主機(jī)內(nèi)存進(jìn)行預(yù)取，幾乎不會帶來額外的性能開銷。

DeepSeek 認(rèn)為，條件記憶將成為下一代稀疏大模型中不可或缺的核心建模原語。

Engram 架構(gòu)如下，其設(shè)計目標(biāo)是在結(jié)構(gòu)上將靜態(tài)模式存儲與動態(tài)計算過程從 Transformer 主干網(wǎng)絡(luò)中分離出來，從而對其進(jìn)行增強。該模塊對序列中每一個位置依次執(zhí)行兩個功能階段：檢索與融合。

在運行過程中，DeepSeek 首先對當(dāng)前位置的后綴 N-gram 進(jìn)行提取與壓縮，并通過哈希機(jī)制以確定性的方式檢索對應(yīng)的靜態(tài)嵌入向量。隨后，這些被檢索到的嵌入會在當(dāng)前隱藏狀態(tài)的調(diào)制下進(jìn)行動態(tài)調(diào)整，并進(jìn)一步通過一個輕量級卷積操作加以精煉。最后，Engram 與多分支架構(gòu)進(jìn)行集成。

基于哈希 -gram 的稀疏檢索

這一階段的目標(biāo)是將局部上下文映射到靜態(tài)記憶條目，這一過程主要包括分詞器壓縮以及通過確定性哈希機(jī)制來檢索對應(yīng)的嵌入表示。

分詞器壓縮：為了最大化記憶單元的語義密度，DeepSeek 引入了一層詞表投影（vocabulary projection）。為此，他們預(yù)先設(shè)計了一個映射函數(shù)
，其將原始 token ID 映射為基于文本規(guī)范化等價關(guān)系（例如使用 NFKC 規(guī)范化、統(tǒng)一大小寫等）得到的規(guī)范化標(biāo)識符（canonical identifiers）。在實際應(yīng)用中，對于一個規(guī)模為 128k 的分詞器，該過程能夠?qū)⒂行г~表規(guī)?？s減約 23%（詳見附錄 C）。

多頭哈希：直接對所有可能的 N-gram 組合空間進(jìn)行參數(shù)化在計算和存儲上都是不可行的。借鑒 Tito Svenstrup 等（2017）的工作，DeepSeek 采用了一種基于哈希的近似方法。為了降低哈希沖突的影響，對于每一種 N-gram 階數(shù) n，引入 K 個相互獨立的哈希頭。

上下文感知門控

前一階段通過哈希 -gram 從條件記憶中檢索得到的嵌入向量，本質(zhì)上提供的是一種與具體語境無關(guān)的靜態(tài)先驗信息。然而，正因為其靜態(tài)屬性，這些嵌入缺乏對當(dāng)前上下文的自適應(yīng)能力，并且在實際應(yīng)用中可能受到哈希沖突或詞項多義性帶來的噪聲干擾。

為此，DeepSeek 在檢索之后引入了一種上下文感知的門控機(jī)制，其設(shè)計靈感來源于注意力機(jī)制。

系統(tǒng)效率：計算與存儲的解耦

在帶有記憶機(jī)制的模型中，規(guī)模擴(kuò)展往往受到 GPU 高帶寬顯存（HBM）容量有限的制約。然而，Engram 所采用的確定性檢索機(jī)制天然支持將參數(shù)存儲與計算資源進(jìn)行解耦。不同于 MoE 依賴運行時隱藏狀態(tài)進(jìn)行動態(tài)路由，Engram 的檢索索引完全由輸入 token 序列決定。這種可預(yù)測性使得針對訓(xùn)練與推理階段的專門優(yōu)化策略成為可能，如圖 2 所示。

在訓(xùn)練階段，為容納大規(guī)模嵌入表，DeepSeek 采用標(biāo)準(zhǔn)的模型并行方案，將嵌入表分片分布在多張 GPU 上。在前向傳播過程中，通過 All-to-All 通信原語收集被激活的嵌入行；在反向傳播階段，則將對應(yīng)梯度分發(fā)回各個分片，從而使總可用記憶容量能夠隨加速器數(shù)量線性擴(kuò)展。

在推理階段，這種確定性特性進(jìn)一步支持一種預(yù)取–重疊（prefetch-and-overlap）策略。由于在前向計算開始之前即可確定所需訪問的記憶索引，系統(tǒng)能夠通過 PCIe 從容量充足的主機(jī)內(nèi)存中異步地預(yù)取嵌入向量。為有效掩蔽通信帶來的延遲，Engram 模塊被放置在主干網(wǎng)絡(luò)中的特定層級，利用其前序 Transformer 層的計算作為緩沖，從而避免 GPU 計算停頓。

這也要求一種硬件 — 算法協(xié)同設(shè)計（hardware–algorithm co-design）：一方面，將 Engram 放置得更深可以拉長用于隱藏通信延遲的計算窗口；另一方面，從建模效果來看，較早地介入以卸載局部模式的重建更為有利。因此，Engram 的最優(yōu)插入位置必須同時滿足建模性能與系統(tǒng)時延兩方面的約束。

此外，自然語言中的 -gram 天然遵循 Zipfian 分布，即少量高頻模式貢獻(xiàn)了絕大多數(shù)的記憶訪問。這一統(tǒng)計特性啟發(fā)研究者可以構(gòu)建一種多級緩存層次結(jié)構(gòu)（Multi-Level Cache Hierarchy）：將高頻訪問的嵌入緩存于更快的存儲介質(zhì)中（如 GPU HBM 或主機(jī) DRAM），而將大量低頻的長尾模式存放在容量更大但速度較慢的存儲介質(zhì)中（如 NVMe SSD）。這種分層設(shè)計使 Engram 能夠擴(kuò)展到極大規(guī)模的記憶容量，同時對有效訪問延遲的影響保持在最低水平。

U 型擴(kuò)展規(guī)律與稀疏性分配

作為「條件記憶」的一種具體實現(xiàn)，Engram 在結(jié)構(gòu)上與 MoE 專家提供的「條件計算」形成了互補。本節(jié)旨在探究這種二元特性（Duality）的擴(kuò)展屬性，以及如何最優(yōu)地分配稀疏容量。

具體而言，本項研究由兩個核心問題驅(qū)動：

有限約束下的分配：在總參數(shù)量和訓(xùn)練計算量固定（即等參數(shù)、等 FLOPs）的情況下，應(yīng)該如何在 MoE 專家與 Engram 嵌入之間劃分稀疏容量？
無限記憶范式：考慮到 Engram 具有不隨規(guī)模增長（Non-scaling）的查找開銷，如果放寬記憶預(yù)算或進(jìn)行激進(jìn)擴(kuò)展，Engram 自身會表現(xiàn)出怎樣的擴(kuò)展行為？

首先來看MoE 與 Engram 之間的最優(yōu)分配比例。在計算匹配公式時，DeepSeek 使用以下三個參數(shù)度量來分析這個權(quán)衡：

P_tot：總的可訓(xùn)練參數(shù)，不包括詞匯嵌入和語言模型頭。
P_act：每個 token 激活的參數(shù)。這一量度決定了訓(xùn)練成本（FLOPs）。
：不激活的參數(shù)，表示可用于擴(kuò)大模型大小而不增加計算成本的「自由」參數(shù)預(yù)算（例如未選擇的專家或未檢索的嵌入）。

DeepSeek 在每個 FLOPs 預(yù)算內(nèi)保持 P_tot 和 P_act 固定，這樣模型具有相同數(shù)量的參數(shù)和相同的每 token FLOPs。對于 MoE，P_act 由選定的 top-k 專家決定，而未選擇的專家的參數(shù)貢獻(xiàn)給 P_sparse。對于 Engram，每個 token 只檢索固定數(shù)量的槽（slots），因此增加嵌入槽的數(shù)量會增加 P_tot，但不會增加每 token 的 FLOPs。

其次是「在無限內(nèi)存模式下的 Engram」。在固定參數(shù)預(yù)算下優(yōu)化分配之外，DeepSeek 探索了互補的設(shè)置：激進(jìn)的內(nèi)存擴(kuò)展。這個研究的動機(jī)來自于 Engram 獨特的能力，能夠?qū)⒋鎯εc計算解耦。

DeepSeek 使用一個固定的 MoE 主干，具有 P_tot ≈ 3B 和 P_act = 568M，并訓(xùn)練了 100B 個 token 以確保收斂。在此基礎(chǔ)上附加了一個 Engram 表，并調(diào)整了槽的數(shù)量 M 從 2.58 × 10? 到 1.0 × 10?（增加最多約 13 億參數(shù)）。

下圖 3（左）揭示了驗證損失與分配比例之間一致的 U 形關(guān)系。值得注意的是，即使 MoE 分配減少到僅 ≈ 40%（即 5.7B 模型為 46 個專家，9.9B 模型為 43 個專家），Engram 模型仍然達(dá)到了與純 MoE 基準(zhǔn)（ = 100%）相當(dāng)?shù)男阅堋?/p>

此外，純 MoE 基準(zhǔn)證明是次優(yōu)的：將大約 20%-25% 的稀疏參數(shù)預(yù)算重新分配給 Engram 獲得最佳性能。定量分析中，在 10B 范圍內(nèi)（ = 6 × 102?），驗證損失從 1.7248（ = 100%）改善到 1.7109，接近 ≈ 80% 時的最優(yōu)值（Δ = 0.0139）。值得注意的是，這一最優(yōu)點的位置在不同的范圍內(nèi)穩(wěn)定（ ≈ 75%-80%），表明在固定稀疏性下，各個規(guī)模之間有一個穩(wěn)健的分配偏好。這一觀察到的 U 形確認(rèn)了兩種模塊之間的結(jié)構(gòu)互補性。

圖 3（右）展示了增加內(nèi)存槽數(shù)量會顯著改善驗證損失，并且這一改進(jìn)在整個范圍內(nèi)持續(xù)穩(wěn)定。該曲線遵循嚴(yán)格的冪律（在對數(shù)空間中線性），這表明 Engram 提供了一個可預(yù)測的擴(kuò)展旋鈕：更大的內(nèi)存在不需要額外計算的情況下繼續(xù)帶來收益。

關(guān)鍵一點是，在擴(kuò)展效率方面：雖然 OverEncoding 通過更大的內(nèi)存表受益，但 Engram 在相同的內(nèi)存預(yù)算下釋放了更大的擴(kuò)展?jié)摿Α?/p>

結(jié)合分配規(guī)律來看，這些結(jié)果驗證了條件記憶作為稀疏容量的獨立、可擴(kuò)展軸的作用，它補充了 MoE 的條件計算。

實驗結(jié)果

通過提出的 Engram 架構(gòu)以及經(jīng)驗推導(dǎo)出的分配法則，DeepSeek 將 Engram 擴(kuò)展至數(shù)十億參數(shù)規(guī)模，以驗證其在真實語言模型預(yù)訓(xùn)練中的有效性。

總共訓(xùn)練了以下四種模型：

Dense-4B（總參數(shù)量 41 億），
MoE-27B（總參數(shù)量 267 億），
Engram-27B（總參數(shù)量 267 億），
以及 Engram-40B（總參數(shù)量 395 億）。

所有模型均采用完全相同的數(shù)據(jù)訓(xùn)練流程（相同的 token 預(yù)算及順序），且在激活參數(shù)量上嚴(yán)格匹配。

關(guān)于實驗設(shè)置，所有模型均在包含 2620 億 token 的語料庫上進(jìn)行預(yù)訓(xùn)練，并采用了 DeepSeek-v3 的分詞器，其詞表大小為 128k。DeepSeek 在涵蓋語言建模、知識、推理、閱讀理解以及代碼 / 數(shù)學(xué)的多樣化基準(zhǔn)測試集上對模型進(jìn)行評估。對于每項基準(zhǔn)測試，均遵循標(biāo)準(zhǔn)的提示詞協(xié)議和評估指標(biāo)。

先來看大規(guī)模預(yù)訓(xùn)練的實驗結(jié)果，如下表 1 所示，稀疏架構(gòu)展示了比密集模型更優(yōu)的擴(kuò)展規(guī)律。

在相同的訓(xùn)練計算預(yù)算下，所有三種稀疏變體（MoE-27B，Engram-27B/40B）在所有基準(zhǔn)測試中顯著超越了 iso-FLOPs 的 Dense-4B 基準(zhǔn)。

更重要的是，Engram-27B 在 iso - 參數(shù)和 iso-FLOPs 的 MoE-27B 基準(zhǔn)上持續(xù)取得改進(jìn)。有趣的是，這些提升并不限于知識密集型任務(wù)（例如，MMLU: +3.0，MMLU-Pro: +1.8，CMMLU: +4.0），在這些任務(wù)中，內(nèi)存容量直觀上是有益的。此外還觀察到，在一般推理領(lǐng)域（例如，BBH: +5.0，ARC-Challenge: +3.7，DROP: +3.3）以及代碼和數(shù)學(xué)推理任務(wù)（例如，HumanEval: +3.0，MBPP: +1.6，GSM8K: +2.2，MATH: +2.4）中，改進(jìn)更加顯著。

擴(kuò)展到 Engram-40B 進(jìn)一步減少了預(yù)訓(xùn)練損失，并提高了大多數(shù)基準(zhǔn)測試的性能。盡管它尚未在每個任務(wù)上嚴(yán)格超越 Engram-27B，但這可能是由于訓(xùn)練不足的結(jié)果。此外，Engram-40B 與基準(zhǔn)模型之間的訓(xùn)練損失差距在訓(xùn)練結(jié)束時繼續(xù)擴(kuò)大，表明擴(kuò)展的內(nèi)存容量尚未在當(dāng)前的 token 預(yù)算內(nèi)完全飽和。

接下來是長上下文訓(xùn)練。通過將局部依賴建模卸載至靜態(tài)查找，Engram 架構(gòu)為處理全局上下文保留了寶貴的注意力容量。DeepSeek 通過進(jìn)行長文本擴(kuò)展訓(xùn)練，對這一結(jié)構(gòu)性優(yōu)勢進(jìn)行了實驗驗證。通過采用嚴(yán)密的評估協(xié)議，將架構(gòu)設(shè)計帶來的貢獻(xiàn)與基礎(chǔ)模型本身的能力剝離開來，證明了 Engram 在長程檢索和推理任務(wù)中帶來了顯著的性能增益。

DeepSeek 首先解耦基礎(chǔ)模型能力與架構(gòu)設(shè)計之間的影響，其次進(jìn)行受控對照分析，結(jié)果如下表 2 所示，主要得出了以下兩個結(jié)論：

一是超越注意力機(jī)制的長文本能力。

雖然注意力機(jī)制和位置編碼為上下文處理提供了結(jié)構(gòu)基礎(chǔ)，但實驗結(jié)果表明，長文本性能并非僅由架構(gòu)先驗決定。通過觀察 Engram 的演進(jìn)軌跡（從 41k 步到 50k 步），即使在控制相同模型架構(gòu)和固定長文本擴(kuò)展階段計算預(yù)算的前提下，長文本性能仍隨預(yù)訓(xùn)練進(jìn)程單調(diào)提升。這表明長文本性能與基礎(chǔ)模型的通用建模能力存在內(nèi)在耦合。因此，嚴(yán)謹(jǐn)?shù)募軜?gòu)對比必須通過對齊「基礎(chǔ)模型損失（Loss）」而非僅僅對齊「訓(xùn)練步數(shù)」來控制這一混淆變量。

二是受控設(shè)置下的架構(gòu)優(yōu)越性。

基于上述原則，DeepSeek 將 Engram 與 MoE 基準(zhǔn)模型進(jìn)行了對比測試。在控制基礎(chǔ)能力的前提下，Engram 模塊的效率增益變得十分顯著：

等損耗設(shè)置（Iso-Loss Setting，41k 步 vs. 基準(zhǔn)）：該設(shè)置嚴(yán)格分離了架構(gòu)效率的影響。當(dāng)對比 Engram-27B（46k 步）與完整訓(xùn)練的 MoE-27B（50k 步），即預(yù)訓(xùn)練損失完全對齊的兩個模型時，Engram 表現(xiàn)出顯著增益。具體而言，它在復(fù)雜檢索任務(wù)中大幅超越基準(zhǔn)模型（例如，多查詢「大海撈針」 NIAH：97.0 vs. 84.2；變量跟蹤 VT：87.2 vs. 77.0）。
等計算量設(shè)置（Iso-FLOPs Setting，50k 步 vs. 基準(zhǔn)）：在標(biāo)準(zhǔn)的等計算預(yù)算下，Engram-27B（50k 步）進(jìn)一步拉大了差距，在所有指標(biāo)上均實現(xiàn)了頂尖性能。
極端設(shè)置（約 82% 計算量）：即使是提前停止訓(xùn)練的 Engram-27B（41k 步），在面對完整訓(xùn)練的 MoE-27B（50k 步）時依然極具競爭力。它在 LongPPL 指標(biāo)上與基準(zhǔn)持平，并在 RULER 測試中實現(xiàn)超越，這充分證明了 Engram 架構(gòu)的內(nèi)在優(yōu)越性。

最后，下圖 4 是對表示對齊與收斂速度的分析。(a) 基于 LogitLens 的逐層 KL 散度分析。在模型淺層，KL 散度持續(xù)保持在較低水平，這表明 Engram 加速了預(yù)測的收斂。(b-c) 為基于 CKA 計算的相似度熱力圖。高相似度對角線顯著的向上偏移表明，Engram 的淺層在功能上等效于 MoE 模型的深層，從而有效地增加了模型的深度。

更多細(xì)節(jié)請參考原論文。

閱讀最新前沿科技趨勢報告，請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828

未來知識庫是“ 歐米伽未來研究所”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能，數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.