国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

梁文鋒署名新論文,DeepSeek V4架構(gòu)首曝?直擊Transformer致命缺陷

0
分享至


新智元報道

編輯:編輯部

【新智元導(dǎo)讀】深夜,梁文鋒署名的DeepSeek新論文又來了。這一次,他們提出全新的Engram模塊,解決了Transformer的記憶難題,讓模型容量不再靠堆參數(shù)!

剛剛 ,DeepSeek新論文發(fā)布了,梁文鋒署名!

這一次,他們聯(lián)手北大直接瞄準了「記憶」,是Transformer最致命的關(guān)鍵難題。

如今,MoE成為大模型主流架構(gòu),但本質(zhì)仍是Transformer,因其缺少原生「知識查找」機制,很多檢索能力被迫用大量計算去模擬。

33頁論文中,團隊提出了 MoE 互補的「條件記憶」稀疏軸,并通過一種全新的Engram模塊去實現(xiàn):

將經(jīng)典哈希N-gram嵌入現(xiàn)代化,提供近似O(1)的確定性知識查找。


論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

通過「稀疏分配」(Sparsity Allocation)建模,他們意外發(fā)現(xiàn)MoE與Engram之間,存在「U形scaling law」。

這意味著,需調(diào)整兩者之間資源比例,讓計算與靜態(tài)記憶間找到最優(yōu)權(quán)衡。


沿著這個規(guī)律,將Engram擴展到27B參數(shù)后,并在嚴格等參數(shù)、等FLOPs下優(yōu)于MoE基線。

直白講,MoE只解決「怎么少算」,Engram直接解決「別瞎算」。


它把該查的交給 O(1)記憶,把注意力從局部瑣碎中解救出來,結(jié)果不只是更會背知識,同時推理、代碼、數(shù)學一起變強。

這可能成為稀疏LLM下一條主流路線,更重要的是,下一代V4或?qū)⒓蛇@一新方法。



不再苦算,給Transfomer插入「電子腦」

當前,LLM越做越大已成為「鐵律」,一條熟悉的路徑是——

把參數(shù)做大,把計算做「稀疏」。

混合專家模型(MoE)就是典型代表,每個token只需激活少量專家,用「條件計算」讓參數(shù)規(guī)模飆升,F(xiàn)LOPs還能控住。

從Artifical Analysis榜單中可以看出,現(xiàn)有的稀疏大模型,主流都是MoE。

但問題在于,Transformer缺少一種「原生的知識查找」能力,所以很多本該像檢索一樣 O(1)解決的事,被迫用一堆計算去「模擬檢索」,效率很不劃算。


北大和DeepSeek新論文帶來一個很有意思的觀點:稀疏化不只服務(wù)「計算」,也可以服務(wù)「記憶」。

由此,團隊提出了Engram,把語言建模中大量「固定、局部、刻板」的模式,交給一個可擴展的查表模塊去承擔。

這樣一來,可以讓Transformer主干把注意力和深度用在更需要「組合與推理」的地方。

語言建模,兩類任務(wù)

論文中,作者明確將語言建模拆成兩類子任務(wù):

  • 一部分任務(wù)需「組合與推理」:上下文關(guān)系、長程依賴、邏輯推理、鏈式推理。

  • 另一部分任務(wù)更像「模式檢索」:實體名、固定搭配、常見短語、語法片段、重復(fù)出現(xiàn)的局部結(jié)構(gòu)

后者的一個共同點很明顯,即它們往往局部、穩(wěn)定、重復(fù)出現(xiàn)。

若是用多層注意力和FFN去「算」他們,模型做得到,但成本極高,還會擠占早期層的表達空間。


為了識別實體「戴安娜,威爾士王妃」(Diana,Princess of Wales),LLM必須消耗多層注意力和FFN來逐步組合特征,這個過程理論上是可以通過一次知識查找操作來完成的。

而Engram想做的事情很直接——

把這類「局部靜態(tài)模式」轉(zhuǎn)移到一個廉價的知識查找原語。

它用確定性的查表快速給出候選信息,再由上下文決定是否采納。

Engram核心架構(gòu):暴力查表+記憶開關(guān)

Engram一詞源于神經(jīng)學,本意為「記憶痕跡」,是一種可擴展、可檢索的記憶單元。

它可以用于存儲LLM在推理過程中,可能已接觸過的模式、信息片段。


可以將Engram理解為,把經(jīng)典「哈希N-gram嵌入」現(xiàn)代化,做成插在Transformer中間層的一個「可擴展查表模塊」。

如圖1所示,Engram是一個條件記憶模塊,旨在通過從結(jié)構(gòu)上將靜態(tài)模式存儲與動態(tài)計算分離開來,從而增強Transformer骨干網(wǎng)絡(luò)。


形式化地說,給定輸入序列X=(x_1,...,x_T)和第l層的隱藏狀態(tài)H^(l)∈R^Txd,該模塊分兩個功能階段來處理每個位置t:檢索融合

接下來,一起看看Engram的關(guān)鍵設(shè)計點。

基于哈希N-gram的稀疏檢索

第一階段主要負責將局部上下文映射到靜態(tài)的記憶條目中,這通過分詞器壓縮(tokenizer compression)和確定性哈希檢索嵌入來實現(xiàn)。

分詞器壓縮

為了最大化語義密度,作者引入了一個詞表投影層。

他們預(yù)先計算了一個滿射函數(shù)P:V→V',利用歸一化的文本等價性(比如NFKC、小寫化等手段)將原始Token ID坍縮成規(guī)范標識符。

這個過程能讓128k大小的分詞器有效詞表大小減少23%。


多頭哈希

要想直接參數(shù)化所有可能的N-grams組合空間,計算上是行不通的。作者采用了一種基于哈希的方法。

為了減少沖突,給每個N-gram階數(shù)n分配了K個不同的哈希頭。

每個頭k通過一個確定性函數(shù)φ_n,k,將壓縮后的上下文映射到嵌入表E_n,k中的一個索引:


上下文感知門控

檢索到的嵌入e_t充當?shù)氖巧舷挛臒o關(guān)的先驗信息。不過,它們?nèi)菀资艿焦_突或多義詞帶來的噪聲干擾。

為了增強表達力并解決這種歧義,作者采用了一套受注意力機制啟發(fā)的上下文感知門控機制。


他們利用當前的隱藏狀態(tài)h_t作為動態(tài)的Query,而檢索到的記憶e_t則作為Key和Value投影的來源:


其中W_K,W_V是可學習的投影矩陣。

為了保證梯度穩(wěn)定性,他們在計算標量門α_t∈(0,1)之前,先對Query和Key進行RMSNorm處理:


最后,為了擴大感受野并增強模型的非線性,作者還引入了一個短的深度因果卷積:


門控可視化

為了實證驗Engram是否按預(yù)期行為,作者在圖7中可視化了Engram-27B在各種樣本上的門控標量α_t。


結(jié)果展示了,明顯的選擇性模式。門控機制在完成局部、靜態(tài)模式時一致地激活(顯示為紅色)。

在英文中,觀察到在多Token命名實體(如Alexander the Great、the Milky Way)和固定短語(如By the way,Princess of Wales)上有強烈的激活。

關(guān)鍵是,這種行為有效地跨語言泛化。

在中文demo中,Engram識別并檢索獨特的習語表達和歷史實體,比如「四大發(fā)明」和「張仲景」。

這些定性結(jié)果證實,Engram成功識別并處理了固定的語言依賴關(guān)系,有效地將Transformer骨干網(wǎng)絡(luò)從記憶這些靜態(tài)關(guān)聯(lián)中解放出來。

系統(tǒng)效率:計算與存儲解耦

擴展記憶增強型模型往往受限于GPU高帶寬內(nèi)存(HBM)的容量。

然而,Engram的確定性檢索機制天生就支持將參數(shù)存儲與計算資源解耦。

與依賴運行時隱藏狀態(tài)進行動態(tài)路由的混合專家模型(MoE)不同,Engram的檢索索引僅取決于輸入的Token序列。

這種可預(yù)測性為訓練和推理提供了專門的優(yōu)化策略,如圖2所示。


訓練階段,為了容納大規(guī)模嵌入表,他們采用標準的模型并行策略,將表分片存儲在可用的GPU上。

推理階段,這種確定性特性使得「預(yù)取和重疊」策略成為可能。

U型Scaling Law,揭秘最優(yōu)分配比

Engram作為條件記憶的一種實現(xiàn)形式,在結(jié)構(gòu)上與MoE專家提供的條件計算是互補的。

這里,主要研究了以下兩個關(guān)鍵問題:

1. 有限約束下的分配

2. 無限內(nèi)存場景

作者通過三個參數(shù)指標來分析MoE和Engram之間的權(quán)衡:

  • P_tot:總可訓練參數(shù),不包括詞表嵌和LM頭。

  • P_act:每個Token的激活參數(shù)量。這個數(shù)值決定了訓練成本(FLOPs)。

  • P_sparse?P_tot-P_act:非激活參數(shù),這代表了「免費」的參數(shù)預(yù)算,可用于在不增加計算成本的情況下擴展模型規(guī)模。

作者將分配比例ρ∈[0,1]定義為分配給MoE專家容量的非激活參數(shù)預(yù)算的比例:


直觀來說:

  • ρ=1對應(yīng)純MoE模型(所有非激活參數(shù)都是參與路由的專家)。

  • ρ<1則減少路由專家的數(shù)量,并將釋放出來的參數(shù)重新分配給Engram嵌入槽位。


結(jié)果與分析


圖3(左)展示了驗證損失與分配比例ρ之間存在一致的U型關(guān)系。

這種U型關(guān)系證實了兩個模塊之間的結(jié)構(gòu)互補性:

  • MoE主導(dǎo)(ρ→100):模型缺乏用于存儲靜態(tài)模式的專用內(nèi)存,迫使它只能通過增加深度和計算量來低效地重建這些模式。

  • Engram主導(dǎo)(ρ→0%):模型失去了條件計算能力,從而損害了那些需要動態(tài)、上下文依賴推理的任務(wù);在這種場景下,記憶無法替代計算。

接下來,作者探索了一種互補的設(shè)置:激進的內(nèi)存擴展。

圖3(右)表明,擴展內(nèi)存槽位的數(shù)量能帶來清晰且一致的驗證損失改善。

在探索的范圍內(nèi),曲線遵循嚴格的冪律,這表明Engram提供了一種可預(yù)測的擴展調(diào)節(jié)手段:更大的內(nèi)存能持續(xù)帶來收益,而無需額外的計算量。

關(guān)于擴展效率關(guān)鍵的一點是:雖然OverEncoding的直接平均方法也能受益于更大的內(nèi)存表,但Engram在相同的內(nèi)存預(yù)算下解鎖了更大的擴展?jié)摿Α?/p>

結(jié)合分配定律,這些結(jié)果驗證了——

條件記憶可以作為稀疏容量的一個獨特且可擴展的維度,與MoE的條件計算相輔相成。

爆殺傳統(tǒng)MoE,知識推理數(shù)學全面漲

基于Engram架構(gòu)以及實驗得出的分配定律,作者將Engram擴展到了數(shù)十億參數(shù)的級別,以此來驗證其在現(xiàn)實世界LLM預(yù)訓練中的有效性。

他們訓練了以下四個模型:

·Dense-4B (總參數(shù)4.1B)

·MoE-27B (總參數(shù)26.7B)

·Engram-27B (總參數(shù)26.7B)

·Engram-40B (總參數(shù)39.5B)

實驗結(jié)果

首先,與先前的文獻結(jié)論一致,稀疏架構(gòu)表現(xiàn)出了優(yōu)于密集模型的擴展定律。

在相同的訓練計算預(yù)算下,所有三個稀疏變體(MoE-27B,Engram-27B/40B)在所有基準測試中都顯著擊敗了等FLOPs的Dense-4B基線。

更重要的是,Engram-27B始終優(yōu)于等參數(shù)且等FLOPs的MoE-27B基線。

有趣的是,這些收益并不僅限于知識密集型任務(wù)(MMLU:+3.0,MMLU-Pro:+1.8,CMMLU:+4.0)。

在通用推理領(lǐng)域(BBH:+5.0,ARC-Challenge:+3.7,DROP:+3.3),以及代碼和數(shù)學推理(HumanEval:+3.0,MBPP:+1.6,GSM8K:+2.2,MATH:+2.4)中,提升更為顯著。

這些結(jié)果支持了他們的假設(shè):引入一個專用的知識查找原語所帶來的表示效率提升,要超過將所有稀疏預(yù)算都分配給條件計算的效果。

最后,擴展到Engram-40B進一步降低了預(yù)訓練損失,并在大多數(shù)基準測試中提升了性能。

可以觀察到,Engram-40B與基線之間的訓練損失差距在訓練后期仍在持續(xù)擴大,這表明擴大的內(nèi)存容量在當前的Token預(yù)算內(nèi)尚未完全飽和。


注意力徹底解放,32k上下文性能狂飆

通過將局部依賴建模的任務(wù)卸載給靜態(tài)查找,Engram架構(gòu)保留了寶貴的注意力容量來管理全局上下文。

通過長上下文擴展訓練,作者證明了Engram在長程檢索和推理任務(wù)上帶來了顯著的提升。

實驗結(jié)果


1. 超越注意力機制的長上下文能力

雖然注意力機制和位置編碼提供了處理上下文的結(jié)構(gòu)基礎(chǔ),但結(jié)果表明,長上下文性能并非僅由架構(gòu)先驗決定。

軌跡可見,長上下文性能與基座模型的通用建模能力本質(zhì)上是掛鉤的。

因此,嚴格的架構(gòu)比較必須通過對齊基座模型的Loss來控制這一干擾變量,而不僅僅是簡單地對齊訓練步數(shù)。

2. 受控設(shè)定下的架構(gòu)優(yōu)越性

在上述原則的指導(dǎo)下,作者將Engram與MoE 基線進行了對比。當控制了基座能力后,Engram模塊的效率增益就變得非常明顯:

  • 等Loss設(shè)定(46k vs. 基線):當對比預(yù)訓練Loss對齊的Engram-27B(46k)和完全訓練的MoE-27B(50k)時,Engram 展現(xiàn)出了顯著的增益。

  • 等FLOPs設(shè)定(50k vs. 基線):在標準的等計算預(yù)算下,Engram-27B(50k)進一步拉大了這一差距,確立了全面的最佳性能。

  • 極端設(shè)定(≈82%計算量):即便是提前停止訓練的Engram-27B(41k),在面對完全訓練的MoE-27B(50k)時依然極具競爭力。這凸顯了Engram架構(gòu)內(nèi)在的優(yōu)越性。

計算+記憶雙軸時代,直接融入V4?

DeepSeek最新論文,打開了稀疏化的第二條路,是一條非常具有啟發(fā)性的路線:

稀疏化模型進入了「計算+記憶」雙軸時代。

  • MoE繼續(xù)負責動態(tài)計算與推理

  • Engram負責存儲與檢索靜態(tài)知識與局部模式

如上的U型scaling law證明了,稀疏預(yù)算全部給MoE,不是全局最優(yōu),留出一部分給Engram整體更強。

1. 稀疏化目標變得更豐富了

條件計算解決了FLOPs,條件記憶解決了容量與模式檢索,兩線均可互補。

2. Engram收益帶有結(jié)構(gòu)性

它讓LLM知識能力暴漲同時,也間接提升了推理、數(shù)學、代碼的性能,因為Transfomer主干的深度和注意力計算效用更「值錢」了。

3. 確定性查表,很適合系統(tǒng)優(yōu)化

模型預(yù)取和卸載很大,為「更大參數(shù)、同等吞吐」提供了一種可行的工程路線。

如今,全網(wǎng)都在猜測,春節(jié)檔的V4有很大概率會把Engram融入主干架構(gòu)。

回看此前DeepSeek路線:

DeepSeek V2曾引入MLA,大幅提升了推理效率和KV緩存友好度;

DeepSeek V3持續(xù)優(yōu)化MoE,實現(xiàn)無損負載均衡,訓練更穩(wěn)定,成本更低。

若是V4真的把Engram落地,那將不僅是參數(shù)規(guī)模的提升,更是架構(gòu)范式的又一次躍遷。

再加上,此前爆出,V4代碼實力可能趕超Claude、ChatGPT系列。

今年的春節(jié)大禮,真是讓人期待。




作者介紹

Xin Cheng


Xin Cheng目前在北京大學讀博,主攻自然語言處理方向,研究重點是大語言模型和檢索增強生成。

作為一名學術(shù)新秀,他在圈內(nèi)已經(jīng)做出了不少成績,尤其是在NeurIPS、ACL和EMNLP這些頂會上,發(fā)了多篇一作論文。


參考資料:HYZ

https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

https://x.com/karminski3/status/2010858438814023740

https://x.com/LearnWithScribe/status/2010783721410981930?s=20


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
丈夫每天都要和妻子發(fā)生關(guān)系,一天三四次,妻子受不了殺他

丈夫每天都要和妻子發(fā)生關(guān)系,一天三四次,妻子受不了殺他

丫頭舫
2025-12-05 11:23:41
A股:周二夜晚傳來1大核彈級利空!明天很可能會迎更大級別大行情?

A股:周二夜晚傳來1大核彈級利空!明天很可能會迎更大級別大行情?

股市皆大事
2026-01-13 20:26:06
閆學晶窮就是懶引眾怒!高秀敏徒弟爆料:她成名全靠三婚前夫捧紅

閆學晶窮就是懶引眾怒!高秀敏徒弟爆料:她成名全靠三婚前夫捧紅

不寫散文詩
2026-01-13 17:30:52
伊朗駐澳大利亞使館降下伊斯蘭國旗 換上獅子太陽的傳統(tǒng)伊朗國旗

伊朗駐澳大利亞使館降下伊斯蘭國旗 換上獅子太陽的傳統(tǒng)伊朗國旗

老馬拉車莫少裝
2026-01-12 21:16:54
厄瓜多爾觀鯨勝地海灘驚變血腥刑場? 5人頭被串起懸掛示眾

厄瓜多爾觀鯨勝地海灘驚變血腥刑場? 5人頭被串起懸掛示眾

環(huán)球趣聞分享
2026-01-13 13:35:05
北京隊主教練許利民!感慨萬千,進行自我檢討

北京隊主教練許利民!感慨萬千,進行自我檢討

體育哲人
2026-01-13 23:07:53
27歲清華博士想定居美國被父母拒絕,從 8000米高空絕望跳機,父母拒絕收尸:讓他永遠留在美國

27歲清華博士想定居美國被父母拒絕,從 8000米高空絕望跳機,父母拒絕收尸:讓他永遠留在美國

神奇故事
2026-01-13 21:57:42
中國五礦:“一票否決”,9名干部被暫緩使用

中國五礦:“一票否決”,9名干部被暫緩使用

新京報政事兒
2026-01-13 16:50:05
“堅決反對像Tarriela這樣的人,不管他找多少幫手——1個、10個還是100個,中方隨時奉陪,而且奉陪到底”

“堅決反對像Tarriela這樣的人,不管他找多少幫手——1個、10個還是100個,中方隨時奉陪,而且奉陪到底”

新京報政事兒
2026-01-13 11:31:36
東契奇42+7+8湖人不敵國王3連敗,勒布朗22分德羅贊32+6

東契奇42+7+8湖人不敵國王3連敗,勒布朗22分德羅贊32+6

湖人崛起
2026-01-13 13:24:00
廣東2200家工廠倒閉,老板連夜逃往內(nèi)地,誰在下一盤大棋?

廣東2200家工廠倒閉,老板連夜逃往內(nèi)地,誰在下一盤大棋?

老馬聊電鍍
2026-01-12 11:39:25
國乒全新教練組薪資曝光,馬琳總收入突破千萬,莎頭主管教練推測

國乒全新教練組薪資曝光,馬琳總收入突破千萬,莎頭主管教練推測

體壇白話
2026-01-13 11:09:18
雪上加霜,閆學晶帳戶被禁止關(guān)注,多家公司被曝,王麗云說得沒錯

雪上加霜,閆學晶帳戶被禁止關(guān)注,多家公司被曝,王麗云說得沒錯

徐幫陽
2026-01-13 17:55:03
肥腸再次成為關(guān)注對象!研究發(fā)現(xiàn):常吃肥腸,身體會收獲3大好處

肥腸再次成為關(guān)注對象!研究發(fā)現(xiàn):常吃肥腸,身體會收獲3大好處

全球軍事記
2025-12-29 21:28:37
CBA最新排名!浙江山東強勢崛起,山西遼寧持續(xù)下滑,同曦走遠了

CBA最新排名!浙江山東強勢崛起,山西遼寧持續(xù)下滑,同曦走遠了

籃球資訊達人
2026-01-14 03:22:34
再次提醒,紅旗河工程全是騙局!所有工程人,一定要遠離

再次提醒,紅旗河工程全是騙局!所有工程人,一定要遠離

荷蘭豆愛健康
2026-01-12 11:32:56
全市集中整治!西安公安交警查獲145例!

全市集中整治!西安公安交警查獲145例!

環(huán)球網(wǎng)資訊
2026-01-13 17:02:14
陳天橋重回戰(zhàn)場

陳天橋重回戰(zhàn)場

華商韜略
2026-01-13 10:43:07
“兩岸統(tǒng)一”突破點不在馬英九,也不在國民黨,可能在這個人身上

“兩岸統(tǒng)一”突破點不在馬英九,也不在國民黨,可能在這個人身上

趣文說娛
2026-01-12 17:36:51
驚天赦免令!特朗普要放虎歸山,毒梟總統(tǒng)即將重獲自由?

驚天赦免令!特朗普要放虎歸山,毒梟總統(tǒng)即將重獲自由?

二大爺觀世界
2026-01-13 19:49:05
2026-01-14 05:08:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14326文章數(shù) 66456關(guān)注度
往期回顧 全部

科技要聞

每年10億美元!谷歌大模型注入Siri

頭條要聞

特朗普:已取消所有與伊朗官員的會談

頭條要聞

特朗普:已取消所有與伊朗官員的會談

體育要聞

他帶出國乒世界冠軍,退休后為愛徒返場

娛樂要聞

蔡卓妍承認新戀情,與男友林俊賢感情穩(wěn)定

財經(jīng)要聞

"天量存款"將到期 資金會否搬入股市?

汽車要聞

限時9.99萬元起 2026款啟辰大V DD-i虎鯨上市

態(tài)度原創(chuàng)

手機
本地
數(shù)碼
公開課
軍事航空

手機要聞

三星S26+、Ultra量產(chǎn),S26+升級或受限?

本地新聞

云游內(nèi)蒙|到巴彥淖爾去,赴一場塞上江南的邀約

數(shù)碼要聞

PC硬件全線漲價?這幾款RTX 50系游戲本竟敢“逆勢”維持原價

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美媒:美對伊朗行動選項"遠超傳統(tǒng)空襲"

無障礙瀏覽 進入關(guān)懷版