国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek V4最大的遺憾

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

DeepSeekV4的技術(shù)報(bào)告里有mHC,有CSA,有HCA,有Muon,有FP4……

唯獨(dú)沒(méi)有Engram

Engram去哪了?

這個(gè)話(huà)題一度成為網(wǎng)友們討論的熱點(diǎn)。

Engram在今年1月由DeepSeek和北大聯(lián)合開(kāi)源,主要研究大模型的記憶與效率問(wèn)題。

自?huà)焐蟖rXiv的那一刻起,圈子里圍繞它的探討就沒(méi)有停止過(guò)…



不僅僅因?yàn)樗荲4的前奏,而是有了Engram,「?jìng)惗厥怯?guó)首都」這種事實(shí),模型不用動(dòng)用整個(gè)深層網(wǎng)絡(luò)去重新推一遍,直接查就行。

不僅省顯存,還能釋放深層網(wǎng)絡(luò)容量,用于更高階的推理。

正因如此,自1月初論文發(fā)表以來(lái),所有人都覺(jué)得,Engram就是V4的架構(gòu)地基,所有人都在盼。

以至于V4發(fā)表后,大家第一時(shí)間就是command+f去論文里找Engram,可惜并沒(méi)有。



以至于不少網(wǎng)友甚至覺(jué)得,沒(méi)有Engram,V4就是不完整的。



沒(méi)有Engram,可能是DeepSeekV4最大的遺憾。

不過(guò),Engram并沒(méi)有消失。隨后三篇值得注意的論文接力出現(xiàn):

  • CXL內(nèi)存池化版本:把Engram放進(jìn)多機(jī)共享的CXL內(nèi)存池,解決大模型多機(jī)部署的存儲(chǔ)問(wèn)題。
  • 無(wú)沖突熱層實(shí)驗(yàn):對(duì)Engram的多頭哈希優(yōu)化進(jìn)行了實(shí)證檢驗(yàn),證偽了一些直覺(jué)式改進(jìn)方案。
  • 視覺(jué)Tiny Engram:AutoArk團(tuán)隊(duì)把文本Engram搬到視覺(jué)模態(tài),擴(kuò)展了它的應(yīng)用邊界。

所以,雖然V4沒(méi)有Engram,但它的理念、探索和后續(xù)應(yīng)用已經(jīng)悄然鋪開(kāi),為下一代模型打下基礎(chǔ)。

Engram到底是什么

把時(shí)間倒回2026年1月12日。

那一天,DeepSeek聯(lián)合北大放出了一篇33頁(yè)的論文《ConditionalMemoryviaScalableLookup》。第一作者ChengXin,北大博士生,曾經(jīng)署名過(guò)V3。最后一位作者,梁文鋒。



先來(lái)一句話(huà)速通版,Engram是給Transformer加的一個(gè)原生知識(shí)查表模塊。能查的別算,先查一下。

團(tuán)隊(duì)的核心觀(guān)察是,語(yǔ)言建模其實(shí)包含兩種性質(zhì)完全不同的任務(wù),一種是需要深度動(dòng)態(tài)計(jì)算的組合推理,另一種是檢索靜態(tài)知識(shí)。

之前的問(wèn)題在于,Transformer把這兩件事混在一起做。模型識(shí)別一個(gè)實(shí)體時(shí),得消耗好幾層注意力和前饋網(wǎng)絡(luò)逐層拼湊特征。

論文里舉了個(gè)例子,「Diana,Princess of Wales」。模型要走6層才能把這個(gè)識(shí)別完。

前幾層還在糾結(jié)「Wales是英國(guó)的一個(gè)地區(qū)」、「Princess of Wales是某種頭銜」這些中間狀態(tài),最后一層才反應(yīng)過(guò)來(lái)這是戴安娜王妃。

這種「用昂貴的運(yùn)行時(shí)計(jì)算重建一個(gè)靜態(tài)查找表」的活,本來(lái)可以讓深層網(wǎng)絡(luò)去干更高階的推理。

對(duì)此,Engram的思路相當(dāng)直接,既然經(jīng)典的N-gram模型就能用O(1)的時(shí)間復(fù)雜度捕獲這些局部依賴(lài),那干脆把這能力直接嵌進(jìn)Transformer。

打個(gè)比方,就像你做數(shù)學(xué)題,該用的公式不必每次從頭推一遍,翻表代進(jìn)去就行。Transformer之前沒(méi)這張表,只能每道題都從公理走起。Engram等于把這張表交到模型手里。

具體做法是,在Transformer的第2層和第15層之間各插入一個(gè)Engram模塊。

每個(gè)位置的輸入會(huì)觸發(fā)一次哈希查找,把當(dāng)前token和前面幾個(gè)token組成的N-gram映射到一個(gè)巨大的嵌入表里,直接取出對(duì)應(yīng)的向量。

門(mén)控機(jī)制保證查到的內(nèi)容跟當(dāng)前上下文不匹配時(shí)自動(dòng)屏蔽。比如「張」是個(gè)常見(jiàn)姓氏,但「張仲景」三個(gè)字湊一起就是固定歷史人物實(shí)體了,門(mén)控就負(fù)責(zé)認(rèn)出這種區(qū)別。

Engram的定位是MoE之外的另一條稀疏軸。MoE是把計(jì)算稀疏化,只激活一部分專(zhuān)家。Engram是把存儲(chǔ)稀疏化,只查一部分條目。兩者互補(bǔ),不沖突。



論文最核心的一段實(shí)驗(yàn),是固定總參數(shù)和每token激活參數(shù),然后讓MoE專(zhuān)家和Engram記憶搶預(yù)算,得到一條U形曲線(xiàn)。



純MoE不是最優(yōu)解。把大約20%-25%的稀疏參數(shù)分給Engram,模型loss達(dá)到最低點(diǎn)。

按這個(gè)曲線(xiàn)指導(dǎo),團(tuán)隊(duì)把Engram擴(kuò)到27B驗(yàn)證。激活參數(shù)3.8B,訓(xùn)練262B tokens,嚴(yán)格跟MoE-27B基線(xiàn)對(duì)齊。

結(jié)果知識(shí)密集型任務(wù)的提升符合預(yù)期(MMLU +3.4,CMMLU +4.0),但通用推理和代碼數(shù)學(xué)的提升超出預(yù)期(BBH +5.0,ARC-Challenge +3.7,HumanEval +3.0,MATH +2.4),長(zhǎng)上下文場(chǎng)景更夸張,Multi-Query NIAH從84.2%躍升到97.0%。



那么,為什么記憶模塊還能反過(guò)來(lái)提升推理?

LogitLens和CKA給出了答案,Engram-27B第5層的表征,跟MoE基線(xiàn)第12層的表征最相似。

Engram把模型的早期層從「重建靜態(tài)知識(shí)」這種苦力活里解放出來(lái),這部分網(wǎng)絡(luò)深度被騰出來(lái)做更復(fù)雜的推理。Engram不是新增了一塊記憶,它還變相把網(wǎng)絡(luò)加深了。



工程上。論文把一個(gè)1000億參數(shù)的Engram表整個(gè)甩到host DRAM,在H800上跑推理,8B-Dense的吞吐?lián)p失只有2.8%。

靠的是Engram索引的確定性,只取決于輸入token序列,完全可以提前算,CPU異步預(yù)取跟GPU計(jì)算重疊。

可以說(shuō),這個(gè)模塊天生就不靠HBM,只可惜如今V4來(lái)了,Engram沒(méi)來(lái)。

沒(méi)在v4,但在其他地方

發(fā)明者把它放在那里沒(méi)動(dòng),但路上還是有人。三個(gè)月里,至少出現(xiàn)了三個(gè)值得說(shuō)一下的工作。

把Engram塞進(jìn)CXL內(nèi)存池

3月10日,北大、阿里云、山東英信、人大、港大聯(lián)合發(fā)了一篇系統(tǒng)論文,《Pooling Engram Conditional Memory in Large Language Models using CXL》。



他們沒(méi)改Engram本身,而是回答了一個(gè)更工程的問(wèn)題,如果Engram真的成了下一代標(biāo)配,內(nèi)存放哪。

答案是CXL內(nèi)存池化。GPU HBM放計(jì)算權(quán)重,本地DRAM做二級(jí)緩存,CXL池做三級(jí)。8臺(tái)服務(wù)器共享4TB內(nèi)存池,XConn XC50256交換芯片做拓?fù)洌?12GB/s帶寬。

整套集成進(jìn)SGLang,做了預(yù)取-計(jì)算重疊,跑下來(lái)端到端吞吐?lián)p失小于5%。Engram論文里那句「1000億嵌入表卸載DRAM」的輕描淡寫(xiě),被他們做成了27B和40B兩個(gè)規(guī)模的真實(shí)測(cè)試。

結(jié)論很清楚,Engram這種確定性尋址、可預(yù)取的負(fù)載,幾乎是為CXL量身定做的。

一個(gè)反直覺(jué)的實(shí)驗(yàn)

Engram論文上線(xiàn)第十一天,1月23日,一個(gè)叫TaoLin的研究者,單作者,放出了《A Collision-FreeHot-Tier Extension for Engram-Style Conditional Memory》。



他想驗(yàn)證一個(gè)看上去顯然的優(yōu)化,Engram用多頭哈希查表會(huì)有沖突,如果把高頻N-gram用Minimal Perfect Hash Function完全消除沖突,模型會(huì)不會(huì)更好。

他設(shè)計(jì)了Engram-Nine,把記憶分成無(wú)沖突的「熱層」和保留多頭哈希的「冷層」。

結(jié)果反直覺(jué)。在嚴(yán)格iso-parameter控制下,無(wú)沖突設(shè)計(jì)沒(méi)有穩(wěn)定提升驗(yàn)證loss。

route-stratified評(píng)估還發(fā)現(xiàn),訓(xùn)練初期熱路徑(高頻)loss更低,但訓(xùn)練后期冷路徑反過(guò)來(lái)超過(guò)熱路徑。

一個(gè)看上去顯然的優(yōu)化方向,被一個(gè)真做實(shí)驗(yàn)的人證偽了。

把Engram推到視覺(jué)(AutoArk/TinyEngram)

GitHub上一個(gè)叫AutoArk的團(tuán)隊(duì)搞了Tiny Engram。



基于Qwen-3完整復(fù)現(xiàn)文本Engram之后,他們做了一件論文里沒(méi)做的事,把Engram搬到Stable Diffusion上。

視覺(jué)patch經(jīng)過(guò)分層編碼,底層抓紋理,中層抓部件,高層抓風(fēng)格,然后整套丟進(jìn)哈希查表。

跟LoRA比下來(lái),達(dá)到同等效果,Engram需要的額外參數(shù)只有LoRA的15%到30%。連續(xù)注入多個(gè)新概念時(shí),LoRA會(huì)出現(xiàn)明顯的概念退化,Engram不會(huì)。

Engram原本是為文本設(shè)計(jì)的。AutoArk等于把這扇門(mén)撞開(kāi)了,凡是能離散化、能哈希的模態(tài),Engram都能搬。

三個(gè)月里,Engram這條路上,發(fā)明者最沉默,跟進(jìn)者各自走了一步。

一個(gè)團(tuán)隊(duì)替它解決多機(jī)內(nèi)存層級(jí),一個(gè)獨(dú)立研究者證偽了它一個(gè)看似顯然的優(yōu)化方向,一個(gè)開(kāi)源團(tuán)隊(duì)把它推到了視覺(jué)。



而deepseek-ai/Engram這個(gè)倉(cāng)庫(kù),最后一次提交還停在1月14日。

One more thing

Engram論文的摘要結(jié)尾有一句話(huà):

我們認(rèn)為條件記憶將是下一代稀疏模型不可或缺的建模原語(yǔ)。



看來(lái),這個(gè)下一代得是V5了,難不成會(huì)是V4.1?

[1]https://arxiv.org/pdf/2601.07372

[2]https://arxiv.org/pdf/2603.10087

[3]https://arxiv.org/pdf/2601.16531

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
切特談?wù)材匪梗何倚r(shí)候去打球時(shí),很多41歲的人都跑不動(dòng)了

切特談?wù)材匪梗何倚r(shí)候去打球時(shí),很多41歲的人都跑不動(dòng)了

林子說(shuō)事
2026-05-03 09:58:20
專(zhuān)家呼吁:馬上停用6種食用油,它是肝癌加速器!再香也別吃

專(zhuān)家呼吁:馬上停用6種食用油,它是肝癌加速器!再香也別吃

橘子約定
2026-05-03 09:43:10
喬-哈特:曼城的冠軍中軸線(xiàn)太強(qiáng),我認(rèn)為接下來(lái)1分都不會(huì)丟

喬-哈特:曼城的冠軍中軸線(xiàn)太強(qiáng),我認(rèn)為接下來(lái)1分都不會(huì)丟

懂球帝
2026-05-03 12:22:06
田馥甄多次試水內(nèi)地復(fù)工全失?。∑胀ňW(wǎng)友理性抵制,底線(xiàn)絕不讓步

田馥甄多次試水內(nèi)地復(fù)工全失?。∑胀ňW(wǎng)友理性抵制,底線(xiàn)絕不讓步

童叔不飆車(chē)
2026-05-03 15:05:11
火箭追4位巨星?休城5子難保全!新人+首輪簽齊聚,斯通不缺籌碼

火箭追4位巨星?休城5子難保全!新人+首輪簽齊聚,斯通不缺籌碼

熊哥愛(ài)籃球
2026-05-03 13:21:04
廈門(mén)建發(fā),虧麻了

廈門(mén)建發(fā),虧麻了

拾遺地
2026-05-03 12:38:10
每天慢跑半小時(shí)VS每天擼鐵半小時(shí),3個(gè)月后,二者會(huì)有什么不同?

每天慢跑半小時(shí)VS每天擼鐵半小時(shí),3個(gè)月后,二者會(huì)有什么不同?

增肌減脂
2026-05-03 14:33:48
中國(guó)股市:一份“不能買(mǎi)”的股票名單,獻(xiàn)給兩億股民的最真誠(chéng)忠告

中國(guó)股市:一份“不能買(mǎi)”的股票名單,獻(xiàn)給兩億股民的最真誠(chéng)忠告

股經(jīng)縱橫談
2026-05-01 20:40:08
朱元璋為啥不愿?jìng)魑唤o朱棣?史學(xué)家:其實(shí)誰(shuí)都可以,唯獨(dú)朱棣不行

朱元璋為啥不愿?jìng)魑唤o朱棣?史學(xué)家:其實(shí)誰(shuí)都可以,唯獨(dú)朱棣不行

鶴羽說(shuō)個(gè)事
2026-04-24 22:23:48
人類(lèi)尸臭為啥如此難聞?外國(guó)石棺咋阻止尸臭泄漏?教堂味道難聞嗎

人類(lèi)尸臭為啥如此難聞?外國(guó)石棺咋阻止尸臭泄漏?教堂味道難聞嗎

向航說(shuō)
2026-05-02 00:55:03
一個(gè)75歲退休老頭在德云社干了216場(chǎng),年收入曝光后網(wǎng)友沉默了

一個(gè)75歲退休老頭在德云社干了216場(chǎng),年收入曝光后網(wǎng)友沉默了

小娛樂(lè)悠悠
2026-05-02 10:47:26
美國(guó)強(qiáng)行作廢中國(guó)實(shí)驗(yàn)室資質(zhì),欲搶驗(yàn)貨權(quán),中方亮劍反擊絕不手軟

美國(guó)強(qiáng)行作廢中國(guó)實(shí)驗(yàn)室資質(zhì),欲搶驗(yàn)貨權(quán),中方亮劍反擊絕不手軟

史行途
2026-05-02 13:55:19
美伊還沒(méi)打完,第二個(gè)伊朗出現(xiàn)!對(duì)華使出卸磨殺驢,反向收割中企

美伊還沒(méi)打完,第二個(gè)伊朗出現(xiàn)!對(duì)華使出卸磨殺驢,反向收割中企

阿雹娛樂(lè)
2026-05-03 08:16:29
五種廢品價(jià)格暴漲!提醒家中老人千萬(wàn)別亂扔,扔了就是白扔錢(qián)!

五種廢品價(jià)格暴漲!提醒家中老人千萬(wàn)別亂扔,扔了就是白扔錢(qián)!

青梅侃史啊
2026-05-03 09:38:15
殺人誅心!麥克丹尼爾斯一句話(huà),把掘金釘在恥辱柱上,要解散了?

殺人誅心!麥克丹尼爾斯一句話(huà),把掘金釘在恥辱柱上,要解散了?

田先生籃球
2026-05-02 12:00:08
劉詩(shī)詩(shī)五一曝光了她在新西蘭度假的絕美生活照

劉詩(shī)詩(shī)五一曝光了她在新西蘭度假的絕美生活照

小椰的奶奶
2026-05-02 21:44:46
重慶律師被帶走,曾說(shuō)好家風(fēng)帶出好事業(yè),家里找出羅藺那枚冷錢(qián)包

重慶律師被帶走,曾說(shuō)好家風(fēng)帶出好事業(yè),家里找出羅藺那枚冷錢(qián)包

小陸搞笑日常
2026-05-03 14:25:30
隨著艾倫16-17出局,斯諾克世錦賽決賽對(duì)陣出爐:吳宜澤PK世界第5

隨著艾倫16-17出局,斯諾克世錦賽決賽對(duì)陣出爐:吳宜澤PK世界第5

側(cè)身凌空斬
2026-05-03 06:29:18
央視直播乒乓球時(shí)間:5月3日CCTV5、CCTV5+節(jié)目單,國(guó)乒關(guān)鍵戰(zhàn)

央視直播乒乓球時(shí)間:5月3日CCTV5、CCTV5+節(jié)目單,國(guó)乒關(guān)鍵戰(zhàn)

晚霧空青
2026-05-03 12:27:06
網(wǎng)絡(luò)瘋傳賴(lài)清德妻子在美國(guó)購(gòu)買(mǎi)億元豪宅,賴(lài)辦回應(yīng)了

網(wǎng)絡(luò)瘋傳賴(lài)清德妻子在美國(guó)購(gòu)買(mǎi)億元豪宅,賴(lài)辦回應(yīng)了

海峽導(dǎo)報(bào)社
2026-05-02 10:52:21
2026-05-03 15:52:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12570文章數(shù) 176460關(guān)注度
往期回顧 全部

科技要聞

庫(kù)克罕見(jiàn)"拒答"!蘋(píng)果正被AI供應(yīng)鏈卡脖子

頭條要聞

上??萍即髮W(xué)王晨輝教授因營(yíng)救至親溺水遇險(xiǎn) 年僅39歲

頭條要聞

上海科技大學(xué)王晨輝教授因營(yíng)救至親溺水遇險(xiǎn) 年僅39歲

體育要聞

裁判準(zhǔn)備下班,結(jié)果吳宜澤進(jìn)了決賽

娛樂(lè)要聞

蔡卓妍婚后首現(xiàn)身 戴結(jié)婚戒指笑容不斷

財(cái)經(jīng)要聞

后巴菲特時(shí)代,首場(chǎng)股東會(huì)透露了啥

汽車(chē)要聞

同比大漲190% 方程豹4月銷(xiāo)量29138臺(tái)

態(tài)度原創(chuàng)

健康
時(shí)尚
手機(jī)
房產(chǎn)
公開(kāi)課

干細(xì)胞治燒燙傷面臨這些“瓶頸”

春天別總傻傻穿一身黑,看看這些日常穿搭,高級(jí)舒適又優(yōu)雅

手機(jī)要聞

華為Pura 90 Pro系列手機(jī)首銷(xiāo)情況出爐

房產(chǎn)要聞

五一樓市徹底明牌!塔尖人群都在重倉(cāng)凱旋新世界

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版