国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

梁文鋒署名新論文:給大模型配本“字典”,計算、記憶分家后智商爆表,劇透DeepSeek V4?

0
分享至

這是一個關(guān)于AI底層邏輯重構(gòu)的時刻。

長期以來,Transformer架構(gòu)被困在一個昂貴的悖論中:我們用著最先進(jìn)的GPU算力,去讓AI模型“死記硬背”那些查字典就能知道的靜態(tài)知識。

DeepSeek梁文鋒團(tuán)隊與其北大合作者在今日凌晨發(fā)布的重磅論文《Conditional Memory via Scalable Lookup》,徹底打破了這一僵局。他們提出了一種全新的Engram(印跡)模塊,在傳統(tǒng)的“條件計算”(MoE)之外,開辟了第二條稀疏化戰(zhàn)線——“條件記憶”。

這不只是一次技術(shù)修補(bǔ),而是一場關(guān)于模型“腦容量”的供給側(cè)改革。它證明了:當(dāng)我們將“記憶”從“計算”中剝離,把該背的交給“字典”,把該算的交給大腦,AI的推理能力將迎來反直覺的爆發(fā)式增長。



DeepSeek計劃在2月春節(jié)前后正式發(fā)布V4,而這一刻或許就是DeepSeek V4誕生的前夜。

序章:六層神經(jīng)網(wǎng)絡(luò)的“無用功”

故事的起點(diǎn),源于DeepSeek團(tuán)隊對Transformer內(nèi)部運(yùn)作機(jī)制的一次“核磁共振”掃描。

在人工智能的黑盒子里,當(dāng)大模型看到“Diana, Princess of Wales”(戴安娜,威爾士王妃)這個短語時,它的內(nèi)部發(fā)生了一場令人費(fèi)解且極其昂貴的“內(nèi)耗”。

研究人員發(fā)現(xiàn),為了識別這個固定的實體,模型竟然動用了整整6層網(wǎng)絡(luò):

  • 第1-2層:模型還在琢磨“Wales”大概是一個國家;

  • 第3層:它意識到這是歐洲的一個地理概念;

  • 第4層:它開始拼湊出“Princess of Wales”似乎是一個頭銜;

  • 第5層:它聯(lián)想到了“威爾士親王的妻子”;

  • 第6層:直到這里,它才終于確認(rèn),這是指那位著名的“戴安娜王妃”。


在一位追求極致效率的架構(gòu)師眼中,這簡直是算力的暴殄天物。

“戴安娜王妃”是一個客觀存在的、靜態(tài)的實體,它不會因為上下文的變化而改變其本質(zhì)。為了提取這個本來查字典就能知道的事實,Transformer竟然動用了整整6層深度的昂貴矩陣運(yùn)算去“重建”這個概念。

這就像是一個絕世天才,在去解決微積分難題之前,每次都得先花半小時默寫一遍九九乘法表。 這種“隱式記憶”的機(jī)制,迫使模型將寶貴的參數(shù)容量和網(wǎng)絡(luò)深度,浪費(fèi)在了簡單的模式匹配上。

DeepSeek在這篇長達(dá)33頁的論文中,提出了一個直擊靈魂的拷問:為什么不直接給大模型配一本可以隨查隨用的“超級字典”?

第一章:架構(gòu)重塑——Engram模塊的暴力美學(xué)

為了解決這個問題,DeepSeek提出了一種名為“Engram(條件記憶)”的全新模塊。

如果說MoE(混合專家模型)是把“大腦”分成了不同的區(qū)域,讓不同的專家負(fù)責(zé)不同的思考(條件計算);那么Engram就是給大腦外掛了一個巨大的“海馬體”,專門負(fù)責(zé)存儲靜態(tài)知識(條件記憶)。


1. 復(fù)活“N-gram”:從古老智慧中尋找答案

Engram的核心靈感,竟然來自于NLP(自然語言處理)領(lǐng)域的“上古神器”——N-gram。在深度學(xué)習(xí)統(tǒng)治世界之前,我們就是靠統(tǒng)計“N個詞同時出現(xiàn)的概率”來理解語言的。

DeepSeek將這一經(jīng)典概念進(jìn)行了現(xiàn)代化的魔改:

  • 傳統(tǒng)的Transformer:知識分散在神經(jīng)元的權(quán)重(Weights)里,提取知識需要經(jīng)過復(fù)雜的線性層計算,復(fù)雜度高。

  • Engram模塊:它是一個巨大的、可擴(kuò)展的嵌入表(Embedding Table)。當(dāng)模型讀到“張仲景”或者“四大發(fā)明”這種固定搭配(N-gram)時,不需要動用大腦皮層去推理,直接通過哈希索引,在內(nèi)存表中“查”出對應(yīng)的向量。

這一過程的時間復(fù)雜度是O(1)——這意味著無論知識庫膨脹到多大(哪怕是1000億參數(shù)),查找速度幾乎不變,且極快。


2. 三大技術(shù)護(hù)城河

既然查表這么好,為什么以前沒人做?因為有三個攔路虎:存儲爆炸、多義詞沖突、參數(shù)分配。DeepSeek給出了教科書級的解決方案:

A. 詞表壓縮:極致的去重

世界上的詞組組合是天文數(shù)字。DeepSeek首先做了一步“無損壓縮”。在分詞器(Tokenizer)層面,它將語義相同但寫法不同的詞進(jìn)行了歸一化。
例如,“Apple”(首字母大寫)和“apple”(小寫)在語義上通常指同一個東西。通過映射歸并,有效詞表直接縮小了23%。這不僅節(jié)省了空間,更讓知識的密度大幅提升。

B. 多頭哈希:解決“哈希沖突”

不可能把所有N-gram都存下來。Engram使用了“多頭哈希(Multi-Head Hashing)”技術(shù)。通過多個哈希函數(shù),將無限的N-gram映射到有限的內(nèi)存槽位中。雖然會有哈希沖突(即兩個不同的詞被映射到了同一個位置),但通過“多頭”設(shè)計,模型可以從多個候選結(jié)果中拼湊出正確的信息,極大地提高了魯棒性。

C. 上下文門控:給記憶配個“裁判”

這是最精妙的一筆。查表是死的,語言是活的。
比如“蘋果”這個詞。在“吃蘋果”的語境下,它指水果;在“蘋果發(fā)布會”的語境下,它指科技公司。直接查表可能會引入噪聲。

DeepSeek設(shè)計了一個“上下文感知門控”(Context-aware Gating)。

  • Query(查詢):當(dāng)前上下文的隱藏狀態(tài)(Hidden State)。

  • Key/Value(鍵值):查表得到的靜態(tài)向量。

這個門控就像一個裁判。如果查出來的“靜態(tài)知識”和當(dāng)前的“上下文”不搭,裁判就會把權(quán)重壓低(Gate值趨向0),讓模型忽略這個噪聲;如果完美契合(比如“傷寒雜病論”后跟著“張仲景”),裁判就會把大門打開(Gate值趨向1),直接把知識注入模型。


第二章:黃金比例——發(fā)現(xiàn)AI模型的“U型曲線”

架構(gòu)設(shè)計好了,接下來的問題是:怎么分家產(chǎn)?

假設(shè)我們顯卡里的顯存是有限的,總參數(shù)預(yù)算也是固定的。我們應(yīng)該把多少參數(shù)分配給MoE的“專家”(負(fù)責(zé)計算),多少參數(shù)分配給Engram的“字典”(負(fù)責(zé)記憶)?

這是一個典型的資源配置博弈。DeepSeek團(tuán)隊進(jìn)行了一場大規(guī)模的消融實驗,掃描了從0%到100%的分配比例,結(jié)果畫出了一條完美的“U型Scaling Law曲線”。


這張圖揭示了AI模型設(shè)計的底層規(guī)律:

  1. 左側(cè)極端(純Engram):如果把參數(shù)全給字典,Loss很高。因為模型變成了“書呆子”,光有死記硬背,沒有邏輯推理能力。

  2. 右側(cè)極端(純MoE):如果把參數(shù)全給專家,Loss也很高。因為專家們被迫把精力都花在背書(記憶靜態(tài)知識)上,沒空干正事。

  3. 黃金分割點(diǎn)(ρ ≈ 75%-80%):當(dāng)我們將約20%-25%的稀疏參數(shù)預(yù)算分給Engram,剩下的給MoE時,模型的驗證集Loss降到了最低點(diǎn)。

這是一個極具指導(dǎo)意義的發(fā)現(xiàn):對于幾百億參數(shù)的大模型來說,單純堆砌計算單元(MoE專家)已經(jīng)是邊際效應(yīng)遞減了,必須引入專門的靜態(tài)記憶模塊來實現(xiàn)“存算平衡”。

第三章:反直覺的爆發(fā)——為什么“查字典”能提高“數(shù)學(xué)成績”?

如果Engram僅僅是讓模型“記性更好”,這篇論文的分量還不足以震動社區(qū)。畢竟,RAG(檢索增強(qiáng)生成)也能解決知識問題。

真正讓業(yè)界感到震撼的,是實驗結(jié)果中那些意料之外的收益

DeepSeek構(gòu)建了三個對比模型,嚴(yán)格控制激活參數(shù)量(3.8B)和訓(xùn)練數(shù)據(jù)量(262B tokens)完全一致:

  1. Dense-4B:傳統(tǒng)的稠密模型。

  2. MoE-27B:純MoE模型(72個專家)。

  3. Engram-27B:混合模型(55個專家 + 5.7B Engram參數(shù))。

結(jié)果令人大跌眼鏡:

1. 意料之中:知識類任務(wù)霸榜

在MMLU(綜合知識)上,Engram模型提升了3.4分;在CMMLU(中文知識)上,提升了4.0分。這很好理解,外掛了字典,常識自然更好了,幻覺更少了。

2. 意料之外:邏輯、代碼、數(shù)學(xué)全面暴漲

按理說,“查字典”和“做數(shù)學(xué)題”沒關(guān)系。但在BBH(綜合推理)上,Engram-27B竟然比同參數(shù)的純MoE基線提升了整整5.0分!

  • MATH(數(shù)學(xué)):提升2.4分

  • HumanEval(代碼生成):提升3.0分。

  • ARC-Challenge(復(fù)雜推理):提升3.7分。


3. 深度解析:有效深度(Effective Depth)理論

為什么?一個“死記硬背”的模塊,為什么能提高智商?

DeepSeek團(tuán)隊利用LogitLens和“CKA(中心核對齊)”技術(shù),對模型內(nèi)部進(jìn)行了“解剖”。他們發(fā)現(xiàn)了一個驚人的現(xiàn)象:

還記得開頭的“戴安娜王妃”嗎?
在純MoE模型中,前幾層網(wǎng)絡(luò)都在忙著“拼湊概念”。
而在Engram模型中,由于第2層就插入了Engram模塊,靜態(tài)知識的檢索在極早的階段就完成了。

這意味著,原本用于“死記硬背”的前幾層網(wǎng)絡(luò)被解放了!

這相當(dāng)于給模型“虛增”了深度。 那些被釋放出來的網(wǎng)絡(luò)層和注意力頭(Attention Heads),不再需要處理瑣碎的局部依賴(比如識別“張仲景”是誰),從而可以全神貫注地投入到更復(fù)雜的全局推理、長程邏輯構(gòu)建和代碼邏輯生成中去。

Engram的本質(zhì),不是“替代”推理,而是通過“分流”雜活,讓大腦專注于更高維度的思考。


第四章:工程奇跡——打破英偉達(dá)的“顯存霸權(quán)”

對于華爾街的投資者和算力中心的運(yùn)維者來說,這篇論文最性感的地方不在于Score,而在于Cost(成本)

在AI時代,最昂貴的資源不是算力(FLOPs),而是顯存(HBM)。英偉達(dá)H100之所以貴,很大程度上是因為那稀缺的HBM3e內(nèi)存。

而Engram帶來了一個顛覆性的特性:徹底的存算分離。

1. MoE的痛點(diǎn):顯存吞噬者

傳統(tǒng)的MoE模型,其路由機(jī)制(Routing)是動態(tài)的。模型必須先算出當(dāng)前Token的特征,算完這一層,才知道下一層該找哪個專家。這意味著,所有的專家模型必須時刻在昂貴的GPU顯存里待命,隨叫隨到。

2. Engram的突破:確定的預(yù)知

Engram的查表邏輯是確定性的。
只要輸入的文本確定了(比如“A New Axis of Sparsity”),那么它對應(yīng)的N-gram索引就確定了。我們根本不需要等模型算完前一層,在Token進(jìn)入模型的那一瞬間,我們就知道它需要查哪張表的哪一行。

3. CPU的逆襲:把大模型塞進(jìn)內(nèi)存條

這一特性帶來了巨大的工程紅利:

  • 卸載(Offload):我們可以把幾百億、甚至上千億參數(shù)的Engram詞表,直接扔到便宜、量大、易擴(kuò)展的“CPU內(nèi)存(DRAM)”里,甚至放在NVMe SSD上。

  • 預(yù)?。≒refetching):在GPU拼命計算前一層Transformer的時候,CPU利用PCIe通道,異步地把下一層需要的記憶數(shù)據(jù)“預(yù)取”出來,推送到GPU。

掩蓋延遲,并行處理。

DeepSeek實測數(shù)據(jù)顯示:即使掛載了100B(千億)參數(shù)的Engram表到CPU內(nèi)存,相比于純GPU推理,吞吐量的下降不到3%。

這是一個讓所有因為買不到HBM而焦慮的人狂喜的結(jié)論。這意味著,未來的大模型,“記憶容量”可以低成本地?zé)o限擴(kuò)張,而不必被英偉達(dá)的顯存卡脖子。


第五章:長文本的勝利——NIAH測試的躍升

除了通用推理,Engram在長文本(Long Context)領(lǐng)域的表現(xiàn)同樣證明了“分工”的價值。

在長文本處理中,注意力機(jī)制(Attention)的窗口是有限的。如果注意力被大量的局部信息(如固定短語)占據(jù),它處理全局信息的能力就會下降。

Engram接管了局部依賴后,Attention機(jī)制終于可以抬頭看路了。

在嚴(yán)格的RULER基準(zhǔn)測試中,Engram-27B的表現(xiàn)令人咋舌:

  • Multi-Query NIAH(多重針大海撈針):從MoE基線的84.2分,直接飆升至97.0分

  • Variable Tracking(變量追蹤):從77.0分提升至89.0分。

這說明,當(dāng)我們將“局部記憶”外包給Engram后,Transformer原本的注意力機(jī)制就能更高效地捕捉幾萬字文檔中的“草蛇灰線”。


尾聲:DeepSeek V4的拼圖已現(xiàn)

把以上所有信息串聯(lián)起來,我們已經(jīng)隱約看到了DeepSeek下一代模型——DeepSeek V4的雛形。

華爾街見聞寫道,報道稱DeepSeek計劃在2月(春節(jié)前后)正式發(fā)布V4。回顧DeepSeek的節(jié)奏:從2024年1月的R1,到年底擊敗GPT-5基準(zhǔn)的V3.2,再到即將登場的V4,每一步都踩準(zhǔn)了技術(shù)迭代的脈搏。

如果說R1展示了“推理”的深度,V3展示了“MoE”的效率,那么即將到來的V4,可能通過引入Engram技術(shù),將解決記憶與計算的耦合,實現(xiàn)“電子腦(計算)”與“外部記憶(Engram)”的完美共生。

  • DeepSeek V2:引入MLA(多頭潛在注意力),壓縮KV Cache,解決推理顯存瓶頸。

  • DeepSeek V3:優(yōu)化“MoE(混合專家)”與無損負(fù)載均衡,解決訓(xùn)練穩(wěn)定性與計算成本。

  • DeepSeek V4(推測):引入Engram(條件記憶),解決記憶與計算的耦合,實現(xiàn)“電子腦(計算)”與“外部記憶(Engram)”的完美共生。

這不是一次簡單的版本迭代,這是對Transformer架構(gòu)底層缺陷的一次系統(tǒng)性手術(shù)。在DeepSeek V3已經(jīng)憑借極其低廉的API價格和強(qiáng)大的性能席卷全球之后,V4如果集成了Engram技術(shù),將帶來更可怕的競爭力:它將擁有更大的知識庫(低成本內(nèi)存擴(kuò)展)、更強(qiáng)的邏輯推理(網(wǎng)絡(luò)深度解放)以及更低的推理成本(存算分離)。

更重要的是,報道提到V4在數(shù)據(jù)模式理解上的改進(jìn),“避免了以往模型在長時間訓(xùn)練下性能衰退的情況”。這與Engram將靜態(tài)知識固化、減少動態(tài)網(wǎng)絡(luò)負(fù)擔(dān)的特性不謀而合——它讓模型更穩(wěn)定,更不容易“遺忘”或“精神錯亂”。

在論文的最后,DeepSeek團(tuán)隊自信地寫道:

“We envision conditional memory as an indispensable modeling primitive for next-generation sparse models.”
(我們預(yù)想,條件記憶將成為下一代稀疏模型不可或缺的建模原語。)

春節(jié)前夕的這篇論文,不僅是DeepSeek的技術(shù)秀,更是向全行業(yè)發(fā)出的信號:單純“卷算力”、“堆參數(shù)”的蠻荒時代結(jié)束了,架構(gòu)創(chuàng)新的紅利期才剛剛開始。而在這場定義下一代AI標(biāo)準(zhǔn)的競賽中,中國大模型不僅沒有掉隊,甚至正在重新定義比賽規(guī)則。

2026,中國商業(yè)航天的“諾曼底時刻”剛剛過去;而AI領(lǐng)域的“存算分家”時刻,或許正是現(xiàn)在。

論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

開源地址:https://github.com/deepseek-ai/Engram

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
商業(yè)航天股集體觸發(fā)“嚴(yán)重異動”警示,多家公司回應(yīng)稱業(yè)務(wù)占比低,后續(xù)行情生變?

商業(yè)航天股集體觸發(fā)“嚴(yán)重異動”警示,多家公司回應(yīng)稱業(yè)務(wù)占比低,后續(xù)行情生變?

界面新聞
2026-01-12 23:18:30
別再吹海南免稅了!7天12億卻遭網(wǎng)友吐槽,價格不香還宰客套路多

別再吹海南免稅了!7天12億卻遭網(wǎng)友吐槽,價格不香還宰客套路多

你食不食油餅
2026-01-12 14:49:23
安徽小伙在小國家創(chuàng)業(yè),“享受”一夫多妻、開放生活的他如今怎樣

安徽小伙在小國家創(chuàng)業(yè),“享受”一夫多妻、開放生活的他如今怎樣

牛牛叨史
2026-01-06 12:59:43
丁蘭給江青接生第二天,江青找到她:真是對不起你,請你原諒

丁蘭給江青接生第二天,江青找到她:真是對不起你,請你原諒

搜史君
2026-01-13 07:45:06
碎三觀!網(wǎng)傳江陰某4S店女銷售出軌客戶四年,親媽幫著出餿主意…

碎三觀!網(wǎng)傳江陰某4S店女銷售出軌客戶四年,親媽幫著出餿主意…

火山詩話
2026-01-12 13:36:30
三四線城市,翻盤了

三四線城市,翻盤了

城市財經(jīng)
2026-01-12 11:39:42
知曉女子丈夫出差后,男子跨城趕來約其賓館喝酒,實施強(qiáng)奸未遂獲刑一年半

知曉女子丈夫出差后,男子跨城趕來約其賓館喝酒,實施強(qiáng)奸未遂獲刑一年半

紅星新聞
2026-01-12 20:27:28
意難平!索爾斯克亞無緣再次執(zhí)教曼聯(lián),2大原因讓他輸給了卡里克

意難平!索爾斯克亞無緣再次執(zhí)教曼聯(lián),2大原因讓他輸給了卡里克

夏侯看英超
2026-01-13 01:50:38
毛主席去世后,華國鋒除了依靠葉帥外,還有幾個大員是他信任的

毛主席去世后,華國鋒除了依靠葉帥外,還有幾個大員是他信任的

談古論今歷史有道
2026-01-07 07:45:03
暴跌12.5%,寶馬在中國賣不動了

暴跌12.5%,寶馬在中國賣不動了

智能車參考
2026-01-12 15:45:45
西楚霸王項羽麾下15位重要將領(lǐng)及結(jié)局:1龍且,2鐘離昧,3英布

西楚霸王項羽麾下15位重要將領(lǐng)及結(jié)局:1龍且,2鐘離昧,3英布

鶴羽說個事
2026-01-12 11:46:44
遠(yuǎn)華集團(tuán)老總賴昌星,在獄中對董文華的回憶,讓無數(shù)人咋舌

遠(yuǎn)華集團(tuán)老總賴昌星,在獄中對董文華的回憶,讓無數(shù)人咋舌

曉艾故事匯
2025-01-09 22:01:49
最火板塊,集體跳水

最火板塊,集體跳水

中國基金報
2026-01-13 10:41:15
回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

就一點(diǎn)
2025-11-22 10:36:39
7子參軍全“陣亡”,58歲母親哭瞎眼,1949年門外來了熟悉身影

7子參軍全“陣亡”,58歲母親哭瞎眼,1949年門外來了熟悉身影

史之銘
2026-01-12 13:34:50
大外交|加拿大總理時隔8年訪華:尋找更多裝“雞蛋”的“籃子”

大外交|加拿大總理時隔8年訪華:尋找更多裝“雞蛋”的“籃子”

澎湃新聞
2026-01-13 07:18:26
笑瘋了!章澤天首錄播客,3000米高山看到花哭,劉嘉玲像哄小姑娘

笑瘋了!章澤天首錄播客,3000米高山看到花哭,劉嘉玲像哄小姑娘

瘋說時尚
2026-01-13 10:09:37
我去上海看病想住弟弟家被拒,默默停掉每月給他打的五千元生活費(fèi)

我去上??床∠胱〉艿芗冶痪埽5裘吭陆o他打的五千元生活費(fèi)

曉艾故事匯
2026-01-09 14:40:27
你聽過最勁爆的瓜是啥?網(wǎng)友:被大八歲的補(bǔ)習(xí)班老師表白了

你聽過最勁爆的瓜是啥?網(wǎng)友:被大八歲的補(bǔ)習(xí)班老師表白了

帶你感受人間冷暖
2025-11-26 00:10:06
湖人112-124不敵背靠背國王,東契奇42+7+8,詹姆斯22分,威少22+7

湖人112-124不敵背靠背國王,東契奇42+7+8,詹姆斯22分,威少22+7

懂球帝
2026-01-13 14:11:03
2026-01-13 14:20:49
華爾街見聞官方 incentive-icons
華爾街見聞官方
中國領(lǐng)先的金融商業(yè)信息提供商
140029文章數(shù) 2652113關(guān)注度
往期回顧 全部

科技要聞

每年10億美元!谷歌大模型注入Siri

頭條要聞

59歲女子誕下男嬰:大女兒定居國外 我和丈夫感到寂寞

頭條要聞

59歲女子誕下男嬰:大女兒定居國外 我和丈夫感到寂寞

體育要聞

CBA還能眾籌換帥?

娛樂要聞

周杰倫以球員身份參加澳網(wǎng),C位海報公開

財經(jīng)要聞

中國一口氣申報20萬顆衛(wèi)星,意味著什么?

汽車要聞

限時9.99萬元起 2026款啟辰大V DD-i虎鯨上市

態(tài)度原創(chuàng)

本地
藝術(shù)
旅游
親子
公開課

本地新聞

云游內(nèi)蒙|到巴彥淖爾去,赴一場塞上江南的邀約

藝術(shù)要聞

書法爭議再起:拙與妍孰優(yōu)孰劣引發(fā)熱議

旅游要聞

“野趣”花岙(嶼見中國)

親子要聞

您吸的每一支煙,透支孩子的健康

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版