国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

早于DeepSeek Engram!用「查表」重置Transformer記憶 | ICLR

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】ICLR論文STEM架構(gòu)率先提出「查表式記憶」架構(gòu),早于DeepSeek Engram三個(gè)月。它將Transformer的FFN從動(dòng)態(tài)計(jì)算改為靜態(tài)查表,用token索引的embedding表直接讀取記憶,徹底解耦記憶容量與計(jì)算開(kāi)銷(xiāo)。

近年來(lái),隨著大模型規(guī)模與知識(shí)密度的持續(xù)爆發(fā),研究人員開(kāi)始重新審視一個(gè)底層問(wèn)題:模型的參數(shù)究竟該如何組織,才能最高效地承擔(dān)「記憶」的功能?

在傳統(tǒng)的Transformer架構(gòu)中,前饋神經(jīng)網(wǎng)絡(luò)(FFN)的知識(shí)通常隱式地埋藏在up-projection等密集矩陣內(nèi) 。這種通過(guò)輸入進(jìn)行動(dòng)態(tài)激活的矩陣乘法,雖然保證了表達(dá)能力,卻在參數(shù)的可尋址性、后期可編輯性以及系統(tǒng)計(jì)算效率上存在著天然的局限 。

為了突破這一瓶頸,學(xué)術(shù)界和工業(yè)界逐漸轉(zhuǎn)向更離散、更結(jié)構(gòu)化的參數(shù)組織路徑。

近期DeepSeek推出的engram機(jī)制成功引爆了業(yè)內(nèi)對(duì)「查表式記憶(lookup-based memory)」的關(guān)注 。但令人矚目的是,早于engram問(wèn)世約三個(gè)月前,一篇入選 ICLR 的論文就已經(jīng)對(duì)該方向進(jìn)行了極其系統(tǒng)的探索 。


項(xiàng)目主頁(yè): https://infini-ai-lab.github.io/STEM/

與傳統(tǒng)的混合專(zhuān)家模型(MoE)在現(xiàn)有稀疏路由上做修補(bǔ)不同,STEM(Scaling Transformers with Embedding Modules)選擇直接對(duì) FFN 結(jié)構(gòu)「動(dòng)刀」:它摒棄了動(dòng)態(tài)運(yùn)行時(shí)的路由機(jī)制,將 up-projection 替換為按token索引的層級(jí) embedding 表,以一種純靜態(tài)的方式重構(gòu)了 Transformer 的記憶訪問(wèn)路徑 。

從「算地址」到「查地址」

如果用「鍵值對(duì)記憶(key-value memory)」的視角來(lái)審視標(biāo)準(zhǔn) Transformer,像 SwiGLU 這樣的 FFN 結(jié)構(gòu),本質(zhì)上是通過(guò)一次 up-projection 將輸入映射到高維空間,從而生成一個(gè)能被 gate 調(diào)制的「地址向量」 。這一過(guò)程極其依賴輸入相關(guān)的密集矩陣乘法,不僅計(jì)算昂貴,而且參數(shù)高度耦合 。

STEM 團(tuán)隊(duì)提出了一個(gè)靈魂拷問(wèn):如果 FFN 的核心作用只是「按token訪問(wèn)記憶」,我們真的需要每次都動(dòng)態(tài)計(jì)算這些地址向量嗎?

基于此,STEM給出了一種極致簡(jiǎn)單直接的解法:

  • 徹底移除up-projection,不再動(dòng)態(tài)計(jì)算地址向量 。

  • 為模型的每一層單獨(dú)維護(hù)一個(gè)按token索引的embedding表。

  • 在前向傳播時(shí),直接根據(jù)token id 「查表」,提取對(duì)應(yīng)的靜態(tài)向量 作為原先的 。

  • 完整保留gate與down-projection模塊,用于對(duì)查表得到的向量進(jìn)行上下文的壓縮與調(diào)制 。

這一看似輕量的模塊替換,實(shí)現(xiàn)了一個(gè)極其本質(zhì)的架構(gòu)跨越:模型的「記憶容量」終于與「單token的計(jì)算量」實(shí)現(xiàn)了徹底解耦。


連鎖效應(yīng)

四大維度的全面躍升

雖然僅僅替換了FFN的一個(gè)子模塊,STEM 卻在實(shí)驗(yàn)中展現(xiàn)出了驚人的全方位優(yōu)勢(shì) :

1. 即插即用的「知識(shí)編輯」

這是STEM最硬核的特性之一 。因?yàn)槊恳粚拥膃mbedding都與特定token id強(qiáng)綁定,研究人員甚至不需要重新訓(xùn)練,只需替換特定token的STEM向量,就能直接修改模型輸出的事實(shí) 。

例如,僅通過(guò)互換「Spain」與「Germany」的向量,模型在回答首都問(wèn)題時(shí)就會(huì)發(fā)生相應(yīng)的改變 。這為未來(lái)的模型內(nèi)部機(jī)制理解與知識(shí)編輯打開(kāi)了全新大門(mén) 。


2. 訓(xùn)練極度穩(wěn)定(告別動(dòng)態(tài)路由的煩惱)

與依賴運(yùn)行時(shí)路由的MoE不同,STEM是一種靜態(tài)稀疏架構(gòu) 。由于每個(gè)token在每一層訪問(wèn)的 embedding 都是恒定確定的,它完美避開(kāi)了MoE訓(xùn)練中令人頭疼的負(fù)載傾斜(load skew)和損失突刺(loss spike)問(wèn)題,且不需要任何all-to-all通信 。


3. 更寬廣的「記憶空間」

從幾何空間分布來(lái)看,STEM 的 embedding 表展現(xiàn)出了更大的角度散布(large angular spread) 。這意味著不同token 的向量更趨近于正交,大幅減少了參數(shù)間的相互干擾(cross-talk) 。在同等算力下,模型能塞下更多「可尋址的記憶槽位」 。

4. 計(jì)算與I/O雙重減負(fù)

砍掉up-projection后,每一層都能省下龐大的矩陣乘法開(kāi)銷(xiāo)(約級(jí)別) 。更妙的是,龐大的embedding表完全可以離載(offload)到 CPU 內(nèi)存中,配合異步預(yù)?。╬refetch)和緩存策略高效運(yùn)行 。

實(shí)驗(yàn)與落地

長(zhǎng)上下文表現(xiàn)亮眼

團(tuán)隊(duì)在350M和1B規(guī)模的模型上對(duì) STEM 進(jìn)行了嚴(yán)密的消融實(shí)驗(yàn) 。數(shù)據(jù)表明,STEM 相比于 dense 架構(gòu)基線,整體平均性能提升了約3–4%,在部分知識(shí)密集型任務(wù)上,提升幅度甚至飆升至9–10% 。特別是在大海撈針(Needle-in-a-Haystack)和LongBench等長(zhǎng)文本評(píng)測(cè)中,上下文越長(zhǎng),STEM的優(yōu)勢(shì)就越顯著。

對(duì)于工程落地,論文也給出了避坑指南:

  • 替換講究位置:核心在于替換up-projection,如果盲目替換gate-projection,反而會(huì)破壞模型的上下文調(diào)制能力 。

  • 優(yōu)化存儲(chǔ)與顯存:embedding表可放在CPU,但在訓(xùn)練時(shí)需注意將梯度寫(xiě)回對(duì)應(yīng)的優(yōu)化器狀態(tài) 。在追求極致性價(jià)比時(shí),還可以采用「部分層替換」或混合變體策略來(lái)平衡顯存壓力 。


結(jié)語(yǔ)

STEM架構(gòu)向我們清晰地傳達(dá)了一個(gè)信號(hào):在無(wú)腦堆疊算力和參數(shù)量之外,通過(guò)巧妙重構(gòu)參數(shù)的「組織方式」,我們依然能夠榨取巨大的性能紅利。 在當(dāng)前基座大模型越發(fā)龐大復(fù)雜的語(yǔ)境下,STEM這種簡(jiǎn)潔、優(yōu)雅且工程友好的設(shè)計(jì),無(wú)疑是下一代模型演進(jìn)路線上的一座重要燈塔

作者介紹

論文第一作者Ranajoy Sadhukhan為卡內(nèi)基梅隆大學(xué)(CMU)InfiniAI Lab 博士生,師從陳貝迪教授。該工作完成于其在 Meta AI 實(shí)習(xí)期間,實(shí)習(xí)導(dǎo)師包括劉澤春、曹晟(Rick Cao)與田淵棟等研究人員。

InfiniAI Lab 由陳貝迪教授創(chuàng)立,致力于模型、系統(tǒng)與硬件協(xié)同設(shè)計(jì),研究高效且可擴(kuò)展的 AI 算法與系統(tǒng),重點(diǎn)方向包括長(zhǎng)上下文多模態(tài)建模、突破傳統(tǒng) scaling laws 的新一代模型架構(gòu),以及基礎(chǔ)模型的理解與推理能力增強(qiáng),同時(shí)推動(dòng)算法與系統(tǒng)層面的效率優(yōu)化,以促進(jìn) AI 技術(shù)的普及化。

劉澤春為Meta AI 研究科學(xué)家,研究方向涵蓋基座模型訓(xùn)練,大模型壓縮、稀疏化與端側(cè)部署優(yōu)化,專(zhuān)注于模型高效推理與系統(tǒng)協(xié)同設(shè)計(jì)。

曹晟(Rick Cao)為 Meta AI 研究員,主要研究大模型系統(tǒng)優(yōu)化與高效推理架構(gòu)設(shè)計(jì),關(guān)注大規(guī)模模型在真實(shí)系統(tǒng)環(huán)境中的部署與加速問(wèn)題。

田淵棟為 Meta AI 資深研究科學(xué)家,長(zhǎng)期從事強(qiáng)化學(xué)習(xí)與大模型研究,曾參與 AlphaZero 等強(qiáng)化學(xué)習(xí)系統(tǒng)研發(fā),并關(guān)注基礎(chǔ)模型的推理與決策能力。

參考資料:

https://infini-ai-lab.github.io/STEM/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
4月11日,多家上市公司發(fā)布重大利好利空消息

4月11日,多家上市公司發(fā)布重大利好利空消息

A股數(shù)據(jù)表
2026-04-11 06:20:03
1-1!姆巴佩遭點(diǎn)球爭(zhēng)議,巴爾韋德難救主,皇馬連續(xù)3場(chǎng)不勝

1-1!姆巴佩遭點(diǎn)球爭(zhēng)議,巴爾韋德難救主,皇馬連續(xù)3場(chǎng)不勝

我的護(hù)球最獨(dú)特
2026-04-11 05:04:38
文章新飯店開(kāi)張!開(kāi)業(yè)當(dāng)天人氣爆滿,文章戴婚戒抱著嬰兒在店合影

文章新飯店開(kāi)張!開(kāi)業(yè)當(dāng)天人氣爆滿,文章戴婚戒抱著嬰兒在店合影

一盅情懷
2026-04-10 15:38:43
女人靠?jī)赡臧腴_(kāi)房410次而“火箭升遷”,當(dāng)年南航這樁事有多丑陋

女人靠?jī)赡臧腴_(kāi)房410次而“火箭升遷”,當(dāng)年南航這樁事有多丑陋

長(zhǎng)安一孤客
2026-04-10 22:39:51
研究表明:性生活越頻繁,射精和勃起問(wèn)題越少!

研究表明:性生活越頻繁,射精和勃起問(wèn)題越少!

黯泉
2026-04-05 20:40:12
“眾籌、定制”?網(wǎng)警破獲利用AI制作傳播淫穢國(guó)漫案

“眾籌、定制”?網(wǎng)警破獲利用AI制作傳播淫穢國(guó)漫案

環(huán)球網(wǎng)資訊
2026-04-11 11:35:40
金價(jià)大反轉(zhuǎn)

金價(jià)大反轉(zhuǎn)

新浪財(cái)經(jīng)
2026-04-10 18:52:09
馬伊琍公布喜訊不到24小時(shí),文章高調(diào)求"復(fù)合" 姚笛才是笑到最后

馬伊琍公布喜訊不到24小時(shí),文章高調(diào)求"復(fù)合" 姚笛才是笑到最后

小椰的奶奶
2026-04-11 00:25:15
別以為反腐離你遠(yuǎn)!中紀(jì)委鎖定7大領(lǐng)域,這些崗位風(fēng)險(xiǎn)最高

別以為反腐離你遠(yuǎn)!中紀(jì)委鎖定7大領(lǐng)域,這些崗位風(fēng)險(xiǎn)最高

細(xì)說(shuō)職場(chǎng)
2026-04-10 11:40:48
重慶今年夏天有多熱?最新預(yù)測(cè)來(lái)了……

重慶今年夏天有多熱?最新預(yù)測(cè)來(lái)了……

萬(wàn)州生活
2026-04-10 22:39:29
韓媒:一旦開(kāi)戰(zhàn),將對(duì)北京發(fā)起致命打擊,大連、青島都在列!

韓媒:一旦開(kāi)戰(zhàn),將對(duì)北京發(fā)起致命打擊,大連、青島都在列!

青煙小先生
2026-04-11 09:46:04
節(jié)儉!瓜帥周薪50萬(wàn)歐,但他女兒在用裂了的iPhone15

節(jié)儉!瓜帥周薪50萬(wàn)歐,但他女兒在用裂了的iPhone15

懂球帝
2026-04-11 02:27:07
閉門(mén)會(huì)談后,鄭麗文提出臺(tái)島想要國(guó)際空間!

閉門(mén)會(huì)談后,鄭麗文提出臺(tái)島想要國(guó)際空間!

阿龍聊軍事
2026-04-11 11:33:50
許昕一句話,把樊振東徹底推上風(fēng)口浪尖!王皓早有預(yù)判

許昕一句話,把樊振東徹底推上風(fēng)口浪尖!王皓早有預(yù)判

十點(diǎn)街球體育
2026-04-10 13:51:25
北京首鋼拒絕輸球!全力擊敗上海隊(duì),麥基對(duì)位懷特塞德,央視直播

北京首鋼拒絕輸球!全力擊敗上海隊(duì),麥基對(duì)位懷特塞德,央視直播

體壇瞎白話
2026-04-11 08:54:30
實(shí)話實(shí)說(shuō),今年斯諾克世錦賽,中國(guó)只有三人有望奪冠,沒(méi)有丁俊暉

實(shí)話實(shí)說(shuō),今年斯諾克世錦賽,中國(guó)只有三人有望奪冠,沒(méi)有丁俊暉

老高說(shuō)體育
2026-04-11 10:32:38
戰(zhàn)無(wú)不勝的以軍遇克星!沙特與伊朗迎來(lái)強(qiáng)援,巴鐵梟龍將擊落F-35

戰(zhàn)無(wú)不勝的以軍遇克星!沙特與伊朗迎來(lái)強(qiáng)援,巴鐵梟龍將擊落F-35

書(shū)紀(jì)文譚
2026-04-10 16:16:00
特斯拉遠(yuǎn)程鎖死500歐元破解設(shè)備,車(chē)主一覺(jué)醒來(lái)FSD沒(méi)了

特斯拉遠(yuǎn)程鎖死500歐元破解設(shè)備,車(chē)主一覺(jué)醒來(lái)FSD沒(méi)了

Ping值焦慮
2026-04-10 08:18:00
美國(guó)這次打伊朗,到底誰(shuí)贏了誰(shuí)輸了?明眼人都看得真真兒的!

美國(guó)這次打伊朗,到底誰(shuí)贏了誰(shuí)輸了?明眼人都看得真真兒的!

紀(jì)史行者
2026-04-08 09:13:05
朝鮮最高領(lǐng)導(dǎo)人金正恩會(huì)見(jiàn)王毅

朝鮮最高領(lǐng)導(dǎo)人金正恩會(huì)見(jiàn)王毅

新華社
2026-04-10 18:38:12
2026-04-11 14:27:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14945文章數(shù) 66765關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

貴州400余名村民被困在"危山"之下:雨季來(lái)了只能等死

頭條要聞

貴州400余名村民被困在"危山"之下:雨季來(lái)了只能等死

體育要聞

換帥之后,他們從降級(jí)區(qū)沖到升級(jí)區(qū)

娛樂(lè)要聞

浪姐7淘汰 該走的沒(méi)走,不該走的走了

財(cái)經(jīng)要聞

從日本翻身看:這次誰(shuí)能扛住高油價(jià)?

汽車(chē)要聞

煥新極氪007/007GT上市 限時(shí)19.39萬(wàn)起

態(tài)度原創(chuàng)

親子
旅游
教育
藝術(shù)
時(shí)尚

親子要聞

碳板跑鞋又貴,又有害健康,但為什么小孩哥都這么喜歡?

旅游要聞

三明寧化推出“入寧游”新政 激活文旅發(fā)展新動(dòng)能

教育要聞

中小學(xué)教師減負(fù)8條措施

藝術(shù)要聞

17位當(dāng)代青年畫(huà)家油畫(huà)欣賞

“這件衣服”火了100年!這樣穿復(fù)古又時(shí)髦

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版