国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ICLR 2026|早于DeepSeek Engram,STEM已重構(gòu)Transformer記憶

0
分享至



近年來,隨著大語言模型規(guī)模與知識密度不斷提升,研究者開始重新思考一個更本質(zhì)的問題:模型中的參數(shù)應如何被組織,才能更高效地充當「記憶」。

在標準 Transformer 的 FFN 中,知識主要隱式存儲在 up-projection 等密集矩陣里,并通過輸入相關的矩陣乘法被動態(tài)激活,這種方式在表達力上有效,但在參數(shù)可尋址性、可編輯性與系統(tǒng)效率上存在天然限制。

圍繞這一問題,學術(shù)界與工業(yè)界逐漸將目光投向更離散、更結(jié)構(gòu)化的參數(shù)組織方式。以 DeepSeek 提出的 engram 為代表,近期多項工作重新喚起了對「查表式記憶(lookup-based memory)」的關注。而有意思的是,在 engram 發(fā)布之前約三個月,這篇 ICLR paper 也在這一方向進行系統(tǒng)探索 。



  • 論文鏈接:https://arxiv.org/pdf/2601.10639
  • 項目主頁:https://infini-ai-lab.github.io/STEM/

與 MoE 相關工作不同,STEM 并非在現(xiàn)有稀疏路由框架上做局部改進,而是直接從 FFN 結(jié)構(gòu)入手,將 up-projection 替換為按 token 索引的層級 embedding 表,以一種靜態(tài)、無運行時路由的方式重構(gòu) Transformer 中「記憶」的訪問路徑。

從「算地址」到「查地址」:STEM 的核心直覺

如果從 key-value memory view 來看標準 Transformer,SwiGLU 等 FFN 結(jié)構(gòu)通常通過一次 up-projection,將輸入表示映射到高維空間,生成可被 gate 調(diào)制的「地址向量」。

這一過程本質(zhì)上是輸入相關的密集矩陣乘法,既昂貴,又在參數(shù)層面高度耦合。

STEM 的關鍵洞察在于:如果 FFN 的作用更接近于「按 token 訪問記憶」,那么這些地址向量是否真的需要由輸入動態(tài)生成?

基于這一問題,STEM 選擇了一條極為直接的路徑:不再通過 up-projection 計算地址向量,而是為每一層維護一個按 token 索引的 embedding 表,在前向傳播時直接根據(jù) token id 查表獲取對應向量。





gate 與 down-projection 則被完整保留,用于對查表得到的向量進行上下文調(diào)制與壓縮。

這一替換,使 FFN 的結(jié)構(gòu)發(fā)生了一個本質(zhì)變化:「記憶容量」第一次與「每 token 計算量」被明確解耦。

結(jié)構(gòu)變化雖小,卻帶來一系列連鎖效應

盡管 STEM 只替換了 FFN 中的一個子模塊,但實驗結(jié)果表明,這一設計在多個維度上產(chǎn)生了顯著影響。

1. 可編輯性:直接修改「知識向量」

STEM 的一個尤為引人注目的特性,是其顯式的 token–參數(shù)對應關系。



由于每一層的 embedding 都直接與 token id 綁定,研究者可以在不進行再訓練的情況下,直接替換某個 token 的 STEM 向量,從而改變模型在相關事實上的輸出行為。比如圖中例子展示僅通過替換「Spain」與「Germany」的向量,就可以使模型對首都問題的回答發(fā)生對應變化。

這一能力為模型的知識編輯、和對模型的理解提供了一種新思路。

2. 訓練穩(wěn)定性:靜態(tài)稀疏優(yōu)于動態(tài)路由

與 MoE 等依賴運行時路由的方案不同,STEM 屬于一種靜態(tài)稀疏結(jié)構(gòu):每個 token 在每一層所訪問的 embedding 是確定的,不涉及負載均衡或 all-to-all 通信。這種設計避免了 MoE 中常見的 load skew 與 loss spike 問題。



3. 更高效的「記憶空間」:embedding 幾何結(jié)構(gòu)的改變

從表示空間的角度看,用 token-indexed embedding 替代 up-projection,會顯著改變 FFN 輸入向量的幾何分布。STEM 中的 embedding 表呈現(xiàn)出更大的角度散布(large angular spread),不同 token 的向量更加接近正交,從而有效減少了參數(shù)之間的相互干擾(cross-talk)。

這一性質(zhì)意味著,在相同甚至更低的計算成本下,模型能夠維持更多「可尋址的記憶槽位」,對知識存儲和檢索尤為有利。

4. 計算與系統(tǒng)效率:FLOPs 與 IO 的雙重下降

從計算復雜度上看,移除 up-projection 后,每一層可節(jié)省約 d?d_ff 級別的矩陣乘法開銷。更重要的是,大規(guī)模的 embedding 表可以被離載到 CPU,并通過異步 prefetch 與緩存策略進行訪問。

實驗結(jié)果:規(guī)模、任務與長上下文的系統(tǒng)驗證

在 350M 與 1B 兩個模型規(guī)模上,STEM 被系統(tǒng)性地與 dense baseline 進行對比。

結(jié)果顯示:

  • 整體平均性能提升約3–4%,部分知識類任務提升幅度可達9–10%;
  • 在 Needle-in-a-Haystack 與 LongBench 等長上下文評測中,STEM 的優(yōu)勢還會隨著上下文長度的增加而擴大。

工程視角:如何真正落地

論文也對 STEM 的系統(tǒng)實現(xiàn)給出了較為完整的討論:

  • 替換位置:僅替換 up-projection 是關鍵,盲目替換 gate-projection 會破壞上下文調(diào)制能力;
  • 存儲策略:embedding 表可 CPU 離載,訓練時需要將梯度回寫到對應的 optimizer state;
  • 折衷方案:在參數(shù)占比與顯存壓力之間,可采用部分層替換或混合變體進行平衡。

結(jié)語

STEM 展示了一種值得關注的趨勢:通過改變參數(shù)的「組織方式」,而非一味增加規(guī)?;蛴嬎?,模型同樣可以獲得顯著能力提升。

在當前大模型架構(gòu)逐漸走向復雜化的背景下,這種簡潔、穩(wěn)定且工程友好的設計思路,或許正是下一階段基座模型演進中不可忽視的一條路徑。

作者介紹

本文第一作者 Ranajoy Sadhukhan 為卡內(nèi)基梅隆大學(CMU)InfiniAI Lab 博士生,師從陳貝迪教授。該工作完成于其在 Meta AI 實習期間,實習導師包括劉澤春、曹晟(Rick Cao)與田淵棟等研究人員。

InfiniAI Lab 由陳貝迪教授創(chuàng)立,致力于模型、系統(tǒng)與硬件協(xié)同設計,研究高效且可擴展的 AI 算法與系統(tǒng),重點方向包括長上下文多模態(tài)建模、突破傳統(tǒng) scaling laws 的新一代模型架構(gòu),以及基礎模型的理解與推理能力增強,同時推動算法與系統(tǒng)層面的效率優(yōu)化,以促進 AI 技術(shù)的普及化。

劉澤春為 Meta AI 研究科學家,研究方向涵蓋基座模型訓練,大模型壓縮、稀疏化與端側(cè)部署優(yōu)化,專注于模型高效推理與系統(tǒng)協(xié)同設計。

曹晟(Rick Cao)為 Meta AI 研究員,主要研究大模型系統(tǒng)優(yōu)化與高效推理架構(gòu)設計,關注大規(guī)模模型在真實系統(tǒng)環(huán)境中的部署與加速問題。

田淵棟為 Meta AI 資深研究科學家,長期從事強化學習與大模型研究,曾參與 AlphaZero 等強化學習系統(tǒng)研發(fā),并關注基礎模型的推理與決策能力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
關鍵時刻先表態(tài)!特朗普訪華在即,王毅提前發(fā)聲:中方永不稱霸

關鍵時刻先表態(tài)!特朗普訪華在即,王毅提前發(fā)聲:中方永不稱霸

奇思妙想生活家
2026-03-09 20:43:11
西班牙議員:立刻退出北約,美國和以色列就是人類最大的威脅!

西班牙議員:立刻退出北約,美國和以色列就是人類最大的威脅!

達文西看世界
2026-03-06 11:39:26
中美GDP差距重新擴大至兩德規(guī)模,70%魔咒再現(xiàn)背后不簡單

中美GDP差距重新擴大至兩德規(guī)模,70%魔咒再現(xiàn)背后不簡單

梁濆愛玩車
2026-03-08 22:50:59
英超球隊身價榜:曼城第一阿森納第二,熱刺跌幅8.4%最大

英超球隊身價榜:曼城第一阿森納第二,熱刺跌幅8.4%最大

懂球帝
2026-03-09 21:19:07
中芯創(chuàng)始人、長江存儲董事聯(lián)名發(fā)文:組建國產(chǎn)ASML,跟對方硬碰硬

中芯創(chuàng)始人、長江存儲董事聯(lián)名發(fā)文:組建國產(chǎn)ASML,跟對方硬碰硬

逍遙漠
2026-03-09 11:07:25
三個人48小時,用了3000元不到,做了部全網(wǎng)5億流量的爆款AI短劇

三個人48小時,用了3000元不到,做了部全網(wǎng)5億流量的爆款AI短劇

九千光年
2026-03-06 18:58:09
史詩級封殺!2000萬網(wǎng)紅“聽風的蠶”徹底涼了

史詩級封殺!2000萬網(wǎng)紅“聽風的蠶”徹底涼了

互聯(lián)網(wǎng)品牌官
2026-02-12 01:17:23
凌晨,4人在錢塘江邊頭戴照明燈,穿著雨鞋,攜帶“密網(wǎng)”抓鰻魚苗,被抓!

凌晨,4人在錢塘江邊頭戴照明燈,穿著雨鞋,攜帶“密網(wǎng)”抓鰻魚苗,被抓!

環(huán)球網(wǎng)資訊
2026-03-09 18:13:42
毛主席為何不參加周總理追悼會?華國鋒說出實情:沒什么隱瞞的

毛主席為何不參加周總理追悼會?華國鋒說出實情:沒什么隱瞞的

芊芊子吟
2026-03-07 09:35:07
必須馬上住院!糖尿病人出現(xiàn)6種情況要警惕,否則生命可能有危險

必須馬上住院!糖尿病人出現(xiàn)6種情況要警惕,否則生命可能有危險

路醫(yī)生健康科普
2026-03-09 20:05:03
虧損超3.3億!吳京《鏢人》成2026年票房黑馬,12億難敵7.5億成本

虧損超3.3億!吳京《鏢人》成2026年票房黑馬,12億難敵7.5億成本

小椰的奶奶
2026-03-09 00:32:54
前軍統(tǒng)特務谷正文的晚年自述:在臺灣落網(wǎng)的諸多中共地下黨員里,僅有張志忠算得上真男人

前軍統(tǒng)特務谷正文的晚年自述:在臺灣落網(wǎng)的諸多中共地下黨員里,僅有張志忠算得上真男人

起飛做故事
2026-03-07 19:46:12
WTI原油期貨大漲超30%,逼近120美元/桶

WTI原油期貨大漲超30%,逼近120美元/桶

每日經(jīng)濟新聞
2026-03-09 14:44:52
中國女足VS朝鮮!裁判2次誤判,朝鮮抵制罷賽,恐遭亞足聯(lián)重罰

中國女足VS朝鮮!裁判2次誤判,朝鮮抵制罷賽,恐遭亞足聯(lián)重罰

詹妹侃體育
2026-03-09 20:17:26
諾基亞N97殺瘋了:7.2英寸直屏+6000mAh+2億主攝

諾基亞N97殺瘋了:7.2英寸直屏+6000mAh+2億主攝

涼了時光人
2026-03-07 09:31:03
最新調(diào)整!中國女籃12人名單出爐,2人歸隊、1人落選,李夢沒戲

最新調(diào)整!中國女籃12人名單出爐,2人歸隊、1人落選,李夢沒戲

兵哥籃球故事
2026-03-09 14:52:15
一舞封神后,被東莞首富收入囊中,如今已是7歲孩子的媽媽

一舞封神后,被東莞首富收入囊中,如今已是7歲孩子的媽媽

娛說瑜悅
2026-03-06 18:13:06
究竟遜尼派與什葉派的區(qū)別是什么?

究竟遜尼派與什葉派的區(qū)別是什么?

難得君
2026-03-07 09:53:43
大逆轉(zhuǎn)!世界亞軍1:2不敵日本選手,張本美和3:0,平野美宇3:0

大逆轉(zhuǎn)!世界亞軍1:2不敵日本選手,張本美和3:0,平野美宇3:0

國乒二三事
2026-03-09 06:59:11
狂輸39分!被高估的聯(lián)盟第一人,只會抱怨,你們不配拿總冠軍

狂輸39分!被高估的聯(lián)盟第一人,只會抱怨,你們不配拿總冠軍

籃球掃地僧
2026-03-09 17:48:48
2026-03-09 22:35:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12451文章數(shù) 142579關注度
往期回顧 全部

科技要聞

OpenClaw更新,"養(yǎng)蝦"再也不會犯健忘癥了

頭條要聞

媒體:特朗普失算了 接班的穆杰塔巴比父親更強硬

頭條要聞

媒體:特朗普失算了 接班的穆杰塔巴比父親更強硬

體育要聞

36連勝終結(jié)!大魔王也是可以戰(zhàn)勝的

娛樂要聞

薛之謙老婆懷二胎,現(xiàn)身產(chǎn)檢心情愉快

財經(jīng)要聞

油價破100美元年內(nèi)漲80% 全球市場劇震

汽車要聞

對標奔馳小號G級 路虎小型衛(wèi)士最新消息曝光

態(tài)度原創(chuàng)

教育
房產(chǎn)
健康
旅游
公開課

教育要聞

徐匯中考體育考試時間和地點安排定了!

房產(chǎn)要聞

國家要砸400億!海南這個超級項目又有新消息!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

旅游要聞

甘南三月的顏值巔峰 藏在白龍江畔的花花世界里!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版