国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Transformer與RNN合體,谷歌打下顯存門檻,解鎖超長上下文

0
分享至



編輯|澤南

最近,谷歌跟內(nèi)存干上了。

上個月,谷歌的 TurboQuant 研究曾經(jīng)引發(fā)過一場行業(yè)地震,其宣稱能直接把大模型最吃顯存的 KV Cache 壓縮幾倍,讓市場開始擔(dān)憂未來對內(nèi)存的需求,引發(fā)了一波內(nèi)存股暴跌,后續(xù)還有不小的學(xué)術(shù)爭議。

這個星期,又有一篇谷歌論文引發(fā)了 AI 圈的關(guān)注,作者表示他們提出的方法解決了大模型處理長文本時的「內(nèi)存瓶頸」(又來了),但實施的是完全不同的技術(shù)路線。

他們新開一條道路,通過對于大模型架構(gòu)的機制創(chuàng)新,賦予了 RNN 「可生長的記憶容量」,找到了一種兼顧 Transformer 與 RNN 優(yōu)勢的新方法



該方法可以讓 AI 處理更長的文本,解鎖「超長上下文」能力,與此同時極大地降低了推理的資源門檻。

人們紛紛表示歡迎:大模型生產(chǎn)環(huán)境要的就是這個。





當(dāng)前的大模型幾乎都是基于 Transformer 架構(gòu)打造的,它占據(jù)統(tǒng)治地位,主要歸功于其可增長的記憶容量(注意力機制的計算和空間復(fù)雜度隨上下文長度呈二次方增長)。這使得 Transformer 極其擅長長上下文的信息召回(Recall)。

然而,這種二次方復(fù)雜度也導(dǎo)致了嚴重的算力和顯存瓶頸,使得處理超長文本的成本極高。

為解決這個問題,社區(qū)一直在復(fù)興 RNN、線性注意力模型(Linear Attention)以及狀態(tài)空間模型(SSM,如 Mamba 等)。這些循環(huán)架構(gòu)的優(yōu)勢在于記憶容量固定(復(fù)雜度為),推理速度快且顯存占用低。然而,它們的致命弱點在于:無論讀了多少文本,都必須把所有過去的信息壓縮到一個「固定大小」的隱藏狀態(tài)(Hidden State)中。

這種「信息漏斗」導(dǎo)致它們在密集召回任務(wù)(Recall-intensive tasks,比如從極長的文檔中精準提取某個細節(jié))中表現(xiàn)往往遠不如 Transformer。

為打破僵局,來自 Google Research 的研究團隊提出了一種名為Memory Caching(MC)的技術(shù),據(jù)說簡單而有效。



  • 論文:《Memory Caching: RNNs with Growing Memory》
  • 論文鏈接:https://arxiv.org/abs/2602.24281

在這項研究的視角中,存在一個架構(gòu)光譜:一端是 Transformer(無壓縮,Token 級緩存),另一端是傳統(tǒng)的 RNN(全壓縮,單一記憶)。而「記憶緩存(MC)」則解鎖了介于兩者之間的新形態(tài):將成組 Token 壓縮并緩存到長期記憶狀態(tài)中,然后在需要時進行檢索。

Transformer 會緩存每一個單獨的標記,而 RNN 則考慮一個固定大小的記憶,并將上下文中的一切壓縮到記憶的參數(shù)中。那么,如果我們把 RNN 的歷史記憶也緩存下來會怎樣?

簡單來說,與其讓 RNN 只維護一個不斷被覆蓋和更新的「當(dāng)前狀態(tài)」,不如定期對這些隱藏狀態(tài)進行「快照打卡」(Caching checkpoints)。這樣,在進行信息檢索時,模型不僅可以查看當(dāng)前的「在線記憶」,還能直接調(diào)取「緩存記憶」中的歷史快照,瞬間找回過去的相關(guān)信息。



在研究的過程中,作為概念驗證,研究人員提出了三種變體,基于過去的信息如何組合在一起。

1、門控殘差記憶(Gated Residual Memory):使用查詢從過去檢索相關(guān)信息,然后執(zhí)行類似注意力的池化來組合檢索到的信息。實際上,RNN 的記憶在增長,因此解碼成本也在增長:



2、記憶湯(Memory Soup):另一種結(jié)合過去記憶的方式,是直接結(jié)合記憶的權(quán)重,而不是針對特定查詢的輸出。在這種情況下,我們需要對過去記憶的權(quán)重執(zhí)行類似注意力的池化操作,然后對池化后的記憶執(zhí)行一次檢索。同樣,這種變體相對于上下文長度具有不斷增長的有效記憶,因此解碼成本也在增長。



3、稀疏選擇性緩存(Sparse Selective Caching,SSC):到目前為止,似乎沒有免費的午餐,我們需要在不斷增長的有效記憶和每 token 恒定的解碼成本之間做出選擇。

于是作者提出了 SSC,這是一種類似于 MoBA 的專家混合模型,在序列維度上稀疏地選擇過去緩存記憶的一個子集,從而引出一個模型,其有效記憶在增長,但其每 token 解碼成本保持相對恒定:



那么效果如何呢?

該方法可以作為一種通用框架,插入到各種現(xiàn)有的循環(huán)架構(gòu)中,如線性注意力模型,或作者之前提出的深度內(nèi)存模型 Titans 等。

實驗結(jié)果表明了其強大的有效性:



模型在語言建模和常識推理任務(wù)上的表現(xiàn)。

作者在 13 億參數(shù)的模型上進行了語言建模、召回密集型、長上下文以及 needle-in-a-haystack 等實驗,結(jié)果顯示 MC 相較于基礎(chǔ)模型提供了改進。其中包括:

  • 長上下文能力提升:在語言建模和長上下文理解任務(wù)中,加入了 MC 機制的循環(huán)模型性能得到了全面提升。
  • 縮小與 Transformer 的差距:在最具挑戰(zhàn)性的「上下文內(nèi)召回(in-context recall)」任務(wù)中,加入了 MC 的模型擊敗了目前最先進(SOTA)的其他循環(huán)模型。
  • 依然存在上限:雖然 MC 極大地彌補了 RNN 的召回短板,并極大縮小了與 Transformer 之間的性能差距,但論文也指出,在純粹的密集召回任務(wù)上限上,Transformer 依然保持著最佳的準確率。

總的來說,該研究利用一種極其優(yōu)雅的算法直覺(緩存歷史狀態(tài)快照),解決了一個長期存在的理論難題,讓非 Transformer 架構(gòu)在實用性上又向前邁進了一大步。

盡管在極限的密集召回上,它依然尚未徹底超越 Transformer,但新路已經(jīng)鋪就,隨著 RNN、SSM 等架構(gòu)的持續(xù)進化,Transformer 一家獨大的現(xiàn)狀或許要有所改變了?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
愛美的心:那是你對生活最溫柔的反抗

愛美的心:那是你對生活最溫柔的反抗

疾跑的小蝸牛
2026-04-18 22:32:07
北京電影節(jié)開幕式紅毯:高圓圓舒淇好美,高葉造型亮眼,尹正瘦了

北京電影節(jié)開幕式紅毯:高圓圓舒淇好美,高葉造型亮眼,尹正瘦了

夢想的旅途照進現(xiàn)實
2026-04-19 03:31:14
馬筱梅與玥箖割席后,硬要帶親媽住婆婆的別墅,張?zhí)m終于不再沉默

馬筱梅與玥箖割席后,硬要帶親媽住婆婆的別墅,張?zhí)m終于不再沉默

老屬科普
2026-04-18 06:08:23
朱芳雨:很遺憾沒能用勝利答謝球迷,希望季后賽能得到大家支持

朱芳雨:很遺憾沒能用勝利答謝球迷,希望季后賽能得到大家支持

懂球帝
2026-04-18 23:29:08
遼寧遭浙江逆轉(zhuǎn)橫掃:趙繼偉13+7付豪復(fù)出9分 程帥澎15分

遼寧遭浙江逆轉(zhuǎn)橫掃:趙繼偉13+7付豪復(fù)出9分 程帥澎15分

醉臥浮生
2026-04-18 21:35:38
照母山近十年首個豪宅開盤,兩小時宣告售罄?現(xiàn)場驚爆大瓜

照母山近十年首個豪宅開盤,兩小時宣告售罄?現(xiàn)場驚爆大瓜

小樹聊房
2026-04-18 21:54:43
伊朗陸軍司令:伊斯法罕省行動失敗是敵方?;鹬饕?>
    </a>
        <h3>
      <a href=界面新聞
2026-04-18 09:00:17
哈登價值盡顯!騎士季后賽喜迎開門紅,一戰(zhàn)完美印證引援抉擇!

哈登價值盡顯!騎士季后賽喜迎開門紅,一戰(zhàn)完美印證引援抉擇!

田先生籃球
2026-04-19 05:19:57
訪華結(jié)束,蘇林搭上回國火車,臨走前向中國借飛機,越南打破慣例

訪華結(jié)束,蘇林搭上回國火車,臨走前向中國借飛機,越南打破慣例

近史博覽
2026-04-19 05:12:46
不愧是冠軍教頭!有胸襟!海港穆帥一口氣帶足23人 承擔(dān)所有責(zé)任

不愧是冠軍教頭!有胸襟!海港穆帥一口氣帶足23人 承擔(dān)所有責(zé)任

80后體育大蜀黍
2026-04-16 23:11:52
雷軍挑戰(zhàn)成功!小米新SU7行駛1313公里只充1次電,連續(xù)直播15個小時,多名車友一路跟隨

雷軍挑戰(zhàn)成功!小米新SU7行駛1313公里只充1次電,連續(xù)直播15個小時,多名車友一路跟隨

極目新聞
2026-04-17 22:41:31
曼聯(lián)2026年至今14輪英超拿到28分,同期聯(lián)賽所有球隊第一

曼聯(lián)2026年至今14輪英超拿到28分,同期聯(lián)賽所有球隊第一

懂球帝
2026-04-19 05:19:12
2-2!熱刺遭絕平仍陷降級區(qū) 15輪不勝創(chuàng)紀錄 傳射功臣沮喪快哭了

2-2!熱刺遭絕平仍陷降級區(qū) 15輪不勝創(chuàng)紀錄 傳射功臣沮喪快哭了

我愛英超
2026-04-19 05:29:34
圖片報:格納布里是在訓(xùn)練中受傷,拜仁認為他至少缺席2個月

圖片報:格納布里是在訓(xùn)練中受傷,拜仁認為他至少缺席2個月

懂球帝
2026-04-19 05:19:13
吳昕鄭凱戀情曝光,兩人疑已相戀7年,吳昕曾坦言不想結(jié)婚生孩子

吳昕鄭凱戀情曝光,兩人疑已相戀7年,吳昕曾坦言不想結(jié)婚生孩子

可樂談情感
2026-04-19 02:21:24
打不得!日本戰(zhàn)艦闖入臺海峽,我軍為什么不直接擊沉它?

打不得!日本戰(zhàn)艦闖入臺海峽,我軍為什么不直接擊沉它?

動漫里的童話
2026-04-18 04:21:22
遼寧下賽季難有調(diào)整!老將變老,小將無成長,幾乎沒調(diào)整空間!

遼寧下賽季難有調(diào)整!老將變老,小將無成長,幾乎沒調(diào)整空間!

籃球資訊達人
2026-04-19 01:00:36
2026新型生育計劃來了!不生也得生?專家新政真相曝光

2026新型生育計劃來了!不生也得生?專家新政真相曝光

一口娛樂
2026-04-18 15:31:41
對高市不再留情,中方全面斷供開始!30國代表赴日,岸田重新出山

對高市不再留情,中方全面斷供開始!30國代表赴日,岸田重新出山

娛樂圈的筆娛君
2026-04-19 04:35:26
燃氣公司上門安檢,根本不是查漏氣!真正目的其實是這3個

燃氣公司上門安檢,根本不是查漏氣!真正目的其實是這3個

李博世財經(jīng)
2026-04-16 14:04:21
2026-04-19 05:55:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12792文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

伊朗革命衛(wèi)隊向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

頭條要聞

伊朗革命衛(wèi)隊向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

體育要聞

時隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細節(jié)

財經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價14.48萬元起

態(tài)度原創(chuàng)

本地
時尚
游戲
教育
公開課

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

選對發(fā)型,真的能少走很多變美彎路

讓老粥批直呼“計劃有變”的歲獸代理人,到底是什么東西?

教育要聞

杭州老師解讀古人如何說愛你,陌上花開,可緩緩歸矣

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版