国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

無需Attention的未來,RWKV-7能成為替代Transformer的那只黑天鵝嗎?

0
分享至

作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

在當今大模型領(lǐng)域,Transformer架構(gòu)占據(jù)著主導地位。然而,盡管Transformer非常強大,但它的計算需求隨著文本長度呈平方級增長,這導致運行成本高昂,同時限制了其擴展能力。

與此相對,更為古老的RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))架構(gòu)雖然計算效率高,但通常無法達到Transformer的性能水平,并且訓練過程更為復雜和緩慢。

在這一背景下,由元始智能創(chuàng)始人彭博提出了RWKV架構(gòu)。RWKV融合了Transformer和RNN的優(yōu)點,在訓練階段可以像Transformer那樣并行計算,在推理階段又能像RNN那樣高效運行。隨著發(fā)展,RWKV現(xiàn)已成為隸屬于Linux基金會的開源非盈利組織,其代碼、模型和文檔均公開透明,核心項目RWKV-LM在GitHub上開源,形成了一個活躍的開發(fā)者社區(qū)。

自2021年8月首個實驗性版本RWKV-V1發(fā)布以來,RWKV架構(gòu)經(jīng)歷了多次重要迭代。它最初是對傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的改良嘗試,旨在解決處理長文本時的效率問題。2023年,RWKV-4實現(xiàn)了關(guān)鍵突破,使其能夠在普通硬件環(huán)境下高效處理各種語言和長篇文本。此后,RWKV逐漸被納入主流AI工具庫,RWKV社區(qū)的開發(fā)者甚至發(fā)現(xiàn)微軟Windows系統(tǒng)在Office組件更新后內(nèi)置了RWKV的運行庫。

剛剛發(fā)布論文的RWKV-7是這一架構(gòu)的最新進展,它采用創(chuàng)新的動態(tài)狀態(tài)演化技術(shù),支持100多種語言,能夠編寫代碼,處理超長文本。RWKV-7系列發(fā)布了七個預(yù)訓練模型,參數(shù)規(guī)模從0.19億到29億不等,訓練token數(shù)量從1.6萬億到5.6萬億不等,適應(yīng)不同應(yīng)用場景的需求。

彭博稱RWKV-7設(shè)計靈感來自于“第一性原理”,核心想法是:模型的內(nèi)部世界必須持續(xù)擬合外部世界。

這聽起來有點抽象,但我們可以把它想象成一個“聰明的學生”在學習和適應(yīng)環(huán)境的過程。QKV-softmax-attention(常見于 transformer 模型),它的做法是把所有“問題-答案”對放在一起,然后通過比較新問題 q 和每個“問題” k 的相似度,來決定答案是什么。就像小學生每次考試前,把課本里的所有題目都翻一遍,找到和新問題最像的那個,再寫下答案。

而 RWKV-7 的方法不是每次都去翻課本,而是直接從這些“問題-答案”對中動態(tài)學到一個“變換規(guī)則”(k -> v 的映射)。這個規(guī)則就像小學生自己總結(jié)出的解題技巧,遇到新問題時,直接用這個技巧推導出答案。

#01

性能驗證:超同尺寸模型

RWKV-的7創(chuàng)新在實際性能測試中也得到了驗證,在訓練數(shù)據(jù)遠低于 Qwen2.5、Llama3.2 等開源模型的前提下,RWKV-7-World 模型的語言建模能力在所有開源 3B 規(guī)模模型中達到 SoTA 水平。

RWKV團隊采用 Uncheatable Eval 方法——利用 2025 年 1 月之后的最新論文、新聞文章等實時數(shù)據(jù),測試開源大語言模型的真實建模能力和泛化能力。

評測結(jié)果顯示,在同等參數(shù)規(guī)模的前沿模型中,RWKV-7 依然具備強競爭力,展現(xiàn)出優(yōu)秀的適應(yīng)性和泛化性能。團隊正在訓練數(shù)據(jù)更多的 RWKV7-G1 系列模型,目標是在這個榜單同樣超越所有其他前沿模型。

#02

技術(shù)創(chuàng)新:動態(tài)狀態(tài)演化

RWKV-7究竟通過哪些技術(shù)創(chuàng)新實現(xiàn)了這些令人印象深刻的性能表現(xiàn)呢?根據(jù)由社區(qū)成員聯(lián)合撰寫的RWKV-7架構(gòu)論文《RWKV-7 "Goose" with Expressive Dynamic State Evolution》,RWKV-7引入了一項名為“表達性動態(tài)狀態(tài)演化”的關(guān)鍵創(chuàng)新,這是其性能提升的核心所在 。具體來說,RWKV-7通過引入一種廣義化的delta規(guī)則,使模型能更好地理解和處理信息。

RWKV-7在讀取新信息時,有一種特殊的方式來更新其記憶,有點像記筆記。這種特殊的方式被稱為“廣義 Delta 規(guī)則”。

把模型想象成有一個草稿本,它在上面記錄了從目前為止的文本中學到的東西。當它看到一個新的詞或信息時,它需要決定如何更新這個草稿本。

最初的“Delta 規(guī)則”擦除一點它為該鍵存儲的舊信息,并添加一點新信息。它擦除和添加的數(shù)量由一個簡單的數(shù)字控制。現(xiàn)在,RWKV-7 的規(guī)則是“廣義的”,這意味著它更靈活、更強大。它不是只用一個數(shù)字來決定為一個鍵擦除和添加多少信息,而是使用更詳細的指令。

通過引入廣義Delta Rule,RWKV-7 使用 2 層即可實現(xiàn) 復雜度的 狀態(tài)跟蹤問題,使用 4 層即可識別所有正則語言。

簡單來說,Transformers在處理這些“正則語言”時有局限性。它們的能力被限制在一個叫 TC0 的計算類別里。TC0 就像是一個只能用固定步驟解決問題的工具箱,遇到某些復雜任務(wù)時就顯得力不從心。

而RWKV-7可以用固定的層數(shù)(也就是固定的計算步驟)處理所有正則語言。這意味著,不管語言規(guī)則有多復雜。

這個能力聽起來很理論,但實際上特別有用。RWKV-7 能更高效地解決一些需要“跟蹤狀態(tài)”的問題。什么是“跟蹤狀態(tài)”呢?舉個例子:

在讀一個長故事時,記住誰做了什么、事情是怎么發(fā)展的;

在理解一句復雜句子時,搞清楚每個詞之間的關(guān)系。

這些任務(wù)需要模型一邊讀一邊更新自己的“記憶”。RWKV-7 靠它的“狀態(tài)矩陣”來做到這一點。你可以把“狀態(tài)矩陣”想象成一個記事本,模型會在這上面記下看到的信息,還能靈活地“交換”信息或者改變記錄的方式(專業(yè)點叫“狀態(tài)轉(zhuǎn)換函數(shù)”)。

應(yīng)用方面,RWKV-7適用于語言建模和多模態(tài)應(yīng)用,其高效處理長上下文的能力使其在文檔摘要、對話系統(tǒng)和代碼生成等領(lǐng)域具有優(yōu)勢。其無注意力機制和恒定內(nèi)存使用也使其適合資源受限的設(shè)備,潛在擴展到邊緣計算場景。

RWKV-7開發(fā)團隊已規(guī)劃了明確的技術(shù)發(fā)展方向,計劃通過擴充訓練數(shù)據(jù)集來支持更大規(guī)模模型的訓練,同時將致力于增強模型的思維鏈推理能力。

團隊還將評估采用DeepSeek近期研究中驗證有效的前沿技術(shù),包括混合專家模型(MoE)架構(gòu)、多token預(yù)測技術(shù)和FP8精度訓練等優(yōu)化方案。

為了促進開放性、可復現(xiàn)性和采用,RWKV-7開發(fā)團隊在Hugging Face上發(fā)布了模型和數(shù)據(jù)集組件列表,并在GitHub上發(fā)布了訓練和推理代碼,所有這些資源均在Apache 2.0許可下提供,允許廣泛應(yīng)用于研究和商業(yè)項目。

#03

超越Transformer

Transformer廣泛用于自然語言處理和其他領(lǐng)域,但它在處理長序列時存在顯著的局限性。例如,對于百萬級別的上下文窗口,Transformer 的性能會顯著下降,限制了其在實際應(yīng)用中的可擴展性。對于需要低延遲或在資源受限設(shè)備上運行的場景(如移動設(shè)備或?qū)崟r系統(tǒng)),Transformer 的高計算成本和內(nèi)存消耗成為瓶頸。

Mamba是另一個獲得相當多關(guān)注的 Transformer 替代方案,Transformer 如此流行,以至于提出它們的原始論文自發(fā)表以來的 8 年間獲得了超過 17.1 萬次引用,而提出 LSTM 的 1997 年論文則有 12.2 萬次引用。Mamba 論文有 2537 次引用,RetNet 有 350 次,xLSTM 有 31次,RWKV論文有510次引用,而谷歌DeepMind最新提出的Titans架構(gòu)只有12次引用。

類似RWKV-7這樣的發(fā)展,即使還不會完全顛覆現(xiàn)有的范式,也會推動這一領(lǐng)域的進一步發(fā)展,AI的未來不僅將由更大的模型塑造,還將由更智能的架構(gòu)設(shè)計引領(lǐng)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
河南降雪中心已確定,8地市將迎中到大雪,河南得雪要下多久?

河南降雪中心已確定,8地市將迎中到大雪,河南得雪要下多久?

夜深愛雜談
2026-03-01 19:36:53
美媒:美國再次成為唯一超級大國,中國曾有機會,但如今輸?shù)舾偁?>
    </a>
        <h3>
      <a href=縱擁千千晚星
2026-01-20 14:16:25
小米粥再次成矚目,調(diào)查發(fā)現(xiàn):高血糖患者喝小米粥,或有4大改善

小米粥再次成矚目,調(diào)查發(fā)現(xiàn):高血糖患者喝小米粥,或有4大改善

阿兵科普
2026-02-28 09:33:48
被罵“后媽式早餐“的她,全網(wǎng)有100萬人在追更!

被罵“后媽式早餐“的她,全網(wǎng)有100萬人在追更!

媽咪OK
2026-02-27 15:16:05
馬斯克藏太深!美星鏈離不開7家中國公司,每一家都是全球頂尖!

馬斯克藏太深!美星鏈離不開7家中國公司,每一家都是全球頂尖!

愛吃醋的貓咪
2026-02-27 17:56:07
國家出手,反詐老陳徹底涼涼!網(wǎng)友再曝猛料,不止搞對立這么簡單

國家出手,反詐老陳徹底涼涼!網(wǎng)友再曝猛料,不止搞對立這么簡單

云舟史策
2026-02-28 14:22:50
上海合作組織秘書處降半旗

上海合作組織秘書處降半旗

觀察者網(wǎng)
2026-03-01 18:14:11
我存了87萬,表姑問存款多少,我說7萬,隔天表姑說她要來

我存了87萬,表姑問存款多少,我說7萬,隔天表姑說她要來

小秋情感說
2026-03-01 10:01:59
“史詩怒火”,美以正式開打

“史詩怒火”,美以正式開打

難得君
2026-02-28 17:42:42
外交部副部長孫衛(wèi)東禮節(jié)性會見菲律賓外交部部長助理兼亞太司司長

外交部副部長孫衛(wèi)東禮節(jié)性會見菲律賓外交部部長助理兼亞太司司長

證券時報
2026-02-28 19:03:03
超級世界波!國安賽季首球,達萬遠射破門,22年首人,顏駿凌搖頭

超級世界波!國安賽季首球,達萬遠射破門,22年首人,顏駿凌搖頭

奧拜爾
2026-03-01 16:08:16
河北孟村殺妻案最新消息,堂哥說已經(jīng)被執(zhí)行

河北孟村殺妻案最新消息,堂哥說已經(jīng)被執(zhí)行

九方魚論
2026-03-01 20:14:28
38歲前皇馬門神成功逃離伊朗!再晚3小時就走不了:聯(lián)系不上隊友

38歲前皇馬門神成功逃離伊朗!再晚3小時就走不了:聯(lián)系不上隊友

風過鄉(xiāng)
2026-03-01 09:55:38
中國50后還有多少人?多少人能活到80歲?權(quán)威數(shù)據(jù)告訴你

中國50后還有多少人?多少人能活到80歲?權(quán)威數(shù)據(jù)告訴你

深度報
2026-02-27 21:36:50
黃景瑜領(lǐng)銜,李雪健 倪大紅坐鎮(zhèn)!38集犯罪大劇來襲!要引爆收視

黃景瑜領(lǐng)銜,李雪健 倪大紅坐鎮(zhèn)!38集犯罪大劇來襲!要引爆收視

小椰的奶奶
2026-03-01 20:45:38
網(wǎng)傳新能源汽車開征“里程稅” 收費0.12元/公里 多地回應(yīng)

網(wǎng)傳新能源汽車開征“里程稅” 收費0.12元/公里 多地回應(yīng)

快科技
2026-02-27 21:58:15
春天“開衫+半身裙”火出圈!既溫柔又優(yōu)雅,絕了

春天“開衫+半身裙”火出圈!既溫柔又優(yōu)雅,絕了

何有強
2026-02-28 18:40:03
伊朗外長:美以打完后,愿重啟談判

伊朗外長:美以打完后,愿重啟談判

觀察者網(wǎng)
2026-03-01 08:39:35
美以剛炸完伊朗,人民幣結(jié)算被卡脖子,中國怎么辦?

美以剛炸完伊朗,人民幣結(jié)算被卡脖子,中國怎么辦?

生活新鮮市
2026-03-01 13:27:54
臉在江山在?事實證明,失去黃曉明的楊穎,又回到了她的“怪圈”

臉在江山在?事實證明,失去黃曉明的楊穎,又回到了她的“怪圈”

觀察鑒娛
2026-02-28 10:07:44
2026-03-01 21:43:00
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
243文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂部

頭條要聞

全球1/5"石油動脈"被切斷 海運行業(yè)遭遇急性運營危機

頭條要聞

全球1/5"石油動脈"被切斷 海運行業(yè)遭遇急性運營危機

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

房產(chǎn)
游戲
健康
本地
教育

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

LCK決賽:GEN橫掃BFX!達成在2026LCK杯大場全勝奪冠成就

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

本地新聞

津南好·四時總相宜

教育要聞

中考數(shù)學重難點,二次函數(shù)壓軸題每天學,難住不少同學!

無障礙瀏覽 進入關(guān)懷版