国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

華人學(xué)生立大功!新王Mamba-3直擊Transformer死穴,推理效率碾壓7倍

0
分享至


新智元報(bào)道

編輯:好困 桃子

【新智元導(dǎo)讀】Transformer不保?今天,CMU普林斯頓原班人馬殺回,新一代開(kāi)源架構(gòu)Mamba-3震撼降臨。15億參數(shù)戰(zhàn)力爆表,性能比Transformer飆升4%。

Transformer「殺手」架構(gòu)迎重磅升級(jí)!

就在今天,Mamba架構(gòu)的「原班人馬」正式發(fā)布了最新一代開(kāi)源架構(gòu)——Mamba-3。


論文地址:https://arxiv.org/pdf/2603.15569

與Mamba-2相比,Mamba-3對(duì)核心SSM做了三大改動(dòng):

  • 改進(jìn)了離散化過(guò)程,使其能夠模擬卷積;

  • 將狀態(tài)轉(zhuǎn)移引入復(fù)數(shù)域,以優(yōu)化狀態(tài)追蹤;

  • 采用MIMO架構(gòu)提升推理利用率,在保持解碼速度的同時(shí)增強(qiáng)模型表現(xiàn)。



結(jié)果證明,僅用一半的內(nèi)部狀態(tài)大小,Mamba-3實(shí)力便與Mamba-2相當(dāng)。

在15億參數(shù)規(guī)模下,Mamba-3 MIMO版本的平均準(zhǔn)確率達(dá)到57.6%,比Transformer高出4%。

在長(zhǎng)序列任務(wù)上,Mamba-3的端到端延遲僅為T(mén)ransformer的七分之一。


劍指Transformer死穴

Mamba-3逆天改命

2017年,Transformer架構(gòu)橫空出世,成為當(dāng)今LLM的基石。

然而,它是一個(gè)不折不扣的「算力黑洞」,隨著對(duì)話長(zhǎng)度增加,計(jì)算需求呈平方級(jí)增長(zhǎng),內(nèi)存占用線性飆升,導(dǎo)致大規(guī)模推理成本極高。

為打破這一僵局,2023年,首個(gè)Mamba架構(gòu)應(yīng)運(yùn)而生。

2024年中,Mamba-2發(fā)布,進(jìn)一步打通了SSM與注意力機(jī)制之間的數(shù)學(xué)等價(jià)關(guān)系,訓(xùn)練速度提升2-8倍。


如今,由Albert Gu和Tri Dao聯(lián)合指導(dǎo)、四位學(xué)生研究員主力操刀的Mamba-3,帶著全新設(shè)計(jì)哲學(xué)登場(chǎng)。

Mamba-3代表著一種范式轉(zhuǎn)移:從追求訓(xùn)練效率,轉(zhuǎn)向「推理優(yōu)先」的設(shè)計(jì)。

正如Albert Gu所說(shuō),Mamba-2的重點(diǎn)是打破預(yù)訓(xùn)練的瓶頸,Mamba-3則是為了解決「冷GPU」問(wèn)題——

即在解碼過(guò)程中,現(xiàn)代硬件往往是在干等著數(shù)據(jù)傳輸(內(nèi)存移動(dòng)),而不是在真正進(jìn)行計(jì)算。

高效秘籍:摘要機(jī)器

作為一種狀態(tài)空間模型(SSM),Mamba-3就像一個(gè)高效的「摘要機(jī)器」。

其核心邏輯與Transformer有本質(zhì)區(qū)別。

Transformer每生成一個(gè)詞,都要回顧全部歷史token來(lái)理解上下文,歷史越長(zhǎng)負(fù)擔(dān)越重。

而Mamba-3將歷史信息實(shí)時(shí)壓縮成一個(gè)固定大小的「內(nèi)部狀態(tài)」,你可以理解為數(shù)據(jù)歷史的「快照」。

每當(dāng)新信息進(jìn)入,架構(gòu)只需更新快照而無(wú)需重讀全文。這就是SSM能做到固定內(nèi)存、線性計(jì)算的根本原因。

對(duì)SSM來(lái)說(shuō),這個(gè)「快照」的大?。礌顟B(tài)大小)是決定性能的核心旋鈕:

狀態(tài)越大,能壓縮的信息越豐富,模型越聰明,但推理時(shí)搬運(yùn)數(shù)據(jù)的開(kāi)銷(xiāo)也越大,速度就越慢。

反過(guò)來(lái),狀態(tài)縮小一半,速度能快一倍,但模型可能會(huì)變笨。

Mamba-3的突破就在這里。它用僅為Mamba-2一半的狀態(tài)大小,達(dá)到了與Mamba-2相當(dāng)?shù)恼Z(yǔ)言建模性能。

聰明程度不變,速度翻倍——等于把SSM的性能-效率曲線整體往下推了一檔。

推理優(yōu)先,祭出三大核心殺招


Mamba-3是怎么做到的?這背后是一套全新的設(shè)計(jì)哲學(xué):重新思考AI的「智能」與運(yùn)行它的硬件速度之間的關(guān)系。

如果說(shuō)Mamba-2是為了刷訓(xùn)練速度的記錄,那么Mamba-3就是一種「推理優(yōu)先」的架構(gòu)。

所謂推理,就是用戶在ChatGPT、Gemini或通過(guò)API使用AI的過(guò)程。


Mamba-3的核心目標(biāo)是榨干GPU活躍的每一秒鐘,確保模型在不讓用戶等待的情況下,進(jìn)行最密集的「思考」。

圍繞這個(gè)目標(biāo),Mamba-3祭出了三招——

  • 數(shù)學(xué)上,更精準(zhǔn)的離散化公式讓模型的「記憶」更精確;

  • 能力上,引入復(fù)數(shù)值狀態(tài),就像給模型裝了個(gè)「內(nèi)部指南針」,補(bǔ)上了邏輯推理的短板;

  • 硬件上,MIMO機(jī)制讓芯片不再「帶薪休假」,把閑置算力全部榨干,讓模型在生成每個(gè)詞時(shí)進(jìn)行更多「深度思考」,而用戶等待的時(shí)間一點(diǎn)沒(méi)變。

接下來(lái)逐一拆解。

三大核心技術(shù)


  • 指數(shù)梯形離散化:從一階到二階的精度躍遷

Mamba-1和Mamba-2使用的離散化方法,本質(zhì)上是一階近似,類似于用一個(gè)端點(diǎn)的高度來(lái)估算一段曲線下的面積。

Mamba-3升級(jí)為「指數(shù)梯形法則」,同時(shí)參考兩個(gè)端點(diǎn)進(jìn)行加權(quán)平均,精度從一階躍升到二階。

這看似只是數(shù)學(xué)層面的微調(diào),效果卻出乎意料。

它在SSM的狀態(tài)輸入上隱式引入了一個(gè)寬度為2的數(shù)據(jù)依賴卷積,直接讓Mamba-2中必不可少的短因果卷積模塊變成了可選項(xiàng)。

消融實(shí)驗(yàn)顯示,指數(shù)梯形離散化與B、C偏置項(xiàng)的組合,能夠完全替代過(guò)去幾乎所有線性模型都依賴的外部短卷積——這是架構(gòu)簡(jiǎn)化的重要一步。


  • 復(fù)數(shù)值SSM:給模型裝上「內(nèi)部指南針」

長(zhǎng)期以來(lái),Transformer的替代方案都有一個(gè)「邏輯短板」——在簡(jiǎn)單的狀態(tài)追蹤任務(wù)(比如判斷二進(jìn)制序列的奇偶性)中經(jīng)常翻車(chē)。

根本原因在于,Mamba-2將狀態(tài)轉(zhuǎn)移矩陣限制為實(shí)數(shù)標(biāo)量,無(wú)法表達(dá)「旋轉(zhuǎn)」動(dòng)態(tài)。

舉一個(gè)直觀的例子,奇偶校驗(yàn)本質(zhì)上是一個(gè)翻轉(zhuǎn)操作——每讀入一個(gè)1,狀態(tài)就翻轉(zhuǎn)一次。這種翻轉(zhuǎn)在數(shù)學(xué)上對(duì)應(yīng)旋轉(zhuǎn),而實(shí)數(shù)域天然不支持旋轉(zhuǎn)。

Mamba-3通過(guò)引入復(fù)數(shù)值狀態(tài)空間解決了這個(gè)問(wèn)題。

結(jié)果證明,離散化后的復(fù)數(shù)SSM,等價(jià)于在B、C投影上施加一種數(shù)據(jù)依賴的旋轉(zhuǎn)位置嵌入(RoPE)。

這意味著可以用高效的「RoPE技巧」來(lái)實(shí)現(xiàn)復(fù)數(shù)運(yùn)算,計(jì)算開(kāi)銷(xiāo)幾乎可以忽略。

數(shù)據(jù)顯示,在奇偶校驗(yàn)任務(wù)上,Mamba-3達(dá)到100%準(zhǔn)確率,而Mamba-2只有0.9%,和隨機(jī)猜測(cè)無(wú)異。

在模算術(shù)任務(wù)上,Mamba-3同樣達(dá)到98.51%,Mamba-2僅47.81%。線性模型的推理能力終于能和最先進(jìn)的系統(tǒng)平起平坐。

  • MIMO:榨干每一分閑置算力

現(xiàn)在的AI模型大多受限于「內(nèi)存帶寬」。

一組數(shù)據(jù)足以說(shuō)明問(wèn)題:Mamba標(biāo)準(zhǔn)SISO解碼的算術(shù)強(qiáng)度僅約2.5 ops/byte,而NVIDIA H100的bf16張量核心能力是295 ops/byte。

換算下來(lái),GPU在解碼時(shí)有超過(guò)99%的計(jì)算能力在空轉(zhuǎn)。


Mamba-3引入多輸入多輸出(MIMO)公式,將狀態(tài)更新從外積運(yùn)算變成矩陣乘法。

當(dāng)MIMO秩為4時(shí),每一步的計(jì)算量增加到原來(lái)的4倍,但由于這些計(jì)算恰好填滿了空閑的張量核心,解碼延遲幾乎沒(méi)有增加。

kernel延遲測(cè)試驗(yàn)證了這一點(diǎn)。在bf16、狀態(tài)維度128的常用配置下,Mamba-3 SISO解碼延遲僅0.156毫秒,比Mamba-2(0.203毫秒)還快;MIMO版本為0.179毫秒,依然快于Mamba-2。


用一句話總結(jié)MIMO的哲學(xué):不是讓GPU跑得更快,而是不讓它閑著。

全面碾壓:從180M到1.5B

研究團(tuán)隊(duì)在4個(gè)參數(shù)規(guī)模(180M、440M、880M、1.5B)上進(jìn)行了系統(tǒng)對(duì)比,對(duì)手包括Transformer、Mamba-2和Gated DeltaNet(GDN)三大基線。

所有模型使用相同的訓(xùn)練流程、100B FineWeb-Edu數(shù)據(jù)、Llama-3.1分詞器。

在1.5B規(guī)模下,Mamba-3 MIMO以57.6%的平均準(zhǔn)確率排名第一,領(lǐng)先Transformer 4%、Mamba-2 3.4%、GDN 3.2%。

即使是不使用MIMO的標(biāo)準(zhǔn)版Mamba-3 SISO,也以56.4%超越了所有非Mamba-3基線。


在端到端推理延遲上,16384個(gè)token的prefill+decode場(chǎng)景中,Mamba-3 SISO耗時(shí)140.61秒,而vLLM跑Llama-3.2-1B需要976.50秒,快了近7倍。

隨著序列長(zhǎng)度增長(zhǎng),線性模型的優(yōu)勢(shì)只會(huì)越來(lái)越大。


更值得關(guān)注的是上下文長(zhǎng)度外推能力。所有模型僅在2K長(zhǎng)度上訓(xùn)練,然后直接扔到更長(zhǎng)的序列上測(cè)試。

結(jié)果顯示,Mamba-3的語(yǔ)言建模表現(xiàn)一路穩(wěn)步提升直到32K,而Mamba-2在超過(guò)訓(xùn)練長(zhǎng)度后迅速崩壞。

這說(shuō)明Mamba-3不僅在訓(xùn)練分布內(nèi)更強(qiáng),面對(duì)從未見(jiàn)過(guò)的長(zhǎng)序列時(shí)也更加穩(wěn)健。

混合架構(gòu)才是終局


不過(guò),Mamba-3團(tuán)隊(duì)對(duì)一個(gè)現(xiàn)實(shí)問(wèn)題并不回避:純SSM模型在檢索任務(wù)上仍不如Transformer。

這很好理解。固定大小的狀態(tài)就像一個(gè)容量有限的筆記本,而Transformer的KV緩存是一個(gè)可以無(wú)限擴(kuò)展的檔案柜。需要精確回憶「第三段第二句話說(shuō)了什么」時(shí),檔案柜天然更占優(yōu)。

他們的解法是混合架構(gòu):將Mamba-3層與無(wú)位置編碼的自注意力層按5:1比例交替堆疊。

實(shí)驗(yàn)顯示,這種混合模型在檢索任務(wù)上超過(guò)了純Transformer基線,同時(shí)保持了線性模型的高效推理能力。

這也印證了行業(yè)趨勢(shì),Nemotron-H、Kimi Linear、HunyuanTurboS都在走混合路線,把Mamba層和注意力層穿插組合。

未來(lái)最有競(jìng)爭(zhēng)力的模型架構(gòu),大概率不是「非此即彼」,而是「各取所長(zhǎng)」。

華人學(xué)生立大功

這次Mamba-3的一個(gè)突出特點(diǎn)是「學(xué)生主導(dǎo)」。

正如Gu在發(fā)布推文中寫(xiě)道:「這是第一個(gè)由學(xué)生主導(dǎo)的Mamba,所有功勞歸于他們?!?/p>

Kevin Li


Kevin Li是卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)系的博三在讀生。

在此之前,他在佐治亞理工學(xué)院完成了計(jì)算機(jī)科學(xué)和生物醫(yī)學(xué)工程的本科課程,導(dǎo)師是Polo Chau教授。

個(gè)人研究興趣主要集中在開(kāi)發(fā)高效的深度學(xué)習(xí)架構(gòu)與方法,以及通過(guò)擴(kuò)展推理端算力來(lái)提升模型的邏輯推理能力和通用性能。

Berlin Chen


Berlin Chen目前是普林斯頓大學(xué)計(jì)算機(jī)科學(xué)博士生,也是Together AI實(shí)習(xí)生。

此前,他曾獲得了劍橋大學(xué)數(shù)學(xué)碩士學(xué)位,斯沃斯莫爾學(xué)院 (Swarthmore College)的數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。

Caitlin Wang


Caitlin Wang目前是普林斯頓大學(xué)計(jì)算機(jī)科學(xué)專業(yè)的大學(xué)生。

共同指導(dǎo)者之一的Tri Dao,越南裔美國(guó)人,斯坦福博士畢業(yè)后加入普林斯頓擔(dān)任助理教授,同時(shí)也是Together AI的聯(lián)合創(chuàng)始人兼首席科學(xué)家。

他更廣為人知的身份是FlashAttention的發(fā)明者——這個(gè)幾乎被所有主流AI框架集成的算法,直接改變了Transformer模型的訓(xùn)練和推理方式。2025年,他獲得了Schmidt Sciences頒發(fā)的AI2050 Fellowship。


另一位指導(dǎo)者Albert Gu,華裔,CMU機(jī)器學(xué)習(xí)系助理教授,同時(shí)也是語(yǔ)音AI公司Cartesia的聯(lián)合創(chuàng)始人兼首席科學(xué)家。

2024年,他被TIME雜志評(píng)選為「AI領(lǐng)域100位最具影響力人物」。

在X上,他的個(gè)人簡(jiǎn)介寫(xiě)著「leading the SSM revolution」(引領(lǐng)SSM革命),兩年多內(nèi)監(jiān)督了Mamba三代架構(gòu)的誕生。

可以說(shuō),整個(gè)SSM革命的理論根基,就是由這位華人學(xué)者一手奠定的。


參考資料:

https://venturebeat.com/technology/open-source-mamba-3-arrives-to-surpass-transformer-architecture-with-nearly

https://x.com/_albertgu/status/2033948415139451045?s=20

https://arxiv.org/pdf/2603.15569

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中制導(dǎo)彈到手,武契奇發(fā)出警告:三戰(zhàn)或已開(kāi)打,中國(guó)是定海神針?

中制導(dǎo)彈到手,武契奇發(fā)出警告:三戰(zhàn)或已開(kāi)打,中國(guó)是定海神針?

時(shí)光在作祟
2026-03-26 02:27:01
杭州球場(chǎng)突發(fā),40歲男子心臟驟停倒地!緊急提醒:有這些信號(hào),千萬(wàn)別硬扛!

杭州球場(chǎng)突發(fā),40歲男子心臟驟停倒地!緊急提醒:有這些信號(hào),千萬(wàn)別硬扛!

環(huán)球網(wǎng)資訊
2026-03-25 17:34:17
貝克漢姆家大布:學(xué)歷顏值雙平平,卻娶到白富美嬌妻

貝克漢姆家大布:學(xué)歷顏值雙平平,卻娶到白富美嬌妻

述家?jiàn)视?/span>
2026-03-21 14:23:38
去了一趟伊朗才發(fā)現(xiàn):原來(lái)在伊朗人眼里,中國(guó)人原來(lái)是這樣的

去了一趟伊朗才發(fā)現(xiàn):原來(lái)在伊朗人眼里,中國(guó)人原來(lái)是這樣的

涼了時(shí)光人
2026-03-19 10:42:25
脂肪瘤——父親鉆研一生的方子,我用了40年,效果出眾,送給有緣人

脂肪瘤——父親鉆研一生的方子,我用了40年,效果出眾,送給有緣人

神奇故事
2026-03-23 23:51:03
買(mǎi)萵筍時(shí),看到這種碰都不碰,菜販自己從不吃,別說(shuō)沒(méi)有提醒你

買(mǎi)萵筍時(shí),看到這種碰都不碰,菜販自己從不吃,別說(shuō)沒(méi)有提醒你

馬蹄燙嘴說(shuō)美食
2026-03-19 14:35:45
輸給吉林7分!揪出1個(gè)表現(xiàn)最差之人,14中1,坑慘了遼寧隊(duì)

輸給吉林7分!揪出1個(gè)表現(xiàn)最差之人,14中1,坑慘了遼寧隊(duì)

體育哲人
2026-03-25 23:38:24
桑葉立大功!鄭州大學(xué)研究:能顯著改善睡眠質(zhì)量,總睡眠時(shí)間延長(zhǎng)了56%

桑葉立大功!鄭州大學(xué)研究:能顯著改善睡眠質(zhì)量,總睡眠時(shí)間延長(zhǎng)了56%

Thurman在昆明
2026-03-24 13:39:22
50歲何潤(rùn)東翻紅火上熱搜,近照曝光:這肌肉是認(rèn)真的嗎?

50歲何潤(rùn)東翻紅火上熱搜,近照曝光:這肌肉是認(rèn)真的嗎?

動(dòng)物奇奇怪怪
2026-03-25 09:13:32
中央氣象臺(tái)發(fā)布大霧黃色預(yù)警

中央氣象臺(tái)發(fā)布大霧黃色預(yù)警

界面新聞
2026-03-25 18:03:12
當(dāng)代魔獸!近5戰(zhàn)場(chǎng)均24+10,單防聯(lián)盟第一,追夢(mèng):現(xiàn)役最強(qiáng)壯球員

當(dāng)代魔獸!近5戰(zhàn)場(chǎng)均24+10,單防聯(lián)盟第一,追夢(mèng):現(xiàn)役最強(qiáng)壯球員

你的籃球頻道
2026-03-25 09:15:31
明確了 西安的中小學(xué)生終于盼到了

明確了 西安的中小學(xué)生終于盼到了

91.6陜西交通廣播
2026-03-23 11:39:50
波蘭磨刀:誰(shuí)將是壓垮俄羅斯的最后一根稻草

波蘭磨刀:誰(shuí)將是壓垮俄羅斯的最后一根稻草

民間胡扯老哥
2026-03-23 18:56:09
雷軍回應(yīng)訂單數(shù)量質(zhì)疑:鎖單數(shù)字更真實(shí),目前上市3天已超3萬(wàn)單,另有5萬(wàn)多人試駕

雷軍回應(yīng)訂單數(shù)量質(zhì)疑:鎖單數(shù)字更真實(shí),目前上市3天已超3萬(wàn)單,另有5萬(wàn)多人試駕

極目新聞
2026-03-23 13:26:10
伊朗一高級(jí)官員說(shuō)對(duì)美國(guó)停戰(zhàn)提議做出“消極回應(yīng)”

伊朗一高級(jí)官員說(shuō)對(duì)美國(guó)停戰(zhàn)提議做出“消極回應(yīng)”

每日經(jīng)濟(jì)新聞
2026-03-26 00:10:55
上海老人王震華:把自己關(guān)在房間5年,用7108個(gè)零件創(chuàng)造傳世精品

上海老人王震華:把自己關(guān)在房間5年,用7108個(gè)零件創(chuàng)造傳世精品

海佑講史
2026-03-24 11:55:07
不管你信不信,骨灰撒海不立墓碑老人越來(lái)越多,背后是這3種清醒

不管你信不信,骨灰撒海不立墓碑老人越來(lái)越多,背后是這3種清醒

小虎新車(chē)推薦員
2026-03-26 00:29:36
馬辦風(fēng)波!鄭麗文:國(guó)民黨要團(tuán)結(jié),不讓外界看笑話

馬辦風(fēng)波!鄭麗文:國(guó)民黨要團(tuán)結(jié),不讓外界看笑話

新時(shí)光點(diǎn)滴
2026-03-26 02:20:27
含劇毒,無(wú)解藥!每家每戶都有,千萬(wàn)別亂吃

含劇毒,無(wú)解藥!每家每戶都有,千萬(wàn)別亂吃

周哥一影視
2026-03-22 17:19:26
天津3位姐姐,被央視新聞點(diǎn)名了!

天津3位姐姐,被央視新聞點(diǎn)名了!

天津人
2026-03-25 19:36:56
2026-03-26 03:12:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14813文章數(shù) 66720關(guān)注度
往期回顧 全部

科技要聞

紅極一時(shí)卻草草收?qǐng)?,Sora宣布正式關(guān)停

頭條要聞

伊朗:正在搜捕逃亡美軍

頭條要聞

伊朗:正在搜捕逃亡美軍

體育要聞

35歲替補(bǔ)門(mén)將,憑什么入選英格蘭隊(duì)?

娛樂(lè)要聞

張雪峰遺產(chǎn)分割復(fù)雜!是否立遺囑成關(guān)鍵

財(cái)經(jīng)要聞

管濤:中東局勢(shì)如何影響人民幣匯率走勢(shì)?

汽車(chē)要聞

智己LS8放大招 30萬(wàn)內(nèi)8系旗艦+全線控底盤(pán)秀實(shí)力

態(tài)度原創(chuàng)

旅游
本地
家居
健康
數(shù)碼

旅游要聞

“女王駕到” 上海溫室花園高山杜鵑展開(kāi)幕,中外游客打卡點(diǎn)贊,Beautiful!Amazing!Fantastic!

本地新聞

來(lái)永泰同安 赴一場(chǎng)春天的約會(huì)

家居要聞

輕奢堇天府 小資情調(diào)

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車(chē)上班嗎?

數(shù)碼要聞

蘋(píng)果macOS 26.4新增“慢速充電器”提示

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版