国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

阿里、Kimi、螞蟻集體押注,混合注意力從可選項(xiàng)變必答題?

0
分享至


智東西
作者 陳駿達(dá)
編輯 漠影

智東西3月20日?qǐng)?bào)道,昨天,小米發(fā)布了Mimo-V2 Pro大模型,又一次把混合注意力架構(gòu)推到了行業(yè)的聚光燈下。

這款萬(wàn)億參數(shù)的大模型,采用了1:7的混合注意力比例,在提供接近Claude Opus 4.6能力的同時(shí),API定價(jià)僅為后者的1/5。

實(shí)際上,小米的混合注意力架構(gòu)探索,延續(xù)了國(guó)內(nèi)大模型頭部廠商在效率優(yōu)化上的技術(shù)共識(shí)。過(guò)去一段時(shí)間里,國(guó)內(nèi)多個(gè)大模型頭部玩家都展示了他們?cè)诨旌献⒁饬Ψ矫娴耐黄菩赃M(jìn)展。

今年2月,螞蟻推出全球首個(gè)混合線性注意力架構(gòu)的萬(wàn)億參數(shù)思考模型;去年9月,阿里則在下一代模型架構(gòu)Qwen-Next中采用混合線性注意力。與此同時(shí),月之暗面、MiniMax等玩家也在各自的模型迭代中引入了類似的架構(gòu)優(yōu)化方案。

混合注意力架構(gòu)的探索,已經(jīng)幾乎成為大模型廠商的必答題。不同的只是技術(shù)路徑的選擇,相同的是對(duì)效率與性能平衡點(diǎn)的共同追求。

一、頭部玩家押注混合注意力,多條技術(shù)路徑并行

在深度學(xué)習(xí)中,注意力機(jī)制讓模型能夠有選擇地關(guān)注輸入信息中的重要部分,而Softmax一直是主流架構(gòu)的核心注意力計(jì)算機(jī)制。

這種機(jī)制每次計(jì)算都“翻閱”完整上下文,精準(zhǔn)捕捉詞與詞的關(guān)聯(lián),賦予模型強(qiáng)大表達(dá)力和細(xì)粒度對(duì)齊能力。


但其代價(jià)明顯:隨著文本長(zhǎng)度增加,其計(jì)算量呈平方級(jí)增長(zhǎng)。它還需要存儲(chǔ)大量KV緩存,帶來(lái)顯存壓力。這在越來(lái)越追求推理效率和成本控制的商業(yè)化場(chǎng)景中,展現(xiàn)出不足。

面對(duì)這一共同挑戰(zhàn),業(yè)界探索出了三條主要的技術(shù)路徑。

第一條路徑是稀疏注意力(Sparse Attention),其核心思想是通過(guò)“少算”、“有重點(diǎn)地算”來(lái)提升效率,代表模型是DeepSeek。

第二條路徑是滑動(dòng)窗口注意力(Sliding Window Attention),它仍然使用Softmax計(jì)算注意力權(quán)重,但只關(guān)注固定窗口內(nèi)的鄰近token,借此提高計(jì)算效率。

第三條路徑是線性注意力(Linear Attention)。 與其他方案不同,它徹底改寫(xiě)了Softmax公式,將復(fù)雜度從O(N2)的平方級(jí)降至O(N),近似線性級(jí)別,推理成本大幅下降。

不過(guò),這三條路徑都有自身的局限性,而如今業(yè)界對(duì)混合架構(gòu)的集體轉(zhuǎn)向,本質(zhì)上是對(duì)單一技術(shù)路徑的修正。

值得關(guān)注的是,越來(lái)越多方案正向混合線性注意力收斂,這是唯一在理論上突破序列長(zhǎng)度限制的路徑。它重構(gòu)了注意力的計(jì)算范式,這種徹底性既是它的風(fēng)險(xiǎn)所在,也是其潛力所在。

二、混合線性注意力,如何成為行業(yè)共識(shí)?

在國(guó)內(nèi),已有不少大模型企業(yè)開(kāi)始了混合線性注意力架構(gòu)的探索。

按時(shí)間維度來(lái)看,2025年初,MiniMax Text-01模型發(fā)布,這一模型采用1:7的混合線性注意力,并在456B參數(shù)的模型上實(shí)現(xiàn)落地。

此后,MiniMax-M1模型也采用了同款架構(gòu)。當(dāng)時(shí),MiniMax-M1的團(tuán)隊(duì)判斷,混合架構(gòu)將會(huì)成為模型設(shè)計(jì)的主流,但仍面臨基礎(chǔ)設(shè)施等維度的瓶頸。


更多混合線性注意力的探索,在2025年下半年爆發(fā)。

去年9月,阿里通義實(shí)驗(yàn)室發(fā)布了下一代基礎(chǔ)模型架構(gòu)Qwen3-Next,并在80B模型上完成驗(yàn)證。該模型用線性注意力和門控注意力的組合替換標(biāo)準(zhǔn)注意力,實(shí)現(xiàn)長(zhǎng)上下文的有效建模。在1:3的混合比例下,其性能可以超過(guò)單一架構(gòu)。

阿里的研究團(tuán)隊(duì)發(fā)現(xiàn),相比常用的滑動(dòng)窗口注意力,線性注意力擁有更強(qiáng)大的上下文學(xué)習(xí)能力。


同樣在去年9月,螞蟻百靈團(tuán)隊(duì)開(kāi)源了Ring-mini-linear-2.0與Ring-flash-linear-2.0,驗(yàn)證了其研發(fā)的Lightning Linear線性注意力在工業(yè)規(guī)模訓(xùn)練和長(zhǎng)上下文推理中的可用性。

這兩款模型采用了更多的線性注意力層,驗(yàn)證了1:7的混合比例。其在高FLOP預(yù)算下表現(xiàn),明顯優(yōu)于純Softmax結(jié)構(gòu)。

在這項(xiàng)研究中,螞蟻百靈還進(jìn)一步探索了架構(gòu)創(chuàng)新與基礎(chǔ)設(shè)施系統(tǒng)工程優(yōu)化的協(xié)同。他們打造的FP8融合算子,將FP8混合精度訓(xùn)練的計(jì)算效率提升至原來(lái)的1.5-1.7倍左右。


在推理端,他們開(kāi)發(fā)了更高效的線性注意力融合算子,進(jìn)一步提升推理引擎的吞吐。

架構(gòu)優(yōu)化與高性能算子協(xié)同之下,兩款Ring-linear模型在深度推理場(chǎng)景下的成本僅為同尺寸稠密模型的約1/10,相較原有Ring系列成本也下降超過(guò)50%。

去年10月,月之暗面開(kāi)源了混合線性注意力架構(gòu)Kimi Linear。其核心是Kimi Delta Attention(KDA),這是一個(gè)新型的線性注意力模塊,通過(guò)細(xì)粒度設(shè)計(jì)改進(jìn)了門控delta規(guī)則。這一線性架構(gòu)采用1:3的混合比例,在減少內(nèi)存占用的同時(shí)超越了全注意力模型的質(zhì)量。


盡管上述探索已在多維度驗(yàn)證了混合線性注意力架構(gòu)的潛力,但大多數(shù)成果仍停留在中小規(guī)模。而在真實(shí)應(yīng)用中,大模型需要直面萬(wàn)億級(jí)參數(shù)、百萬(wàn)級(jí)上下文窗口、高并發(fā)推理等工程挑戰(zhàn)。

因此,下一步的關(guān)鍵在于:將這些技術(shù)探索推向真正的超大規(guī)模模型,在工業(yè)級(jí)應(yīng)用中系統(tǒng)驗(yàn)證其可靠性、可擴(kuò)展性與經(jīng)濟(jì)價(jià)值。

三、萬(wàn)億模型成試金石,效率與成本的終極驗(yàn)證

將混合線性注意力架構(gòu)推向萬(wàn)億參數(shù)量級(jí)的工程落地,正在穩(wěn)步推進(jìn)。

月之暗面創(chuàng)始人兼CEO楊植麟對(duì)混合線性注意力的前景表達(dá)了明確信心。他認(rèn)為線性架構(gòu)是一個(gè)非常值得探索的方向,其團(tuán)隊(duì)已在Kimi Linear等項(xiàng)目中積累了大量研究。

在下一代模型Kimi K3中,月之暗面計(jì)劃在混合線性注意力架構(gòu)的基礎(chǔ)上,引入更多架構(gòu)層面的優(yōu)化。他相信,下一代模型Kimi K3就算沒(méi)比K2.5強(qiáng)出10倍,也必然會(huì)“強(qiáng)得多”。

同樣押注這一技術(shù)路線的螞蟻百靈團(tuán)隊(duì),已經(jīng)接連交出兩個(gè)萬(wàn)億參數(shù)大模型。一個(gè)是超大型混合線性注意力架構(gòu)模型Ling-2.5-1T,另一個(gè)是全球首個(gè)混合線性注意力架構(gòu)的萬(wàn)億參數(shù)思考模型Ring-2.5-1T。

在前期研究基礎(chǔ)上,螞蟻百靈團(tuán)隊(duì)通過(guò)增量訓(xùn)練方式構(gòu)建了Ling 2.5架構(gòu)。該架構(gòu)將GQA+Lightning Linear升級(jí)為更高效的MLA+Lightning Linear組合,在進(jìn)一步壓縮KV緩存的同時(shí),保留了模型的表達(dá)能力。

Ling 2.5架構(gòu)采用1:7混合比例,還保留了QK Norm、Partial RoPE等核心機(jī)制,確保架構(gòu)遷移過(guò)程中模型性能不發(fā)生退化。


在降本增效方面,Ling-2.5-1T僅需約6000個(gè)token的平均輸出長(zhǎng)度,即可完成前沿模型需要1.5萬(wàn)-2.3萬(wàn)個(gè)token才能勝任的復(fù)雜任務(wù)。其訪存規(guī)模壓縮至傳統(tǒng)架構(gòu)的1/10,生成吞吐量提升至3倍。

上述種種對(duì)混合線性注意力架構(gòu)的探索,意義已不止于性能提升本身,而是在重新劃定大模型的應(yīng)用邊界與商業(yè)形態(tài)。

試想一下,當(dāng)推理成本顯著下降、token使用效率持續(xù)優(yōu)化,模型調(diào)用成本或許不再是限制其大規(guī)模落地的核心瓶頸。

隨之而來(lái)的,是應(yīng)用范式的自然轉(zhuǎn)變。企業(yè)不再需要精打細(xì)算地“按需調(diào)用”模型,而可以將其作為一種默認(rèn)能力嵌入到更多業(yè)務(wù)環(huán)節(jié)之中,實(shí)現(xiàn)更廣泛、更深入的效率提升。

大模型在高頻與實(shí)時(shí)場(chǎng)景中的角色可能因此發(fā)生變化,在搜索、推薦、智能客服等場(chǎng)景中,它們不再只是傳統(tǒng)系統(tǒng)的補(bǔ)充模塊,而是有望扮演核心驅(qū)動(dòng)引擎,成為如同數(shù)據(jù)庫(kù)、操作系統(tǒng)般默認(rèn)存在的底層基礎(chǔ)設(shè)施。

結(jié)語(yǔ):從堆參數(shù)到拼工程,大模型廣泛落地更近了

混合線性注意力架構(gòu)的探索仍在不斷深化,但這條路徑注定不會(huì)一帆風(fēng)順。不同技術(shù)路線之間仍在反復(fù)博弈與驗(yàn)證,例如MiniMax在階段性探索后選擇回歸全注意力模型,以優(yōu)先保證復(fù)雜場(chǎng)景下的穩(wěn)定性與可靠性。

不過(guò),更深層的信號(hào)已經(jīng)愈發(fā)清晰:大模型競(jìng)爭(zhēng)正從“暴力堆參數(shù)”轉(zhuǎn)向“工程效率的精算”。當(dāng)行業(yè)逐漸形成共識(shí),決定勝負(fù)的將不再只是規(guī)模本身,而是單位算力所能釋放的有效能力。

架構(gòu)層面的細(xì)微差異,最終會(huì)在企業(yè)級(jí)落地中放大為顯著的成本優(yōu)勢(shì)與體驗(yàn)差距,并推動(dòng)大模型從“可用”邁向“好用”,再走向真正的廣泛普及。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
iPhone 18 Pro屏幕蓋板偷跑:靈動(dòng)島縮小實(shí)錘了 告別大藥丸

iPhone 18 Pro屏幕蓋板偷跑:靈動(dòng)島縮小實(shí)錘了 告別大藥丸

快科技
2026-03-28 19:53:31
官方定調(diào)了,跌破6%,2025年出生人口792萬(wàn),這意味著什么?

官方定調(diào)了,跌破6%,2025年出生人口792萬(wàn),這意味著什么?

毒sir財(cái)經(jīng)
2026-03-28 22:22:36
青島膠州警方通報(bào)連環(huán)撞車事故:4車受損,2人受傷

青島膠州警方通報(bào)連環(huán)撞車事故:4車受損,2人受傷

界面新聞
2026-03-28 14:00:04
李某國(guó)(男,37歲)為博取關(guān)注、吸引流量,自導(dǎo)自演網(wǎng)約車糾紛罵乘客,已被行政處罰,并依法關(guān)停其相關(guān)網(wǎng)絡(luò)賬號(hào)

李某國(guó)(男,37歲)為博取關(guān)注、吸引流量,自導(dǎo)自演網(wǎng)約車糾紛罵乘客,已被行政處罰,并依法關(guān)停其相關(guān)網(wǎng)絡(luò)賬號(hào)

揚(yáng)子晚報(bào)
2026-03-28 07:37:58
深圳老牌酒樓閉店!網(wǎng)友:童年就是在這度過(guò)的

深圳老牌酒樓閉店!網(wǎng)友:童年就是在這度過(guò)的

深圳晚報(bào)
2026-03-28 18:13:40
廣州一大批業(yè)主后悔賣房了!

廣州一大批業(yè)主后悔賣房了!

樓市滅霸
2026-03-28 12:54:30
誰(shuí)贏,他們幫誰(shuí),伊朗等來(lái)最大強(qiáng)援,美陷入死局,后悔也來(lái)不及了

誰(shuí)贏,他們幫誰(shuí),伊朗等來(lái)最大強(qiáng)援,美陷入死局,后悔也來(lái)不及了

阿傖說(shuō)事
2026-03-28 01:58:57
內(nèi)娛再曝大瓜!郭麒麟、劉昊然,嚴(yán)浩翔疑似組團(tuán)去商K聚會(huì) 惹爭(zhēng)議

內(nèi)娛再曝大瓜!郭麒麟、劉昊然,嚴(yán)浩翔疑似組團(tuán)去商K聚會(huì) 惹爭(zhēng)議

丁丁鯉史紀(jì)
2026-03-28 10:28:29
我嫁給不能生育的迪拜富商,不到3個(gè)月我竟孕吐不止,醫(yī)生:恭喜

我嫁給不能生育的迪拜富商,不到3個(gè)月我竟孕吐不止,醫(yī)生:恭喜

千秋文化
2026-03-25 21:42:08
矛盾升級(jí),王鈺棟再發(fā)社媒硬剛球迷,稱只能再發(fā)一次再爽一次了

矛盾升級(jí),王鈺棟再發(fā)社媒硬剛球迷,稱只能再發(fā)一次再爽一次了

體壇風(fēng)之子
2026-03-28 04:30:03
一醫(yī)院新規(guī)!除科室正副職主任外,男55歲、女50歲以下全體醫(yī)護(hù),均需值夜班……

一醫(yī)院新規(guī)!除科室正副職主任外,男55歲、女50歲以下全體醫(yī)護(hù),均需值夜班……

華醫(yī)網(wǎng)
2026-03-29 05:40:53
42歲張子萱硬凹少女感翻車,臉部腫脹不堪,亮相活動(dòng)遭網(wǎng)友抵制

42歲張子萱硬凹少女感翻車,臉部腫脹不堪,亮相活動(dòng)遭網(wǎng)友抵制

大眼妹妹
2026-03-29 02:51:35
委內(nèi)瑞拉,為什么從我們的視野里消失了

委內(nèi)瑞拉,為什么從我們的視野里消失了

民間鐵血柔情
2026-03-28 04:41:19
電車會(huì)不會(huì)取代油車還不知道,但不得不承認(rèn),油混車“快完蛋了”

電車會(huì)不會(huì)取代油車還不知道,但不得不承認(rèn),油混車“快完蛋了”

小染說(shuō)臺(tái)球
2026-03-27 17:38:42
“華人神探”李昌鈺辭世:去年確診腦瘤,去世前兩天剛完成新書(shū)初稿

“華人神探”李昌鈺辭世:去年確診腦瘤,去世前兩天剛完成新書(shū)初稿

大風(fēng)新聞
2026-03-28 15:20:15
“擦邊”的世界冠軍吳柳芳,終于還清了債

“擦邊”的世界冠軍吳柳芳,終于還清了債

冰川思想庫(kù)
2026-03-27 11:33:25
嘴真硬!輸球不可怕,可怕的是庫(kù)拉索主帥的這番話,發(fā)布會(huì)逆轉(zhuǎn)!

嘴真硬!輸球不可怕,可怕的是庫(kù)拉索主帥的這番話,發(fā)布會(huì)逆轉(zhuǎn)!

田先生籃球
2026-03-28 07:00:31
女婿伺候岳母10年,妻子提離婚他笑著答應(yīng),出民政局后妻子懵了

女婿伺候岳母10年,妻子提離婚他笑著答應(yīng),出民政局后妻子懵了

曉艾故事匯
2025-08-07 17:10:25
港珠澳大橋海關(guān)查獲一起利用跨境客車改裝暗格藏匿16包銀粒進(jìn)境案

港珠澳大橋海關(guān)查獲一起利用跨境客車改裝暗格藏匿16包銀粒進(jìn)境案

環(huán)球網(wǎng)資訊
2026-03-28 14:37:14
2026年4大行業(yè)批量裁員,有人裸辭無(wú)工可找,普通人必看

2026年4大行業(yè)批量裁員,有人裸辭無(wú)工可找,普通人必看

老特有話說(shuō)
2026-03-24 15:16:29
2026-03-29 07:04:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
11461文章數(shù) 117018關(guān)注度
往期回顧 全部

科技要聞

華為盤古大模型負(fù)責(zé)人王云鶴確認(rèn)離職

頭條要聞

美媒:和歐盟"外長(zhǎng)"發(fā)生激烈交鋒 魯比奧"顯然很惱火"

頭條要聞

美媒:和歐盟"外長(zhǎng)"發(fā)生激烈交鋒 魯比奧"顯然很惱火"

體育要聞

“我是全家最差勁的運(yùn)動(dòng)員”

娛樂(lè)要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財(cái)經(jīng)要聞

臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

汽車要聞

置換補(bǔ)貼價(jià)4.28萬(wàn)起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

家居
親子
房產(chǎn)
公開(kāi)課
軍事航空

家居要聞

曲線華爾茲 現(xiàn)代簡(jiǎn)約

親子要聞

小孩子能口無(wú)遮攔到什么程度!網(wǎng)友:恨不得當(dāng)場(chǎng)找個(gè)地縫鉆進(jìn)去

房產(chǎn)要聞

首日430組來(lái)訪,單日120組認(rèn)籌!??谑讉€(gè)真四代,徹底爆了!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍中東基地?fù)p失最新披露

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版