国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

9B端側(cè)開源模型跑通百萬上下文,面壁全新稀疏-線性混合注意力

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

最強(qiáng)的大模型,已經(jīng)把scaling卷到了一個(gè)新維度:百萬級上下文

幾天前,Claude Opus 4.6發(fā)布,讓人第一次真切感受到了百萬上下文的涌現(xiàn)能力——

單次吃進(jìn)50萬字中文內(nèi)容、實(shí)現(xiàn)跨文檔法律分析、多輪Agent規(guī)劃……

此情此景,用戶火速用腳投票,華爾街更是直接給出K線回應(yīng)。



而這股scaling的風(fēng),也很快吹到了端側(cè)。

剛剛,面壁智能帶著首次大規(guī)模訓(xùn)練的稀疏與線性混合注意力模型,小年交卷——

這套新注意力架構(gòu),不僅解決了傳統(tǒng)Transformer的計(jì)算冗余,還第一次在性能無損的前提下,讓9B端側(cè)模型能夠在5090顯卡上處理百萬長文本

與此同時(shí),基于SALA注意力架構(gòu)的模型MiniCPM-SALA也將一并開源。

除此之外,面壁還以O(shè)penBMB社區(qū)名義,聯(lián)合SGLang與NVIDIA發(fā)起2026稀疏算子加速大獎(jiǎng)賽(SOAR),將這套scaling能力直接交到開發(fā)者手中,推動(dòng)端側(cè)Agent部署的性能突破。

Linear-Sparse混合注意力架構(gòu)

太長不看,咱直接說重點(diǎn)——

面壁這次全新的線性與稀疏注意力混合架構(gòu)SALA(Sparse Attention-Linear Attention,SALA),究竟是怎么個(gè)混合法呢?

簡單來說,這套架構(gòu)將75%線性注意力(Lightning Attention)25%稀疏注意力(InfLLM v2)結(jié)合,并通過混合位置編碼HyPE(Hybrid Position Encoding)實(shí)現(xiàn)兩者的高效協(xié)同與超強(qiáng)的長度外推。



線性注意力模塊,Linear-Sparse選用Lightning Attention作為核心算子,負(fù)責(zé)快速、穩(wěn)定地建模長文本的全局信息



Lightning Attention的計(jì)算方式與傳統(tǒng)全注意力接近,方便現(xiàn)有全注意力模型直接遷移到混合架構(gòu),無需從零開始預(yù)訓(xùn)練。

同時(shí),借助QK-normalization輸出門控機(jī)制,使線性層在百萬級上下文訓(xùn)練下保持?jǐn)?shù)值穩(wěn)定,避免梯度爆炸或下溢。

稀疏注意力模塊,Linear-Sparse采用InfLLMv2來精準(zhǔn)捕捉長序列中的關(guān)鍵局部信息



InfLLM v2可按需選擇關(guān)鍵KV,讓每個(gè)Query只計(jì)算必要部分,從而大幅提高長文本處理效率。

值得一提的是,InfLLM v2還能在長文本中自動(dòng)啟用稀疏模式,在標(biāo)準(zhǔn)長度下回退為稠密計(jì)算,實(shí)現(xiàn)長短文本的無縫切換。

最后,混合位置編碼HyPE(Hybrid Position Encoding)的引入,則保證了線性和稀疏兩種注意力機(jī)制的充分協(xié)同。

一方面,線性層保留RoPE以維持與原全注意力模型在參數(shù)分布和特征空間上的一致性,保證中短文本性能穩(wěn)健。

另一方面,稀疏層采用NoPE(無位置編碼),讓KV-Cache與位置信息解耦,規(guī)避長距離衰減問題,使模型在百萬長度上下文中仍能高效檢索極遠(yuǎn)信息。

訓(xùn)練上,MiniCPM-SALA采用Transformer-to-Hybrid低成本構(gòu)建方法(HALO)



具體而言,模型通過HALO方法將75%的全注意力層轉(zhuǎn)換為線性注意力層,整個(gè)過程包括參數(shù)轉(zhuǎn)換、隱狀態(tài)對齊、層選擇以及知識(shí)蒸餾四個(gè)步驟。

最終,這套Linear-Sparse設(shè)計(jì)讓MiniCPM-SALA在端側(cè)處理超長文本時(shí),不僅顯存占用極低、計(jì)算高效,而且語義精度依然保持領(lǐng)先水平。

為什么百萬上下文,必須是“混合注意力”?

要回答這個(gè)問題,得先回到傳統(tǒng)的Full Attention



在經(jīng)典Transformer里,每生成一個(gè)新token,都要和之前所有token做兩兩計(jì)算,其計(jì)算復(fù)雜度是典型的O(N2)。

這意味著,把上下文從1萬拉到100萬,計(jì)算量不是漲100倍,而是直接飆升1萬倍。與此同時(shí),為了讓模型“記住”所有歷史信息,還得把KV對全攢在顯存里。

隨著上下文長度增加,KV Cache迅速膨脹,很快就會(huì)爆顯存。

由此可見,想解決長上下文問題,注意力機(jī)制是核心瓶頸

過去幾年,業(yè)界圍繞這一瓶頸探索了多條路線,本質(zhì)上都是在精度、效率與可部署性之間尋找平衡點(diǎn)

第一類是線性注意力,通常為線性和全注意力結(jié)合的混合設(shè)計(jì)。

它用記憶狀態(tài)替代傳統(tǒng)兩兩打分,能將計(jì)算復(fù)雜度從O(N2)降到O(N)。

優(yōu)點(diǎn)是可以吃下百萬級上下文,但底層采用有損壓縮,序列越長,早期信息越容易被稀釋,導(dǎo)致上下文遺忘和模型能力下降。

第二類是原生稀疏注意力

只計(jì)算關(guān)鍵位置,精度接近全注意力,但為了支持長程歷史回顧,仍需全量保存KV Cache,導(dǎo)致端側(cè)部署成本高。

第三類是放棄顯式注意力的狀態(tài)空間模型,如Mamba。

這類方法推理效率高、幾乎不需要KV Cache,但在精確指令遵循和長距離精確檢索上,仍不夠穩(wěn)定。

綜上,我們不難看出注意力機(jī)制改動(dòng)是長上下文scaling的主戰(zhàn)場

但真正能同時(shí)兼顧百萬級上下文能力、推理效率和端側(cè)可落地性的方案,仍然稀缺。

這也是為什么面壁提出Linear-Sparse混合注意力架構(gòu)的出發(fā)點(diǎn)。

用線性機(jī)制承擔(dān)大規(guī)模上下文的承載,用稀疏機(jī)制補(bǔ)足關(guān)鍵位置的精確建模能力。

在這一架構(gòu)下,模型不再需要對所有token做完整的兩兩計(jì)算,也不必?zé)o條件保存全量KV Cache。

新的混合注意力架構(gòu)可以在顯著降低推理開銷和顯存占用的同時(shí),避免純線性注意力在長程信息召回上的精度損失,以及稀疏注意力在端側(cè)設(shè)備要求上的局限。

基于這一設(shè)計(jì),面壁還開源了MiniCPM-SALA,用來驗(yàn)證該架構(gòu)在真實(shí)長上下文場景下的潛力。

在效果層面,得益于顯著更低的顯存占用和更高的推理效率,MiniCPM-SALA首次在5090這樣的消費(fèi)級顯卡上,將1M上下文完整跑通,為長上下文從云端走向端側(cè)提供了一條現(xiàn)實(shí)可行的路徑。

與此同時(shí),在不依賴投機(jī)推理等額外加速算法的前提下,相比同尺寸開源模型,MiniCPM-SALA在256K序列上實(shí)現(xiàn)了2倍以上的速度提升。

當(dāng)序列長度進(jìn)一步提升至512K甚至1M時(shí),部分同尺寸模型已經(jīng)遭遇顯存瓶頸,而MiniCPM-SALA依然能夠穩(wěn)定運(yùn)行。

(詳細(xì)測評結(jié)果可參考MiniCPM-SALA的GitHub或Hugging Face README)

從這些結(jié)果來看,未來的大模型,并不一定需要Full Attention才能具備完整能力。

當(dāng)上下文成為第一性資源時(shí),像Linear-Sparse混合注意力這樣的新型注意力設(shè)計(jì),正在成為影響模型能否真正落地的重要變量。

2026稀疏算子加速大獎(jiǎng)賽

如果說MiniCPM-SALA讓Linear-Sparse混合架構(gòu)的能力有了實(shí)證,那么今年的SOAR(稀疏算子加速大獎(jiǎng)賽)就是讓這套技術(shù)“落地跑起來”的舞臺(tái)。

這場比賽由面壁智能、OpenBMB聯(lián)合SGLang社區(qū)和NVIDIA共同發(fā)起。

旨在通過全球極客的深度協(xié)作,共同探索MiniCPM-SALA這一全球首創(chuàng)“稀疏+線性”混合架構(gòu)模型在1M長文本推理上的性能極限。

具體來說,大賽聚焦于稀疏算子融合與編譯優(yōu)化等底層技術(shù)挑戰(zhàn),嘗試在消費(fèi)級GPU上實(shí)現(xiàn)百萬Token推理且KV Cache<6GB的極致效率。

比賽時(shí)間從2月11日持續(xù)到5月29日,設(shè)有總獎(jiǎng)池超過70萬人民幣的獎(jiǎng)勵(lì)。

參賽者不僅能測試混合架構(gòu)在真實(shí)硬件上的極限,還能探索端側(cè)高效長文本處理的新方法。

比賽鏈接:https://soar.openbmb.cn/



面壁為什么執(zhí)著于用SALA重構(gòu)長上下文?

這并不是為了“卷長上下文指標(biāo)”。

面壁的一大目標(biāo)是從Densing Law(密度法則)的第一性原理出發(fā),將通用能力強(qiáng)的模型落到智能終端如手機(jī)、汽車、機(jī)器人等上,而SALA架構(gòu)的創(chuàng)新是通往羅馬的關(guān)鍵:

正是基于對注意力機(jī)制的創(chuàng)新,MiniCPM-SALA模型才能足夠高效、顯存占用足夠低,面壁才能首次在5090這樣的消費(fèi)級GPU 上,把一兆級長文本端側(cè)推理真正跑通。

這一步一旦成立,長上下文就不再只是云端模型的特權(quán),而成為端側(cè)智能可以依賴的基礎(chǔ)能力。

如果把面壁今年的動(dòng)作放在一起看,其實(shí)不難理解其在端側(cè)智能上的整體思路:

從模型底層直通端側(cè)生態(tài),核心就是上下文

無論是模型架構(gòu)的迭代,還是長文本的競技,本質(zhì)上都是一次針對端側(cè)落地的“兩步走”戰(zhàn)略。

而這,并非偶然。

放眼整個(gè)行業(yè),Agent的核心瓶頸已從單純的參數(shù)量轉(zhuǎn)向上下文能力——

從模型層的Claude Opus 4.6,到應(yīng)用層的Claude Cowork、Clawdbot(現(xiàn)OpenClaw),再到評估層的CL-Bench,行業(yè)共識(shí)已經(jīng)非常明確:

能否一次吸收、理解并持續(xù)利用大量上下文,是決定Agent可用性的關(guān)鍵。

與此同時(shí),基于注意力機(jī)制優(yōu)化上下文處理,也已成為學(xué)界到產(chǎn)業(yè)公認(rèn)的主戰(zhàn)場。

去年NeurIPS 2025最佳論文給到門控注意力;產(chǎn)業(yè)側(cè),Kimi的KDA、DeepSeek的NSA、MiniMax的Lightning相繼推出新方案——

幾乎所有核心玩家,都在attention這條線上持續(xù)加碼。

因?yàn)檫@不是一個(gè)“工程調(diào)優(yōu)”問題,而是架構(gòu)級問題。

只有真正具備AGI野心和技術(shù)縱深的公司,才有能力從底層架構(gòu)一路改到上層算法。

也只有真正想把模型能力推到邊界的團(tuán)隊(duì),才有魄力去挑戰(zhàn)已經(jīng)被奉為主流、但顯然仍有優(yōu)化空間的Transformer傳統(tǒng)范式。

而面壁選擇這條路,更是因?yàn)槠渑c端側(cè)部署的目標(biāo)高度契合:

首先,端側(cè)Agent要處理的包括通訊錄、位置信息、聊天記錄。

出于隱私保護(hù),這些數(shù)據(jù)無法走向云端。只有讓模型本身具備超長上下文能力,個(gè)人助理才能在本地真正“懂你”。

其次,通用榜單已進(jìn)入紅海,端側(cè)開發(fā)者關(guān)心的問題也已從特定的benchmark,轉(zhuǎn)向真實(shí)世界環(huán)境的上下文應(yīng)用。

這正如DeepSeek研究員茍志斌所言:

  • 預(yù)訓(xùn)練能scaling,RL也能scaling,上下文也能scaling,模型仍在繼續(xù)scaling。



換句話說,參數(shù)規(guī)模已經(jīng)不再是唯一指標(biāo),真正的競爭力在于模型/Agent在復(fù)雜上下文中持續(xù)推理和行動(dòng)的能力,這將直接決定模型從demo走向倉庫級代碼助手、行業(yè)知識(shí)庫Agent。

最后也是最本質(zhì)的,不解決長文本推理部署成本,端側(cè)智能也就無法真正落地。

所以面壁不只做模型,更在做生態(tài):從開源MiniCPM-SALA,到舉辦端側(cè)長文本比賽降低部署成本,再到深耕開發(fā)者社區(qū),面壁正在拼出一條劍指“百萬上下文時(shí)代個(gè)人智能體”的主線。

比賽鏈接:

https://soar.openbmb.cn/

技術(shù)報(bào)告:

https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM SALA.pdf

Github:

https://github.com/openbmb/minicpm

HuggingFace:

https://huggingface.co/openbmb/MiniCPM-SALA

ModelScope:

https://www.modelscope.cn/models/OpenBMB/MiniCPM-SALA

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
百萬債務(wù)還清了!夫妻倆在杭州開飯店,8年來第一次回老家過年,臨行宴請老顧客

百萬債務(wù)還清了!夫妻倆在杭州開飯店,8年來第一次回老家過年,臨行宴請老顧客

環(huán)球網(wǎng)資訊
2026-02-25 08:28:39
回顧:那個(gè)因拍“假老虎”,被判刑2年的陜西農(nóng)民,后來怎樣了?

回顧:那個(gè)因拍“假老虎”,被判刑2年的陜西農(nóng)民,后來怎樣了?

可樂88
2024-04-18 08:31:32
第5外援來了!朱芳雨親自官宣,杜鋒又撿到寶了,廣東爭冠穩(wěn)了?

第5外援來了!朱芳雨親自官宣,杜鋒又撿到寶了,廣東爭冠穩(wěn)了?

萌蘭聊個(gè)球
2026-02-25 10:49:31
爆:中國電信員工曬2025年終獎(jiǎng)工資單!

爆:中國電信員工曬2025年終獎(jiǎng)工資單!

通信頭條
2026-02-20 20:42:28
小資金如果想靠著炒股改善生活,啃這7句口訣就夠了

小資金如果想靠著炒股改善生活,啃這7句口訣就夠了

流蘇晚晴
2026-02-07 16:58:34
蔣介石曾孫蔣友青:出生在加拿大,如今卻重回大陸,扎根母親故鄉(xiāng)

蔣介石曾孫蔣友青:出生在加拿大,如今卻重回大陸,扎根母親故鄉(xiāng)

阿訊說天下
2026-02-25 15:20:08
勵(lì)志!陳彬彬時(shí)隔4年重返中超:上次中超出場還是1388天前

勵(lì)志!陳彬彬時(shí)隔4年重返中超:上次中超出場還是1388天前

邱澤云
2026-02-25 18:15:53
江西南昌一家人自駕返程途中發(fā)生車禍,目擊者稱一半的車身被大貨車擠壓

江西南昌一家人自駕返程途中發(fā)生車禍,目擊者稱一半的車身被大貨車擠壓

觀威海
2026-02-25 10:26:09
伊朗要死!

伊朗要死!

求實(shí)處
2026-02-22 17:53:28
A股:今日無量大漲,釋放什么信號?券商異常拉升,牛市加速了?

A股:今日無量大漲,釋放什么信號?券商異常拉升,牛市加速了?

虎哥閑聊
2026-02-25 11:45:10
中國重建供銷社,不是經(jīng)濟(jì)倒退,而是一心幫老百姓脫貧

中國重建供銷社,不是經(jīng)濟(jì)倒退,而是一心幫老百姓脫貧

Hi科普啦
2026-02-24 14:50:33
內(nèi)地多名“億萬富豪”在香港被抓!

內(nèi)地多名“億萬富豪”在香港被抓!

港港地
2026-02-24 10:03:12
鄺兆鐳首秀送助攻!助海牛戰(zhàn)勝泰山,董路:挺好的開始保持耐心

鄺兆鐳首秀送助攻!助海牛戰(zhàn)勝泰山,董路:挺好的開始保持耐心

奧拜爾
2026-02-25 17:53:31
2026第一波大裁員來了,注意這5個(gè)危險(xiǎn)行業(yè)

2026第一波大裁員來了,注意這5個(gè)危險(xiǎn)行業(yè)

愛看劇的阿峰
2026-02-25 04:59:54
聯(lián)大高票通過烏和平?jīng)Q議!107國贊成,俄等12國反對

聯(lián)大高票通過烏和平?jīng)Q議!107國贊成,俄等12國反對

老馬拉車莫少裝
2026-02-25 03:23:45
BBA春節(jié)檔掀史上最猛降價(jià)潮,寶馬7系狂降27萬,新能源車企卻換了一種打法

BBA春節(jié)檔掀史上最猛降價(jià)潮,寶馬7系狂降27萬,新能源車企卻換了一種打法

金融界
2026-02-24 18:07:07
默茨還沒在北京入座,德國對華鷹派先攤牌了,中方恐將以1敵27國

默茨還沒在北京入座,德國對華鷹派先攤牌了,中方恐將以1敵27國

奇奇圈
2026-02-25 09:24:46
愛潑斯坦文件曝小李子曾食用超過70磅的“兒童肉”,這地怎么洗?

愛潑斯坦文件曝小李子曾食用超過70磅的“兒童肉”,這地怎么洗?

我心縱橫天地間
2026-02-24 22:07:27
特朗普發(fā)表國情咨文演講 一民主黨議員抗議被帶離場 最新民調(diào):特朗普的支持率為36%

特朗普發(fā)表國情咨文演講 一民主黨議員抗議被帶離場 最新民調(diào):特朗普的支持率為36%

每日經(jīng)濟(jì)新聞
2026-02-25 14:13:57
回杭州堵了19小時(shí),女子一下車倒地昏迷!一夜連發(fā)兩起,都差點(diǎn)沒命!醫(yī)生提醒……

回杭州堵了19小時(shí),女子一下車倒地昏迷!一夜連發(fā)兩起,都差點(diǎn)沒命!醫(yī)生提醒……

環(huán)球網(wǎng)資訊
2026-02-24 19:47:09
2026-02-25 19:23:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12199文章數(shù) 176392關(guān)注度
往期回顧 全部

科技要聞

“機(jī)器人只跳舞,沒什么用”

頭條要聞

美官員稱6個(gè)月內(nèi)三國政府或被親美政權(quán)取代 中方回應(yīng)

頭條要聞

美官員稱6個(gè)月內(nèi)三國政府或被親美政權(quán)取代 中方回應(yīng)

體育要聞

曝雄鹿計(jì)劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂要聞

撒貝寧到沈陽跑親戚 老婆李白模特身材

財(cái)經(jīng)要聞

上海樓市放大招,地產(chǎn)預(yù)期別太大

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

時(shí)尚
本地
房產(chǎn)
親子
游戲

普通人穿衣別太老氣橫秋!這些穿搭給你靈感,保暖耐看兩不誤

本地新聞

津南好·四時(shí)總相宜

房產(chǎn)要聞

海南樓市春節(jié)熱銷地圖曝光!三亞、陵水又殺瘋了!

親子要聞

小菲曬娃,小寶寶好漂亮,睡得很香!筱梅狀態(tài)好,恭喜他們一家人

外網(wǎng)神人自制健身環(huán)接入眾多游戲!走路都得大出汗

無障礙瀏覽 進(jìn)入關(guān)懷版