国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

70萬獎金,邀你寫算法:代碼將合入 SGLang 主線

0
分享至

前兩天,面壁智能發(fā)了 MiniCPM-SALA,一個 9B 參數的模型,用的是全新的「稀疏+線性」混合注意力架構。同一天,他們聯合 SGLang 和 NVIDIA 發(fā)起了一場比賽:SOAR 2026 稀疏算子加速大獎賽

總獎金超過 70 萬人民幣,單支隊伍最高可得62萬
先說比賽,再聊技術


這場比賽在比什么

一句話:在消費級 GPU 上,把 MiniCPM-SALA 的推理速度榨到極限

參賽者拿到的是面壁提供的 MiniCPM-SALA 模型(可以用官方量化版本),在 NVIDIA RTX PRO GPU 上做推理優(yōu)化。算子融合、Kernel 優(yōu)化、KV 讀寫優(yōu)化、Prefill/Decode 路徑優(yōu)化、圖編譯,都可以搞。評測指標就一個:跑完所有請求的總墻鐘時間,越短越好

硬件方面,需采用 NVIDIA 高端 RTX GPU,與 SALA「端側跑百萬上下文」的定位是對齊的

2月25日比賽測速平臺即將開放,下面這個是賽程安排,每周都會評選出周冠軍并發(fā)獎(3月4日將產生第一個周冠軍)


SOAR 2026 賽程時間線: https://soar.openbmb.cn/competition 獎金結構

總決賽冠軍21萬,亞軍7萬,季軍3.5


同時,半決賽冠軍7萬。每周還有周冠軍拿7000塊(一共 9 個周冠軍,3月4日將產生第一個周冠軍)


但最值得看的是「特別懸賞獎」:28 萬


特別懸賞獎比冠軍獎金還高

拿這個獎的條件是:總榜第一 + 推理性能超越官方設定的「極速挑戰(zhàn)線」 + 代碼合入 SGLang 主線倉庫。如果冠軍同時滿足條件,單支隊伍最高可以拿走 62 萬+

獲獎還有一個前提:周冠軍、半決賽冠軍、總決賽冠軍都需要提交技術博客,冠軍代碼要審核通過并合入 SGLang 主倉。所有參賽代碼按 Apache 2.0 開源

也就是說,比賽產出的每一份優(yōu)化最終都會進入 SGLang 開源倉庫,所有人都能用

怎么參加

3 人以內組隊,免費報名,5 月 27 日前都能報。2 月 25 日正式開始提交,3 月 4 日榜單開啟。每個團隊每天最多提交 3 次

比賽周期從 2 月 11 日到 5 月 29 日,中間 4 月 9 日到 15 日有休賽期。半決賽節(jié)點是 4 月 8 日,總決賽 5 月 29 日

官方不提供 GPU 算力,選手自行準備或租用 RTX PRO(或等效)資源。有困難的可以聯系大賽合作伙伴 FCloud

溝通渠道是 GitHub Issues(技術問題)、contact@openbmb.cn(賽務)、飛書和 Discord 社區(qū)。每月有一次線上 AMA,SGLang 核心開發(fā)者和 NVIDIA 技術專家參與


技術背景:SALA 到底解決什么問題

作為背景,Transformer 處理長文本有兩堵墻

第一堵是計算墻。標準注意力的計算量隨序列長度平方級增長,百萬 token 的 prefill 階段延遲會爆炸

第二堵是顯存墻。自回歸生成時要存所有歷史 token 的 KV Cache,一個 8B 模型處理百萬 token,KV Cache 就能占幾十到上百 GB 顯存

目前兩條主流路線,各解決了一半問題

稀疏注意力(DeepSeek 的 NSA、面壁自己的 InfLLM-V2 都屬于這條線):每個 token 只看一部分關鍵的 KV,計算量下來了。但 KV Cache 還是全量存著,顯存問題沒動

線性注意力(MiniMax 的 Lightning Attention、月暗面的 KDA 屬于這條線):把復雜度從 O(N2) 降到 O(N),KV Cache 也壓縮了。但這是有損壓縮,長距離信息的召回精度會掉

SALA 的做法是把兩條線混在一起用
75% 的層用 Lightning Attention(線性),25% 的層用 InfLLM-V2(稀疏)


MiniCPM-SALA 模型架構 兩篇論文支撐這個架構

SALA 背后是清華 NLP 組和 OpenBMB 的兩篇論文,分別解決稀疏和線性兩個模塊的問題

InfLLM-V2:稀疏注意力怎么做

先說行業(yè)里已有的方案。DeepSeek 的 NSA 引入了 3 套 KV 投影參數、3 個注意力模塊(壓縮注意力、選擇注意力、滑窗注意力)、外加一個門控 MLP 來融合三路輸出。能用,但問題也明顯:參數多、計算重、跟標準的「短文本預訓練 → 長文本微調」流程不兼容

InfLLM-V2 的思路是零額外參數。直接復用 dense attention 的 KV 投影權重,把選擇注意力和滑窗注意力合并成一個統(tǒng)一的稀疏模塊,去掉壓縮注意力的輸出(只保留它的 score 用來做塊選擇)

實際效果:訓練時從 dense 切到 sparse 幾乎沒有 loss 跳變(NSA 切換時 loss 會飆),短文本直接用 dense 模式不掉速,長文本切 sparse 模式在 A100 上最高比 FlashAttention 快 7.4 倍,4090 上最高 9.3 倍

這些加速數據是在 kernel 層面的對比。在端到端推理上,128K 序列長度下 prefill 加速 2.13 倍,decode 加速 2.32 倍(4090,W4A16 量化)

對參賽選手來說,這里面的塊選擇機制(Block Selection)和 LSE Approximation 是關鍵優(yōu)化點。論文里也寫了,max-pooling 和 top-k 操作還沒有 fuse 進 kernel,留給了「future work」

HypeNet + HALO:線性注意力怎么接進來

從頭訓練一個混合架構模型成本很高。HALO 是一個蒸餾流程,把已經訓練好的 Transformer 模型轉換成 RNN-Attention 混合模型

之前的轉換方法(Mamba-in-the-Llama、SMART、RAD、Jet-Nemotron)需要 7B 到 400B tokens 的訓練數據

HALO 只要 2.3B tokens,不到預訓練數據的 0.01%

流程分三步:先做隱狀態(tài)對齊(讓 RNN 層的輸出逼近對應的 attention 層),然后做注意力層選擇(決定哪些層保留為 attention、哪些轉成 RNN),最后做知識蒸餾和微調

注意力層選擇的策略也值得一看。HALO 的判斷標準是:替換某一層后,召回能力(NIAH 類任務)掉得多、通用能力(常識推理)掉得少的層,優(yōu)先保留為 attention 層。最終 25% 的層保持 attention,75% 轉成 RNN

RNN mixer 用的是 Lightning Attention。論文里比了 GLA、Mamba2、GDN、RWKV-7 等幾種選擇,Lightning Attention 的長度泛化能力最好。一個可能的原因是它用的是數據無關的遺忘門(data-independent forget gate),反而比數據依賴的遺忘門泛化更穩(wěn)

HyPE 位置編碼:一個巧妙的細節(jié)

HyPE 的做法是:RNN 層用 RoPE,Attention 層用 NoPE(不加位置編碼)

直覺上會覺得 attention 不加位置編碼信息會丟失。但邏輯是這樣的:RNN 層天然有位置感知(通過狀態(tài)轉移),但感受野有限,主要處理局部依賴。Attention 層負責長距離依賴。去掉 attention 層的 RoPE 之后,歷史 KV Cache 不再綁定位置信息,避免了 RoPE 在超長序列上的數值衰減問題

再加一個位置相關的 attention logits scaling(推理時根據位置動態(tài)調整注意力分數),長度泛化能力就上來了。不用 YaRN 之類的額外技術,MiniCPM-SALA 可以外推到 2048K


長度泛化測試結果 性能數據

短文本能力(知識問答、數學、代碼)跟 Qwen3-8B 等同尺寸 full attention 模型持平

長文本是優(yōu)勢所在。256K 序列長度下,NVIDIA A6000D 上 MiniCPM-SALA 的 TTFT(首 token 生成時間)從 Qwen3-8B 的 180.8 秒降到 51.6 秒,3.5 倍加速

Qwen3-8B 在 512K 和 1M 長度下 OOM。MiniCPM-SALA 在 A6000D(96GB)和 RTX 5090(32GB)上都能跑通百萬 token


A6000D 上的推理延遲對比RTX 5090 上的推理延遲對比 訓練成本

MiniCPM-SALA 的訓練路徑是先用 HALO 做架構轉換(1.3B tokens,序列長度 512),然后在 MiniCPM-4.0 的預訓練數據上做持續(xù)訓練(314.6B tokens,4K 長度),接 Short-Decay(1T tokens,4K),再 Long-Decay(逐步擴到 520K),最后 SFT


面壁在技術報告里提到,這個路徑的總訓練量是從零訓練同水平模型的 25%

幾個提示

從論文和賽制里能看到幾個明確的優(yōu)化方向:

InfLLM-V2 論文里寫了,塊選擇階段的 max-pooling 和 top-k 操作還沒做 kernel fusion,留在了 future work。這是一個確定的優(yōu)化入口

稀疏注意力只加速了 attention 層,FFN 層沒動。論文原話:「a higher speedup ratio can be achieved by incorporating FFN-specific acceleration techniques」

比賽評測關了 prefix cache,所以 prefill 路徑的優(yōu)化權重很大(單請求場景占 40% 權重),這個場景下稀疏注意力的塊選擇效率直接影響總延遲

允許用官方提供的量化模型,量化策略本身也是優(yōu)化維度

比賽從 2 月 25 日開始提交,5 月 27 日前都能報名,免費參賽,歡迎來玩


以及,有興趣的可以先看看 InfLLM-V2 論文里那幾個留給 future work 的優(yōu)化點,塊選擇的 kernel fusion 和 FFN 層加速,都是實打實的性能空間。寫出來的代碼最終會合進 SGLang 主線,這活兒值得干

比賽官網
https://soar.openbmb.cn/competition

HuggingFace:
https://huggingface.co/openbmb/MiniCPM-SALA

技術報告:
https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf

InfLLM-V2 論文:
https://arxiv.org/pdf/2509.24663

HypeNet / HALO 論文:
https://arxiv.org/pdf/2601.22156

SOAR 2026 比賽報名:
contact@openbmb.cn

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
狀態(tài)下滑+2768萬年薪!勇士離隊首人或出爐,庫里恐再失得力助手

狀態(tài)下滑+2768萬年薪!勇士離隊首人或出爐,庫里恐再失得力助手

大衛(wèi)的籃球故事
2026-04-18 18:49:04
37歲毛曉彤近照曝光!整容后遺癥雨越發(fā)嚴重,臉頰腫脹像發(fā)面饅頭

37歲毛曉彤近照曝光!整容后遺癥雨越發(fā)嚴重,臉頰腫脹像發(fā)面饅頭

八卦王者
2026-04-18 16:46:23
更新大潮來了?中央發(fā)文定調:2026年起20年房齡老房子或又吃香了

更新大潮來了?中央發(fā)文定調:2026年起20年房齡老房子或又吃香了

專業(yè)聊房君
2026-04-18 16:45:50
法國歸還文物是因為中國強大?贏學又在散發(fā)惡臭

法國歸還文物是因為中國強大?贏學又在散發(fā)惡臭

黔有虎
2026-04-17 18:52:51
央視直言荷蘭站或遭無積分,張雪洞察規(guī)則并非怯懦,歐美老廠聯合暗戰(zhàn)令人厭惡

央視直言荷蘭站或遭無積分,張雪洞察規(guī)則并非怯懦,歐美老廠聯合暗戰(zhàn)令人厭惡

小影的娛樂
2026-04-18 05:36:44
廣東崩盤輸在哪:三分37中7+下半場僅30分 徐杰三分11中1夢游

廣東崩盤輸在哪:三分37中7+下半場僅30分 徐杰三分11中1夢游

醉臥浮生
2026-04-18 21:31:34
不裝了!美日80架F-35A圍堵中國,解放軍空軍高呼:殲20升空決戰(zhàn)

不裝了!美日80架F-35A圍堵中國,解放軍空軍高呼:殲20升空決戰(zhàn)

南宗歷史
2026-04-18 05:34:59
徐帆回應離婚5個月,馮小剛近況曝光,他的“小心思”再藏不住了

徐帆回應離婚5個月,馮小剛近況曝光,他的“小心思”再藏不住了

小俎娛樂
2026-04-18 20:55:42
別再尬演“萬人迷”!滿臉褶子疙瘩、鼻孔朝天,這皮囊能迷倒誰?

別再尬演“萬人迷”!滿臉褶子疙瘩、鼻孔朝天,這皮囊能迷倒誰?

雨月海星
2026-04-18 05:25:40
6月1日交強險調整!950元固定費取消,好司機保費直接減掉一半

6月1日交強險調整!950元固定費取消,好司機保費直接減掉一半

復轉這些年
2026-04-17 11:59:50
054A護衛(wèi)艦纏斗美艦20小時,邊航行邊緊急裝彈,一度準備開火擊沉

054A護衛(wèi)艦纏斗美艦20小時,邊航行邊緊急裝彈,一度準備開火擊沉

十三級臺階
2026-04-18 17:33:54
丈夫騎車載妻子,為躲避狗摔倒后妻子身亡,丈夫起訴4輛違停車輛索賠124萬,法院:遮擋了視線,承擔20%次要責任

丈夫騎車載妻子,為躲避狗摔倒后妻子身亡,丈夫起訴4輛違停車輛索賠124萬,法院:遮擋了視線,承擔20%次要責任

大象新聞
2026-04-18 12:47:03
美國總統(tǒng)特朗普稱將很快發(fā)布第一批UFO文件!特朗普:我領導的政府找到了許多“非常有趣”的文件

美國總統(tǒng)特朗普稱將很快發(fā)布第一批UFO文件!特朗普:我領導的政府找到了許多“非常有趣”的文件

每日經濟新聞
2026-04-18 11:35:50
ESPN記者:杜蘭特的膝傷是訓練中所致,但火箭對此持樂觀態(tài)度

ESPN記者:杜蘭特的膝傷是訓練中所致,但火箭對此持樂觀態(tài)度

懂球帝
2026-04-18 19:56:13
氣溫回暖,猝死的人越來越多?醫(yī)生強調:寧睡到中午,也別做5事

氣溫回暖,猝死的人越來越多?醫(yī)生強調:寧睡到中午,也別做5事

醫(yī)學原創(chuàng)故事會
2026-04-14 23:52:04
暴漲!暴漲!霍爾木茲,又有變數!

暴漲!暴漲!霍爾木茲,又有變數!

中國基金報
2026-04-18 09:19:43
伊朗總統(tǒng)當眾警告“下一個是中國”,讓中國別忘了唇亡齒寒?

伊朗總統(tǒng)當眾警告“下一個是中國”,讓中國別忘了唇亡齒寒?

少年仍需努力
2026-04-18 07:54:13
涉嫌嚴重違紀違法,鮮海春被查

涉嫌嚴重違紀違法,鮮海春被查

吉刻新聞
2026-04-18 10:57:05
賴清德已經動手,整肅名單泄露,鄭麗文排名第一,第三名讓人意外

賴清德已經動手,整肅名單泄露,鄭麗文排名第一,第三名讓人意外

忠于法紀
2026-04-18 13:43:07
隨著長春亞泰3-1,寧波0-0,南通支云0-0,中甲最新積分榜出爐

隨著長春亞泰3-1,寧波0-0,南通支云0-0,中甲最新積分榜出爐

凌空倒鉤
2026-04-18 17:32:07
2026-04-18 22:03:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
389文章數 50關注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

因壓線被罰 張雪機車征戰(zhàn)WSBK荷蘭站第一回合憾獲第四

頭條要聞

因壓線被罰 張雪機車征戰(zhàn)WSBK荷蘭站第一回合憾獲第四

體育要聞

時隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應潘宏彬去世,拒談喪禮細節(jié)

財經要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價14.48萬元起

態(tài)度原創(chuàng)

藝術
親子
本地
房產
公開課

藝術要聞

耗資600億,貴陽人的“上海外灘”,現在去看,荒得嚇人

親子要聞

十個月轉眼就過去了,原來真的會懷念和寶寶合體的日子

本地新聞

12噸巧克力有難,全網化身超級偵探添亂

房產要聞

官宣簽約最強城更!海口樓市,突然殺入神秘房企!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版