網易首頁 > 網易號 > 正文申請入駐

70萬獎金，邀你寫算法：代碼將合入 SGLang 主線

2026-02-14 22:22:51　來源: 賽博禪心

北京舉報

分享至

前兩天，面壁智能發(fā)了 MiniCPM-SALA，一個 9B 參數的模型，用的是全新的「稀疏+線性」混合注意力架構。同一天，他們聯合 SGLang 和 NVIDIA 發(fā)起了一場比賽：SOAR 2026 稀疏算子加速大獎賽

總獎金超過 70 萬人民幣，單支隊伍最高可得62萬
先說比賽，再聊技術

這場比賽在比什么

一句話：在消費級 GPU 上，把 MiniCPM-SALA 的推理速度榨到極限

參賽者拿到的是面壁提供的 MiniCPM-SALA 模型（可以用官方量化版本），在 NVIDIA RTX PRO GPU 上做推理優(yōu)化。算子融合、Kernel 優(yōu)化、KV 讀寫優(yōu)化、Prefill/Decode 路徑優(yōu)化、圖編譯，都可以搞。評測指標就一個：跑完所有請求的總墻鐘時間，越短越好

硬件方面，需采用 NVIDIA 高端 RTX GPU，與 SALA「端側跑百萬上下文」的定位是對齊的

2月25日比賽測速平臺即將開放，下面這個是賽程安排，每周都會評選出周冠軍并發(fā)獎（3月4日將產生第一個周冠軍）

SOAR 2026 賽程時間線： https://soar.openbmb.cn/competition 獎金結構

總決賽冠軍21萬，亞軍7萬，季軍3.5萬

同時，半決賽冠軍7萬。每周還有周冠軍拿7000塊（一共 9 個周冠軍，3月4日將產生第一個周冠軍）

但最值得看的是「特別懸賞獎」：28 萬

特別懸賞獎比冠軍獎金還高

拿這個獎的條件是：總榜第一 + 推理性能超越官方設定的「極速挑戰(zhàn)線」 + 代碼合入 SGLang 主線倉庫。如果冠軍同時滿足條件，單支隊伍最高可以拿走 62 萬+

獲獎還有一個前提：周冠軍、半決賽冠軍、總決賽冠軍都需要提交技術博客，冠軍代碼要審核通過并合入 SGLang 主倉。所有參賽代碼按 Apache 2.0 開源

也就是說，比賽產出的每一份優(yōu)化最終都會進入 SGLang 開源倉庫，所有人都能用

怎么參加

3 人以內組隊，免費報名，5 月 27 日前都能報。2 月 25 日正式開始提交，3 月 4 日榜單開啟。每個團隊每天最多提交 3 次

比賽周期從 2 月 11 日到 5 月 29 日，中間 4 月 9 日到 15 日有休賽期。半決賽節(jié)點是 4 月 8 日，總決賽 5 月 29 日

官方不提供 GPU 算力，選手自行準備或租用 RTX PRO（或等效）資源。有困難的可以聯系大賽合作伙伴 FCloud

溝通渠道是 GitHub Issues（技術問題）、contact@openbmb.cn（賽務）、飛書和 Discord 社區(qū)。每月有一次線上 AMA，SGLang 核心開發(fā)者和 NVIDIA 技術專家參與

技術背景：SALA 到底解決什么問題

作為背景，Transformer 處理長文本有兩堵墻

第一堵是計算墻。標準注意力的計算量隨序列長度平方級增長，百萬 token 的 prefill 階段延遲會爆炸

第二堵是顯存墻。自回歸生成時要存所有歷史 token 的 KV Cache，一個 8B 模型處理百萬 token，KV Cache 就能占幾十到上百 GB 顯存

目前兩條主流路線，各解決了一半問題

稀疏注意力（DeepSeek 的 NSA、面壁自己的 InfLLM-V2 都屬于這條線）：每個 token 只看一部分關鍵的 KV，計算量下來了。但 KV Cache 還是全量存著，顯存問題沒動

線性注意力（MiniMax 的 Lightning Attention、月暗面的 KDA 屬于這條線）：把復雜度從 O(N2) 降到 O(N)，KV Cache 也壓縮了。但這是有損壓縮，長距離信息的召回精度會掉

SALA 的做法是把兩條線混在一起用
75% 的層用 Lightning Attention（線性），25% 的層用 InfLLM-V2（稀疏）

MiniCPM-SALA 模型架構兩篇論文支撐這個架構

SALA 背后是清華 NLP 組和 OpenBMB 的兩篇論文，分別解決稀疏和線性兩個模塊的問題

InfLLM-V2：稀疏注意力怎么做

先說行業(yè)里已有的方案。DeepSeek 的 NSA 引入了 3 套 KV 投影參數、3 個注意力模塊（壓縮注意力、選擇注意力、滑窗注意力）、外加一個門控 MLP 來融合三路輸出。能用，但問題也明顯：參數多、計算重、跟標準的「短文本預訓練 → 長文本微調」流程不兼容

InfLLM-V2 的思路是零額外參數。直接復用 dense attention 的 KV 投影權重，把選擇注意力和滑窗注意力合并成一個統(tǒng)一的稀疏模塊，去掉壓縮注意力的輸出（只保留它的 score 用來做塊選擇）

實際效果：訓練時從 dense 切到 sparse 幾乎沒有 loss 跳變（NSA 切換時 loss 會飆），短文本直接用 dense 模式不掉速，長文本切 sparse 模式在 A100 上最高比 FlashAttention 快 7.4 倍，4090 上最高 9.3 倍

這些加速數據是在 kernel 層面的對比。在端到端推理上，128K 序列長度下 prefill 加速 2.13 倍，decode 加速 2.32 倍（4090，W4A16 量化）

對參賽選手來說，這里面的塊選擇機制（Block Selection）和 LSE Approximation 是關鍵優(yōu)化點。論文里也寫了，max-pooling 和 top-k 操作還沒有 fuse 進 kernel，留給了「future work」

HypeNet + HALO：線性注意力怎么接進來

從頭訓練一個混合架構模型成本很高。HALO 是一個蒸餾流程，把已經訓練好的 Transformer 模型轉換成 RNN-Attention 混合模型

之前的轉換方法（Mamba-in-the-Llama、SMART、RAD、Jet-Nemotron）需要 7B 到 400B tokens 的訓練數據

HALO 只要 2.3B tokens，不到預訓練數據的 0.01%

流程分三步：先做隱狀態(tài)對齊（讓 RNN 層的輸出逼近對應的 attention 層），然后做注意力層選擇（決定哪些層保留為 attention、哪些轉成 RNN），最后做知識蒸餾和微調

注意力層選擇的策略也值得一看。HALO 的判斷標準是：替換某一層后，召回能力（NIAH 類任務）掉得多、通用能力（常識推理）掉得少的層，優(yōu)先保留為 attention 層。最終 25% 的層保持 attention，75% 轉成 RNN

RNN mixer 用的是 Lightning Attention。論文里比了 GLA、Mamba2、GDN、RWKV-7 等幾種選擇，Lightning Attention 的長度泛化能力最好。一個可能的原因是它用的是數據無關的遺忘門（data-independent forget gate），反而比數據依賴的遺忘門泛化更穩(wěn)

HyPE 位置編碼：一個巧妙的細節(jié)

HyPE 的做法是：RNN 層用 RoPE，Attention 層用 NoPE（不加位置編碼）

直覺上會覺得 attention 不加位置編碼信息會丟失。但邏輯是這樣的：RNN 層天然有位置感知（通過狀態(tài)轉移），但感受野有限，主要處理局部依賴。Attention 層負責長距離依賴。去掉 attention 層的 RoPE 之后，歷史 KV Cache 不再綁定位置信息，避免了 RoPE 在超長序列上的數值衰減問題

再加一個位置相關的 attention logits scaling（推理時根據位置動態(tài)調整注意力分數），長度泛化能力就上來了。不用 YaRN 之類的額外技術，MiniCPM-SALA 可以外推到 2048K

長度泛化測試結果性能數據

短文本能力（知識問答、數學、代碼）跟 Qwen3-8B 等同尺寸 full attention 模型持平

長文本是優(yōu)勢所在。256K 序列長度下，NVIDIA A6000D 上 MiniCPM-SALA 的 TTFT（首 token 生成時間）從 Qwen3-8B 的 180.8 秒降到 51.6 秒，3.5 倍加速

Qwen3-8B 在 512K 和 1M 長度下 OOM。MiniCPM-SALA 在 A6000D（96GB）和 RTX 5090（32GB）上都能跑通百萬 token

A6000D 上的推理延遲對比RTX 5090 上的推理延遲對比訓練成本

MiniCPM-SALA 的訓練路徑是先用 HALO 做架構轉換（1.3B tokens，序列長度 512），然后在 MiniCPM-4.0 的預訓練數據上做持續(xù)訓練（314.6B tokens，4K 長度），接 Short-Decay（1T tokens，4K），再 Long-Decay（逐步擴到 520K），最后 SFT

面壁在技術報告里提到，這個路徑的總訓練量是從零訓練同水平模型的 25%

幾個提示

從論文和賽制里能看到幾個明確的優(yōu)化方向：

InfLLM-V2 論文里寫了，塊選擇階段的 max-pooling 和 top-k 操作還沒做 kernel fusion，留在了 future work。這是一個確定的優(yōu)化入口

稀疏注意力只加速了 attention 層，FFN 層沒動。論文原話：「a higher speedup ratio can be achieved by incorporating FFN-specific acceleration techniques」

比賽評測關了 prefix cache，所以 prefill 路徑的優(yōu)化權重很大（單請求場景占 40% 權重），這個場景下稀疏注意力的塊選擇效率直接影響總延遲

允許用官方提供的量化模型，量化策略本身也是優(yōu)化維度

比賽從 2 月 25 日開始提交，5 月 27 日前都能報名，免費參賽，歡迎來玩

以及，有興趣的可以先看看 InfLLM-V2 論文里那幾個留給 future work 的優(yōu)化點，塊選擇的 kernel fusion 和 FFN 層加速，都是實打實的性能空間。寫出來的代碼最終會合進 SGLang 主線，這活兒值得干

比賽官網
https://soar.openbmb.cn/competition

HuggingFace：
https://huggingface.co/openbmb/MiniCPM-SALA

技術報告：
https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf

InfLLM-V2 論文：
https://arxiv.org/pdf/2509.24663

HypeNet / HALO 論文：
https://arxiv.org/pdf/2601.22156

SOAR 2026 比賽報名：
contact@openbmb.cn

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.