国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

70萬(wàn)獎(jiǎng)金,邀你寫(xiě)算法:代碼將合入 SGLang 主線(xiàn)

0
分享至

前兩天,面壁智能發(fā)了 MiniCPM-SALA,一個(gè) 9B 參數(shù)的模型,用的是全新的「稀疏+線(xiàn)性」混合注意力架構(gòu)。同一天,他們聯(lián)合 SGLang 和 NVIDIA 發(fā)起了一場(chǎng)比賽:SOAR 2026 稀疏算子加速大獎(jiǎng)賽

總獎(jiǎng)金超過(guò) 70 萬(wàn)人民幣,單支隊(duì)伍最高可得62萬(wàn)
先說(shuō)比賽,再聊技術(shù)


這場(chǎng)比賽在比什么

一句話(huà):在消費(fèi)級(jí) GPU 上,把 MiniCPM-SALA 的推理速度榨到極限

參賽者拿到的是面壁提供的 MiniCPM-SALA 模型(可以用官方量化版本),在 NVIDIA RTX PRO GPU 上做推理優(yōu)化。算子融合、Kernel 優(yōu)化、KV 讀寫(xiě)優(yōu)化、Prefill/Decode 路徑優(yōu)化、圖編譯,都可以搞。評(píng)測(cè)指標(biāo)就一個(gè):跑完所有請(qǐng)求的總墻鐘時(shí)間,越短越好

硬件方面,需采用 NVIDIA 高端 RTX GPU,與 SALA「端側(cè)跑百萬(wàn)上下文」的定位是對(duì)齊的

2月25日比賽測(cè)速平臺(tái)即將開(kāi)放,下面這個(gè)是賽程安排,每周都會(huì)評(píng)選出周冠軍并發(fā)獎(jiǎng)(3月4日將產(chǎn)生第一個(gè)周冠軍)


SOAR 2026 賽程時(shí)間線(xiàn): https://soar.openbmb.cn/competition 獎(jiǎng)金結(jié)構(gòu)

總決賽冠軍21萬(wàn),亞軍7萬(wàn),季軍3.5萬(wàn)


同時(shí),半決賽冠軍7萬(wàn)。每周還有周冠軍拿7000塊(一共 9 個(gè)周冠軍,3月4日將產(chǎn)生第一個(gè)周冠軍)


但最值得看的是「特別懸賞獎(jiǎng)」:28 萬(wàn)


特別懸賞獎(jiǎng)比冠軍獎(jiǎng)金還高

拿這個(gè)獎(jiǎng)的條件是:總榜第一 + 推理性能超越官方設(shè)定的「極速挑戰(zhàn)線(xiàn)」 + 代碼合入 SGLang 主線(xiàn)倉(cāng)庫(kù)。如果冠軍同時(shí)滿(mǎn)足條件,單支隊(duì)伍最高可以拿走 62 萬(wàn)+

獲獎(jiǎng)還有一個(gè)前提:周冠軍、半決賽冠軍、總決賽冠軍都需要提交技術(shù)博客,冠軍代碼要審核通過(guò)并合入 SGLang 主倉(cāng)。所有參賽代碼按 Apache 2.0 開(kāi)源

也就是說(shuō),比賽產(chǎn)出的每一份優(yōu)化最終都會(huì)進(jìn)入 SGLang 開(kāi)源倉(cāng)庫(kù),所有人都能用

怎么參加

3 人以?xún)?nèi)組隊(duì),免費(fèi)報(bào)名,5 月 27 日前都能報(bào)。2 月 25 日正式開(kāi)始提交,3 月 4 日榜單開(kāi)啟。每個(gè)團(tuán)隊(duì)每天最多提交 3 次

比賽周期從 2 月 11 日到 5 月 29 日,中間 4 月 9 日到 15 日有休賽期。半決賽節(jié)點(diǎn)是 4 月 8 日,總決賽 5 月 29 日

官方不提供 GPU 算力,選手自行準(zhǔn)備或租用 RTX PRO(或等效)資源。有困難的可以聯(lián)系大賽合作伙伴 FCloud

溝通渠道是 GitHub Issues(技術(shù)問(wèn)題)、contact@openbmb.cn(賽務(wù))、飛書(shū)和 Discord 社區(qū)。每月有一次線(xiàn)上 AMA,SGLang 核心開(kāi)發(fā)者和 NVIDIA 技術(shù)專(zhuān)家參與


技術(shù)背景:SALA 到底解決什么問(wèn)題

作為背景,Transformer 處理長(zhǎng)文本有兩堵墻

第一堵是計(jì)算墻。標(biāo)準(zhǔn)注意力的計(jì)算量隨序列長(zhǎng)度平方級(jí)增長(zhǎng),百萬(wàn) token 的 prefill 階段延遲會(huì)爆炸

第二堵是顯存墻。自回歸生成時(shí)要存所有歷史 token 的 KV Cache,一個(gè) 8B 模型處理百萬(wàn) token,KV Cache 就能占幾十到上百 GB 顯存

目前兩條主流路線(xiàn),各解決了一半問(wèn)題

稀疏注意力(DeepSeek 的 NSA、面壁自己的 InfLLM-V2 都屬于這條線(xiàn)):每個(gè) token 只看一部分關(guān)鍵的 KV,計(jì)算量下來(lái)了。但 KV Cache 還是全量存著,顯存問(wèn)題沒(méi)動(dòng)

線(xiàn)性注意力(MiniMax 的 Lightning Attention、月暗面的 KDA 屬于這條線(xiàn)):把復(fù)雜度從 O(N2) 降到 O(N),KV Cache 也壓縮了。但這是有損壓縮,長(zhǎng)距離信息的召回精度會(huì)掉

SALA 的做法是把兩條線(xiàn)混在一起用
75% 的層用 Lightning Attention(線(xiàn)性),25% 的層用 InfLLM-V2(稀疏)


MiniCPM-SALA 模型架構(gòu) 兩篇論文支撐這個(gè)架構(gòu)

SALA 背后是清華 NLP 組和 OpenBMB 的兩篇論文,分別解決稀疏和線(xiàn)性?xún)蓚€(gè)模塊的問(wèn)題

InfLLM-V2:稀疏注意力怎么做

先說(shuō)行業(yè)里已有的方案。DeepSeek 的 NSA 引入了 3 套 KV 投影參數(shù)、3 個(gè)注意力模塊(壓縮注意力、選擇注意力、滑窗注意力)、外加一個(gè)門(mén)控 MLP 來(lái)融合三路輸出。能用,但問(wèn)題也明顯:參數(shù)多、計(jì)算重、跟標(biāo)準(zhǔn)的「短文本預(yù)訓(xùn)練 → 長(zhǎng)文本微調(diào)」流程不兼容

InfLLM-V2 的思路是零額外參數(shù)。直接復(fù)用 dense attention 的 KV 投影權(quán)重,把選擇注意力和滑窗注意力合并成一個(gè)統(tǒng)一的稀疏模塊,去掉壓縮注意力的輸出(只保留它的 score 用來(lái)做塊選擇)

實(shí)際效果:訓(xùn)練時(shí)從 dense 切到 sparse 幾乎沒(méi)有 loss 跳變(NSA 切換時(shí) loss 會(huì)飆),短文本直接用 dense 模式不掉速,長(zhǎng)文本切 sparse 模式在 A100 上最高比 FlashAttention 快 7.4 倍,4090 上最高 9.3 倍

這些加速數(shù)據(jù)是在 kernel 層面的對(duì)比。在端到端推理上,128K 序列長(zhǎng)度下 prefill 加速 2.13 倍,decode 加速 2.32 倍(4090,W4A16 量化)

對(duì)參賽選手來(lái)說(shuō),這里面的塊選擇機(jī)制(Block Selection)和 LSE Approximation 是關(guān)鍵優(yōu)化點(diǎn)。論文里也寫(xiě)了,max-pooling 和 top-k 操作還沒(méi)有 fuse 進(jìn) kernel,留給了「future work」

HypeNet + HALO:線(xiàn)性注意力怎么接進(jìn)來(lái)

從頭訓(xùn)練一個(gè)混合架構(gòu)模型成本很高。HALO 是一個(gè)蒸餾流程,把已經(jīng)訓(xùn)練好的 Transformer 模型轉(zhuǎn)換成 RNN-Attention 混合模型

之前的轉(zhuǎn)換方法(Mamba-in-the-Llama、SMART、RAD、Jet-Nemotron)需要 7B 到 400B tokens 的訓(xùn)練數(shù)據(jù)

HALO 只要 2.3B tokens,不到預(yù)訓(xùn)練數(shù)據(jù)的 0.01%

流程分三步:先做隱狀態(tài)對(duì)齊(讓 RNN 層的輸出逼近對(duì)應(yīng)的 attention 層),然后做注意力層選擇(決定哪些層保留為 attention、哪些轉(zhuǎn)成 RNN),最后做知識(shí)蒸餾和微調(diào)

注意力層選擇的策略也值得一看。HALO 的判斷標(biāo)準(zhǔn)是:替換某一層后,召回能力(NIAH 類(lèi)任務(wù))掉得多、通用能力(常識(shí)推理)掉得少的層,優(yōu)先保留為 attention 層。最終 25% 的層保持 attention,75% 轉(zhuǎn)成 RNN

RNN mixer 用的是 Lightning Attention。論文里比了 GLA、Mamba2、GDN、RWKV-7 等幾種選擇,Lightning Attention 的長(zhǎng)度泛化能力最好。一個(gè)可能的原因是它用的是數(shù)據(jù)無(wú)關(guān)的遺忘門(mén)(data-independent forget gate),反而比數(shù)據(jù)依賴(lài)的遺忘門(mén)泛化更穩(wěn)

HyPE 位置編碼:一個(gè)巧妙的細(xì)節(jié)

HyPE 的做法是:RNN 層用 RoPE,Attention 層用 NoPE(不加位置編碼)

直覺(jué)上會(huì)覺(jué)得 attention 不加位置編碼信息會(huì)丟失。但邏輯是這樣的:RNN 層天然有位置感知(通過(guò)狀態(tài)轉(zhuǎn)移),但感受野有限,主要處理局部依賴(lài)。Attention 層負(fù)責(zé)長(zhǎng)距離依賴(lài)。去掉 attention 層的 RoPE 之后,歷史 KV Cache 不再綁定位置信息,避免了 RoPE 在超長(zhǎng)序列上的數(shù)值衰減問(wèn)題

再加一個(gè)位置相關(guān)的 attention logits scaling(推理時(shí)根據(jù)位置動(dòng)態(tài)調(diào)整注意力分?jǐn)?shù)),長(zhǎng)度泛化能力就上來(lái)了。不用 YaRN 之類(lèi)的額外技術(shù),MiniCPM-SALA 可以外推到 2048K


長(zhǎng)度泛化測(cè)試結(jié)果 性能數(shù)據(jù)

短文本能力(知識(shí)問(wèn)答、數(shù)學(xué)、代碼)跟 Qwen3-8B 等同尺寸 full attention 模型持平

長(zhǎng)文本是優(yōu)勢(shì)所在。256K 序列長(zhǎng)度下,NVIDIA A6000D 上 MiniCPM-SALA 的 TTFT(首 token 生成時(shí)間)從 Qwen3-8B 的 180.8 秒降到 51.6 秒,3.5 倍加速

Qwen3-8B 在 512K 和 1M 長(zhǎng)度下 OOM。MiniCPM-SALA 在 A6000D(96GB)和 RTX 5090(32GB)上都能跑通百萬(wàn) token


A6000D 上的推理延遲對(duì)比RTX 5090 上的推理延遲對(duì)比 訓(xùn)練成本

MiniCPM-SALA 的訓(xùn)練路徑是先用 HALO 做架構(gòu)轉(zhuǎn)換(1.3B tokens,序列長(zhǎng)度 512),然后在 MiniCPM-4.0 的預(yù)訓(xùn)練數(shù)據(jù)上做持續(xù)訓(xùn)練(314.6B tokens,4K 長(zhǎng)度),接 Short-Decay(1T tokens,4K),再 Long-Decay(逐步擴(kuò)到 520K),最后 SFT


面壁在技術(shù)報(bào)告里提到,這個(gè)路徑的總訓(xùn)練量是從零訓(xùn)練同水平模型的 25%

幾個(gè)提示

從論文和賽制里能看到幾個(gè)明確的優(yōu)化方向:

InfLLM-V2 論文里寫(xiě)了,塊選擇階段的 max-pooling 和 top-k 操作還沒(méi)做 kernel fusion,留在了 future work。這是一個(gè)確定的優(yōu)化入口

稀疏注意力只加速了 attention 層,F(xiàn)FN 層沒(méi)動(dòng)。論文原話(huà):「a higher speedup ratio can be achieved by incorporating FFN-specific acceleration techniques」

比賽評(píng)測(cè)關(guān)了 prefix cache,所以 prefill 路徑的優(yōu)化權(quán)重很大(單請(qǐng)求場(chǎng)景占 40% 權(quán)重),這個(gè)場(chǎng)景下稀疏注意力的塊選擇效率直接影響總延遲

允許用官方提供的量化模型,量化策略本身也是優(yōu)化維度

比賽從 2 月 25 日開(kāi)始提交,5 月 27 日前都能報(bào)名,免費(fèi)參賽,歡迎來(lái)玩


以及,有興趣的可以先看看 InfLLM-V2 論文里那幾個(gè)留給 future work 的優(yōu)化點(diǎn),塊選擇的 kernel fusion 和 FFN 層加速,都是實(shí)打?qū)嵉男阅芸臻g。寫(xiě)出來(lái)的代碼最終會(huì)合進(jìn) SGLang 主線(xiàn),這活兒值得干

比賽官網(wǎng)
https://soar.openbmb.cn/competition

HuggingFace:
https://huggingface.co/openbmb/MiniCPM-SALA

技術(shù)報(bào)告:
https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf

InfLLM-V2 論文:
https://arxiv.org/pdf/2509.24663

HypeNet / HALO 論文:
https://arxiv.org/pdf/2601.22156

SOAR 2026 比賽報(bào)名:
contact@openbmb.cn

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
韓國(guó):70%的石油和20%的天然氣由中東進(jìn)口 危機(jī)時(shí)將動(dòng)用戰(zhàn)略?xún)?chǔ)備

韓國(guó):70%的石油和20%的天然氣由中東進(jìn)口 危機(jī)時(shí)將動(dòng)用戰(zhàn)略?xún)?chǔ)備

財(cái)聯(lián)社
2026-03-02 19:02:07
外媒:特朗普對(duì)伊朗發(fā)出新威脅

外媒:特朗普對(duì)伊朗發(fā)出新威脅

參考消息
2026-03-01 15:52:28
現(xiàn)實(shí)教訓(xùn)!重慶女子離婚無(wú)家可歸,抱娃跪求前任接盤(pán),被連趕3次

現(xiàn)實(shí)教訓(xùn)!重慶女子離婚無(wú)家可歸,抱娃跪求前任接盤(pán),被連趕3次

今朝牛馬
2026-03-02 21:27:47
上海某電影院事件:81秒視頻流出,主角社交媒體曝光

上海某電影院事件:81秒視頻流出,主角社交媒體曝光

溫柔看世界
2026-03-02 16:33:22
伊朗指揮中樞遭團(tuán)滅,數(shù)千名軍官正排隊(duì)投降

伊朗指揮中樞遭團(tuán)滅,數(shù)千名軍官正排隊(duì)投降

西樓飲月
2026-03-02 16:30:15
中國(guó)與伊朗接近達(dá)成超音速導(dǎo)彈采購(gòu)協(xié)議?外交部:不屬實(shí)!

中國(guó)與伊朗接近達(dá)成超音速導(dǎo)彈采購(gòu)協(xié)議?外交部:不屬實(shí)!

澎湃新聞
2026-03-02 15:36:40
伊朗再對(duì)美以基地發(fā)動(dòng)大規(guī)模襲擊

伊朗再對(duì)美以基地發(fā)動(dòng)大規(guī)模襲擊

財(cái)聯(lián)社
2026-03-01 12:32:05
涉美伊局勢(shì),復(fù)旦教授、人大教授雙雙發(fā)聲,“外網(wǎng)和國(guó)內(nèi)的一些自媒體造謠,這些人臉都不要了”

涉美伊局勢(shì),復(fù)旦教授、人大教授雙雙發(fā)聲,“外網(wǎng)和國(guó)內(nèi)的一些自媒體造謠,這些人臉都不要了”

都市快報(bào)橙柿互動(dòng)
2026-03-02 15:33:41
巴拿馬運(yùn)河兩端港口運(yùn)營(yíng)恢復(fù),MSC完成首船裝卸

巴拿馬運(yùn)河兩端港口運(yùn)營(yíng)恢復(fù),MSC完成首船裝卸

海事服務(wù)網(wǎng)CNSS
2026-03-02 19:58:04
A股:剛剛,中央四部門(mén)聯(lián)合發(fā)布,不出意外,周二將迎來(lái)新的轉(zhuǎn)變

A股:剛剛,中央四部門(mén)聯(lián)合發(fā)布,不出意外,周二將迎來(lái)新的轉(zhuǎn)變

另子維愛(ài)讀史
2026-03-02 19:31:01
伊朗生死關(guān)頭,一個(gè)關(guān)鍵人物走向前臺(tái)……

伊朗生死關(guān)頭,一個(gè)關(guān)鍵人物走向前臺(tái)……

補(bǔ)壹刀
2026-03-02 16:08:19
參宿四爆炸后,地球夜空會(huì)亮如白晝,至少半年不用開(kāi)燈了

參宿四爆炸后,地球夜空會(huì)亮如白晝,至少半年不用開(kāi)燈了

觀(guān)察宇宙
2026-03-02 19:09:35
突發(fā)! 內(nèi)賈德沒(méi)死? 親信稱(chēng): 他一切安好

突發(fā)! 內(nèi)賈德沒(méi)死? 親信稱(chēng): 他一切安好

每日經(jīng)濟(jì)新聞
2026-03-02 12:32:06
伊朗4枚彈道導(dǎo)彈“突襲”美軍航母,卻變成一場(chǎng)“昂貴的煙花秀”

伊朗4枚彈道導(dǎo)彈“突襲”美軍航母,卻變成一場(chǎng)“昂貴的煙花秀”

矚望云霄
2026-03-02 10:49:12
暴跌40%,關(guān)店4000家!曾創(chuàng)神話(huà)的“零食界愛(ài)馬仕”,賣(mài)不動(dòng)了

暴跌40%,關(guān)店4000家!曾創(chuàng)神話(huà)的“零食界愛(ài)馬仕”,賣(mài)不動(dòng)了

好賢觀(guān)史記
2026-03-02 20:17:10
加水加糖加廢料,椰子水系統(tǒng)性摻假翻車(chē)!網(wǎng)友:真夠歹毒……

加水加糖加廢料,椰子水系統(tǒng)性摻假翻車(chē)!網(wǎng)友:真夠歹毒……

柴狗夫斯基
2026-03-02 10:46:05
上海影院現(xiàn)場(chǎng)意外捉奸,女子露面身材姣好,丈夫目睹后聲音都變了

上海影院現(xiàn)場(chǎng)意外捉奸,女子露面身材姣好,丈夫目睹后聲音都變了

離離言幾許
2026-03-02 12:52:58
36歲副鎮(zhèn)長(zhǎng)開(kāi)會(huì)時(shí)腦出血暈倒,除夕當(dāng)天不幸離世:上任僅10余天,最后一條動(dòng)態(tài)為督促社火排練,留下3個(gè)孩子

36歲副鎮(zhèn)長(zhǎng)開(kāi)會(huì)時(shí)腦出血暈倒,除夕當(dāng)天不幸離世:上任僅10余天,最后一條動(dòng)態(tài)為督促社火排練,留下3個(gè)孩子

極目新聞
2026-03-02 15:45:15
不到48小時(shí),3大名人禁言被封,160萬(wàn)粉賬號(hào)涼涼,不值得同情

不到48小時(shí),3大名人禁言被封,160萬(wàn)粉賬號(hào)涼涼,不值得同情

青橘罐頭
2026-03-02 17:26:53
伊朗發(fā)射近1200枚導(dǎo)彈報(bào)復(fù)美國(guó)和以色列

伊朗發(fā)射近1200枚導(dǎo)彈報(bào)復(fù)美國(guó)和以色列

中國(guó)網(wǎng)
2026-03-01 16:43:10
2026-03-03 02:47:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
309文章數(shù) 45關(guān)注度
往期回顧 全部

科技要聞

蘋(píng)果中國(guó)官網(wǎng)上線(xiàn)iPhone 17e,4499元起

頭條要聞

中國(guó)留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

頭條要聞

中國(guó)留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂(lè)要聞

李亞鵬與哥哥和解 只有一條真心話(huà)短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車(chē)要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

時(shí)尚
藝術(shù)
手機(jī)
家居
軍事航空

今年春天一定要擁有的4件衣服,太好看了!

藝術(shù)要聞

這四位老人的花鳥(niǎo)畫(huà),竟讓人欲罷不能!

手機(jī)要聞

iPhone 17e外觀(guān)與前代幾乎一致 舊款iPhone 16e保護(hù)殼可繼續(xù)用

家居要聞

萬(wàn)物互聯(lián) 享科技福祉

軍事要聞

美國(guó)中央司令部透露對(duì)伊朗動(dòng)武全部武器裝備清單

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版