国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek開源MoE新利器LPLB:基于線性規(guī)劃,專攻訓(xùn)練動(dòng)態(tài)負(fù)載不平衡

0
分享至


剛剛DeepSeek在GitHub開源了LPLB(Linear-Programming-Based Load Balancer)。這是一個(gè)基于線性規(guī)劃的并行負(fù)載均衡器,旨在優(yōu)化MoE(混合專家)模型的專家并行工作負(fù)載分配

看起來(lái) DeepSeek 和老黃的思路是一致的

英偉達(dá)在一個(gè)由 NVLink 連接的 1 萬(wàn)張 GPU 集群里,用完全一樣的機(jī)制來(lái)給不同 kernel 分配 SM(GPU 的計(jì)算單元:Streaming Multiprocessors)。DeepSeek 做的事也一樣,只不過它把這個(gè)調(diào)度機(jī)制往上抽象了一層,做到了整個(gè) pipeline 級(jí)別

目前該項(xiàng)目處于早期研究階段,性能提升仍在評(píng)估中。

核心功能與實(shí)現(xiàn)

LPLB主要通過以下機(jī)制實(shí)現(xiàn)動(dòng)態(tài)負(fù)載均衡:

動(dòng)態(tài)重排序:基于工作負(fù)載統(tǒng)計(jì)信息對(duì)專家進(jìn)行動(dòng)態(tài)重排序(該過程由嵌入的EPLB輔助)

副本構(gòu)建:考慮靜態(tài)拓?fù)浣Y(jié)構(gòu)構(gòu)建專家副本

最優(yōu)Token分配:針對(duì)每個(gè)批次(Batch)求解最優(yōu)Token分配方案

在技術(shù)實(shí)現(xiàn)上,其內(nèi)置的LP(線性規(guī)劃)求解器實(shí)現(xiàn)了單SM內(nèi)點(diǎn)法(Interior Point Method, IPM),并利用NVIDIA的cuSolverDx和cuBLASDx庫(kù)進(jìn)行線性代數(shù)運(yùn)算。

工作負(fù)載統(tǒng)計(jì)信息可由用戶提供,通過torch.distributed收集,或從Deep-EP緩沖區(qū)的內(nèi)部通信器獲取。

工作原理

LPLB是對(duì)EPLB(Expert Parallelism Load Balancer)的擴(kuò)展,旨在解決MoE訓(xùn)練中的動(dòng)態(tài)負(fù)載不平衡問題:

EPLB:主要處理由數(shù)據(jù)分布引起的靜態(tài)不平衡(如某些專家持續(xù)過載)。

LPLB:針對(duì)訓(xùn)練過程中小批次隨機(jī)性引起的每批次波動(dòng)

具體機(jī)制:

1.冗余專家:每個(gè)冗余專家鏈接到一個(gè)原始專家,在GPU之間形成邊(Edge)

2.邊容量:邊的容量定義為當(dāng)前批次分配給冗余專家的Token數(shù)量,即用于平衡的最大Token流

3.LP優(yōu)化:LPLB求解線性規(guī)劃問題,在尊重邊容量的前提下沿這些邊重新分配Token,以最小化專家并行(EP)組內(nèi)的負(fù)載不平衡。

在該過程中,待復(fù)制的專家通過EPLB選擇(僅重排序,不復(fù)制),最重的專家根據(jù)選定的LPLB拓?fù)溥M(jìn)行復(fù)制。為了減少通信開銷,實(shí)時(shí)工作負(fù)載同步利用NVLINK和NVSHMEM(需預(yù)裝DeepEP),而非torch.distributed.allreduce

支持的拓?fù)浣Y(jié)構(gòu)

LPLB支持通過修改r2o矩陣探索自定義拓?fù)?,典型拓?fù)浒ǎ?/p>

Cube:在GPU子集上復(fù)制專家,形成帶有對(duì)角邊的立方體圖。每GPU至少需要2個(gè)專家。適用于8-GPU EP子組內(nèi)的平衡,且不犧牲節(jié)點(diǎn)間通信

Hypercube:類似于Cube,但排除對(duì)角邊,需要16個(gè)GPU。適用于跨16個(gè)GPU的專家并行

Torus:在同一節(jié)點(diǎn)的鄰居GPU和鄰居節(jié)點(diǎn)的GPU上各復(fù)制一個(gè)專家,形成環(huán)面圖。每GPU至少需要2個(gè)專家。適用于全局平衡,但由于節(jié)點(diǎn)內(nèi)通信效率原因,效果可能不如Cube

局限性

成本估算:目前的規(guī)劃器僅平衡總Token數(shù)量,未考慮分組矩陣乘法時(shí)間成本的非線性,可能導(dǎo)致次優(yōu)性能

求解延遲:求解器進(jìn)行節(jié)點(diǎn)內(nèi)優(yōu)化耗時(shí)約100 μs(節(jié)點(diǎn)間更長(zhǎng)),對(duì)于小批次任務(wù),此開銷不可忽略

極端不平衡:在全局負(fù)載極端不平衡的情況下,由于LPLB避免將多個(gè)副本分配給同一原始專家,其表現(xiàn)可能不如EPLB

安裝與使用

預(yù)備條件:

CUDA Toolkit >= 12.6.3(包含cuSolverDx依賴)。

DeepEP(可選,但強(qiáng)烈建議用于實(shí)際生產(chǎn))。

EPLB(已嵌入)

安裝命令:

                                                                    ./download-mathdx.sh
# export NVSHMEM_DIR=... # 可選
pip install --no-build-isolation .

接口示例:

                                                                    # 定義冗余專家拓?fù)?br/>r2o = torch.tensor(
[
[3, 0, 1, 2, 7, 4, 5, 6],
[6, 7, 4, 5, 0, 1, 2, 3],
]
).T.int().cuda()

planner = Planner(
r2o,
n_logical_experts + n_redundants_per_rank * ep_size,
n_logical_experts,
group=ep_group,
)

# 規(guī)劃器返回物理專家索引
redirected_indices = planner.run(indices, avail_counter, N_SMS)

項(xiàng)目地址:https://github.com/deepseek-ai/LPLB

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美伊如果拖持久戰(zhàn),是否會(huì)像俄烏戰(zhàn)爭(zhēng)一樣深陷泥潭,趁機(jī)拖垮美國(guó)

美伊如果拖持久戰(zhàn),是否會(huì)像俄烏戰(zhàn)爭(zhēng)一樣深陷泥潭,趁機(jī)拖垮美國(guó)

小軻搞笑解說
2026-03-02 12:10:23
自家名宿不護(hù)著,賴特:賴斯的動(dòng)作絕對(duì)是一個(gè)點(diǎn)球

自家名宿不護(hù)著,賴特:賴斯的動(dòng)作絕對(duì)是一個(gè)點(diǎn)球

懂球帝
2026-03-02 09:48:07
戰(zhàn)火升級(jí)!烈度或超“12日戰(zhàn)爭(zhēng)”,本輪美伊沖突五大疑問待解

戰(zhàn)火升級(jí)!烈度或超“12日戰(zhàn)爭(zhēng)”,本輪美伊沖突五大疑問待解

中國(guó)網(wǎng)
2026-03-01 11:35:05
體制內(nèi)情商高能帶來(lái)啥意外驚喜?網(wǎng)友:別在地鐵看,別問我為什么

體制內(nèi)情商高能帶來(lái)啥意外驚喜?網(wǎng)友:別在地鐵看,別問我為什么

帶你感受人間冷暖
2026-02-24 01:03:13
騎士106-102籃網(wǎng)!阿特金森賽后把話挑明,哈登復(fù)出帶來(lái)一大變化

騎士106-102籃網(wǎng)!阿特金森賽后把話挑明,哈登復(fù)出帶來(lái)一大變化

魚崖大話籃球
2026-03-02 10:21:28
“最慘超女”黃雅莉:沒工作沒積蓄,34歲生子后住5平米的小屋

“最慘超女”黃雅莉:沒工作沒積蓄,34歲生子后住5平米的小屋

地理三體說
2026-01-29 21:40:34
中國(guó)電網(wǎng)砸5萬(wàn)億鎖死優(yōu)勢(shì)!越南被迫限電減產(chǎn),歐洲電價(jià)暴漲10倍

中國(guó)電網(wǎng)砸5萬(wàn)億鎖死優(yōu)勢(shì)!越南被迫限電減產(chǎn),歐洲電價(jià)暴漲10倍

財(cái)經(jīng)保探長(zhǎng)
2026-02-23 19:10:05
隔扣楊瀚森!庫(kù)明加三戰(zhàn)轟64+23太炸裂 老鷹全場(chǎng)高呼謝謝勇士隊(duì)

隔扣楊瀚森!庫(kù)明加三戰(zhàn)轟64+23太炸裂 老鷹全場(chǎng)高呼謝謝勇士隊(duì)

星Xin辰大海
2026-03-02 13:27:42
24小時(shí)之內(nèi),賴清德喊話大陸,鄭麗文向民進(jìn)黨妥協(xié),日本部署導(dǎo)彈

24小時(shí)之內(nèi),賴清德喊話大陸,鄭麗文向民進(jìn)黨妥協(xié),日本部署導(dǎo)彈

野史日記
2026-03-01 09:25:03
一汽豐田第六代RAV4榮放雙擎精英版上線限時(shí)煥新價(jià),15.18萬(wàn)元

一汽豐田第六代RAV4榮放雙擎精英版上線限時(shí)煥新價(jià),15.18萬(wàn)元

IT之家
2026-03-02 09:08:37
哈梅內(nèi)伊之死和伊朗性史

哈梅內(nèi)伊之死和伊朗性史

哲空空
2026-03-01 11:14:17
知名演員秦嵐自曝患病,已做手術(shù)!

知名演員秦嵐自曝患病,已做手術(shù)!

極目新聞
2026-02-28 23:12:57
別當(dāng)廢品扔!2026這5類舊物暴漲,有的漲10倍,家家都有

別當(dāng)廢品扔!2026這5類舊物暴漲,有的漲10倍,家家都有

愛下廚的阿釃
2026-03-01 16:51:26
鄒市明一家國(guó)外度假!冉瑩穎膘肥體壯不好惹,軒軒一頭白毛好土氣

鄒市明一家國(guó)外度假!冉瑩穎膘肥體壯不好惹,軒軒一頭白毛好土氣

小徐講八卦
2026-03-01 05:51:11
汪小菲首次回應(yīng)包機(jī)事件,談到S家直呼無(wú)語(yǔ),對(duì)黑粉毫不客氣

汪小菲首次回應(yīng)包機(jī)事件,談到S家直呼無(wú)語(yǔ),對(duì)黑粉毫不客氣

小徐講八卦
2026-03-01 06:14:05
港股暴跌,亞太股市全線走低,A股跳水后拉回,下午能全線收紅嗎

港股暴跌,亞太股市全線走低,A股跳水后拉回,下午能全線收紅嗎

有范又有料
2026-03-02 12:16:58
梅西2球1助導(dǎo)演大逆轉(zhuǎn),任意球破門次數(shù)追平貝利

梅西2球1助導(dǎo)演大逆轉(zhuǎn),任意球破門次數(shù)追平貝利

體壇周報(bào)
2026-03-02 11:19:11
不是那個(gè)年代的,你真看不懂

不是那個(gè)年代的,你真看不懂

深度報(bào)
2026-02-15 23:01:53
3月2日人民幣對(duì)美元中間價(jià)調(diào)貶8個(gè)基點(diǎn)

3月2日人民幣對(duì)美元中間價(jià)調(diào)貶8個(gè)基點(diǎn)

證券時(shí)報(bào)
2026-03-02 09:31:54
一場(chǎng)34分慘敗,讓開拓者看清楊瀚森,中國(guó)球迷開始理解斯普利特

一場(chǎng)34分慘敗,讓開拓者看清楊瀚森,中國(guó)球迷開始理解斯普利特

球場(chǎng)沒跑道
2026-03-02 11:15:40
2026-03-02 15:00:49
AI寒武紀(jì) incentive-icons
AI寒武紀(jì)
專注于人工智能,科技領(lǐng)域
1034文章數(shù) 396關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

體育要聞

卡里克主場(chǎng)5連勝!隊(duì)史第2人通過最大考驗(yàn)

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

中東局勢(shì)影響如何?十大券商策略來(lái)了

汽車要聞

預(yù)售11.28萬(wàn)起 狐全新阿爾法S5標(biāo)配寧德時(shí)代

態(tài)度原創(chuàng)

教育
本地
數(shù)碼
游戲
公開課

教育要聞

【張捷雜談】對(duì)涉考舞弊處罰過輕與幕后潛規(guī)則

本地新聞

津南好·四時(shí)總相宜

數(shù)碼要聞

聯(lián)想公布ThinkBook Modular AI PC Concept模塊化雙屏概念機(jī)

voice38回應(yīng)攻破D加密游戲順序 工具齊備就會(huì)攻破!

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版