国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek發(fā)布下一代技術(shù)!北大實習(xí)生立功

0
分享至


智東西
編譯 陳駿達(dá)
編輯 云鵬

DeepSeek又找到突破大模型推理瓶頸的新方法了!

智東西2月27日報道,昨天,DeepSeek發(fā)布了一項名為DualPath的全新推理系統(tǒng)方案,直指當(dāng)前大語言模型在智能體應(yīng)用場景下遭遇的短板——KV緩存存儲I/O瓶頸。該方案通過引入雙路徑加載機制,顯著提升系統(tǒng)吞吐量,基本消除了KV緩存的I/O開銷。

DualPath的核心創(chuàng)新在于開辟了一條從存儲直通解碼引擎的新通道。KV緩存不再僅由預(yù)填充引擎加載,而是可以加載至解碼引擎,再通過計算網(wǎng)絡(luò)中的RDMA高效傳輸至預(yù)填充端。這一設(shè)計不僅緩解了存儲端的壓力,還避免了網(wǎng)絡(luò)擁塞,確保延遲敏感型任務(wù)不受干擾。

與全局調(diào)度器協(xié)同后,DualPath實現(xiàn)了動態(tài)平衡兩端負(fù)載,進一步提升資源利用率。在真實智能體工作負(fù)載測試中,DualPath將離線推理吞吐量提升最高達(dá)1.87倍,在線服務(wù)吞吐量平均提升1.96倍。

在大規(guī)??蓴U展性方面,DualPath系統(tǒng)在最多1152張GPU上進行了驗證。離線推理從2P4D(2K智能體)擴展到48P96D(48K智能體)實現(xiàn)近線性擴展,任務(wù)完成時間基本保持一致。

值得一提的是,與之前DeepSeek發(fā)表的許多研究論文類似,這篇論文的第一作者吳永彤同樣是DeepSeek的實習(xí)生。吳永彤目前在北京大學(xué)攻讀博士學(xué)位,師從金鑫教授,主要研究大模型基礎(chǔ)設(shè)施相關(guān)課題,自2025年8月以來便在DeepSeek系統(tǒng)組工作,曾參與DeepSeek-V3.2的研究。

論文鏈接:

https://arxiv.org/pdf/2602.21548

一、智能體I/O瓶頸凸顯,傳統(tǒng)設(shè)計成本高昂

隨著智能體應(yīng)用普及,多輪推理已成常態(tài)。智能體通過工具與外部環(huán)境進行數(shù)十甚至數(shù)百輪交互,上下文跨輪累積到極長長度。由于多輪、短追加的特性,KV緩存命中率高達(dá)95%以上,加載效率取代計算成為性能主導(dǎo)因素。

現(xiàn)有系統(tǒng)采用分層預(yù)填充、預(yù)填充-解碼分離(PD分離)和外部KV緩存存儲架構(gòu)。但問題在于:預(yù)填充引擎存儲網(wǎng)卡帶寬持續(xù)飽和,而解碼引擎存儲網(wǎng)卡帶寬大量閑置。這種不平衡暴露了根本性低效——存儲網(wǎng)絡(luò)帶寬利用不均,而單純增加預(yù)填充端帶寬成本高昂。


▲現(xiàn)有瓶頸(左)與DualPath(右)

DualPath的提出正是為了解決上述問題,其核心洞察在于打破“KV緩存加載必須以預(yù)填充為中心”的傳統(tǒng)設(shè)計。

現(xiàn)有系統(tǒng)僅通過存儲到預(yù)填充引擎的單一路徑加載,導(dǎo)致預(yù)填充端帶寬飽和而解碼端帶寬閑置。DualPath則增加了存儲到解碼路徑,將KV緩存先加載至空閑的解碼引擎,再通過RDMA高效傳輸給預(yù)填充引擎。

這一模式聚合了所有存儲網(wǎng)卡帶寬,重新分配網(wǎng)絡(luò)負(fù)載,從根本上緩解預(yù)填充端的I/O瓶頸。

不過,該設(shè)計仍然面臨兩大挑戰(zhàn):首先,引入額外的加載路徑會產(chǎn)生復(fù)雜的流量模式,并可能與模型執(zhí)行中的集體通信原語產(chǎn)生潛在干擾,若管理不當(dāng)會降低整體性能。

其次,系統(tǒng)必須在動態(tài)和異構(gòu)的工作負(fù)載下在線決定使用哪條加載路徑,并同時確保GPU和網(wǎng)卡之間的負(fù)載均衡。

二、三大核心組件打造DualPath,新組件并未引入瓶頸

那么,DeepSeek究竟是如何解決這些挑戰(zhàn)的呢?DualPath使用了兩項廣泛使用的技術(shù):

(1)PD分離,將提示詞和解碼處理分開以提高效率。

(1)分層預(yù)填充,避免了預(yù)填充引擎上的HBM瓶頸,并提高了GPU利用率。

而DualPath主要由三大核心組件構(gòu)成。推理引擎是基礎(chǔ)執(zhí)行單元,每個引擎管理一個GPU,并明確區(qū)分為專司預(yù)填充計算的預(yù)填充引擎和負(fù)責(zé)解碼生成的解碼引擎。

流量管理器內(nèi)嵌于每個引擎,統(tǒng)籌所有數(shù)據(jù)移動:包括主機與設(shè)備間的內(nèi)存拷貝、預(yù)填充與解碼引擎之間的KV緩存?zhèn)鬏?,以及通過存儲網(wǎng)卡進行的KV緩存持久化讀寫。其采用以計算網(wǎng)卡為中心的流量管理策略,確保KV緩存流量不會干擾延遲敏感的模型集體通信。

請求調(diào)度器作為中央決策單元,接收客戶端請求并智能分發(fā)給各引擎,同時動態(tài)決策每條請求采用傳統(tǒng)存儲到預(yù)填充路徑還是新型存儲到解碼路徑,實現(xiàn)雙路徑間的流量均衡與全局負(fù)載優(yōu)化。


在具體實現(xiàn)上,DualPath在每個預(yù)填充引擎和解碼引擎上預(yù)留少量DRAM作為緩沖區(qū)。對于預(yù)填充端讀路徑,命中token的KV緩存首先從存儲讀入預(yù)填充引擎緩沖區(qū),然后按層流式傳入預(yù)填充引擎的HBM,與未命中token的KV計算過程重疊執(zhí)行。隨后,完整的提示詞KV會被傳輸至解碼引擎緩沖區(qū),供解碼階段使用。

對于解碼端讀路徑,命中KV首先加載到解碼引擎緩沖區(qū),在預(yù)填充引擎執(zhí)行預(yù)填充時逐層通過RDMA讀取,同時與計算重疊。未命中KV計算完成后回傳至解碼引擎,與命中KV合并形成完整提示詞緩存。

無論哪條路徑,數(shù)據(jù)傳輸都采用分層流式方式,以緩解HBM容量壓力并實現(xiàn)計算與通信的重疊。解碼階段開始前,解碼引擎將完整KV從緩沖區(qū)傳入HBM,完成主機到設(shè)備拷貝后釋放CPU內(nèi)存;在生成過程中,每當(dāng)累積滿一個固定大小的token塊,就立即持久化到存儲。

為了驗證該架構(gòu)不會引入新的瓶頸,論文對計算網(wǎng)卡帶寬和DRAM帶寬進行了系統(tǒng)性分析。通過建立每對預(yù)填充引擎—解碼引擎之間的流量模型,并假設(shè)負(fù)載均衡與網(wǎng)絡(luò)無擁塞,作者推導(dǎo)出在一定的P/D(預(yù)填充節(jié)點與解碼節(jié)點數(shù)量之比)范圍內(nèi),計算網(wǎng)卡、PCIe以及DRAM均不會成為瓶頸。

在典型配置(例如每節(jié)點8個GPU、存儲帶寬遠(yuǎn)小于計算帶寬)下,可行的P/D區(qū)間覆蓋大多數(shù)實際部署比例,說明系統(tǒng)能夠在充分利用所有存儲網(wǎng)卡帶寬的同時,保持計算與內(nèi)存資源的穩(wěn)定運行。

三、系統(tǒng)落地仍面臨三大挑戰(zhàn),采用計算網(wǎng)卡為中心的流量管理

然而,在真實系統(tǒng)中落地雙路徑架構(gòu)仍面臨三項核心挑戰(zhàn)。首先是細(xì)粒度數(shù)據(jù)傳輸。分層執(zhí)行緩解了HBM容量壓力,但也將KV拆分為大量小塊,需要在存儲、主機DRAM和GPUHBM之間高效搬運,同時控制軟件與硬件開銷。

其次是流量隔離。新增的KV傳輸可能干擾模型執(zhí)行中的延遲敏感型集體通信(如AllToAll、ReduceScatter/AllGather),若缺乏隔離機制,將直接推高端到端推理延遲。

最后是動態(tài)負(fù)載均衡。由于系統(tǒng)存在兩條讀取路徑,調(diào)度器必須結(jié)合磁盤隊列長度、GPU負(fù)載和請求特征動態(tài)決策,否則容易再次形成局部瓶頸。

為避免KV傳輸干擾模型通信,系統(tǒng)采用以計算網(wǎng)卡為中心的流量管理機制。所有進出GPU的流量,包括H2D/D2H拷貝,統(tǒng)一經(jīng)由與GPU配對的計算網(wǎng)卡,并通過GPUDirectRDMA完成傳輸,使全部數(shù)據(jù)流匯聚到計算網(wǎng)絡(luò),從而利用硬件QoS能力進行優(yōu)先級隔離。

在基于InfiniBand的部署中,模型推理通信被映射到高優(yōu)先級虛擬通道,KV傳輸映射到低優(yōu)先級通道,并通過加權(quán)輪詢保障前者帶寬。這樣既保護了延遲敏感通信,又允許KV流量利用空閑帶寬。實驗還表明,在大量小塊場景下,其更適合細(xì)粒度傳輸。

在調(diào)度層面,系統(tǒng)采用兩級自適應(yīng)機制。引擎間調(diào)度為請求選擇預(yù)填充引擎—解碼引擎對并確定讀取路徑,通過token數(shù)量與磁盤隊列長度實現(xiàn)負(fù)載均衡;解碼引擎調(diào)度分為跨組與組內(nèi)兩階段,在平衡總token數(shù)的同時考慮HBM容量約束,避免資源過載。

引擎內(nèi)調(diào)度主要作用于預(yù)填充引擎,通過估計注意力層計算量設(shè)定“計算配額”,以FIFO方式組批,必要時對請求分塊,使各GPU計算時間趨于一致,減少同步等待。

總體而言,雙路徑加載聚合存儲帶寬,理論分析保證系統(tǒng)無新增瓶頸,計算網(wǎng)卡中心化設(shè)計實現(xiàn)嚴(yán)格流量隔離,自適應(yīng)調(diào)度則維持負(fù)載均衡與低延遲,共同構(gòu)成一個高吞吐、可擴展的推理架構(gòu)。

四、實驗證明KV緩存I/O開銷已基本消除,在千卡集群上實現(xiàn)線性擴展

為驗證DualPath帶來的性能提升,DeepSeek在一個由InfiniBand互連的GPU服務(wù)器集群上進行實驗,評估了三個模型的表現(xiàn):DeepSeek V3.2 660B(記為DS 660B)、DS 660B的27B縮小版本(記為DS 27B)以及作為稠密模型代表的Qwen2.5-32B(記為Qwen 32B)。

實驗結(jié)果顯示,DualPath在更大的批次規(guī)模和更長的最大有效上下文長度下獲益更加顯著。在DS 660B上,DualPath相較于DeepSeek內(nèi)部的基線推理框架最高實現(xiàn)1.87倍加速,且性能接近假設(shè)零I/O開銷的理論性能上限,說明KV緩存I/O開銷已基本被消除。


在DS 27B上,DualPath相較于DeepSeek內(nèi)部的基線推理框架最高提升1.78倍。

在改變追加長度和生成長度時,DualPath在短token場景下優(yōu)勢更明顯。隨著追加長度增加,GPU計算壓力增大,而生成長度增加則因預(yù)填充間隔變長,降低了KV緩存加載壓力。

圖9顯示,隨著追加長度增長,未采用DualPath的推理引擎表現(xiàn)和DualPath的性能越發(fā)接近,表明系統(tǒng)瓶頸逐漸轉(zhuǎn)向GPU計算。在不同追加規(guī)模下,DualPath相較于基線實現(xiàn)1.82至1.99倍加速,生成長度擴展趨勢類似。

在不同預(yù)填充-解碼比例下,DualPath均顯著優(yōu)于基線,平均實現(xiàn)1.64倍加速,最高達(dá)2.46倍。基線推理引擎只能使用預(yù)填充節(jié)點的存儲帶寬,而DualPath能夠利用所有節(jié)點的帶寬,驗證了在智能體場景下存儲帶寬是主要瓶頸。

在在線服務(wù)評估中,DualPath在智能體請求到達(dá)速率上顯著優(yōu)于基線,在DS27B和DS660B上分別達(dá)到1.67倍和2.25倍提升。


在負(fù)載均衡方面,DualPath顯著改善了存儲網(wǎng)卡和注意力層執(zhí)行時間的均衡性。相較于輪詢調(diào)度,調(diào)度算法將存儲網(wǎng)卡負(fù)載均衡指標(biāo)從1.53優(yōu)化至1.18。同時,在任務(wù)前5%執(zhí)行階段,將注意力層最大/平均執(zhí)行時間比控制在1.06以內(nèi),減少了GPU空閑氣泡。

在大規(guī)??蓴U展性方面,DualPath系統(tǒng)在最多1152張GPU上進行了驗證。離線推理從2P4D(2K智能體)擴展到48P96D(48K智能體)實現(xiàn)近線性擴展,任務(wù)完成時間基本保持一致。


在線服務(wù)中,44P88D配置在保持相似延遲的同時,將吞吐量提升22倍。所有實驗中調(diào)度器CPU占用低于10核,表明其不是性能瓶頸。

大規(guī)模部署不僅減少資源碎片化,還為并行度和P/D比例調(diào)優(yōu)提供更大靈活性,同時在突發(fā)在線請求場景下提供更多調(diào)度空間以緩解排隊延遲。

結(jié)語:智能體推理迎來提效利器,未來或引入自適應(yīng)機制

隨著DualPath論文的發(fā)布,它有望為業(yè)界在處理大規(guī)模智能體推理任務(wù)時提供一個新的思路。對于正苦于KV緩存I/O壓力的開發(fā)者與研究者而言,這或許是一個值得關(guān)注的方向。

不過,DeepSeek的研究團隊也坦言,離線推理的工作負(fù)載高度動態(tài),下一步需要研究更自適應(yīng)和更靈活的并行度和P/D比例配置方法,例如模擬器或在線調(diào)整機制。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
深圳發(fā)布以舊換新方案:汽車、家電、數(shù)碼、智能產(chǎn)品均有補貼

深圳發(fā)布以舊換新方案:汽車、家電、數(shù)碼、智能產(chǎn)品均有補貼

南方都市報
2026-02-28 16:38:04
遲遲等不到北京撤回反制,魯比奧通知全球,中國優(yōu)惠待遇或被取消

遲遲等不到北京撤回反制,魯比奧通知全球,中國優(yōu)惠待遇或被取消

愛看劇的阿峰
2026-03-01 01:33:35
醫(yī)生研究發(fā)現(xiàn):62歲還喝酒的老人,基本都有3大現(xiàn)狀,要坦然接受

醫(yī)生研究發(fā)現(xiàn):62歲還喝酒的老人,基本都有3大現(xiàn)狀,要坦然接受

周哥一影視
2026-02-28 19:56:09
吳宜澤打丟致命黑球,錯失第4次排名賽決賽,無緣沖擊排名賽第2冠

吳宜澤打丟致命黑球,錯失第4次排名賽決賽,無緣沖擊排名賽第2冠

天涯遠(yuǎn)行人
2026-03-01 01:18:31
牽手董潔同框一月后,50歲陳坤近況被拍,網(wǎng)友:這份狀態(tài)很合理

牽手董潔同框一月后,50歲陳坤近況被拍,網(wǎng)友:這份狀態(tài)很合理

陳意小可愛
2026-03-01 02:32:11
民政局離婚人數(shù)暴漲!核心原因只有一個:婚姻不再將就

民政局離婚人數(shù)暴漲!核心原因只有一個:婚姻不再將就

好賢觀史記
2025-12-29 23:45:05
小托馬斯:當(dāng)一切結(jié)束時,杜蘭特會是歷史得分榜第二

小托馬斯:當(dāng)一切結(jié)束時,杜蘭特會是歷史得分榜第二

林子說事
2026-02-28 15:27:13
謝賢擔(dān)心事終發(fā)生,張柏芝給口無遮攔CoCo上了一課

謝賢擔(dān)心事終發(fā)生,張柏芝給口無遮攔CoCo上了一課

老好人的憤怒
2026-02-28 10:26:39
65歲公公投資失敗欠下180萬,女子還了整整10年,去銀行銷戶時才發(fā)現(xiàn),公公用她的名義存了350萬定期

65歲公公投資失敗欠下180萬,女子還了整整10年,去銀行銷戶時才發(fā)現(xiàn),公公用她的名義存了350萬定期

二胡的歲月如歌
2026-02-28 18:38:27
中國鋼琴圣手,被人把痰盂扣頭上,30歲與母親弟弟吸煤氣而亡

中國鋼琴圣手,被人把痰盂扣頭上,30歲與母親弟弟吸煤氣而亡

卷史
2026-02-28 05:06:44
莫耶斯:皮克福德的撲救非常精彩,幾乎和進球一樣值得慶祝

莫耶斯:皮克福德的撲救非常精彩,幾乎和進球一樣值得慶祝

懂球帝
2026-03-01 02:54:34
中方奉陪到底!訪華遲遲沒回復(fù),特朗普掀桌了,要廢除中國一地位

中方奉陪到底!訪華遲遲沒回復(fù),特朗普掀桌了,要廢除中國一地位

王姐懶人家常菜
2026-02-28 20:52:58
中國共產(chǎn)黨中央軍事委員會副主席張升民簡歷

中國共產(chǎn)黨中央軍事委員會副主席張升民簡歷

上觀新聞
2025-10-23 18:17:07
你見過最不會點菜的人是什么樣子?網(wǎng)友:火鍋很清淡啊

你見過最不會點菜的人是什么樣子?網(wǎng)友:火鍋很清淡啊

夜深愛雜談
2026-02-19 21:55:22
以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

八斗小先生
2025-12-26 09:33:27
別吹美軍航母了!臺海真打起來,根本扛不住東風(fēng)導(dǎo)彈

別吹美軍航母了!臺海真打起來,根本扛不住東風(fēng)導(dǎo)彈

阿芒娛樂說
2026-03-01 01:31:52
獨來獨往的人,都是強者嗎?

獨來獨往的人,都是強者嗎?

加油丁小文
2026-02-28 16:30:06
美國官員:“此次打擊的規(guī)模將遠(yuǎn)超去年6月”

美國官員:“此次打擊的規(guī)模將遠(yuǎn)超去年6月”

中國青年報
2026-02-28 16:47:10
涉嫌嚴(yán)重違紀(jì)違法,五糧液董事長曾從欽被查!曾在地方從政多年

涉嫌嚴(yán)重違紀(jì)違法,五糧液董事長曾從欽被查!曾在地方從政多年

證券時報e公司
2026-02-28 21:43:08
洗草莓時,有人放食鹽,有人放面粉,果農(nóng):都不對,教你正確做法

洗草莓時,有人放食鹽,有人放面粉,果農(nóng):都不對,教你正確做法

阿龍美食記
2026-02-28 10:49:43
2026-03-01 03:36:50
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
11273文章數(shù) 116984關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

伊朗媒體公布反擊美軍軍事行動結(jié)果

頭條要聞

伊朗媒體公布反擊美軍軍事行動結(jié)果

體育要聞

球隊主力全報銷?頂風(fēng)擺爛演都不演了

娛樂要聞

周杰倫兒子正面照曝光,與父親好像

財經(jīng)要聞

沖突爆發(fā) 市場變天?

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

時尚
數(shù)碼
家居
公開課
軍事航空

這6款發(fā)色居然這么火?50張圖可以直接給tony

數(shù)碼要聞

小米超薄充電寶亮相MWC,98g有多能打?

家居要聞

素色肌理 品意式格調(diào)

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國以色列聯(lián)合襲擊伊朗 實時戰(zhàn)況

無障礙瀏覽 進入關(guān)懷版