国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek發(fā)布下一代技術(shù)!北大實習生立功

0
分享至


智東西
編譯 陳駿達
編輯 云鵬

DeepSeek又找到突破大模型推理瓶頸的新方法了!

智東西2月27日報道,昨天,DeepSeek發(fā)布了一項名為DualPath的全新推理系統(tǒng)方案,直指當前大語言模型在智能體應用場景下遭遇的短板——KV緩存存儲I/O瓶頸。該方案通過引入雙路徑加載機制,顯著提升系統(tǒng)吞吐量,基本消除了KV緩存的I/O開銷。

DualPath的核心創(chuàng)新在于開辟了一條從存儲直通解碼引擎的新通道。KV緩存不再僅由預填充引擎加載,而是可以加載至解碼引擎,再通過計算網(wǎng)絡中的RDMA高效傳輸至預填充端。這一設(shè)計不僅緩解了存儲端的壓力,還避免了網(wǎng)絡擁塞,確保延遲敏感型任務不受干擾。

與全局調(diào)度器協(xié)同后,DualPath實現(xiàn)了動態(tài)平衡兩端負載,進一步提升資源利用率。在真實智能體工作負載測試中,DualPath將離線推理吞吐量提升最高達1.87倍,在線服務吞吐量平均提升1.96倍。

在大規(guī)??蓴U展性方面,DualPath系統(tǒng)在最多1152張GPU上進行了驗證。離線推理從2P4D(2K智能體)擴展到48P96D(48K智能體)實現(xiàn)近線性擴展,任務完成時間基本保持一致。

值得一提的是,與之前DeepSeek發(fā)表的許多研究論文類似,這篇論文的第一作者吳永彤同樣是DeepSeek的實習生。吳永彤目前在北京大學攻讀博士學位,師從金鑫教授,主要研究大模型基礎(chǔ)設(shè)施相關(guān)課題,自2025年8月以來便在DeepSeek系統(tǒng)組工作,曾參與DeepSeek-V3.2的研究。

論文鏈接:

https://arxiv.org/pdf/2602.21548

一、智能體I/O瓶頸凸顯,傳統(tǒng)設(shè)計成本高昂

隨著智能體應用普及,多輪推理已成常態(tài)。智能體通過工具與外部環(huán)境進行數(shù)十甚至數(shù)百輪交互,上下文跨輪累積到極長長度。由于多輪、短追加的特性,KV緩存命中率高達95%以上,加載效率取代計算成為性能主導因素。

現(xiàn)有系統(tǒng)采用分層預填充、預填充-解碼分離(PD分離)和外部KV緩存存儲架構(gòu)。但問題在于:預填充引擎存儲網(wǎng)卡帶寬持續(xù)飽和,而解碼引擎存儲網(wǎng)卡帶寬大量閑置。這種不平衡暴露了根本性低效——存儲網(wǎng)絡帶寬利用不均,而單純增加預填充端帶寬成本高昂。


▲現(xiàn)有瓶頸(左)與DualPath(右)

DualPath的提出正是為了解決上述問題,其核心洞察在于打破“KV緩存加載必須以預填充為中心”的傳統(tǒng)設(shè)計。

現(xiàn)有系統(tǒng)僅通過存儲到預填充引擎的單一路徑加載,導致預填充端帶寬飽和而解碼端帶寬閑置。DualPath則增加了存儲到解碼路徑,將KV緩存先加載至空閑的解碼引擎,再通過RDMA高效傳輸給預填充引擎。

這一模式聚合了所有存儲網(wǎng)卡帶寬,重新分配網(wǎng)絡負載,從根本上緩解預填充端的I/O瓶頸。

不過,該設(shè)計仍然面臨兩大挑戰(zhàn):首先,引入額外的加載路徑會產(chǎn)生復雜的流量模式,并可能與模型執(zhí)行中的集體通信原語產(chǎn)生潛在干擾,若管理不當會降低整體性能。

其次,系統(tǒng)必須在動態(tài)和異構(gòu)的工作負載下在線決定使用哪條加載路徑,并同時確保GPU和網(wǎng)卡之間的負載均衡。

二、三大核心組件打造DualPath,新組件并未引入瓶頸

那么,DeepSeek究竟是如何解決這些挑戰(zhàn)的呢?DualPath使用了兩項廣泛使用的技術(shù):

(1)PD分離,將提示詞和解碼處理分開以提高效率。

(1)分層預填充,避免了預填充引擎上的HBM瓶頸,并提高了GPU利用率。

而DualPath主要由三大核心組件構(gòu)成。推理引擎是基礎(chǔ)執(zhí)行單元,每個引擎管理一個GPU,并明確區(qū)分為專司預填充計算的預填充引擎和負責解碼生成的解碼引擎。

流量管理器內(nèi)嵌于每個引擎,統(tǒng)籌所有數(shù)據(jù)移動:包括主機與設(shè)備間的內(nèi)存拷貝、預填充與解碼引擎之間的KV緩存?zhèn)鬏?,以及通過存儲網(wǎng)卡進行的KV緩存持久化讀寫。其采用以計算網(wǎng)卡為中心的流量管理策略,確保KV緩存流量不會干擾延遲敏感的模型集體通信。

請求調(diào)度器作為中央決策單元,接收客戶端請求并智能分發(fā)給各引擎,同時動態(tài)決策每條請求采用傳統(tǒng)存儲到預填充路徑還是新型存儲到解碼路徑,實現(xiàn)雙路徑間的流量均衡與全局負載優(yōu)化。


在具體實現(xiàn)上,DualPath在每個預填充引擎和解碼引擎上預留少量DRAM作為緩沖區(qū)。對于預填充端讀路徑,命中token的KV緩存首先從存儲讀入預填充引擎緩沖區(qū),然后按層流式傳入預填充引擎的HBM,與未命中token的KV計算過程重疊執(zhí)行。隨后,完整的提示詞KV會被傳輸至解碼引擎緩沖區(qū),供解碼階段使用。

對于解碼端讀路徑,命中KV首先加載到解碼引擎緩沖區(qū),在預填充引擎執(zhí)行預填充時逐層通過RDMA讀取,同時與計算重疊。未命中KV計算完成后回傳至解碼引擎,與命中KV合并形成完整提示詞緩存。

無論哪條路徑,數(shù)據(jù)傳輸都采用分層流式方式,以緩解HBM容量壓力并實現(xiàn)計算與通信的重疊。解碼階段開始前,解碼引擎將完整KV從緩沖區(qū)傳入HBM,完成主機到設(shè)備拷貝后釋放CPU內(nèi)存;在生成過程中,每當累積滿一個固定大小的token塊,就立即持久化到存儲。

為了驗證該架構(gòu)不會引入新的瓶頸,論文對計算網(wǎng)卡帶寬和DRAM帶寬進行了系統(tǒng)性分析。通過建立每對預填充引擎—解碼引擎之間的流量模型,并假設(shè)負載均衡與網(wǎng)絡無擁塞,作者推導出在一定的P/D(預填充節(jié)點與解碼節(jié)點數(shù)量之比)范圍內(nèi),計算網(wǎng)卡、PCIe以及DRAM均不會成為瓶頸。

在典型配置(例如每節(jié)點8個GPU、存儲帶寬遠小于計算帶寬)下,可行的P/D區(qū)間覆蓋大多數(shù)實際部署比例,說明系統(tǒng)能夠在充分利用所有存儲網(wǎng)卡帶寬的同時,保持計算與內(nèi)存資源的穩(wěn)定運行。

三、系統(tǒng)落地仍面臨三大挑戰(zhàn),采用計算網(wǎng)卡為中心的流量管理

然而,在真實系統(tǒng)中落地雙路徑架構(gòu)仍面臨三項核心挑戰(zhàn)。首先是細粒度數(shù)據(jù)傳輸。分層執(zhí)行緩解了HBM容量壓力,但也將KV拆分為大量小塊,需要在存儲、主機DRAM和GPUHBM之間高效搬運,同時控制軟件與硬件開銷。

其次是流量隔離。新增的KV傳輸可能干擾模型執(zhí)行中的延遲敏感型集體通信(如AllToAll、ReduceScatter/AllGather),若缺乏隔離機制,將直接推高端到端推理延遲。

最后是動態(tài)負載均衡。由于系統(tǒng)存在兩條讀取路徑,調(diào)度器必須結(jié)合磁盤隊列長度、GPU負載和請求特征動態(tài)決策,否則容易再次形成局部瓶頸。

為避免KV傳輸干擾模型通信,系統(tǒng)采用以計算網(wǎng)卡為中心的流量管理機制。所有進出GPU的流量,包括H2D/D2H拷貝,統(tǒng)一經(jīng)由與GPU配對的計算網(wǎng)卡,并通過GPUDirectRDMA完成傳輸,使全部數(shù)據(jù)流匯聚到計算網(wǎng)絡,從而利用硬件QoS能力進行優(yōu)先級隔離。

在基于InfiniBand的部署中,模型推理通信被映射到高優(yōu)先級虛擬通道,KV傳輸映射到低優(yōu)先級通道,并通過加權(quán)輪詢保障前者帶寬。這樣既保護了延遲敏感通信,又允許KV流量利用空閑帶寬。實驗還表明,在大量小塊場景下,其更適合細粒度傳輸。

在調(diào)度層面,系統(tǒng)采用兩級自適應機制。引擎間調(diào)度為請求選擇預填充引擎—解碼引擎對并確定讀取路徑,通過token數(shù)量與磁盤隊列長度實現(xiàn)負載均衡;解碼引擎調(diào)度分為跨組與組內(nèi)兩階段,在平衡總token數(shù)的同時考慮HBM容量約束,避免資源過載。

引擎內(nèi)調(diào)度主要作用于預填充引擎,通過估計注意力層計算量設(shè)定“計算配額”,以FIFO方式組批,必要時對請求分塊,使各GPU計算時間趨于一致,減少同步等待。

總體而言,雙路徑加載聚合存儲帶寬,理論分析保證系統(tǒng)無新增瓶頸,計算網(wǎng)卡中心化設(shè)計實現(xiàn)嚴格流量隔離,自適應調(diào)度則維持負載均衡與低延遲,共同構(gòu)成一個高吞吐、可擴展的推理架構(gòu)。

四、實驗證明KV緩存I/O開銷已基本消除,在千卡集群上實現(xiàn)線性擴展

為驗證DualPath帶來的性能提升,DeepSeek在一個由InfiniBand互連的GPU服務器集群上進行實驗,評估了三個模型的表現(xiàn):DeepSeek V3.2 660B(記為DS 660B)、DS 660B的27B縮小版本(記為DS 27B)以及作為稠密模型代表的Qwen2.5-32B(記為Qwen 32B)。

實驗結(jié)果顯示,DualPath在更大的批次規(guī)模和更長的最大有效上下文長度下獲益更加顯著。在DS 660B上,DualPath相較于DeepSeek內(nèi)部的基線推理框架最高實現(xiàn)1.87倍加速,且性能接近假設(shè)零I/O開銷的理論性能上限,說明KV緩存I/O開銷已基本被消除。


在DS 27B上,DualPath相較于DeepSeek內(nèi)部的基線推理框架最高提升1.78倍。

在改變追加長度和生成長度時,DualPath在短token場景下優(yōu)勢更明顯。隨著追加長度增加,GPU計算壓力增大,而生成長度增加則因預填充間隔變長,降低了KV緩存加載壓力。

圖9顯示,隨著追加長度增長,未采用DualPath的推理引擎表現(xiàn)和DualPath的性能越發(fā)接近,表明系統(tǒng)瓶頸逐漸轉(zhuǎn)向GPU計算。在不同追加規(guī)模下,DualPath相較于基線實現(xiàn)1.82至1.99倍加速,生成長度擴展趨勢類似。

在不同預填充-解碼比例下,DualPath均顯著優(yōu)于基線,平均實現(xiàn)1.64倍加速,最高達2.46倍?;€推理引擎只能使用預填充節(jié)點的存儲帶寬,而DualPath能夠利用所有節(jié)點的帶寬,驗證了在智能體場景下存儲帶寬是主要瓶頸。

在在線服務評估中,DualPath在智能體請求到達速率上顯著優(yōu)于基線,在DS27B和DS660B上分別達到1.67倍和2.25倍提升。


在負載均衡方面,DualPath顯著改善了存儲網(wǎng)卡和注意力層執(zhí)行時間的均衡性。相較于輪詢調(diào)度,調(diào)度算法將存儲網(wǎng)卡負載均衡指標從1.53優(yōu)化至1.18。同時,在任務前5%執(zhí)行階段,將注意力層最大/平均執(zhí)行時間比控制在1.06以內(nèi),減少了GPU空閑氣泡。

在大規(guī)模可擴展性方面,DualPath系統(tǒng)在最多1152張GPU上進行了驗證。離線推理從2P4D(2K智能體)擴展到48P96D(48K智能體)實現(xiàn)近線性擴展,任務完成時間基本保持一致。


在線服務中,44P88D配置在保持相似延遲的同時,將吞吐量提升22倍。所有實驗中調(diào)度器CPU占用低于10核,表明其不是性能瓶頸。

大規(guī)模部署不僅減少資源碎片化,還為并行度和P/D比例調(diào)優(yōu)提供更大靈活性,同時在突發(fā)在線請求場景下提供更多調(diào)度空間以緩解排隊延遲。

結(jié)語:智能體推理迎來提效利器,未來或引入自適應機制

隨著DualPath論文的發(fā)布,它有望為業(yè)界在處理大規(guī)模智能體推理任務時提供一個新的思路。對于正苦于KV緩存I/O壓力的開發(fā)者與研究者而言,這或許是一個值得關(guān)注的方向。

不過,DeepSeek的研究團隊也坦言,離線推理的工作負載高度動態(tài),下一步需要研究更自適應和更靈活的并行度和P/D比例配置方法,例如模擬器或在線調(diào)整機制。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
沈逸“美國不敢打伊朗”遭群嘲:國內(nèi)某些專家,為何總是制造笑柄

沈逸“美國不敢打伊朗”遭群嘲:國內(nèi)某些專家,為何總是制造笑柄

影像溫度
2026-03-01 15:26:25
驚心動魄!廣州一名懷抱嬰兒的女子跳江意欲輕生!女子昏迷水中,嬰兒也嗆水…

驚心動魄!廣州一名懷抱嬰兒的女子跳江意欲輕生!女子昏迷水中,嬰兒也嗆水…

廣東活動
2026-03-01 12:11:29
今日激戰(zhàn)!3月1日晚19:30!中央5套CCTV5、CCTV5+直播節(jié)目表

今日激戰(zhàn)!3月1日晚19:30!中央5套CCTV5、CCTV5+直播節(jié)目表

皮皮觀天下
2026-03-01 15:58:01
學費太貴!一家長哭訴繳費11000多,網(wǎng)友:上私立高中就不要抱怨

學費太貴!一家長哭訴繳費11000多,網(wǎng)友:上私立高中就不要抱怨

火山詩話
2026-03-01 12:06:34
世預賽-日本男籃力克韓國穩(wěn)居小組第一 霍金森24+7李賢重28+11

世預賽-日本男籃力克韓國穩(wěn)居小組第一 霍金森24+7李賢重28+11

醉臥浮生
2026-03-01 14:54:49
1公斤15元! 2020年陜西男子在膠土廠挖十多個洞,被查出1300公斤

1公斤15元! 2020年陜西男子在膠土廠挖十多個洞,被查出1300公斤

萬象硬核本尊
2026-02-28 19:01:09
真的天塌!拔乳牙竟把孩子2顆恒牙拔掉,鹽城一口腔醫(yī)生整出事故

真的天塌!拔乳牙竟把孩子2顆恒牙拔掉,鹽城一口腔醫(yī)生整出事故

火山詩話
2026-03-01 18:08:52
以軍稱首次打擊伊朗首都中心地帶目標

以軍稱首次打擊伊朗首都中心地帶目標

新華社
2026-03-01 16:42:04
女子回湖北婆家過年,車被妯娌砸稀爛,報警后絕不和解,結(jié)局爽了

女子回湖北婆家過年,車被妯娌砸稀爛,報警后絕不和解,結(jié)局爽了

云景侃記
2026-02-28 14:23:19
外媒披露細節(jié):美以等來“難得機會”,哈梅內(nèi)伊住所被投擲約30枚炸彈

外媒披露細節(jié):美以等來“難得機會”,哈梅內(nèi)伊住所被投擲約30枚炸彈

環(huán)球網(wǎng)資訊
2026-03-01 13:30:44
新加坡大滿貫賽:太遺憾!國乒男單3:4惜敗,無緣沖擊男單冠軍

新加坡大滿貫賽:太遺憾!國乒男單3:4惜敗,無緣沖擊男單冠軍

國乒二三事
2026-03-01 11:56:32
哈梅內(nèi)伊死后,有伊朗人分析:現(xiàn)在還沒到慶祝的時候

哈梅內(nèi)伊死后,有伊朗人分析:現(xiàn)在還沒到慶祝的時候

小蘿卜絲
2026-03-01 09:56:11
伊朗最高領(lǐng)袖哈梅內(nèi)伊將很快發(fā)表講話

伊朗最高領(lǐng)袖哈梅內(nèi)伊將很快發(fā)表講話

新華社
2026-02-28 23:06:25
最新名單:截止目前已遭斬首的伊朗領(lǐng)導人

最新名單:截止目前已遭斬首的伊朗領(lǐng)導人

西樓飲月
2026-03-01 15:34:58
哈梅內(nèi)伊的最后一課:給所有掌權(quán)者的八條警示

哈梅內(nèi)伊的最后一課:給所有掌權(quán)者的八條警示

迷世書童H9527
2026-03-01 16:03:12
外媒稱哈梅內(nèi)伊在其工作場所遇害,為何沒躲避?為何能精準定位?

外媒稱哈梅內(nèi)伊在其工作場所遇害,為何沒躲避?為何能精準定位?

之乎者也小魚兒
2026-03-01 11:44:00
哈梅內(nèi)伊之死和伊朗性史

哈梅內(nèi)伊之死和伊朗性史

哲空空
2026-03-01 11:14:17
美國2個月內(nèi)悍然對兩國領(lǐng)導人發(fā)動襲擊,繼委內(nèi)瑞拉、伊朗之后,下一個會是誰?專家:有可能是古巴

美國2個月內(nèi)悍然對兩國領(lǐng)導人發(fā)動襲擊,繼委內(nèi)瑞拉、伊朗之后,下一個會是誰?專家:有可能是古巴

極目新聞
2026-03-01 15:07:54
河北“二婚黃花大閨女”的瓜

河北“二婚黃花大閨女”的瓜

皮蛋兒電影
2026-02-28 13:45:08
迪拜多地發(fā)生爆炸起火,當?shù)赝9ねUn,要求市民居家,當?shù)厝A人:凌晨被手機警報吵醒,每小時都會聽到爆炸聲,擔心后續(xù)生活物價上漲

迪拜多地發(fā)生爆炸起火,當?shù)赝9ねUn,要求市民居家,當?shù)厝A人:凌晨被手機警報吵醒,每小時都會聽到爆炸聲,擔心后續(xù)生活物價上漲

極目新聞
2026-03-01 15:29:37
2026-03-01 18:43:00
智東西 incentive-icons
智東西
聚焦智能變革,服務產(chǎn)業(yè)升級。
11273文章數(shù) 116984關(guān)注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂部

頭條要聞

普京就哈梅內(nèi)伊遇害表示哀悼:一次無恥殺害

頭條要聞

普京就哈梅內(nèi)伊遇害表示哀悼:一次無恥殺害

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

《江山為聘》:吳謹言陳哲遠燃炸朝堂

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

游戲
數(shù)碼
親子
本地
公開課

《生化危機9》高復雜度彩蛋仍未完全被玩家攻破

數(shù)碼要聞

小米首款追蹤器!小米Tag海外正式發(fā)布 兼容iOS 120元起

親子要聞

泉州孕婦跨省求醫(yī),港大深圳醫(yī)院成功救治“先心病”雙胞胎

本地新聞

津南好·四時總相宜

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版