国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek新論文劇透V4新框架!用閑置網(wǎng)卡加速智能體推理性能

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

DeepSeek這小子最精了,當(dāng)全世界都在盯著他的GitHub倉庫,等待V4時(shí)——

他和北大、清華在ArXiv悄咪咪地上了一篇論文,發(fā)布了一個(gè)全新的針對智能體的推理框架:DualPath



而且就跟前幾天曝出的算力話題相關(guān)。

DualPath的核心在于解決Agent長文本推理場景下的I/O瓶頸,通過優(yōu)化從外部存儲加載KV-Cache的速度,確保計(jì)算資源不被存儲讀取拖累。

它改變了傳統(tǒng)的存儲至預(yù)填充引擎(Storage-to-Prefill)單路徑加載模式,引入了存儲至解碼引擎(Storage-to-Decode)的第二條路徑。

通過利用解碼引擎閑置的存儲網(wǎng)卡(SNIC)帶寬讀取緩存,并配合高速計(jì)算網(wǎng)絡(luò)(RDMA)將其傳輸至預(yù)填充引擎,DualPath實(shí)現(xiàn)了集群存儲帶寬的全局池化與動(dòng)態(tài)負(fù)載均衡。

在660B規(guī)模的生產(chǎn)級模型的實(shí)測中,DualPath表現(xiàn)驚人:

離線推理吞吐量提高了1.87倍,在線服務(wù)吞吐量平均提升1.96倍



在高負(fù)載下,首字延遲(TTFT)大幅優(yōu)化,而 Token間的生成速度(TPOT)幾乎不受任何干擾。

接下來,我們一起來看。

雙路徑加載 (Dual-Path Loading)

總的來說,DualPath是一個(gè)專門為智能體系統(tǒng)設(shè)計(jì)的推理框架,它的核心洞見是——

KV-Cache的加載不必以預(yù)填充為中心

在以往的理解中,誰負(fù)責(zé)計(jì)算誰就去搬數(shù)據(jù)。但DualPath認(rèn)為,緩存可以先加載到解碼引擎中,再通過高性能RDMA網(wǎng)絡(luò)傳輸至預(yù)填充引擎。

通過在兩條路徑間動(dòng)態(tài)選擇,DualPath重新分配了網(wǎng)絡(luò)負(fù)載,緩解了預(yù)填充側(cè)的帶寬壓力。

那么,為什么要費(fèi)這么大勁去“繞路”?

之所以這樣做,是因?yàn)樵诋?dāng)前的智能體應(yīng)用中,對話輪數(shù)多且上下文長,KV-Cache命中率通常高達(dá)95%以上。

這意味著,每一輪對話都要搬運(yùn)海量的“舊記憶”,推理性能的瓶頸已經(jīng)從“計(jì)算”轉(zhuǎn)移到了“搬運(yùn)”上



在現(xiàn)有的預(yù)填充-解碼分離(PD-disaggregated)架構(gòu)中,所有的加載任務(wù)都擁擠在預(yù)填充引擎(PE)的存儲網(wǎng)卡上,導(dǎo)致帶寬瞬間飽和;

與此同時(shí),解碼引擎(DE)的存儲網(wǎng)卡卻在閑置,造成了嚴(yán)重的資源錯(cuò)配。



更進(jìn)一步的,當(dāng)前GPU算力的增長遠(yuǎn)快于網(wǎng)絡(luò)帶寬和HBM容量的增長,也加劇了I/O限制。

正如英偉達(dá)首席科學(xué)家Bill Dally、谷歌架構(gòu)師Jeff Dean等大佬反復(fù)強(qiáng)調(diào)的:計(jì)算是免費(fèi)的,但數(shù)據(jù)移動(dòng)是昂貴的。

針對這些問題,DualPath構(gòu)建了創(chuàng)新的雙路徑模型:



  • 路徑 A(傳統(tǒng)):存儲→PE,緩存直接讀入預(yù)填充引擎。
  • 路徑 B(新增):存儲→DE→PE,緩存先讀入解碼引擎的緩沖池,再通過RDMA傳輸給預(yù)填充引擎。

在架構(gòu)組成上:

  • 推理引擎: 每個(gè)引擎管理一塊GPU,嚴(yán)格區(qū)分為預(yù)填充(PE)和解碼(DE)。
  • 流量管理器: 負(fù)責(zé)H2D/D2H拷貝、引擎間傳輸以及SNIC存儲讀寫。
  • 中央調(diào)度器: 擔(dān)任“大腦”角色,實(shí)時(shí)決策每一條請求該走哪條路,從而實(shí)現(xiàn)全局帶寬的最大化利用。

核心技術(shù)方案:存儲至解碼路徑

如上所述,DualPath推理系統(tǒng)的核心在于打破了傳統(tǒng)的“存儲至預(yù)填充”單路徑模式,創(chuàng)新性地引入了“存儲至解碼”路徑

該設(shè)計(jì)允許KV-Cache先加載至解碼引擎(DE),再通過高帶寬計(jì)算網(wǎng)絡(luò)(RDMA)無損傳輸給預(yù)填充引擎(PE)。

通過在兩條路徑間動(dòng)態(tài)分配負(fù)載,系統(tǒng)將集群中原本閑置的解碼側(cè)存儲網(wǎng)卡(SNIC)帶寬徹底釋放,構(gòu)建起一個(gè)全局可調(diào)度的存儲I/O資源池。

具體來說,為了支持層級流式處理,DualPath在PE和DE上均分配了少量DRAM緩沖區(qū)(PE/DE Buffer),并針對不同階段設(shè)計(jì)了精細(xì)的數(shù)據(jù)流:

  • PE讀取路徑: 命中Token的KV-Cache從存儲讀入PE緩沖區(qū)。在每層計(jì)算前,該層緩存?zhèn)鬏斨罰E HBM,與計(jì)算過程重疊執(zhí)行。計(jì)算完成后,全量KV-Cache傳回DE緩沖區(qū)以形成完整上下文。
  • DE讀取路徑: KV-Cache直接進(jìn)入DE緩沖區(qū)。在PE預(yù)填充期間,對應(yīng)層的緩存跨節(jié)點(diǎn)傳輸至PE HBM(計(jì)算重疊)。計(jì)算結(jié)束后,PE僅需傳回新生成的KV-Cache片段與DE原有緩存合并。
  • 解碼與持久化: DE緩沖區(qū)接收完整KV-Cache后啟動(dòng)解碼,執(zhí)行H2D拷貝并隨后釋放CPU內(nèi)存。雖然引入緩沖增加了DRAM壓力,但能顯著降低GPU顯存占用并優(yōu)化首字延遲(TTFT)。生成過程中,每累積滿一個(gè)Block(如 64 Token)即觸發(fā)異步持久化。

但就像前面提到的,“繞路”加載會帶來新問題:比如搬運(yùn)緩存的流量撞上了模型計(jì)算的通信,怎么辦?

對此,DualPath給出了兩套優(yōu)化方案:

首先是以計(jì)算網(wǎng)卡(CNIC)為中心的流量管理,強(qiáng)制所有流量通過配對的CNIC走GPUDirect RDMA路徑。

在InfiniBand或RoCE網(wǎng)絡(luò)中,利用虛擬層(VL/TC)技術(shù),將推理通信設(shè)為“最高優(yōu)先級”并預(yù)留99%帶寬,讓緩存搬運(yùn)只能在間隙中“蹭”帶寬,確保互不干擾。

其次是自適應(yīng)請求調(diào)度器: 調(diào)度器會盯著每個(gè)節(jié)點(diǎn)的磁盤隊(duì)列長度和Token數(shù)。系統(tǒng)會優(yōu)先將任務(wù)分配給I/O壓力較小且計(jì)算負(fù)載較輕的節(jié)點(diǎn),從根本上避免單側(cè)網(wǎng)卡或單點(diǎn)計(jì)算資源的擁塞。

在實(shí)驗(yàn)階段,DualPath在DeepSeek-V3、Qwen等模型上進(jìn)行了測試,場景覆蓋了離線Rollout和在線服務(wù)。

如開頭所說,在離線推理中,DualPath 將端到端吞吐量提高了高達(dá)1.87倍,在線服務(wù)吞吐量平均提升1.96倍,顯著降低了首字延遲(TTFT),且保持了極其穩(wěn)定的Token間延遲(TBT)。

總的來說,DualPath 證明了通過重新思考數(shù)據(jù)加載路徑可以有效突破當(dāng)前大模型推理的I/O墻。

它成功利用了解碼引擎原本被浪費(fèi)的I/O帶寬,配合自適應(yīng)調(diào)度和嚴(yán)謹(jǐn)?shù)牧髁扛綦x機(jī)制,在不增加硬件成本的前提下,大幅提升了智能體LLM推理系統(tǒng)的效率。

One more thing

這篇論文的第一作者吳永彤,是北京大學(xué)的博士生,師從金鑫教授。

他的研究方向聚焦于系統(tǒng)軟件與大模型基礎(chǔ)設(shè)施(LLM Infrastructure),尤其是推理系統(tǒng)的工程優(yōu)化與規(guī)模化部署。



他目前在DeepSeek系統(tǒng)組,參與下一代模型的推理基礎(chǔ)設(shè)施建設(shè),負(fù)責(zé)大規(guī)模軟件系統(tǒng)在多硬件平臺上的性能優(yōu)化。



此前,他還曾在騰訊、華盛頓大學(xué),微軟亞研院等機(jī)構(gòu)實(shí)習(xí)。

[1]https://arxiv.org/pdf/2602.21548

[2]https://jokerwyt.github.io/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國務(wù)院:免去王祥喜國家消防救援局第一政治委員職務(wù)

國務(wù)院:免去王祥喜國家消防救援局第一政治委員職務(wù)

大象新聞
2026-02-27 19:41:31
“中產(chǎn)階級”及格線誕生!全國只有3320萬戶,你達(dá)標(biāo)了嗎?

“中產(chǎn)階級”及格線誕生!全國只有3320萬戶,你達(dá)標(biāo)了嗎?

李云飛Afey
2026-01-01 12:52:31
74歲陳凱歌在三亞豪宅過年,穿5萬元皮鞋戴大金表,臉上有老年斑

74歲陳凱歌在三亞豪宅過年,穿5萬元皮鞋戴大金表,臉上有老年斑

洲洲影視娛評
2026-02-26 13:52:42
3分鐘,“20CM”漲停!封單超16萬手

3分鐘,“20CM”漲停!封單超16萬手

新浪財(cái)經(jīng)
2026-02-27 16:51:42
三大艦隊(duì)已無法滿足需求?一旦組建第四艦隊(duì),駐地在哪最為精妙?

三大艦隊(duì)已無法滿足需求?一旦組建第四艦隊(duì),駐地在哪最為精妙?

燦若銀爛
2026-02-27 07:58:22
“我老公家要絕后了,我娘家也要絕后了”,一廣西網(wǎng)友發(fā)帖引共鳴

“我老公家要絕后了,我娘家也要絕后了”,一廣西網(wǎng)友發(fā)帖引共鳴

火山詩話
2026-02-26 09:41:57
瞿穎沒想到,30年前被自己拒絕3次的胡兵,如今給她這么大回報(bào)

瞿穎沒想到,30年前被自己拒絕3次的胡兵,如今給她這么大回報(bào)

陳意小可愛
2026-02-27 12:51:06
一天只吃三粒米僅冰山一角,陳魯豫私生活謠言曝光,一個(gè)個(gè)太離譜

一天只吃三粒米僅冰山一角,陳魯豫私生活謠言曝光,一個(gè)個(gè)太離譜

青磚鑒本尊
2026-02-27 20:16:07
如何看待美國識字率只有79%?這是我見過最簡明易懂答案,真相了

如何看待美國識字率只有79%?這是我見過最簡明易懂答案,真相了

夜深愛雜談
2026-02-26 20:54:15
成本2億,日票房僅1100萬,71歲成龍懵了:內(nèi)地觀眾憑啥不買賬?

成本2億,日票房僅1100萬,71歲成龍懵了:內(nèi)地觀眾憑啥不買賬?

糊咖娛樂
2026-02-25 18:38:49
福建艦有多燒錢?電磁彈射超百億,伙食費(fèi)能供養(yǎng)一個(gè)小型國家!

福建艦有多燒錢?電磁彈射超百億,伙食費(fèi)能供養(yǎng)一個(gè)小型國家!

孤單是寂寞的毒
2026-02-27 12:40:06
戲子誤國!春節(jié)剛過就有4位明星相繼塌房,走到這一步不值得同情

戲子誤國!春節(jié)剛過就有4位明星相繼塌房,走到這一步不值得同情

墨印齋
2026-02-26 06:21:37
東莞市博物院將于3月4日正式閉館,新館預(yù)計(jì)10月對外開放

東莞市博物院將于3月4日正式閉館,新館預(yù)計(jì)10月對外開放

南方都市報(bào)
2026-02-27 19:50:17
中國男子在俄討薪遭毆打!別再迷信俄友好,去異國打工真不是天堂

中國男子在俄討薪遭毆打!別再迷信俄友好,去異國打工真不是天堂

老馬拉車莫少裝
2026-02-27 00:56:33
新冠病毒4大結(jié)局已經(jīng)不可避免,74歲以上的老年人尤其要注意

新冠病毒4大結(jié)局已經(jīng)不可避免,74歲以上的老年人尤其要注意

醫(yī)學(xué)科普匯
2026-02-27 16:54:42
周冬雨回應(yīng)“當(dāng)年和余文樂錄戀綜”,坦言:我們是非常走心的!

周冬雨回應(yīng)“當(dāng)年和余文樂錄戀綜”,坦言:我們是非常走心的!

韓小娛
2026-02-27 14:41:40
戴笠一生犯下最大的三個(gè)錯(cuò):睡錯(cuò)一人,信錯(cuò)一人,殺錯(cuò)一人

戴笠一生犯下最大的三個(gè)錯(cuò):睡錯(cuò)一人,信錯(cuò)一人,殺錯(cuò)一人

抽象派大師
2026-01-21 05:51:57
回顧:2012年山東一對新人蜜月被害,破案后新郎父親說:怎么是你

回顧:2012年山東一對新人蜜月被害,破案后新郎父親說:怎么是你

歷來都很現(xiàn)實(shí)
2024-08-10 21:00:11
春天,少吃蘋果多吃它,一次買20斤,曬干囤起來,從春天吃到夏天

春天,少吃蘋果多吃它,一次買20斤,曬干囤起來,從春天吃到夏天

阿龍美食記
2026-02-26 19:13:38
從三連敗到3-0,從被克制到完勝!陳熠用一場比賽破解了削球密碼

從三連敗到3-0,從被克制到完勝!陳熠用一場比賽破解了削球密碼

曹老師評球
2026-02-27 13:44:02
2026-02-27 21:35:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12209文章數(shù) 176397關(guān)注度
往期回顧 全部

科技要聞

單張不到五毛!谷歌深夜發(fā)布Nano Banana 2

頭條要聞

夜間氣溫達(dá)零下30℃ 烏總統(tǒng):烏面臨幾十年來最難冬天

頭條要聞

夜間氣溫達(dá)零下30℃ 烏總統(tǒng):烏面臨幾十年來最難冬天

體育要聞

一場必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

繼網(wǎng)暴谷愛凌后 美國欲沒收其全部收入

財(cái)經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

本地
藝術(shù)
數(shù)碼
時(shí)尚
旅游

本地新聞

津南好·四時(shí)總相宜

藝術(shù)要聞

紫氣東來,好運(yùn)一整年!

數(shù)碼要聞

JBL新配色音箱,防水還能組立體聲

冬季穿搭要避開臃腫感!配色不老氣、穿衣不隨意,越看越高級

旅游要聞

賞花燈、玩非遺、逛市集崇明特色元宵活動(dòng)邀您來打卡

無障礙瀏覽 進(jìn)入關(guān)懷版