国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek新論文劇透V4新框架!用閑置網(wǎng)卡加速智能體推理性能

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

DeepSeek這小子最精了,當(dāng)全世界都在盯著他的GitHub倉庫,等待V4時——

他和北大、清華在ArXiv悄咪咪地上了一篇論文,發(fā)布了一個全新的針對智能體的推理框架:DualPath



而且就跟前幾天曝出的算力話題相關(guān)。

DualPath的核心在于解決Agent長文本推理場景下的I/O瓶頸,通過優(yōu)化從外部存儲加載KV-Cache的速度,確保計算資源不被存儲讀取拖累。

它改變了傳統(tǒng)的存儲至預(yù)填充引擎(Storage-to-Prefill)單路徑加載模式,引入了存儲至解碼引擎(Storage-to-Decode)的第二條路徑。

通過利用解碼引擎閑置的存儲網(wǎng)卡(SNIC)帶寬讀取緩存,并配合高速計算網(wǎng)絡(luò)(RDMA)將其傳輸至預(yù)填充引擎,DualPath實現(xiàn)了集群存儲帶寬的全局池化與動態(tài)負(fù)載均衡。

在660B規(guī)模的生產(chǎn)級模型的實測中,DualPath表現(xiàn)驚人:

離線推理吞吐量提高了1.87倍,在線服務(wù)吞吐量平均提升1.96倍



在高負(fù)載下,首字延遲(TTFT)大幅優(yōu)化,而 Token間的生成速度(TPOT)幾乎不受任何干擾。

接下來,我們一起來看。

雙路徑加載 (Dual-Path Loading)

總的來說,DualPath是一個專門為智能體系統(tǒng)設(shè)計的推理框架,它的核心洞見是——

KV-Cache的加載不必以預(yù)填充為中心

在以往的理解中,誰負(fù)責(zé)計算誰就去搬數(shù)據(jù)。但DualPath認(rèn)為,緩存可以先加載到解碼引擎中,再通過高性能RDMA網(wǎng)絡(luò)傳輸至預(yù)填充引擎。

通過在兩條路徑間動態(tài)選擇,DualPath重新分配了網(wǎng)絡(luò)負(fù)載,緩解了預(yù)填充側(cè)的帶寬壓力。

那么,為什么要費這么大勁去“繞路”?

之所以這樣做,是因為在當(dāng)前的智能體應(yīng)用中,對話輪數(shù)多且上下文長,KV-Cache命中率通常高達(dá)95%以上。

這意味著,每一輪對話都要搬運(yùn)海量的“舊記憶”,推理性能的瓶頸已經(jīng)從“計算”轉(zhuǎn)移到了“搬運(yùn)”上



在現(xiàn)有的預(yù)填充-解碼分離(PD-disaggregated)架構(gòu)中,所有的加載任務(wù)都擁擠在預(yù)填充引擎(PE)的存儲網(wǎng)卡上,導(dǎo)致帶寬瞬間飽和;

與此同時,解碼引擎(DE)的存儲網(wǎng)卡卻在閑置,造成了嚴(yán)重的資源錯配。



更進(jìn)一步的,當(dāng)前GPU算力的增長遠(yuǎn)快于網(wǎng)絡(luò)帶寬和HBM容量的增長,也加劇了I/O限制。

正如英偉達(dá)首席科學(xué)家Bill Dally、谷歌架構(gòu)師Jeff Dean等大佬反復(fù)強(qiáng)調(diào)的:計算是免費的,但數(shù)據(jù)移動是昂貴的。

針對這些問題,DualPath構(gòu)建了創(chuàng)新的雙路徑模型:



  • 路徑 A(傳統(tǒng)):存儲→PE,緩存直接讀入預(yù)填充引擎。
  • 路徑 B(新增):存儲→DE→PE,緩存先讀入解碼引擎的緩沖池,再通過RDMA傳輸給預(yù)填充引擎。

在架構(gòu)組成上:

  • 推理引擎: 每個引擎管理一塊GPU,嚴(yán)格區(qū)分為預(yù)填充(PE)和解碼(DE)。
  • 流量管理器: 負(fù)責(zé)H2D/D2H拷貝、引擎間傳輸以及SNIC存儲讀寫。
  • 中央調(diào)度器: 擔(dān)任“大腦”角色,實時決策每一條請求該走哪條路,從而實現(xiàn)全局帶寬的最大化利用。

核心技術(shù)方案:存儲至解碼路徑

如上所述,DualPath推理系統(tǒng)的核心在于打破了傳統(tǒng)的“存儲至預(yù)填充”單路徑模式,創(chuàng)新性地引入了“存儲至解碼”路徑

該設(shè)計允許KV-Cache先加載至解碼引擎(DE),再通過高帶寬計算網(wǎng)絡(luò)(RDMA)無損傳輸給預(yù)填充引擎(PE)。

通過在兩條路徑間動態(tài)分配負(fù)載,系統(tǒng)將集群中原本閑置的解碼側(cè)存儲網(wǎng)卡(SNIC)帶寬徹底釋放,構(gòu)建起一個全局可調(diào)度的存儲I/O資源池。

具體來說,為了支持層級流式處理,DualPath在PE和DE上均分配了少量DRAM緩沖區(qū)(PE/DE Buffer),并針對不同階段設(shè)計了精細(xì)的數(shù)據(jù)流:

  • PE讀取路徑: 命中Token的KV-Cache從存儲讀入PE緩沖區(qū)。在每層計算前,該層緩存?zhèn)鬏斨罰E HBM,與計算過程重疊執(zhí)行。計算完成后,全量KV-Cache傳回DE緩沖區(qū)以形成完整上下文。
  • DE讀取路徑: KV-Cache直接進(jìn)入DE緩沖區(qū)。在PE預(yù)填充期間,對應(yīng)層的緩存跨節(jié)點傳輸至PE HBM(計算重疊)。計算結(jié)束后,PE僅需傳回新生成的KV-Cache片段與DE原有緩存合并。
  • 解碼與持久化: DE緩沖區(qū)接收完整KV-Cache后啟動解碼,執(zhí)行H2D拷貝并隨后釋放CPU內(nèi)存。雖然引入緩沖增加了DRAM壓力,但能顯著降低GPU顯存占用并優(yōu)化首字延遲(TTFT)。生成過程中,每累積滿一個Block(如 64 Token)即觸發(fā)異步持久化。

但就像前面提到的,“繞路”加載會帶來新問題:比如搬運(yùn)緩存的流量撞上了模型計算的通信,怎么辦?

對此,DualPath給出了兩套優(yōu)化方案:

首先是以計算網(wǎng)卡(CNIC)為中心的流量管理,強(qiáng)制所有流量通過配對的CNIC走GPUDirect RDMA路徑。

在InfiniBand或RoCE網(wǎng)絡(luò)中,利用虛擬層(VL/TC)技術(shù),將推理通信設(shè)為“最高優(yōu)先級”并預(yù)留99%帶寬,讓緩存搬運(yùn)只能在間隙中“蹭”帶寬,確?;ゲ桓蓴_。

其次是自適應(yīng)請求調(diào)度器: 調(diào)度器會盯著每個節(jié)點的磁盤隊列長度和Token數(shù)。系統(tǒng)會優(yōu)先將任務(wù)分配給I/O壓力較小且計算負(fù)載較輕的節(jié)點,從根本上避免單側(cè)網(wǎng)卡或單點計算資源的擁塞。

在實驗階段,DualPath在DeepSeek-V3、Qwen等模型上進(jìn)行了測試,場景覆蓋了離線Rollout和在線服務(wù)。

如開頭所說,在離線推理中,DualPath 將端到端吞吐量提高了高達(dá)1.87倍,在線服務(wù)吞吐量平均提升1.96倍,顯著降低了首字延遲(TTFT),且保持了極其穩(wěn)定的Token間延遲(TBT)。

總的來說,DualPath 證明了通過重新思考數(shù)據(jù)加載路徑可以有效突破當(dāng)前大模型推理的I/O墻。

它成功利用了解碼引擎原本被浪費的I/O帶寬,配合自適應(yīng)調(diào)度和嚴(yán)謹(jǐn)?shù)牧髁扛綦x機(jī)制,在不增加硬件成本的前提下,大幅提升了智能體LLM推理系統(tǒng)的效率。

One more thing

這篇論文的第一作者吳永彤,是北京大學(xué)的博士生,師從金鑫教授。

他的研究方向聚焦于系統(tǒng)軟件與大模型基礎(chǔ)設(shè)施(LLM Infrastructure),尤其是推理系統(tǒng)的工程優(yōu)化與規(guī)?;渴稹?/p>



他目前在DeepSeek系統(tǒng)組,參與下一代模型的推理基礎(chǔ)設(shè)施建設(shè),負(fù)責(zé)大規(guī)模軟件系統(tǒng)在多硬件平臺上的性能優(yōu)化。



此前,他還曾在騰訊、華盛頓大學(xué),微軟亞研院等機(jī)構(gòu)實習(xí)。

[1]https://arxiv.org/pdf/2602.21548

[2]https://jokerwyt.github.io/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
日本教室的鐘表,一天24小時?

日本教室的鐘表,一天24小時?

日本物語
2026-02-28 20:34:30
年前100多元一斤,年后價格腰斬!有湖北人已迫不及待下單

年前100多元一斤,年后價格腰斬!有湖北人已迫不及待下單

環(huán)球網(wǎng)資訊
2026-02-27 09:52:19
油價最新調(diào)整通知!

油價最新調(diào)整通知!

瑯琊新聞網(wǎng)
2026-03-01 15:07:11
舅舅與舅媽買了3萬多年貨,準(zhǔn)備7萬壓歲錢,準(zhǔn)備去表哥家過年

舅舅與舅媽買了3萬多年貨,準(zhǔn)備7萬壓歲錢,準(zhǔn)備去表哥家過年

小秋情感說
2026-03-01 09:49:18
留給大清的時間,真的不多了

留給大清的時間,真的不多了

我是歷史其實挺有趣
2026-01-03 08:50:37
“凌晨3點被它嚎醒!”最近,不少深圳人被吵到!網(wǎng)友:又開始了

“凌晨3點被它嚎醒!”最近,不少深圳人被吵到!網(wǎng)友:又開始了

南方都市報
2026-02-27 14:29:30
大歷史需要偉大的妥協(xié)

大歷史需要偉大的妥協(xié)

北青網(wǎng)-北京青年報
2026-02-27 08:27:04
華南五虎全軍覆沒!從叱咤風(fēng)云到集體沉淪,一場跨越二十年的地產(chǎn)大敗局

華南五虎全軍覆沒!從叱咤風(fēng)云到集體沉淪,一場跨越二十年的地產(chǎn)大敗局

阿離家居
2026-02-24 15:32:27
中國四位最“不靠譜”專家,“忽悠”央視28年,為何還能爆火至今

中國四位最“不靠譜”專家,“忽悠”央視28年,為何還能爆火至今

小莜讀史
2026-02-27 20:30:12
啊???我又上新聞聯(lián)播了

?。???我又上新聞聯(lián)播了

AI進(jìn)化論花生
2026-02-13 15:09:15
瓜迪奧拉:感謝英足總讓曼城有更少時間備戰(zhàn)皇馬

瓜迪奧拉:感謝英足總讓曼城有更少時間備戰(zhàn)皇馬

體壇周報
2026-03-01 13:11:17
武磊火線復(fù)出難救主 海港0比2國安再度無緣超級杯

武磊火線復(fù)出難救主 海港0比2國安再度無緣超級杯

上觀新聞
2026-03-01 18:18:10
杭州靈隱寺,為何要保留“一代妖僧”的雕像?看到千萬不要亂拜

杭州靈隱寺,為何要保留“一代妖僧”的雕像?看到千萬不要亂拜

收藏大視界
2026-02-28 23:03:27
被投保被扣費……上海已有多人遭遇!快去查,你的錢有木有被“打悶包”?!

被投保被扣費……上海已有多人遭遇!快去查,你的錢有木有被“打悶包”?!

上觀新聞
2026-02-28 19:07:08
《鏢人》破10億只是開始,吳京、沈騰、周星馳要掀起一波新高潮了

《鏢人》破10億只是開始,吳京、沈騰、周星馳要掀起一波新高潮了

小丸子的娛樂圈
2026-02-27 17:57:58
中國男籃為啥被沒歸化的韓國打花2場?球迷:因為有周琦和張公子

中國男籃為啥被沒歸化的韓國打花2場?球迷:因為有周琦和張公子

聽我說球
2026-03-01 18:57:50
慘烈的仗,要打到2030年?

慘烈的仗,要打到2030年?

中國新聞周刊
2026-02-26 22:44:14
癌細(xì)胞最愛的5大食物,很多人天天吃!醫(yī)生提醒:再饞也要管住嘴

癌細(xì)胞最愛的5大食物,很多人天天吃!醫(yī)生提醒:再饞也要管住嘴

孟大夫之家1
2026-02-23 18:33:03
男籃世預(yù)賽死里逃生?中國隊11分逆轉(zhuǎn)晉級穩(wěn)了:郭士強(qiáng)帥位保住了

男籃世預(yù)賽死里逃生?中國隊11分逆轉(zhuǎn)晉級穩(wěn)了:郭士強(qiáng)帥位保住了

籃球快餐車
2026-03-01 18:18:14
修車師傅不會主動教你:8個養(yǎng)車細(xì)節(jié),車能多開好幾年

修車師傅不會主動教你:8個養(yǎng)車細(xì)節(jié),車能多開好幾年

沙雕小琳琳
2026-02-28 12:09:35
2026-03-01 19:15:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12211文章數(shù) 176399關(guān)注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂部

頭條要聞

普京就哈梅內(nèi)伊遇害表示哀悼:一次無恥殺害

頭條要聞

普京就哈梅內(nèi)伊遇害表示哀悼:一次無恥殺害

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

《江山為聘》:吳謹(jǐn)言陳哲遠(yuǎn)燃炸朝堂

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

本地
游戲
時尚
教育
公開課

本地新聞

津南好·四時總相宜

《生化危機(jī)9》高復(fù)雜度彩蛋仍未完全被玩家攻破

普通人穿衣不需要太復(fù)雜!顏色恰當(dāng)、搭配和諧,高級又耐看

教育要聞

這題目做了真的是懵啊,還好老師講過

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版