国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek新論文劇透V4新框架!用閑置網(wǎng)卡加速智能體推理性能

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

DeepSeek這小子最精了,當全世界都在盯著他的GitHub倉庫,等待V4時——

他和北大、清華在ArXiv悄咪咪地上了一篇論文,發(fā)布了一個全新的針對智能體的推理框架:DualPath



而且就跟前幾天曝出的算力話題相關(guān)。

DualPath的核心在于解決Agent長文本推理場景下的I/O瓶頸,通過優(yōu)化從外部存儲加載KV-Cache的速度,確保計算資源不被存儲讀取拖累。

它改變了傳統(tǒng)的存儲至預填充引擎(Storage-to-Prefill)單路徑加載模式,引入了存儲至解碼引擎(Storage-to-Decode)的第二條路徑。

通過利用解碼引擎閑置的存儲網(wǎng)卡(SNIC)帶寬讀取緩存,并配合高速計算網(wǎng)絡(RDMA)將其傳輸至預填充引擎,DualPath實現(xiàn)了集群存儲帶寬的全局池化與動態(tài)負載均衡。

在660B規(guī)模的生產(chǎn)級模型的實測中,DualPath表現(xiàn)驚人:

離線推理吞吐量提高了1.87倍,在線服務吞吐量平均提升1.96倍



在高負載下,首字延遲(TTFT)大幅優(yōu)化,而 Token間的生成速度(TPOT)幾乎不受任何干擾。

接下來,我們一起來看。

雙路徑加載 (Dual-Path Loading)

總的來說,DualPath是一個專門為智能體系統(tǒng)設(shè)計的推理框架,它的核心洞見是——

KV-Cache的加載不必以預填充為中心

在以往的理解中,誰負責計算誰就去搬數(shù)據(jù)。但DualPath認為,緩存可以先加載到解碼引擎中,再通過高性能RDMA網(wǎng)絡傳輸至預填充引擎。

通過在兩條路徑間動態(tài)選擇,DualPath重新分配了網(wǎng)絡負載,緩解了預填充側(cè)的帶寬壓力。

那么,為什么要費這么大勁去“繞路”?

之所以這樣做,是因為在當前的智能體應用中,對話輪數(shù)多且上下文長,KV-Cache命中率通常高達95%以上。

這意味著,每一輪對話都要搬運海量的“舊記憶”,推理性能的瓶頸已經(jīng)從“計算”轉(zhuǎn)移到了“搬運”上



在現(xiàn)有的預填充-解碼分離(PD-disaggregated)架構(gòu)中,所有的加載任務都擁擠在預填充引擎(PE)的存儲網(wǎng)卡上,導致帶寬瞬間飽和;

與此同時,解碼引擎(DE)的存儲網(wǎng)卡卻在閑置,造成了嚴重的資源錯配。



更進一步的,當前GPU算力的增長遠快于網(wǎng)絡帶寬和HBM容量的增長,也加劇了I/O限制。

正如英偉達首席科學家Bill Dally、谷歌架構(gòu)師Jeff Dean等大佬反復強調(diào)的:計算是免費的,但數(shù)據(jù)移動是昂貴的。

針對這些問題,DualPath構(gòu)建了創(chuàng)新的雙路徑模型:



  • 路徑 A(傳統(tǒng)):存儲→PE,緩存直接讀入預填充引擎。
  • 路徑 B(新增):存儲→DE→PE,緩存先讀入解碼引擎的緩沖池,再通過RDMA傳輸給預填充引擎。

在架構(gòu)組成上:

  • 推理引擎: 每個引擎管理一塊GPU,嚴格區(qū)分為預填充(PE)和解碼(DE)。
  • 流量管理器: 負責H2D/D2H拷貝、引擎間傳輸以及SNIC存儲讀寫。
  • 中央調(diào)度器: 擔任“大腦”角色,實時決策每一條請求該走哪條路,從而實現(xiàn)全局帶寬的最大化利用。

核心技術(shù)方案:存儲至解碼路徑

如上所述,DualPath推理系統(tǒng)的核心在于打破了傳統(tǒng)的“存儲至預填充”單路徑模式,創(chuàng)新性地引入了“存儲至解碼”路徑

該設(shè)計允許KV-Cache先加載至解碼引擎(DE),再通過高帶寬計算網(wǎng)絡(RDMA)無損傳輸給預填充引擎(PE)。

通過在兩條路徑間動態(tài)分配負載,系統(tǒng)將集群中原本閑置的解碼側(cè)存儲網(wǎng)卡(SNIC)帶寬徹底釋放,構(gòu)建起一個全局可調(diào)度的存儲I/O資源池。

具體來說,為了支持層級流式處理,DualPath在PE和DE上均分配了少量DRAM緩沖區(qū)(PE/DE Buffer),并針對不同階段設(shè)計了精細的數(shù)據(jù)流:

  • PE讀取路徑: 命中Token的KV-Cache從存儲讀入PE緩沖區(qū)。在每層計算前,該層緩存?zhèn)鬏斨罰E HBM,與計算過程重疊執(zhí)行。計算完成后,全量KV-Cache傳回DE緩沖區(qū)以形成完整上下文。
  • DE讀取路徑: KV-Cache直接進入DE緩沖區(qū)。在PE預填充期間,對應層的緩存跨節(jié)點傳輸至PE HBM(計算重疊)。計算結(jié)束后,PE僅需傳回新生成的KV-Cache片段與DE原有緩存合并。
  • 解碼與持久化: DE緩沖區(qū)接收完整KV-Cache后啟動解碼,執(zhí)行H2D拷貝并隨后釋放CPU內(nèi)存。雖然引入緩沖增加了DRAM壓力,但能顯著降低GPU顯存占用并優(yōu)化首字延遲(TTFT)。生成過程中,每累積滿一個Block(如 64 Token)即觸發(fā)異步持久化。

但就像前面提到的,“繞路”加載會帶來新問題:比如搬運緩存的流量撞上了模型計算的通信,怎么辦?

對此,DualPath給出了兩套優(yōu)化方案:

首先是以計算網(wǎng)卡(CNIC)為中心的流量管理,強制所有流量通過配對的CNIC走GPUDirect RDMA路徑。

在InfiniBand或RoCE網(wǎng)絡中,利用虛擬層(VL/TC)技術(shù),將推理通信設(shè)為“最高優(yōu)先級”并預留99%帶寬,讓緩存搬運只能在間隙中“蹭”帶寬,確保互不干擾。

其次是自適應請求調(diào)度器: 調(diào)度器會盯著每個節(jié)點的磁盤隊列長度和Token數(shù)。系統(tǒng)會優(yōu)先將任務分配給I/O壓力較小且計算負載較輕的節(jié)點,從根本上避免單側(cè)網(wǎng)卡或單點計算資源的擁塞。

在實驗階段,DualPath在DeepSeek-V3、Qwen等模型上進行了測試,場景覆蓋了離線Rollout和在線服務。

如開頭所說,在離線推理中,DualPath 將端到端吞吐量提高了高達1.87倍,在線服務吞吐量平均提升1.96倍,顯著降低了首字延遲(TTFT),且保持了極其穩(wěn)定的Token間延遲(TBT)。

總的來說,DualPath 證明了通過重新思考數(shù)據(jù)加載路徑可以有效突破當前大模型推理的I/O墻。

它成功利用了解碼引擎原本被浪費的I/O帶寬,配合自適應調(diào)度和嚴謹?shù)牧髁扛綦x機制,在不增加硬件成本的前提下,大幅提升了智能體LLM推理系統(tǒng)的效率。

One more thing

這篇論文的第一作者吳永彤,是北京大學的博士生,師從金鑫教授。

他的研究方向聚焦于系統(tǒng)軟件與大模型基礎(chǔ)設(shè)施(LLM Infrastructure),尤其是推理系統(tǒng)的工程優(yōu)化與規(guī)?;渴?。



他目前在DeepSeek系統(tǒng)組,參與下一代模型的推理基礎(chǔ)設(shè)施建設(shè),負責大規(guī)模軟件系統(tǒng)在多硬件平臺上的性能優(yōu)化。



此前,他還曾在騰訊、華盛頓大學,微軟亞研院等機構(gòu)實習。

[1]https://arxiv.org/pdf/2602.21548

[2]https://jokerwyt.github.io/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中國男籃贏球不到12小時,郭士強登上日本體育頭版,若處理不好或會追罰!

中國男籃贏球不到12小時,郭士強登上日本體育頭版,若處理不好或會追罰!

隱于山海
2026-02-27 12:47:05
趴在中國仁愛礁9000多天的菲律賓軍艦,如今已經(jīng)再也拖不走了

趴在中國仁愛礁9000多天的菲律賓軍艦,如今已經(jīng)再也拖不走了

小小科普員
2025-11-21 20:23:24
TVB歌手被指失去一哥地位,本尊親回:無乜所謂

TVB歌手被指失去一哥地位,本尊親回:無乜所謂

粵睇先生
2026-02-27 21:36:47
WTT大滿貫女單4強名單揭曉,張本美和橫掃晉級,王曼昱逆轉(zhuǎn)

WTT大滿貫女單4強名單揭曉,張本美和橫掃晉級,王曼昱逆轉(zhuǎn)

呂彍極限手工
2026-02-27 10:11:18
揭秘注冊“不用實名”的國際版支付寶,每天能賺三五萬?

揭秘注冊“不用實名”的國際版支付寶,每天能賺三五萬?

流蘇晚晴
2026-02-22 15:12:40
電力股大漲!001896,斬獲7連板

電力股大漲!001896,斬獲7連板

證券時報
2026-02-27 17:03:08
賈玲巴黎周“一臉男相”!不愛笑也沒梨渦眼神犀利,梳大背頭好酷

賈玲巴黎周“一臉男相”!不愛笑也沒梨渦眼神犀利,梳大背頭好酷

軒逸阿II
2026-01-20 07:54:29
3月一口氣放出10部好萊塢大片?!

3月一口氣放出10部好萊塢大片?!

君君電影院
2026-02-26 22:05:14
死了一個女人,埋葬半個王朝

死了一個女人,埋葬半個王朝

我是歷史其實挺有趣
2026-02-27 15:23:11
馬筱梅大方曬幸福,坦言不會喂奶、拍嗝,育兒重任全都交給汪小菲

馬筱梅大方曬幸福,坦言不會喂奶、拍嗝,育兒重任全都交給汪小菲

一盅情懷
2026-02-27 15:36:08
日本主帥:當廖三寧登場時我們需要用協(xié)防去針對,他比趙睿更難防

日本主帥:當廖三寧登場時我們需要用協(xié)防去針對,他比趙睿更難防

林小湜體育頻道
2026-02-27 03:05:04
男子高速上語音呼叫“關(guān)閉閱讀燈”,語音助手卻誤將大燈熄滅致車輛撞上護欄,領(lǐng)克致歉:已更新,行駛狀態(tài)下只能手動關(guān)閉大燈

男子高速上語音呼叫“關(guān)閉閱讀燈”,語音助手卻誤將大燈熄滅致車輛撞上護欄,領(lǐng)克致歉:已更新,行駛狀態(tài)下只能手動關(guān)閉大燈

大象新聞
2026-02-27 09:57:17
黃金白銀,集體下跌

黃金白銀,集體下跌

第一財經(jīng)資訊
2026-02-27 09:54:21
恐高女游客游樂園玩蹦極 跳下后因太緊張把自己嚇暈 工作人員:十幾秒就清醒了 身體無礙

恐高女游客游樂園玩蹦極 跳下后因太緊張把自己嚇暈 工作人員:十幾秒就清醒了 身體無礙

閃電新聞
2026-02-27 16:18:28
“閨女,回婆家坐月子,你哥要結(jié)婚”“阿姨,房是我這個外人的”

“閨女,回婆家坐月子,你哥要結(jié)婚”“阿姨,房是我這個外人的”

秀秀情感課堂
2026-02-27 19:30:03
北京市公安局發(fā)布通告!3月1日零時起——

北京市公安局發(fā)布通告!3月1日零時起——

BRTV新聞
2026-02-27 14:59:34
千萬別姐弟戀,很累!

千萬別姐弟戀,很累!

果粉之家
2026-01-06 11:26:21
Opta歐冠奪冠概率預測:阿森納高居榜首,皇馬幾率驟降

Opta歐冠奪冠概率預測:阿森納高居榜首,皇馬幾率驟降

星耀國際足壇
2026-02-27 23:23:49
離開美國是“最正確的決定”:《復仇者聯(lián)盟》演員稱不喜歡洛杉磯

離開美國是“最正確的決定”:《復仇者聯(lián)盟》演員稱不喜歡洛杉磯

TVB的四小花
2026-02-27 02:00:18
2-1,38歲梅西遭抱摔+替補登場一劍封喉,率隊終結(jié)2場比賽不勝

2-1,38歲梅西遭抱摔+替補登場一劍封喉,率隊終結(jié)2場比賽不勝

側(cè)身凌空斬
2026-02-27 10:56:26
2026-02-28 01:23:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12209文章數(shù) 176397關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

東莞純電公交大面積停運 公司5.5億索賠"砍"至6400萬

頭條要聞

東莞純電公交大面積停運 公司5.5億索賠"砍"至6400萬

體育要聞

一場必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

郭晶晶霍啟剛現(xiàn)身香港藝術(shù)節(jié)盡顯恩愛

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

教育
親子
手機
數(shù)碼
游戲

教育要聞

擴招+報考降溫!考研歷年報錄比趨勢分析

親子要聞

驚呆了!12歲小女孩抱弟弟如同媽媽般自然,背后真相感人至深!

手機要聞

榮耀600系列再次被確認:9000mAh+兩億像素,處理器有懸念!

數(shù)碼要聞

Omdia:時隔5年,小米去年再度回歸可穿戴設(shè)備出貨榜首

知名舅舅黨爆料:索尼克游戲新作有望今年公布

無障礙瀏覽 進入關(guān)懷版