国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek聯(lián)手清北發(fā)新論文,5000行代碼改寫規(guī)則!V4 架構專治推理I/O瓶頸,性能暴增187%

0
分享至


整理|冬梅

繼 DeepSeek V4 Lite 信息泄露后,DeepSeek 團隊剛剛放出重磅技術成果 —— 聯(lián)合清華大學、北京大學計算機科學學院,發(fā)布一篇頂會級重磅論文《DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference》,直擊智能體時代 LLM 最致命的瓶頸 ——存儲帶寬墻。


論文地址:https://arxiv.org/pdf/2602.21548


本論文第一作者 Yongtong Wu(吳永彤)現(xiàn)為北京大學(PKU)博士生(根據(jù)學習經(jīng)歷推測是位 00 后),研究方向聚焦系統(tǒng)軟件與大模型基礎設施。在攻讀博士期間,他在金鑫教授指導下開展系統(tǒng)軟件相關研究,重點關注大語言模型推理基礎設施的架構與性能優(yōu)化問題。


此前,吳永彤于 2025 年獲得北京大學信息學與計算機科學學士學位。本科階段,他在北京大學計算機科學技術系助理教授黃群指導下,從事 RDMA 中間件開發(fā)工作,積累了高性能網(wǎng)絡通信與分布式系統(tǒng)方面的工程經(jīng)驗。

2025 年 7 月,吳永彤加入 DeepSeek 系統(tǒng)組,參與下一代模型推理基礎設施的建設工作。他的核心職責之一,是對大規(guī)模內(nèi)部軟件系統(tǒng)進行系統(tǒng)級優(yōu)化,使其能夠在不同硬件平臺上實現(xiàn)高效、穩(wěn)定的運行。這類工作本質(zhì)上屬于大模型基礎設施(Infra)建設范疇,重點在于提升推理系統(tǒng)在復雜集群環(huán)境中的性能與資源利用效率。


智能體推理,正被 “帶寬” 卡死

在最新發(fā)布的論文中,DeepSeek 將目光投向了一個正在迅速成形的新現(xiàn)實:大語言模型的核心形態(tài),正在從“對話工具”升級為“智能體系統(tǒng)”。

過去,大模型主要處理單輪或少量輪次的問答——用戶輸入提示詞,模型生成結果,交互結束。但如今,越來越多的應用不再是一次性問答,而是持續(xù)多輪、跨工具、跨環(huán)境的任務執(zhí)行。例如代碼助手、自主任務型 Agent,會在幾十甚至上百輪交互中,不斷調(diào)用瀏覽器、Python 解釋器等工具,與外部環(huán)境交互,逐步完成目標。

在這種“人類—大模型—環(huán)境”的三方交互模式下,大模型處理的不再是孤立的提示,而是一個持續(xù)增長的長上下文。每一輪新增的內(nèi)容可能只有幾百個 token,但這些內(nèi)容會不斷累積,形成極長的歷史上下文。

在傳統(tǒng)推理場景中,性能瓶頸主要集中在計算能力上,例如 GPU 的算力和矩陣運算效率。但在智能體負載下,情況發(fā)生了變化。

由于是多輪對話、短內(nèi)容追加的模式,大部分歷史上下文都可以被復用。技術上,這體現(xiàn)在 KV-Cache(用于存儲模型歷史注意力計算結果的緩存)命中率通??梢赃_到 95% 以上。也就是說,大部分計算不需要重新做,只需要把已有的 KV-Cache 重新加載進來繼續(xù)使用。

問題在于——加載這些緩存本身,變成了瓶頸。

換句話說,在智能體工作負載下,系統(tǒng)越來越呈現(xiàn)出“高 I/O 密集型”的特征。真正決定吞吐量的,不再是模型算得有多快,而是 KV-Cache 能不能被高效加載。

但主流的 PD 分離(Prefill-Decode Disaggregation)推理架構,存在天生缺陷:

  • Prefill 引擎網(wǎng)卡被占滿長上下文帶來海量 KV-Cache,預填充節(jié)點的存儲網(wǎng)卡長期跑滿,成為 I/O 瓶頸。

  • Decode 引擎網(wǎng)卡大量閑置解碼側(cè)只負責逐詞生成,存儲帶寬利用率極低,資源嚴重浪費。

  • 負載失衡 + 網(wǎng)絡擁塞單路徑加載 KV-Cache,延遲敏感的生成流量與大數(shù)據(jù)傳輸互相干擾,集群效率上不去。

一句話:GPU 算力再強,也在等數(shù)據(jù);網(wǎng)卡一邊堵死、一邊空閑。這就是 PD 分離架構繞不開的性能天花板。

這種結構性失衡,使得系統(tǒng)整體吞吐量被預填充引擎“卡死”。理論上可以為預填充引擎擴容帶寬,但在通用集群環(huán)境中,這種擴容成本高昂且難以落地。

因此,DeepSeek 認為,真正可行的優(yōu)化方向不是單點擴容,而是重新設計 KV-Cache 的加載方式,讓所有引擎的 I/O 帶寬都被利用起來。

此前已有研究嘗試緩解 KV-Cache 加載瓶頸。

例如,有方案將 KV-Cache 緩存在大規(guī)模分布式 DRAM 池中,并通過親和性調(diào)度提升命中率。但這種方式對內(nèi)存資源依賴極高,在強化學習推演等內(nèi)存緊張場景下難以使用;而在在線服務這種工作集巨大的場景中,使用 DRAM 替代 SSD 成本過高。

也有研究嘗試通過壓縮或減少檢索數(shù)據(jù)量來降低加載開銷,但這些方法都沒有解決一個核心問題:不同引擎之間存儲 I/O 負載的不均衡。


DualPath:雙路徑加載

KV-Cache 及技術挑戰(zhàn)

DualPath 通過創(chuàng)新雙路徑 KV-Cache 加載機制,從架構層面突破傳統(tǒng)推理瓶頸。

其核心思想很直接:KV-Cache 的加載不應當只圍繞預填充引擎。

在傳統(tǒng)架構中,KV-Cache 只能從存儲直接加載到預填充引擎。而 DualPath 增加了一條新的路徑——KV-Cache 可以先加載到解碼引擎,再通過高性能 RDMA 網(wǎng)絡轉(zhuǎn)發(fā)到預填充引擎。

于是,系統(tǒng)中出現(xiàn)了兩條加載路徑:

  1. 存儲 → 預填充引擎 PE(傳統(tǒng)路徑)

  2. 存儲 → 解碼引擎 DE → 預填充引擎 PE(新增路徑)

系統(tǒng)可以根據(jù)實時負載動態(tài)選擇路徑,從而把一部分 I/O 壓力轉(zhuǎn)移到解碼引擎,重新分配網(wǎng)絡帶寬,緩解預填充側(cè)的帶寬瓶頸。


本質(zhì)上,這是一次對“數(shù)據(jù)路徑”的重構,而非單純的硬件堆疊。

搭配全局動態(tài)調(diào)度器,DualPath 可實時均衡預填充引擎與解碼引擎的負載,徹底解決 PD 分離架構下 KV-Cache 讀取負載失衡問題,為智能體長上下文、多輪交互推理提供底層算力支撐,也為即將到來的 DeepSeek V4 系列奠定關鍵技術底座。


不過,引入雙路徑并不簡單。DeepSeek 在論文中指出了兩個關鍵挑戰(zhàn):

第一,新增路徑會引入更復雜的網(wǎng)絡流量模式。如果管理不當,可能干擾模型執(zhí)行中對延遲敏感的通信操作,反而拉低整體性能。

第二,在真實生產(chǎn)環(huán)境中,工作負載是動態(tài)且異構的。系統(tǒng)必須實時決定采用哪條加載路徑,同時保證 GPU 和網(wǎng)卡資源都處于均衡狀態(tài)。

為此,DualPath 引入了三項關鍵設計:

  • 優(yōu)化的數(shù)據(jù)路徑設計,確保在常見的預填充 / 解碼比例下不會產(chǎn)生天然擁塞;

  • 以計算網(wǎng)卡為核心的流量管理機制,將 KV-Cache 傳輸流量與對延遲敏感的模型推理通信隔離;

  • 動態(tài)調(diào)度策略,實現(xiàn)預填充與解碼引擎之間計算與網(wǎng)絡資源的聯(lián)合負載均衡。

系統(tǒng)實現(xiàn)

DualPath 基于自研推理框架實現(xiàn),CUDA 內(nèi)核整合了 FlashMLA、DeepGEMM 和 DeepEP,與當前主流的開源框架對齊;DualPath 在該框架上的修改量約為 5000 行代碼。系統(tǒng)采用 3FS 作為分布式存儲,并使用類 io_uring 的接口實現(xiàn)內(nèi)核旁路,提升存儲訪問效率。

為了驗證架構本身的效果,實驗環(huán)境采用了高規(guī)格 GPU 集群:

  • 每臺服務器:8 張英偉達 Hopper GPU + 雙 CPU;

  • 每節(jié)點:8 張 400 Gbps RDMA 網(wǎng)卡(計算網(wǎng)絡);

  • 另配 1 張連接 3FS 的存儲網(wǎng)卡;

  • 計算網(wǎng)絡與存儲網(wǎng)絡物理隔離;

  • 集群級 3FS 不設 DRAM 緩存,可跑滿 400Gbps 存儲帶寬。

這種配置的目的很明確:排除網(wǎng)絡瓶頸和緩存干擾,把性能差異集中到 KV-Cache 加載路徑本身。

實驗選取三類模型,覆蓋不同規(guī)模和架構:

  • DeepSeek V3.2 660B(MoE 架構)

  • 其 27B 降尺度版本(內(nèi)部實驗模型)

  • Qwen Qwen2.5-32B(GQA 稠密模型)

前兩者代表大規(guī)模稀疏 MoE 模型,后者為典型稠密模型。測試目標是驗證 DualPath 是否對不同架構都有效。

離線場景模擬強化學習訓練中的推演階段:多個智能體同時運行,統(tǒng)計全部任務完成所需時間(JCT)。結論很直接:

  • 批次越大、上下文越長,DualPath 優(yōu)勢越明顯;

  • 在部分大規(guī)模配置下,基于 SGLang + Mooncake 的系統(tǒng)甚至無法穩(wěn)定完成任務;

  • 在 660B 模型上,DualPath 相比原始框架最高將作業(yè)完成時間縮短至 1/1.87,接近“零 I/O 開銷”的理論上限(Oracle)

  • 27B 與 Qwen 32B 也呈現(xiàn)類似趨勢。




這說明,在長上下文智能體場景中,瓶頸確實集中在 KV-Cache 的 I/O。

此外,實驗還刻意放大每輪的追加 token 或生成 token 長度。結果顯示:

  • 當追加長度增加(即 GPU 計算變重),原始框架性能逐漸逼近 DualPath;

  • 當生成長度增加(預填充頻率下降),I/O 壓力減輕,性能差距縮小。

這說明:當 GPU 計算成為瓶頸時,DualPath 不會額外拖慢系統(tǒng);而當 I/O 成為瓶頸時,DualPath 優(yōu)勢顯著。

在不同追加比例下,DualPath 對原系統(tǒng)的加速比在 1.82–1.99 倍之間。

論文測試了 1P1D、2P1D、1P2D 等多種配置(P= 預填充節(jié)點,D= 解碼節(jié)點)。關鍵觀察:

  • 原始系統(tǒng)只能利用預填充節(jié)點的存儲帶寬;

  • DualPath 可以利用所有節(jié)點的存儲帶寬;

  • 在所有比例下,DualPath 都顯著優(yōu)于原系統(tǒng);

  • 平均加速比達 1.64 倍,最高 2.46 倍。

這從系統(tǒng)層面驗證了論文的核心論點:在智能體負載下,存儲帶寬才是主導瓶頸,而不是算力。

從實驗結果可以抽象出一個更宏觀的判斷:在長上下文智能體負載下,模型算力已經(jīng)不是決定性因素。真正限制吞吐的,是 KV-Cache 的加載路徑,以及存儲帶寬在不同引擎間的分配方式。

DualPath 并沒有減少 KV-Cache 數(shù)據(jù)量,也沒有壓縮數(shù)據(jù),而是通過重構加載路徑,讓所有節(jié)點參與 I/O 分擔。本質(zhì)上,這是一次系統(tǒng)資源再分配,而不是算力擴張。

性能瓶頸正從“算得快”

轉(zhuǎn)向“數(shù)據(jù)調(diào)度得好”

在外界仍在討論模型能力與參數(shù)規(guī)模時,圍繞DeepSeek的兩條線索正在交匯:一邊是被曝提前向華為等國內(nèi)芯片廠商開放新一代模型適配權限;另一邊,是其最新論文提出的推理系統(tǒng)架構 DualPath——一套針對智能體長上下文場景重構 KV-Cache 加載路徑的系統(tǒng)設計。

如果兩者放在一起看,問題就不再只是“模型升級”,而是一次從硬件協(xié)同到系統(tǒng)架構層面的整體調(diào)整。

據(jù)知情人士透露,DeepSeek 已為包括華為技術在內(nèi)的國內(nèi)供應商預留數(shù)周時間,對即將推出的 DeepSeek V4 進行軟件適配與性能優(yōu)化。這一做法打破了行業(yè)慣例。通常,大型模型在正式發(fā)布前會向英偉達、AMD 等頭部芯片廠商提供預覽版本,以便在 CUDA、驅(qū)動和通信棧層面完成針對性優(yōu)化,從而確保模型在主流 GPU 上獲得最佳性能。

此前 DeepSeek 也曾與英偉達技術團隊保持合作。因此,如果上述消息屬實,這意味著其硬件協(xié)同策略正在發(fā)生變化。

但目前相關說法尚未得到官方確認。

與此同時,另一條消息顯示,DeepSeek V4 Lite(代號“sealion-lite”)正在密集測試階段。已披露的信息包括:支持 100 萬 tokens 的上下文窗口,采用原生多模態(tài)架構,并在效果上顯著優(yōu)于當前網(wǎng)頁端與 App 端模型。至少已有一家推理服務商獲得訪問權限,但簽署了嚴格的保密協(xié)議。百萬級上下文長度本身就是一個關鍵信號——它意味著 KV-Cache 規(guī)模將大幅膨脹,模型運行將高度依賴緩存復用與高帶寬數(shù)據(jù)調(diào)度能力。

這恰好與 DeepSeek 在論文中提出的 DualPath 架構形成呼應。DualPath 的核心思路是增加一條“存儲—解碼—預填充”的加載路徑,使 KV-Cache 可以先加載到解碼節(jié)點,再通過 RDMA 網(wǎng)絡轉(zhuǎn)發(fā)至預填充節(jié)點,從而將存儲帶寬壓力在多個節(jié)點間重新分配。

如果將這一系統(tǒng)級優(yōu)化與 V4 Lite 的百萬上下文能力結合來看,其技術邏輯是連貫的。更長的上下文意味著更大的 KV-Cache;更大的 KV-Cache 意味著更重的 I/O 壓力;而更重的 I/O 壓力,恰恰需要通過類似 DualPath 的帶寬重構機制來化解。在這種架構下,系統(tǒng)性能的決定因素更多取決于整體帶寬調(diào)度能力與節(jié)點協(xié)同效率,而不是單卡算力的絕對領先。

但值得注意的是 DualPath 仍然基于 CUDA 實現(xiàn),底層依然圍繞 GPU 生態(tài)展開。當性能瓶頸從“算得多快”轉(zhuǎn)向“數(shù)據(jù)調(diào)度得多好”時,不同硬件之間的競爭維度就會發(fā)生變化。算力差距仍然重要,但帶寬組織能力、網(wǎng)絡架構設計以及系統(tǒng)調(diào)度策略,開始成為同等關鍵的變量。

https://arxiv.org/abs/2602.21548

https://jokerwyt.github.io/

聲明:本文為 InfoQ 整理,不代表平臺觀點,未經(jīng)許可禁止轉(zhuǎn)載。

會議推薦

2026,AI 正在以更工程化的方式深度融入軟件生產(chǎn),Agentic AI 的探索也將從局部試點邁向體系化工程建設!

QCon 北京 2026 已正式啟動,本屆大會以“Agentic AI 時代的軟件工程重塑”為核心主線,推動技術探索從「AI For What」真正落地到可持續(xù)的「Value From AI」。從前沿技術雷達、架構設計與數(shù)據(jù)底座、效能與成本、產(chǎn)品與交互、可信落地、研發(fā)組織進化六大維度,系統(tǒng)性展開深度探索。開往 2026 的 Agentic AI 專列即將啟程!匯聚頂尖專家實戰(zhàn)分享,把 AI 能力一次夯到位!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
0-1!10人皇馬慘遭兩連敗,被巴薩甩開4分,新星追罵主裁被直紅

0-1!10人皇馬慘遭兩連敗,被巴薩甩開4分,新星追罵主裁被直紅

小金體壇大視野
2026-03-03 09:19:12
2日戰(zhàn)況:美以更多夸張戰(zhàn)果公布,首次運用多種新裝備實戰(zhàn)磨練

2日戰(zhàn)況:美以更多夸張戰(zhàn)果公布,首次運用多種新裝備實戰(zhàn)磨練

裝甲鏟史官
2026-03-02 12:05:08
特朗普慌了:中美打不起來,中國這招讓美軍徹底沒轍

特朗普慌了:中美打不起來,中國這招讓美軍徹底沒轍

小莜讀史
2026-02-06 17:43:45
哈梅內(nèi)伊被精準斬首,究竟是誰遞的刀?

哈梅內(nèi)伊被精準斬首,究竟是誰遞的刀?

浪子的煙火人間
2026-03-03 07:12:50
我是秘書,我做主

我是秘書,我做主

疾跑的小蝸牛
2026-03-02 21:09:21
國防部直接下達硬核指令,全面鎖定所有十八歲的男性公民!

國防部直接下達硬核指令,全面鎖定所有十八歲的男性公民!

貍花小咪
2026-02-28 16:23:12
一步錯步步錯!美國窮兵黷武惹禍上身,亞太布局硬生生被自己攪黃

一步錯步步錯!美國窮兵黷武惹禍上身,亞太布局硬生生被自己攪黃

劉振起觀點
2026-03-03 09:39:33
趙本山近況曝光!68歲高齡現(xiàn)身美國加州,這狀態(tài)你敢信?

趙本山近況曝光!68歲高齡現(xiàn)身美國加州,這狀態(tài)你敢信?

手工制作阿殲
2026-03-01 16:51:57
外交部:一名中國公民在德黑蘭遇難 ,對遇難同胞表示哀悼

外交部:一名中國公民在德黑蘭遇難 ,對遇難同胞表示哀悼

每日經(jīng)濟新聞
2026-03-02 17:20:01
老兩口結婚后將兒女撮合在一起,親母女嫁給了親父子,網(wǎng)友熱議:“將來孩子出生該怎么喊呢”

老兩口結婚后將兒女撮合在一起,親母女嫁給了親父子,網(wǎng)友熱議:“將來孩子出生該怎么喊呢”

觀威海
2026-03-02 09:20:14
河南一豫劇團冒雪堅持演出2小時,臺下觀眾寥寥,卻有3萬網(wǎng)友在線圍觀

河南一豫劇團冒雪堅持演出2小時,臺下觀眾寥寥,卻有3萬網(wǎng)友在線圍觀

環(huán)球網(wǎng)資訊
2026-03-02 17:46:01
朱婷加比相撞,緊急送醫(yī)治療,檢查結果出爐

朱婷加比相撞,緊急送醫(yī)治療,檢查結果出爐

跑者排球視角
2026-03-02 23:29:37
40萬周薪引爆爭議!31歲隊長7球13助,1億歐報價逼曼聯(lián)兩難

40萬周薪引爆爭議!31歲隊長7球13助,1億歐報價逼曼聯(lián)兩難

卿子書
2026-03-02 09:47:30
“我要驗牌”為何火了?

“我要驗牌”為何火了?

喜歡歷史的阿繁
2026-03-02 00:35:12
浴缸陪睡只是冰山一角,多位助理服務明星方式曝光,一個個太離譜

浴缸陪睡只是冰山一角,多位助理服務明星方式曝光,一個個太離譜

離離言幾許
2026-03-02 15:53:17
日本玩大了!P-3C首闖臺島咽喉,解放軍當場翻臉,全程貼臉硬剛!

日本玩大了!P-3C首闖臺島咽喉,解放軍當場翻臉,全程貼臉硬剛!

古史青云啊
2026-03-02 10:36:50
“冬萍一笑,生死難料”后續(xù):前夫已重啟人生,那燕冬萍呢?

“冬萍一笑,生死難料”后續(xù):前夫已重啟人生,那燕冬萍呢?

大魚簡科
2026-02-10 16:54:05
4比0橫掃卻遭全網(wǎng)群嘲!國乒內(nèi)戰(zhàn)被指假球王勵勤愛徒陷讓球風波

4比0橫掃卻遭全網(wǎng)群嘲!國乒內(nèi)戰(zhàn)被指假球王勵勤愛徒陷讓球風波

卿子書
2026-03-03 09:24:11
金賽綸錄音公開:第一次發(fā)生關系在初二,他用金錢把我變成瘋女人

金賽綸錄音公開:第一次發(fā)生關系在初二,他用金錢把我變成瘋女人

喜歡歷史的阿繁
2026-03-02 09:59:11
英法德:準備“從源頭摧毀”伊朗軍事能力

英法德:準備“從源頭摧毀”伊朗軍事能力

參考消息
2026-03-02 13:10:34
2026-03-03 10:16:49
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術社區(qū)媒體
12095文章數(shù) 51783關注度
往期回顧 全部

科技要聞

蘋果iPhone17e發(fā)布:4499元起 升級A19芯片

頭條要聞

牛彈琴:多國對轟炸保持沉默 西班牙首相確實是條漢子

頭條要聞

牛彈琴:多國對轟炸保持沉默 西班牙首相確實是條漢子

體育要聞

伯納烏8萬人暴怒!高呼78歲老佛爺下課

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

霍爾木茲海峽近乎停擺 布油直逼80美元

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

教育
健康
數(shù)碼
公開課
軍事航空

教育要聞

內(nèi)蒙古教育反腐風暴!千余人被處分后如何重建公平?

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

數(shù)碼要聞

小米靠規(guī)模和高端應對!盧偉冰:內(nèi)存漲價將影響消費電子所有玩家 持續(xù)到2027年

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國中央司令部透露對伊朗動武全部武器裝備清單

無障礙瀏覽 進入關懷版