DeepSeek聯(lián)手清北發(fā)新論文，5000行代碼改寫規(guī)則！V4 架構專治推理I/O瓶頸，性能暴增187%

2026-02-27 12:22:19　來源: InfoQ

北京舉報

分享至

整理｜冬梅

繼 DeepSeek V4 Lite 信息泄露后，DeepSeek 團隊剛剛放出重磅技術成果 —— 聯(lián)合清華大學、北京大學計算機科學學院，發(fā)布一篇頂會級重磅論文《DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference》，直擊智能體時代 LLM 最致命的瓶頸 ——存儲帶寬墻。

論文地址：https://arxiv.org/pdf/2602.21548

本論文第一作者 Yongtong Wu（吳永彤）現(xiàn)為北京大學（PKU）博士生（根據(jù)學習經(jīng)歷推測是位 00 后），研究方向聚焦系統(tǒng)軟件與大模型基礎設施。在攻讀博士期間，他在金鑫教授指導下開展系統(tǒng)軟件相關研究，重點關注大語言模型推理基礎設施的架構與性能優(yōu)化問題。

此前，吳永彤于 2025 年獲得北京大學信息學與計算機科學學士學位。本科階段，他在北京大學計算機科學技術系助理教授黃群指導下，從事 RDMA 中間件開發(fā)工作，積累了高性能網(wǎng)絡通信與分布式系統(tǒng)方面的工程經(jīng)驗。

2025 年 7 月，吳永彤加入 DeepSeek 系統(tǒng)組，參與下一代模型推理基礎設施的建設工作。他的核心職責之一，是對大規(guī)模內(nèi)部軟件系統(tǒng)進行系統(tǒng)級優(yōu)化，使其能夠在不同硬件平臺上實現(xiàn)高效、穩(wěn)定的運行。這類工作本質(zhì)上屬于大模型基礎設施（Infra）建設范疇，重點在于提升推理系統(tǒng)在復雜集群環(huán)境中的性能與資源利用效率。

智能體推理，正被 “帶寬” 卡死

在最新發(fā)布的論文中，DeepSeek 將目光投向了一個正在迅速成形的新現(xiàn)實：大語言模型的核心形態(tài)，正在從“對話工具”升級為“智能體系統(tǒng)”。

過去，大模型主要處理單輪或少量輪次的問答——用戶輸入提示詞，模型生成結果，交互結束。但如今，越來越多的應用不再是一次性問答，而是持續(xù)多輪、跨工具、跨環(huán)境的任務執(zhí)行。例如代碼助手、自主任務型 Agent，會在幾十甚至上百輪交互中，不斷調(diào)用瀏覽器、Python 解釋器等工具，與外部環(huán)境交互，逐步完成目標。

在這種“人類—大模型—環(huán)境”的三方交互模式下，大模型處理的不再是孤立的提示，而是一個持續(xù)增長的長上下文。每一輪新增的內(nèi)容可能只有幾百個 token，但這些內(nèi)容會不斷累積，形成極長的歷史上下文。

在傳統(tǒng)推理場景中，性能瓶頸主要集中在計算能力上，例如 GPU 的算力和矩陣運算效率。但在智能體負載下，情況發(fā)生了變化。

由于是多輪對話、短內(nèi)容追加的模式，大部分歷史上下文都可以被復用。技術上，這體現(xiàn)在 KV-Cache（用于存儲模型歷史注意力計算結果的緩存）命中率通?？梢赃_到 95% 以上。也就是說，大部分計算不需要重新做，只需要把已有的 KV-Cache 重新加載進來繼續(xù)使用。

問題在于——加載這些緩存本身，變成了瓶頸。

換句話說，在智能體工作負載下，系統(tǒng)越來越呈現(xiàn)出“高 I/O 密集型”的特征。真正決定吞吐量的，不再是模型算得有多快，而是 KV-Cache 能不能被高效加載。

但主流的 PD 分離（Prefill-Decode Disaggregation）推理架構，存在天生缺陷：

Prefill 引擎網(wǎng)卡被占滿長上下文帶來海量 KV-Cache，預填充節(jié)點的存儲網(wǎng)卡長期跑滿，成為 I/O 瓶頸。
Decode 引擎網(wǎng)卡大量閑置解碼側(cè)只負責逐詞生成，存儲帶寬利用率極低，資源嚴重浪費。
負載失衡 + 網(wǎng)絡擁塞單路徑加載 KV-Cache，延遲敏感的生成流量與大數(shù)據(jù)傳輸互相干擾，集群效率上不去。

一句話：GPU 算力再強，也在等數(shù)據(jù)；網(wǎng)卡一邊堵死、一邊空閑。這就是 PD 分離架構繞不開的性能天花板。

這種結構性失衡，使得系統(tǒng)整體吞吐量被預填充引擎“卡死”。理論上可以為預填充引擎擴容帶寬，但在通用集群環(huán)境中，這種擴容成本高昂且難以落地。

因此，DeepSeek 認為，真正可行的優(yōu)化方向不是單點擴容，而是重新設計 KV-Cache 的加載方式，讓所有引擎的 I/O 帶寬都被利用起來。

此前已有研究嘗試緩解 KV-Cache 加載瓶頸。

例如，有方案將 KV-Cache 緩存在大規(guī)模分布式 DRAM 池中，并通過親和性調(diào)度提升命中率。但這種方式對內(nèi)存資源依賴極高，在強化學習推演等內(nèi)存緊張場景下難以使用；而在在線服務這種工作集巨大的場景中，使用 DRAM 替代 SSD 成本過高。

也有研究嘗試通過壓縮或減少檢索數(shù)據(jù)量來降低加載開銷，但這些方法都沒有解決一個核心問題：不同引擎之間存儲 I/O 負載的不均衡。

DualPath：雙路徑加載

KV-Cache 及技術挑戰(zhàn)

DualPath 通過創(chuàng)新雙路徑 KV-Cache 加載機制，從架構層面突破傳統(tǒng)推理瓶頸。

其核心思想很直接：KV-Cache 的加載不應當只圍繞預填充引擎。

在傳統(tǒng)架構中，KV-Cache 只能從存儲直接加載到預填充引擎。而 DualPath 增加了一條新的路徑——KV-Cache 可以先加載到解碼引擎，再通過高性能 RDMA 網(wǎng)絡轉(zhuǎn)發(fā)到預填充引擎。

于是，系統(tǒng)中出現(xiàn)了兩條加載路徑：

存儲 → 預填充引擎 PE（傳統(tǒng)路徑）
存儲 → 解碼引擎 DE → 預填充引擎 PE（新增路徑）

系統(tǒng)可以根據(jù)實時負載動態(tài)選擇路徑，從而把一部分 I/O 壓力轉(zhuǎn)移到解碼引擎，重新分配網(wǎng)絡帶寬，緩解預填充側(cè)的帶寬瓶頸。

本質(zhì)上，這是一次對“數(shù)據(jù)路徑”的重構，而非單純的硬件堆疊。

搭配全局動態(tài)調(diào)度器，DualPath 可實時均衡預填充引擎與解碼引擎的負載，徹底解決 PD 分離架構下 KV-Cache 讀取負載失衡問題，為智能體長上下文、多輪交互推理提供底層算力支撐，也為即將到來的 DeepSeek V4 系列奠定關鍵技術底座。

不過，引入雙路徑并不簡單。DeepSeek 在論文中指出了兩個關鍵挑戰(zhàn)：

第一，新增路徑會引入更復雜的網(wǎng)絡流量模式。如果管理不當，可能干擾模型執(zhí)行中對延遲敏感的通信操作，反而拉低整體性能。

第二，在真實生產(chǎn)環(huán)境中，工作負載是動態(tài)且異構的。系統(tǒng)必須實時決定采用哪條加載路徑，同時保證 GPU 和網(wǎng)卡資源都處于均衡狀態(tài)。

為此，DualPath 引入了三項關鍵設計：

優(yōu)化的數(shù)據(jù)路徑設計，確保在常見的預填充 / 解碼比例下不會產(chǎn)生天然擁塞；
以計算網(wǎng)卡為核心的流量管理機制，將 KV-Cache 傳輸流量與對延遲敏感的模型推理通信隔離；
動態(tài)調(diào)度策略，實現(xiàn)預填充與解碼引擎之間計算與網(wǎng)絡資源的聯(lián)合負載均衡。

系統(tǒng)實現(xiàn)

DualPath 基于自研推理框架實現(xiàn)，CUDA 內(nèi)核整合了 FlashMLA、DeepGEMM 和 DeepEP，與當前主流的開源框架對齊；DualPath 在該框架上的修改量約為 5000 行代碼。系統(tǒng)采用 3FS 作為分布式存儲，并使用類 io_uring 的接口實現(xiàn)內(nèi)核旁路，提升存儲訪問效率。

為了驗證架構本身的效果，實驗環(huán)境采用了高規(guī)格 GPU 集群：

每臺服務器：8 張英偉達 Hopper GPU + 雙 CPU；
每節(jié)點：8 張 400 Gbps RDMA 網(wǎng)卡（計算網(wǎng)絡）；
另配 1 張連接 3FS 的存儲網(wǎng)卡；
計算網(wǎng)絡與存儲網(wǎng)絡物理隔離；
集群級 3FS 不設 DRAM 緩存，可跑滿 400Gbps 存儲帶寬。

這種配置的目的很明確：排除網(wǎng)絡瓶頸和緩存干擾，把性能差異集中到 KV-Cache 加載路徑本身。

實驗選取三類模型，覆蓋不同規(guī)模和架構：

DeepSeek V3.2 660B（MoE 架構）
其 27B 降尺度版本（內(nèi)部實驗模型）
Qwen Qwen2.5-32B（GQA 稠密模型）

前兩者代表大規(guī)模稀疏 MoE 模型，后者為典型稠密模型。測試目標是驗證 DualPath 是否對不同架構都有效。

離線場景模擬強化學習訓練中的推演階段：多個智能體同時運行，統(tǒng)計全部任務完成所需時間（JCT）。結論很直接：

批次越大、上下文越長，DualPath 優(yōu)勢越明顯；
在部分大規(guī)模配置下，基于 SGLang + Mooncake 的系統(tǒng)甚至無法穩(wěn)定完成任務；
在 660B 模型上，DualPath 相比原始框架最高將作業(yè)完成時間縮短至 1/1.87，接近“零 I/O 開銷”的理論上限（Oracle）
27B 與 Qwen 32B 也呈現(xiàn)類似趨勢。

這說明，在長上下文智能體場景中，瓶頸確實集中在 KV-Cache 的 I/O。

此外，實驗還刻意放大每輪的追加 token 或生成 token 長度。結果顯示：

當追加長度增加（即 GPU 計算變重），原始框架性能逐漸逼近 DualPath；
當生成長度增加（預填充頻率下降），I/O 壓力減輕，性能差距縮小。

這說明：當 GPU 計算成為瓶頸時，DualPath 不會額外拖慢系統(tǒng)；而當 I/O 成為瓶頸時，DualPath 優(yōu)勢顯著。

在不同追加比例下，DualPath 對原系統(tǒng)的加速比在 1.82–1.99 倍之間。

論文測試了 1P1D、2P1D、1P2D 等多種配置（P= 預填充節(jié)點，D= 解碼節(jié)點）。關鍵觀察：

原始系統(tǒng)只能利用預填充節(jié)點的存儲帶寬；
DualPath 可以利用所有節(jié)點的存儲帶寬；
在所有比例下，DualPath 都顯著優(yōu)于原系統(tǒng)；
平均加速比達 1.64 倍，最高 2.46 倍。

這從系統(tǒng)層面驗證了論文的核心論點：在智能體負載下，存儲帶寬才是主導瓶頸，而不是算力。

從實驗結果可以抽象出一個更宏觀的判斷：在長上下文智能體負載下，模型算力已經(jīng)不是決定性因素。真正限制吞吐的，是 KV-Cache 的加載路徑，以及存儲帶寬在不同引擎間的分配方式。

DualPath 并沒有減少 KV-Cache 數(shù)據(jù)量，也沒有壓縮數(shù)據(jù)，而是通過重構加載路徑，讓所有節(jié)點參與 I/O 分擔。本質(zhì)上，這是一次系統(tǒng)資源再分配，而不是算力擴張。

性能瓶頸正從“算得快”

轉(zhuǎn)向“數(shù)據(jù)調(diào)度得好”

在外界仍在討論模型能力與參數(shù)規(guī)模時，圍繞DeepSeek的兩條線索正在交匯：一邊是被曝提前向華為等國內(nèi)芯片廠商開放新一代模型適配權限；另一邊，是其最新論文提出的推理系統(tǒng)架構 DualPath——一套針對智能體長上下文場景重構 KV-Cache 加載路徑的系統(tǒng)設計。

如果兩者放在一起看，問題就不再只是“模型升級”，而是一次從硬件協(xié)同到系統(tǒng)架構層面的整體調(diào)整。

據(jù)知情人士透露，DeepSeek 已為包括華為技術在內(nèi)的國內(nèi)供應商預留數(shù)周時間，對即將推出的 DeepSeek V4 進行軟件適配與性能優(yōu)化。這一做法打破了行業(yè)慣例。通常，大型模型在正式發(fā)布前會向英偉達、AMD 等頭部芯片廠商提供預覽版本，以便在 CUDA、驅(qū)動和通信棧層面完成針對性優(yōu)化，從而確保模型在主流 GPU 上獲得最佳性能。

此前 DeepSeek 也曾與英偉達技術團隊保持合作。因此，如果上述消息屬實，這意味著其硬件協(xié)同策略正在發(fā)生變化。

但目前相關說法尚未得到官方確認。

與此同時，另一條消息顯示，DeepSeek V4 Lite（代號“sealion-lite”）正在密集測試階段。已披露的信息包括：支持 100 萬 tokens 的上下文窗口，采用原生多模態(tài)架構，并在效果上顯著優(yōu)于當前網(wǎng)頁端與 App 端模型。至少已有一家推理服務商獲得訪問權限，但簽署了嚴格的保密協(xié)議。百萬級上下文長度本身就是一個關鍵信號——它意味著 KV-Cache 規(guī)模將大幅膨脹，模型運行將高度依賴緩存復用與高帶寬數(shù)據(jù)調(diào)度能力。

這恰好與 DeepSeek 在論文中提出的 DualPath 架構形成呼應。DualPath 的核心思路是增加一條“存儲—解碼—預填充”的加載路徑，使 KV-Cache 可以先加載到解碼節(jié)點，再通過 RDMA 網(wǎng)絡轉(zhuǎn)發(fā)至預填充節(jié)點，從而將存儲帶寬壓力在多個節(jié)點間重新分配。

如果將這一系統(tǒng)級優(yōu)化與 V4 Lite 的百萬上下文能力結合來看，其技術邏輯是連貫的。更長的上下文意味著更大的 KV-Cache；更大的 KV-Cache 意味著更重的 I/O 壓力；而更重的 I/O 壓力，恰恰需要通過類似 DualPath 的帶寬重構機制來化解。在這種架構下，系統(tǒng)性能的決定因素更多取決于整體帶寬調(diào)度能力與節(jié)點協(xié)同效率，而不是單卡算力的絕對領先。

但值得注意的是 DualPath 仍然基于 CUDA 實現(xiàn)，底層依然圍繞 GPU 生態(tài)展開。當性能瓶頸從“算得多快”轉(zhuǎn)向“數(shù)據(jù)調(diào)度得多好”時，不同硬件之間的競爭維度就會發(fā)生變化。算力差距仍然重要，但帶寬組織能力、網(wǎng)絡架構設計以及系統(tǒng)調(diào)度策略，開始成為同等關鍵的變量。

https://arxiv.org/abs/2602.21548

https://jokerwyt.github.io/

聲明：本文為 InfoQ 整理，不代表平臺觀點，未經(jīng)許可禁止轉(zhuǎn)載。

會議推薦

2026，AI 正在以更工程化的方式深度融入軟件生產(chǎn)，Agentic AI 的探索也將從局部試點邁向體系化工程建設！

QCon 北京 2026 已正式啟動，本屆大會以“Agentic AI 時代的軟件工程重塑”為核心主線，推動技術探索從「AI For What」真正落地到可持續(xù)的「Value From AI」。從前沿技術雷達、架構設計與數(shù)據(jù)底座、效能與成本、產(chǎn)品與交互、可信落地、研發(fā)組織進化六大維度，系統(tǒng)性展開深度探索。開往 2026 的 Agentic AI 專列即將啟程！匯聚頂尖專家實戰(zhàn)分享，把 AI 能力一次夯到位！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.