国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek硬核突破!DualPath破解Agent推理瓶頸,V4升級(jí)方向清晰了

0
分享至

大模型的進(jìn)化正迎來關(guān)鍵拐點(diǎn)。

從單輪對(duì)話的聊天機(jī)器人,快速迭代為能自主規(guī)劃、調(diào)用工具、完成百輪交互的Agent智能體,而這一轉(zhuǎn)變也讓底層推理架構(gòu)的核心瓶頸徹底暴露——GPU算力不再是制約性能的關(guān)鍵,KV-Cache存儲(chǔ)I/O帶寬成為了Agent大模型落地的最大攔路虎。


就在DeepSeek V4發(fā)布前夕,DeepSeek-AI聯(lián)合北大、清華團(tuán)隊(duì)發(fā)布了重磅研究DualPath。

DualPath通過創(chuàng)新的雙路徑架構(gòu),讓Agentic大模型離線推理吞吐量最高提升1.87倍,在線服務(wù)吞吐量平均提升1.96倍,還在1152張GPU的千卡集群完成驗(yàn)證,為下一代模型的升級(jí)打下了堅(jiān)實(shí)的技術(shù)基礎(chǔ)。


之所以會(huì)出現(xiàn)如此嚴(yán)重的I/O瓶頸,核心源于Agent大模型的工作特性。


與傳統(tǒng)短對(duì)話不同,Agent需要在數(shù)十甚至上百輪的環(huán)境交互中累積上下文,長度可達(dá)百萬tokens,而每輪新增的有效信息僅有數(shù)百tokens,這讓KV-Cache命中率普遍超過95%。

此時(shí),GPU的大量時(shí)間并非用于計(jì)算,而是在等待從外部SSD存儲(chǔ)中讀取海量的歷史KV-Cache數(shù)據(jù)。

再加上現(xiàn)代大模型推理普遍采用的Prefill-Decode(預(yù)填充-解碼)分離架構(gòu),進(jìn)一步加劇了這一矛盾,即所有KV-Cache都只能從外部存儲(chǔ)加載到預(yù)填充節(jié)點(diǎn),這導(dǎo)致預(yù)填充節(jié)點(diǎn)的存儲(chǔ)網(wǎng)卡帶寬被完全占滿,成為系統(tǒng)性能的絕對(duì)瓶頸,而解碼節(jié)點(diǎn)的存儲(chǔ)網(wǎng)卡卻長期處于閑置狀態(tài),算力資源被嚴(yán)重浪費(fèi)。


同時(shí),硬件發(fā)展的失衡也讓問題雪上加霜,GPU計(jì)算力的增長速度遠(yuǎn)超網(wǎng)絡(luò)帶寬和顯存容量,計(jì)算與I/O的比例嚴(yán)重失調(diào),讓這一瓶頸愈發(fā)突出。


DualPath的核心創(chuàng)新,正是抓住了解碼節(jié)點(diǎn)帶寬閑置的關(guān)鍵痛點(diǎn),重構(gòu)了KV-Cache的加載架構(gòu)。

在傳統(tǒng)的“存儲(chǔ)→預(yù)填充節(jié)點(diǎn)”加載路徑之外,它創(chuàng)新性地開辟了第二條“存儲(chǔ)→解碼節(jié)點(diǎn)→預(yù)填充節(jié)點(diǎn)”的加載通道,通過動(dòng)態(tài)分配兩條路徑的數(shù)據(jù)流,把原本單一節(jié)點(diǎn)的I/O壓力,轉(zhuǎn)化為全局資源池化的負(fù)載分擔(dān),充分聚合所有節(jié)點(diǎn)的存儲(chǔ)帶寬,從根源上打破了帶寬天花板。


在第一條預(yù)填充讀取路徑中,KV-Cache從持久化存儲(chǔ)讀入預(yù)填充節(jié)點(diǎn)的內(nèi)存緩沖,再傳輸?shù)紾PU顯存完成計(jì)算,最后將完整的KV-Cache傳給解碼節(jié)點(diǎn)。

而新增的解碼讀取路徑,則讓KV-Cache先讀入解碼節(jié)點(diǎn)的內(nèi)存緩沖,在預(yù)填充階段通過高速RDMA計(jì)算網(wǎng)絡(luò),以層級(jí)流式傳輸?shù)姆绞絺鹘o預(yù)填充節(jié)點(diǎn)參與計(jì)算,整個(gè)過程中數(shù)據(jù)加載還能與模型計(jì)算無縫重疊,進(jìn)一步提升效率。

當(dāng)然,把這個(gè)看似直觀的想法,落地到亞毫秒級(jí)延遲敏感的大模型推理系統(tǒng)中,需要攻克兩大核心工程難題。

第一個(gè)難題是網(wǎng)絡(luò)流量的干擾,額外的KV-Cache傳輸極易與模型推理中的關(guān)鍵集合通信沖突,拖慢推理速度。

對(duì)此DualPath設(shè)計(jì)了以計(jì)算網(wǎng)卡為中心的流量管理機(jī)制,讓所有進(jìn)出GPU的流量都強(qiáng)制通過計(jì)算網(wǎng)卡,再利用底層網(wǎng)絡(luò)的QoS控制能力,將模型推理通信分配到占99%帶寬的高優(yōu)先級(jí)通道,KV-Cache傳輸則分配到低優(yōu)先級(jí)通道,僅在計(jì)算網(wǎng)絡(luò)的空閑間隙傳輸,實(shí)現(xiàn)了兩者的完美隔離,既保證了推理延遲,又充分利用了閑置帶寬。

第二個(gè)難題是動(dòng)態(tài)負(fù)載均衡,面對(duì)復(fù)雜多變的請(qǐng)求,系統(tǒng)需要實(shí)時(shí)決定每條請(qǐng)求的讀取路徑,同時(shí)兼顧網(wǎng)卡隊(duì)列長度和GPU負(fù)載。


DualPath為此打造了自適應(yīng)請(qǐng)求調(diào)度器,將Token數(shù)量作為核心負(fù)載指標(biāo),把節(jié)點(diǎn)劃分為過載、低讀取隊(duì)列、高讀取隊(duì)列三類,優(yōu)先將任務(wù)分配給未過載且讀取隊(duì)列較短的節(jié)點(diǎn)。

同時(shí)在節(jié)點(diǎn)內(nèi)部,還會(huì)基于時(shí)間預(yù)估機(jī)制,將執(zhí)行時(shí)間相近的請(qǐng)求打包成批,最大程度減少GPU同步時(shí)的計(jì)算氣泡,讓硬件利用率達(dá)到最優(yōu)。


實(shí)測(cè)數(shù)據(jù)足以印證DualPath的強(qiáng)悍性能。

研究團(tuán)隊(duì)在NVIDIA Hopper GPU集群上,基于DeepSeek-V3.2 660B、DS 27B、Qwen2.5-32B三大模型,結(jié)合真實(shí)的Agent強(qiáng)化學(xué)習(xí)軌跡數(shù)據(jù)集完成了全面測(cè)試。

在離線批量推理場(chǎng)景(如RL訓(xùn)練的Rollout階段),DualPath對(duì)基線系統(tǒng)實(shí)現(xiàn)了碾壓式超越,處理DeepSeek 660B模型時(shí)吞吐量最高提升1.87倍,且無論每輪追加Token長度、生成長度如何變化,都能保持穩(wěn)定的性能提升,證明其徹底消除了存儲(chǔ)網(wǎng)絡(luò)瓶頸。


在在線服務(wù)場(chǎng)景中,在首字延遲≤4秒的嚴(yán)格SLO約束下,DualPath能支撐的請(qǐng)求到達(dá)率相比基線最高提升2.25倍,還能保持極低的端到端生成延遲。


而消融實(shí)驗(yàn)也證實(shí),雙路徑加載機(jī)制和自適應(yīng)調(diào)度算法,是推動(dòng)性能大幅提升的核心關(guān)鍵。

更值得一提的是,DualPath還具備極強(qiáng)的大規(guī)模擴(kuò)展性,在1152張GPU的千卡集群中,系統(tǒng)實(shí)現(xiàn)了近乎線性的性能擴(kuò)展,調(diào)度器CPU占用還不到10個(gè)核心,完全滿足生產(chǎn)級(jí)的部署需求。


從DualPath的技術(shù)突破中,我們也能清晰看到DeepSeek V4的核心升級(jí)方向。

首先,模型與推理系統(tǒng)的協(xié)同優(yōu)化將進(jìn)一步深化,V4大概率會(huì)內(nèi)置對(duì)雙路徑加載的原生支持,讓模型層的KV-Cache結(jié)構(gòu)優(yōu)化與系統(tǒng)層的路徑調(diào)度深度融合,實(shí)現(xiàn)更高的帶寬利用率。

其次,自適應(yīng)資源配置能力會(huì)成為重點(diǎn),針對(duì)不同的工作負(fù)載,系統(tǒng)能在線動(dòng)態(tài)調(diào)整預(yù)填充/解碼節(jié)點(diǎn)的比例,讓資源分配更貼合實(shí)際需求,避免固定配置的效率浪費(fèi)。

同時(shí),KV-Cache的智能拆分加載也有望落地,將單個(gè)請(qǐng)求的KV-Cache拆分到兩條路徑并行加載,進(jìn)一步挖掘I/O性能潛力。

此外,結(jié)合DeepSeek已有的稀疏注意力技術(shù),V4還可能將模型結(jié)構(gòu)優(yōu)化與DualPath的系統(tǒng)優(yōu)化結(jié)合,在降低計(jì)算量的同時(shí)減少KV-Cache數(shù)據(jù)量,形成“模型+系統(tǒng)”的雙輪驅(qū)動(dòng)。

此次DualPath的發(fā)布,不僅為Agentic大模型的推理性能突破提供了全新的解決方案,更讓行業(yè)看到了大模型發(fā)展的新趨勢(shì)。

當(dāng)模型規(guī)模接近物理極限時(shí),底層架構(gòu)的創(chuàng)新與模型算法的深度協(xié)同,將成為突破性能天花板的核心關(guān)鍵。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
突發(fā)訃告!蔣彥強(qiáng)不幸離世,年僅40歲

突發(fā)訃告!蔣彥強(qiáng)不幸離世,年僅40歲

南方都市報(bào)
2026-03-27 15:53:39
時(shí)代最令人失望者!加州州長怒批馬斯克:親手將美國電車王冠讓給了中國

時(shí)代最令人失望者!加州州長怒批馬斯克:親手將美國電車王冠讓給了中國

快科技
2026-03-27 14:18:12
蜜雪的零售邊界,不止于一杯杯奶茶、咖啡、或啤酒

蜜雪的零售邊界,不止于一杯杯奶茶、咖啡、或啤酒

晚點(diǎn)LatePost
2026-03-26 18:50:35
全球唯一雙座隱身戰(zhàn)機(jī)!殲-20S跨界作戰(zhàn)有多震撼?專家解析

全球唯一雙座隱身戰(zhàn)機(jī)!殲-20S跨界作戰(zhàn)有多震撼?專家解析

齊魯壹點(diǎn)
2026-03-27 06:56:45
部分娃哈哈宏勝工廠停產(chǎn),有工廠已放假

部分娃哈哈宏勝工廠停產(chǎn),有工廠已放假

界面新聞
2026-03-27 14:59:14
自戰(zhàn)事爆發(fā)以來 伊朗平均每天賣油能多賺1.7億

自戰(zhàn)事爆發(fā)以來 伊朗平均每天賣油能多賺1.7億

財(cái)聯(lián)社
2026-03-27 11:05:06
關(guān)于伊朗的十大虛假敘事——你是如何被網(wǎng)軍欺騙的?

關(guān)于伊朗的十大虛假敘事——你是如何被網(wǎng)軍欺騙的?

楓嶺社
2026-03-27 10:49:09
羅技:“我一降價(jià),你還不是像狗一樣跑過來”

羅技:“我一降價(jià),你還不是像狗一樣跑過來”

電腦吧評(píng)測(cè)室
2026-03-26 22:05:58
感冒三藥、失眠三藥、牙痛三藥......40種常見病的三藥配對(duì)一覽表!

感冒三藥、失眠三藥、牙痛三藥......40種常見病的三藥配對(duì)一覽表!

環(huán)京快爆
2026-03-26 11:13:27
充電9分鐘續(xù)航超千里:全新騰勢(shì)Z9GT開啟閃充時(shí)代

充電9分鐘續(xù)航超千里:全新騰勢(shì)Z9GT開啟閃充時(shí)代

大眾侃車
2026-03-26 18:02:02
張雪峰女兒親自辟謠!父母恩愛沒離婚,回應(yīng)三個(gè)問題,口才很意外

張雪峰女兒親自辟謠!父母恩愛沒離婚,回應(yīng)三個(gè)問題,口才很意外

離離言幾許
2026-03-27 14:42:23
張雪峰去世僅兩天!公司宣布重大決定:收回他所有肖像使用權(quán)

張雪峰去世僅兩天!公司宣布重大決定:收回他所有肖像使用權(quán)

娛樂圈圈圓
2026-03-26 21:47:07
中美俄石油儲(chǔ)量對(duì)比:俄800億桶,美國超700億桶,中國有多少?

中美俄石油儲(chǔ)量對(duì)比:俄800億桶,美國超700億桶,中國有多少?

福建平子
2026-03-27 11:27:57
“咬死”ASML,禁止維修光刻機(jī)只是開始,輪到中國工程師頭疼了!

“咬死”ASML,禁止維修光刻機(jī)只是開始,輪到中國工程師頭疼了!

流史歲月
2026-03-27 12:05:09
一女子在湖南省道縣人民醫(yī)院生產(chǎn)后,與新生兒不幸雙雙離世,多方回應(yīng)

一女子在湖南省道縣人民醫(yī)院生產(chǎn)后,與新生兒不幸雙雙離世,多方回應(yīng)

半島官網(wǎng)
2026-03-27 15:13:26
奇瑞犀牛電池能“抗造”到離譜?切角、穿刺、泡水不爆炸,甚至還能正常供電!

奇瑞犀牛電池能“抗造”到離譜?切角、穿刺、泡水不爆炸,甚至還能正常供電!

極果酷玩
2026-03-27 14:58:30
史上首次:特朗普簽名將印上美元紙幣,打破165年傳統(tǒng)

史上首次:特朗普簽名將印上美元紙幣,打破165年傳統(tǒng)

上觀新聞
2026-03-27 12:58:08
打虎!廣東省政協(xié)副主席郭永航被查

打虎!廣東省政協(xié)副主席郭永航被查

極目新聞
2026-03-27 18:37:06
再婚8年,丈夫老實(shí)憨厚,鄰居卻悄悄提醒:你男人全身都是秘密

再婚8年,丈夫老實(shí)憨厚,鄰居卻悄悄提醒:你男人全身都是秘密

烙任情感
2026-03-26 16:32:02
涉嫌嚴(yán)重違紀(jì)違法,張建生被查

涉嫌嚴(yán)重違紀(jì)違法,張建生被查

都市快報(bào)橙柿互動(dòng)
2026-03-27 14:59:18
2026-03-27 18:59:00
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應(yīng)用精選與評(píng)測(cè)
464文章數(shù) 69關(guān)注度
往期回顧 全部

科技要聞

楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價(jià)

頭條要聞

美方稱在美軍事基地裝爆炸物的男子逃往中國 中方回應(yīng)

頭條要聞

美方稱在美軍事基地裝爆炸物的男子逃往中國 中方回應(yīng)

體育要聞

邵佳一:足球就像一場(chǎng)馬拉松

娛樂要聞

張雪峰靈堂內(nèi)景曝光,四周擺滿了鮮花

財(cái)經(jīng)要聞

我在小吃培訓(xùn)機(jī)構(gòu)學(xué)習(xí)“科技與狠活”

汽車要聞

與眾08,金標(biāo)大眾不能輸?shù)囊粦?zhàn)

態(tài)度原創(chuàng)

藝術(shù)
游戲
本地
親子
公開課

藝術(shù)要聞

張大千:形成于未畫之先,神留于既畫之后

科樂美旗下電競(jìng)學(xué)院新增學(xué)科 培育網(wǎng)絡(luò)直播人材

本地新聞

在濰坊待了三天,沒遇到一個(gè)“濰坊人”

親子要聞

廣東榕城區(qū)教育局通報(bào)幼兒園老師不當(dāng)對(duì)待幼兒

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版