国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek深夜發(fā)論文,V4前奏來了?聯(lián)手清北破GPU難題,智能體大爆炸

0
分享至


新智元報道

編輯:KingHZ Aeneas

【新智元導(dǎo)讀】一夜之間,AI圈再次地震!這次不是DepSeek V4,而是DeepSeek直接換了推理架構(gòu)。GPU空轉(zhuǎn)的問題,被他們硬生生砍掉了一半。

昨天,DeepSeek-V4要來的消息紛紛揚(yáng)揚(yáng),整個AI圈都被攪動得心緒不寧,隔壁的美國同行們都快崩了。

結(jié)果就在昨晚,DeepSeek突然又雙叒叕更新了!他們聯(lián)手北大、清華的團(tuán)隊,發(fā)布了針對智能體的推理框架DualPath。

這個框架的核心目標(biāo),就是緩解因大規(guī)模KV-Cache從外部存儲讀取而帶來的I/O瓶頸問題,避免算力資源因數(shù)據(jù)加載速度受限而被閑置。


鏈接:https://arxiv.org/abs/2602.21548

具體來說,此次架構(gòu)升級引入了「Storage-to-Decode」的第二條加載通路,通過「雙路徑KV-Cache加載」機(jī)制,有效改善了PD分離架構(gòu)下的讀取瓶頸和資源失衡問題。

可以說,這個框架直接劍指多輪AI智能體(agentic)場景下的大語言模型推理性能瓶頸——

以后,DeepSeek+OpenClaw的玩法兒不遠(yuǎn)了!

還是熟悉的味道,DeepSeek在AI基礎(chǔ)設(shè)施上的提升一如既往的出色,如今邁入智能體與強(qiáng)化學(xué)習(xí)時代——

離線推理吞吐量最高提升1.87倍,在線場景下每秒智能體運(yùn)行次數(shù)提升1.96倍。


論文一出,學(xué)界直呼:如此極致的算力管理,如此精準(zhǔn)的調(diào)控,DeepSeek團(tuán)隊是真正的經(jīng)濟(jì)學(xué)大師!

網(wǎng)友直評:這正是贏得AI大戰(zhàn)的關(guān)鍵基礎(chǔ)設(shè)施思維。


可以說,這篇論文充分體現(xiàn)出DeepSeek的野心——把AI做成像水氣電一樣的基礎(chǔ)設(shè)施!


OpenClaw引爆智能體

DeepSeek窺天機(jī)

Claude Code\Cowork、OpenClaw等智能體的爆火,毫無爭議地點燃了Agent黃金時代的開年熱潮!

DeepSeek發(fā)現(xiàn),在智能體推理任務(wù)期間,GPU存在嚴(yán)重的利用率不足問題。

一個Agent任務(wù)有多長?幾十分鐘,有時幾小時。它要寫代碼、查文檔、 跑測試,再回來改代碼。上下文幾百萬token,每一步都要快。

這就帶來了一個巨大的技術(shù)債——KVCache(鍵值緩存)。

KV Cache是什么?一句話,它是AI的草稿紙。

模型每生成一個token,都會把「思考痕跡」存下來;下次繼續(xù)寫,它要翻草稿;草稿越厚,占用顯存越多。

為了讓AI記得上下文,我們必須把這些龐大的數(shù)據(jù)一直存在GPU的顯存(HBM)里。

然而,HBM供不應(yīng)求,死死卡住了AI行業(yè)的脖子。


AI模型推理正演變?yōu)橐粓鰞?nèi)存競賽。

因為AI對HBM需求激增,消費(fèi)級內(nèi)存被停產(chǎn),導(dǎo)致在短短幾個月內(nèi)主流的內(nèi)存DRAM價格漲了7倍!


所以,把不需要立刻用到的記憶暫時挪到便宜的SSD或主內(nèi)存里,下次要用時,再把它搬回來,這成了行業(yè)的出路。

矛盾就在這里爆發(fā)了:傳統(tǒng)的推理架構(gòu)是串行的。

當(dāng)AI需要調(diào)取舊記憶時,計算單元(Compute Unit)必須停下來,眼巴巴地等著數(shù)據(jù)通過帶寬有限的PCIe總線慢慢爬進(jìn)顯存。

DeepSeek的研究指出,在多輪智能體推理(Agentic Inference)的場景下,GPU竟然有大量時間是在「空轉(zhuǎn)」等待數(shù)據(jù)!

他們發(fā)布了一些關(guān)于智能體編碼的真實世界數(shù)據(jù),并定義了一個「緩存-計算比率」指標(biāo):該比例取決于模型類型、上下文和追加長度。

他們從代表性編碼任務(wù)中收集的軌跡顯示,平均交互輪數(shù)為157,表明LLMs傾向于進(jìn)行多輪交互。

平均上下文長度為32.7k,而每次追加長度的平均值僅為429,這意味著KV緩存命中率高達(dá)98.7%。

在此場景下,緩存-計算比(定義為KV緩存加載量與所需計算量之比)對于DeepSeek-V3.2約為22GB/PFLOP。


由于每個節(jié)點上單塊存儲網(wǎng)卡的帶寬有限,KV緩存加載速度成為了瓶頸。


近年來,網(wǎng)絡(luò)帶寬和HBM容量的增長落后于GPU FLOPS的增長,I/O計算比率下降了14.4倍。

此外,較小的HBM容量限制了GPU內(nèi)核可同時計算的token批次大小,阻礙了張量核心等計算單元被充分利用。

第三,現(xiàn)有的LLM推理系統(tǒng)在不同引擎類型之間表現(xiàn)出嚴(yán)重的存儲網(wǎng)絡(luò)利用率不均衡。

DeepSeek的黑科技:DualPath

DeepSeek的DualPath架構(gòu),做了一件聽起來簡單、實現(xiàn)起來卻極具顛覆性的事:它把「思考」和「回憶」這兩件事,從串行變成了并行。

在計算機(jī)科學(xué)中,這被稱為「計算與存儲訪問的解耦」(Decoupling Compute and Memory Access)。

讓我們換個通俗的比喻。

傳統(tǒng)架構(gòu)是串行的:先把數(shù)據(jù)讀進(jìn)顯存,讀完后,GPU才開始算。像下載電影,必須等100%,才能播放。

而DualPath做了一件事:邊下載,邊播放。

SemiAnalysis的技術(shù)團(tuán)隊成員、高級工程師Jordan Nanos認(rèn)為:

DeepSeek在DualPath 論文中提出了一個超酷的點子!


在目前流行的預(yù)填充-解碼分離系統(tǒng)中,命中token的KV緩存完全由預(yù)填充引擎直接從遠(yuǎn)程存儲加載。這種設(shè)計將所有存儲I/O壓力集中在預(yù)填充端的網(wǎng)卡上,而解碼引擎端的網(wǎng)卡則基本處于空閑狀態(tài)。

因此,無法充分利用聚合的存儲網(wǎng)絡(luò)帶寬。

DeepSeek則另辟蹊徑:

與其直接從本地NVMe(或 DRAM)將所有KV加載到 GPU 上并受限于本地PCIe總線帶寬,不如先將KV暫存到解碼 GPU服務(wù)器的DRAM 中,再通過GDRDMA將KV傳輸至預(yù)填充(prefill)GPU。


DeepSeek設(shè)計了兩條獨立的流水線:

  1. 存儲路徑(Access Path):負(fù)責(zé)瘋狂地從SSD/DRAM中搬運(yùn)KV Cache數(shù)據(jù)塊。

  2. 計算路徑(Compute Path):負(fù)責(zé)利用已經(jīng)搬運(yùn)好的數(shù)據(jù)塊立刻開始計算。


他們將Prefill GPU定義為PE(Prefill Engines,預(yù)填充引擎),Decode同理;而SNIC表示存儲網(wǎng)卡,CNIC表示計算型網(wǎng)卡

就像你看網(wǎng)劇一樣,不需要等電影下完,只要緩沖好前5秒,你就可以開始看了。

后臺的下載和前臺的播放同時進(jìn)行,互不干擾。


Inter-Engine PE調(diào)度示意圖。八張GPU均屬于同一個PE引擎組,調(diào)度器會從中選擇最優(yōu)的一個(或一組)進(jìn)行調(diào)度


Intra-Engine Schedule示意圖。左:基于計算配額的批次選擇。右:應(yīng)用計算配額前后的 GPU 時間線對比

在技術(shù)實現(xiàn)上,DualPath利用了Chunk-based Streaming(塊式流處理)技術(shù),將龐大的KV Cache切分成一個個小塊。


當(dāng)計算單元在處理「第N塊」記憶時,存儲單元已經(jīng)悄悄地把「第N+1塊」預(yù)加載好了。


DRAM緩沖區(qū)(PE緩沖區(qū)和DE緩沖區(qū))用于從層塊構(gòu)建完整塊

具體而言,DeepSeek的GPU顯存只需容納單層的KV向量即可處理一個請求,內(nèi)部是這樣進(jìn)行推理的:

你發(fā)送一個請求(并緩存命中了一堆token),在推理過程中,當(dāng)執(zhí)行LLM的一層時:下一層的KV向量從CPU加載,以滑動窗口的方式從磁盤加載之后那一層的KV。

而且,該架構(gòu)專為適配其基礎(chǔ)設(shè)施而設(shè)計。

他們分析網(wǎng)絡(luò)接口卡(NIC)與DRAM帶寬,以找出實際可行的Prefill:Decode配置范圍。


P表示預(yù)填充節(jié)點數(shù);D表示解碼節(jié)點;g表示每個節(jié)點的GPU數(shù)量;B表示網(wǎng)卡的帶寬;s表示每臺機(jī)器的存儲網(wǎng)卡數(shù)量;M表示每臺機(jī)器的DRAM帶寬

最佳結(jié)果是所有P:D從1:7到7:2。

效果驚人:近2倍效果提升!

在標(biāo)準(zhǔn)的代理推理基準(zhǔn)測試中,DualPath將系統(tǒng)的吞吐量直接提升了1.96倍。


請注意,這不是10%或20%的微調(diào),而是近乎200%的性能暴漲。

在半導(dǎo)體日益逼近物理極限的今天,純軟件架構(gòu)的優(yōu)化能帶來這種幅度的提升,堪稱神跡。

這意味著,同樣的硬件成本,Agent的反應(yīng)速度快了一倍;或者說,維持同樣的體驗,推理成本腰斬。

他們使用一個智能體軌跡數(shù)據(jù)集,對DeepSeek V3.2的660B和27B版本以及Qwen 2.5-32B進(jìn)行了評估。


并在其推理框架中對比啟用與未啟用DualPath的性能,以及與SGLang(帶HiCache和Mooncake)的對比。


基本上,DualPath能帶來近2倍的性能提升;下圖灰色條代表理論上限;JCT是離線場景(即強(qiáng)化學(xué)習(xí)rollout)下的作業(yè)完成時間。

結(jié)果顯示,在在更大的批大小和更長的MAL下,DualPath的優(yōu)勢更加明顯。圖 7 展示了不同批大小和MAL配置下的JCT。

在DS 660B上,DualPath相比Basic最高可實現(xiàn)1.87×的加速,并且性能接近 Oracle,表明KV-cache的I/O開銷基本被消除。


在DS 27B上,DualPath相比Basic最高提升1.78×,但由于1P1D配置下存儲帶寬受限(見圖8),其性能仍比Oracle慢 1.09–1.85×。


當(dāng)追加token和生成token較短時,DualPath的優(yōu)勢更加明顯。

如圖9所示,隨著追加長度增加,Basic的性能逐漸接近DualPath和Oracle。

與Basic相比,在不同追加比例下,DualPath實現(xiàn)了1.82–1.99×的加速。


此外,如圖8所示,DualPath在所有配置下平均實現(xiàn)1.64倍的加速(最高可達(dá)2.46倍)。

這進(jìn)一步驗證了:在智能體場景中,存儲帶寬是主要瓶頸。

他們還調(diào)整了預(yù)填充與解碼(P:D)的比例,分別為1:2,1:1,2:1,看起來差別并不大,在這三種場景下性能大約提升了2倍。

對于在線服務(wù)來說,似乎在更大模型上性能提升更顯著:


APS表示每秒代理到達(dá)率;有SLO限制:TTFT<4秒,TPOT<50毫秒;用InferenceX的術(shù)語來說,交互性表示1/TPOT;所以50毫秒的TPOT等于每位用戶每秒20個token

團(tuán)隊還進(jìn)行了消融研究,以將TTFT的改進(jìn)和JCT歸因于所采用的不同技術(shù)。

第一張圖是在不同APS下的堆疊柱狀圖,左側(cè)為使用DualPath的情況,右側(cè)為未使用的情況。時間按百分比分配給:

Sch.表示調(diào)度

A.表示分配

R.表示讀取KV緩存

PF.表示預(yù)填充

因此你可以看到分配所花費(fèi)的時間消失了,prefill所花費(fèi)的時間減少了,而(相對而言)讀取KV和調(diào)度所花費(fèi)的時間增加了


第二張圖逐次加入三種技術(shù)時,對JCT的對比的總性能提升:

  • 分層預(yù)填充(layerwise prefill)占45%

  • 雙路徑加載貢獻(xiàn)了39%

  • 而調(diào)度算法負(fù)責(zé)最后的16%


當(dāng)這三種技術(shù)全部應(yīng)用時,總體性能提升使得平均作業(yè)完成時間(JCT)加快了45%。

他們最后提到,其系統(tǒng)在由1,152塊GPU組成的集群上支持4.8萬個并發(fā)智能體,配置為48P:96D。

這是從2P:4D上的2000個智能體線性擴(kuò)展而來的;還測試了44P:88D,也觀察到了同樣的線性擴(kuò)展。


一個有意義的限制在于未考慮工具調(diào)用的延遲。

如果智能體在工具調(diào)用期間處于空閑狀態(tài),理論上你可以提高APS(并發(fā)數(shù))

但這也會導(dǎo)致工作集(KV緩存的大?。┏势椒郊壴鲩L,由于命中率降低,進(jìn)一步加大了對DRAM和存儲的壓力

也讓人質(zhì)疑他們早前提出的緩存-計算比率,很可能會提高GB:PFLOPs表中的GB數(shù)值(再次附上截圖)


從「算力為王」到「帶寬決勝」

DualPath的誕生,不僅僅是一個技術(shù)優(yōu)化,它是一個信號。它宣告了Pre-filling(預(yù)填充)時代的終結(jié),和Agentic Serving(智能體式服務(wù))時代的正式確立。

在過去,我們迷信算力。仿佛只要堆足夠多的H100、B200,AI就會無限變強(qiáng)。

但DeepSeek用DualPath狠狠地打醒了行業(yè):當(dāng)參數(shù)量不再是瓶頸,IO(輸入輸出)才是阿喀琉斯之踵。

實際上,DeepSeek就是在構(gòu)建AGI的高效「海馬體」。

通過徹底榨干PCIe 6.0/7.0的帶寬,通過極致的軟硬件協(xié)同,DeepSeek正在把AI從「在線計算」的束縛中解放出來。

如今,我們離真正的AGI,又近了一步。

參考資料:

https://arxiv.org/pdf/2602.21548

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
特朗普呼吁伊朗政權(quán)更迭

特朗普呼吁伊朗政權(quán)更迭

界面新聞
2026-02-28 15:47:47
伊朗伊通社網(wǎng)站恢復(fù)正常運(yùn)行

伊朗伊通社網(wǎng)站恢復(fù)正常運(yùn)行

環(huán)球網(wǎng)資訊
2026-02-28 16:07:07
網(wǎng)傳Anthropic CEO搭私人飛機(jī)飛往上海浦東

網(wǎng)傳Anthropic CEO搭私人飛機(jī)飛往上海浦東

爆角追蹤
2026-02-28 14:44:54
伊朗革命衛(wèi)隊指揮部:未來數(shù)小時內(nèi)將對領(lǐng)土遇襲作出回應(yīng)

伊朗革命衛(wèi)隊指揮部:未來數(shù)小時內(nèi)將對領(lǐng)土遇襲作出回應(yīng)

參考消息
2026-02-28 17:39:04
特朗普:美國正在“大規(guī)?!贝驌粢晾?消息人士:伊朗遇難者身份將令人震驚

特朗普:美國正在“大規(guī)?!贝驌粢晾?消息人士:伊朗遇難者身份將令人震驚

環(huán)球網(wǎng)資訊
2026-02-28 16:16:05
請假2小時被開除續(xù)!老板態(tài)度強(qiáng)硬發(fā)聲,當(dāng)事人曝更多,官方介入

請假2小時被開除續(xù)!老板態(tài)度強(qiáng)硬發(fā)聲,當(dāng)事人曝更多,官方介入

離離言幾許
2026-02-27 23:55:40
突發(fā)利空!以色列開打伊朗 中國資產(chǎn)等跳水大跌,下周A股要涼涼了?

突發(fā)利空!以色列開打伊朗 中國資產(chǎn)等跳水大跌,下周A股要涼涼了?

股市皆大事
2026-02-28 16:03:03
美媒:內(nèi)塔尼亞胡發(fā)表視頻講話,感謝特朗普

美媒:內(nèi)塔尼亞胡發(fā)表視頻講話,感謝特朗普

參考消息
2026-02-28 17:39:04
緊急提醒:千萬別幫這個忙!知名主持人:目睹同伴差點被騙了!

緊急提醒:千萬別幫這個忙!知名主持人:目睹同伴差點被騙了!

佛山電視臺小強(qiáng)熱線
2026-02-27 18:56:20
直線跳水!中東,突發(fā)!以色列對伊朗發(fā)動打擊

直線跳水!中東,突發(fā)!以色列對伊朗發(fā)動打擊

證券時報e公司
2026-02-28 14:50:56
金融圈突發(fā)!涉嫌嚴(yán)重違紀(jì)違法,金春花被查

金融圈突發(fā)!涉嫌嚴(yán)重違紀(jì)違法,金春花被查

中國基金報
2026-02-28 17:17:02
阿聯(lián)酋攔截伊朗導(dǎo)彈1人死亡

阿聯(lián)酋攔截伊朗導(dǎo)彈1人死亡

財聯(lián)社
2026-02-28 18:00:11
蘇聯(lián)“人猿雜交”實驗:5名女孩與11只猩猩參與,最終結(jié)局如何?

蘇聯(lián)“人猿雜交”實驗:5名女孩與11只猩猩參與,最終結(jié)局如何?

談史論天地
2026-02-28 13:35:18
新加坡大滿貫:女單最強(qiáng)黑馬誕生!王藝迪2-4止步8強(qiáng)不敗金身告破

新加坡大滿貫:女單最強(qiáng)黑馬誕生!王藝迪2-4止步8強(qiáng)不敗金身告破

釘釘陌上花開
2026-02-28 15:08:34
俄軍已經(jīng)動了,中國幫不幫伊朗?中方三句話,沒一句是美國想聽的

俄軍已經(jīng)動了,中國幫不幫伊朗?中方三句話,沒一句是美國想聽的

墨蘭史書
2026-02-27 18:42:48
伊朗一學(xué)校遭以色列襲擊,造成5名學(xué)生死亡

伊朗一學(xué)校遭以色列襲擊,造成5名學(xué)生死亡

界面新聞
2026-02-28 18:17:14
以色列突然襲擊伊朗,不是強(qiáng)拉美國上車,而是為特朗普緩解壓力

以色列突然襲擊伊朗,不是強(qiáng)拉美國上車,而是為特朗普緩解壓力

以辛德之名
2026-02-28 15:29:13
“大力神”軍機(jī)墜毀 已致15人死亡 天空下鈔票雨 民眾瘋搶!

“大力神”軍機(jī)墜毀 已致15人死亡 天空下鈔票雨 民眾瘋搶!

每日經(jīng)濟(jì)新聞
2026-02-28 14:37:58
周扒皮都怕!女兒替父請假2小時遭辭退,店已關(guān)門,老板底褲被扒

周扒皮都怕!女兒替父請假2小時遭辭退,店已關(guān)門,老板底褲被扒

火山詩話
2026-02-28 06:38:05
太扎心了!火化名單全是40到50歲中年男性,一殯儀館大廳信息流出

太扎心了!火化名單全是40到50歲中年男性,一殯儀館大廳信息流出

火山詩話
2026-02-28 07:08:55
2026-02-28 18:47:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14612文章數(shù) 66648關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

以色列先發(fā)制人 8個月后伊美以再次引燃中東

頭條要聞

以色列先發(fā)制人 8個月后伊美以再次引燃中東

體育要聞

球隊主力全報銷?頂風(fēng)擺爛演都不演了

娛樂要聞

疑似王一博被爆私密聊天記錄

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

教育
旅游
時尚
本地
公開課

教育要聞

為什么說“聽話的孩子是好孩子”這句話問題很大?

旅游要聞

來踏春!第四屆南沙櫻花節(jié)3月中旬啟幕

被章若楠、秦嵐帶火的鞋子竟然是它?春天這樣穿又美又氣質(zhì)!

本地新聞

津南好·四時總相宜

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版