国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

突破顯存瓶頸:基于 DeepSeek-V3.2-Exp 的 Latent Cache 卸載預(yù)取方案設(shè)計與模擬驗證

0
分享至


引 言

DeepSeek-V3.2-Exp 所搭載的稀疏化 Attention 計算,在長上下文場景中成功降低了推理延遲。但在 PD 分離架構(gòu)下,隨著序列長度不斷增長,Decode 階段的吞吐受限問題愈發(fā)凸顯。核心癥結(jié)在于,Decode 過程中 Latent Cache 規(guī)模會隨序列長度呈線性增長,而 GPU 顯存容量有限,這直接導(dǎo)致 Batch Size 難以提升,進(jìn)而抑制了 Decode 階段的吞吐增長。

基于此,本次百度百舸 AIAK 團(tuán)隊研究的核心目標(biāo)是:針對 DeepSeek-V3.2-Exp,通過將 Latent Cache 下放到 CPU 內(nèi)存,在滿足延遲要求的前提下,提升 Decode 吞吐并顯著降低成本。本報告詳細(xì)闡述了我們?yōu)檫_(dá)成該目標(biāo)所開展的系統(tǒng)瓶頸分析,以及最終提出的 Expanded Sparse Server(ESS)方案的設(shè)計與實現(xiàn)。

本文的主要貢獻(xiàn)如下:

  • 系統(tǒng)性評估了 Latent Cache Offload 策略在 DeepSeek-V3.2-Exp 上的可行性與收益邊界。深入剖析了在稀疏化 Attention 框架下引入卸載 Latent Cache 的可行性、瓶頸來源與潛在收益,明確了不同環(huán)境配置與上下文長度條件下的收益上限。

  • 提出 ESS(Expanded Sparse Server)系統(tǒng)方案,以卸載 Latent Cache 為核心實現(xiàn) Decode 吞吐的無損擴(kuò)展。百度百舸推出的 ESS 是一套面向工業(yè)部署的系統(tǒng)化方案,通過解耦 Latent Cache 存儲與計算路徑,實現(xiàn) Decode 階段吞吐的顯著提升。同時,ESS 能與 MTP、Two-Batch Overlap 等主流優(yōu)化策略無縫兼容,可作為現(xiàn)有推理系統(tǒng)的增強(qiáng)組件。

  • 構(gòu)建了高保真模擬器,用于評估多種優(yōu)化策略在真實工業(yè)場景下的性能表現(xiàn)。該模擬器能夠精確建模模型計算、通信延遲以及 Offload-Prefetch 開銷,使開發(fā)者在系統(tǒng)實現(xiàn)前即可獲得可靠的性能預(yù)估,顯著降低工程驗證成本并加速方案迭代。

模擬實驗結(jié)果顯示,在 32K 上下文長度下,當(dāng) MTP 從 2 提升到 4 時,ESS 方案可實現(xiàn)整體 123.4% 的吞吐提升。其中,53.1% 的提升源于 MTP 提升本身,剩余 70.2% 的性能收益則由 ESS 所實現(xiàn)的 Offload-Prefetch 機(jī)制貢獻(xiàn)。

針對超長上下文場景的額外測試結(jié)果表明,在 MTP = 2 且上下文長度為 128K 的條件下,ESS 的 Offload-Prefetch 機(jī)制能直接帶來高達(dá) 123% 的吞吐提升。

問題背景及優(yōu)化動機(jī)

顯存是限制吞吐的主要因素

圖 1 呈現(xiàn)了 32K 上下文下 Batch Size 與 Decode 吞吐的關(guān)系(數(shù)據(jù)由高保真模擬器生成),對應(yīng)的系統(tǒng)配置如表 1 所示。理論上,隨著 Batch Size 增大,吞吐應(yīng)持續(xù)提升,這是因為 Batch Size 與 GEMM 算子的計算強(qiáng)度(Arithmetic Intensity)密切相關(guān) —— 更大的 Batch Size 能顯著提高 MFU,進(jìn)而提升整體算力利用率。


圖 1. 吞吐和 Batch Size 之間的關(guān)系


表 1. 實驗環(huán)境及優(yōu)化選項

但在當(dāng)前配置下,GPU 顯存容量成為關(guān)鍵瓶頸:Batch Size 最多僅能提升至 52,對應(yīng)的吞吐僅為 9647 tokens/s。在此情況下,系統(tǒng)無法進(jìn)一步擴(kuò)大計算批次,導(dǎo)致吞吐遠(yuǎn)低于硬件理論上限。由此可得出結(jié)論:顯存容量是限制 Decode 吞吐擴(kuò)展的主要因素。

這一發(fā)現(xiàn)直接凸顯了 Offload-Prefetch 策略的必要性與價值:通過打破 Latent Cache 與 GPU 顯存的綁定關(guān)系,系統(tǒng)才能突破現(xiàn)有吞吐上限,進(jìn)一步釋放計算潛能。

Latent Cache 的訪問具有時間局部性

為緩解顯存壓力且保證精度不受影響,將部分 Latent Cache 卸載至 CPU 是一種具備實際可行性的優(yōu)化方案。但該方案要實現(xiàn)高效運(yùn)行,需滿足一個關(guān)鍵前提:Latent Cache 的訪問模式應(yīng)具有良好的局部性(Locality)。

只有當(dāng)模型在訪問 Latent Cache 時展現(xiàn)出足夠的重復(fù)性或鄰近性,才能維持較高的緩存命中率;否則,頻繁的跨 PCIe 訪問會使帶寬成為新的瓶頸,從而抵消 Offloading 帶來的收益。

為驗證 DeepSeek-V3.2-Exp 中的 Latent-Cache 是否具備足夠的局部性,我們從兩個維度對其訪問模式進(jìn)行評估:

  • 層間訪問(Inter-layer Access):關(guān)注不同層之間在相鄰生成步驟中對 Latent Cache 訪問的相似程度。

  • 層內(nèi)訪問(Intra-layer Access):關(guān)注同一層在連續(xù)生成步驟中的 Latent Cache 訪問是否穩(wěn)定一致。

我們分別定義了 Inter-Layer Similarity 與 Intra-Layer Similarity 兩個指標(biāo),用于量化上述兩類訪問模式的局部性特征。第 L 層在生成第 t 步時所需的 Top-K 索引集合為 K^{L}_{t}。


公式(1)與公式(2)分別給出了層間相似度與層內(nèi)相似度的數(shù)學(xué)定義。兩個指標(biāo)均基于集合相似度構(gòu)造,用來刻畫訪問需求與 GPU 中已有緩存之間的重合度 —— 重合度越高,說明局部性越強(qiáng),越適合 Offload-Prefetch 策略。

基于 LongBench-v2 數(shù)據(jù)集在 DeepSeek-V3.2-Exp 模型上的實驗結(jié)果(見圖 2 與圖 3),我們觀察到層間與層內(nèi)訪問均呈現(xiàn)出較高的相似度。


圖 2. Inter-Layer Similarity 在不同上下文長度中的統(tǒng)計


圖 3. Intra-Layer Similarity 在不同上下文中的統(tǒng)計

這一現(xiàn)象表明,Latent Cache 的訪問具有良好的局部性特征。因此,將 CPU 內(nèi)存作為 HBM 的擴(kuò)展存儲空間仍是一條可行路徑。盡管已有諸多類似工作探索了 CPU–GPU 協(xié)同存儲,但在結(jié)合 PD 分離架構(gòu)與 SGLang 推理框架時,我們?nèi)悦媾R以下特有挑戰(zhàn):

  • 低效的小塊數(shù)據(jù)拷貝:在 DeepSeek-V3.2-Exp 中,每個 Latent Cache 的大小僅為 656 Byte,且每次訪問的 2048 個 Latent Cache 塊在 Memory Pool 中呈離散分布。這種高度離散的小塊數(shù)據(jù)訪問模式使得 PCIe 難以形成有效的批量傳輸,顯著降低鏈路帶寬利用率,成為 Offload-Prefetch 類方案的主要瓶頸。

  • 大量的 Cache Miss:為提升 Batch Size,需盡可能減少駐留在 GPU 上的 Latent Cache 數(shù)量。但縮小 GPU 側(cè)的 Latent Cache 會提高 Cache Miss 的發(fā)生概率,進(jìn)而增加 H2D(Host-to-Device)傳輸量。由于這些傳輸無法與計算完全重疊,由此引入的數(shù)據(jù)傳輸延遲會導(dǎo)致 Decode 階段的吞吐量低于預(yù)期。

  • 難以隱藏的數(shù)據(jù)傳輸延遲:在 Decode 階段,可用于掩蓋數(shù)據(jù)傳輸延遲的計算量不足,無法將傳輸完全隱藏。當(dāng)大量出現(xiàn) Cache Miss 時,這些傳輸延遲會暴露到關(guān)鍵路徑上,進(jìn)一步降低推理性能。

ESS 方案設(shè)計與分析

如前文所述,卸載–預(yù)取(Offload–Prefetch)是近年來廣泛采用的一類無損優(yōu)化策略,尤其適用于對精度高度敏感的推理場景。因此,我們在設(shè)計方案時同樣以卸載為核心思路。

在 DeepSeek-V3.2-Exp 中,Cache 主要由兩部分構(gòu)成:Indexer Cache 與 Latent Cache。其中,Indexer Cache 用于計算每個 Latent Cache 的重要性,并從中選取最關(guān)鍵的 2048 個 Latent Cache 參與計算。根據(jù)模型架構(gòu)分析,Indexer Cache 需要執(zhí)行全量計算且其占比僅為 16.8%;谶@一事實,我們選擇不對 Indexer Cache 進(jìn)行卸載,僅對 Latent Cache 部分實施 Offload–Prefetch 優(yōu)化。圖 4 總結(jié)了在 PD 分離模式下卸載與預(yù)取的觸發(fā)時機(jī)。

此外,本小節(jié)還圍繞 2.2 小節(jié)中提出的關(guān)鍵挑戰(zhàn)展開針對性分析,并據(jù)此給出相應(yīng)的優(yōu)化設(shè)計。


圖 4. PD 分離場景中,Latent Cache 卸載預(yù)取時機(jī)流程圖

小塊數(shù)據(jù)拷貝

盡管 PCIe 5.0 在單向方向上可提供高達(dá) 64 GB/s 的帶寬,為 Offload–Prefetch 類方案帶來了理論上的可行性,但在現(xiàn)代推理框架(如 SGLang)中,這一帶寬往往難以被充分利用。原因在于 SGLang 采用 PagedAttention 管理 Latent Cache,將其劃分為多個頁面存儲,導(dǎo)致頁面之間在物理地址上不連續(xù)。進(jìn)一步地,DeepSeek-V3.2-Exp 引入了更細(xì)粒度的稀疏化策略,將換入 / 換出的最小單元縮減到單個 Latent Cache 項。這種高度離散的小塊數(shù)據(jù)訪問模式會將大帶寬鏈路切割成大量碎片化事務(wù),從而顯著降低實際可用帶寬。

在 Offload–Prefetch 類方案中,Latent Cache 會發(fā)生頻繁的卸載和預(yù)取操作,而 PCIe 帶寬則決定了這一操作的效率。同時考慮到 Latent Cache 屬于小尺寸 Cache,每個 block 為 656 字節(jié)。經(jīng)測試,cudaMemcpyAsync 在這種場景中,H2D 和 D2H 的實際帶寬分別僅為 0.79GB/s 和 0.23G/s。

FlashTrans

為緩解這一問題,我們在系統(tǒng)設(shè)計中引入了 UVA,使 GPU 能夠直接訪問 CPU 端的 pinned memory,從而減少經(jīng)由 PCIe 進(jìn)行小塊數(shù)據(jù)傳輸時的管理開銷; UVA,我們設(shè)計了 FlashTrans CUDA 算子,其通過地址驅(qū)動的按需傳輸機(jī)制,避免了頻繁調(diào)用 cudaMemcpyAsync 所帶來的調(diào)度開銷。FlashTrans 在細(xì)粒度、非連續(xù)的 Latent Cache 訪問模式下顯著提升了有效帶寬,使得 Offload–Prefetch 在 DeepSeek-V3.2-Exp 中得以切實落地。

經(jīng)測試,F(xiàn)lashTrans 在 H2D 和 D2H 的性能分別為 37GB/s 和 43GB/s。為確保有效帶寬,對 Latent Cache 的卸載和預(yù)取,我們均使用 FlashTrans 進(jìn)行。

緩存命中保證

較高的緩存命中率能夠顯著降低數(shù)據(jù)傳輸量。為此,ESS 首先基于 LRU 算法構(gòu)建換入換出引擎,對推理過程中的 Cache Miss 行為進(jìn)行了系統(tǒng)性分析。除此之外,我們還提出 LRU-Warmup 用于保障推理初期的低 Cache Miss。

LRU-Warmup

GPU 端 Sparse Memory Pool 的初始狀態(tài)對生成早期的性能影響顯著。如圖 5 所示,生成初期會出現(xiàn)大量 Cache Miss,但隨著 Decode 的推進(jìn),該現(xiàn)象會快速收斂。


圖 5. Decode 初期 Cache Miss 嚴(yán)重 MTP=1,Sparse Memory Ratio=0.2

為降低這一初始階段的額外開銷,我們對 LRU Recording 進(jìn)行預(yù)熱(LRU- Warmup)。具體而言,我們利用 Prefill 階段最后 32 個窗口中所選取的 Top-2K Latent Cache Indices,并依次將其注入 LRU,以構(gòu)建更符合初始生成需求的緩存狀態(tài)。如圖 6 所示,該策略能夠顯著降低 Decode 初期的 Cache Miss 量,從而提升早期推理階段的效率。


圖 6. LRU-Warmup 之后的 Cache Miss 情況

Cache Miss 分析

在第 2.2 節(jié)中,我們驗證了 Deepseek-V3.2-Exp 在 Latent Cache 訪問上同時呈現(xiàn)層內(nèi)與層間的時間局部性。這一特性表明:一旦某個 Latent Cache 在當(dāng)前步被訪問,其在后續(xù)步驟中再次被訪問的概率仍然較高;谶@一觀察,我們采用 LRU 策略對 GPU 端的 Sparse Memory Pool 進(jìn)行持續(xù)更新,使其能夠優(yōu)先保留未來最可能被需求的 Cache。

圖 7 展示了依據(jù) Intra-Layer Access 構(gòu)建 Sparse Memory Pool 后,每個 batch 的平均 Cache Miss 數(shù)量。我們進(jìn)一步在不同的 Sparse Memory Ratio 下進(jìn)行了對比分析,這些結(jié)果共同刻畫了在不同顯存預(yù)算下可獲得的性能收益邊界。


圖 7. Intra-Layer Cache Miss 情況,MTP=2

為進(jìn)一步降低 Decoding 期間 Cache Miss 發(fā)生率,我們嘗試通過層間預(yù)取的方式緩解層內(nèi)預(yù)取的 Cache Miss 壓力。之所以有這樣的思考,是因為我們在層間同樣發(fā)現(xiàn)了極高的局部性(如圖 1)。具體而言,我們首先根據(jù) L?1 層的 Top-K Indices 預(yù)先從 CPU 中取出對應(yīng)第 L 層的 Latent Cache。該部分?jǐn)?shù)據(jù)傳輸將和 MLP 進(jìn)行重疊。如此利用層間預(yù)取,能有效減少層內(nèi) Cache Miss 的發(fā)生。具體效果如圖 7 和圖 8 所示。考慮層間預(yù)取后,層內(nèi)命中率計算如公式 3。


其中,I^L 表示第 L 層 Sparse Memory Pool。不過,利用層間預(yù)取時,會預(yù)取大量無用的 Latent Cache。經(jīng)統(tǒng)計,在 Sparse Memory Ratio 為 0.2 時,層間預(yù)取的 Cache Miss 平均為 663 個每 Batch,最大為 1353 個每 Batch。因此,我們認(rèn)為盡管層間預(yù)取能夠緩解層內(nèi)預(yù)取的 Cache Miss 壓力,但無法真正對端到端加速起到作用。


圖 8. 平均 Cache Miss 情況對比


圖 9. 最大 Cache Miss 情況對比

計算傳輸重疊

影響端到端性能的另一項關(guān)鍵策略是計算與通信的重疊;趯 SGLang 現(xiàn)有實現(xiàn)的系統(tǒng)性拆解與分析,我們設(shè)計了 Dual-Attention (DA) Overlap 和 DualBatch-Attention (DBA) Overlap 兩種方案,以最大化計算過程與數(shù)據(jù)傳輸之間的重疊程度,從而進(jìn)一步提升整體吞吐。

Overlap 作用分析

圖 10 展示了在未采用 Overlap 策略時推理過程的完整 timeline。圖中,H2D 表示對 Missed Latent Cache 的獲取。此外,還包含一段較小的 D2H 操作,用于將當(dāng)前 step 新生成的 Latent Cache 寫回 CPU 端的 Total Memory Pool。

在不啟用 Overlap 的情況下,這兩類數(shù)據(jù)傳輸均必須等待 Indexer 計算完成后才能啟動,而后續(xù)的 Attention 計算又必須在所有傳輸結(jié)束后才能繼續(xù)執(zhí)行。這樣的嚴(yán)格依賴使得不同階段無法并行,最終構(gòu)成一條完全串行的執(zhí)行鏈路,從而顯著限制了整體吞吐。

Overlap 策略

  • Without Overlap:該模式對應(yīng)當(dāng)前 SGLang 的默認(rèn)實現(xiàn),不包含任何計算與通信的重疊。在此模式下,GPU 在等待 H2D 數(shù)據(jù)拷貝期間處于 idle 狀態(tài),導(dǎo)致整體吞吐率顯著低于硬件可達(dá)上限。

  • DA Overlap:在 Deepseek-V3.2-Exp 的 SGLang 實現(xiàn)中,Attention 由兩個階段構(gòu)成:forward_prepare 與 forward_core。其中,forward_prepare 又可進(jìn)一步拆分為 PreAttn 與 Indexer 兩部分。Indexer 表示 Indexer 本身以及所有依賴其結(jié)果的計算,PreAttn 則包含與 Indexer 無依賴關(guān)系的操作,例如 q_b_proj、bmm、copy_pe、rotary_embedding 等。為提升計算與 H2D 預(yù)取之間的重疊度,我們首先將 PreAttn 從 forward_prepare 中抽離,并推遲到 Indexer 完成之后再執(zhí)行。然而,PreAttn 本身的計算量不足以完全隱藏 Latent Cache 的預(yù)取開銷。為進(jìn)一步增強(qiáng)重疊能力,SparseMLA 被劃分為兩個子階段:Attn0 與 Attn1。Attn0 直接使用當(dāng)前 GPU 中已存在的 Latent Cache 進(jìn)行計算。Attn1 等待 H2D 預(yù)取完成后,使用新拷貝上來的 Latent Cache 繼續(xù)計算。最終將兩部分結(jié)果進(jìn)行合并。由于 Attn0 可與 H2D 傳輸并行執(zhí)行,因此能夠有效隱藏數(shù)據(jù)拷貝延遲,顯著提升整體 Overlap 程度。

  • DBA Overlap:由于 Attention 的計算量在上下文長度超過 2K 之后基本保持穩(wěn)定,這使得 Dual-Attn 在長上下文場景中的重疊效果有限。為進(jìn)一步提升重疊空間,我們提出了 DualBatch-Attention (DBA) Overlap。DBA 在 Dual-Attn 的基礎(chǔ)上,將 Indexer 沿 Batch 維度劃分為兩部分,使得約一半的 Indexer 計算能夠參與 Overlap。這樣不僅擴(kuò)大了可被隱藏的計算量,也使得在長上下文下仍能保持充分的計算通信重疊,從而提升端到端吞吐。


圖 10. 不同 Overlap 方案對比

更具體而言,在 DBA Overlap 中,我們主要將 mqa_logits 與 Top-K 兩部分納入可重疊計算的范圍。之所以選擇這兩部分,是因為它們的計算強(qiáng)度在 Batch Size 降低時并不會隨之顯著下降,從而能夠有效抵消 Batch 切分所帶來的性能損失,提高整體的重疊效率。圖 10 展示了 DA Overlap 與 DBA Overlap 在實際執(zhí)行過程中的 timeline 對比。

Layerwise Overlap 策略

如圖 7 所示,不同層之間的 Cache Miss 行為存在顯著差異,尤其是在 Sparse Memory Ratio 較小時。例如,當(dāng) Sparse Memory Ratio 為 0.2 時,每個 batch 的 Cache Miss 數(shù)量從 16.66 到 605 不等。如此大的波動性說明單一的 Overlap 策略無法高效適配所有層。

如圖 11 所示,我們評估了三種 Overlap 策略在不同 Cache Miss Count 下的性能退化情況。在 DBA Overlap 策略中,Indexer 的計算成本會隨著上下文長度線性增長,使其能夠在長上下文場景中有效隱藏 Latent-Cache 的傳輸延遲。因此,當(dāng) Cache Miss Count 達(dá)到 512 時,DBA 由于有足夠的 overlap 空間依然能夠保持較高的效率。而在 Cache Miss 較低的情況下,DA Overlap 更具優(yōu)勢,因為它能夠在不引入 Indexer 劃分開銷的前提下完全隱藏數(shù)據(jù)傳輸延遲。


圖 11. 不同 Overlap 策略的性能損耗,雙流 + MTP=2,請求長度 128K,Batch Size=160,帶寬為 37GB/s

我們認(rèn)為,Overlap 策略的選擇主要由兩個因素決定:Cache Miss 情況和上下文長度。

首先,我們觀察到在不同的上下文長度下,各層的 Cache Miss 沿 LayerID 的分布趨勢具有高度一致性(如圖 12 所示)。因此,我們可以通過預(yù)先測試,識別出在推理過程中最容易產(chǎn)生大量 Cache Miss 的關(guān)鍵層。

然后,在相同的 Sparse Memory Ratio 下,不同上下文長度所表現(xiàn)出的總體 Cache Miss 水平并不一致。因此,需要通過測試確定在何種 Cache Miss 閾值下應(yīng)切換至 DBA 策略。


圖 12. 不同上下文情況不同層的 Cache Miss 對比,MTP=2,Sparse Memory Ratio=0.2

不同上下文長度下的可擴(kuò)展性

如圖 13 所示,隨著上下文長度的增加,當(dāng) Sparse Memory Ratio ≥ 0.2 時,平均 Cache Miss 維持在相對穩(wěn)定的水平。需要特別指出的是,在 32K 上下文條件下,當(dāng) Sparse Memory Ratio 較小時會出現(xiàn)最嚴(yán)重的 Cache Miss。

這主要是因為 GPU Buffer 過小,導(dǎo)致頻繁的換入換出操作,從而顯著增加了 Miss 發(fā)生的概率。同時如圖 11 所示,我們發(fā)現(xiàn) Cache Miss 過大時,現(xiàn)有方案無法很好地隱藏數(shù)據(jù)傳輸延遲,進(jìn)而造成數(shù)百 us 的單層延遲。

因此,我們建議將 Sparse Memory Pool Size 最小配置為 6.4K 個 Slots,這樣能夠保證平均 Cache Miss 在 200 以下,確保數(shù)據(jù)傳輸延遲能夠被有效 Overlap 起來。

同時,圖 13 也表明,在相同的 Sparse Memory Ratio 下,平均 Cache Miss 隨上下文長度增加而進(jìn)一步下降。這意味著更長的上下文能夠使用更小的 Sparse Memory Ratio,獲得更大的 Batchsize 提升,進(jìn)而獲取更大的吞吐收益。


圖 13. 不同長度上下文情況, 平均 Cache Miss 統(tǒng)計

模擬驗證

模擬器

AIAK 團(tuán)隊基于內(nèi)部自研的高仿真模擬器進(jìn)行了性能評估。該模擬器的元數(shù)據(jù)來源于真實機(jī)器的運(yùn)行結(jié)果,并通過線性插值補(bǔ)全未覆蓋的數(shù)據(jù)點。同時,根據(jù)實際的計算流與傳輸流構(gòu)建完整的執(zhí)行框架,并納入了 MTP、雙流等系統(tǒng)優(yōu)化機(jī)制的影響。

得益于該模擬器的高精度建模,我們能夠在不依賴大量真實實驗的情況下,準(zhǔn)確預(yù)估大模型的推理性能,從而顯著降低方案驗證的成本。

端到端性能評估

在本實驗中,我們評估了 32K 上下文條件下,不同 MTP 值和接受率下的性能表現(xiàn),同時將其他所有配置保持與表 1 一致。根據(jù)模擬器輸出的吞吐和 OPTS 結(jié)果(表 2),可以看到:MTP = 2 能夠帶來 69.4% 的端到端吞吐提升;當(dāng) MTP = 4 且接受率為 3.4 時,端到端吞吐提升為 45.8%。

我們進(jìn)一步在 MTP = 2、接受率為 1.7 的配置下,對 128K 的超長上下文進(jìn)行了評測。由于在該上下文長度下 Batch Size 相對較小,因此我們在實驗中關(guān)閉了 Two-Batch Overlap 優(yōu)化。如圖 9 所示,更長的上下文長度使系統(tǒng)能夠在較低的 Sparse Memory Ratio 下運(yùn)行。最終結(jié)果如表 2 所示,當(dāng) Sparse Memory Ratio 為 0.1 時,端到端吞吐獲得了 123% 的性能提升。


表 2. 端到端性能評估

結(jié)論與展望

ESS 作為一種在精度無損前提下提升 Batch Size 的工程化方案,其核心的 Offload–Prefetch 機(jī)制已在諸多大模型推理場景中得到驗證與廣泛應(yīng)用。

百度百舸 AIAK 團(tuán)隊針對 DeepSeek-V3.2-Exp 在 SGLang 中的推理路徑,量身設(shè)計并模擬驗證了適配該模型的 Offload 策略。實驗結(jié)果充分證明了 Offload–Prefetch 機(jī)制在該模型中的可行性與顯著性能潛力,為后續(xù)系統(tǒng)優(yōu)化奠定了堅實基礎(chǔ)。

未來,AIAK 團(tuán)隊不僅計劃將 ESS 方案在實際框架中落地,還將進(jìn)一步拓展其適用邊界 —— 依托其對 KV Cache 存儲與計算路徑的解耦設(shè)計、高效的數(shù)據(jù)傳輸優(yōu)化及靈活的緩存管理機(jī)制,將 ESS 方案擴(kuò)展至更多采用 KV Cache 動態(tài)壓縮方案的大模型中。同時,團(tuán)隊還將探索 ESS 與 SnapKV 等有損壓縮方法的融合應(yīng)用,持續(xù)突破推理吞吐瓶頸,為各類大模型的高效部署提供更具通用性的優(yōu)化方案。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中央重磅定調(diào)!“發(fā)錢”模式已升級!全民漲工資的時代要來了?

中央重磅定調(diào)!“發(fā)錢”模式已升級!全民漲工資的時代要來了?

朔方瞭望
2025-12-28 15:16:20
內(nèi)訌了?洛夫頓發(fā)文:都不相信我,我要回母校,網(wǎng)友: 趕緊滾吧!

內(nèi)訌了?洛夫頓發(fā)文:都不相信我,我要回母校,網(wǎng)友: 趕緊滾吧!

南海浪花
2025-12-28 12:32:59
國家終于出手了!被牽連的何止李梓萌,全紅嬋成龍也沒逃過

國家終于出手了!被牽連的何止李梓萌,全紅嬋成龍也沒逃過

暖心萌阿菇?jīng)?/span>
2025-12-27 01:25:19
凍結(jié)阿布53億鎊3年!英政府承認(rèn)行為違規(guī)但就是不改 首相親自下場

凍結(jié)阿布53億鎊3年!英政府承認(rèn)行為違規(guī)但就是不改 首相親自下場

風(fēng)過鄉(xiāng)
2025-12-28 08:15:02
尿是黃色!金子也是黃色!德國男子為了提煉黃金,煮了五千升尿液

尿是黃色!金子也是黃色!德國男子為了提煉黃金,煮了五千升尿液

扶蘇聊歷史
2025-12-25 16:18:51
弘一法師:少跟孩子生氣,孩子投胎到你家,有這幾種原因

弘一法師:少跟孩子生氣,孩子投胎到你家,有這幾種原因

木言觀
2025-12-23 18:35:55
83年嚴(yán)打:被遣送西北重刑犯的最終命運(yùn)如何

83年嚴(yán)打:被遣送西北重刑犯的最終命運(yùn)如何

品茗談史論世事
2025-12-28 14:54:27
24000億大單談成!中國拿下全球最大鐵礦,預(yù)估年產(chǎn)可達(dá)1.2億噸

24000億大單談成!中國拿下全球最大鐵礦,預(yù)估年產(chǎn)可達(dá)1.2億噸

白夢日記
2025-12-27 20:10:59
剛剛,20家公司出現(xiàn)重大利好和利空公告,有沒有與你相關(guān)的個股?

剛剛,20家公司出現(xiàn)重大利好和利空公告,有沒有與你相關(guān)的個股?

股市皆大事
2025-12-28 09:50:10
日本絕密文件曝光!要在華駐軍100年,若東南亞忠心,可網(wǎng)開一面

日本絕密文件曝光!要在華駐軍100年,若東南亞忠心,可網(wǎng)開一面

凡知
2025-12-28 11:48:30
美媒:解放軍并非強(qiáng)大無比,但若跟中國沖突,將是一場空前的災(zāi)難

美媒:解放軍并非強(qiáng)大無比,但若跟中國沖突,將是一場空前的災(zāi)難

通文知史
2025-12-27 17:30:03
老婆敗光20億家產(chǎn)傳聞?wù)嫦啻蟀?0個月,曝張學(xué)友近況,一點不意外

老婆敗光20億家產(chǎn)傳聞?wù)嫦啻蟀?0個月,曝張學(xué)友近況,一點不意外

素衣讀史
2025-12-26 17:30:27
卡梅。喝簟栋⒎策_(dá)》第四部及第五部未能拍成,將舉行新聞發(fā)布會

卡梅。喝簟栋⒎策_(dá)》第四部及第五部未能拍成,將舉行新聞發(fā)布會

IT之家
2025-12-27 20:52:05
下車救人還是肇事逃逸?警方回應(yīng):真的是下車救人,網(wǎng)友們別再誤會了

下車救人還是肇事逃逸?警方回應(yīng):真的是下車救人,網(wǎng)友們別再誤會了

封面新聞
2025-12-28 13:05:04
埋藏的氫氣庫被發(fā)現(xiàn),,20萬噸氫氣足以供整個大陸使用數(shù)千年

埋藏的氫氣庫被發(fā)現(xiàn),,20萬噸氫氣足以供整個大陸使用數(shù)千年

王二哥老搞笑
2025-12-28 01:01:52
和大佬海外產(chǎn)子真相大白7個月,39歲江疏影曝近照,一點也不意外

和大佬海外產(chǎn)子真相大白7個月,39歲江疏影曝近照,一點也不意外

洲洲影視娛評
2025-12-26 12:24:42
南博秘密藏不住了!疑似大魚浮出水面,背景強(qiáng)大手眼通天......

南博秘密藏不住了!疑似大魚浮出水面,背景強(qiáng)大手眼通天......

行走的知識庫
2025-12-28 14:48:50
美媒:美最強(qiáng)戰(zhàn)斗機(jī)F-22“生不逢時”

美媒:美最強(qiáng)戰(zhàn)斗機(jī)F-22“生不逢時”

參考消息
2025-12-27 21:02:07
徐湖平案又爆猛料!兒子公司集體失聯(lián),工商信息揪出關(guān)鍵關(guān)聯(lián)人

徐湖平案又爆猛料!兒子公司集體失聯(lián),工商信息揪出關(guān)鍵關(guān)聯(lián)人

奇思妙想草葉君
2025-12-28 15:10:57
全球億萬富豪加速涌現(xiàn),中國大陸新增70位億萬富豪,他們來自哪些行業(yè)?

全球億萬富豪加速涌現(xiàn),中國大陸新增70位億萬富豪,他們來自哪些行業(yè)?

國是直通車
2025-12-28 12:23:02
2025-12-28 18:24:49
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術(shù)社區(qū)媒體
11882文章數(shù) 51663關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動駕駛?記者求證→

頭條要聞

賴清德彈劾案通過 臺媒體人:2026年要讓賴輸?shù)矫撗?/h3>

頭條要聞

賴清德彈劾案通過 臺媒體人:2026年要讓賴輸?shù)矫撗?/h3>

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財經(jīng)要聞

英偉達(dá)的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

時尚
房產(chǎn)
旅游
健康
軍事航空

瑞典拉普蘭:凜冽北境的萬物平衡之道

房產(chǎn)要聞

降維打擊!三亞CBD驚現(xiàn)“豪宅新王”,高端局要變天了!

旅游要聞

新加坡旅游局?jǐn)y手廣州康輝,點燃馬年獅城旅行新熱度

這些新療法,讓化療不再那么痛苦

軍事要聞

與特朗普會晤前 澤連斯基亮明“紅線”

無障礙瀏覽 進(jìn)入關(guān)懷版