国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

vLLM v0.18.0 更新,KV Cache 迎來大升級(jí)

0
分享至

上周剛寫完 v0.17.1 的補(bǔ)丁,vLLM v0.17.1 緊急補(bǔ)丁,修了一個(gè)讓 Qwen3.5 越跑越蠢的隱形 Bug,v0.18.0 就來了。


兄弟們總是問這個(gè)圖哪來的,就是 vllm 官網(wǎng) vllm.ai

不只是功能堆疊,這次有幾個(gè)變化會(huì)直接影響你的部署配置。

先看全貌:v0.18.0 改了什么

變更

類型

Ray 從默認(rèn)依賴中移除

?? 破壞性變更

gRPC 服務(wù)支持

--grpc標(biāo)志)

新功能

GPU-less 渲染服務(wù)

vllm launch render

新功能

NGram 投機(jī)解碼遷移至 GPU

? 性能提升

KV Cache 智能 CPU 卸載

? 性能提升

FlexKV 卸載后端

新功能

彈性專家并行 Milestone 2

(NIXL-EP)

新功能

FlashInfer 升級(jí)至 0.6.6

?? 依賴升級(jí)

Responses API 流式工具調(diào)用

新功能

ASR 在線 Beam Search

新功能

FA4 用于 MLA Prefill

(DeepSeek V3)

? 性能提升

新架構(gòu)

:Sarvam MoE、OLMo Hybrid、Kimi-Audio-7B 等

模型支持


1. Ray 被請(qǐng)出默認(rèn)依賴

這是最需要注意的一條。

從 v0.18.0 開始,Ray 不再作為默認(rèn)依賴安裝。

# 以前安裝 vLLM,Ray 會(huì)自動(dòng)裝進(jìn)來
pip install vllm


# 現(xiàn)在如果你需要 Ray(多節(jié)點(diǎn)/Ray Cluster),需要顯式安裝
pip install vllm ray

為什么移除?Ray 是個(gè)重型依賴,安裝慢、體積大,但絕大多數(shù)單機(jī)部署場(chǎng)景根本用不到它。拆開之后,單機(jī)部署的安裝速度和鏡像體積都會(huì)明顯改善。

什么情況下你還需要 Ray?

  • 使用 Ray Cluster 做多節(jié)點(diǎn)分布式推理

  • 用 Ray Data Pipeline 做批量推理

  • 依賴ray serve做服務(wù)編排

如果你只是在單機(jī)跑 vLLM,這個(gè)變化對(duì)你透明,什么都不用改。

2. gRPC 服務(wù)支持

一行 flag 開啟 gRPC:

vllm serve meta-llama/Llama-3.1-8B-Instruct --grpc

同時(shí)開啟 HTTP 和 gRPC:兩個(gè)接口獨(dú)立運(yùn)行,互不干擾。

為什么 gRPC 比 HTTP/REST 更快?

HTTP/REST 每次請(qǐng)求需要解析文本格式的 JSON,頭部字段冗余多,長(zhǎng)連接復(fù)用效率低。gRPC 基于 HTTP/2,用 Protocol Buffers 做二進(jìn)制序列化,同一連接可以多路復(fù)用,延遲和吞吐都有明顯優(yōu)勢(shì)。

在高并發(fā)、低延遲的場(chǎng)景(比如內(nèi)部微服務(wù)互調(diào)、Agent Pipeline)里,gRPC 的優(yōu)勢(shì)會(huì)被明顯放大。

目前 gRPC 端口默認(rèn)是8001,HTTP 保持8000不變。

3. KV Cache 智能 CPU 卸載 + FlexKV

這一版對(duì) KV Cache 的卸載邏輯做了兩個(gè)升級(jí)。

3.1 只卸載"值得卸載"的 block

之前的 CPU offloading 是無差別的——只要顯存緊張就往 CPU 搬。

現(xiàn)在加了一個(gè)復(fù)用頻率門控(reuse-frequency-gated):只有被多次復(fù)用的 block才會(huì)寫入 CPU。

邏輯很直接:一個(gè) block 如果只被用了一次,把它寫到 CPU 再讀回來,開銷比收益大。只有那些在 prefix cache 里高頻命中的 block,才值得花帶寬卸載到 CPU 保留。

這對(duì)長(zhǎng)對(duì)話、系統(tǒng) prompt 固定的場(chǎng)景幫助很大——那些高頻復(fù)用的 prefix 塊會(huì)被優(yōu)先保留,冷塊直接丟棄,減少無效 CPU?GPU 傳輸。

3.2 FlexKV:新的卸載后端

FlexKV 作為全新的 KV Cache 卸載后端引入,支持更靈活的存儲(chǔ)策略(不只是 CPU 內(nèi)存,還可以擴(kuò)展到 SSD 等介質(zhì))。

目前是實(shí)驗(yàn)性功能,通過--kv-transfer-config指定:

vllm serve your-model \
--kv-transfer-config '{"kv_connector":"FlexKVConnector","kv_role":"kv_both"}'

配合多 KV group 支持(--kv-groups),對(duì) PD 分離架構(gòu)的部署有直接幫助。

4. NGram 投機(jī)解碼遷移至 GPU

NGram 是一種不依賴草稿模型的投機(jī)解碼方法——直接從輸入 prompt 里找 n-gram 模式來預(yù)測(cè)后續(xù) token。

以前這個(gè)匹配邏輯在 CPU 上跑,每一步都需要 CPU→GPU 數(shù)據(jù)傳輸,開銷抵消了不少收益。

現(xiàn)在整個(gè) NGram 匹配遷移到 GPU 上,同時(shí)兼容 async scheduler,spec decode 的額外開銷大幅下降。

適合用 NGram 的場(chǎng)景:代碼補(bǔ)全、文檔續(xù)寫、固定模板生成——這些場(chǎng)景里 prompt 和輸出之間有大量重復(fù) n-gram,投機(jī)命中率高。不需要單獨(dú)加載一個(gè)草稿模型,只要加一個(gè) flag:

vllm serve your-model \
--speculative-model "[ngram]" \
--num-speculative-tokens 5 \
--ngram-prompt-lookup-max 4
5. 彈性專家并行 Milestone 2:NIXL-EP 集成

這一版是彈性專家并行(Elastic EP)的第二個(gè)里程碑,核心變化是引入了NIXL-EP 集成

對(duì)于跑 MoE 大模型(DeepSeek、Qwen3.5 MoE、Mixtral 等)的用戶,這意味著什么?

之前:EP(Expert Parallelism)的 GPU 數(shù)量在啟動(dòng)時(shí)就固定了,擴(kuò)縮容需要重啟服務(wù)。

現(xiàn)在:通過 NIXL(NVIDIA Interconnect eXtension Library)做專家權(quán)重的動(dòng)態(tài)調(diào)度,GPU 可以動(dòng)態(tài)加入/移出集群,不需要完全重啟。

另外新增--enable-ep-weight-filterflag,啟動(dòng)時(shí)只加載本地 GPU 負(fù)責(zé)的專家權(quán)重,跳過不需要的參數(shù):

vllm serve deepseek-ai/DeepSeek-V3 \
--tensor-parallel-size 8 \
--enable-ep-weight-filter

大模型加載速度會(huì)有明顯提升,尤其是 EP 節(jié)點(diǎn)數(shù)多的時(shí)候。

6. FA4 用于 MLA Prefill

DeepSeek 系列用了MLA(Multi-head Latent Attention)架構(gòu)——把 KV cache 壓縮到低秩空間,顯存占用大幅下降,但也帶來了額外的矩陣運(yùn)算。

這一版為 MLA 的 prefill 階段引入了FlashAttention 4(FA4)內(nèi)核,同時(shí)還有:

  • Triton MLA decode 的 FP8 KV cache 支持

  • DeepSeek-V3.2 向量化 MLA query concat kernel

  • context parallel 下 FP8 KV cache gather 優(yōu)化

對(duì)于在生產(chǎn)環(huán)境跑 DeepSeek V3/V3.2 的用戶,這些內(nèi)核優(yōu)化疊加下來,prefill 吞吐會(huì)有可觀的提升。

7. GPU-less 渲染服務(wù)

這是一個(gè)架構(gòu)解耦的新玩法。

# 啟動(dòng)一個(gè)純 CPU 的預(yù)處理節(jié)點(diǎn),不需要 GPU
vllm launch render --model your-model

背后的邏輯:多模態(tài)推理(圖像/音頻/視頻)的預(yù)處理(圖像解碼、resize、特征提取)和 GPU 推理之間其實(shí)是解耦的。

把預(yù)處理從 GPU 節(jié)點(diǎn)拆出來,單獨(dú)用 CPU 節(jié)點(diǎn)跑,GPU 只專注計(jì)算:

  • CPU 節(jié)點(diǎn)可以水平擴(kuò)展,處理高并發(fā)的媒體上傳

  • GPU 不再被預(yù)處理任務(wù)占用

  • 有助于降低整體服務(wù)成本

8. Responses API 支持流式工具調(diào)用

OpenAI Responses API 現(xiàn)在支持流式(streaming)的工具/函數(shù)調(diào)用了。

這對(duì) Agent 類應(yīng)用很關(guān)鍵——工具調(diào)用的結(jié)果不再需要等整個(gè)響應(yīng)生成完才返回,可以在生成過程中實(shí)時(shí) stream 出來,大幅降低 Agent 的感知延遲。

模型支持更新

新增支持

類型

Sarvam MoE

新架構(gòu)

OLMo Hybrid

新架構(gòu)

HyperCLOVAX-SEED-Think-32B VLM

新架構(gòu)

Kimi-Audio-7B-Instruct

音頻模型

ColPali 延遲交互檢索

RAG 檢索

Eagle3 for Qwen3.5

投機(jī)解碼

Eagle3 for Kimi K2.5 MLA

投機(jī)解碼

Whisper LoRA

LoRA

FP8 LoRA dense kernel

量化

另外修了一批國(guó)內(nèi)常用模型的 bug:DeepSeek-V3.2 tokenizer 空格截?cái)?、Qwen3.5 工具調(diào)用、Qwen3-VL 時(shí)間戳不一致、MiniCPM-V 音頻推理等。

該不該升?

跑 MoE 大模型(DeepSeek、Qwen3.5 MoE)+ 多 GPU:建議升。FA4 MLA 內(nèi)核 + Elastic EP Milestone 2 是實(shí)實(shí)在在的提升。

用 NGram 投機(jī)解碼的:必須升。GPU 化之后性能質(zhì)變。

用 Ray 管多節(jié)點(diǎn)集群的:升級(jí)前先確認(rèn)pip install ray已在你的部署腳本里,否則啟動(dòng)會(huì)報(bào)找不到 Ray。

用 KV Cache CPU offloading 的:升級(jí)可以順手用上智能門控,省掉無效的 CPU 寫入。

單機(jī)小模型部署:穩(wěn)定性修復(fù) + FlashInfer 0.6.6,升級(jí)無壞處。

制作不易,如果這篇文章覺得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗宣布對(duì)所有商船開放霍爾木茲海峽,美維持對(duì)伊海上封鎖,伊朗議長(zhǎng):特朗普7項(xiàng)聲明“均不屬實(shí)”

伊朗宣布對(duì)所有商船開放霍爾木茲海峽,美維持對(duì)伊海上封鎖,伊朗議長(zhǎng):特朗普7項(xiàng)聲明“均不屬實(shí)”

縱相新聞
2026-04-18 12:36:03
突然“值錢了”!不少人家里都有,專家提醒:別賣!

突然“值錢了”!不少人家里都有,專家提醒:別賣!

劉哥談體育
2026-04-19 21:40:06
王偉中對(duì)俄羅斯后貝加爾邊疆區(qū)交通事故作出批示

王偉中對(duì)俄羅斯后貝加爾邊疆區(qū)交通事故作出批示

澎湃新聞
2026-04-19 13:55:05
不裝了賴清德、馬英九暴露真面目!國(guó)民黨發(fā)甲級(jí)動(dòng)員,想決一死戰(zhàn)

不裝了賴清德、馬英九暴露真面目!國(guó)民黨發(fā)甲級(jí)動(dòng)員,想決一死戰(zhàn)

青梅侃史啊
2026-04-19 19:17:48
中小學(xué)生上課時(shí)間大調(diào)整:9點(diǎn)上課或成新規(guī),周六上課引家長(zhǎng)熱議

中小學(xué)生上課時(shí)間大調(diào)整:9點(diǎn)上課或成新規(guī),周六上課引家長(zhǎng)熱議

復(fù)轉(zhuǎn)這些年
2026-04-18 12:47:43
美國(guó)全世界逛一圈才發(fā)現(xiàn),自己扶持所有小弟里,最能打的還是老蔣

美國(guó)全世界逛一圈才發(fā)現(xiàn),自己扶持所有小弟里,最能打的還是老蔣

呼呼體壇
2026-04-19 18:26:54
局勢(shì)生變,全球接到消息,美軍全部撤離,所有軍事基地被敘國(guó)接管

局勢(shì)生變,全球接到消息,美軍全部撤離,所有軍事基地被敘國(guó)接管

聞識(shí)
2026-04-19 21:08:29
美國(guó)證實(shí)!伊朗最高領(lǐng)袖“已受傷但仍活著”,伊朗方面此前稱穆杰塔巴·哈梅內(nèi)伊身體健康 ,但因戰(zhàn)爭(zhēng)推遲公開露面

美國(guó)證實(shí)!伊朗最高領(lǐng)袖“已受傷但仍活著”,伊朗方面此前稱穆杰塔巴·哈梅內(nèi)伊身體健康 ,但因戰(zhàn)爭(zhēng)推遲公開露面

每日經(jīng)濟(jì)新聞
2026-04-16 23:06:57
曼城羅德里傷病令人擔(dān)憂,瓜迪奧拉給出更新

曼城羅德里傷病令人擔(dān)憂,瓜迪奧拉給出更新

綠茵情報(bào)局
2026-04-20 04:22:15
研究表明,中學(xué)生的抑郁率已高達(dá)36%!

研究表明,中學(xué)生的抑郁率已高達(dá)36%!

黯泉
2026-04-18 18:06:01
《八千里路云和月》朱管家想不到,算計(jì)田家泰家業(yè),卻成全了萬(wàn)福

《八千里路云和月》朱管家想不到,算計(jì)田家泰家業(yè),卻成全了萬(wàn)福

白淺娛樂聊
2026-04-19 12:37:15
難怪能成為大明星,小時(shí)候居然這么漂亮!大家看出來她是誰(shuí)了嗎?

難怪能成為大明星,小時(shí)候居然這么漂亮!大家看出來她是誰(shuí)了嗎?

阿廢冷眼觀察所
2026-04-19 22:13:42
國(guó)產(chǎn)光纖全球“爆單”:部分產(chǎn)品價(jià)格暴漲650%

國(guó)產(chǎn)光纖全球“爆單”:部分產(chǎn)品價(jià)格暴漲650%

環(huán)球網(wǎng)資訊
2026-04-19 11:16:14
身材纖細(xì)、體態(tài)修長(zhǎng)的日本業(yè)界骨感美人·TOP10

身材纖細(xì)、體態(tài)修長(zhǎng)的日本業(yè)界骨感美人·TOP10

吃瓜黨二號(hào)頭目
2026-04-19 09:58:57
神替補(bǔ)!桑喬兩次送禮,鴨脖救主,維拉先被絕平又反絕殺,太刺激

神替補(bǔ)!桑喬兩次送禮,鴨脖救主,維拉先被絕平又反絕殺,太刺激

硬腿子聊個(gè)球
2026-04-19 22:58:51
真給力!5月1日起,65歲老人坐公交全省都免費(fèi) 福建老人幸福感拉滿

真給力!5月1日起,65歲老人坐公交全省都免費(fèi) 福建老人幸福感拉滿

今日搞笑分享
2026-04-19 16:37:15
第一次對(duì)「鋁箔紙」產(chǎn)生了敬意!以為烘焙專用,沒想到是家居神器

第一次對(duì)「鋁箔紙」產(chǎn)生了敬意!以為烘焙專用,沒想到是家居神器

裝修秀
2026-04-18 11:55:03
莫蘭特灰熊時(shí)代終章:從天之驕子到無人問津的墜落

莫蘭特灰熊時(shí)代終章:從天之驕子到無人問津的墜落

漫川舟船
2026-04-19 15:03:30
打蛇打七寸!中國(guó)全面斷供開始,日本多行業(yè)停擺,高市真慌了

打蛇打七寸!中國(guó)全面斷供開始,日本多行業(yè)停擺,高市真慌了

有你便是晴天呢
2026-04-19 09:27:13
吃相太難看!莫氏雞煲爆火后,惡心一幕出現(xiàn),終走上呆呆妹的老路

吃相太難看!莫氏雞煲爆火后,惡心一幕出現(xiàn),終走上呆呆妹的老路

以茶帶書
2026-04-15 17:30:12
2026-04-20 07:12:49
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3334文章數(shù) 11137關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤(rùn)東漲粉百萬(wàn)!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬(wàn) 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

游戲
藝術(shù)
手機(jī)
數(shù)碼
公開課

"二次元GTA"直播爆了:疑似貼臉嘲諷其他二游!

藝術(shù)要聞

蒲華寫水仙,清健嫵媚

手機(jī)要聞

8.8英寸小鋼炮!REDMI K Pad 2核心配置揭曉

數(shù)碼要聞

華為新機(jī)發(fā)布前瞻:闊折疊X Max+影像旗艦Pura 90,都沒懸念了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版