国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

vLLM v0.17.0來了,Qwen3.5 全系列完美支持,Anthropic API 兼容

0
分享至

關(guān)于 vLLM,我之前寫過不少:

今天 vLLMv0.17.0 正式發(fā)布


十大核心亮點速覽

我從 Release Notes 里提煉了 v0.17.0 最值得關(guān)注的十大核心亮點,按重要程度排列:

1?? FlashAttention 4 集成

這可能是這個版本最讓人興奮的更新。vLLM 現(xiàn)在正式支持FlashAttention 4 后端了。

FlashAttention 一路從 1 到 2 到 3,現(xiàn)在 4 也來了。每一代都在推動 attention 計算的效率極限。FA4 在前代基礎(chǔ)上又做了大量底層優(yōu)化,對于長序列、大模型的推理性能提升顯著。

如果你在用 H100/H200 或者更新的 GPU 跑大模型推理,升級到 v0.17 應(yīng)該能明顯感受到速度提升。

2?? Model Runner V2 里程碑:全面成熟

Model Runner V2 是 vLLM 下一代模型執(zhí)行架構(gòu),在這個版本中達到了一個重要的成熟里程碑

  • Pipeline Parallel(流水線并行)

  • Decode Context Parallel(解碼上下文并行)

  • Eagle3 推測解碼+ CUDA Graph

  • Pooling 模型支持

  • 分段 & 混合 CUDA Graph 捕獲

  • DP+EP 推測解碼

  • 全新 ModelState 架構(gòu)

此外官方還發(fā)布了Model Runner V2 的設(shè)計文檔,對于想深入了解 vLLM 內(nèi)部架構(gòu)的同學(xué),這是一份非常好的學(xué)習(xí)資料。

簡單來說,Model Runner V2 是 vLLM 的「心臟升級」。它讓 vLLM 在多卡、多節(jié)點、各種并行策略下的推理變得更加靈活和高效。

3?? Qwen3.5 全家桶支持

我之前介紹過的方法,vLLM一節(jié)都是用的nightly版()

Qwen3.5 模型全系列在這個版本得到了完整支持,包括:

  • 基于GDN(Gated Delta Networks)的全新架構(gòu)

  • FP8 量化支持

  • MTP 推測解碼

  • 推理解析器(reasoning parser)支持

這意味著你可以直接在 vLLM 上跑 Qwen3.5 的各種版本,享受推測解碼和量化加速的全套優(yōu)化。

對于國內(nèi)用戶來說,這可能是最實際的更新之一——Qwen3.5 是目前開源圈里最強的中文大模型之一,但是這一波 vLLM 有點慢了。

4??--performance-mode一鍵性能調(diào)優(yōu)

這個功能太貼心了。之前部署 vLLM,性能調(diào)優(yōu)需要手動設(shè)置一堆參數(shù)(batch size、調(diào)度策略等),對新手非常不友好。

現(xiàn)在只需要一個參數(shù):

vllm serve your-model --performance-mode throughput

提供三種模式:

  • **balanced**:均衡模式,適合大多數(shù)場景

  • **interactivity**:交互模式,優(yōu)先降低首 token 延遲,適合聊天場景

  • **throughput**:吞吐模式,最大化吞吐量,適合批處理場景

不用再去查文檔翻參數(shù)了,一個 flag 搞定。這種把復(fù)雜度封裝起來的思路,我很喜歡。

5?? Anthropic API 兼容

vLLM 之前一直兼容 OpenAI API 格式,現(xiàn)在開始支持Anthropic API 兼容了:

  • thinking blocks(思考塊)支持

  • count_tokensAPI

  • tool_choice=none選項

  • streaming 和圖片處理修復(fù)

這意味著如果你的應(yīng)用代碼之前是基于 Anthropic Claude API 寫的,現(xiàn)在可以無縫切換到本地 vLLM 部署的模型。API 兼容性做得越來越好,這對于降低遷移成本太重要了。

6?? 權(quán)重卸載 V2:預(yù)取技術(shù)隱藏延遲

對于顯存不夠用的同學(xué),這個更新很關(guān)鍵。

v0.17 的權(quán)重卸載器引入了預(yù)取機制(Prefetching),可以在 GPU 計算的同時,把下一層的權(quán)重從 CPU 加載到 GPU,從而隱藏權(quán)重加載延遲。

此外還支持了:

  • 選擇性 CPU 權(quán)重卸載:不用全部卸載,只卸載你指定的層

  • 無需雙倍 pinned memory 的 CPU 卸載:省內(nèi)存

這對于在消費級 GPU(3090、4090)上跑大模型的同學(xué)來說,是實打?qū)嵉膬?yōu)化。

7?? 彈性專家并行 Phase 2

MoE(Mixture of Experts)模型是當前大模型的主流架構(gòu)(DeepSeek-V3/V3.2、Qwen3 MoE、Llama 4 等),vLLM 在這個版本引入了彈性專家并行 Milestone 2。

核心能力:動態(tài) GPU 縮放。

什么意思?就是你的 MoE 模型可以根據(jù)負載動態(tài)調(diào)整使用的 GPU 數(shù)量,負載低的時候少用幾張卡省錢,負載高的時候自動擴展。這對于生產(chǎn)環(huán)境的成本優(yōu)化太重要了。

8?? 量化 LoRA 適配器直接加載

之前在 vLLM 上用 LoRA 微調(diào)后的模型,如果是量化版本(比如 QLoRA),需要各種周折才能加載。

現(xiàn)在,vLLM 可以直接加載量化 LoRA 適配器了。

這對于做 LoRA 微調(diào) + 量化部署的工作流來說是個大利好。QLoRA 訓(xùn)練完直接扔到 vLLM 里就能跑,中間環(huán)節(jié)省了。

9?? 推測解碼全面進化

推測解碼(Speculative Decoding)是加速 LLM 推理的關(guān)鍵技術(shù),v0.17 在這方面做了大量優(yōu)化:

  • Eagle3推測解碼支持 CUDA Graph,速度更快

  • Nemotron-HMTP 和 Mamba 推測解碼

  • Sparse MLA + MTP全 CUDA Graph 支持

  • DP+EP推測解碼(數(shù)據(jù)并行 + 專家并行)

  • Eagle3 支持disaggregated serving(分離式推理)

特別是 Eagle3 + CUDA Graph 這個組合,是這次推測解碼部分最值得關(guān)注的組合之一。

Kernel 層面的深度優(yōu)化

這個版本在底層內(nèi)核上做了大量「不起眼但很重要」的優(yōu)化:

  • FlashInfer Sparse MLA后端

  • Triton top-k / top-p 采樣器內(nèi)核

  • TRTLLM DSV3 Router GEMM 內(nèi)核:batch-1 場景加速 6%

  • FA3 swizzle 優(yōu)化

  • 256-bit LDG/STG 激活內(nèi)核

  • Helion 內(nèi)核框架:自動調(diào)優(yōu)基礎(chǔ)設(shè)施

這些優(yōu)化可能單個看不起眼,但加在一起就是量變引起質(zhì)變。實際測試中,DeepSeek R1 BF16 最低延遲 QKV GEMM 做到了0.5% 端到端加速,Pipeline Parallel 異步收發(fā)做到了2.9% 端到端吞吐提升,pooling maxsim 做到了13.9% 吞吐提升。

硬件支持:不止 NVIDIA

vLLM 越來越不是 NVIDIA 的專屬了。v0.17 在硬件支持上做了大量工作:

NVIDIA 方面:

  • SM100(Blackwell)FP8 MLA prefill 支持

  • SM100 MXFP8 塊級縮放分組矩陣乘法

  • SM120 FP8 GEMM 優(yōu)化

  • FlashInfer DeepGEMM 在 SM90 上默認開啟 swapAB

AMD ROCm 方面:

  • AITER 融合 RoPE+KVCache

  • gfx950 上 MXFP4 MoE 權(quán)重預(yù)混洗

  • bitsandbytes 量化支持

  • CK(Composable Kernel)MoE 量化后端

Intel XPU 方面:

  • CUDA graph 支持終于來了

  • NIXL GPUDirect RDMA

CPU 方面:

  • ARM BF16 交叉編譯

  • s390x FP16 支持

  • 同時支持 AVX2 和 AVX512 的 CPU 發(fā)行版

如果你是 AMD 或 Intel 的用戶,現(xiàn)在上 vLLM 的體驗已經(jīng)好了很多。雖然和 NVIDIA 比還有差距,但差距在快速縮小。

ASR 模型支持:不只是 LLM 了

v0.17 有一個很有意思的變化——開始支持ASR(語音識別)模型了:

  • FunASR

  • FireRedASR2

  • Qwen3-ASR 實時流式識別

vLLM 從名字看是「vLLM」——Virtual LLM,但現(xiàn)在它的野心顯然不止于文本大模型。之前加了多模態(tài)(視覺、音頻),現(xiàn)在又加了 ASR,正在進化成一個全模態(tài)推理引擎

升級注意事項

在你興沖沖跑去升級之前,說幾個需要注意的點:

1. PyTorch 2.10 升級(Breaking Change!)

v0.17 升級到了 PyTorch 2.10,這是環(huán)境依賴的破壞性變更。如果你的環(huán)境依賴特定版本的 PyTorch,需要做好兼容性測試。

2. CUDA 12.9+ 已知問題

如果你在 CUDA 12.9+ 上遇到CUBLAS_STATUS_INVALID_VALUE錯誤,可以試試:

# 方法 1:清理 LD_LIBRARY_PATH
unset LD_LIBRARY_PATH

# 方法 2:uv 安裝
uv pip install vllm --torch-backend=auto

# 方法 3:指定 CUDA 版本
pip install vllm --extra-index-url https://download.pytorch.org/whl/cu129

3. KV 緩存加載策略變更

KV load failure policy 默認值從recompute變?yōu)?code>fail。如果你的部署依賴自動重算行為,需要手動設(shè)置回去。

安裝

安裝很簡單,一行命令:

uv pip install vllm

Docker 用戶:

docker pull vllm/vllm-openai:v0.17.0
docker run --gpus all \
-v ~/.cache/huggingface:/root/.cache/huggingface \
--env "HF_TOKEN=$HF_TOKEN" \
-p 8000:8000 \
--ipc=host \
vllm/vllm-openai:v0.17.0 \
--model Qwen/Qwen3-0.6B
和 SGLang 怎么選?

這是評論區(qū)最常被問到的問題之一。我簡單說下我的看法:

  • vLLM:更成熟,社區(qū)更大(GitHub 50k+ stars),硬件兼容性更好,企業(yè)級特性更豐富(pipeline parallel、disaggregated serving 等)。適合生產(chǎn)環(huán)境部署。

  • SGLang:在某些場景下性能更極致(特別是 DeepSeek 系列模型),API 更現(xiàn)代化。適合追求極致性能的場景。

兩者都是頂級的推理引擎,現(xiàn)在更像是Chrome vs Firefox的關(guān)系——競爭推動了整個行業(yè)的進步。

總結(jié)

vLLM v0.17.0 是一個里程碑式的版本。FlashAttention 4 集成、Model Runner V2 成熟、Qwen3.5 全面支持、一鍵性能調(diào)優(yōu)、Anthropic API 兼容……幾乎每一個更新都是硬核的工程突破。

如果你正在做 LLM 推理部署,不管是研發(fā)還是生產(chǎn)環(huán)境,vLLM 依然是最值得關(guān)注的推理引擎之一。

.5

制作不易,如果這篇文章覺得對你有用,可否點個關(guān)注。給我個三連擊:點贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
伊朗宣布對所有商船開放霍爾木茲海峽,美維持對伊海上封鎖,伊朗議長:特朗普7項聲明“均不屬實”

伊朗宣布對所有商船開放霍爾木茲海峽,美維持對伊海上封鎖,伊朗議長:特朗普7項聲明“均不屬實”

縱相新聞
2026-04-18 12:36:03
突然“值錢了”!不少人家里都有,專家提醒:別賣!

突然“值錢了”!不少人家里都有,專家提醒:別賣!

劉哥談體育
2026-04-19 21:40:06
王偉中對俄羅斯后貝加爾邊疆區(qū)交通事故作出批示

王偉中對俄羅斯后貝加爾邊疆區(qū)交通事故作出批示

澎湃新聞
2026-04-19 13:55:05
不裝了賴清德、馬英九暴露真面目!國民黨發(fā)甲級動員,想決一死戰(zhàn)

不裝了賴清德、馬英九暴露真面目!國民黨發(fā)甲級動員,想決一死戰(zhàn)

青梅侃史啊
2026-04-19 19:17:48
中小學(xué)生上課時間大調(diào)整:9點上課或成新規(guī),周六上課引家長熱議

中小學(xué)生上課時間大調(diào)整:9點上課或成新規(guī),周六上課引家長熱議

復(fù)轉(zhuǎn)這些年
2026-04-18 12:47:43
美國全世界逛一圈才發(fā)現(xiàn),自己扶持所有小弟里,最能打的還是老蔣

美國全世界逛一圈才發(fā)現(xiàn),自己扶持所有小弟里,最能打的還是老蔣

呼呼體壇
2026-04-19 18:26:54
局勢生變,全球接到消息,美軍全部撤離,所有軍事基地被敘國接管

局勢生變,全球接到消息,美軍全部撤離,所有軍事基地被敘國接管

聞識
2026-04-19 21:08:29
美國證實!伊朗最高領(lǐng)袖“已受傷但仍活著”,伊朗方面此前稱穆杰塔巴·哈梅內(nèi)伊身體健康 ,但因戰(zhàn)爭推遲公開露面

美國證實!伊朗最高領(lǐng)袖“已受傷但仍活著”,伊朗方面此前稱穆杰塔巴·哈梅內(nèi)伊身體健康 ,但因戰(zhàn)爭推遲公開露面

每日經(jīng)濟新聞
2026-04-16 23:06:57
曼城羅德里傷病令人擔憂,瓜迪奧拉給出更新

曼城羅德里傷病令人擔憂,瓜迪奧拉給出更新

綠茵情報局
2026-04-20 04:22:15
研究表明,中學(xué)生的抑郁率已高達36%!

研究表明,中學(xué)生的抑郁率已高達36%!

黯泉
2026-04-18 18:06:01
《八千里路云和月》朱管家想不到,算計田家泰家業(yè),卻成全了萬福

《八千里路云和月》朱管家想不到,算計田家泰家業(yè),卻成全了萬福

白淺娛樂聊
2026-04-19 12:37:15
難怪能成為大明星,小時候居然這么漂亮!大家看出來她是誰了嗎?

難怪能成為大明星,小時候居然這么漂亮!大家看出來她是誰了嗎?

阿廢冷眼觀察所
2026-04-19 22:13:42
國產(chǎn)光纖全球“爆單”:部分產(chǎn)品價格暴漲650%

國產(chǎn)光纖全球“爆單”:部分產(chǎn)品價格暴漲650%

環(huán)球網(wǎng)資訊
2026-04-19 11:16:14
身材纖細、體態(tài)修長的日本業(yè)界骨感美人·TOP10

身材纖細、體態(tài)修長的日本業(yè)界骨感美人·TOP10

吃瓜黨二號頭目
2026-04-19 09:58:57
神替補!桑喬兩次送禮,鴨脖救主,維拉先被絕平又反絕殺,太刺激

神替補!桑喬兩次送禮,鴨脖救主,維拉先被絕平又反絕殺,太刺激

硬腿子聊個球
2026-04-19 22:58:51
真給力!5月1日起,65歲老人坐公交全省都免費 福建老人幸福感拉滿

真給力!5月1日起,65歲老人坐公交全省都免費 福建老人幸福感拉滿

今日搞笑分享
2026-04-19 16:37:15
第一次對「鋁箔紙」產(chǎn)生了敬意!以為烘焙專用,沒想到是家居神器

第一次對「鋁箔紙」產(chǎn)生了敬意!以為烘焙專用,沒想到是家居神器

裝修秀
2026-04-18 11:55:03
莫蘭特灰熊時代終章:從天之驕子到無人問津的墜落

莫蘭特灰熊時代終章:從天之驕子到無人問津的墜落

漫川舟船
2026-04-19 15:03:30
打蛇打七寸!中國全面斷供開始,日本多行業(yè)停擺,高市真慌了

打蛇打七寸!中國全面斷供開始,日本多行業(yè)停擺,高市真慌了

有你便是晴天呢
2026-04-19 09:27:13
吃相太難看!莫氏雞煲爆火后,惡心一幕出現(xiàn),終走上呆呆妹的老路

吃相太難看!莫氏雞煲爆火后,惡心一幕出現(xiàn),終走上呆呆妹的老路

以茶帶書
2026-04-15 17:30:12
2026-04-20 07:12:49
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3334文章數(shù) 11137關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀錄!300臺機器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

財經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

藝術(shù)
教育
手機
時尚
健康

藝術(shù)要聞

蒲華寫水仙,清健嫵媚

教育要聞

中國為什么不禁網(wǎng)絡(luò)游戲?

手機要聞

8.8英寸小鋼炮!REDMI K Pad 2核心配置揭曉

裝修“精神角落”,就是這么上癮

干細胞抗衰4大誤區(qū),90%的人都中招

無障礙瀏覽 進入關(guān)懷版