vLLM 重要更新

2025-12-20 11:39:30　來源: 機器學(xué)習(xí)與Python社區(qū)

北京舉報

分享至

vLLM 作為目前最受歡迎的開源 LLM 推理和服務(wù)框架，近期發(fā)布了一系列重大更新。本文將詳細(xì)解讀 vLLM 團(tuán)隊在2025年12月密集發(fā)布的六項核心技術(shù)進(jìn)展，涵蓋路由負(fù)載均衡、推測解碼、幻覺檢測、多模態(tài)服務(wù)、語義路由及大規(guī)模部署等關(guān)鍵領(lǐng)域。

vLLM Router：高性能智能負(fù)載均衡器
Speculators v0.3.0：推測解碼訓(xùn)練支持
HaluGate：實時幻覺檢測管道
編碼器解耦（EPD）：多模態(tài)模型服務(wù)優(yōu)化
AMD × vLLM 語義路由器：混合模型智能協(xié)作
大規(guī)模服務(wù)：DeepSeek @ 2.2k tok/s/H200

1. vLLM Router：高性能智能負(fù)載均衡器

發(fā)布日期：2025年12月13日

在大規(guī)模生產(chǎn)環(huán)境中，高效管理請求分發(fā)至多個模型副本至關(guān)重要。傳統(tǒng)負(fù)載均衡器往往缺乏對 LLM 推理有狀態(tài)特性（如 KV 緩存）的感知，無法處理復(fù)雜的服務(wù)模式（如 Prefill/Decode 分離）。

核心架構(gòu)

vLLM Router 是一款專為 vLLM 打造的高性能、輕量級負(fù)載均衡器，采用 Rust 構(gòu)建以實現(xiàn)最小開銷。它作為智能、狀態(tài)感知的負(fù)載均衡器，位于客戶端和 vLLM 工作節(jié)點集群之間。

vLLM Router 架構(gòu)示意圖智能負(fù)載均衡策略

vLLM Router 提供多種負(fù)載均衡算法：

策略

特點

一致性哈希

確保相同路由鍵的請求"粘性"路由到同一工作節(jié)點，最大化 KV 緩存復(fù)用

Power of Two

低開銷隨機選擇策略，提供優(yōu)秀的負(fù)載分配

輪詢 & 隨機

無狀態(tài)負(fù)載分配的標(biāo)準(zhǔn)策略

原生 Prefill/Decode 分離支持

Router 作為 vLLM 最先進(jìn)服務(wù)架構(gòu)的編排層：

智能將新請求路由到 Prefill 工作組
完成后，將請求狀態(tài)定向到適當(dāng)?shù)? Decode 工作節(jié)點 進(jìn)行 token 生成
支持 NIXL 和 NCCL-based 分離后端

性能基準(zhǔn)測試

DeepSeek V3 基準(zhǔn)測試

Llama 3.1 8B（8 Prefill pods + 8 Decode pods）：

vLLM Router 吞吐量比 llm-d 高 25%，比 K8s 原生負(fù)載均衡器高 100%
TTFT 比 llm-d 快 1200ms

DeepSeek V3（TP8 配置）：

吞吐量比 K8s 原生負(fù)載均衡器 高 100%
TTFT 比 llm-d 和 K8s 原生 快 2000ms

2. Speculators v0.3.0：推測解碼訓(xùn)練支持

發(fā)布日期：2025年12月13日
貢獻(xiàn)團(tuán)隊：Red Hat AI 模型優(yōu)化團(tuán)隊

什么是推測解碼？

推測解碼允許 LLM 在單次前向傳播中生成多個 token。它利用一個小型"草稿"模型與完整的"驗證"模型配合工作：

Eagle3 架構(gòu)

工作原理：

草稿模型快速自回歸預(yù)測多個 token
驗證模型并行處理這些 token
驗證器決定是否接受每個 token
被拒絕的 token 及后續(xù)序列將被丟棄

優(yōu)勢：

最終響應(yīng)與僅使用驗證模型完全一致，無性能降級
驗證模型可并行生成多個 token
草稿模型開銷極小

端到端訓(xùn)練支持

Speculators v0.3.0 提供 Eagle3 草稿模型的完整訓(xùn)練支持：

數(shù)據(jù)生成流程

訓(xùn)練流程包括：

使用 vLLM 的離線數(shù)據(jù)生成
單層和多層草稿模型訓(xùn)練
MoE 和非 MoE 驗證器支持

隱狀態(tài)生成器一鍵部署

訓(xùn)練完成后，只需簡單命令即可在 vLLM 中運行：

vllm serve RedHatAI/Llama-3.1-8B-Instruct-speculator.eagle3

支持的模型：

Llama (3.1, 3.2, 3.3): 8B 到 70B 參數(shù)
Qwen3: 8B, 14B, 32B 參數(shù)
Qwen3 MoE: 235B-A22B 參數(shù)
GPT-OSS: 20B, 120B 參數(shù)
多模態(tài)：Llama 4 視覺-語言模型

3. HaluGate：實時幻覺檢測管道

發(fā)布日期：2025年12月14日

問題背景

幻覺已成為 LLM 生產(chǎn)部署的最大障礙?？缧袠I(yè)場景中（法律、醫(yī)療、金融、客服），模型會生成看似權(quán)威但經(jīng)不起推敲的虛假內(nèi)容。

幻覺問題示例

典型場景：

工具返回正確數(shù)據(jù)： {"built": "1887-1889", "height": "330 meters"}
LLM 響應(yīng)卻是："埃菲爾鐵塔建于1950年，高500米"

HaluGate 兩階段檢測管道

HaluGate 架構(gòu) 階段一：HaluGate Sentinel（提示分類）

不是每個查詢都需要幻覺檢測。HaluGate Sentinel 是基于 ModernBERT 的分類器，判斷提示是否需要事實驗證：

Sentinel 工作流程

需要驗證 ：QA、真實性測試、幻覺基準(zhǔn)、信息查詢對話
無需驗證 ：創(chuàng)意寫作、代碼、觀點/指令類

準(zhǔn)確率達(dá) **96.4%**，推理延遲僅 ~12ms。

階段二：Token 級別檢測 + NLI 解釋
Token級檢測

與句子級分類器不同，token 級檢測能精確識別哪些 token 不受上下文支持：

輸入: [CLS] context [SEP] question [SEP] answer [SEP]
      ↓
ModernBERT 編碼器
      ↓
Token 分類頭 (每個 token 二分類)
      ↓
標(biāo)簽: 0 = 支持, 1 = 幻覺

NLI 解釋層

為什么采用集成方法？ Token 級檢測單獨僅達(dá) 59% F1；兩階段方法將平庸的檢測器轉(zhuǎn)化為可操作系統(tǒng)：LettuceDetect 提供召回率，NLI 提供精度和可解釋性。

性能表現(xiàn)
延遲對比

方法

延遲

成本

LLM-as-Judge (GPT-4)

500-3000ms

$0.03/請求

HaluGate

50-125ms

固定 GPU 成本

4. 編碼器解耦（EPD）：多模態(tài)模型服務(wù)優(yōu)化

發(fā)布日期：2025年12月15日
貢獻(xiàn)團(tuán)隊：vLLM 多模態(tài)工作流組

問題動機

現(xiàn)代大型多模態(tài)模型（LMM）引入了獨特的服務(wù)瓶頸：在任何文本生成開始之前，所有圖像必須由視覺編碼器（如 ViT）處理。

EPD 架構(gòu)圖

傳統(tǒng)方案的問題：

編碼器在 GPU 上運行時，Decode 階段必須等待
圖像密集型請求會阻塞純文本請求
編碼器利用率不均導(dǎo)致資源浪費

解耦方案的三大優(yōu)勢

工作流程圖 1. 流水線執(zhí)行與消除干擾

E → P D (請求 1)
    E → P D (請求 2)
        E → P D (請求 3)

請求 N 的編碼可在請求 N-1 預(yù)填充/解碼時運行
純文本請求完全繞過編碼器
系統(tǒng)變?yōu)榱魉€并行，提升吞吐量

2. 獨立細(xì)粒度擴(kuò)展

根據(jù)多模態(tài)圖像量擴(kuò)展編碼器 GPU
根據(jù)請求率和輸出長度擴(kuò)展 Prefill/Decode GPU

3. 編碼器輸出緩存與復(fù)用

常用圖像（logo、圖表、產(chǎn)品圖）的嵌入只計算一次
緩存命中的請求編碼成本為零，直接降低 TTFT

性能測試結(jié)果

測試環(huán)境：4×A100 80G，模型：Qwen3-VL-4B-Instruct

短文本工作負(fù)載

短文本工作負(fù)載（~400 tokens）：

單圖：goodput 小幅提升（23 → 24 QPS）
四圖： goodput 翻倍 （6 → 12 QPS）
P99 TTFT/TPOT 通常 降低 20-50%

長文本工作負(fù)載

長文本工作負(fù)載（~2000 tokens）：

EPD 保持 18/11/9/8 QPS vs 基線 8/4/4/4 QPS — 2-2.5倍 goodput
有效解碼吞吐增加 10-30%

NPU 測試結(jié)果

硬件可移植性： 在華為昇騰 NPU（4×Ascend 910B 32G）上也展現(xiàn)了相同的架構(gòu)級收益。

5. AMD × vLLM 語義路由器：混合模型智能協(xié)作

發(fā)布日期：2025年12月16日
貢獻(xiàn)團(tuán)隊：AMD 與 vLLM 語義路由器團(tuán)隊

從單模型到混合模型的轉(zhuǎn)變
混合模型架構(gòu)

在混合模型（Mixture-of-Models）世界中，企業(yè) AI 棧通常包括：

路由 SLM ：分類、路由和策略執(zhí)行
多個 LLM 和領(lǐng)域?qū)Ｓ媚Ｐ停ùa、金融、醫(yī)療、法律）
工具、RAG 管道、向量搜索和業(yè)務(wù)系統(tǒng)

VSR 核心能力

VSR 核心功能 1. 基于信號的 Multi-LoRA 路由

路由策略

描述

關(guān)鍵詞路由

快速確定性的模式匹配

領(lǐng)域分類

意圖感知的適配器選擇

嵌入語義相似度

基于語義理解的細(xì)粒度路由

事實檢查路由

高風(fēng)險查詢路由到專門驗證管道

2. 跨實例智能

Response API ：集中存儲實現(xiàn)有狀態(tài)多輪對話
語義緩存 ：通過跨實例向量匹配顯著減少 token 使用

3. 企業(yè)級護(hù)欄

企業(yè)護(hù)欄

PII 檢測 ：防止敏感信息泄露
越獄防護(hù) ：阻止惡意提示注入
幻覺檢測 ：驗證關(guān)鍵領(lǐng)域的響應(yīng)可靠性
超級對齊 ：確保 AI 系統(tǒng)在向 AGI 能力擴(kuò)展時保持與人類價值觀對齊

AMD GPU 部署路徑

部署路徑

兩種部署方式：

基于 vLLM 的推理 ：在 AMD GPU 上運行完整推理
輕量級 ONNX 路由 ：僅路由邏輯，最小化資源占用

6. 大規(guī)模服務(wù)：DeepSeek @ 2.2k tok/s/H200

發(fā)布日期：2025年12月17日

V1 引擎完成遷移

在 v0.11.0 中，vLLM V0 引擎的最后代碼被移除，標(biāo)志著向改進(jìn)的 V1 引擎架構(gòu)的完全遷移。這一成就離不開 vLLM 社區(qū) 1,969 位貢獻(xiàn)者的努力。

性能突破
Prefill 吞吐 Decode 吞吐

社區(qū)基準(zhǔn)測試（Coreweave H200 集群，Infiniband + ConnectX-7 NICs）顯示：

生產(chǎn)級多節(jié)點部署達(dá)到 2.2k tokens/s 每 GPU
相比早期 1.5k tokens/s 有顯著提升

核心組件 Wide-EP（專家并行）

https://blog.vllm.ai/ Wide-EP Token 路由

DeepSeek-V3 部署的兩大考慮：

稀疏專家激活 ：DeepSeek-R1 每次前向傳播僅激活 37B/671B 參數(shù)
KV 緩存管理 ：張量并行對 MLA 注意力架構(gòu)并非最優(yōu)

KV 緩存對比

Wide-EP 結(jié)合 EP 與數(shù)據(jù)并行（DP），最大化 MLA 架構(gòu)的 KV 緩存效率。

雙批次重疊（DBO）
DBO 優(yōu)化前

優(yōu)化前： MoE 調(diào)度/組合部分的通信開銷占用大量時間

DBO 優(yōu)化后

優(yōu)化后： 微批次工作線程交替執(zhí)行，重疊計算與通信，提升 GPU 利用率

專家并行負(fù)載均衡（EPLB）

MoE 專家層在訓(xùn)練時針對平衡負(fù)載優(yōu)化，但推理時實際工作負(fù)載可能導(dǎo)致不均衡。EPLB 動態(tài)調(diào)整邏輯到物理專家的映射。

分離式服務(wù)（Disaggregated Serving）

分離式服務(wù)

由于專家分布在各 rank 上，單個計算密集型 prefill 請求可能延遲整個 EP 組的前向傳播。分離式服務(wù)放大了解耦的收益。

部署方案

方案

特點

llm-d

Kubernetes 原生分布式推理服務(wù)棧

Dynamo

高吞吐低延遲生產(chǎn)部署，支持 KV 感知路由

Ray Serve LLM

模塊化部署，無縫集成 Ray 生態(tài)

總結(jié)

vLLM 在2025年12月的更新展現(xiàn)了其在大規(guī)模 LLM 推理領(lǐng)域的持續(xù)創(chuàng)新：

vLLM Router 解決了生產(chǎn)環(huán)境中的智能負(fù)載均衡問題
Speculators v0.3.0 讓推測解碼從研究走向生產(chǎn)
HaluGate 提供了實時、低延遲的幻覺檢測能力
EPD 通過編碼器解耦優(yōu)化多模態(tài)模型服務(wù)
AMD × VSR 構(gòu)建了混合模型時代的智能控制面
大規(guī)模服務(wù)優(yōu)化 實現(xiàn)了 2.2k tok/s/H200 的突破性性能

這些技術(shù)進(jìn)展共同推動 vLLM 成為企業(yè)級 AI 基礎(chǔ)設(shè)施的核心組件，為構(gòu)建可擴(kuò)展、可信賴、高性能的 AI 應(yīng)用提供了堅實基礎(chǔ)。

本文由 AI 輔助編寫，基于 vLLM 官方博客https://blog.vllm.ai/內(nèi)容整理。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.