国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

vLLM 重要更新

0
分享至

vLLM 作為目前最受歡迎的開源 LLM 推理和服務(wù)框架,近期發(fā)布了一系列重大更新。本文將詳細(xì)解讀 vLLM 團(tuán)隊在2025年12月密集發(fā)布的六項核心技術(shù)進(jìn)展,涵蓋路由負(fù)載均衡、推測解碼、幻覺檢測、多模態(tài)服務(wù)、語義路由及大規(guī)模部署等關(guān)鍵領(lǐng)域。
目錄
  1. vLLM Router:高性能智能負(fù)載均衡器

  2. Speculators v0.3.0:推測解碼訓(xùn)練支持

  3. HaluGate:實時幻覺檢測管道

  4. 編碼器解耦(EPD):多模態(tài)模型服務(wù)優(yōu)化

  5. AMD × vLLM 語義路由器:混合模型智能協(xié)作

  6. 大規(guī)模服務(wù):DeepSeek @ 2.2k tok/s/H200

1. vLLM Router:高性能智能負(fù)載均衡器

發(fā)布日期:2025年12月13日

在大規(guī)模生產(chǎn)環(huán)境中,高效管理請求分發(fā)至多個模型副本至關(guān)重要。傳統(tǒng)負(fù)載均衡器往往缺乏對 LLM 推理有狀態(tài)特性(如 KV 緩存)的感知,無法處理復(fù)雜的服務(wù)模式(如 Prefill/Decode 分離)。

核心架構(gòu)

vLLM Router 是一款專為 vLLM 打造的高性能、輕量級負(fù)載均衡器,采用 Rust 構(gòu)建以實現(xiàn)最小開銷。它作為智能、狀態(tài)感知的負(fù)載均衡器,位于客戶端和 vLLM 工作節(jié)點集群之間。


vLLM Router 架構(gòu)示意圖 智能負(fù)載均衡策略

vLLM Router 提供多種負(fù)載均衡算法:

策略

特點

一致性哈希

確保相同路由鍵的請求"粘性"路由到同一工作節(jié)點,最大化 KV 緩存復(fù)用

Power of Two

低開銷隨機選擇策略,提供優(yōu)秀的負(fù)載分配

輪詢 & 隨機

無狀態(tài)負(fù)載分配的標(biāo)準(zhǔn)策略


原生 Prefill/Decode 分離支持

Router 作為 vLLM 最先進(jìn)服務(wù)架構(gòu)的編排層:

  1. 智能將新請求路由到 Prefill 工作組

  2. 完成后,將請求狀態(tài)定向到適當(dāng)?shù)? Decode 工作節(jié)點 進(jìn)行 token 生成

  3. 支持 NIXL 和 NCCL-based 分離后端

性能基準(zhǔn)測試 DeepSeek V3 基準(zhǔn)測試

Llama 3.1 8B(8 Prefill pods + 8 Decode pods):

  • vLLM Router 吞吐量比 llm-d 高 25%,比 K8s 原生負(fù)載均衡器高 100%

  • TTFT 比 llm-d 快 1200ms

DeepSeek V3(TP8 配置):

  • 吞吐量比 K8s 原生負(fù)載均衡器 高 100%

  • TTFT 比 llm-d 和 K8s 原生 快 2000ms

2. Speculators v0.3.0:推測解碼訓(xùn)練支持

發(fā)布日期:2025年12月13日
貢獻(xiàn)團(tuán)隊:Red Hat AI 模型優(yōu)化團(tuán)隊

什么是推測解碼?

推測解碼允許 LLM 在單次前向傳播中生成多個 token。它利用一個小型"草稿"模型與完整的"驗證"模型配合工作:


Eagle3 架構(gòu)

工作原理:

  1. 草稿模型快速自回歸預(yù)測多個 token

  2. 驗證模型并行處理這些 token

  3. 驗證器決定是否接受每個 token

  4. 被拒絕的 token 及后續(xù)序列將被丟棄

優(yōu)勢:

  • 最終響應(yīng)與僅使用驗證模型完全一致,無性能降級

  • 驗證模型可并行生成多個 token

  • 草稿模型開銷極小

端到端訓(xùn)練支持

Speculators v0.3.0 提供 Eagle3 草稿模型的完整訓(xùn)練支持:


數(shù)據(jù)生成流程

訓(xùn)練流程包括:

  • 使用 vLLM 的離線數(shù)據(jù)生成

  • 單層和多層草稿模型訓(xùn)練

  • MoE 和非 MoE 驗證器支持

隱狀態(tài)生成器 一鍵部署

訓(xùn)練完成后,只需簡單命令即可在 vLLM 中運行:

vllm serve RedHatAI/Llama-3.1-8B-Instruct-speculator.eagle3

支持的模型:

  • Llama (3.1, 3.2, 3.3): 8B 到 70B 參數(shù)

  • Qwen3: 8B, 14B, 32B 參數(shù)

  • Qwen3 MoE: 235B-A22B 參數(shù)

  • GPT-OSS: 20B, 120B 參數(shù)

  • 多模態(tài):Llama 4 視覺-語言模型

3. HaluGate:實時幻覺檢測管道

發(fā)布日期:2025年12月14日

問題背景

幻覺已成為 LLM 生產(chǎn)部署的最大障礙??缧袠I(yè)場景中(法律、醫(yī)療、金融、客服),模型會生成看似權(quán)威但經(jīng)不起推敲的虛假內(nèi)容。


幻覺問題示例

典型場景:

  • 工具返回正確數(shù)據(jù): {"built": "1887-1889", "height": "330 meters"}

  • LLM 響應(yīng)卻是:"埃菲爾鐵塔建于1950年,高500米"

HaluGate 兩階段檢測管道 HaluGate 架構(gòu) 階段一:HaluGate Sentinel(提示分類)

不是每個查詢都需要幻覺檢測。HaluGate Sentinel 是基于 ModernBERT 的分類器,判斷提示是否需要事實驗證:


Sentinel 工作流程


  • 需要驗證 :QA、真實性測試、幻覺基準(zhǔn)、信息查詢對話

  • 無需驗證 :創(chuàng)意寫作、代碼、觀點/指令類

準(zhǔn)確率達(dá) **96.4%**,推理延遲僅 ~12ms。

階段二:Token 級別檢測 + NLI 解釋
Token級檢測

與句子級分類器不同,token 級檢測能精確識別哪些 token 不受上下文支持:

輸入: [CLS] context [SEP] question [SEP] answer [SEP]

ModernBERT 編碼器

Token 分類頭 (每個 token 二分類)

標(biāo)簽: 0 = 支持, 1 = 幻覺
NLI 解釋層

為什么采用集成方法? Token 級檢測單獨僅達(dá) 59% F1;兩階段方法將平庸的檢測器轉(zhuǎn)化為可操作系統(tǒng):LettuceDetect 提供召回率,NLI 提供精度和可解釋性。

性能表現(xiàn)
延遲對比

方法

延遲

成本

LLM-as-Judge (GPT-4)

500-3000ms

$0.03/請求

HaluGate

50-125ms

固定 GPU 成本


4. 編碼器解耦(EPD):多模態(tài)模型服務(wù)優(yōu)化

發(fā)布日期:2025年12月15日
貢獻(xiàn)團(tuán)隊:vLLM 多模態(tài)工作流組

問題動機

現(xiàn)代大型多模態(tài)模型(LMM)引入了獨特的服務(wù)瓶頸:在任何文本生成開始之前,所有圖像必須由視覺編碼器(如 ViT)處理。


EPD 架構(gòu)圖

傳統(tǒng)方案的問題:

  • 編碼器在 GPU 上運行時,Decode 階段必須等待

  • 圖像密集型請求會阻塞純文本請求

  • 編碼器利用率不均導(dǎo)致資源浪費

解耦方案的三大優(yōu)勢 工作流程圖 1. 流水線執(zhí)行與消除干擾

E → P D (請求 1)
E → P D (請求 2)
E → P D (請求 3)
  • 請求 N 的編碼可在請求 N-1 預(yù)填充/解碼時運行

  • 純文本請求完全繞過編碼器

  • 系統(tǒng)變?yōu)榱魉€并行,提升吞吐量

2. 獨立細(xì)粒度擴(kuò)展
  • 根據(jù)多模態(tài)圖像量擴(kuò)展編碼器 GPU

  • 根據(jù)請求率和輸出長度擴(kuò)展 Prefill/Decode GPU

3. 編碼器輸出緩存與復(fù)用
  • 常用圖像(logo、圖表、產(chǎn)品圖)的嵌入只計算一次

  • 緩存命中的請求編碼成本為零,直接降低 TTFT

性能測試結(jié)果

測試環(huán)境:4×A100 80G,模型:Qwen3-VL-4B-Instruct


短文本工作負(fù)載

短文本工作負(fù)載(~400 tokens):

  • 單圖:goodput 小幅提升(23 → 24 QPS)

  • 四圖: goodput 翻倍 (6 → 12 QPS)

  • P99 TTFT/TPOT 通常 降低 20-50%

長文本工作負(fù)載

長文本工作負(fù)載(~2000 tokens):

  • EPD 保持 18/11/9/8 QPS vs 基線 8/4/4/4 QPS — 2-2.5倍 goodput

  • 有效解碼吞吐增加 10-30%

NPU 測試結(jié)果

硬件可移植性: 在華為昇騰 NPU(4×Ascend 910B 32G)上也展現(xiàn)了相同的架構(gòu)級收益。

5. AMD × vLLM 語義路由器:混合模型智能協(xié)作

發(fā)布日期:2025年12月16日
貢獻(xiàn)團(tuán)隊:AMD 與 vLLM 語義路由器團(tuán)隊

從單模型到混合模型的轉(zhuǎn)變
混合模型架構(gòu)

在混合模型(Mixture-of-Models)世界中,企業(yè) AI 棧通常包括:

  • 路由 SLM :分類、路由和策略執(zhí)行

  • 多個 LLM 和領(lǐng)域?qū)S媚P停ùa、金融、醫(yī)療、法律)

  • 工具、RAG 管道、向量搜索和業(yè)務(wù)系統(tǒng)

VSR 核心能力 VSR 核心功能 1. 基于信號的 Multi-LoRA 路由

路由策略

描述

關(guān)鍵詞路由

快速確定性的模式匹配

領(lǐng)域分類

意圖感知的適配器選擇

嵌入語義相似度

基于語義理解的細(xì)粒度路由

事實檢查路由

高風(fēng)險查詢路由到專門驗證管道


2. 跨實例智能

  • Response API :集中存儲實現(xiàn)有狀態(tài)多輪對話

  • 語義緩存 :通過跨實例向量匹配顯著減少 token 使用

3. 企業(yè)級護(hù)欄 企業(yè)護(hù)欄
  • PII 檢測 :防止敏感信息泄露

  • 越獄防護(hù) :阻止惡意提示注入

  • 幻覺檢測 :驗證關(guān)鍵領(lǐng)域的響應(yīng)可靠性

  • 超級對齊 :確保 AI 系統(tǒng)在向 AGI 能力擴(kuò)展時保持與人類價值觀對齊

AMD GPU 部署路徑 部署路徑

兩種部署方式:

  1. 基于 vLLM 的推理 :在 AMD GPU 上運行完整推理

  2. 輕量級 ONNX 路由 :僅路由邏輯,最小化資源占用

6. 大規(guī)模服務(wù):DeepSeek @ 2.2k tok/s/H200

發(fā)布日期:2025年12月17日

V1 引擎完成遷移

在 v0.11.0 中,vLLM V0 引擎的最后代碼被移除,標(biāo)志著向改進(jìn)的 V1 引擎架構(gòu)的完全遷移。這一成就離不開 vLLM 社區(qū) 1,969 位貢獻(xiàn)者的努力。

性能突破
Prefill 吞吐 Decode 吞吐

社區(qū)基準(zhǔn)測試(Coreweave H200 集群,Infiniband + ConnectX-7 NICs)顯示:

  • 生產(chǎn)級多節(jié)點部署達(dá)到 2.2k tokens/s 每 GPU

  • 相比早期 1.5k tokens/s 有顯著提升

核心組件 Wide-EP(專家并行)



https://blog.vllm.ai/ Wide-EP Token 路由

DeepSeek-V3 部署的兩大考慮:

  • 稀疏專家激活 :DeepSeek-R1 每次前向傳播僅激活 37B/671B 參數(shù)

  • KV 緩存管理 :張量并行對 MLA 注意力架構(gòu)并非最優(yōu)

KV 緩存對比

Wide-EP 結(jié)合 EP 與數(shù)據(jù)并行(DP),最大化 MLA 架構(gòu)的 KV 緩存效率。

雙批次重疊(DBO)
DBO 優(yōu)化前

優(yōu)化前: MoE 調(diào)度/組合部分的通信開銷占用大量時間


DBO 優(yōu)化后

優(yōu)化后: 微批次工作線程交替執(zhí)行,重疊計算與通信,提升 GPU 利用率

專家并行負(fù)載均衡(EPLB)


MoE 專家層在訓(xùn)練時針對平衡負(fù)載優(yōu)化,但推理時實際工作負(fù)載可能導(dǎo)致不均衡。EPLB 動態(tài)調(diào)整邏輯到物理專家的映射。

分離式服務(wù)(Disaggregated Serving)


分離式服務(wù)

由于專家分布在各 rank 上,單個計算密集型 prefill 請求可能延遲整個 EP 組的前向傳播。分離式服務(wù)放大了解耦的收益。

部署方案

方案

特點


llm-d

Kubernetes 原生分布式推理服務(wù)棧


Dynamo

高吞吐低延遲生產(chǎn)部署,支持 KV 感知路由


Ray Serve LLM

模塊化部署,無縫集成 Ray 生態(tài)


總結(jié)

vLLM 在2025年12月的更新展現(xiàn)了其在大規(guī)模 LLM 推理領(lǐng)域的持續(xù)創(chuàng)新:

  1. vLLM Router 解決了生產(chǎn)環(huán)境中的智能負(fù)載均衡問題

  2. Speculators v0.3.0 讓推測解碼從研究走向生產(chǎn)

  3. HaluGate 提供了實時、低延遲的幻覺檢測能力

  4. EPD 通過編碼器解耦優(yōu)化多模態(tài)模型服務(wù)

  5. AMD × VSR 構(gòu)建了混合模型時代的智能控制面

  6. 大規(guī)模服務(wù)優(yōu)化 實現(xiàn)了 2.2k tok/s/H200 的突破性性能

這些技術(shù)進(jìn)展共同推動 vLLM 成為企業(yè)級 AI 基礎(chǔ)設(shè)施的核心組件,為構(gòu)建可擴(kuò)展、可信賴、高性能的 AI 應(yīng)用提供了堅實基礎(chǔ)。

本文由 AI 輔助編寫,基于 vLLM 官方博客https://blog.vllm.ai/內(nèi)容整理。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
別大意!長期戴口罩,這7種不適正在悄悄傷害你

別大意!長期戴口罩,這7種不適正在悄悄傷害你

孟大夫之家1
2025-12-25 11:57:04
內(nèi)部人士:勇士隊若想達(dá)成庫明加的重磅交易,格林或?qū)⒈凰妥?>
    </a>
        <h3>
      <a href=好火子
2025-12-27 03:58:07
李關(guān)定辭去寧波市副市長職務(wù)

李關(guān)定辭去寧波市副市長職務(wù)

澎湃新聞
2025-12-26 21:32:21
真當(dāng)中國不敢動手?中方向全世界宣布,退出5000億大項目,菲慌了

真當(dāng)中國不敢動手?中方向全世界宣布,退出5000億大項目,菲慌了

瞳哥視界
2025-12-25 20:48:12
不尋常!拜登發(fā)布了一張全家福圣誕賀照片,大部分身體被妻子遮擋

不尋常!拜登發(fā)布了一張全家福圣誕賀照片,大部分身體被妻子遮擋

我是盲流
2025-12-26 08:31:25
歐盟很惱火:我只是給中國電車加了點稅,中國干嘛對我發(fā)起反制?

歐盟很惱火:我只是給中國電車加了點稅,中國干嘛對我發(fā)起反制?

回京歷史夢
2025-12-26 11:24:08
離譜!唐僧師徒直播取經(jīng),直播間擠爆上萬人,化緣直接日入過萬!

離譜!唐僧師徒直播取經(jīng),直播間擠爆上萬人,化緣直接日入過萬!

可樂談情感
2025-12-26 00:54:17
洪瑪奈沒想到,中國反制來得這么快,泰軍不留手,繼續(xù)轟炸柬邊境

洪瑪奈沒想到,中國反制來得這么快,泰軍不留手,繼續(xù)轟炸柬邊境

我是盲流
2025-12-27 02:15:41
慘勝也是勝!廣東6連勝!不得不承認(rèn)廣東不能缺少三人!頑疾難克

慘勝也是勝!廣東6連勝!不得不承認(rèn)廣東不能缺少三人!頑疾難克

老牛體育解說
2025-12-26 22:53:02
我國超2億人有頸動脈斑塊!研究證實:斑塊可以消退!有4點建議

我國超2億人有頸動脈斑塊!研究證實:斑塊可以消退!有4點建議

展望云霄
2025-12-23 21:03:05
理發(fā)店陷入生存危機,沒有電商沖擊,卻紛紛倒閉,原因很扎心

理發(fā)店陷入生存危機,沒有電商沖擊,卻紛紛倒閉,原因很扎心

老范談史
2025-12-12 23:06:41
410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

深度報
2025-12-14 22:36:54
美女白色露臍T恤配藍(lán)色瑜伽褲,性感值拉滿,簡直是行走的 荷爾蒙

美女白色露臍T恤配藍(lán)色瑜伽褲,性感值拉滿,簡直是行走的 荷爾蒙

小喬古裝漢服
2025-09-24 07:20:03
2026年看病新規(guī)來了,這3類人報銷可達(dá)95%!

2026年看病新規(guī)來了,這3類人報銷可達(dá)95%!

復(fù)轉(zhuǎn)這些年
2025-12-25 23:28:36
賈磊:高詩巖防守CBA第一,貼身緊逼,只讓徐杰得到22分5板8助

賈磊:高詩巖防守CBA第一,貼身緊逼,只讓徐杰得到22分5板8助

體育哲人
2025-12-27 00:01:22
全球最精確預(yù)言家:2026,歷史性的一年, 能說的都在這里

全球最精確預(yù)言家:2026,歷史性的一年, 能說的都在這里

神奇故事
2025-12-24 23:34:15
您有洗屁股的習(xí)慣嗎?提醒:天天洗肛門的人,能收獲4個驚人好處

您有洗屁股的習(xí)慣嗎?提醒:天天洗肛門的人,能收獲4個驚人好處

39健康網(wǎng)
2025-12-13 20:50:34
王青山,被查!

王青山,被查!

中國基金報
2025-12-26 16:53:47
原以為第六代戰(zhàn)機只是趕超歐美,沒想到早已進(jìn)入“自由王國”!

原以為第六代戰(zhàn)機只是趕超歐美,沒想到早已進(jìn)入“自由王國”!

南權(quán)先生
2025-12-26 16:58:13
前館長拿了:聞鈞天捐獻(xiàn)書畫失蹤案已有回音

前館長拿了:聞鈞天捐獻(xiàn)書畫失蹤案已有回音

呦呦鹿鳴
2025-12-25 22:19:24
2025-12-27 05:32:49
機器學(xué)習(xí)與Python社區(qū) incentive-icons
機器學(xué)習(xí)與Python社區(qū)
機器學(xué)習(xí)算法與Python
3235文章數(shù) 11081關(guān)注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

頭條要聞

老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

體育要聞

開翻航母之后,他決定親手造一艘航母

娛樂要聞

王傳君生病后近照變化大,面部浮腫

財經(jīng)要聞

投資巨鱷羅杰斯最新持倉:只留四種資產(chǎn)

汽車要聞

兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

態(tài)度原創(chuàng)

藝術(shù)
旅游
手機
本地
公開課

藝術(shù)要聞

你絕對想不到,佛陀微笑隱藏的秘密竟然是!

旅游要聞

椰林映火箭!文昌東郊藏著海南最動人的山海答卷

手機要聞

vivo藍(lán)河:以開源和賽事,撬動AGI時代底層技術(shù)生態(tài)

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版