国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek倒逼vLLM升級(jí)!芯片內(nèi)卷、MoE橫掃千模,vLLM核心維護(hù)者獨(dú)家回應(yīng):如何憑PyTorch坐穩(wěn)推理“鐵王座”

0
分享至


作者 | 褚杏娟 、Tina

vLLM 的故事始于加州大學(xué)伯克利分校 Sky Computing Lab 里一群充滿熱情的學(xué)生與研究員。2023 年,他們開源了核心的 PagedAttention 技術(shù),vLLM 在短短一年多內(nèi) GitHub Star 數(shù)突破 4 萬,并迅速增長至如今的 6.5 萬,如今已成為全球科技公司首選的推理引擎。

在這一成功背后,Neural Magic 扮演了關(guān)鍵角色。這家由 MIT 研究員創(chuàng)立的企業(yè),在巨頭林立的 AI 優(yōu)化領(lǐng)域中,以獨(dú)特的“免費(fèi)平臺(tái) + 開源工具”策略脫穎而出。通過深入貢獻(xiàn) vLLM,Neural Magic 不僅構(gòu)建了成熟的企業(yè)級(jí)推理堆棧,還持續(xù)推動(dòng)模型優(yōu)化研究,維護(hù)著可直接與 vLLM 集成的預(yù)優(yōu)化模型庫。

正是其在 vLLM 開源社區(qū)的深厚積累與工程實(shí)力,吸引了紅帽的注意。2024 年 11 月,紅帽正式收購 Neural Magic,并將包括 vLLM 核心維護(hù)者 Michael Goin 在內(nèi)的核心團(tuán)隊(duì)納入旗下。Michael 在優(yōu)化推理性能、最大化 CPU/GPU 效能方面擁有超過十年的經(jīng)驗(yàn)。在 vLLM 社區(qū),他專注于內(nèi)核調(diào)優(yōu)、模型壓縮及系統(tǒng)優(yōu)化等工作。

紅帽成為重要參與者之后,AI 大模型領(lǐng)域發(fā)生了非常多變化。期間,vLLM 如何應(yīng)對(duì)各種變化和挑戰(zhàn)?紅帽又如何幫助 vLLM 保持競(jìng)爭(zhēng)優(yōu)勢(shì)?我們采訪了紅帽首席工程師、vLLM 核心貢獻(xiàn)者 Michael Goin 和紅帽亞太 CTO 辦公室首席架構(gòu)師兼大中華區(qū) CTO 張家駒,他們?cè)敿?xì)介紹了 vLLM 的發(fā)展近況以及這期間的一些思考。


紅帽首席工程師、vLLM 核心貢獻(xiàn)者 Michael Goin

從 Llama 轉(zhuǎn)向 DeepSeek

Michael 團(tuán)隊(duì)作為 vLLM 項(xiàng)目的“內(nèi)核團(tuán)隊(duì)”,始終專注于集成與開發(fā)高性能推理內(nèi)核,支撐著整個(gè)項(xiàng)目在快速迭代中保持領(lǐng)先。

隨著各類模型競(jìng)相發(fā)布,vLLM 的開發(fā)節(jié)奏也持續(xù)加快。尤其是 DeepSeek R1 的發(fā)布,推動(dòng)團(tuán)隊(duì)從聚焦 Llama 系列模型效率優(yōu)化,轉(zhuǎn)向全力投入 DeepSeek 模型相關(guān)特性的優(yōu)化中。

為迅速響應(yīng) DeepSeek 的新特性,整個(gè) 0.7.2 版本的開發(fā)周期都很緊湊,此外還高效支持了 Qwen 2.5 VL 并引入了 Transformers backend,使用戶能夠直接運(yùn)行任意 Hugging Face 模型。隨后的 0.7.3 版本則成為一次規(guī)模更大的更新,短時(shí)間內(nèi)有眾多貢獻(xiàn)者參與,開發(fā)過程高效且緊張。

該版不僅為 DeepSeek 啟用了多 Token 預(yù)測(cè)(MTP)、MLA 注意力等優(yōu)化,還擴(kuò)展了對(duì) AMD 硬件的支持與調(diào)優(yōu)。此外,專家并行在 DeepSeek 之前并不常見,團(tuán)隊(duì)也因此推動(dòng)了 vLLM 從支持張量并行、流水線并行到支持專家并行的演進(jìn)。Michael 還將 DeepSeek 開源的一系列高性能工具,如 DeepGEMM、DeepEP、專家并行負(fù)載均衡等,系統(tǒng)化地融入 vLLM 生態(tài)。


面向推理場(chǎng)景,團(tuán)隊(duì)不斷擴(kuò)充高性能內(nèi)核庫,涵蓋定制版 Triton、CUTLASS、CUDA 內(nèi)核、HIP 內(nèi)核等,還包括各種量化支持、眾多定制內(nèi)核實(shí)現(xiàn)等。

DeepSeek 的復(fù)雜性反而為團(tuán)隊(duì)帶來了優(yōu)化與泛化的契機(jī)。Michael 指出,團(tuán)隊(duì)將原本主要用于 DeepSeek 私有環(huán)境的技術(shù),轉(zhuǎn)化為可持續(xù)、通用化的實(shí)現(xiàn),使其能服務(wù)更多基于 MoE 架構(gòu)的模型。他強(qiáng)調(diào),vLLM 的某些演進(jìn)正是受 DeepSeek 所推動(dòng),并非因?yàn)?DeepSeek 模型本身運(yùn)行更快,而是其開源的一系列先進(jìn)技術(shù)為整個(gè)生態(tài)帶來了提升。

這個(gè)過程中,DeepSeek 揭示了大模型高效部署的可行路徑,而 vLLM 團(tuán)隊(duì)則將這些經(jīng)驗(yàn)復(fù)現(xiàn)并通用化,構(gòu)建出更強(qiáng)大的推理框架?!拔覀兣c DeepSeek 合作,將優(yōu)秀算法與底層框架的實(shí)現(xiàn)相結(jié)合,構(gòu)建出更高效的推理框架,真正實(shí)現(xiàn)了強(qiáng)強(qiáng)聯(lián)合?!盡ichael 總結(jié)道。

除了主導(dǎo) DeepSeek V3 的整合,Michael 還帶領(lǐng)團(tuán)隊(duì)完成了 GPT-OSS、Qwen、Kimi 等多個(gè)模型的適配與優(yōu)化。

一個(gè)框架如何支持各家硬件

vLLM 團(tuán)隊(duì)的另一個(gè)核心使命,是構(gòu)建開放、高效的硬件推理生態(tài)。他們不僅廣泛支持各類主流芯片,更深度參與到新硬件的架構(gòu)設(shè)計(jì)與性能優(yōu)化中,推動(dòng)整個(gè)社區(qū)向多硬件兼容的方向演進(jìn)。

過去幾個(gè)月,Michael 一直在與 NVIDIA 共同推進(jìn) Blackwell 芯片的支持工作,優(yōu)化 B200 相關(guān)性能。團(tuán)隊(duì)成員還與 AMD 團(tuán)隊(duì)保持緊密協(xié)作,確保 AMD 在 vLLM 中的性能表現(xiàn)。Michael 還與 Google TPU 團(tuán)隊(duì)緊密合作一年多,完成了多次版本發(fā)布。最近,Michael 還作為最高決策者,參與設(shè)計(jì)了整體沐曦的支持架構(gòu)。

以與沐曦的合作為例,可以看到紅帽團(tuán)隊(duì)的參與程度之深:在項(xiàng)目非常早期階段,Michael 便與沐曦團(tuán)隊(duì)共同討論支持框架的設(shè)計(jì)方向。他主導(dǎo)高層架構(gòu),而團(tuán)隊(duì)中的社區(qū)貢獻(xiàn)者則深入細(xì)節(jié),甚至專程赴上海進(jìn)行面對(duì)面技術(shù)對(duì)接。雙方還專門在 Slack 上創(chuàng)建了頻道,組建起一個(gè)跨公司的“線上聯(lián)合工作組”,確保支持工作持續(xù)高效推進(jìn)。

整個(gè)流程體現(xiàn)了團(tuán)隊(duì)對(duì)生態(tài)建設(shè)的嚴(yán)謹(jǐn)投入:他們先為硬件伙伴指明實(shí)現(xiàn)方向;待沐曦完成相應(yīng)工作后,再共同進(jìn)行代碼審查與迭代優(yōu)化。例如,協(xié)助沐曦將最初的支持方案,通過插件機(jī)制重構(gòu)得更為優(yōu)雅和可維護(hù)。在 GitHub 上,大量的修訂建議(RC)經(jīng)過團(tuán)隊(duì)的仔細(xì)審核?,F(xiàn)在,Michael 手中持有一份很長的待審核列表。

這種深度協(xié)作,最終讓雙方共贏。正如張家駒所言:“對(duì)沐曦而言,他們找到了讓社區(qū)支持其硬件的優(yōu)雅方式,這意味著未來的維護(hù)工作量將比以往更少。對(duì)社區(qū)而言,我們也推動(dòng)了一個(gè)支持不同硬件的生態(tài)系統(tǒng)的發(fā)展?!?/p>

PyTorch 之重

在異構(gòu)計(jì)算時(shí)代,vLLM 之所以能廣泛支持從 NVIDIA、AMD 到 Google TPU 乃至國內(nèi)眾多芯片,其核心戰(zhàn)略在于:深度擁抱 PyTorch,將其作為連接上層框架與底層硬件的“最大公約數(shù)”。

從技術(shù)棧來看,硬件之上是 PyTorch,PyTorch 之上才是 vLLM。這意味著,只要硬件廠商提供了對(duì) PyTorch 的良好支持,那么適配 vLLM 的工作就已完成大半。vLLM 中的模型定義幾乎完全基于 PyTorch 編寫,僅對(duì)注意力機(jī)制等少數(shù)關(guān)鍵模塊保留了可替換的定制化空間。

PyTorch 自身已提供 SDPA 注意力實(shí)現(xiàn),而 vLLM 在此基礎(chǔ)上還支持十余種其他硬件 backend 的注意力實(shí)現(xiàn),比如 NVIDIA 的 FlashAttention 與 FlashInfer、AMD 的 ROCm Attention 與 Triton Attention、Google TPU 的 Pathways Attention,以及昇騰 NPU 的 Attention 等。

正是通過這種統(tǒng)一的 PyTorch 抽象層,vLLM 得以集成各家硬件的加速實(shí)現(xiàn)。只要硬件供應(yīng)商提供適用于 PyTorch 的集成或分發(fā)版本,絕大部分(約 90%)工作就已自然完成。而剩余約 10% 主要涉及對(duì) PyTorch 中效率較低的部分進(jìn)行定制優(yōu)化,例如融合 MoE、矩陣乘法量化以及特定的注意力實(shí)現(xiàn)。

Michael 解釋稱,vLLM 之所以深度依賴 PyTorch,是因?yàn)閹缀跛杏布?yīng)商都有充分理由基于 PyTorch 進(jìn)行開發(fā):它不僅用于訓(xùn)練,也用于推理,并且與絕大多數(shù)開源軟件深度集成。

他進(jìn)一步表示,PyTorch 的主要競(jìng)爭(zhēng)者是 Google 的 JAX,但 JAX 的開源程度相對(duì)較低,比如其 XLA 編譯器 backend 并未開放,實(shí)際生態(tài)普及度遠(yuǎn)不及 PyTorch。正因?yàn)?PyTorch 被視為從機(jī)器學(xué)習(xí)到硬件層的最佳抽象框架,vLLM 才緊密依托其基礎(chǔ)架構(gòu),并圍繞高效大語言模型推理進(jìn)行功能擴(kuò)展,這也部分解釋了 vLLM 選擇加入 PyTorch 基金會(huì)的原因。

張家駒也指出,PyTorch 的應(yīng)用如此廣泛,以至于任何硬件廠商均主動(dòng)適配 PyTorch 生態(tài)。像國內(nèi)各類芯片廠商也正是通過 PyTorch 這一路徑進(jìn)行集成與適配的。

簡(jiǎn)言之,vLLM 不直接面對(duì)紛繁復(fù)雜的硬件技術(shù)棧,而是依托 PyTorch 這一成熟、開放的中間層,與硬件廠商及社區(qū)協(xié)同共建。這既降低了多硬件支持的復(fù)雜度,也讓整個(gè)生態(tài)能在統(tǒng)一的基礎(chǔ)上持續(xù)演進(jìn)與優(yōu)化。

NVIDIA 所謂護(hù)城河還很堅(jiān)固?

那我們自然需要面對(duì)一個(gè)更深層的問題:如果說 CUDA 是 GPU 加速的“引擎”,PyTorch 就是調(diào)用它的“框架”,那么新興硬件廠商究竟該如何追趕,才能達(dá)到與 NVIDIA CUDA 同等的高效與易用水平?

在 Michael 看來,這是一個(gè)充滿挑戰(zhàn)的命題。核心難點(diǎn)在于,即便最終能在 PyTorch 層實(shí)現(xiàn)功能兼容,其效率往往難以匹敵 NVIDIA 經(jīng)過十?dāng)?shù)年深度打磨的 CUDA 生態(tài)?!癈UDA 對(duì)其他硬件而言并非一種可直接遷移的語言,”他指出,這本質(zhì)上是硬件抽象與軟件生態(tài)的長期累積差距。

不過,路徑依然存在。

Michael 指出,在硬件抽象層,采用類似 Triton 這樣的領(lǐng)域特定語言是一種解決方案:只需用 Triton 編寫一次算法,便可在多種硬件平臺(tái)上運(yùn)行。但該模式也存在局限:即使軟件最終能夠支持所有硬件 backend,內(nèi)核開發(fā)人員仍需投入大量手動(dòng)調(diào)試與內(nèi)核開發(fā)工作,針對(duì)具體硬件進(jìn)行深度調(diào)優(yōu)才能實(shí)現(xiàn)高效率。

而張家駒分析稱,實(shí)現(xiàn)與 CUDA 同等能力,有多種技術(shù)路徑。例如沐曦選擇完全兼容 CUDA API 的路線,此外也可借助領(lǐng)域特定語言通過不同的 backend 編譯實(shí)現(xiàn)跨硬件運(yùn)行,如 Triton 就是一種編寫 GPU 算子的新興語言。但這本質(zhì)上仍是一種需要大量人工優(yōu)化與適配的模式。

但轉(zhuǎn)折點(diǎn)也正在出現(xiàn)。Michael 敏銳地指出,新型注意力算法正在不斷涌現(xiàn),對(duì)于這些嶄新技術(shù),其他硬件供應(yīng)商有可能實(shí)現(xiàn)超越。

“它們非常新穎,供應(yīng)商或許能提供比 CUDA 更快速、更原生的支持。例如 Kimi 提出的 KDA 算法,便率先通過 Triton 獲得支持。在新算法領(lǐng)域,其他廠商有時(shí)反而能更敏捷地響應(yīng)?!盡ichael 說道。

隨著模型供應(yīng)商不斷探索比標(biāo)準(zhǔn) Transformer 更高效的新架構(gòu),硬件廠商也獲得了更大的靈活性與快速響應(yīng)空間。就像 Michael 的那個(gè)比喻:這就像體育競(jìng)賽,一切又回到了同一條起跑線。

多模態(tài)支持

在軟件與硬件生態(tài)持續(xù)融合的背景下,vLLM 并未止步于優(yōu)化單一模態(tài)的推理。當(dāng)多模態(tài) AI 浪潮席卷而來時(shí),團(tuán)隊(duì)將 vLLM 從一個(gè)純文本推理引擎,全面升級(jí)為一個(gè)支持全模態(tài)生成與理解的統(tǒng)一服務(wù)平臺(tái)??梢哉f,多模態(tài)模型架構(gòu)如今改變了 vLLM 的架構(gòu)。

“無論是文生圖、文檔理解,還是其他生成任務(wù),其底層均依賴于大模型推理,因此都可以通過 vLLM 進(jìn)行處理?!盡ichael 指出。

為此,團(tuán)隊(duì)對(duì) vLLM v1 版本進(jìn)行了徹底重構(gòu),其中一項(xiàng)關(guān)鍵創(chuàng)新是多模態(tài)前綴緩存(multimodal prefix caching)。傳統(tǒng)上,vLLM 通過 Page Attention 復(fù)用文本 token 的鍵值緩存;如今,這一機(jī)制已擴(kuò)展至圖像、音頻等任意模態(tài)輸入。現(xiàn)在團(tuán)隊(duì)維護(hù)的是多模態(tài)緩存,重復(fù)請(qǐng)求的處理效率因此大幅提升。

為進(jìn)一步支撐大規(guī)模推理部署,團(tuán)隊(duì)實(shí)現(xiàn)了編碼器解耦技術(shù),將視覺、音頻編碼器與語言模型 backbone 解耦。這既符合多模態(tài)模型的結(jié)構(gòu)特點(diǎn),也為超大規(guī)模推理場(chǎng)景提供了極致的彈性與資源利用率。

今年 12 月,這項(xiàng)演進(jìn)迎來了一個(gè)里程碑:vLLM-Omni 作為其首個(gè)“全模態(tài)”推理框架正式發(fā)布,它將文本、圖像、音頻、視頻的統(tǒng)一生成從概念變?yōu)榭陕涞氐纳a(chǎn)級(jí)代碼。Omni 并非在原有框架上簡(jiǎn)單封裝,而是引入了一套完全解耦的流水線架構(gòu),讓不同階段按需分配資源,并通過統(tǒng)一調(diào)度銜接。一個(gè) omni-modality 推理請(qǐng)求大致會(huì)經(jīng)過模態(tài)編碼器、LLM 核心與模態(tài)生成器三類組件,通過管線調(diào)度在不同 GPU/ 節(jié)點(diǎn)間協(xié)同工作。


這一進(jìn)化極大拓展了 vLLM 的應(yīng)用邊界。如今,vLLM 作為一個(gè)推理引擎與服務(wù)器,其支持的范圍十分廣泛:它不僅能運(yùn)行文本生成模型,還支持多模態(tài)理解與生成、嵌入模型(用于 RAG 與向量數(shù)據(jù)庫)、智能體編程(驅(qū)動(dòng) Claude Code 等工具),甚至在企業(yè)級(jí)層面,可應(yīng)用于文檔理解、OCR、推薦系統(tǒng)、客服、編程輔助乃至缺陷檢測(cè)等判別式任務(wù)。此外,在強(qiáng)化學(xué)習(xí)等訓(xùn)練流程中,最終部署的推理模型、思維模型或工具調(diào)用模型,同樣可以構(gòu)建在或內(nèi)置于 vLLM 之上。

“vLLM 的核心角色,是一個(gè)高效的推理引擎與服務(wù)器,”Michael 總結(jié)道,“這類似于 Web 服務(wù)器托管各種網(wǎng)頁應(yīng)用(如 HTML 或 JavaScript 頁面)的邏輯。vLLM 需要承載各種各樣的模型與應(yīng)用,并致力于在各種使用場(chǎng)景下,無論是應(yīng)對(duì)一千名還是十萬名用戶的訪問,都能提供優(yōu)異的性能?!?/p>

從統(tǒng)一硬件抽象層到定義全模態(tài)推理架構(gòu),vLLM 正穩(wěn)步推進(jìn)其愿景:成為 AI 時(shí)代最通用、最高效的推理基礎(chǔ)架構(gòu)。

如何保持競(jìng)爭(zhēng)優(yōu)勢(shì)

隨著 vLLM 在過去兩年半中逐漸發(fā)展成熟,一個(gè)趨勢(shì)越來越明顯:無論是去年還是今年,許多公司都開始將更多修改回饋至上游。

“這是因?yàn)?vLLM 本身已經(jīng)有了大量的改進(jìn),這些改進(jìn)對(duì)他們私下開發(fā)的版本來說也是有增益性的,所以他們希望能更頻繁地與上游同步。他們開始愿意把自己定制的改動(dòng) upstream 到項(xiàng)目中,并且更傾向于直接使用 upstream vLLM,而不是開發(fā)一個(gè)非常不同的私有版本。我們已經(jīng)在多個(gè)案例中看到了這種情況的發(fā)生?!盡ichael 解釋道。

這一良性循環(huán)的核心驅(qū)動(dòng)力,在于“速度”。

“我們的上游版本有一個(gè)獨(dú)特優(yōu)勢(shì):就是和眾多領(lǐng)先的模型實(shí)驗(yàn)室和公司合作,快速收集他們的反饋,有 bug 就去修,修完之后也會(huì)放回社區(qū),讓更多人看到?!睆埣荫x補(bǔ)充道。vLLM 的合作名單涵蓋了從 DeepSeek、Qwen、字節(jié)、騰訊,到 LinkedIn、亞馬遜、Mistral、Azure 和 Snowflake 等。

“了解他們可能如何使用 vLLM,以及未來模型架構(gòu)可能對(duì) vLLM 提出哪些改進(jìn)需求,通過開發(fā)這些功能,來確保 vLLM 始終保持競(jìng)爭(zhēng)力,緊跟行業(yè)發(fā)展?!睆埣荫x說道。

用戶越多,反饋就越快,迭代也越迅猛。當(dāng)社區(qū)版本的迭代速度遠(yuǎn)超私有分支時(shí),即使后者曾開發(fā)某些獨(dú)有功能,也會(huì)很快發(fā)現(xiàn)社區(qū)版本的功能更多,可能有些功能與其類似。為了保留自己的少量修改而放棄社區(qū)的更多功能,顯然得不償失。張家駒指出。

據(jù)張家駒觀察,去年很多人可能還用自己的版本做一些小開發(fā),但今年在發(fā)現(xiàn)社區(qū)版本比他們“跑”得快很多后,大家都更傾向于使用社區(qū)版本。這種“速度優(yōu)勢(shì)”正推動(dòng) vLLM 加速成為大模型推理領(lǐng)域的事實(shí)標(biāo)準(zhǔn)。

one more thing:回應(yīng)開發(fā)者問題

作為一個(gè)每月下載量超 20 萬次的熱門推理框架,vLLM 的廣泛采用也使其必須直面生產(chǎn)環(huán)境中的真實(shí)挑戰(zhàn)。近期,不少開發(fā)者集中反饋了啟動(dòng)速度偏慢的問題。

對(duì)此,Michael 回應(yīng)道,團(tuán)隊(duì)大約從幾個(gè)月前已經(jīng)開始明確著手解決。團(tuán)隊(duì)不僅在 GitHub 上建立了專項(xiàng)跟蹤與“啟動(dòng)體驗(yàn)優(yōu)化”項(xiàng)目,還在 Slack 開設(shè)了專門頻道,以持續(xù)收集并響應(yīng)用戶的實(shí)際痛點(diǎn)。

Michael 解釋,導(dǎo)致啟動(dòng)時(shí)間較長的因素有幾個(gè),其一是 CUDA graph capture time:為了獲得最佳性能,開發(fā)者希望能捕獲盡可能多的 CUDA graph,但每多捕獲一個(gè) graph,啟動(dòng)時(shí)間也會(huì)增加,因此這需要做好權(quán)衡。另一個(gè)因素是 torch.compile,它本身也會(huì)需要一定的時(shí)間。開發(fā)團(tuán)隊(duì)已推動(dòng) torch.compile 團(tuán)隊(duì)重視啟動(dòng)時(shí)間問題,也取得了一些顯著改進(jìn)。

另外,vLLM 團(tuán)隊(duì)還打造了一些工具和指南,指導(dǎo)用戶如何處理冷啟動(dòng)與熱啟動(dòng)的差異,即模型是否首次運(yùn)行與部署。團(tuán)隊(duì)設(shè)置了緩存目錄,用于存儲(chǔ) torch.compile 的輸出結(jié)果、Triton 的輸出結(jié)果以及其他編譯或初始化的內(nèi)容。若開發(fā)者正在部署單個(gè)模型,并計(jì)劃擴(kuò)展至多個(gè)副本,團(tuán)隊(duì)建議在部署中復(fù)制該緩存目錄以實(shí)現(xiàn)熱啟動(dòng),這比冷啟動(dòng)快得多。

結(jié)束語

在 vLLM 這一由社區(qū)驅(qū)動(dòng)的項(xiàng)目中,紅帽以其深厚的開源基因扮演著重要的角色。正如張家駒所說:“紅帽全球約有兩萬名員工,其中可能有一兩千名工程師完全在社區(qū)中做貢獻(xiàn)。他們貢獻(xiàn)的工作并不針對(duì)紅帽的商業(yè)方面,做的事情非常中立?!?/p>

Michael 進(jìn)一步指出,vLLM 的治理結(jié)構(gòu)本身高度分散,共有 15 到 20 個(gè)不同組織的成員擔(dān)任提交者或維護(hù)者。紅帽正是在這樣的多元生態(tài)中,以其工程實(shí)力與對(duì)開源原則的堅(jiān)持發(fā)揮影響力。

紅帽如此投入 vLLM,源于一個(gè)戰(zhàn)略判斷:推理是 AI 應(yīng)用成本的核心環(huán)節(jié)。例如,若 DeepSeek 以其公開的成本效率托管模型,企業(yè)也必然期望在本地部署中達(dá)到同等水平。實(shí)現(xiàn)這種性能,需要 vLLM 集成最前沿的模型優(yōu)化,而紅帽正致力于此。

最具代表性的貢獻(xiàn)是紅帽主導(dǎo)推動(dòng)了 vLLM v1 版本的架構(gòu)重構(gòu)。這次升級(jí)不僅為未來系統(tǒng)設(shè)計(jì)奠定了基礎(chǔ),更實(shí)質(zhì)性地推動(dòng)了社區(qū)標(biāo)準(zhǔn)化進(jìn)程。例如,與 PyTorch torch.compile 團(tuán)隊(duì)長達(dá)一年半的合作,優(yōu)化了上游框架以更好支持 vLLM 的高階場(chǎng)景。“這些工作讓支持新硬件、新模型變得更容易,”張家駒解釋道,“紅帽力圖把這個(gè)標(biāo)準(zhǔn)化的層做得越來越厚、越來越穩(wěn)定?!?/p>

面向更加多變的未來,紅帽和 vLLM 如何守住“推理服務(wù)標(biāo)準(zhǔn)”的地位,我們拭目以待。

AI 重塑組織的浪潮已至,Agentic 企業(yè)時(shí)代正式開啟!當(dāng) AI 不再是單純的輔助工具,而是深度融入業(yè)務(wù)核心、驅(qū)動(dòng)組織形態(tài)與運(yùn)作邏輯全面革新的核心力量。

把握行業(yè)變革關(guān)鍵節(jié)點(diǎn),12 月 19 日 - 20 日,AICon 全球人工智能開發(fā)與應(yīng)用大會(huì)(北京站) 即將重磅啟幕!本屆大會(huì)精準(zhǔn)錨定行業(yè)前沿,聚焦大模型訓(xùn)練與推理、AI Agent、研發(fā)新范式與組織革新,邀您共同深入探討:如何構(gòu)建起可信賴、可規(guī)模化、可商業(yè)化的 Agentic 操作系統(tǒng),讓 AI 真正成為企業(yè)降本增效、突破增長天花板的核心引擎。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“斬殺線”突然爆火:年薪45萬的硅谷程序員,咋半年就睡大街了?

“斬殺線”突然爆火:年薪45萬的硅谷程序員,咋半年就睡大街了?

大白聊IT
2025-12-26 10:15:23
重磅!NBA狂喜!謝謝你,東契奇!

重磅!NBA狂喜!謝謝你,東契奇!

籃球?qū)崙?zhàn)寶典
2025-12-25 18:03:44
葛劍雄:近代中國在邊疆問題上吃了哪些暗虧

葛劍雄:近代中國在邊疆問題上吃了哪些暗虧

尚曦讀史
2025-12-17 21:18:08
這是發(fā)廣告還是發(fā)福利?阿隆·戈登為內(nèi)衣品牌拍攝寫真

這是發(fā)廣告還是發(fā)福利?阿隆·戈登為內(nèi)衣品牌拍攝寫真

章眽八卦
2025-12-25 11:48:11
北京3條(段)地鐵新線明日開通試運(yùn)營

北京3條(段)地鐵新線明日開通試運(yùn)營

新京報(bào)北京知道
2025-12-26 11:07:49
確認(rèn)了!是陜西作家賈平凹、陳彥

確認(rèn)了!是陜西作家賈平凹、陳彥

西安觀察
2025-12-25 22:19:32
我國有上千萬人做頸動(dòng)脈超聲!院士:做一次頸動(dòng)脈超聲,或管七年

我國有上千萬人做頸動(dòng)脈超聲!院士:做一次頸動(dòng)脈超聲,或管七年

岐黃傳人孫大夫
2025-12-19 09:16:53
Google 這對(duì)組合拳太狠了!3 句話讓我的 Idea 變成真 App,全程不寫代碼,爽翻!

Google 這對(duì)組合拳太狠了!3 句話讓我的 Idea 變成真 App,全程不寫代碼,爽翻!

AI范兒
2025-12-25 14:01:00
她是北京海淀獨(dú)生女,當(dāng)演員大紅大紫,今43歲退休住別墅財(cái)富自由

她是北京海淀獨(dú)生女,當(dāng)演員大紅大紫,今43歲退休住別墅財(cái)富自由

白面書誏
2025-12-25 17:15:07
暗訪助貸造假鏈:4萬包裝費(fèi)買賣經(jīng)營貸 助貸公司稱與銀行等合作

暗訪助貸造假鏈:4萬包裝費(fèi)買賣經(jīng)營貸 助貸公司稱與銀行等合作

新京報(bào)
2025-12-25 11:03:57
江蘇朱氏家族:一門出12博士,卻都為美國效力,最高官居能源部長

江蘇朱氏家族:一門出12博士,卻都為美國效力,最高官居能源部長

夢(mèng)史
2025-12-25 16:04:43
回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場(chǎng)“社死”

回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場(chǎng)“社死”

就一點(diǎn)
2025-10-09 12:19:42
廣州一家5口墜江遇難!4大1小,原因令人憤怒,村民透露更多

廣州一家5口墜江遇難!4大1小,原因令人憤怒,村民透露更多

阿纂看事
2025-12-26 09:43:37
為什么買熟食的人越來越少了?業(yè)內(nèi):一斤原牛肉煮熟能稱兩斤

為什么買熟食的人越來越少了?業(yè)內(nèi):一斤原牛肉煮熟能稱兩斤

房產(chǎn)衫哥
2025-12-26 09:25:35
ICE公布:在加州高速公路抓了101名卡車司機(jī),全是非法移民

ICE公布:在加州高速公路抓了101名卡車司機(jī),全是非法移民

大洛杉磯LA
2025-12-26 00:35:18
雖遠(yuǎn)必誅,永不忘記——以色列抓捕與羅恩·阿拉德有關(guān)的黎巴嫩前軍官

雖遠(yuǎn)必誅,永不忘記——以色列抓捕與羅恩·阿拉德有關(guān)的黎巴嫩前軍官

老王說正義
2025-12-25 00:07:02
紫燕百味雞回應(yīng)員工偷拿牛肉:開除員工并給顧客十倍賠償

紫燕百味雞回應(yīng)員工偷拿牛肉:開除員工并給顧客十倍賠償

映射生活的身影
2025-12-25 20:33:12
意外,上海大將遭遇骨折,25歲,后衛(wèi),王哲林好友,袁堂文馳援

意外,上海大將遭遇骨折,25歲,后衛(wèi),王哲林好友,袁堂文馳援

樂聊球
2025-12-25 10:50:06
太狂了!朱孝天內(nèi)涵五月天后,被挖出他和賈玲之間的那點(diǎn)“秘密”

太狂了!朱孝天內(nèi)涵五月天后,被挖出他和賈玲之間的那點(diǎn)“秘密”

寒士之言本尊
2025-12-26 00:00:30
湖北牌場(chǎng)老板歐陽光去世,年僅40歲,原因公開,別人欠百萬難要回

湖北牌場(chǎng)老板歐陽光去世,年僅40歲,原因公開,別人欠百萬難要回

天天熱點(diǎn)見聞
2025-12-25 07:03:47
2025-12-26 11:55:00
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術(shù)社區(qū)媒體
11870文章數(shù) 51653關(guān)注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

上海女生理發(fā)時(shí)手機(jī)脫手3分鐘 4987元的消費(fèi)記錄被刪

頭條要聞

上海女生理發(fā)時(shí)手機(jī)脫手3分鐘 4987元的消費(fèi)記錄被刪

體育要聞

約基奇有多喜歡馬?

娛樂要聞

朱孝天深夜道歉,只字未提五月天阿信

財(cái)經(jīng)要聞

資管江湖的人事“寒冬”

汽車要聞

速來!智界在上海西岸準(zhǔn)備了年末潮流盛典

態(tài)度原創(chuàng)

藝術(shù)
游戲
手機(jī)
數(shù)碼
公開課

藝術(shù)要聞

William Dyce:19世紀(jì)蘇格蘭重要的畫家

Epic手機(jī)端喜加二:視覺差解密經(jīng)典神作兩部曲!

手機(jī)要聞

年終消費(fèi)觀察:從華為Mate X7熱銷,看高端換機(jī)市場(chǎng)的品質(zhì)化突圍

數(shù)碼要聞

消息稱AMD已以N3P流片下代Radeon GPU,目標(biāo)2027年中推出

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版