国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

不要再用Ollama,不要再用llama.cpp

0
分享至


大家好,我是 Ai 學(xué)習(xí)的老章

最近在測試 llama.cpp 這個推理引擎的表現(xiàn),主要是啟動 GGUF 格式的量化大模型比較方便

啟動確實方便,但是性能測試結(jié)果卻很不理想

單并發(fā)極快,速度飛起,并發(fā)數(shù)上來之后平均 TPS 斷崖式下降


我的啟動腳本中是設(shè)置了并發(fā)相關(guān)參數(shù)的


搜了一下了 Reddit 的 LocalLLaMA 社區(qū),發(fā)現(xiàn)很多吐槽


llama.cpp 項目 issue 還有吐槽


看了一個博主的文章《# Stop Wasting Your Multi-GPU Setup With llama.cpp》[1]

作者地下室里的常駐 AI 服務(wù)器——一臺配備 14 張 RTX 3090 GPU 和 336GB VRAM 的專用 AI 服務(wù)器,在此設(shè)備上做過大量測試。


省流:lama.cpp 并未針對張量并行(Tensor Parallelism)與批推理(Batch Inference)進(jìn)行優(yōu)化。只有在進(jìn)行 LLM 的部分或全部 CPU 卸載時,你才應(yīng)該使用 llama.cpp。但在多 GPU 配置下,需要經(jīng)過優(yōu)化的批推理與 Tensor Parallelism,此時 vLLM 或 ExLlamaV2 等才是正確選擇。也不要使用 Ollama,它只是 llama.cpp 的一個封裝,干的就是設(shè)置環(huán)境變量、蹩腳地計算顯存拆分和卸載。如果你只有一塊 GPU,只想跑點基礎(chǔ)模型做做聊天,那它還行;但凡超出這個范圍,就不值得用了。

llama.cpp[2] 是一個支持多種模型架構(gòu)和硬件平臺的推理引擎。然而,它不支持批處理推理,因此一次處理多個請求時并不理想。它主要與 GGUF 量化格式配合使用,在單次請求場景下性能尚可,但也就僅此而已。唯一真正推薦使用 llama.cpp 的情況是:當(dāng)你的 GPU 顯存(VRAM)不足,需要將部分模型權(quán)重卸載到 CPU 內(nèi)存(RAM)時。

它是目前最流行的推理引擎。圍繞它的開源社區(qū)非常活躍,通常能很快支持新模型和新架構(gòu),尤其因為它支持 CPU 卸載,對更廣泛的用戶群體而言也極易上手。遺憾的是,llama.cpp 并不支持、也大概率永遠(yuǎn)不會支持張量并行(Tensor Parallelism)[3] 因為大多數(shù)人不會像我一樣把幾千美元砸在快速貶值的資產(chǎn)上[4]

作者的 AI 服務(wù)器配備了 512 GB 高性能 DDR4 3200 3DS RDIMM 內(nèi)存,可提供 CPU 架構(gòu)所支持的最大內(nèi)存帶寬。配合 AMD Epyc Milan 7713 CPU,僅通過 CPU 卸載就能夠在 DeepSeek v2.5 236B BF16 模型上實現(xiàn)每秒約 1 個 token。

但是

利用 14x GPU AI 服務(wù)器中的 8 塊 GPU,僅通過 GPU 卸載,服務(wù)器在處理 Llama 3.1 70B BF16 時,通過 vLLM 使用張量并行的批量推理,可達(dá)到每秒約 800 個 token,同時處理 50 個異步請求。

這是為什么呢?

從宏觀上看,張量并行將模型每一層的計算分布到多塊 GPU 上。與其在單塊 GPU 上完成整個矩陣乘法,不如把運算切分,讓每塊 GPU 只處理一部分工作量,這樣每塊 GPU 就能同時運行不同層中的不同部分,使結(jié)果以指數(shù)級速度計算出來。

張量并行對多 GPU 配置至關(guān)重要——經(jīng)驗法則是 TP 喜歡 2^n,因此下面運行模型時用了 8×GPU——而在對系統(tǒng)進(jìn)行壓力測試時,并行也比串行更合適。當(dāng)你試圖用 llama.cpp 讓 LLMs 彼此對話時,引擎會把這些 GPU 拖慢,讓它們一個接一個地排隊等待。

下圖作者運行的一個腳本:50 個異步請求,每個請求約 2k tokens,總共耗時 2 分 29 秒,使用的是 vLLM 運行 Llama 3.1 70B BF16。如果改用 INT8 量化或更低精度,速度會快得多;再加上投機(jī)解碼和/或嵌入模型,速度還會進(jìn)一步提升。這一切都離不開 vLLM 利用張量并行實現(xiàn)的批推理。


作者還測試了 vLLM、Aphrodite、Sglang、TensorRT-LLM、ExLlamaV2 和 LMDeploy 等支持張量并行的推理引擎。其中 ExLlamaV2[5] 它是一款僅 GPU 的推理引擎,ExLlamaV2 帶來了獨一無二的 EXL2 量化格式,如今已被多款推理引擎采納,因為它在顯存利用率上的優(yōu)勢巨大。

參考資料

Stop Wasting Your Multi-GPU Setup With llama.cpp: https://www.ahmadosman.com/blog/do-not-use-llama-cpp-or-ollama-on-multi-gpus-setups-use-vllm-or-exllamav2/

llama.cpp: https://github.com/ggerganov/llama.cpp

并不支持、也大概率永遠(yuǎn)不會支持張量并行(Tensor Parallelism): https://github.com/ggerganov/llama.cpp/issues/9086#issuecomment-2578645269

把幾千美元砸在快速貶值的資產(chǎn)上: https://x.com/TheAhmadOsman/status/1869841392924762168

[5]

ExLlamaV2: https://github.com/turboderp/exllamav2

最后推薦一個我正在學(xué)習(xí)的課程


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
大陸公安局正式向全球通告:懸賞25萬元追捕兩名臺灣籍犯罪嫌疑人

大陸公安局正式向全球通告:懸賞25萬元追捕兩名臺灣籍犯罪嫌疑人

科技處長
2025-12-24 14:51:42
為何古代女死刑犯斬首前要剝光衣褲?劊子手道出其中隱情!

為何古代女死刑犯斬首前要剝光衣褲?劊子手道出其中隱情!

老踝是個手藝人
2025-12-25 16:08:31
聶磊栽在一個女人手上,聶磊被抓,為什么大領(lǐng)導(dǎo)出面都不好使?

聶磊栽在一個女人手上,聶磊被抓,為什么大領(lǐng)導(dǎo)出面都不好使?

千年人參它會跑
2024-11-18 21:18:41
順德魚生是淡水生魚片,不擔(dān)心寄生蟲嗎?網(wǎng)友:大數(shù)據(jù)不會騙人!

順德魚生是淡水生魚片,不擔(dān)心寄生蟲嗎?網(wǎng)友:大數(shù)據(jù)不會騙人!

夜深愛雜談
2025-12-23 17:35:17
直接起飛!中國男籃決戰(zhàn)日本隊,收兩大喜訊,郭士強(qiáng)要打爆小日子

直接起飛!中國男籃決戰(zhàn)日本隊,收兩大喜訊,郭士強(qiáng)要打爆小日子

宗介說體育
2025-12-25 15:51:59
快手瘋了?大量直播間直播淫穢視頻,還有女主播“袒胸露乳”吸粉無數(shù)

快手瘋了?大量直播間直播淫穢視頻,還有女主播“袒胸露乳”吸粉無數(shù)

三言科技
2025-12-23 00:24:15
【國際3分鐘】高市早苗勿闖紅線!若參拜靖國神社,就是與歷史正義為敵

【國際3分鐘】高市早苗勿闖紅線!若參拜靖國神社,就是與歷史正義為敵

環(huán)球網(wǎng)資訊
2025-12-25 17:15:59
咸魚還是太全面了,怪不得人稱國內(nèi)黑市

咸魚還是太全面了,怪不得人稱國內(nèi)黑市

另子維愛讀史
2025-12-20 17:07:20
本田最便宜小踏板Today,能掛藍(lán)牌速度比電動車快,售價5980元!

本田最便宜小踏板Today,能掛藍(lán)牌速度比電動車快,售價5980元!

騎士分享
2025-12-25 10:30:03
中國的鄭大世?18歲日本J聯(lián)賽后衛(wèi)選擇中國籍:國足可征召!

中國的鄭大世?18歲日本J聯(lián)賽后衛(wèi)選擇中國籍:國足可征召!

邱澤云
2025-12-25 16:19:54
鄭州中原保時捷中心人去樓空,貴州也有保時捷4S店被曝經(jīng)營異常,均為同一家控股股東

鄭州中原保時捷中心人去樓空,貴州也有保時捷4S店被曝經(jīng)營異常,均為同一家控股股東

澎湃新聞
2025-12-25 18:58:26
山姆爆火的400克女款羽絨服,打了多少商家的臉?

山姆爆火的400克女款羽絨服,打了多少商家的臉?

娛樂資本論
2025-12-22 11:53:59
全球首富榜揭曉:美首富造火箭,俄首富搞天然氣,中國首富在干啥

全球首富榜揭曉:美首富造火箭,俄首富搞天然氣,中國首富在干啥

策略述
2025-12-19 12:39:06
失業(yè)的人越來越多了

失業(yè)的人越來越多了

曹多魚的財經(jīng)世界
2025-12-24 14:56:20
中國股市:唯一不騙人的指標(biāo)“換手率”,大于10%說明可以入場!

中國股市:唯一不騙人的指標(biāo)“換手率”,大于10%說明可以入場!

股經(jīng)縱橫談
2025-12-24 17:54:29
055遇勁敵!全能艦橫空出世,未來海戰(zhàn)要變天!

055遇勁敵!全能艦橫空出世,未來海戰(zhàn)要變天!

Ck的蜜糖
2025-12-24 12:35:23
意外收獲!南博事件拔出蘿卜帶出泥!

意外收獲!南博事件拔出蘿卜帶出泥!

大道微言
2025-12-23 19:29:03
金價這么高,還能追漲嗎?世界黃金協(xié)會:43%央行表示明年接著買

金價這么高,還能追漲嗎?世界黃金協(xié)會:43%央行表示明年接著買

時代周報
2025-12-25 17:44:08
地主傻兒子往井里扔金條,土匪洗劫一空,他指著井底:這是后路

地主傻兒子往井里扔金條,土匪洗劫一空,他指著井底:這是后路

牛魔王與芭蕉扇
2025-12-22 16:51:33
賈國龍首次回應(yīng)西貝預(yù)制菜風(fēng)波:如果能重來,不和羅永浩硬剛

賈國龍首次回應(yīng)西貝預(yù)制菜風(fēng)波:如果能重來,不和羅永浩硬剛

PChome電腦之家
2025-12-25 14:20:27
2025-12-25 22:28:49
機(jī)器學(xué)習(xí)與Python社區(qū) incentive-icons
機(jī)器學(xué)習(xí)與Python社區(qū)
機(jī)器學(xué)習(xí)算法與Python
3234文章數(shù) 11081關(guān)注度
往期回顧 全部

科技要聞

小米17Ultra發(fā)布,徠卡2億像素 ,6999元起

頭條要聞

韓國"最毒"財閥千金被捕 韓國人稱"經(jīng)過她身邊就會死"

頭條要聞

韓國"最毒"財閥千金被捕 韓國人稱"經(jīng)過她身邊就會死"

體育要聞

單賽季11冠,羽壇“安洗瑩時代”真的來了

娛樂要聞

朱孝天把阿信好意當(dāng)球踢!

財經(jīng)要聞

時隔15月,人民幣升破7,三大推手曝光

汽車要聞

速來!智界在上海西岸準(zhǔn)備了年末潮流盛典

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
家居
本地
公開課

藝術(shù)要聞

緬懷 | 著名油畫家宮立龍逝世,享年73歲

數(shù)碼要聞

小米Buds 6耳機(jī)發(fā)布 支持智能錄音翻譯功能 售價699元

家居要聞

經(jīng)典彌新 品味浪漫居所

本地新聞

這輩子要積多少德,下輩子才能投胎到德國當(dāng)狗

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版