国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek-V4-Flash 本地部署,2 x H20(96GB版本),性能簡測

0
分享至

繼續(xù)看看 V4,本文看下 DeepSeek-V4-Flash 本地部署

我的設備

  • CPU :Intel Xeon Platinum 8457C

  • 內(nèi)存 :480 GiB

  • GPU :2 x NVIDIA H20,單卡顯存 96 GB

  • 驅(qū)動版本:580.126.09

  • CUDA 版本:13.0

  • 系統(tǒng)盤:100G

  • 數(shù)據(jù)盤:1T

1、模型下載

模型文件 160GB

國內(nèi)網(wǎng)絡,模型下載

modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local_dir /data/models/DeepSeek-V4-Flash
2、vLLM Docker 鏡像準備

安裝vllm-nightly我從沒有成功過,只有Docker最省心

docker pull vllm/vllm-openai:deepseekv4-cu129

3、啟動腳本

大家也看到了,即便是 Flash,能跑得起的設備也很少,AMD 全軍覆沒

看了幾個 issues,消費級英偉達顯卡也都不配

上面的啟動腳本我的 2xH20 自然也不配,啟動 N 次,都是 OOM


不斷試錯之后,實際使用的腳本:

docker run -d \
--name vllm-deepseek-v4-flash \
--restart unless-stopped \
--gpus all \
--privileged \
--ipc=host \
-p 8000:8000 \
-v /data/models:/models:ro \
-e VLLM_ENGINE_READY_TIMEOUT_S=3600 \
vllm/vllm-openai:deepseekv4-cu129 \
/models/DeepSeek-V4-Flash \
--trust-remote-code \
--kv-cache-dtype fp8 \
--block-size 256 \
--enable-expert-parallel \
--data-parallel-size 2 \
--gpu-memory-utilization 0.95 \
--max-model-len 7000 \
--tokenizer-mode deepseek_v4 \
--tool-call-parser deepseek_v4 \
--enable-auto-tool-choice \
--enforce-eager

模型默認 max seq len1048576,完全搞不動,所以我這里 --max-model-len 只設 7K


啟動正常,幾個日志關鍵信息分享一下:

1、模型原始 Safetensors 權(quán)重文件高達 148.66 GiB(EXT4 文件系統(tǒng)顯示的 size),但在啟用 FP8 量化 和 Expert Parallelism(EP) 后,單個 Worker 進程(Rank)加載的權(quán)重被壓縮到了 77.6 GiB

2、扣除權(quán)重和系統(tǒng)預留后,只剩下了約 9.29 GiB 用于緩存

3、并發(fā)能力,日志顯示 Maximum concurrency for 7,000 tokens perrequest: 3.72x。這意味著在長文本(7k tokens)情況下,系統(tǒng)僅能支持約 3.72 個并發(fā)請求

4、模型總共有 256 個專家,通過并行配置,每個 Worker 維護 128 個。這樣做既利用了多卡的算力,又分攤了專家權(quán)重的顯存壓力

5、日志顯示 Using DeepSeek's fp8_ds_mla KV cacheformat。這是 DeepSeek 的“獨門絕技”,通過低秩壓縮技術(Multi-head Latent Attention),在 FP8 模式下極大地緩解了內(nèi)存帶寬壓力(擴展閱讀:)

6、日志還可以看到 TileLang 完成了 mhc_pre_big_fuse_tilelang 等內(nèi)核的編譯

7、啟動速度:整個引擎初始化(Profile + Cache 創(chuàng)建 + Warmup)耗時約 233 秒。對于這種規(guī)模的模型,這個速度表現(xiàn)尚可,大部分時間花在了 DeepGEMM warmup(2 分 36 秒)


性能情況

效果就別追求了,看看性能


平均生成速度 8.33!?。∵b遙領先的卡嗎?

哦哦,不對是 H20

難以置信,要知道我測試

關閉思考

查了一下 DeepSeek API 文檔,可以關閉思考


寫了一個腳本再測、,對比思考與非思考下性能,各跑 10 次取平均,同樣的 prompt,max_tokens=1024

結(jié)果如下:


再見,浪費了寶貴的幾個小時!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
DeepSeek再放大招,國產(chǎn)大模型坐不住了

DeepSeek再放大招,國產(chǎn)大模型坐不住了

鈦媒體APP
2026-04-25 16:01:39
區(qū)桂芝:臺灣不能再被“臺獨”綁架,否則終將引火自焚

區(qū)桂芝:臺灣不能再被“臺獨”綁架,否則終將引火自焚

金牛傳聲
2026-04-26 09:08:21
上交所、深交所、北交所,同日公告

上交所、深交所、北交所,同日公告

上觀新聞
2026-04-26 00:08:08
香港明明是中國的領土,為何他們回歸多年,依然還在使用港幣?

香港明明是中國的領土,為何他們回歸多年,依然還在使用港幣?

抽象派大師
2026-04-25 18:47:51
范元甄:與江青齊名的延安四美之一,嫁主席秘書,卻輸?shù)袅艘簧?>
    </a>
        <h3>
      <a href=干史人
2026-03-05 21:06:35
趙鴻剛發(fā)文稱被公司解約,遭索賠200萬元,此前參加“世界扇耳光大賽”被KO倒地,卻因“眼神堅毅、毫不閃躲”圈粉百萬被喊“真男人”!

趙鴻剛發(fā)文稱被公司解約,遭索賠200萬元,此前參加“世界扇耳光大賽”被KO倒地,卻因“眼神堅毅、毫不閃躲”圈粉百萬被喊“真男人”!

大象新聞
2026-04-25 14:49:05
醫(yī)生1分鐘復位收100元被舉報,衛(wèi)健委回懟:應收110,你還少給了!家長拒繳溜走!

醫(yī)生1分鐘復位收100元被舉報,衛(wèi)健委回懟:應收110,你還少給了!家長拒繳溜走!

醫(yī)客
2026-04-23 12:09:21
臺專家:兩岸統(tǒng)一課題不再是政治禁忌,島內(nèi)年輕人脫綠

臺專家:兩岸統(tǒng)一課題不再是政治禁忌,島內(nèi)年輕人脫綠

金牛傳聲
2026-04-26 09:03:43
“香港演員幾乎全軍覆沒! 無戲可拍”引發(fā)網(wǎng)友熱議

“香港演員幾乎全軍覆沒! 無戲可拍”引發(fā)網(wǎng)友熱議

許三歲
2026-03-26 11:35:13
10國簽反華協(xié)議!沉默一天后,中方出手,不得未經(jīng)允許接受美資

10國簽反華協(xié)議!沉默一天后,中方出手,不得未經(jīng)允許接受美資

清歡百味
2026-04-25 16:25:29
全球44個君主制國家,只有14個國王擁有實權(quán),他們是誰?

全球44個君主制國家,只有14個國王擁有實權(quán),他們是誰?

七號說三國
2026-04-25 20:07:27
住2億別墅、雇4個保姆,'苦等'9年的沈夢辰,被那英一語擊中

住2億別墅、雇4個保姆,'苦等'9年的沈夢辰,被那英一語擊中

楓塵余往逝
2026-04-24 19:50:27
湖底驚現(xiàn)39年前失蹤的運鈔車,鈔箱毫發(fā)無損,撬開后卻傻眼了

湖底驚現(xiàn)39年前失蹤的運鈔車,鈔箱毫發(fā)無損,撬開后卻傻眼了

青青會講故事
2025-09-17 11:32:38
造不出高端發(fā)動機?日企拆開紅旗車,才發(fā)現(xiàn)中國早已走在時代前面

造不出高端發(fā)動機?日企拆開紅旗車,才發(fā)現(xiàn)中國早已走在時代前面

杰絲聊古今
2026-04-26 09:47:35
56歲健康母親赴瑞士安樂死:兒子已走4年,我只想體面離開

56歲健康母親赴瑞士安樂死:兒子已走4年,我只想體面離開

胡一舸南游y
2026-04-25 16:22:22
美伊談判,最新進展!伊朗外長率團抵達巴基斯坦?!美方特使赴巴,萬斯待命!

美伊談判,最新進展!伊朗外長率團抵達巴基斯坦?!美方特使赴巴,萬斯待命!

上觀新聞
2026-04-25 08:32:21
毛主席去世前,留下兩大謎團,一個至今無人知曉

毛主席去世前,留下兩大謎團,一個至今無人知曉

幽州校尉
2026-03-29 08:12:28
25萬,逆天啊...

25萬,逆天啊...

放毒
2026-04-25 17:06:44
韓國女星泫雅,已不卷身材,胖成糯米團子,反而越來越討喜了

韓國女星泫雅,已不卷身材,胖成糯米團子,反而越來越討喜了

橙星文娛
2026-04-26 09:34:05
成熟阿姨一身精致的打扮,把旁邊的小伙看呆了

成熟阿姨一身精致的打扮,把旁邊的小伙看呆了

牛彈琴123456
2026-04-25 10:41:41
2026-04-26 10:32:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3351文章數(shù) 11139關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰(zhàn)”

頭條要聞

牛彈琴:伊朗放了美國人鴿子 特朗普被氣壞了

頭條要聞

牛彈琴:伊朗放了美國人鴿子 特朗普被氣壞了

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經(jīng)要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態(tài)度原創(chuàng)

時尚
旅游
健康
數(shù)碼
軍事航空

伊姐周六熱推:電視劇《方圓八百米》;電視劇《金關》......

旅游要聞

打卡淄博:從千年文脈到市井煙火

干細胞如何讓燒燙傷皮膚"再生"?

數(shù)碼要聞

OPPO手表6月推送新功能:身心狀態(tài)提醒、日照時長監(jiān)測一應俱全

軍事要聞

伊朗總統(tǒng):不會在壓力、威脅下進行談判

無障礙瀏覽 進入關懷版