国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

家家都有DeepSeek服務(wù),如何謊稱(chēng)速度快?

0
分享至

不是人人都有“鈔能力”,我們的故事,

從用單節(jié)點(diǎn)方案部署DeepSeek-R1開(kāi)始。

為什么是單節(jié)點(diǎn)呢?

因?yàn)镠200單卡有140GB顯存,可用單節(jié)點(diǎn)(8卡)方案部署。

而H800和HI00顯存80GB,需要雙節(jié)點(diǎn)方案。

有卡了,就可以來(lái)玩DeepSeek。

世界是場(chǎng)游戲,是游戲就有作弊的玩家。

怎么作弊呢?等下說(shuō),

先看看芯片廠商AMD的官網(wǎng)技術(shù)博客。

網(wǎng)址在此:https://rocm.blogs.amd.com/artificial-intelligence/DeepSeekR1_Perf/README.html

時(shí)間是25年2月21日。

我相信哪怕是這幾天的時(shí)間,AMD的性能指標(biāo)也還在增長(zhǎng)。

沒(méi)辦法,AI就是這么卷。

換個(gè)角度,這篇可以說(shuō)是,

從AMD官網(wǎng)博客中學(xué)習(xí)大模型推理性能知識(shí)點(diǎn)。

下圖是兩種芯片,英偉達(dá)H200和AMD MI300X,

用一個(gè)節(jié)點(diǎn)(8卡)跑出來(lái)的性能。

為什么要學(xué)這些知識(shí)點(diǎn)呢?

答案很簡(jiǎn)單,以防被忽悠。

話說(shuō),性能指標(biāo)是一個(gè)非常關(guān)鍵的數(shù)值,

背后都是技術(shù)實(shí)力,

甚至可以說(shuō)性能是技術(shù)實(shí)力的終極體現(xiàn)。

是騾子是馬,你拉出來(lái)溜溜。

不過(guò),現(xiàn)在是技術(shù)向上震蕩期,

很多人對(duì)大模型性能指標(biāo)不熟悉,

會(huì)有人借機(jī)在這個(gè)指標(biāo)上面作弊。

別著急知道作弊手法,

在看懂作弊之前我們先了解如何公平,

對(duì),公平比較兩種芯片性能。

我們先看懂圖上的“已知條件”

圖上都有什么信息呢?

我們都知道,

大模型推理分為兩個(gè)關(guān)鍵任務(wù),

有各自的生成時(shí)間:

一個(gè)是輸入(Prefill任務(wù))所用時(shí)間,

另一個(gè)是輸出(Decode任務(wù))所用時(shí)間。

其實(shí)所有的性能幾乎都可以分這兩個(gè)階段來(lái)觀察。

大模型推理中有兩個(gè)關(guān)鍵指標(biāo),

兩個(gè)關(guān)鍵指標(biāo)是:

吞吐量(Throughput)和延遲(Latency)

吞吐量通常指每秒生成的token數(shù)量,

而延遲是從輸入到輸出的時(shí)間。

時(shí)間非常關(guān)鍵,

每秒吞吐量越高,意味著計(jì)算機(jī)系統(tǒng)能在單位時(shí)間內(nèi)處理更多的請(qǐng)求。

就是單位時(shí)間干的活越多越好。

當(dāng)然,牛馬也一樣。

這張圖告訴我們:

圖中有兩種芯片,

英偉達(dá)H200型號(hào)和AMD的MI300X型號(hào),

為了公平比較兩種芯片的性能,要統(tǒng)一測(cè)試,

為什么要統(tǒng)一測(cè)試?

這樣才能看出處理相同工作量時(shí),

哪個(gè)芯片速度更快、效果更好。

我們要用相同的“題目量”和“回答量”來(lái)進(jìn)行測(cè)試,

也就是,統(tǒng)一處理4000個(gè)token(題目和回答加在一起)。

圖中原話是:輸入3200個(gè)token和輸出800個(gè)token。

這樣,兩個(gè)系統(tǒng)都各自處理4000個(gè)token的信息量,

而且圖中已知,每個(gè)推理請(qǐng)求中,平均向系統(tǒng)問(wèn)出500個(gè)問(wèn)題。

這樣,測(cè)試“系統(tǒng)處理token數(shù)量”統(tǒng)一了。

這張圖還想告訴我們幾個(gè)技術(shù)概念,

吞吐量(單位:token/秒)

延遲(單位:毫秒)

下面,我們會(huì)把毫秒換算成秒。

而最大并發(fā)數(shù)(Max Concurrency)是什么呢?

就是衡量系統(tǒng)在同一時(shí)刻能同時(shí)服務(wù)多少個(gè)請(qǐng)求,

能讓我們了解AI 系統(tǒng)在真實(shí)環(huán)境下對(duì)大量請(qǐng)求的抗壓能力,

就像考場(chǎng)里同一時(shí)間安排多少考生一起考試的道理一樣。

最大并發(fā)數(shù),用Batch Size表示:

我們要根據(jù)不同的請(qǐng)求數(shù)量,觀察系統(tǒng)性能分別是多少。

因?yàn)槭菧y(cè)試,所以非常細(xì)致,

能讓我們了解 AI 系統(tǒng)在真實(shí)環(huán)境下對(duì)大量請(qǐng)求的適應(yīng)能力,

就像考場(chǎng)里同一時(shí)間安排多少考生一起考試的道理一樣。

當(dāng)推理請(qǐng)求數(shù)量(Batch Size),

分別是是1,2,4……128,

Batch Size1是只有1個(gè)請(qǐng)求,

Batch Size2,同時(shí)處理2個(gè)請(qǐng)求,

Batch Size4,同時(shí)處理4個(gè)請(qǐng)求,

以此類(lèi)推,直到Batch Size128,

就是同時(shí)處理128個(gè)請(qǐng)求。

打個(gè)比方,當(dāng)我們說(shuō)Batch Size1,

代表只有1個(gè)人在考試,1個(gè)人用考試系統(tǒng);

Batch Size2,代表有2個(gè)人一起考試;

以此類(lèi)推,Batch Size128 ,

就意味著128個(gè)人同時(shí)在考試。

如果只有1 個(gè)人在考試(Batch Size1),

系統(tǒng)專(zhuān)心為一個(gè)考生服務(wù),一般來(lái)說(shuō),速度慢不了;

如果有128 個(gè)考生一起考試(Batch Size128),

系統(tǒng)就要同時(shí)對(duì)128 個(gè)人的題目進(jìn)行閱讀、思考、回答,負(fù)擔(dān)變大,

可能會(huì)增加等待時(shí)間。

我們?cè)賮?lái)看圖,

在圖上左下方讀到的第一個(gè)數(shù)字是170,

單位tokens/s。

意味著:

已知總共4000個(gè)token的信息量,

當(dāng)BatchSize1的時(shí)候,每秒處理170個(gè)token,

以這種速度來(lái)處理,

那需要的時(shí)間就是4000除以170等于23.5秒。

就是用23.5秒就能把這4000個(gè)token算完。

23.5秒在時(shí)間軸橫軸上處于2萬(wàn)毫秒右邊一點(diǎn)的位置。

沒(méi)有明確寫(xiě)出來(lái),但我們讀圖能讀出來(lái)。

圖片試圖說(shuō)明AMD芯片性能很好,

然而,我對(duì)AMD的這種廣告沒(méi)有什么興趣。

我感興趣的是:AMD這個(gè)廠商很良心,

他們的性能數(shù)據(jù)很清楚地告訴我們,

輸入和輸出的字?jǐn)?shù)是多少(輸入3200個(gè)token和輸出800個(gè)token),

3200+800就是系統(tǒng)總處理的token數(shù),

4000除以170等于23.5秒,

也就是說(shuō),decode任務(wù)時(shí)間是23秒,

也是恒定的塞進(jìn)去的信息量就這么多。

好比,東西放進(jìn)大模型里面多長(zhǎng)時(shí)間能“出鍋”,

需要測(cè)量一個(gè)客觀的時(shí)間,

也就是,系統(tǒng)跑出來(lái)是幾秒就是幾秒。

生成速度,也就是多少秒生成多少token是一個(gè)硬指標(biāo),

是用總吞吐量除以測(cè)量出得時(shí)間得出來(lái)的。

這里要稍微計(jì)算一下了:

用圖上的已知信息倒著推理兩個(gè)信息。

當(dāng)我們跑8張卡的H200的系統(tǒng)(單節(jié)點(diǎn)),

在Batch Size1的時(shí)候,情況如下:

情況一:輸入3200,輸出800,4000=3200+800

4000tokens除以170tokens/s等于23.53秒

估計(jì)decode時(shí)間大約為23秒,

再看decode的信息處理量是800token,

decode800tokens除以23秒等于35tokens/s。

看好了,這時(shí)候我要來(lái)“作弊”了,把輸入和輸出的數(shù)據(jù)互換一下。

情況二:輸入800,輸出3200,4000=800+3200

3200tokens除以34.78tokens/s,

就是每秒跑出來(lái)34.78個(gè)token,

雖然同樣還是處理總共4000個(gè)token,

但是,用3200除以35okens/s等于91秒,

decode時(shí)間就會(huì)變得很長(zhǎng),91秒。

都是處理同樣的信息量,調(diào)整輸入和輸出,

decode的時(shí)間從23秒變成了91秒。

這個(gè)技術(shù)細(xì)節(jié)非常重要。

有時(shí)候,廠商提供的測(cè)試數(shù)據(jù)是prefill和decode加在一起的,

當(dāng)然,也可以說(shuō)混在一起。

既然“混了”,“摸魚(yú)”的機(jī)會(huì)就來(lái)了,

好比兩個(gè)長(zhǎng)跑運(yùn)動(dòng)員,

一個(gè)叫prefill,一個(gè)叫decode,

prefill跑得快,decode跑得慢,

至于為什么decode慢,

這個(gè)你的去問(wèn)“注意力機(jī)制”這個(gè)家伙了,

都是它干的好事,這里不展開(kāi)。

同樣的一段長(zhǎng)跑運(yùn)動(dòng),

prefill和decode的速度應(yīng)該分別記錄,

假如想作弊,就把盡量長(zhǎng)的路程給prefill跑,

它速度快,時(shí)間肯定就縮短了。

要是不懂,猛一看性能,覺(jué)得還挺快嘞。

還是那句話,性能是和采購(gòu)決策相關(guān)的關(guān)鍵指標(biāo)。

廠商AMD很客觀,告訴你比例了(輸入3200,輸出800),

有人會(huì)把prefill的比例調(diào)高點(diǎn),數(shù)值就更好看了,

因?yàn)閐ecode跑得慢,讓decode少跑,也就是少干點(diǎn)活。

請(qǐng)注意,有些性能指標(biāo)旁邊標(biāo)著“僅輸出”(decode only)

這不是不可以,而是,拿“僅輸出”的指標(biāo)和整個(gè)推理的吞吐指標(biāo)對(duì)比,

不講武德。

總結(jié)一下:寫(xiě)性能,請(qǐng)把prefill和decode處理的工作量標(biāo)清楚,謝謝。

最后預(yù)告下,過(guò)幾天發(fā)的文章,

我會(huì)把圖上所有的指標(biāo)都算出來(lái),會(huì)有新結(jié)論。

上一篇回顧:

《DeepSeek:為了這口醋,包了這頓餃子,為了數(shù)據(jù),我造了模型》

聲明:個(gè)人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
比張本更難對(duì)付的對(duì)手出現(xiàn),23分鐘血洗世界第2,日媒稱(chēng)新時(shí)代核心

比張本更難對(duì)付的對(duì)手出現(xiàn),23分鐘血洗世界第2,日媒稱(chēng)新時(shí)代核心

羅納爾說(shuō)個(gè)球
2026-04-04 20:19:52
謝謝湖南衛(wèi)視,沒(méi)有掐死這部片子

謝謝湖南衛(wèi)視,沒(méi)有掐死這部片子

獨(dú)立魚(yú)
2026-04-01 21:38:27
周總理只是讓他去經(jīng)商,為黨賺取經(jīng)費(fèi),他卻給組織賺回個(gè)商業(yè)帝國(guó)

周總理只是讓他去經(jīng)商,為黨賺取經(jīng)費(fèi),他卻給組織賺回個(gè)商業(yè)帝國(guó)

鶴羽說(shuō)個(gè)事
2026-04-02 23:00:01
別被假數(shù)據(jù)騙了!騎士主帥被打服:哈登末節(jié)根本是在下棋!

別被假數(shù)據(jù)騙了!騎士主帥被打服:哈登末節(jié)根本是在下棋!

寒律
2026-04-04 19:43:55
廣東最"慘"雞煲店老板崩潰“自黑”,從“求別來(lái)”到排隊(duì)298號(hào)

廣東最"慘"雞煲店老板崩潰“自黑”,從“求別來(lái)”到排隊(duì)298號(hào)

半糖甜而不膩
2026-04-04 12:07:30
局勢(shì)再度升級(jí)!首艘開(kāi)往中國(guó)的油輪遭到襲擊,是誤傷還是警告

局勢(shì)再度升級(jí)!首艘開(kāi)往中國(guó)的油輪遭到襲擊,是誤傷還是警告

鐵錘簡(jiǎn)科
2026-04-03 15:20:07
廣東大勝殘陣廣廈卻吃T,力氣全打在棉花上,賽后錄像白研究

廣東大勝殘陣廣廈卻吃T,力氣全打在棉花上,賽后錄像白研究

楊仔述
2026-04-04 22:54:24
隨著葡萄牙體育4-2,葡超最新積分榜出爐:穆帥率隊(duì)落后榜首7分

隨著葡萄牙體育4-2,葡超最新積分榜出爐:穆帥率隊(duì)落后榜首7分

側(cè)身凌空斬
2026-04-04 05:41:33
6歲女童家門(mén)口消失!監(jiān)控畫(huà)面疑點(diǎn)重重,網(wǎng)友扒細(xì)節(jié),后果不敢想

6歲女童家門(mén)口消失!監(jiān)控畫(huà)面疑點(diǎn)重重,網(wǎng)友扒細(xì)節(jié),后果不敢想

潮鹿逐夢(mèng)
2026-04-03 12:21:11
38歲王思聰私生活混亂揮霍無(wú)度,再傳大丑聞

38歲王思聰私生活混亂揮霍無(wú)度,再傳大丑聞

悅君兮君不知
2026-02-27 21:20:11
宿茂臻:跟球迷說(shuō)抱歉;克雷桑膝蓋的半月板和十字韌帶有問(wèn)題

宿茂臻:跟球迷說(shuō)抱歉;克雷桑膝蓋的半月板和十字韌帶有問(wèn)題

懂球帝
2026-04-04 22:47:03
不是動(dòng)畫(huà)片!76只河貍傘兵,被空投到了美國(guó)荒野

不是動(dòng)畫(huà)片!76只河貍傘兵,被空投到了美國(guó)荒野

果殼
2026-04-04 16:11:49
不出意外!2026年4月起,房子、車(chē)子、存款,會(huì)迎來(lái)“大變局”

不出意外!2026年4月起,房子、車(chē)子、存款,會(huì)迎來(lái)“大變局”

小談食刻美食
2026-04-03 10:05:35
回首才發(fā)現(xiàn),原來(lái)馬斯克早就在中國(guó)埋下“重磅炸彈”,且效果顯著

回首才發(fā)現(xiàn),原來(lái)馬斯克早就在中國(guó)埋下“重磅炸彈”,且效果顯著

青煙小先生
2026-04-04 10:18:44
中國(guó)提前48個(gè)小時(shí)通告各國(guó),別逼中方動(dòng)用“一票否決權(quán)”

中國(guó)提前48個(gè)小時(shí)通告各國(guó),別逼中方動(dòng)用“一票否決權(quán)”

滄海旅行家
2026-04-03 19:29:05
黑鷹墜落2.0?美國(guó)這次沒(méi)重演失敗

黑鷹墜落2.0?美國(guó)這次沒(méi)重演失敗

海子侃生活
2026-04-04 20:11:13
全網(wǎng)都在捧張雪,我卻想聊聊他師傅牙哥:那個(gè)從摩托冠軍到?“手搓飛機(jī)”?的瘋子

全網(wǎng)都在捧張雪,我卻想聊聊他師傅牙哥:那個(gè)從摩托冠軍到?“手搓飛機(jī)”?的瘋子

陳意小可愛(ài)
2026-04-04 10:24:50
有沒(méi)有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

有沒(méi)有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

夜深?lèi)?ài)雜談
2026-02-18 20:55:58
突發(fā)!這家A股知名酒企董事長(zhǎng)失聯(lián)!

突發(fā)!這家A股知名酒企董事長(zhǎng)失聯(lián)!

新浪財(cái)經(jīng)
2026-04-04 08:51:45
萬(wàn)科前董事長(zhǎng)郁亮曾兩次拒絕王石

萬(wàn)科前董事長(zhǎng)郁亮曾兩次拒絕王石

地產(chǎn)微資訊
2026-03-04 08:40:10
2026-04-04 23:32:49
親愛(ài)的數(shù)據(jù) incentive-icons
親愛(ài)的數(shù)據(jù)
《我看見(jiàn)了風(fēng)暴:人工智能基建革命》一書(shū)作者
693文章數(shù) 219913關(guān)注度
往期回顧 全部

數(shù)碼要聞

首款驍龍8 Gen5小平板來(lái)了!OPPO Pad mini詳細(xì)參數(shù)出爐

頭條要聞

媒體:美軍上演現(xiàn)實(shí)版"拯救大兵" 特朗普"贏學(xué)"被打臉

頭條要聞

媒體:美軍上演現(xiàn)實(shí)版"拯救大兵" 特朗普"贏學(xué)"被打臉

體育要聞

剎不住的泰格·伍茲,口袋里的兩粒藥丸

娛樂(lè)要聞

Q女士反擊,否認(rèn)逼宋寧峰張婉婷離婚

財(cái)經(jīng)要聞

中微董事長(zhǎng),給半導(dǎo)體潑點(diǎn)冷水

科技要聞

內(nèi)存一年漲四倍!國(guó)產(chǎn)手機(jī)廠商集體漲價(jià)

汽車(chē)要聞

17萬(wàn)級(jí)海豹07EV 不僅續(xù)航長(zhǎng)還有9分鐘滿(mǎn)電的快樂(lè)

態(tài)度原創(chuàng)

親子
數(shù)碼
藝術(shù)
本地
公開(kāi)課

親子要聞

中俄帶娃觀念差異有多大

數(shù)碼要聞

NuPhy Air V3矮軸機(jī)械鍵盤(pán)新增65% / 100%配列,649 / 749元

藝術(shù)要聞

高4000米,造價(jià)9000億!日本為什么拋出“鋼鐵山脈”摩天樓?

本地新聞

跟著歌聲游安徽,聽(tīng)古村回響

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版