国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

英偉達(dá)仍是王者!GB200貴一倍卻暴省15倍,AMD輸?shù)脧氐?/h1>
0
分享至


新智元報(bào)道

編輯:桃子

【新智元導(dǎo)讀】AI推理游戲規(guī)則,正悄然改變。一份最新報(bào)告揭示了關(guān)鍵轉(zhuǎn)折:如今決定勝負(fù)的,不再是單純的芯片性能或GPU數(shù)量,而是 「每一美元能輸出多少智能」。

AI推理,現(xiàn)已不只看算力硬指標(biāo)了!

Signal65一份最新報(bào)告中,英偉達(dá)GB200 NVL72是AMD MI350X吞吐量28倍。

而且,在高交互場(chǎng)景在,DeepSeek R1每Token成本還能低到15倍。


GB200每小時(shí)單價(jià)大概是貴一倍左右,但這根本不重要。因?yàn)闄C(jī)柜級(jí)NVLink互聯(lián)+軟件調(diào)度能力,徹底改變了成本結(jié)構(gòu)。

頂級(jí)投資人Ben Pouladian稱,「目前的關(guān)鍵不再是算力或GPU數(shù)量,而是每一美元能買到多少智能輸出」。


如今,英偉達(dá)仍是王者。其他競(jìng)爭(zhēng)對(duì)手根本做不到這種交互水平,這就是護(hù)城河。


最關(guān)鍵的是,這還沒有集成200億刀買入Groq的推理能力。

這里,再mark下老黃至理名言——The more you buy, the more you save!


AI推理重心:一美元輸出多少智能?

這篇萬字報(bào)告,探索了從稠密模型(Dense)到混合專家模型(MoE)推理背后的一些本質(zhì)現(xiàn)象。


傳統(tǒng)的「稠密模型」架構(gòu)要求:在生成每個(gè)Token時(shí)都激活模型里的全部參數(shù)。

這就意味著:模型越大,運(yùn)行越慢、成本越高,同時(shí)還會(huì)帶來相應(yīng)的內(nèi)存需求增長(zhǎng)等問題。


MoE架構(gòu),正是為了釋放更高水平的智能而生——在每個(gè)Token上只激活最相關(guān)的「專家」。

摟一眼Artificial Analysis排行榜即可發(fā)現(xiàn),全球TOP 10開源LLM,全部都是MoE推理模型。

它們會(huì)在推理階段額外「加算力」來提高準(zhǔn)確性:

LLM不會(huì)立刻吐出答案,而是先生成中間的推理Token,再輸出,相當(dāng)于先把請(qǐng)求和解法「想一遍」。


前16名里有12個(gè)是MoE模型

這些推理Token往往遠(yuǎn)多于最終回復(fù),而且可能完全不會(huì)展示出來。能否既快又便宜地生成Token,對(duì)推理部署來說就變得至關(guān)重要。

那么,MoE方法的主要約束在哪里?

一個(gè)核心限制在于「通信瓶頸」。

當(dāng)不同專家分布在多塊GPU上時(shí),任何GPU之間通信的延遲,都會(huì)讓GPU空閑等待數(shù)據(jù)。


OpenRouter一份近期報(bào)告,超50%的Token會(huì)被路由到推理模型上

這些「空轉(zhuǎn)時(shí)間」(idle time)代表著被浪費(fèi)的、低效的算力,并且會(huì)直接體現(xiàn)在服務(wù)提供商的成本底線上。

當(dāng)評(píng)估AI基礎(chǔ)設(shè)施的「經(jīng)濟(jì)性」時(shí),一般會(huì)聚焦在三個(gè)方面:

  • 性能(吞吐量與交互性)

  • 能效(在既定功耗預(yù)算下,可生成的Token數(shù))

  • 總體擁有成本(通常以Token/每百萬的成本衡量)

基于公開可用的基準(zhǔn)測(cè)試數(shù)據(jù),Signal65對(duì)不同LLM架構(gòu)下AI基礎(chǔ)設(shè)施方案進(jìn)行了對(duì)比分析。

分析中,團(tuán)隊(duì)采用第三方基準(zhǔn)測(cè)試所提供的性能數(shù)據(jù),來估算相對(duì)的Token經(jīng)濟(jì)性。

具體來說,他們選取了B200、GB200 NVL72,以及AMD MI355X部分結(jié)果,用以對(duì)比它們?cè)诓煌P蛨?chǎng)景下的真實(shí)性能表現(xiàn)及相應(yīng)的TCO估算。


結(jié)果顯示,在稠密架構(gòu)以及較小規(guī)模的MoE中,B200性能優(yōu)于AMD MI355X。

當(dāng)模型擴(kuò)展到像DeepSeek-R1這樣需跨越單節(jié)點(diǎn)的前沿級(jí)規(guī)模時(shí),GB200 NVL72性能最高可達(dá)到MI355X的28倍。


在高交互性的推理工作負(fù)載中,NVL72的單位Token成本最低,可降至其他方案的約1/15。

盡管GB200 NVL72的單GPU小時(shí)價(jià)格幾乎是這些競(jìng)爭(zhēng)平臺(tái)的2倍,但其機(jī)架級(jí)能力——從NVLink高速互連,到覆蓋72塊GPU的軟件編排——共同推動(dòng)了這種顯著更優(yōu)的單位經(jīng)濟(jì)性。

價(jià)值評(píng)估的重心,正在從單純的原始FLOPs,轉(zhuǎn)向「每一美元所獲得的總體智能」。

這一結(jié)論非常明確:

隨著MoE模型和推理工作負(fù)載帶來的復(fù)雜性與規(guī)模持續(xù)上升,行業(yè)已無法僅依賴芯片層面的性能提升。

能夠在系統(tǒng)層面實(shí)現(xiàn)峰值性能的端到端平臺(tái)設(shè)計(jì),已經(jīng)成為實(shí)現(xiàn)低成本、高響應(yīng)AI服務(wù)的關(guān)鍵杠桿。

「稠密模型」推理,英偉達(dá)領(lǐng)先

Signal65選擇了Llama 3.3 70B作為稠密模型的性能基準(zhǔn),結(jié)果如下所示:

帕累托曲線清晰顯示出,HGX B200-TRT方案在整個(gè)吞吐量與交互性區(qū)間內(nèi),都具備持續(xù)的性能優(yōu)勢(shì)。

具體到基線交互性水平,B200的性能大約是MI355X的1.8倍,這為交互式應(yīng)用部署,以及更高的單GPU并發(fā)密度提供了顯著余量。


再來看,當(dāng)交互性提升至110 tokens/sec/user時(shí),這一優(yōu)勢(shì)進(jìn)一步被放大:B200吞吐量超過MI355X的6倍。

整體上,在Llama 3.3 70B測(cè)試中,AMD MI355X在單位成本性能方面確實(shí)具備一定吸引力。

但這種優(yōu)勢(shì)并不能代表更現(xiàn)代的推理技術(shù)棧,尤其是以MoE架構(gòu)和高強(qiáng)度推理工作負(fù)載構(gòu)建的系統(tǒng)。



MoE推理,英偉達(dá)領(lǐng)先

那么,在MoE架構(gòu)上,英偉達(dá)和AMD表現(xiàn)又如何?

中等規(guī)模推理:gpt-oss-120B

Signal65認(rèn)為,OpenAI gpt-oss-120B是理解MoE部署特性的一個(gè)理想「橋梁案例」。

它足夠大,可以把MoE的復(fù)雜性暴露出來;

但規(guī)模又沒有大到離譜,仍然是很多團(tuán)隊(duì)能現(xiàn)實(shí)部署并調(diào)優(yōu)的范圍。

它處在一個(gè)很有用的中間地帶:介于稠密的70B級(jí)模型,與市場(chǎng)正在快速轉(zhuǎn)向的、更前沿的推理型MoE架構(gòu)之間。


在10月下旬?dāng)?shù)據(jù)里,當(dāng)目標(biāo)是100 tokens/sec/user時(shí),B200大約比MI355X快1.4倍;

但當(dāng)目標(biāo)提高到250 tokens/sec/user時(shí),差距會(huì)擴(kuò)大到約3.5倍,說明越追求「更快的交互」,平臺(tái)差異越容易被放大。

不過,12月上旬的數(shù)據(jù)則呈現(xiàn)出不同局面。

得益于軟件優(yōu)化,兩邊平臺(tái)的絕對(duì)性能都明顯提升:英偉達(dá)單GPU峰值吞吐從大約7,000 tokens/sec提升到超過14,000;AMD也從約6,000提升到大約8,500。



前沿推理:DeepSeek-R1

在DeepSeek-R1推理上,測(cè)試結(jié)果正如開篇所介紹那樣,英偉達(dá)GB200 NVL72大幅領(lǐng)先。

更多數(shù)據(jù)如下圖所示:


基準(zhǔn)測(cè)試數(shù)據(jù)展示了一個(gè)被重塑的格局:

GB200 NVL72讓「超過8塊GPU的張量并行配置」也能進(jìn)入帕累托前沿,達(dá)到單節(jié)點(diǎn)平臺(tái)根本無法匹敵的性能。

在25 tokens/sec/user交互性目標(biāo)下,GB200 NVL72單GPU性能大約是H200的10倍,并且超過MI325X單GPU性能的16倍。

這類性能差距,正是能為AI服務(wù)提供商帶來「斷崖式」TCO改善的那種差距。

當(dāng)交互性目標(biāo)提高到60 tokens/sec/user時(shí),GB200 NVL72相比H200帶來了超24倍的代際提升,同時(shí)也接近MI355X的11.5倍性能。

在同樣25 tokens/sec/user下,GB200 NVL72單GPU性能大約是B200的2倍、是MI355X的5.9倍;

而到60 tokens/sec/user時(shí),這些優(yōu)勢(shì)進(jìn)一步擴(kuò)大:相對(duì)單節(jié)點(diǎn)B200達(dá)到5.3倍、相對(duì)MI355X達(dá)到11.5倍。



GPU越貴,token成本越低

英偉達(dá)從Hopper過渡到Blackwell,并推出GB200 NVL72時(shí),不僅提升了每GPU算力、內(nèi)存帶寬以及NVLink互連帶寬,還對(duì)底層系統(tǒng)架構(gòu)做了重新設(shè)計(jì)。

從8-GPU風(fēng)冷HGX服務(wù)器轉(zhuǎn)向全液冷的機(jī)架級(jí)系統(tǒng),并把72塊GPU連接在同一個(gè)域內(nèi),系統(tǒng)成本和復(fù)雜度顯然都上升了。


據(jù)CoreWeave公布的目錄價(jià),按單GPU口徑,GB200 NVL72價(jià)格大約比H200貴1.7倍。

不過,每一代新技術(shù)的目標(biāo)之一,就是壓低「每Token成本」。

對(duì)推理而言,具體就是:實(shí)際交付的Token吞吐提升幅度,要超過底層基礎(chǔ)設(shè)施成本的提升幅度。

而從公開的性能數(shù)據(jù)來看,這正是GB200 NVL72相比Hopper所呈現(xiàn)出的結(jié)果。

Signal65把本次的tokenomics(Token經(jīng)濟(jì)學(xué))分析,錨定在前文建立的DeepSeek-R1性能差距上:

在25 tokens/sec/user時(shí),GB200 NVL72單GPU性能大約是H200的10倍;

在更高的交互點(diǎn)位上,這個(gè)差距會(huì)更大(24倍)。

下表總結(jié)了成本歸一化,以及由此得到的「每美元性能」計(jì)算:

這些結(jié)果一開始可能有點(diǎn)反直覺:更「貴」的GPU反而更省錢——因?yàn)樗鼛淼男阅芴嵘h(yuǎn)大于價(jià)格差異,使得它能以更低成本生成Token。



與AMD相比,英偉達(dá)系統(tǒng)在推理token成本上的一些數(shù)據(jù)對(duì)比:


按單GPU口徑,MI355X價(jià)格大約只有GB200 NVL72配置的一半;

但由于GB200 NVL72單GPU性能優(yōu)勢(shì)從低端接近6倍,到高交互性時(shí)高達(dá)28倍不等,英偉達(dá)仍然能提供最高15倍的每美元性能優(yōu)勢(shì)。

換句話說,英偉達(dá)能實(shí)現(xiàn)相對(duì)每Token成本僅為競(jìng)爭(zhēng)對(duì)手的1/15。

結(jié)論

前沿AI模型的未來,會(huì)是更大、更復(fù)雜的MoE。

隨著模型更深地走向MoE與推理架構(gòu),最終效果將不再只取決于原始GPU性能或內(nèi)存容量。

平臺(tái)級(jí)設(shè)計(jì)會(huì)成為決定性因素——包括互連與通信效率、多節(jié)點(diǎn)擴(kuò)展特性、軟件棧成熟度、生態(tài)支持與編排能力,以及在并發(fā)與混合負(fù)載下維持高利用率的能力。

從當(dāng)前趨勢(shì)看,來自O(shè)penAI、Meta、Anthropic等前沿公司的旗艦?zāi)P停芸赡軙?huì)繼續(xù)沿著MoE與推理方向演進(jìn)。

如果這一軌跡成立,英偉達(dá)將維持關(guān)鍵的性能與經(jīng)濟(jì)性優(yōu)勢(shì)。

谷歌TPU這類架構(gòu)也提供機(jī)架級(jí)方案,但它們對(duì)非自家模型的適用性與性能表現(xiàn)仍不明確。

本文記錄的性能差異,能夠直接轉(zhuǎn)化為可量化的商業(yè)結(jié)果:

在既定交互性閾值下,每部署一塊GPU能服務(wù)更多用戶,就能降低每個(gè)「有用Token」的生成成本,提高每機(jī)架的收入潛力(通過規(guī)?;桓陡邇r(jià)值的體驗(yàn)),最終AI企業(yè)和部署AI的企業(yè)獲得更好的TCO。

一個(gè)具體例子足以說明量級(jí):當(dāng)一個(gè)平臺(tái)在某個(gè)交互性目標(biāo)下,能提供28倍的單GPU吞吐提升時(shí),它可以在不需要線性擴(kuò)大硬件規(guī)模的情況下,解鎖新的產(chǎn)品檔位以及更復(fù)雜的功能。

這就是AI推理「經(jīng)濟(jì)學(xué)」,而它會(huì)更偏向那些從底層就為MoE與推理時(shí)代而設(shè)計(jì)的平臺(tái)。

參考資料:

https://x.com/kimmonismus/status/2005753458188771768

https://signal65.com/research/ai/from-dense-to-mixture-of-experts-the-new-economics-of-ai-inference/

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
利空,大跳水!

利空,大跳水!

魏家東
2026-01-03 14:45:42
《求是》:房地產(chǎn)政策要一次性給足,不能讓市場(chǎng)與政策陷入博弈

《求是》:房地產(chǎn)政策要一次性給足,不能讓市場(chǎng)與政策陷入博弈

財(cái)富情報(bào)局
2026-01-03 13:23:23
震驚!濟(jì)寧一加油站充5000送5000,老板跑路,網(wǎng)友稱活動(dòng)搞好幾年

震驚!濟(jì)寧一加油站充5000送5000,老板跑路,網(wǎng)友稱活動(dòng)搞好幾年

火山詩(shī)話
2026-01-02 16:45:48
俄羅斯要求美國(guó)立即對(duì)馬杜羅被強(qiáng)行帶離出境的報(bào)道作出澄清

俄羅斯要求美國(guó)立即對(duì)馬杜羅被強(qiáng)行帶離出境的報(bào)道作出澄清

新華社
2026-01-03 20:35:13
虧損900萬!膠州一小區(qū)物業(yè)官宣撤場(chǎng)!

虧損900萬!膠州一小區(qū)物業(yè)官宣撤場(chǎng)!

膠州西南鄉(xiāng)
2026-01-03 18:06:44
“性蕭條”才是這個(gè)時(shí)代真正的危機(jī)

“性蕭條”才是這個(gè)時(shí)代真正的危機(jī)

深藍(lán)夜讀
2025-09-24 16:00:09
香港取消免費(fèi)醫(yī)療了!每人最高負(fù)擔(dān)1萬港幣,多項(xiàng)民生收費(fèi)即日起同步上漲

香港取消免費(fèi)醫(yī)療了!每人最高負(fù)擔(dān)1萬港幣,多項(xiàng)民生收費(fèi)即日起同步上漲

霹靂炮
2026-01-02 19:36:39
向華強(qiáng)直播算賬:《尋秦記》3億成本1億分賬,古天樂最終會(huì)賠多少

向華強(qiáng)直播算賬:《尋秦記》3億成本1億分賬,古天樂最終會(huì)賠多少

半糖甜而不膩
2026-01-03 11:32:20
美方提醒:如果雙方談不攏,中國(guó)的武器裝備可能會(huì)去美國(guó)大門口

美方提醒:如果雙方談不攏,中國(guó)的武器裝備可能會(huì)去美國(guó)大門口

科學(xué)知識(shí)點(diǎn)秀
2025-12-31 08:00:06
150架美軍戰(zhàn)機(jī)參戰(zhàn),俄式導(dǎo)彈擊中一架:為賞金,內(nèi)奸出賣馬杜羅

150架美軍戰(zhàn)機(jī)參戰(zhàn),俄式導(dǎo)彈擊中一架:為賞金,內(nèi)奸出賣馬杜羅

頭條爆料007
2026-01-04 05:14:09
東北雨姐小號(hào)全被封殺,跑到海外平臺(tái)更新,沒想到比在國(guó)內(nèi)還火

東北雨姐小號(hào)全被封殺,跑到海外平臺(tái)更新,沒想到比在國(guó)內(nèi)還火

新游戲大妹子
2026-01-01 13:35:56
19點(diǎn)30分,中國(guó)男足vs泰國(guó)!感謝亞足聯(lián)送助攻,最穩(wěn)一戰(zhàn)預(yù)定3分

19點(diǎn)30分,中國(guó)男足vs泰國(guó)!感謝亞足聯(lián)送助攻,最穩(wěn)一戰(zhàn)預(yù)定3分

侃球熊弟
2026-01-04 00:25:03
統(tǒng)一刻不容緩!特朗普幫了中國(guó)大忙,中國(guó)錯(cuò)失機(jī)會(huì)要再等10年

統(tǒng)一刻不容緩!特朗普幫了中國(guó)大忙,中國(guó)錯(cuò)失機(jī)會(huì)要再等10年

潮鹿逐夢(mèng)
2025-12-21 10:58:57
我滴天!大家已經(jīng)窮到這種地步了嗎?評(píng)論區(qū)一個(gè)比一個(gè)節(jié)儉!

我滴天!大家已經(jīng)窮到這種地步了嗎?評(píng)論區(qū)一個(gè)比一個(gè)節(jié)儉!

另子維愛讀史
2026-01-03 20:55:53
照妖鏡|日本關(guān)東軍,是怎么進(jìn)入東北的?

照妖鏡|日本關(guān)東軍,是怎么進(jìn)入東北的?

沈述慢撩
2024-10-28 23:26:10
50歲孔令輝近照曝光:禿頂發(fā)福逛超市,從奧運(yùn)冠軍到俱樂部經(jīng)理人

50歲孔令輝近照曝光:禿頂發(fā)福逛超市,從奧運(yùn)冠軍到俱樂部經(jīng)理人

好乒乓
2026-01-03 22:17:18
情況很嚴(yán)重!又有內(nèi)鬼在祖國(guó)背后捅刀子,幫美國(guó)人解決卡脖子問題

情況很嚴(yán)重!又有內(nèi)鬼在祖國(guó)背后捅刀子,幫美國(guó)人解決卡脖子問題

小lu侃侃而談
2026-01-03 18:11:01
李在明登機(jī)訪華前,美媒通告全球:中國(guó)已經(jīng)買了美國(guó)800萬噸大豆

李在明登機(jī)訪華前,美媒通告全球:中國(guó)已經(jīng)買了美國(guó)800萬噸大豆

軍機(jī)Talk
2026-01-03 10:07:26
雷軍拆車直播兩小時(shí),多個(gè)直播間關(guān)閉評(píng)論區(qū),為啥越拆爭(zhēng)議越多?

雷軍拆車直播兩小時(shí),多個(gè)直播間關(guān)閉評(píng)論區(qū),為啥越拆爭(zhēng)議越多?

眼光很亮
2026-01-04 01:31:34
全球唯一小金屬龍頭,社?;鹬貍}(cāng)6個(gè),超級(jí)主力買進(jìn)十大股東

全球唯一小金屬龍頭,社?;鹬貍}(cāng)6個(gè),超級(jí)主力買進(jìn)十大股東

鵬哥投研
2026-01-03 22:36:49
2026-01-04 05:59:00

新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14245文章數(shù) 66424關(guān)注度
往期回顧 全部

數(shù)碼要聞

惠普擬推EliteBook X商用本系列:一套模具囊括AMD、Intel與高通方案

頭條要聞

特朗普稱馬杜羅夫婦將在美受審 還對(duì)古巴發(fā)出威脅

頭條要聞

特朗普稱馬杜羅夫婦將在美受審 還對(duì)古巴發(fā)出威脅

體育要聞

青島西海岸官宣:鄭智出任一線隊(duì)主教練

娛樂要聞

司曉迪事件再升級(jí) 司曉迪稱鹿晗最好

財(cái)經(jīng)要聞

具身智能搶人大戰(zhàn):畢業(yè)一年 年薪300萬

科技要聞

雷軍:罵小米汽車有流量,但別故意抹黑

汽車要聞

奕派科技全年銷量275,752輛 同比增長(zhǎng)28.3

態(tài)度原創(chuàng)

房產(chǎn)
親子
本地
教育
公開課

房產(chǎn)要聞

海大譽(yù)府新年家年華暨2號(hào)樓耀世加推發(fā)布會(huì)圓滿落幕

親子要聞

雙標(biāo)的媽媽,不讓孩子駝背,她自己卻做不到

本地新聞

即將過去的2025年,對(duì)重慶的影響竟然如此深遠(yuǎn)

教育要聞

中考沒有高級(jí)技巧,只有重復(fù)和積累

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版