国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

英偉達(dá)仍是王者!GB200貴一倍卻暴省15倍,AMD輸?shù)脧氐?/h1>
0
分享至

  

  新智元報(bào)道

  編輯:桃子

  【新智元導(dǎo)讀】AI推理游戲規(guī)則,正悄然改變。一份最新報(bào)告揭示了關(guān)鍵轉(zhuǎn)折:如今決定勝負(fù)的,不再是單純的芯片性能或GPU數(shù)量,而是 「每一美元能輸出多少智能」。

  AI推理,現(xiàn)已不只看算力硬指標(biāo)了!

  Signal65一份最新報(bào)告中,英偉達(dá)GB200 NVL72是AMD MI350X吞吐量28倍。

  而且,在高交互場景在,DeepSeek R1每Token成本還能低到15倍。

  

  GB200每小時(shí)單價(jià)大概是貴一倍左右,但這根本不重要。因?yàn)闄C(jī)柜級NVLink互聯(lián)+軟件調(diào)度能力,徹底改變了成本結(jié)構(gòu)。

  頂級投資人Ben Pouladian稱,「目前的關(guān)鍵不再是算力或GPU數(shù)量,而是每一美元能買到多少智能輸出」。

  

  如今,英偉達(dá)仍是王者。其他競爭對手根本做不到這種交互水平,這就是護(hù)城河。

  

  最關(guān)鍵的是,這還沒有集成200億刀買入Groq的推理能力。

  這里,再mark下老黃至理名言——The more you buy, the more you save!

  

  AI推理重心:一美元輸出多少智能?

  這篇萬字報(bào)告,探索了從稠密模型(Dense)到混合專家模型(MoE)推理背后的一些本質(zhì)現(xiàn)象。

  

  傳統(tǒng)的「稠密模型」架構(gòu)要求:在生成每個(gè)Token時(shí)都激活模型里的全部參數(shù)。

  這就意味著:模型越大,運(yùn)行越慢、成本越高,同時(shí)還會帶來相應(yīng)的內(nèi)存需求增長等問題。

  

  MoE架構(gòu),正是為了釋放更高水平的智能而生——在每個(gè)Token上只激活最相關(guān)的「專家」。

  摟一眼Artificial Analysis排行榜即可發(fā)現(xiàn),全球TOP 10開源LLM,全部都是MoE推理模型。

  它們會在推理階段額外「加算力」來提高準(zhǔn)確性:

  LLM不會立刻吐出答案,而是先生成中間的推理Token,再輸出,相當(dāng)于先把請求和解法「想一遍」。

  

  前16名里有12個(gè)是MoE模型

  這些推理Token往往遠(yuǎn)多于最終回復(fù),而且可能完全不會展示出來。能否既快又便宜地生成Token,對推理部署來說就變得至關(guān)重要。

  那么,MoE方法的主要約束在哪里?

  一個(gè)核心限制在于「通信瓶頸」。

  當(dāng)不同專家分布在多塊GPU上時(shí),任何GPU之間通信的延遲,都會讓GPU空閑等待數(shù)據(jù)。

  

  OpenRouter一份近期報(bào)告,超50%的Token會被路由到推理模型上

  這些「空轉(zhuǎn)時(shí)間」(idle time)代表著被浪費(fèi)的、低效的算力,并且會直接體現(xiàn)在服務(wù)提供商的成本底線上。

  當(dāng)評估AI基礎(chǔ)設(shè)施的「經(jīng)濟(jì)性」時(shí),一般會聚焦在三個(gè)方面:

  性能(吞吐量與交互性)

  能效(在既定功耗預(yù)算下,可生成的Token數(shù))

  總體擁有成本(通常以Token/每百萬的成本衡量)

  基于公開可用的基準(zhǔn)測試數(shù)據(jù),Signal65對不同LLM架構(gòu)下AI基礎(chǔ)設(shè)施方案進(jìn)行了對比分析。

  分析中,團(tuán)隊(duì)采用第三方基準(zhǔn)測試所提供的性能數(shù)據(jù),來估算相對的Token經(jīng)濟(jì)性。

  具體來說,他們選取了B200、GB200 NVL72,以及AMD MI355X部分結(jié)果,用以對比它們在不同模型場景下的真實(shí)性能表現(xiàn)及相應(yīng)的TCO估算。

  

  結(jié)果顯示,在稠密架構(gòu)以及較小規(guī)模的MoE中,B200性能優(yōu)于AMD MI355X。

  當(dāng)模型擴(kuò)展到像DeepSeek-R1這樣需跨越單節(jié)點(diǎn)的前沿級規(guī)模時(shí),GB200 NVL72性能最高可達(dá)到MI355X的28倍。

  

  在高交互性的推理工作負(fù)載中,NVL72的單位Token成本最低,可降至其他方案的約1/15。

  盡管GB200 NVL72的單GPU小時(shí)價(jià)格幾乎是這些競爭平臺的2倍,但其機(jī)架級能力——從NVLink高速互連,到覆蓋72塊GPU的軟件編排——共同推動了這種顯著更優(yōu)的單位經(jīng)濟(jì)性。

  價(jià)值評估的重心,正在從單純的原始FLOPs,轉(zhuǎn)向「每一美元所獲得的總體智能」。

  這一結(jié)論非常明確:

  隨著MoE模型和推理工作負(fù)載帶來的復(fù)雜性與規(guī)模持續(xù)上升,行業(yè)已無法僅依賴芯片層面的性能提升。

  能夠在系統(tǒng)層面實(shí)現(xiàn)峰值性能的端到端平臺設(shè)計(jì),已經(jīng)成為實(shí)現(xiàn)低成本、高響應(yīng)AI服務(wù)的關(guān)鍵杠桿。

  「稠密模型」推理,英偉達(dá)領(lǐng)先

  Signal65選擇了Llama 3.3 70B作為稠密模型的性能基準(zhǔn),結(jié)果如下所示:

  帕累托曲線清晰顯示出,HGX B200-TRT方案在整個(gè)吞吐量與交互性區(qū)間內(nèi),都具備持續(xù)的性能優(yōu)勢。

  具體到基線交互性水平,B200的性能大約是MI355X的1.8倍,這為交互式應(yīng)用部署,以及更高的單GPU并發(fā)密度提供了顯著余量。

  

  再來看,當(dāng)交互性提升至110 tokens/sec/user時(shí),這一優(yōu)勢進(jìn)一步被放大:B200吞吐量超過MI355X的6倍。

  整體上,在Llama 3.3 70B測試中,AMD MI355X在單位成本性能方面確實(shí)具備一定吸引力。

  但這種優(yōu)勢并不能代表更現(xiàn)代的推理技術(shù)棧,尤其是以MoE架構(gòu)和高強(qiáng)度推理工作負(fù)載構(gòu)建的系統(tǒng)。

  

  

  MoE推理,英偉達(dá)領(lǐng)先

  那么,在MoE架構(gòu)上,英偉達(dá)和AMD表現(xiàn)又如何?

  中等規(guī)模推理:gpt-oss-120B

  Signal65認(rèn)為,OpenAI gpt-oss-120B是理解MoE部署特性的一個(gè)理想「橋梁案例」。

  它足夠大,可以把MoE的復(fù)雜性暴露出來;

  但規(guī)模又沒有大到離譜,仍然是很多團(tuán)隊(duì)能現(xiàn)實(shí)部署并調(diào)優(yōu)的范圍。

  它處在一個(gè)很有用的中間地帶:介于稠密的70B級模型,與市場正在快速轉(zhuǎn)向的、更前沿的推理型MoE架構(gòu)之間。

  

  在10月下旬?dāng)?shù)據(jù)里,當(dāng)目標(biāo)是100 tokens/sec/user時(shí),B200大約比MI355X快1.4倍;

  但當(dāng)目標(biāo)提高到250 tokens/sec/user時(shí),差距會擴(kuò)大到約3.5倍,說明越追求「更快的交互」,平臺差異越容易被放大。

  不過,12月上旬的數(shù)據(jù)則呈現(xiàn)出不同局面。

  得益于軟件優(yōu)化,兩邊平臺的絕對性能都明顯提升:英偉達(dá)單GPU峰值吞吐從大約7,000 tokens/sec提升到超過14,000;AMD也從約6,000提升到大約8,500。

  

  

  前沿推理:DeepSeek-R1

  在DeepSeek-R1推理上,測試結(jié)果正如開篇所介紹那樣,英偉達(dá)GB200 NVL72大幅領(lǐng)先。

  更多數(shù)據(jù)如下圖所示:

  

  基準(zhǔn)測試數(shù)據(jù)展示了一個(gè)被重塑的格局:

  GB200 NVL72讓「超過8塊GPU的張量并行配置」也能進(jìn)入帕累托前沿,達(dá)到單節(jié)點(diǎn)平臺根本無法匹敵的性能。

  在25 tokens/sec/user交互性目標(biāo)下,GB200 NVL72單GPU性能大約是H200的10倍,并且超過MI325X單GPU性能的16倍。

  這類性能差距,正是能為AI服務(wù)提供商帶來「斷崖式」TCO改善的那種差距。

  當(dāng)交互性目標(biāo)提高到60 tokens/sec/user時(shí),GB200 NVL72相比H200帶來了超24倍的代際提升,同時(shí)也接近MI355X的11.5倍性能。

  在同樣25 tokens/sec/user下,GB200 NVL72單GPU性能大約是B200的2倍、是MI355X的5.9倍;

  而到60 tokens/sec/user時(shí),這些優(yōu)勢進(jìn)一步擴(kuò)大:相對單節(jié)點(diǎn)B200達(dá)到5.3倍、相對MI355X達(dá)到11.5倍。

  

  

  GPU越貴,token成本越低

  英偉達(dá)從Hopper過渡到Blackwell,并推出GB200 NVL72時(shí),不僅提升了每GPU算力、內(nèi)存帶寬以及NVLink互連帶寬,還對底層系統(tǒng)架構(gòu)做了重新設(shè)計(jì)。

  從8-GPU風(fēng)冷HGX服務(wù)器轉(zhuǎn)向全液冷的機(jī)架級系統(tǒng),并把72塊GPU連接在同一個(gè)域內(nèi),系統(tǒng)成本和復(fù)雜度顯然都上升了。

  

  據(jù)CoreWeave公布的目錄價(jià),按單GPU口徑,GB200 NVL72價(jià)格大約比H200貴1.7倍。

  不過,每一代新技術(shù)的目標(biāo)之一,就是壓低「每Token成本」。

  對推理而言,具體就是:實(shí)際交付的Token吞吐提升幅度,要超過底層基礎(chǔ)設(shè)施成本的提升幅度。

  而從公開的性能數(shù)據(jù)來看,這正是GB200 NVL72相比Hopper所呈現(xiàn)出的結(jié)果。

  Signal65把本次的tokenomics(Token經(jīng)濟(jì)學(xué))分析,錨定在前文建立的DeepSeek-R1性能差距上:

  在25 tokens/sec/user時(shí),GB200 NVL72單GPU性能大約是H200的10倍;

  在更高的交互點(diǎn)位上,這個(gè)差距會更大(24倍)。

  下表總結(jié)了成本歸一化,以及由此得到的「每美元性能」計(jì)算:

  這些結(jié)果一開始可能有點(diǎn)反直覺:更「貴」的GPU反而更省錢——因?yàn)樗鼛淼男阅芴嵘h(yuǎn)大于價(jià)格差異,使得它能以更低成本生成Token。

  

  

  與AMD相比,英偉達(dá)系統(tǒng)在推理token成本上的一些數(shù)據(jù)對比:

  

  按單GPU口徑,MI355X價(jià)格大約只有GB200 NVL72配置的一半;

  但由于GB200 NVL72單GPU性能優(yōu)勢從低端接近6倍,到高交互性時(shí)高達(dá)28倍不等,英偉達(dá)仍然能提供最高15倍的每美元性能優(yōu)勢。

  換句話說,英偉達(dá)能實(shí)現(xiàn)相對每Token成本僅為競爭對手的1/15。

  結(jié)論

  前沿AI模型的未來,會是更大、更復(fù)雜的MoE。

  隨著模型更深地走向MoE與推理架構(gòu),最終效果將不再只取決于原始GPU性能或內(nèi)存容量。

  平臺級設(shè)計(jì)會成為決定性因素——包括互連與通信效率、多節(jié)點(diǎn)擴(kuò)展特性、軟件棧成熟度、生態(tài)支持與編排能力,以及在并發(fā)與混合負(fù)載下維持高利用率的能力。

  從當(dāng)前趨勢看,來自O(shè)penAI、Meta、Anthropic等前沿公司的旗艦?zāi)P停芸赡軙^續(xù)沿著MoE與推理方向演進(jìn)。

  如果這一軌跡成立,英偉達(dá)將維持關(guān)鍵的性能與經(jīng)濟(jì)性優(yōu)勢。

  谷歌TPU這類架構(gòu)也提供機(jī)架級方案,但它們對非自家模型的適用性與性能表現(xiàn)仍不明確。

  本文記錄的性能差異,能夠直接轉(zhuǎn)化為可量化的商業(yè)結(jié)果:

  在既定交互性閾值下,每部署一塊GPU能服務(wù)更多用戶,就能降低每個(gè)「有用Token」的生成成本,提高每機(jī)架的收入潛力(通過規(guī)模化交付更高價(jià)值的體驗(yàn)),最終AI企業(yè)和部署AI的企業(yè)獲得更好的TCO。

  一個(gè)具體例子足以說明量級:當(dāng)一個(gè)平臺在某個(gè)交互性目標(biāo)下,能提供28倍的單GPU吞吐提升時(shí),它可以在不需要線性擴(kuò)大硬件規(guī)模的情況下,解鎖新的產(chǎn)品檔位以及更復(fù)雜的功能。

  這就是AI推理「經(jīng)濟(jì)學(xué)」,而它會更偏向那些從底層就為MoE與推理時(shí)代而設(shè)計(jì)的平臺。

  參考資料:

  https://x.com/kimmonismus/status/2005753458188771768

  https://signal65.com/research/ai/from-dense-to-mixture-of-experts-the-new-economics-of-ai-inference/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
一覺醒來,伊朗采取極端措施了

一覺醒來,伊朗采取極端措施了

牛彈琴
2026-01-09 07:41:40
“性蕭條”才是這個(gè)時(shí)代真正的危機(jī)

“性蕭條”才是這個(gè)時(shí)代真正的危機(jī)

深藍(lán)夜讀
2025-09-24 16:00:09
我那兄弟娶了個(gè)洋媳婦,天天哀嚎:摟著俄羅斯老婆睡,堪比抱刺猬

我那兄弟娶了個(gè)洋媳婦,天天哀嚎:摟著俄羅斯老婆睡,堪比抱刺猬

前沿天地
2025-12-29 11:22:33
王石,這回賭贏了!

王石,這回賭贏了!

陸棄
2025-08-31 14:23:10
誰能想到,馬云對美團(tuán)王興的復(fù)仇,一等就是整整十年

誰能想到,馬云對美團(tuán)王興的復(fù)仇,一等就是整整十年

流蘇晚晴
2025-12-29 18:31:44
破防了!原來只要失業(yè),所有人都一樣!網(wǎng)友:比想象中更煎熬

破防了!原來只要失業(yè),所有人都一樣!網(wǎng)友:比想象中更煎熬

文雅筆墨
2026-01-08 12:13:53
女兒被人打,對方家長不管,寶媽一招就讓全校沒人再敢欺負(fù)自家娃

女兒被人打,對方家長不管,寶媽一招就讓全校沒人再敢欺負(fù)自家娃

大果小果媽媽
2026-01-01 22:44:05
奇女子王亞麗,1996年盜竊美元110萬后,竟用20年混成了團(tuán)委書記

奇女子王亞麗,1996年盜竊美元110萬后,竟用20年混成了團(tuán)委書記

混沌錄
2026-01-04 23:47:15
《驚變》登央視8套!于和偉富大龍飆戲,35集諜戰(zhàn)藏生死時(shí)速

《驚變》登央視8套!于和偉富大龍飆戲,35集諜戰(zhàn)藏生死時(shí)速

手工制作阿殲
2026-01-08 13:41:35
普京的“戰(zhàn)爭機(jī)器”要停轉(zhuǎn)了?俄羅斯軍工開始暴雷,根源藏不住了

普京的“戰(zhàn)爭機(jī)器”要停轉(zhuǎn)了?俄羅斯軍工開始暴雷,根源藏不住了

矚望云霄
2025-11-24 14:22:53
閆學(xué)晶卷入炫富風(fēng)波!代言品牌統(tǒng)廚回應(yīng)遭抵制:法務(wù)部正處理

閆學(xué)晶卷入炫富風(fēng)波!代言品牌統(tǒng)廚回應(yīng)遭抵制:法務(wù)部正處理

南方都市報(bào)
2026-01-07 14:14:10
王曼昱打哭大藤后,惡心的一幕出現(xiàn)了,居然攻擊鰻魚帶不起票房

王曼昱打哭大藤后,惡心的一幕出現(xiàn)了,居然攻擊鰻魚帶不起票房

暮雨咋歇著
2026-01-09 10:23:23
俄羅斯?jié)撏ёo(hù)航油輪,被美方追擊

俄羅斯?jié)撏ёo(hù)航油輪,被美方追擊

陸棄
2026-01-08 08:20:03
江西少年葉文斌失聯(lián),僅19歲,聊天曝光,渾身是傷,母親闖柬埔寨

江西少年葉文斌失聯(lián),僅19歲,聊天曝光,渾身是傷,母親闖柬埔寨

鋭娛之樂
2026-01-01 01:12:33
曼聯(lián)確定臨時(shí)主帥時(shí)間曝光!索帥有望收入百萬,聯(lián)手卡里克被否決

曼聯(lián)確定臨時(shí)主帥時(shí)間曝光!索帥有望收入百萬,聯(lián)手卡里克被否決

羅米的曼聯(lián)博客
2026-01-09 11:29:03
82歲西方漢學(xué)教授語出驚人:4000年前中西方的差異就已定下來了!

82歲西方漢學(xué)教授語出驚人:4000年前中西方的差異就已定下來了!

老謝談史
2026-01-02 22:05:04
汪小菲又說臺灣扣留他孩子不讓回北京了

汪小菲又說臺灣扣留他孩子不讓回北京了

名字是浮云
2026-01-08 12:30:08
一顆榴蓮,快讓東南亞卷成“晉西北”了!

一顆榴蓮,快讓東南亞卷成“晉西北”了!

流蘇晚晴
2026-01-07 20:13:10
張學(xué)良煙酒不離手活 101 歲,趙四小姐曝:軟禁 55 年靠吃法續(xù)命

張學(xué)良煙酒不離手活 101 歲,趙四小姐曝:軟禁 55 年靠吃法續(xù)命

嘮叨說歷史
2025-12-30 17:37:11
19中17!46分6板6助0失誤!北丐把話挑明,張伯倫的紀(jì)錄保不住了

19中17!46分6板6助0失誤!北丐把話挑明,張伯倫的紀(jì)錄保不住了

世界體育圈
2026-01-08 16:07:30
2026-01-09 12:52:49

新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時(shí)代
14291文章數(shù) 66451關(guān)注度
往期回顧 全部

數(shù)碼要聞

2025年度數(shù)碼好物大賞【年度評選】

頭條要聞

男子開車撞死1家3口獲死緩 14秒速度從0飆至129km/h

頭條要聞

男子開車撞死1家3口獲死緩 14秒速度從0飆至129km/h

體育要聞

世乒賽銀牌得主,說自己夢里都是孫穎莎

娛樂要聞

檀健次戀愛風(fēng)波越演越烈 上學(xué)經(jīng)歷被扒

財(cái)經(jīng)要聞

郁亮的萬科35年:從"寶萬之爭"到"活下去"

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

汽車要聞

更智能更豪華 樂道L90加配置會貴多少?

態(tài)度原創(chuàng)

時(shí)尚
旅游
藝術(shù)
親子
家居

60+女性穿搭指南來了:4招告別“大媽感”,解鎖冬日優(yōu)雅氣質(zhì)

旅游要聞

落葉水波相映成畫 滕州荊河公園成冬日休閑熱地

藝術(shù)要聞

Sean Yoro:街頭藝術(shù)界的“沖浪高手”

親子要聞

從5樓掉下來被洗衣機(jī)接住?腰斷了腿骨折了,肚子里還多了一個(gè)娃

家居要聞

木色留白 演繹現(xiàn)代自由

無障礙瀏覽 進(jìn)入關(guān)懷版