国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

馬斯克的GPU也在摸魚?狂囤幾十萬張顯卡,只有11%在干活

0
分享至


新智元報(bào)道

編輯:元宇

【新智元導(dǎo)讀】馬斯克囤了幾十萬張卡,結(jié)果只跑了11%?據(jù)媒體報(bào)道,xAI的MFU只有約11%,xAI總裁Michael Nicolls在內(nèi)部備忘錄中稱這一數(shù)字「低得尷尬」。AI競(jìng)賽的KPI正從囤卡切換為把卡跑滿。

馬斯克囤了幾十萬張卡,結(jié)果只跑了11%?

這個(gè)數(shù)字最先被The Information曝出,后又被Business Insider根據(jù)一份xAI內(nèi)部備忘錄實(shí)錘。

這份備忘錄出自xAI總裁Michael Nicolls之手。

面對(duì)這個(gè)數(shù)字,他甩出四個(gè)字:低得尷尬。

The Information報(bào)道,xAI手里約有50萬張英偉達(dá)GPU,雖然xAI官方至今未公開確認(rèn),但其官網(wǎng)已寫明:Colossus集群已擴(kuò)展到20萬張GPU,目標(biāo)是100萬張。

無論按哪個(gè)數(shù)字,xAI都坐擁公開披露中規(guī)模最大的AI算力集群之一。

但根據(jù)Nicolls備忘錄,這幾十萬張GPU實(shí)際只跑出了約11%的有效訓(xùn)練算力。

Nicolls給團(tuán)隊(duì)定的目標(biāo),未來幾個(gè)月內(nèi)要把這個(gè)數(shù)字拉到50%。

從11%到50%,差的不是幾臺(tái)機(jī)器,而是一整套訓(xùn)練棧。


xAI在孟菲斯建成的Colossus集群內(nèi)部,目前已擴(kuò)至20萬張GPU,目標(biāo)是100萬張,是公開披露中最大的AI超算之一。

11%不等于89%的GPU在睡覺

很多人第一次看到「11%」這個(gè)數(shù)字,會(huì)下意識(shí)理解成「89%的GPU在睡覺」,這也是它最容易被誤讀的地方。

11%對(duì)應(yīng)一個(gè)行業(yè)指標(biāo)MFU(Model FLOPs Utilization,模型浮點(diǎn)運(yùn)算利用率)。

AI算力公司Lambda在白皮書里給它的定義是:MFU等于實(shí)際觀測(cè)到的FLOPS,除以GPU理論峰值FLOPS。

換句話說,它衡量的是你買的這塊卡,在訓(xùn)練這一刻,把多少理論算力真正轉(zhuǎn)化成了有效的訓(xùn)練吞吐。

它不是任務(wù)管理器里那個(gè)「GPU占用率」。GPU可以100%忙著等數(shù)據(jù)、忙著同步、忙著重新計(jì)算,但有效輸出寥寥。MFU衡量的正是那點(diǎn)真正干活的部分。

這11%意味著,理論上能產(chǎn)生100份訓(xùn)練吞吐的硬件,實(shí)際只跑了11份。剩下的89%不是閑著,是在做無用功,或者在等待。

從燒錢的角度看,低MFU意味著大量電力和硬件時(shí)間消耗在通信、等待、數(shù)據(jù)搬運(yùn)、重計(jì)算等環(huán)節(jié),而沒有轉(zhuǎn)化為理想狀態(tài)下的有效訓(xùn)練吞吐。

那11%在工程現(xiàn)實(shí)里到底差到什么程度?這就要看歷史對(duì)照表。

Lambda在白皮書里提到:生產(chǎn)級(jí)LLM訓(xùn)練的MFU通常落在35%到45%之間。這是正常水平。

還有一組更犀利的對(duì)比數(shù)據(jù)來自谷歌PaLM論文。


https://arxiv.org/pdf/2204.02311

這篇論文有一張被廣為引用的MFU對(duì)比表:


英偉達(dá)自己維護(hù)的訓(xùn)練框架Megatron-LM,其GitHub頁面上寫明:在H100集群上訓(xùn)2B到462B參數(shù)模型,MFU最高可以到47%。強(qiáng)擴(kuò)展到4608張H100時(shí),因?yàn)橥ㄐ砰_銷暴露,MFU會(huì)從47%降到42%。

把xAI的11%放進(jìn)這張表里,它低于GPT-3那個(gè)被嘲笑過效率低的古早年代,也低于Gopher、MT-NLG、PaLM、Megatron-LM。

幾乎是低于所有公開前沿訓(xùn)練系統(tǒng)的下沿。

至于低MFU的原因,Lambda也總結(jié)過。

顯存壓力、單卡batch太小、過度的激活重計(jì)算(activation checkpointing)、把權(quán)重切得過碎的張量并行帶來的跨GPU通信開銷,任何一個(gè)都會(huì)拖累MFU。

一位同行研究員的描述更形象:HBM顯存比加速器慢得多,芯片大量時(shí)間在等數(shù)據(jù)進(jìn)來;網(wǎng)絡(luò)拓?fù)淅锶魏我惶幤款i,都會(huì)拖垮幾千張卡的同步。

業(yè)內(nèi)管這個(gè)叫「記憶墻(memory wall)」。

11%不是單點(diǎn)故障,是系統(tǒng)級(jí)問題。

這不止是xAI一家的問題

不過,把xAI單拎出來說事,也未必公平。

The Information報(bào)道里還提到了一位同行匿名研究員的一句評(píng)價(jià):「跑過40%對(duì)xAI的大多數(shù)競(jìng)爭對(duì)手來說也很難」。

這是一個(gè)刺破全行業(yè)體面的問題。

報(bào)道里提到,一些研究員為了讓自己的MFU數(shù)字「好看一點(diǎn)」,會(huì)反復(fù)重跑訓(xùn)練實(shí)驗(yàn),人為抬高利用率。

原因有兩個(gè):一是怕被老板罵;二是怕GPU被調(diào)走分給別的團(tuán)隊(duì)。

這些研究員的邏輯是,我的卡現(xiàn)在確實(shí)在閑著,但我只是「在分析上一輪訓(xùn)練結(jié)果,馬上就要再跑」,不能讓它被收走。

在AI大廠里,跑分這件事不只發(fā)生在公開榜單上,也發(fā)生在內(nèi)部GPU調(diào)度系統(tǒng)里。

xAI并不是一個(gè)硬件部署上的反面教材。The Information提到,xAI在業(yè)內(nèi)以「按英偉達(dá)推薦方式部署GPU」著稱,是模范生。

模范生只跑了11%,說明問題不在硬件、網(wǎng)絡(luò)拓?fù)錁?biāo)準(zhǔn),而在更上層的訓(xùn)練棧、并行策略和模型工程。

11%這個(gè)數(shù)字,也捅破了行業(yè)心照不宣的那層窗戶紙:買卡和用卡是兩回事。

Colossus開始把卡租出去了

也幾乎在同一時(shí)間,xAI開始把卡租出去了。


xAI CEO馬斯克(左)與Cursor CEO Michael Truell(右)。Cursor計(jì)劃用數(shù)萬張xAI的GPU訓(xùn)練Composer 2.5。

據(jù)Business Insider報(bào)道,編程創(chuàng)業(yè)公司Cursor將使用「數(shù)萬張xAI的GPU」來訓(xùn)練它的最新編程模型Composer 2.5。

Cursor此前估值約290億美元,近期又被曝正洽談約500億美元估值。

如果把兩件事放在同一時(shí)間線上看,至少可以說明:在自訓(xùn)效率尚未完全釋放時(shí),把部分算力外部化,可能成為xAI攤薄基礎(chǔ)設(shè)施成本的一種選擇。

更微妙的是xAI基礎(chǔ)設(shè)施團(tuán)隊(duì)近期的人事地震。

原基礎(chǔ)設(shè)施負(fù)責(zé)人Heinrich Küttler離職,Jake Palmer接管了物理基礎(chǔ)設(shè)施,SpaceX的Daniel Dueri被調(diào)來負(fù)責(zé)算力基礎(chǔ)設(shè)施。

與此同時(shí),Cursor原產(chǎn)品工程負(fù)責(zé)人Andrew Milich和Jason Ginsburg跳槽到xAI,直接向馬斯克和Nicolls匯報(bào)。

把這些信號(hào)串起來,能看到一個(gè)正在變形的Colossus:

它在官方敘事里是「世界最大超算」、是xAI打敗OpenAI的算力底牌;但在業(yè)務(wù)層,它正在一點(diǎn)點(diǎn)變成一座「半成品云廠商」。

AWS、Azure、GCP靠著出租算力賺到的利潤是天文數(shù)字;CoreWeave、Lambda這種新玩家干脆圍繞租GPU建生意。

xAI如今走的是同一條路,只不過一邊租一邊自己也得訓(xùn)模型。

自己跑不滿,就讓別人來跑,這是當(dāng)代GPU資本的標(biāo)準(zhǔn)動(dòng)作。

xAI官方至今沒有正面回應(yīng)過11%這個(gè)數(shù)字,官網(wǎng)首頁仍然掛著122天建成、92天翻倍到20萬張GPU、路線圖通往100萬張GPU的官方敘事。


xAI Colossus 122天建成,從10萬張GPU擴(kuò)到20萬張只用了92天,路線圖通往100萬張。但越快擴(kuò)張,訓(xùn)練棧和并行策略的復(fù)雜度也越大。

但速度有速度的代價(jià)。

Megatron-LM公開的數(shù)據(jù)已經(jīng)給出了警告:當(dāng)你把H100集群強(qiáng)擴(kuò)展到4608張時(shí),僅僅是通信開銷,就足以把MFU從47%拖到42%。

這是英偉達(dá)自己的旗艦訓(xùn)練框架,跑在標(biāo)準(zhǔn)化最強(qiáng)的硬件上。

xAI要把卡數(shù)從20萬推到100萬,意味著通信、調(diào)度、容錯(cuò)、并行策略的復(fù)雜度還可能要再漲一個(gè)數(shù)量級(jí)。

122天建成是工程奇跡,但每一天的奇跡背后,都有一筆運(yùn)維債在悄悄記賬。

AI競(jìng)賽的KPI正在切換

過去比的是倉庫:誰先囤到H100、誰先建成超算、誰能從英偉達(dá)手里搶到下一批GB200。

這個(gè)游戲花錢就能玩,所以馬斯克、奧特曼、扎克伯格、黃仁勛都下場(chǎng)了。

現(xiàn)在比的是工程師:誰的訓(xùn)練棧調(diào)得最好、誰能把每一美元GPU CapEx轉(zhuǎn)化成最多的有效token。

這個(gè)游戲花錢解決不了,只能靠時(shí)間、人才和工程文化。

GPU是入場(chǎng)券,但MFU才是真正的考驗(yàn)。

xAI雖然拿到了最大的那張入場(chǎng)券,但它能不能把這張券兌現(xiàn),還要看那個(gè)「低得尷尬」的數(shù)字,能不能真的拉到Nicolls所說的50%。

參考資料:

https://www.theinformation.com/newsletters/ai-agenda/xai-shows-hard-use-lot-gpus?rc=epv9gi

https://arxiv.org/pdf/2204.02311

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
首映轟下5580萬票房,《寒戰(zhàn)1994》奪冠,梁樂民把陳思誠打懵了

首映轟下5580萬票房,《寒戰(zhàn)1994》奪冠,梁樂民把陳思誠打懵了

電影票房預(yù)告片
2026-05-01 23:36:23
胖東來稱已正式起訴“驚夢(mèng)人”,涉事博主回應(yīng)律師函:發(fā)布信息并非不實(shí)

胖東來稱已正式起訴“驚夢(mèng)人”,涉事博主回應(yīng)律師函:發(fā)布信息并非不實(shí)

紅星資本局
2026-05-02 14:05:07
重大突破!剛剛上海地鐵最新通知,大批人身價(jià)要漲

重大突破!剛剛上海地鐵最新通知,大批人身價(jià)要漲

新浪財(cái)經(jīng)
2026-05-02 11:10:34
里夫斯:詹姆斯所做的一切簡直太瘋狂;我沒跟東契奇去歐洲治療

里夫斯:詹姆斯所做的一切簡直太瘋狂;我沒跟東契奇去歐洲治療

懂球帝
2026-05-02 14:50:10
突然發(fā)現(xiàn)一個(gè)殘忍真相:極度自律,每天鍛煉的人,不一定能長壽,但是,極度自私,不為任何人、任何事操心的人很可能長壽

突然發(fā)現(xiàn)一個(gè)殘忍真相:極度自律,每天鍛煉的人,不一定能長壽,但是,極度自私,不為任何人、任何事操心的人很可能長壽

LULU生活家
2026-05-02 08:35:04
高速堵車4小時(shí) 女子點(diǎn)外賣 老板穿圍裙爬坡送餐:就想看看誰這么頭鐵

高速堵車4小時(shí) 女子點(diǎn)外賣 老板穿圍裙爬坡送餐:就想看看誰這么頭鐵

閃電新聞
2026-05-02 14:40:24
中國劃定紅線,叫!跋丛枋匠龊!

中國劃定紅線,叫!跋丛枋匠龊!

中國網(wǎng)
2026-05-02 08:35:02
李亞鵬香港慈善晚會(huì)請(qǐng)了30家公司,只獲得336萬元善款,王菲力挺

李亞鵬香港慈善晚會(huì)請(qǐng)了30家公司,只獲得336萬元善款,王菲力挺

椰黃娛樂
2026-05-02 12:22:54
“用力過猛!”江蘇淮安,一女子在藥店自己買了“多子丸”

“用力過猛!”江蘇淮安,一女子在藥店自己買了“多子丸”

今日養(yǎng)生之道
2026-05-01 10:07:48
孫楊報(bào)案,評(píng)論區(qū)笑死我了……

孫楊報(bào)案,評(píng)論區(qū)笑死我了……

麥杰遜
2026-05-01 20:17:51
4月最后一夜爆雷潮!9龍頭虧超百億,53股巨虧,4大高危板塊曝光

4月最后一夜爆雷潮!9龍頭虧超百億,53股巨虧,4大高危板塊曝光

慧眼看世界哈哈
2026-05-01 05:59:44
被震撼到了,實(shí)拍橘子洲頭掃碼搶票人群!本地人:歡迎大家來到長沙,吃好逛好

被震撼到了,實(shí)拍橘子洲頭掃碼搶票人群!本地人:歡迎大家來到長沙,吃好逛好

三湘都市報(bào)
2026-05-02 11:10:22
巴雷特三分準(zhǔn)絕殺!猛龍加時(shí)勝騎士3-3拖進(jìn)搶七 哈登16+9+9

巴雷特三分準(zhǔn)絕殺!猛龍加時(shí)勝騎士3-3拖進(jìn)搶七 哈登16+9+9

醉臥浮生
2026-05-02 10:30:14
簍子越捅越大!招體育生當(dāng)醫(yī)生、院長兒子吃空餉,不能再挖了

簍子越捅越大!招體育生當(dāng)醫(yī)生、院長兒子吃空餉,不能再挖了

小鋭?dòng)性捳f
2026-05-02 10:42:33
我國急需改名的5座城市,起名太隨意,連本地人也吐槽名字有點(diǎn)土

我國急需改名的5座城市,起名太隨意,連本地人也吐槽名字有點(diǎn)土

長風(fēng)文史
2026-04-30 22:08:50
孫楊他媽是嫌孫楊“涼”得還不夠徹底嗎?

孫楊他媽是嫌孫楊“涼”得還不夠徹底嗎?

蔥哥說
2026-04-30 21:24:28
吳宜澤連輸5局原因曝光艾倫斯諾克小丑希金斯13-11墨菲趙心童服氣

吳宜澤連輸5局原因曝光艾倫斯諾克小丑希金斯13-11墨菲趙心童服氣

曹說體育
2026-05-02 10:13:38
商業(yè)航天也爆雷!業(yè)績最大降100%,章盟主、社保基金卻還在搶籌

商業(yè)航天也爆雷!業(yè)績最大降100%,章盟主、社;饏s還在搶籌

長風(fēng)價(jià)值掘金
2026-05-02 11:06:14
未爆彈藥爆炸致伊朗伊斯蘭革命衛(wèi)隊(duì)14人死亡

未爆彈藥爆炸致伊朗伊斯蘭革命衛(wèi)隊(duì)14人死亡

財(cái)聯(lián)社
2026-05-02 02:20:12
詹姆斯:我早已碾壓時(shí)間老人 打雷霆一定要減少失誤保護(hù)球權(quán)

詹姆斯:我早已碾壓時(shí)間老人 打雷霆一定要減少失誤保護(hù)球權(quán)

羅說NBA
2026-05-02 12:57:07
2026-05-02 16:11:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
15115文章數(shù) 66829關(guān)注度
往期回顧 全部

數(shù)碼要聞

威聯(lián)通推出GPU-Ready邊緣AI存儲(chǔ)服務(wù)器QAI-h1290FX

頭條要聞

以情報(bào)評(píng)估:美伊談判或在下周初破裂 美或?qū)⒅貑?zhàn)端

頭條要聞

以情報(bào)評(píng)估:美伊談判或在下周初破裂 美或?qū)⒅貑?zhàn)端

體育要聞

休賽期總冠軍,輪到休斯頓火箭

娛樂要聞

白百何罕曬大兒子 18歲元寶越來越帥

財(cái)經(jīng)要聞

雷軍很努力 小米還是跌破了30港元大關(guān)

科技要聞

AI熱潮耗盡庫存,Mac Mini起售調(diào)高200美元

汽車要聞

新紀(jì)錄!零跑汽車4月交付達(dá)71387臺(tái)

態(tài)度原創(chuàng)

游戲
時(shí)尚
數(shù)碼
公開課
軍事航空

《007》新作口碑爆了!年度最佳有力競(jìng)爭者

流汗不流“湯”!五一假期底妝指南請(qǐng)收好~

數(shù)碼要聞

RTX 3060要復(fù)產(chǎn)了?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:對(duì)伊戰(zhàn)事結(jié)束 無限期延長停火

無障礙瀏覽 進(jìn)入關(guān)懷版