国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

馬斯克的GPU也在摸魚?狂囤幾十萬張顯卡,只有11%在干活

0
分享至


新智元報道

編輯:元宇

【新智元導讀】馬斯克囤了幾十萬張卡,結(jié)果只跑了11%?據(jù)媒體報道,xAI的MFU只有約11%,xAI總裁Michael Nicolls在內(nèi)部備忘錄中稱這一數(shù)字「低得尷尬」。AI競賽的KPI正從囤卡切換為把卡跑滿。

馬斯克囤了幾十萬張卡,結(jié)果只跑了11%?

這個數(shù)字最先被The Information曝出,后又被Business Insider根據(jù)一份xAI內(nèi)部備忘錄實錘。

這份備忘錄出自xAI總裁Michael Nicolls之手。

面對這個數(shù)字,他甩出四個字:低得尷尬。

The Information報道,xAI手里約有50萬張英偉達GPU,雖然xAI官方至今未公開確認,但其官網(wǎng)已寫明:Colossus集群已擴展到20萬張GPU,目標是100萬張。

無論按哪個數(shù)字,xAI都坐擁公開披露中規(guī)模最大的AI算力集群之一。

但根據(jù)Nicolls備忘錄,這幾十萬張GPU實際只跑出了約11%的有效訓練算力。

Nicolls給團隊定的目標,未來幾個月內(nèi)要把這個數(shù)字拉到50%。

從11%到50%,差的不是幾臺機器,而是一整套訓練棧。


xAI在孟菲斯建成的Colossus集群內(nèi)部,目前已擴至20萬張GPU,目標是100萬張,是公開披露中最大的AI超算之一。

11%不等于89%的GPU在睡覺

很多人第一次看到「11%」這個數(shù)字,會下意識理解成「89%的GPU在睡覺」,這也是它最容易被誤讀的地方。

11%對應一個行業(yè)指標MFU(Model FLOPs Utilization,模型浮點運算利用率)。

AI算力公司Lambda在白皮書里給它的定義是:MFU等于實際觀測到的FLOPS,除以GPU理論峰值FLOPS。

換句話說,它衡量的是你買的這塊卡,在訓練這一刻,把多少理論算力真正轉(zhuǎn)化成了有效的訓練吞吐。

它不是任務管理器里那個「GPU占用率」。GPU可以100%忙著等數(shù)據(jù)、忙著同步、忙著重新計算,但有效輸出寥寥。MFU衡量的正是那點真正干活的部分。

這11%意味著,理論上能產(chǎn)生100份訓練吞吐的硬件,實際只跑了11份。剩下的89%不是閑著,是在做無用功,或者在等待。

從燒錢的角度看,低MFU意味著大量電力和硬件時間消耗在通信、等待、數(shù)據(jù)搬運、重計算等環(huán)節(jié),而沒有轉(zhuǎn)化為理想狀態(tài)下的有效訓練吞吐。

那11%在工程現(xiàn)實里到底差到什么程度?這就要看歷史對照表。

Lambda在白皮書里提到:生產(chǎn)級LLM訓練的MFU通常落在35%到45%之間。這是正常水平。

還有一組更犀利的對比數(shù)據(jù)來自谷歌PaLM論文。


https://arxiv.org/pdf/2204.02311

這篇論文有一張被廣為引用的MFU對比表:


英偉達自己維護的訓練框架Megatron-LM,其GitHub頁面上寫明:在H100集群上訓2B到462B參數(shù)模型,MFU最高可以到47%。強擴展到4608張H100時,因為通信開銷暴露,MFU會從47%降到42%。

把xAI的11%放進這張表里,它低于GPT-3那個被嘲笑過效率低的古早年代,也低于Gopher、MT-NLG、PaLM、Megatron-LM。

幾乎是低于所有公開前沿訓練系統(tǒng)的下沿。

至于低MFU的原因,Lambda也總結(jié)過。

顯存壓力、單卡batch太小、過度的激活重計算(activation checkpointing)、把權(quán)重切得過碎的張量并行帶來的跨GPU通信開銷,任何一個都會拖累MFU。

一位同行研究員的描述更形象:HBM顯存比加速器慢得多,芯片大量時間在等數(shù)據(jù)進來;網(wǎng)絡拓撲里任何一處瓶頸,都會拖垮幾千張卡的同步。

業(yè)內(nèi)管這個叫「記憶墻(memory wall)」。

11%不是單點故障,是系統(tǒng)級問題。

這不止是xAI一家的問題

不過,把xAI單拎出來說事,也未必公平。

The Information報道里還提到了一位同行匿名研究員的一句評價:「跑過40%對xAI的大多數(shù)競爭對手來說也很難」。

這是一個刺破全行業(yè)體面的問題。

報道里提到,一些研究員為了讓自己的MFU數(shù)字「好看一點」,會反復重跑訓練實驗,人為抬高利用率。

原因有兩個:一是怕被老板罵;二是怕GPU被調(diào)走分給別的團隊。

這些研究員的邏輯是,我的卡現(xiàn)在確實在閑著,但我只是「在分析上一輪訓練結(jié)果,馬上就要再跑」,不能讓它被收走。

在AI大廠里,跑分這件事不只發(fā)生在公開榜單上,也發(fā)生在內(nèi)部GPU調(diào)度系統(tǒng)里。

xAI并不是一個硬件部署上的反面教材。The Information提到,xAI在業(yè)內(nèi)以「按英偉達推薦方式部署GPU」著稱,是模范生。

模范生只跑了11%,說明問題不在硬件、網(wǎng)絡拓撲標準,而在更上層的訓練棧、并行策略和模型工程。

11%這個數(shù)字,也捅破了行業(yè)心照不宣的那層窗戶紙:買卡和用卡是兩回事。

Colossus開始把卡租出去了

也幾乎在同一時間,xAI開始把卡租出去了。


xAI CEO馬斯克(左)與Cursor CEO Michael Truell(右)。Cursor計劃用數(shù)萬張xAI的GPU訓練Composer 2.5。

據(jù)Business Insider報道,編程創(chuàng)業(yè)公司Cursor將使用「數(shù)萬張xAI的GPU」來訓練它的最新編程模型Composer 2.5。

Cursor此前估值約290億美元,近期又被曝正洽談約500億美元估值。

如果把兩件事放在同一時間線上看,至少可以說明:在自訓效率尚未完全釋放時,把部分算力外部化,可能成為xAI攤薄基礎(chǔ)設施成本的一種選擇。

更微妙的是xAI基礎(chǔ)設施團隊近期的人事地震。

原基礎(chǔ)設施負責人Heinrich Küttler離職,Jake Palmer接管了物理基礎(chǔ)設施,SpaceX的Daniel Dueri被調(diào)來負責算力基礎(chǔ)設施。

與此同時,Cursor原產(chǎn)品工程負責人Andrew Milich和Jason Ginsburg跳槽到xAI,直接向馬斯克和Nicolls匯報。

把這些信號串起來,能看到一個正在變形的Colossus:

它在官方敘事里是「世界最大超算」、是xAI打敗OpenAI的算力底牌;但在業(yè)務層,它正在一點點變成一座「半成品云廠商」。

AWS、Azure、GCP靠著出租算力賺到的利潤是天文數(shù)字;CoreWeave、Lambda這種新玩家干脆圍繞租GPU建生意。

xAI如今走的是同一條路,只不過一邊租一邊自己也得訓模型。

自己跑不滿,就讓別人來跑,這是當代GPU資本的標準動作。

xAI官方至今沒有正面回應過11%這個數(shù)字,官網(wǎng)首頁仍然掛著122天建成、92天翻倍到20萬張GPU、路線圖通往100萬張GPU的官方敘事。


xAI Colossus 122天建成,從10萬張GPU擴到20萬張只用了92天,路線圖通往100萬張。但越快擴張,訓練棧和并行策略的復雜度也越大。

但速度有速度的代價。

Megatron-LM公開的數(shù)據(jù)已經(jīng)給出了警告:當你把H100集群強擴展到4608張時,僅僅是通信開銷,就足以把MFU從47%拖到42%。

這是英偉達自己的旗艦訓練框架,跑在標準化最強的硬件上。

xAI要把卡數(shù)從20萬推到100萬,意味著通信、調(diào)度、容錯、并行策略的復雜度還可能要再漲一個數(shù)量級。

122天建成是工程奇跡,但每一天的奇跡背后,都有一筆運維債在悄悄記賬。

AI競賽的KPI正在切換

過去比的是倉庫:誰先囤到H100、誰先建成超算、誰能從英偉達手里搶到下一批GB200。

這個游戲花錢就能玩,所以馬斯克、奧特曼、扎克伯格、黃仁勛都下場了。

現(xiàn)在比的是工程師:誰的訓練棧調(diào)得最好、誰能把每一美元GPU CapEx轉(zhuǎn)化成最多的有效token。

這個游戲花錢解決不了,只能靠時間、人才和工程文化。

GPU是入場券,但MFU才是真正的考驗。

xAI雖然拿到了最大的那張入場券,但它能不能把這張券兌現(xiàn),還要看那個「低得尷尬」的數(shù)字,能不能真的拉到Nicolls所說的50%。

參考資料:

https://www.theinformation.com/newsletters/ai-agenda/xai-shows-hard-use-lot-gpus?rc=epv9gi

https://arxiv.org/pdf/2204.02311

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
晨起喝溫水是錯的?醫(yī)生苦勸:不想住進醫(yī)院,晨起喝水牢記5點

晨起喝溫水是錯的?醫(yī)生苦勸:不想住進醫(yī)院,晨起喝水牢記5點

岐黃傳人孫大夫
2026-04-27 16:35:03
43歲金莎坐輪椅賣唱賺錢,小19歲老公卻陪老媽度假,這婚姻自己品

43歲金莎坐輪椅賣唱賺錢,小19歲老公卻陪老媽度假,這婚姻自己品

動物奇奇怪怪
2026-05-04 03:50:07
奧爾特曼向馬斯克示好,邀其參加GPT-5.5慶功宴

奧爾特曼向馬斯克示好,邀其參加GPT-5.5慶功宴

IT之家
2026-05-03 07:51:07
隨著AC米蘭爆大冷0-2,博洛尼亞0-0,意甲最新積分榜出爐

隨著AC米蘭爆大冷0-2,博洛尼亞0-0,意甲最新積分榜出爐

俯身沖頂
2026-05-03 23:41:46
梁朝偉和湯唯在《色戒》里“假戲真做”?網(wǎng)友爆出截圖:一目了然

梁朝偉和湯唯在《色戒》里“假戲真做”?網(wǎng)友爆出截圖:一目了然

姜糖先生
2025-06-08 19:31:00
123期新澳六合彩內(nèi)幕7碼

123期新澳六合彩內(nèi)幕7碼

清城教育
2026-05-03 16:09:48
塵埃落定!火箭隊記:杜蘭特留隊,烏度卡帥位穩(wěn)固,兩大基石保留

塵埃落定!火箭隊記:杜蘭特留隊,烏度卡帥位穩(wěn)固,兩大基石保留

體育見習官
2026-05-03 13:07:51
黑七?。?!

風子說個球
2026-05-03 11:51:52

基恩:梅努還沒完全說服我,他的爆發(fā)力是否足夠仍是疑問

基恩:梅努還沒完全說服我,他的爆發(fā)力是否足夠仍是疑問

懂球帝
2026-05-04 03:24:44
傅聰提前交底,若是特朗普訪華時海峽仍關(guān)閉,這事將成為頭號議題

傅聰提前交底,若是特朗普訪華時海峽仍關(guān)閉,這事將成為頭號議題

誰將笑到最后
2026-05-02 16:55:49
又一起悲?。“不?9歲男子遺體被找到,地勢隱秘,生前舉動很反常

又一起悲??!安徽19歲男子遺體被找到,地勢隱秘,生前舉動很反常

奇思妙想草葉君
2026-05-02 21:55:53
1920年,林徽因和父親林長民,在倫敦寓所里吃西餐,顏值太高了!

1920年,林徽因和父親林長民,在倫敦寓所里吃西餐,顏值太高了!

云霄紀史觀
2026-04-14 02:18:38
進入人生新階段,多納魯馬宣布與相戀9年的女友結(jié)婚

進入人生新階段,多納魯馬宣布與相戀9年的女友結(jié)婚

懂球帝
2026-05-03 04:34:10
顧客用燒烤簽給寵物狗擼串喂食,燒烤店主致歉:停業(yè)一天,已銷毀舊簽子和食材

顧客用燒烤簽給寵物狗擼串喂食,燒烤店主致歉:停業(yè)一天,已銷毀舊簽子和食材

極目新聞
2026-05-03 17:11:22
大量硼砂,別再給家里人吃了!這10類食物最易摻硼砂,超危險

大量硼砂,別再給家里人吃了!這10類食物最易摻硼砂,超危險

笑熬漿糊111
2026-04-13 00:05:12
白人女性與黑人女性的體味差異,網(wǎng)友真實分享引發(fā)熱議

白人女性與黑人女性的體味差異,網(wǎng)友真實分享引發(fā)熱議

特約前排觀眾
2025-12-22 00:20:06
一架客機被摧毀!曾執(zhí)飛赴華航線!

一架客機被摧毀!曾執(zhí)飛赴華航線!

航空知識
2026-05-03 21:24:58
廣州主帥:我們早知道徐昕被NBA關(guān)注 他知道身體力量弱項刻苦訓練

廣州主帥:我們早知道徐昕被NBA關(guān)注 他知道身體力量弱項刻苦訓練

狼叔評論
2026-05-03 23:26:03
22歲大學生同居,一年內(nèi)吃了50多次西地那非,情況如何了?

22歲大學生同居,一年內(nèi)吃了50多次西地那非,情況如何了?

健康之光
2026-04-04 22:35:03
后續(xù)!沈女士道歉已晚!3萬評論一邊倒,打工人破防:別趕盡殺絕

后續(xù)!沈女士道歉已晚!3萬評論一邊倒,打工人破防:別趕盡殺絕

水泥土的搞笑
2026-05-02 19:10:27
2026-05-04 04:27:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
15123文章數(shù) 66834關(guān)注度
往期回顧 全部

數(shù)碼要聞

聯(lián)合創(chuàng)新推出2410F 2026款顯示器:FHD 120Hz屏僅599元

頭條要聞

高端小區(qū)多位業(yè)主拒收房:小區(qū)車位數(shù)量“蒸發(fā)”約1/3

頭條要聞

高端小區(qū)多位業(yè)主拒收房:小區(qū)車位數(shù)量“蒸發(fā)”約1/3

體育要聞

曼聯(lián)3-2雙殺利物浦!提前三輪鎖定歐冠資格 梅努制勝

娛樂要聞

黃曉明五一帶娃去游樂場 父子幸福同框

財經(jīng)要聞

后巴菲特時代,首場股東會透露了啥

科技要聞

庫克罕見"拒答"!蘋果正被AI供應鏈卡脖子

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態(tài)度原創(chuàng)

房產(chǎn)
數(shù)碼
健康
教育
藝術(shù)

房產(chǎn)要聞

五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

數(shù)碼要聞

自費測評aigoGS11耳機:一篇可能得罪廠商,但必須發(fā)出來的真實體驗

干細胞治燒燙傷面臨這些“瓶頸”

教育要聞

期中考暨一模出分,大家考的怎么樣?

藝術(shù)要聞

看!比利時畫家圖森特如何用油畫定義女性優(yōu)雅!

無障礙瀏覽 進入關(guān)懷版