国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

當(dāng)所有人都在說萬卡,真正的差距才剛剛出現(xiàn)

0
分享至

1、萬卡,并不是一個數(shù)字。 過去一年,國內(nèi)算力行業(yè)頻繁出現(xiàn)一個詞:萬卡。它常常被寫進(jìn)新聞標(biāo)題,被放在發(fā)布會的第一頁,被當(dāng)作某種階段性勝利的標(biāo)志。但在行業(yè)內(nèi)部,真正參與過大模型訓(xùn)練的人都清楚:萬卡不是規(guī)模的炫耀,而是一道門檻。越過它,意味著一種能力;沒越過,它只是堆疊。

在多數(shù)場合,國內(nèi)的“萬卡”更多服務(wù)于推理,或者是低并發(fā)、低耦合的計算任務(wù)。它們對系統(tǒng)的要求,更多在部署與成本,而不在持續(xù)協(xié)同。

真正的分水嶺在訓(xùn)練。AI大模型的訓(xùn)練要求長時間、高同步、強通信。模型不會等待某一張卡恢復(fù)狀態(tài),參數(shù)也不會為網(wǎng)絡(luò)抖動停下來。一旦進(jìn)入萬卡規(guī)模,問題不再是“單卡算力夠不夠”,而是系統(tǒng)是否還能像一臺機器那樣工作。這正是摩爾線程 S5000 萬卡集群被反復(fù)提及的原因。不是因為它“做到了萬卡”,而是因為它把萬卡真正用在了訓(xùn)練上。


2、訓(xùn)練型萬卡,是一個系統(tǒng)工程

如果我們往回看大模型的發(fā)展路徑,很容易發(fā)現(xiàn)一個被忽略的事實:算力瓶頸從來不只存在于芯片上。在千卡以內(nèi),問題往往是單卡性能、顯存容量、算子效率。而一旦進(jìn)入萬卡,決定效率的因素迅速轉(zhuǎn)移:

  • 芯片之間能否高速、穩(wěn)定通信

  • 通信是否會侵占計算資源

  • 系統(tǒng)是否能在數(shù)周訓(xùn)練周期中保持一致性

  • 出現(xiàn)“慢節(jié)點”“靜默錯誤”時,是否能被感知與隔離

這些問題,無法通過堆更多卡解決。

這也是為什么全球范圍內(nèi),真正能交付訓(xùn)練型萬卡集群的企業(yè)屈指可數(shù)。英偉達(dá)是一個;云廠商依賴它的生態(tài)是另一個;而在國產(chǎn)體系內(nèi),能走到這一層的路徑并不多。


摩爾線程選擇了一條相對“重”的路線。如果只看參數(shù),摩爾線程的S5000并不是一張“追逐峰值”的卡。它的意義,在于設(shè)計之初就假設(shè)自己要進(jìn)入集群。這體現(xiàn)在三個層面:

第一,通信不再是附屬能力。在大規(guī)模訓(xùn)練中,通信不是配角,而是節(jié)拍器。

S5000在架構(gòu)層面引入了通信卸載機制,把All-Reduce等高頻通信任務(wù)從計算核心中分離出來,使計算與通信可以并行進(jìn)行。這不是為了某一個benchmark,而是為了長期訓(xùn)練過程中算力利用率的穩(wěn)定性。

結(jié)果是,在Dense模型訓(xùn)練中,萬卡規(guī)模下仍能維持較高的 MFU;在通信壓力更大的 MoE 模型中,也沒有出現(xiàn)系統(tǒng)性塌陷。

這類指標(biāo)的價值,不在于“好看”,而在于“可持續(xù)”。

第二,Scale-up 與 Scale-out 同時成立許多集群在scale-out(跨節(jié)點)時依賴專有網(wǎng)絡(luò),成本高、風(fēng)險集中。

S5000 在保持高帶寬片間互聯(lián)的同時,選擇兼容標(biāo)準(zhǔn)以太網(wǎng)與 RoCE 協(xié)議,構(gòu)建大規(guī)模無阻塞拓?fù)?。這不是技術(shù)上的“退而求其次”,而是工程上的現(xiàn)實選擇。

當(dāng)集群規(guī)模進(jìn)入萬卡,供應(yīng)鏈、部署周期、運維復(fù)雜度都會成為系統(tǒng)的一部分。可擴展性,本身就是算力的一部分。

第三,訓(xùn)練結(jié)果而非單項性能

在一些聯(lián)合訓(xùn)練驗證中,S5000 萬卡集群的 Loss 曲線與國際主流訓(xùn)練集群高度重合,誤差控制在可接受范圍內(nèi)。這一點往往被外界低估。實驗結(jié)果顯示,在全程訓(xùn)練中,S5000集群與英偉達(dá)H100平臺的訓(xùn)練曲線幾乎重合,最終訓(xùn)練損失(loss)差異僅為0.62%。甚至在CrossPoint、Q-Spatial、VABench-V任務(wù)上,算法效果表現(xiàn)更優(yōu)。


在行業(yè)內(nèi)部,對一套訓(xùn)練系統(tǒng)是否“站得住”,有一個比性能更苛刻的標(biāo)準(zhǔn):結(jié)果是否一致。

2026年1月,北京智源研究院基于MTT S5000 千卡集群完成RoboBrain 2.5的完整端到端訓(xùn)練與對齊驗證。公開數(shù)據(jù)顯示,在全程訓(xùn)練中,S5000集群與H100集群的訓(xùn)練曲線幾乎重合,最終損失差異控制在0.62%以內(nèi)。


這意味著模型從預(yù)訓(xùn)練到收斂的全過程沒有出現(xiàn)大規(guī)模偏移或異常震蕩。在大模型訓(xùn)練中,這種一致性往往比峰值算力更難獲得。

如果說損失曲線是“是否能跑對”的答案,那么算力利用率則是“是否跑得有效”。

基于S5000 構(gòu)建的萬卡集群,在Dense 模型訓(xùn)練中模型算力利用率達(dá)到60%,在通信壓力更大的MoE模型中維持在40%左右;從64卡擴展至1024卡,系統(tǒng)仍保持90%以上的線性擴展效率。這組數(shù)據(jù)意味著,規(guī)模擴大時,并沒有因為通信或調(diào)度瓶頸而讓算力被大量浪費。

來自互聯(lián)網(wǎng)廠商場景的另一組反饋,則更接近真實業(yè)務(wù)。在端到端訓(xùn)練與推理任務(wù)中,單卡1000 TFLOPS 的計算能力與1.6TB/s 的顯存帶寬為高密度算子提供了底層支撐。但更關(guān)鍵的差異,并不體現(xiàn)在某一次峰值測試上,而是在長時間高負(fù)載運行時——系統(tǒng)更少進(jìn)入等待狀態(tài),通信與計算可以并行推進(jìn)。

它沒有試圖在某一個指標(biāo)上“跑得最快”。而是在真實工作負(fù)載下,讓更多算力被真正用上。

因為對訓(xùn)練而言,“能跑”和“跑對”之間,隔著系統(tǒng)穩(wěn)定性、精度一致性與調(diào)度能力的鴻溝。萬卡訓(xùn)練不是展示性能的舞臺,而是驗證工程能力的壓力測試。

如果說 RoboBrain 2.5的0.62% 訓(xùn)練差異證明了“能跑對”,那么最近的一次適配節(jié)奏,則體現(xiàn)了“能跟上”。

2月12日,智譜發(fā)布GLM-5。當(dāng)天,基于SGLang推理框架,MTT S5000完成了對 GLM-5 的全流程適配與驗證。業(yè)內(nèi)通常把這種同步響應(yīng)稱為 Day-0適配——模型發(fā)布當(dāng)天即可完成運行與驗證。


在大模型快速迭代的當(dāng)下,訓(xùn)練能力只是第一道門檻。真正的挑戰(zhàn)在于,架構(gòu)是否足夠通用,軟件棧是否足夠成熟,使得新模型的計算圖、算子組合與精度策略可以被快速吸收,而無需大規(guī)模重構(gòu)。

S5000之所以能夠在GLM-5發(fā)布當(dāng)天完成適配,一方面得益于其原生FP8 精度與全功能GPU架構(gòu);另一方面,則來自MUSA 軟件棧與主流框架的兼容能力。此前在RoboBrain 2.5千卡訓(xùn)練中,其Loss曲線與H100集群高度重合,最終差異控制在0.62%以內(nèi),這種工程穩(wěn)定性,為后續(xù)模型遷移提供了基礎(chǔ)。

換句話說,萬卡訓(xùn)練解決的是“是否具備底層能力”,Day-0 適配解決的是“是否進(jìn)入主流節(jié)奏”。這兩者疊加,才構(gòu)成真正的產(chǎn)業(yè)能力。

3、為什么是“全功能 GPU”路線

摩爾線程堅持全功能GPU,而非專用訓(xùn)練ASIC,這一選擇在早期并不討巧。

專用芯片更容易在單一指標(biāo)上做得極致,也更容易在短期內(nèi)交付。但訓(xùn)練范式并不穩(wěn)定,從 CNN 到Transformer,從Dense到MoE,再到多模態(tài)與世界模型,算子形態(tài)持續(xù)變化。

在這種背景下,通用性是一種風(fēng)險對沖。全功能GPU并不保證在每一次迭代中都領(lǐng)先,但它保證了系統(tǒng)可以被持續(xù)改造。

MUSA架構(gòu)的統(tǒng)一性,使得軟件棧、通信機制、調(diào)度系統(tǒng)可以圍繞同一底座演進(jìn),而不是在不同產(chǎn)品線上反復(fù)重建。

這是一種偏長期主義的選擇。

4、萬卡之后,問題并未結(jié)束

萬卡不是終點。當(dāng)訓(xùn)練規(guī)模繼續(xù)擴大,功耗、能效、低精度計算、系統(tǒng)級可靠性都會成為新的瓶頸。摩爾線程已經(jīng)公開討論下一代架構(gòu)對十萬卡級別的支持,但這條路仍然充滿不確定性。

更重要的是,算力的競爭最終不在發(fā)布會上完成。它發(fā)生在開發(fā)者是否愿意遷移,模型是否愿意適配,系統(tǒng)是否在真實訓(xùn)練任務(wù)中被反復(fù)使用。

萬卡集群的意義,不在于“證明可以”,而在于“是否有人愿意長期依賴”。這一點,對所有國產(chǎn)GPU廠商都是未完成的問題。

至少摩爾線程已經(jīng)跨出了第一步。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
從0-1到1-1!奪冠熱門倒下,輸?shù)眠€不太光彩,聯(lián)盟門面該換人了

從0-1到1-1!奪冠熱門倒下,輸?shù)眠€不太光彩,聯(lián)盟門面該換人了

籃球掃地僧
2026-04-22 10:06:55
烏克蘭沒錢打俄羅斯了!國庫見底外援青黃不接,普通人積蓄一夜縮水民不聊生

烏克蘭沒錢打俄羅斯了!國庫見底外援青黃不接,普通人積蓄一夜縮水民不聊生

網(wǎng)易新聞出品
2026-04-22 18:42:46
伊朗公開展示對美以反擊“大殺器”

伊朗公開展示對美以反擊“大殺器”

新華社
2026-04-22 16:41:42
注意!6月1日起大醫(yī)院不再隨意接診,看病不按規(guī)矩可能白跑

注意!6月1日起大醫(yī)院不再隨意接診,看病不按規(guī)矩可能白跑

夜深愛雜談
2026-04-21 07:45:20
情侶約會求“刺激”,雙雙被抓,審訊時互相甩鍋

情侶約會求“刺激”,雙雙被抓,審訊時互相甩鍋

深圳晚報
2026-04-22 10:11:17
10大天規(guī),不可打破,君子知命不算命!

10大天規(guī),不可打破,君子知命不算命!

神奇故事
2026-04-20 19:27:24
中央氣象臺4月22日18時繼續(xù)發(fā)布暴雨藍(lán)色預(yù)警

中央氣象臺4月22日18時繼續(xù)發(fā)布暴雨藍(lán)色預(yù)警

環(huán)球網(wǎng)資訊
2026-04-22 18:47:16
賴清德竄訪斯威士蘭受阻,鄭麗文:全世界都不支持“臺獨”

賴清德竄訪斯威士蘭受阻,鄭麗文:全世界都不支持“臺獨”

海峽導(dǎo)報社
2026-04-22 15:32:03
綜合ROI時代,這些高速增長的商家做對了什么?

綜合ROI時代,這些高速增長的商家做對了什么?

刀法研究所
2026-04-16 15:00:13
網(wǎng)友爸爸2年前垃圾堆里撿回72條32GB DDR4內(nèi)存:如今價值近14萬

網(wǎng)友爸爸2年前垃圾堆里撿回72條32GB DDR4內(nèi)存:如今價值近14萬

快科技
2026-04-20 10:51:04
取消午休,改成16點下班,你愿意嗎?網(wǎng)友吵翻!

取消午休,改成16點下班,你愿意嗎?網(wǎng)友吵翻!

魯中晨報
2026-04-22 14:28:23
與伊朗談判取消  特朗普再次上演TACO,宣布延長?;鹌?>
    </a>
        <h3>
      <a href=劉耘博士
2026-04-22 10:49:40
拼多多暴力抗法震驚全網(wǎng),市值萬億巨頭為何如此囂張

拼多多暴力抗法震驚全網(wǎng),市值萬億巨頭為何如此囂張

燕梳樓頻道
2026-04-20 21:12:04
匈牙利爆出戲劇性消息,毛焦?fàn)柼崦材菟W爾班出任新政府外長

匈牙利爆出戲劇性消息,毛焦?fàn)柼崦材菟W爾班出任新政府外長

墜入二次元的海洋
2026-04-22 15:15:16
4月前19天乘用車零售同比大跌26%,房地產(chǎn)的今天就是汽車的明天?

4月前19天乘用車零售同比大跌26%,房地產(chǎn)的今天就是汽車的明天?

風(fēng)向觀察
2026-04-22 18:24:13
慈溪市政協(xié)黨組書記、主席陳杰峰接受審查調(diào)查

慈溪市政協(xié)黨組書記、主席陳杰峰接受審查調(diào)查

界面新聞
2026-04-22 17:34:07
最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

周軍律師聊案子
2026-04-21 09:50:16
段睿悲痛萬分,深夜發(fā)布訃告:他走了,再也沒有人等我回去了!

段睿悲痛萬分,深夜發(fā)布訃告:他走了,再也沒有人等我回去了!

米果說識
2026-04-22 14:41:50
寧德時代狂丟王炸:滿電6分鐘,最高續(xù)航1500km,猛建超換一體站

寧德時代狂丟王炸:滿電6分鐘,最高續(xù)航1500km,猛建超換一體站

超電實驗室
2026-04-22 09:23:32
2013年,江青拍攝的照片以34萬元的高價拍出,毛澤東曾稱贊并題詞

2013年,江青拍攝的照片以34萬元的高價拍出,毛澤東曾稱贊并題詞

南書房
2026-04-21 07:25:06
2026-04-22 19:44:49
老虎說芯 incentive-icons
老虎說芯
資深半導(dǎo)體工程師的經(jīng)驗分享
778文章數(shù) 27關(guān)注度
往期回顧 全部

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國道歉

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國道歉

體育要聞

網(wǎng)易傳媒再度簽約法國隊和阿根廷隊

娛樂要聞

復(fù)婚無望!baby黃曉明陪小海綿零交流

財經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長?;鹌谙?/h3>

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

藝術(shù)
旅游
健康
家居
手機

藝術(shù)要聞

無花不風(fēng)景

旅游要聞

江蘇兩地入選!蘇州再登“2025年游客滿意十佳城市”

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

家居要聞

極簡繪夢 克制和諧

手機要聞

續(xù)航滅霸降臨!vivo Y600 Pro 全配置曝光,10200mAh 電池沖擊中端機

無障礙瀏覽 進(jìn)入關(guān)懷版