国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

單卡推理吞吐2300Tokens/s,昇騰AI云服務(wù)正在改寫算力法則

0
分享至



半個(gè)月前的HDC 2025上,華為云全面上線了基于CloudMatrix384超節(jié)點(diǎn)的昇騰AI云服務(wù),在行業(yè)內(nèi)外掀起了不小的轟動(dòng)。

讓我們印象最為深刻的是一組數(shù)據(jù):與非超節(jié)點(diǎn)相比,CloudMatrix384超節(jié)點(diǎn)的單卡吞吐量從600Tokens/s提升到了2300Tokens/s;增量Token的輸出時(shí)延,也從原來的100ms降低到了50ms以下。

為了探究指標(biāo)背后的技術(shù)密碼,我們找到了華為聯(lián)合硅基流動(dòng)發(fā)表的一篇論文,詳細(xì)介紹了CloudMatrix的架構(gòu)創(chuàng)新和CloudMatrix384的生產(chǎn)級(jí)實(shí)踐,并在測(cè)試結(jié)果中寫道——運(yùn)行DeepSeek-R1時(shí)的單卡吞吐,已經(jīng)超過英偉達(dá)H100。

在大模型的產(chǎn)業(yè)敘事從訓(xùn)練轉(zhuǎn)向推理局面下,新一代昇騰AI云服務(wù)刷新紀(jì)錄的單卡吞吐能力,對(duì)整個(gè)算力行業(yè)意味著什么?

01 怎么做到的?一場(chǎng)“系統(tǒng)工程的勝利”

需要回答的第一個(gè)問題是:?jiǎn)慰ㄍ掏铝拷?倍的性能躍升,CloudMatrix384超節(jié)點(diǎn)到底是怎么做到的?

答案在于工程創(chuàng)新。

為了提高大模型的推理性能,傳統(tǒng)的做法集中在單點(diǎn)優(yōu)化:增加更多的節(jié)點(diǎn)數(shù)量,通過堆疊算力來提升推理能力;對(duì)模型進(jìn)行量化與剪枝,減少不必要的計(jì)算量;對(duì)KV Cache進(jìn)行優(yōu)化,加速增量推理;以及利用自動(dòng)圖優(yōu)化工具將多個(gè)算子融合為一個(gè)高效核函數(shù),減少中間內(nèi)存拷貝……

可大模型的參數(shù)量仍在增長(zhǎng)、MoE架構(gòu)被廣泛采用、上下文長(zhǎng)度急劇擴(kuò)展,單點(diǎn)優(yōu)化暴露出了越來越多的局限性:比如多卡并行推理的通信瓶頸、芯片與內(nèi)存之間的耦合差、“整卡”調(diào)度的資源浪費(fèi)等等,無論是吞吐性能,還是推理成本,均已經(jīng)滿足不了快速增長(zhǎng)的應(yīng)用部署需求。

CloudMatrix384超節(jié)點(diǎn)提出了新的設(shè)計(jì)架構(gòu),不同于簡(jiǎn)單的“算力疊加”,進(jìn)一步實(shí)現(xiàn)了一切可池化、一切皆對(duì)等、一切可組合。

理解了三個(gè)“一切”,也就讀懂了工程創(chuàng)新的價(jià)值。

一切可池化:通過統(tǒng)一的、超高性能的網(wǎng)絡(luò)(MatrixLink),將NPU、CPU、內(nèi)存、網(wǎng)絡(luò)等資源解耦,形成可獨(dú)立擴(kuò)展的資源池。

一切皆對(duì)等:有別于傳統(tǒng)GPU為中心的計(jì)算范式,資源池里的所有資源不再是“主從式”關(guān)系,而是更高效、更靈活的對(duì)等架構(gòu)。

一切可組合:意思是CloudMatrix384超節(jié)點(diǎn)池化的所有資源,可以根據(jù)不同的任務(wù)需求,像搭積木一樣進(jìn)行靈活調(diào)配組合。

用一句話來總結(jié):CloudMatrix384超節(jié)點(diǎn)將384顆昇騰NPU和192顆鯤鵬CPU通過全新高速網(wǎng)絡(luò)MatrixLink全對(duì)等互聯(lián),形成了一臺(tái)擁有超大帶寬、超大內(nèi)存、超高算力的超級(jí)“AI服務(wù)器”。

之所以采用全對(duì)等互聯(lián)的架構(gòu),目的是為了匹配大模型的訓(xùn)推任務(wù),特別是MoE混合架構(gòu)的大模型。

傳統(tǒng)集群模式下進(jìn)行推理,要在每張單卡上分配所有“專家”,將所有問題都計(jì)算一遍,導(dǎo)致每個(gè)“專家”只能獲得少量的計(jì)算和通信能力。

而一個(gè)CloudMatrix384超節(jié)點(diǎn)可以支持?jǐn)?shù)百個(gè)專家并行推理,實(shí)現(xiàn)“一卡一專家”模式,即每張卡只部署一個(gè)“專家”,集中處理所有相關(guān)問題,增加單次推理的批量大小,減少單位計(jì)算的調(diào)度開銷,大幅提升推理效率。同時(shí),超節(jié)點(diǎn)還可以支持“一卡一算子任務(wù)”,靈活分配資源,提升任務(wù)并行處理,減少等待,將算力有效使用率(MFU)提升50%以上。

再比如大模型的推理過程分為Prefill和Decode兩個(gè)階段,Prefill生成KV Cache,Decode使用和更新KV Cache。CloudMatrix384超節(jié)點(diǎn)的解耦式共享內(nèi)存池,可以保存更多的KV Cache,讓Prefill和Decode任務(wù)更快、更均衡地訪問KV Cache,大幅降低系統(tǒng)延遲。



也就是說,2300Tokens/s的單卡推理吞吐量和50ms以下的輸出延遲,可以歸結(jié)為一場(chǎng)“系統(tǒng)工程的勝利”。在摩爾定律逐漸放緩,單卡算力提升有限的背景下,通過重構(gòu)計(jì)算互聯(lián)架構(gòu),實(shí)現(xiàn)了整體系統(tǒng)級(jí)最優(yōu),完成了國(guó)產(chǎn)算力從“能用”到“好用”的跨越。

02 改變了什么?大模型落地“越過山丘”

進(jìn)入2025年后,大模型的角色快速蛻變,走出了實(shí)驗(yàn)室,在政務(wù)、金融、醫(yī)療、能源等領(lǐng)域加速落地。

但在落地過程中,響應(yīng)慢、吞吐低、成本高等現(xiàn)實(shí)問題,成了不少企業(yè)在部署大模型時(shí)難以繞開的“瓶頸”,不僅拖慢了業(yè)務(wù)節(jié)奏,還拉高了技術(shù)回報(bào)的門檻。如果說“訓(xùn)得好”是一場(chǎng)軍備競(jìng)賽,“用得起”則是產(chǎn)業(yè)拐點(diǎn)。

華為在工程創(chuàng)新上的“彎道超車”,為大模型落地部署的挑戰(zhàn),提供了一種經(jīng)過驗(yàn)證的解題范式。

先從大模型訓(xùn)練來看。

萬億、十萬億參數(shù)的大模型訓(xùn)練任務(wù),催生了萬卡乃至十萬卡的集群需求,也帶來了算力緊缺的“危機(jī)”。

一個(gè)樂觀的消息在于,在云數(shù)據(jù)中心,CloudMatrix384超節(jié)點(diǎn)最高可以將432個(gè)超節(jié)點(diǎn)級(jí)聯(lián)成16萬卡的超大集群,提供10萬PFlops的算力。其中一個(gè)關(guān)鍵指標(biāo)是線性度,即節(jié)點(diǎn)數(shù)量增加后,性能是否能“按比例提升”。目前CloudMatrix384萬卡集群的線性度已經(jīng)超過95%,實(shí)現(xiàn)了性能提升與資源擴(kuò)展的比例接近1:1,可同時(shí)支持1300個(gè)千億參數(shù)大模型訓(xùn)練。



為了幫助客戶最優(yōu)使用資源,CloudMatrix384超節(jié)點(diǎn)昇騰AI云服務(wù)還支持訓(xùn)推算力一體部署,比如“日推夜訓(xùn)”模式,白天推理,晚上訓(xùn)練;以及“40天長(zhǎng)穩(wěn)訓(xùn)練、10分鐘快速恢復(fù)”能力,保障長(zhǎng)周期訓(xùn)練的穩(wěn)定性和中斷后的快速恢復(fù)。

更深刻的影響在于推理層面。

正如前面所提到的,CloudMatrix384超節(jié)點(diǎn)的單卡吞吐量提升到了2300Tokens/s,一同被改變的還有推理成本。

根據(jù)一位知乎網(wǎng)友的方式推算:?jiǎn)慰ㄍ掏铝?300Tokens/s,每小時(shí)可以產(chǎn)出828萬Token,每小時(shí)租金按照15元計(jì)算,百萬Token的成本約為1.8元,推理成本比英偉達(dá)的GPU方案還要低。

在大模型推理領(lǐng)域,有一個(gè)著名的“不可能三角”——推理成本低、響應(yīng)速度快、輸出準(zhǔn)確性高幾乎不可能同時(shí)滿足。

CloudMatrix384超節(jié)點(diǎn)給出了否定的答案,以DeepSeek-R1為例,有256個(gè)固定專家、32個(gè)共享專家,CloudMatrix384超節(jié)點(diǎn)的“一卡一專家”模式完美契合了DeepSeek-R1的推理需求,保障推理性能的同時(shí),仍可以實(shí)現(xiàn)高吞吐、低時(shí)延的目標(biāo)。

在“推理成本決定最終勝利”的大模型競(jìng)賽中,CloudMatrix384超節(jié)點(diǎn)可以說是現(xiàn)階段的“最優(yōu)解”,在技術(shù)上攻克了響應(yīng)速度、吞吐能力與輸出準(zhǔn)確性的三重矛盾,為千行萬業(yè)搬開了大模型落地的“大山”。

可以佐證的案例有很多。

新浪基于CloudMatrix384昇騰AI云服務(wù),為“智慧小浪”智能服務(wù)體系構(gòu)建了統(tǒng)一的推理平臺(tái),推理的交付效率提升超過50%。

面壁智能使用CloudMatrix384昇騰AI云服務(wù),讓“小鋼炮”模型的推理業(yè)務(wù)性能得到了2.7倍的提升。

360正在開啟與昇騰AI云服務(wù)的全面合作,納米AI搜索已經(jīng)實(shí)現(xiàn)了上百款大模型的高效協(xié)作,為用戶提供超級(jí)AI搜索服務(wù)。

03 寫在最后

巴克萊銀行曾在2025年初的研報(bào)中表示:AI推理計(jì)算需求將快速提升,預(yù)計(jì)將占到通用人工智能總計(jì)算需求的70%以上,推理計(jì)算的需求甚至將大幅超過訓(xùn)練,達(dá)到后者的4.5倍。

誰解決了推理效率,誰就掌握了大模型落地的主導(dǎo)權(quán)。

由此再來審視CloudMatrix384超節(jié)點(diǎn)昇騰AI云服務(wù),不僅僅是技術(shù)指標(biāo)的躍升,而是系統(tǒng)級(jí)工程創(chuàng)新的深度驗(yàn)證,重新定義了未來的算力范式:“芯片性能”不再是唯一的衡量尺度,以“整體系統(tǒng)效率”“推理成本”“模型結(jié)構(gòu)適配性”構(gòu)建新的競(jìng)爭(zhēng)標(biāo)準(zhǔn),為整個(gè)AI產(chǎn)業(yè)打開了一條更加高效、普惠、可持續(xù)的技術(shù)道路。

截止到目前,基于CloudMatrix384超節(jié)點(diǎn)的昇騰AI云服務(wù)已經(jīng)在蕪湖、貴安、烏蘭察布、和林格爾等地的華為云數(shù)據(jù)中心上線,依托百TB級(jí)帶寬的光纖骨干網(wǎng),10毫秒時(shí)延圈覆蓋了全國(guó)19個(gè)城市群。正在通過工程創(chuàng)新的勝利,承接大模型時(shí)代的產(chǎn)業(yè)落點(diǎn)。

聲明:個(gè)人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
江蘇“呼啦圈西施”顏倩離世!3歲兒子目睹全程,去年被搶救20天

江蘇“呼啦圈西施”顏倩離世!3歲兒子目睹全程,去年被搶救20天

鋭娛之樂
2025-12-28 08:37:07
百度為什么越來越垃圾了?廣告主吐槽:亂投關(guān)鍵詞,虧光10萬轉(zhuǎn)化率為0

百度為什么越來越垃圾了?廣告主吐槽:亂投關(guān)鍵詞,虧光10萬轉(zhuǎn)化率為0

回旋鏢
2025-12-28 21:27:25
沖上熱搜!黃子韜因腦淤血接受開顱手術(shù)縫了43針,本人回應(yīng)

沖上熱搜!黃子韜因腦淤血接受開顱手術(shù)縫了43針,本人回應(yīng)

半島晨報(bào)
2025-12-28 18:04:45
俄羅斯發(fā)動(dòng)大規(guī)模打擊 普京穿上軍裝: 已無興趣等待烏軍撤出

俄羅斯發(fā)動(dòng)大規(guī)模打擊 普京穿上軍裝: 已無興趣等待烏軍撤出

每日經(jīng)濟(jì)新聞
2025-12-28 11:49:18
部分地區(qū)氣溫下降10℃以上,大雪大雨要來了!

部分地區(qū)氣溫下降10℃以上,大雪大雨要來了!

魯中晨報(bào)
2025-12-28 21:10:07
美媒一定程度上承認(rèn)了“斬殺線”存在

美媒一定程度上承認(rèn)了“斬殺線”存在

環(huán)球時(shí)報(bào)國(guó)際
2025-12-28 15:40:48
2026將是雜糧車的生死劫

2026將是雜糧車的生死劫

細(xì)雨中的呼喊
2025-12-27 13:08:57
南博事件后,知名博主爆料:江西博物館的《米芾三札》疑似被調(diào)包

南博事件后,知名博主爆料:江西博物館的《米芾三札》疑似被調(diào)包

奇思妙想生活家
2025-12-28 12:11:18
摩根大通嚴(yán)選了47只2026年重點(diǎn)股票,還給出了目標(biāo)價(jià)

摩根大通嚴(yán)選了47只2026年重點(diǎn)股票,還給出了目標(biāo)價(jià)

常滌非觀點(diǎn)
2025-12-28 16:10:47
女子稱花30余萬買到升級(jí)前的特斯拉“老款”拒提車 車企:?jiǎn)T工協(xié)助下單未執(zhí)行標(biāo)準(zhǔn)確認(rèn)流程

女子稱花30余萬買到升級(jí)前的特斯拉“老款”拒提車 車企:?jiǎn)T工協(xié)助下單未執(zhí)行標(biāo)準(zhǔn)確認(rèn)流程

紅星新聞
2025-12-28 15:24:12
美國(guó)通告全球,不許中印關(guān)系改善,中方反將一軍,莫迪該不高興了

美國(guó)通告全球,不許中印關(guān)系改善,中方反將一軍,莫迪該不高興了

博覽歷史
2025-12-27 18:08:35
南博事件持續(xù)發(fā)酵!拍賣行也慌了,北京一20年老店突然停擺…

南博事件持續(xù)發(fā)酵!拍賣行也慌了,北京一20年老店突然停擺…

火山詩(shī)話
2025-12-28 16:51:31
1死4傷!54歲男子因糾紛在成都一汽車4S店外引爆易燃物當(dāng)場(chǎng)身亡

1死4傷!54歲男子因糾紛在成都一汽車4S店外引爆易燃物當(dāng)場(chǎng)身亡

聲情專遞
2025-12-28 18:40:39
闞清子面臨巨額違約索賠,未婚夫一家變臉,孩子去世后豪門夢(mèng)破碎

闞清子面臨巨額違約索賠,未婚夫一家變臉,孩子去世后豪門夢(mèng)破碎

花哥扒娛樂
2025-12-28 19:49:42
種地還是毀林?農(nóng)民被訴案背后的萬畝林耕之爭(zhēng)

種地還是毀林?農(nóng)民被訴案背后的萬畝林耕之爭(zhēng)

重案組37號(hào)
2025-12-28 18:51:05
突發(fā)!香港知名天王身體疑出問題?雙掌發(fā)黃,被指可能肝功能受損

突發(fā)!香港知名天王身體疑出問題?雙掌發(fā)黃,被指可能肝功能受損

小小李?yuàn)?/span>
2025-12-28 11:05:43
財(cái)政部:明年財(cái)政將促進(jìn)居民就業(yè)增收

財(cái)政部:明年財(cái)政將促進(jìn)居民就業(yè)增收

極目新聞
2025-12-28 12:14:55
就在剛剛!變天了,中方向全世界宣布:對(duì)美合作終止,不接受談判

就在剛剛!變天了,中方向全世界宣布:對(duì)美合作終止,不接受談判

花花娛界
2025-12-28 20:20:19
戴佩妮成都站深情開唱,現(xiàn)場(chǎng)宣布取消北京、廣州兩站

戴佩妮成都站深情開唱,現(xiàn)場(chǎng)宣布取消北京、廣州兩站

封面新聞
2025-12-28 07:53:05
險(xiǎn)遭20分逆轉(zhuǎn)!杜鋒:胡明軒有傷 王少杰王洪澤被罰下 輪換壓力很大

險(xiǎn)遭20分逆轉(zhuǎn)!杜鋒:胡明軒有傷 王少杰王洪澤被罰下 輪換壓力很大

狼叔評(píng)論
2025-12-28 22:50:08
2025-12-29 00:12:49
Alter聊科技 incentive-icons
Alter聊科技
探究產(chǎn)業(yè)興衰,專注商業(yè)解讀。
1474文章數(shù) 168101關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

澤連斯基:若要烏就領(lǐng)土問題讓步 "和平計(jì)劃"應(yīng)全民公投

頭條要聞

澤連斯基:若要烏就領(lǐng)土問題讓步 "和平計(jì)劃"應(yīng)全民公投

體育要聞

MVP概率達(dá)82.5%!約基奇連超大鳥喬丹

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

教育
時(shí)尚
藝術(shù)
數(shù)碼
手機(jī)

教育要聞

地理干貨|高中地理易錯(cuò)知識(shí)點(diǎn)期末整理

“這頂帽子”太火了,今年流行的風(fēng)格都離不開它

藝術(shù)要聞

世界第二高樓變“廣告塔”,激怒馬來西亞人!

數(shù)碼要聞

曝光的AirPods原型機(jī)顯示,蘋果曾計(jì)劃推出多彩配色方案!

手機(jī)要聞

澎湃OS 3正式版再次擴(kuò)容:15款設(shè)備喜提升級(jí),你收到了嗎?

無障礙瀏覽 進(jìn)入關(guān)懷版