国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

單卡推理吞吐2300Tokens/s,昇騰AI云服務正在改寫算力法則

0
分享至

半個月前的HDC 2025上,華為云全面上線了基于CloudMatrix384超節(jié)點的昇騰AI云服務,在行業(yè)內(nèi)外掀起了不小的轟動。

讓我們印象最為深刻的是一組數(shù)據(jù):與非超節(jié)點相比,CloudMatrix384超節(jié)點的單卡吞吐量從600Tokens/s提升到了2300Tokens/s;增量Token的輸出時延,也從原來的100ms降低到了50ms以下。

為了探究指標背后的技術(shù)密碼,我們找到了華為聯(lián)合硅基流動發(fā)表的一篇論文,詳細介紹了CloudMatrix的架構(gòu)創(chuàng)新和CloudMatrix384的生產(chǎn)級實踐,并在測試結(jié)果中寫道——運行DeepSeek-R1時的單卡吞吐,已經(jīng)超過英偉達H100。

在大模型的產(chǎn)業(yè)敘事從訓練轉(zhuǎn)向推理局面下,新一代昇騰AI云服務刷新紀錄的單卡吞吐能力,對整個算力行業(yè)意味著什么?

01 怎么做到的?一場“系統(tǒng)工程的勝利”

需要回答的第一個問題是:單卡吞吐量近乎4倍的性能躍升,CloudMatrix384超節(jié)點到底是怎么做到的?

答案在于工程創(chuàng)新。

為了提高大模型的推理性能,傳統(tǒng)的做法集中在單點優(yōu)化:增加更多的節(jié)點數(shù)量,通過堆疊算力來提升推理能力;對模型進行量化與剪枝,減少不必要的計算量;對KV Cache進行優(yōu)化,加速增量推理;以及利用自動圖優(yōu)化工具將多個算子融合為一個高效核函數(shù),減少中間內(nèi)存拷貝……

可大模型的參數(shù)量仍在增長、MoE架構(gòu)被廣泛采用、上下文長度急劇擴展,單點優(yōu)化暴露出了越來越多的局限性:比如多卡并行推理的通信瓶頸、芯片與內(nèi)存之間的耦合差、“整卡”調(diào)度的資源浪費等等,無論是吞吐性能,還是推理成本,均已經(jīng)滿足不了快速增長的應用部署需求。

CloudMatrix384超節(jié)點提出了新的設計架構(gòu),不同于簡單的“算力疊加”,進一步實現(xiàn)了一切可池化、一切皆對等、一切可組合。

理解了三個“一切”,也就讀懂了工程創(chuàng)新的價值。

一切可池化:通過統(tǒng)一的、超高性能的網(wǎng)絡(MatrixLink),將NPU、CPU、內(nèi)存、網(wǎng)絡等資源解耦,形成可獨立擴展的資源池。

一切皆對等:有別于傳統(tǒng)GPU為中心的計算范式,資源池里的所有資源不再是“主從式”關(guān)系,而是更高效、更靈活的對等架構(gòu)。

一切可組合:意思是CloudMatrix384超節(jié)點池化的所有資源,可以根據(jù)不同的任務需求,像搭積木一樣進行靈活調(diào)配組合。

用一句話來總結(jié):CloudMatrix384超節(jié)點將384顆昇騰NPU和192顆鯤鵬CPU通過全新高速網(wǎng)絡MatrixLink全對等互聯(lián),形成了一臺擁有超大帶寬、超大內(nèi)存、超高算力的超級“AI服務器”。

之所以采用全對等互聯(lián)的架構(gòu),目的是為了匹配大模型的訓推任務,特別是MoE混合架構(gòu)的大模型。

傳統(tǒng)集群模式下進行推理,要在每張單卡上分配所有“專家”,將所有問題都計算一遍,導致每個“專家”只能獲得少量的計算和通信能力。

而一個CloudMatrix384超節(jié)點可以支持數(shù)百個專家并行推理,實現(xiàn)“一卡一專家”模式,即每張卡只部署一個“專家”,集中處理所有相關(guān)問題,增加單次推理的批量大小,減少單位計算的調(diào)度開銷,大幅提升推理效率。同時,超節(jié)點還可以支持“一卡一算子任務”,靈活分配資源,提升任務并行處理,減少等待,將算力有效使用率(MFU)提升50%以上。

再比如大模型的推理過程分為Prefill和Decode兩個階段,Prefill生成KV Cache,Decode使用和更新KV Cache。CloudMatrix384超節(jié)點的解耦式共享內(nèi)存池,可以保存更多的KV Cache,讓Prefill和Decode任務更快、更均衡地訪問KV Cache,大幅降低系統(tǒng)延遲。

也就是說,2300Tokens/s的單卡推理吞吐量和50ms以下的輸出延遲,可以歸結(jié)為一場“系統(tǒng)工程的勝利”。在摩爾定律逐漸放緩,單卡算力提升有限的背景下,通過重構(gòu)計算互聯(lián)架構(gòu),實現(xiàn)了整體系統(tǒng)級最優(yōu),完成了國產(chǎn)算力從“能用”到“好用”的跨越。

02 改變了什么?大模型落地“越過山丘”

進入2025年后,大模型的角色快速蛻變,走出了實驗室,在政務、金融、醫(yī)療、能源等領(lǐng)域加速落地。

但在落地過程中,響應慢、吞吐低、成本高等現(xiàn)實問題,成了不少企業(yè)在部署大模型時難以繞開的“瓶頸”,不僅拖慢了業(yè)務節(jié)奏,還拉高了技術(shù)回報的門檻。如果說“訓得好”是一場軍備競賽,“用得起”則是產(chǎn)業(yè)拐點。

華為在工程創(chuàng)新上的“彎道超車”,為大模型落地部署的挑戰(zhàn),提供了一種經(jīng)過驗證的解題范式。

先從大模型訓練來看。

萬億、十萬億參數(shù)的大模型訓練任務,催生了萬卡乃至十萬卡的集群需求,也帶來了算力緊缺的“危機”。

一個樂觀的消息在于,在云數(shù)據(jù)中心,CloudMatrix384超節(jié)點最高可以將432個超節(jié)點級聯(lián)成16萬卡的超大集群,提供10萬PFlops的算力。其中一個關(guān)鍵指標是線性度,即節(jié)點數(shù)量增加后,性能是否能“按比例提升”。目前CloudMatrix384萬卡集群的線性度已經(jīng)超過95%,實現(xiàn)了性能提升與資源擴展的比例接近1:1,可同時支持1300個千億參數(shù)大模型訓練。

為了幫助客戶最優(yōu)使用資源,CloudMatrix384超節(jié)點昇騰AI云服務還支持訓推算力一體部署,比如“日推夜訓”模式,白天推理,晚上訓練;以及“40天長穩(wěn)訓練、10分鐘快速恢復”能力,保障長周期訓練的穩(wěn)定性和中斷后的快速恢復。

更深刻的影響在于推理層面。

正如前面所提到的,CloudMatrix384超節(jié)點的單卡吞吐量提升到了2300Tokens/s,一同被改變的還有推理成本。

根據(jù)一位知乎網(wǎng)友的方式推算:單卡吞吐量2300Tokens/s,每小時可以產(chǎn)出828萬Token,每小時租金按照15元計算,百萬Token的成本約為1.8元,推理成本比英偉達的GPU方案還要低。

在大模型推理領(lǐng)域,有一個著名的“不可能三角”——推理成本低、響應速度快、輸出準確性高幾乎不可能同時滿足。

CloudMatrix384超節(jié)點給出了否定的答案,以DeepSeek-R1為例,有256個固定專家、32個共享專家,CloudMatrix384超節(jié)點的“一卡一專家”模式完美契合了DeepSeek-R1的推理需求,保障推理性能的同時,仍可以實現(xiàn)高吞吐、低時延的目標。

在“推理成本決定最終勝利”的大模型競賽中,CloudMatrix384超節(jié)點可以說是現(xiàn)階段的“最優(yōu)解”,在技術(shù)上攻克了響應速度、吞吐能力與輸出準確性的三重矛盾,為千行萬業(yè)搬開了大模型落地的“大山”。

可以佐證的案例有很多。

新浪基于CloudMatrix384昇騰AI云服務,為“智慧小浪”智能服務體系構(gòu)建了統(tǒng)一的推理平臺,推理的交付效率提升超過50%。

面壁智能使用CloudMatrix384昇騰AI云服務,讓“小鋼炮”模型的推理業(yè)務性能得到了2.7倍的提升。

360正在開啟與昇騰AI云服務的全面合作,納米AI搜索已經(jīng)實現(xiàn)了上百款大模型的高效協(xié)作,為用戶提供超級AI搜索服務。

03 寫在最后

巴克萊銀行曾在2025年初的研報中表示:AI推理計算需求將快速提升,預計將占到通用人工智能總計算需求的70%以上,推理計算的需求甚至將大幅超過訓練,達到后者的4.5倍。

誰解決了推理效率,誰就掌握了大模型落地的主導權(quán)。

由此再來審視CloudMatrix384超節(jié)點昇騰AI云服務,不僅僅是技術(shù)指標的躍升,而是系統(tǒng)級工程創(chuàng)新的深度驗證,重新定義了未來的算力范式:“芯片性能”不再是唯一的衡量尺度,以“整體系統(tǒng)效率”“推理成本”“模型結(jié)構(gòu)適配性”構(gòu)建新的競爭標準,為整個AI產(chǎn)業(yè)打開了一條更加高效、普惠、可持續(xù)的技術(shù)道路。

截止到目前,基于CloudMatrix384超節(jié)點的昇騰AI云服務已經(jīng)在蕪湖、貴安、烏蘭察布、和林格爾等地的華為云數(shù)據(jù)中心上線,依托百TB級帶寬的光纖骨干網(wǎng),10毫秒時延圈覆蓋了全國19個城市群。正在通過工程創(chuàng)新的勝利,承接大模型時代的產(chǎn)業(yè)落點。

聲明:個人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
58歲初戀找我搭伙養(yǎng)老,他每月5140退休金全部給我,過了4個月后我趁他外出釣魚,連夜收拾行李回老家

58歲初戀找我搭伙養(yǎng)老,他每月5140退休金全部給我,過了4個月后我趁他外出釣魚,連夜收拾行李回老家

LULU生活家
2026-04-29 18:22:02
王晶曝陳百強真正死因,64歲何超瓊顏面盡失

王晶曝陳百強真正死因,64歲何超瓊顏面盡失

君笙的拂兮
2026-03-22 03:44:36
主播集體離職后,俞敏洪發(fā)出超5億港元“紅包”留人

主播集體離職后,俞敏洪發(fā)出超5億港元“紅包”留人

財通社
2026-04-29 14:58:59
演員陸毅嘴唇發(fā)紫,被網(wǎng)友提醒去醫(yī)院體檢;陸毅聽勸后回應:心臟沒問題,體重卻超標了,身高1米8,體重180斤,“我是方的”

演員陸毅嘴唇發(fā)紫,被網(wǎng)友提醒去醫(yī)院體檢;陸毅聽勸后回應:心臟沒問題,體重卻超標了,身高1米8,體重180斤,“我是方的”

浙江之聲
2026-04-27 13:09:03
草蜢40周年演唱會,蔡一杰首度公開病情:腦癌已擴散,但永不言棄

草蜢40周年演唱會,蔡一杰首度公開病情:腦癌已擴散,但永不言棄

一盅情懷
2026-04-27 09:48:43
倫敦世乒賽!首個冷門、11-0誕生,朝鮮女隊大勝,王楚欽放狠話

倫敦世乒賽!首個冷門、11-0誕生,朝鮮女隊大勝,王楚欽放狠話

阿纂看事
2026-04-29 16:04:00
獨造3球!登貝萊93分鐘還回撤防守 姆巴佩拿啥跟他競爭金球?

獨造3球!登貝萊93分鐘還回撤防守 姆巴佩拿啥跟他競爭金球?

雪狼侃體育
2026-04-29 17:25:11
2028大選無望?鄭麗文最新民調(diào)支持率4%,訪陸成功助力蔣萬安登頂

2028大選無望?鄭麗文最新民調(diào)支持率4%,訪陸成功助力蔣萬安登頂

共工之錨
2026-04-29 00:16:00
西班牙裁判技術(shù)委員會認定,貝萊林對皇馬的讀秒扳平?jīng)]有問題

西班牙裁判技術(shù)委員會認定,貝萊林對皇馬的讀秒扳平?jīng)]有問題

懂球帝
2026-04-29 09:31:05
晨起喝溫水是錯的?醫(yī)生苦勸:不想住進醫(yī)院,晨起喝水牢記5點

晨起喝溫水是錯的?醫(yī)生苦勸:不想住進醫(yī)院,晨起喝水牢記5點

岐黃傳人孫大夫
2026-04-27 16:35:03
國家下死命令:2027年城投清零!中小城市的公交、供水會漲價嗎?

國家下死命令:2027年城投清零!中小城市的公交、供水會漲價嗎?

顧史
2026-04-21 05:44:11
小心鳩占鵲巢,警惕在華印度人,刻不容緩

小心鳩占鵲巢,警惕在華印度人,刻不容緩

泥腿看客
2026-04-26 20:45:35
贏球后主動和焦泊喬小陳總握手,徐昕的高情商,撕碎杜鋒最后體面

贏球后主動和焦泊喬小陳總握手,徐昕的高情商,撕碎杜鋒最后體面

后仰大風車
2026-04-29 08:15:12
她憑一己之力,把吳某凡送進監(jiān)獄,沒想到如今也栽了,不值得同情

她憑一己之力,把吳某凡送進監(jiān)獄,沒想到如今也栽了,不值得同情

林輕吟
2026-04-27 07:43:11
經(jīng)濟危機的本質(zhì)是道德危機

經(jīng)濟危機的本質(zhì)是道德危機

柴差說
2026-04-29 16:30:15
弗洛倫蒂諾壓力過大,皇馬或計劃出售姆巴佩?

弗洛倫蒂諾壓力過大,皇馬或計劃出售姆巴佩?

K唐伯虎
2026-04-29 08:29:05
姚登山當4天外交部長蹲10年大獄,晚年坦言:我不是反對周總理

姚登山當4天外交部長蹲10年大獄,晚年坦言:我不是反對周總理

明月清風閣
2026-04-28 14:25:08
周樂偉涉嫌嚴重違紀違法,主動投案!曾任格力集團董事長

周樂偉涉嫌嚴重違紀違法,主動投案!曾任格力集團董事長

每日經(jīng)濟新聞
2026-04-29 00:11:10
陸毅嘴唇發(fā)紫去體檢,50歲患高血壓,看了他日常的三餐就知道原因

陸毅嘴唇發(fā)紫去體檢,50歲患高血壓,看了他日常的三餐就知道原因

做一個合格的吃瓜群眾
2026-04-28 11:18:11
NBA敲定反擺爛方案!命名3-2-1樂透規(guī)則 將于2027年選秀生效

NBA敲定反擺爛方案!命名3-2-1樂透規(guī)則 將于2027年選秀生效

羅說NBA
2026-04-29 06:06:03
2026-04-29 18:56:49
Alter聊科技 incentive-icons
Alter聊科技
探究產(chǎn)業(yè)興衰,專注商業(yè)解讀。
1502文章數(shù) 168128關(guān)注度
往期回顧 全部

科技要聞

今晨庭審紀實|馬斯克當庭講述OpenAI被偷走

頭條要聞

女子被騙與"未婚"高管發(fā)生關(guān)系 得知對方年薪百萬舉報

頭條要聞

女子被騙與"未婚"高管發(fā)生關(guān)系 得知對方年薪百萬舉報

體育要聞

一場九球狂歡,各路神仙批量下凡

娛樂要聞

馬頔一句話,孫楊媽媽怒罵節(jié)目組2小時

財經(jīng)要聞

蘇州,率先進入牛市

汽車要聞

技術(shù)天花板再摸高 全能型的奕境X9首秀

態(tài)度原創(chuàng)

數(shù)碼
手機
教育
親子
軍事航空

數(shù)碼要聞

沒人買了:NAND現(xiàn)貨價格一個月暴跌40%!

手機要聞

同檔唯一2nm旗艦!小米18標準版首發(fā)驍龍8E6芯片:2nm時代來了

教育要聞

中國高等教育學會語文教育專業(yè)委員會舉辦2026年中小學閱讀教育研討會

親子要聞

5年的備孕道路說清楚DHEA 正確服用方法

軍事要聞

美國參議院否決限制特朗普對古巴動武的決議

無障礙瀏覽 進入關(guān)懷版