国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI工廠:國產(chǎn)GPU的算力進化

0
分享至

訓練大模型,有點像煉丹。而算力,就是煉丹爐里的柴。只有爐火純青,才能真正煉出好丹。


過去這幾年,AI浪潮蓬勃發(fā)展,大模型的參數(shù)規(guī)模越來越大。煉丹難度不斷增加,往里面投的柴(算力),也越來越多。

如今,AI的發(fā)展已經(jīng)進入了新的階段。大模型參數(shù)規(guī)模從千億走向萬億,對算力的需求,也達到空前的規(guī)模。AI的應用也在加速。Agentic AI的爆發(fā),也對算力提出了更高的要求。

面對這些新的挑戰(zhàn),業(yè)界逐漸意識到,當煉丹難度(參數(shù)規(guī)模)達到一定程度,僅僅靠“堆料(算力)”,已經(jīng)無法進行有效的應對。

那么,到底該怎么做,才能真正滿足AI下一步發(fā)展的需求呢?算力的供給模式,是否需要進行徹底的變革?又該如何進行變革?

前不久,在WAIC 2025期間,我聆聽了摩爾線程創(chuàng)始人兼CEO張建中的一場演講。在演講中,他對上面提到的問題進行了全面且系統(tǒng)的解答。

張建中提出了一個創(chuàng)新的概念——AI工廠(AI Foundry)。


他認為,算力的供給模式正在發(fā)生巨變。構(gòu)建萬卡集群,并非一萬張GPU卡的簡單堆疊,而是一項高度復雜的超級系統(tǒng)工程。它涉及到超大規(guī)模的組網(wǎng)互聯(lián)、高效率的集群計算、長期穩(wěn)定性和高可用性等諸多技術難題。想要真正實現(xiàn)有效的算力供給,就必須通過構(gòu)建新一代AI訓練基礎設施,即AI工廠(AI Foundry)。

這場演講的信息量很大,給我?guī)砹撕艽蟮膯l(fā)。張建中真正從宏觀到微觀,講明白了該如何應對AI所帶來的算力需求爆炸式增長,打造真正好用的算力基礎設施。

接下來,我就基于演講的內(nèi)容,結(jié)合個人的理解,給大家做一個深入解讀。

█ AI Foundry:生產(chǎn)先進模型的超級工廠

Foundry這個概念源自芯片半導體產(chǎn)業(yè),指的是芯片代工廠,專門生產(chǎn)芯片的地方。

摩爾線程提出的AI Foundry,則是專門生產(chǎn)“智能”的地方。

之所以提出AI工廠,本質(zhì)在于AI算力的供給模式正在發(fā)生變化。傳統(tǒng)的供給模式是前面說的“堆卡”——生產(chǎn)算力更強、數(shù)量更多的算卡,然后進行數(shù)量堆疊,以此滿足用戶需求。

如今,大模型參數(shù)規(guī)模不斷增長,更新迭代的速度不斷加快,對算力的要求也越來越高。大模型本身也在從大語言模型向多模態(tài)和世界模型轉(zhuǎn)變,這就使得整個AI計算基礎設施都必須進行自我變革,以運行和支持一切模型。

換言之,AI算力供給,需要從粗放的“作坊式”向精細的“工廠式”進行轉(zhuǎn)變

芯片工廠,為了造出更強大的芯片,需要不斷研發(fā)和嘗試更先進的工藝制程,需要在軟件、硬件、流程、管理等各個維度進行提升,以此來不斷突破物理極限,提升生產(chǎn)力。

而AI工廠,為了提供更強大的算力,需要高效率、高能量、高產(chǎn)出的一套方式方法,在單卡算力的基礎上,綜合考慮網(wǎng)絡拓撲、片間互聯(lián)、卡間互聯(lián)、節(jié)點間互聯(lián)、集群管理、效率、算法、工具、算子庫、框架等一系列因素。這些,也就是AI工廠的能力。

當千卡集群向萬卡集群演進,AI工廠的必要性就愈加凸顯。在算力供給側(cè),需要重新搭建物理拓撲結(jié)構(gòu),重新設計管理方式,重新優(yōu)化集群系統(tǒng)上的任務調(diào)度,重新開發(fā)和提升及各種不同的算子和效率。

摩爾線程將所有的要素進行了完整梳理,提出了五大核心要素,也就是:加速計算通用性、單芯片有效算力、單節(jié)點效率、集群效率、集群穩(wěn)定性。


把每個核心要素都做到極致,打造端到端的能力,才是真正優(yōu)秀的AI工廠,才有核心競爭力,才能獲得最后的成功。

█ 五大核心要素,構(gòu)筑AI 工廠性能底座

接下來,我們就分別解讀一下這五大核心要素。

加速計算通用性

回望GPU的發(fā)展史,其核心角色始終是加速計算。摩爾線程進一步指出,全功能GPU是加速計算的核心驅(qū)動力。也就是說,全功能GPU不能只用于單個功能,而應該實現(xiàn)多場景的覆蓋,其核心體現(xiàn)為四大引擎的協(xié)同:AI計算加速、圖形渲染、物理仿真和科學計算、超高清視頻編解碼。這構(gòu)成了摩爾線程全功能GPU的核心能力譜系。

支持AI全場景加速,就需要全功能GPU,它是一個功能完備的通用底座,也可以理解為是一個可以通吃所有領域行業(yè)的通用加速平臺。


除了功能完備之外,全功能GPU還要實現(xiàn)“精度完整”。這里,就要提到FP64、FP32、FP16、FP8、FP4和INT8等概念。

這些是IEEE定義的各種不同數(shù)據(jù)類型。詳細解釋這些概念稍微有點復雜。大家可以簡單理解——早期的時候,業(yè)界都是用FP32進行訓練,后來用FP16,并以此作為標配。如今,用FP8做大模型訓練,也被證明是一個不錯的選擇。

摩爾線程支持從FP64至INT8的完整精度譜系,能針對多種精度進行混合訓練。

單芯片有效算力

芯片是算力的核心單元。提升單芯片的有效算力,是驅(qū)動AI工廠高效運轉(zhuǎn)的關鍵。

需要注意的是,芯片的有效算力并不僅僅是指芯片的理論峰值算力,更重要的是在實際應用場景中能夠穩(wěn)定、高效地發(fā)揮出來的算力。

摩爾線程在芯片設計上下了很大的功夫,通過優(yōu)化芯片架構(gòu)、提升計算性能、優(yōu)化內(nèi)存和通信效率等多種手段,來確保單GPU的有效算力能夠進一步突破極限。

先看看架構(gòu)。

摩爾線程采用了自研的MUSA架構(gòu)(Meta-computing Unified System Architecture,元計算統(tǒng)一架構(gòu))。這個Meta-computing(元計算)的命名,體現(xiàn)出這個架構(gòu)支持所有的計算場景。不僅滿足當前的計算需求,也要應對未來的計算需求。


統(tǒng)一架構(gòu),完整來說,是多引擎可配置統(tǒng)一系統(tǒng)架構(gòu)。這意味著,架構(gòu)從頂層角度考慮到了計算、通信、存儲、指令集之間的相互交接、相互協(xié)調(diào)、相互調(diào)度的功能。同樣也是“一個架構(gòu)服務多個領域”。

MUSA架構(gòu)的核心能力,是可以利用統(tǒng)一的編程指令集,驅(qū)動架構(gòu)下的所有引擎,包括圖形處理引擎、通用計算引擎、多媒體引擎、通信引擎等。計算、通信、存儲、調(diào)度、加速等工作任務的協(xié)同融合,都被整合在統(tǒng)一的底層引擎之下,便于用戶和開發(fā)者去調(diào)用。

MUSA還有一個特點,是資源池化。

它通過硬件資源池化及動態(tài)資源調(diào)度技術,構(gòu)建了全局共享的計算、內(nèi)存與通信資源池。這一設計不僅突破了傳統(tǒng)GPU功能單一的限制,還在保障通用性的同時顯著提升了資源利用率。

MUSA架構(gòu)的引擎中,有兩個專門用于AI計算加速系統(tǒng)的引擎,分別是張量計算引擎(TCE)張量訪存引擎(TME)。

前者主要負責執(zhí)行AI計算任務中的核心運算,如矩陣乘法等,是算力輸出的“主力軍”。而后者則專注于優(yōu)化數(shù)據(jù)訪問模式,減少內(nèi)存延遲,提高數(shù)據(jù)吞吐量,確保計算引擎能夠高效、穩(wěn)定地獲取所需數(shù)據(jù)。


在池化的基礎上,通過引擎異步流水(ATB)技術,把底層各種不同的硬件加速流水線(例如圖形計算、超級計算、Tensor計算、編解碼等)變成了一根根管道,融合在一起隨意調(diào)度。


基于一個資源池,所有的結(jié)果都共享一個內(nèi)存,所有的引擎在上面工作,所有的數(shù)據(jù)、存在一個地方。這就是最典型的數(shù)據(jù)驅(qū)動、引擎支持和引擎集散的統(tǒng)一系統(tǒng)架構(gòu),可以讓實現(xiàn)最高的工作效率。

在計算層面,前面我們已經(jīng)提到,摩爾線程的GPU全面支持INT8/FP8/FP16/BF16/TF32等多種混合精度計算。

作為國內(nèi)首批實現(xiàn)FP8算力量產(chǎn)的GPU廠商,摩爾線程的FP8技術通過快速格式轉(zhuǎn)換、動態(tài)范圍智能適配和高精度累加器等創(chuàng)新設計,在保證計算精度的同時,將Transformer計算性能提升約30%。


在內(nèi)存系統(tǒng)方面,通過多精度近存規(guī)約引擎、低延遲Scale-Up、通算并行資源隔離等技術,實現(xiàn)了50%的帶寬節(jié)省和60%的延遲降低。

在通信和互聯(lián)方面,基于獨創(chuàng)的ACE異步通信引擎,減少了15%的計算資源損耗。


MTLink2.0互聯(lián)技術,提供了高出國內(nèi)行業(yè)平均水平60%的帶寬,為大規(guī)模集群部署奠定了堅實基礎。

單節(jié)點效率

剛才說的是單芯片,現(xiàn)在,我們再往上一級,看看單節(jié)點。一個節(jié)點包括了多個芯片,涉及到了芯片之間的互聯(lián)協(xié)同。

在這個環(huán)節(jié),摩爾線程的核心創(chuàng)新包括:任務調(diào)度優(yōu)化、極致性能算子庫、通信效能躍升、低精度計算效率革新、開發(fā)生態(tài)完善。

任務調(diào)度優(yōu)化,是指GPU驅(qū)動任務調(diào)度優(yōu)化。體現(xiàn)在兩個方面:首先,核函數(shù)(計算任務從CPU主機傳輸?shù)紾PU設備并執(zhí)行的過程)啟動時間相比業(yè)界平均時間縮短了50%。其次,支持千次計算指令單次并行下發(fā)。摩爾線程的任務之間延遲遠遠小于國際主流芯片公司,實現(xiàn)了:"個子比別人小、但跳得比別人高"。


在算子庫方面,摩爾線程的muDDN算子進行了極致性能優(yōu)化,相比cuDDN有10-20%的領先。而且,摩爾線程的GEMM算子算力利用率達98%,F(xiàn)lash Attention算子算力利用率突破95%。這也是非常出色的成績。


在通信方面,摩爾線程在兼顧傳輸速率的基礎上,重點優(yōu)化了穩(wěn)定性、可靠性和帶寬利用率。

他們的MCCL通信庫,可以實現(xiàn)97%的RDMA網(wǎng)絡帶寬利用率。基于異步通信引擎優(yōu)化計算通信并行,大模型訓練集群整體性能可以提升10%。


在低精度計算效率方面,除了對FP8 Transformer的支持,摩爾線程還有一個行業(yè)首創(chuàng)的技術創(chuàng)新——細粒度重計算(Recompute),計算開銷可以減少4倍。

最后是開發(fā)生態(tài)方面。

摩爾線程推出了Triton-MUSA編譯器 + MUSA Graph,可以實現(xiàn)DeepSeek R1推理加速1.5倍,全面兼容Triton等主流框架。

為了幫助開發(fā)者降低開發(fā)門檻,提升效率,摩爾線程還打造了完整的軟件開發(fā)套件。

集群效率

節(jié)點再往上,就是集群。我們可以看看在集群效率提升上,摩爾線程做了些什么。

摩爾線程將自家研發(fā)的集群系統(tǒng)方案命名為KUAE(夸娥)。


這個集群通過5D大規(guī)模分布式并行計算技術,可以實現(xiàn)上千節(jié)點的高效協(xié)作,推動AI基礎設施從單點優(yōu)化邁向系統(tǒng)工程級突破。

所謂的“5D”,是指DP數(shù)據(jù)并行、TP張量并行、SP序列并行、EP專家并行、PP流水線并行的5大類型任務可以大規(guī)模、分布式的并行訓練。

KUAE能夠做到端到端的模型訓練支持,包括數(shù)據(jù)處理、預訓練、后訓練等。而且,KUAE還可以支持所有的模型種類,包括LLM/VLM、混合專家模型、世界模型、具身智能模型等。

為了提升集群的訓練效率,實現(xiàn)訓練性能的最優(yōu)化,KUAE提供了一套性能仿真工具——SIMUMAX。


它可以自動找出一個最佳的并行策略,滿足用戶的模型訓練需求,協(xié)助進行性能優(yōu)化。SIMUMAX還可以精準模擬FP8混合精度訓練與算子融合,為DeepSeek等模型縮短訓練周期提供科學依據(jù)。

集群穩(wěn)定性

集群訓練,穩(wěn)定性是一個大問題。對于訓練過程中可能發(fā)生的中斷,業(yè)界普遍采用CheckPoint進行應對。也就是定期進行備份,中斷后再進行恢復。

在此基礎上,摩爾線程創(chuàng)新提出了CheckPoint加速方案,利用RDMA技術,將百GB級備份恢復時間從數(shù)分鐘壓縮至1秒,大幅縮短了中斷時間,提升了訓練效率。


摩爾線程還專門發(fā)明了一個創(chuàng)新的集群穩(wěn)定性管理方案——零中斷容錯技術。

傳統(tǒng)模式下,如果發(fā)生硬件故障導致訓練中斷,需要先替換硬件,然后寫讀Checkpoint,耽誤大量時間,增加了訓練成本。


采用摩爾線程的零中斷容錯技術,故障發(fā)生時,僅隔離受影響節(jié)點組,其余節(jié)點繼續(xù)訓練,備機無縫接入,全程無中斷。這一方案使KUAE集群的有效訓練時間占比超過99%,大幅降低中斷恢復開銷。

摩爾線程還獨創(chuàng)了多維度訓練洞察體系,實現(xiàn)對訓練過程的動態(tài)監(jiān)測與智能診斷。如果發(fā)現(xiàn)滿節(jié)點,就可以及時進行處理維護。這使得集群的異常處理效率提升了50%。結(jié)合集群巡檢與起飛檢查,訓練成功率提高10%,為大規(guī)模AI訓練提供穩(wěn)定保障。

█ 最后的話

前面介紹了摩爾線程AI工廠的很多技術細節(jié)。我們可以看出,他們對算力的理解是相當全面而且深刻的。作為一家半導體創(chuàng)新創(chuàng)業(yè)的公司,能擁有這么深厚的技術積累,確實非常不容易。

AI工廠作為一個支撐全場景算力需求的超級工廠,其背后的技術挑戰(zhàn)超乎想象。從底層硬件設計到上層軟件生態(tài),摩爾線程都要進行深入的創(chuàng)新和優(yōu)化,以確保AI工廠的高效運轉(zhuǎn)。他們的努力不僅體現(xiàn)在單個組件的性能提升上,更在于整個系統(tǒng)的協(xié)同優(yōu)化,實現(xiàn)了從單點創(chuàng)新到系統(tǒng)級效能的飛躍。

總而言之,摩爾線程的AI工廠不僅是其算力戰(zhàn)略的體現(xiàn),或許也將為整個行業(yè)帶來新的范式。

以摩爾線程為代表的國產(chǎn)算力企業(yè)正在加速崛起,他們的每一步都走得非常扎實。我們有理由相信,在這些企業(yè)的共同努力下,我們國家的算力產(chǎn)業(yè)一定會加速縮小和國際巨頭的差距,并最終實現(xiàn)超越。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
記者:富保羅明確想濃眉3周內(nèi)被交易,但獨行俠不讓他脅迫球隊

記者:富保羅明確想濃眉3周內(nèi)被交易,但獨行俠不讓他脅迫球隊

懂球帝
2026-01-15 11:42:04
房價漲跌,已經(jīng)不重要了?接下來,多數(shù)家庭要經(jīng)歷這4道難題

房價漲跌,已經(jīng)不重要了?接下來,多數(shù)家庭要經(jīng)歷這4道難題

搬磚營Z
2026-01-15 04:11:10
存款利率反轉(zhuǎn)!5家銀行開年加息,你的存款利息或要漲了!

存款利率反轉(zhuǎn)!5家銀行開年加息,你的存款利息或要漲了!

老特有話說
2026-01-15 19:59:03
別被誤導!美軍突破委內(nèi)瑞拉防空網(wǎng),原來真不是中國雷達的問題

別被誤導!美軍突破委內(nèi)瑞拉防空網(wǎng),原來真不是中國雷達的問題

兵國大事
2026-01-08 00:05:06
王陽:盡管我和蔣欣有過戀情,但余生絕不會辜負苦等我6年的高斯

王陽:盡管我和蔣欣有過戀情,但余生絕不會辜負苦等我6年的高斯

小熊侃史
2025-12-20 10:55:51
劉嘉玲爆料梁朝偉疑患精神分裂,結(jié)婚20年常收道歉卡,視狗如子

劉嘉玲爆料梁朝偉疑患精神分裂,結(jié)婚20年常收道歉卡,視狗如子

史怌的生活科普
2026-01-14 01:48:31
越南南北高速鐵路進展:技術人員已被派往中國柳州、昆明接受培訓

越南南北高速鐵路進展:技術人員已被派往中國柳州、昆明接受培訓

緬甸中文網(wǎng)
2026-01-15 13:58:42
古代犯人發(fā)配需要衙役押送,往返幾千里路,衙役是不是也很遭罪?

古代犯人發(fā)配需要衙役押送,往返幾千里路,衙役是不是也很遭罪?

掠影后有感
2026-01-10 13:57:42
榮耀手機越來越讓人瞧不起了

榮耀手機越來越讓人瞧不起了

郝小亮
2026-01-13 16:40:03
殲-15幾乎全部退役,淪為全球最短命艦載機!它究竟有哪些短板?

殲-15幾乎全部退役,淪為全球最短命艦載機!它究竟有哪些短板?

小莜讀史
2025-12-27 14:55:11
機關事業(yè)單位退休人員,2026年職業(yè)年金領取,超過1200元的多嗎?

機關事業(yè)單位退休人員,2026年職業(yè)年金領取,超過1200元的多嗎?

阿纂看事
2026-01-13 09:20:40
官殺旺用印化官掌權(quán)之人;官殺弱印重化官太過,用財壞印生官得財

官殺旺用印化官掌權(quán)之人;官殺弱印重化官太過,用財壞印生官得財

陵峰先生
2026-01-08 00:10:22
內(nèi)存市場徹底亂套!DDR3主板銷量瘋漲2-3倍:離DDR2不遠了

內(nèi)存市場徹底亂套!DDR3主板銷量瘋漲2-3倍:離DDR2不遠了

快科技
2026-01-15 09:58:05
攻防兩端都有輸出,合理使用的話快船鋒線老將還是能起到這樣的?

攻防兩端都有輸出,合理使用的話快船鋒線老將還是能起到這樣的?

稻谷與小麥
2026-01-16 00:56:39
工齡40年,平均繳費指數(shù)2.5822,個賬46萬,“蘇大強”的養(yǎng)老金有多少?

工齡40年,平均繳費指數(shù)2.5822,個賬46萬,“蘇大強”的養(yǎng)老金有多少?

樂天果果
2026-01-13 11:58:26
兩岸統(tǒng)一的風向:賴清德由獨轉(zhuǎn)統(tǒng),或能成就統(tǒng)一功績

兩岸統(tǒng)一的風向:賴清德由獨轉(zhuǎn)統(tǒng),或能成就統(tǒng)一功績

米師傅安裝
2026-01-14 02:49:35
底層人,無利不起早;中層人,有利讓三分;上層人,利人才利己

底層人,無利不起早;中層人,有利讓三分;上層人,利人才利己

詩詞中國
2026-01-07 18:45:30
比亞迪開年推第五品牌領匯,首發(fā)4款車型,劍指B端市場

比亞迪開年推第五品牌領匯,首發(fā)4款車型,劍指B端市場

南方都市報
2026-01-15 19:00:41
2026年新成語:惡意尋子!該警惕了,細節(jié)越挖越心寒!

2026年新成語:惡意尋子!該警惕了,細節(jié)越挖越心寒!

你食不食油餅
2026-01-11 06:41:42
獨處時,中年女人有這三個暗示,擁抱她不會被拒絕

獨處時,中年女人有這三個暗示,擁抱她不會被拒絕

吃青菜長高
2026-01-02 15:05:55
2026-01-16 03:03:00
鮮棗課堂 incentive-icons
鮮棗課堂
ICT知識科普。
998文章數(shù) 1257關注度
往期回顧 全部

科技要聞

阿里最狠的一次“自我革命”

頭條要聞

美突襲委內(nèi)瑞拉動用神秘武器:委士兵跪倒在地吐血

頭條要聞

美突襲委內(nèi)瑞拉動用神秘武器:委士兵跪倒在地吐血

體育要聞

聶衛(wèi)平:黑白棋盤上的凡人棋圣

娛樂要聞

92歲陶玉玲去世,馮遠征曹可凡悼念

財經(jīng)要聞

央行再次結(jié)構(gòu)性降息0.25個百分點

汽車要聞

吉利帝豪/繽越推冠軍一口價 起售價4.88萬

態(tài)度原創(chuàng)

健康
游戲
房產(chǎn)
手機
藝術

血常規(guī)3項異常,是身體警報!

任天堂股價暴跌!為何索尼未收影響?專家分析來了

房產(chǎn)要聞

突發(fā)!商業(yè)用房購房貸款最低首付比例下調(diào)至30%

手機要聞

三星手機屏幕防窺設計曝光,Galaxy AI基礎功能永久免費

藝術要聞

300億!341米!迪拜將建全球首個奔馳品牌城市

無障礙瀏覽 進入關懷版