国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

自研架構(gòu)升級,摩爾線程在物理AI時代開啟“成人禮”

0
分享至

作者:毛爍

“在AI進入物理世界的今天,我們到底需要什么樣的算力底座?”這一問題背后,是算力的路線之爭。

如果說2024年大家還在為Scaling Law(規(guī)模定律)下的顯存容量而焦慮,那么到了2025年底,真正的焦慮變成了——如何讓AI理解并改變物理世界。

事實上,2025年是算力范式裂變的一年。

隨著人工智能向Agentic AI(智能體AI)乃至物理AI(Physical AI)演進,單純的算力堆砌已經(jīng)無法滿足日益復(fù)雜的應(yīng)用需求。

具體而言,其一是物理AI的崛起。具身智能、工業(yè)機器人、自動駕駛等應(yīng)用,不僅需要AI理解意圖,還要實時感知物理規(guī)則(物理仿真),并實時構(gòu)建出高保真的視覺反饋(圖形渲染)。

其二是本土化創(chuàng)新的戰(zhàn)略選擇。通用性與靈活度的平衡在本土算力演進的過程中,存在“通才”與“專才”的選擇問題。

例如,谷歌的TPU是全棧整合的“專才”典型,其在閉環(huán)生態(tài)內(nèi)具有極高的性價比,但大多數(shù)本土企業(yè)并不具備垂直整合的能力。相比之下,GPU分工合作的機制,從CNN到Transformer再到未來的“世界模型”,其能在每次計算范式的更迭中,始終保證性能與靈活度。

其三是“圖算結(jié)合”。AI的未來方向,一定是多模態(tài)的。這就需要其既能“理解世界”(AI計算),還能用三維去“構(gòu)建世界”(圖形渲染),并能通過超高清視頻進行傳輸。這種能力在AI for Science、工業(yè)數(shù)字化轉(zhuǎn)型中具有重要價值。

12月20日,在首屆MUSA開發(fā)者大會(MDC 2025)上,摩爾線程創(chuàng)始人張建中,帶著過去五年的成績單走向臺前?;趯τ嬎惴妒降纳疃榷床欤柧€程從底層的MUSA架構(gòu)開始,就在為“全功能”蓄力。

01 全精度“大滿貫” “花港”開啟訓(xùn)推渲染“雙升路線”

這次,摩爾線程正式發(fā)布了代號為“花港”的第五代全功能GPU架構(gòu)。

從指標(biāo)上看,“花港”基于完全本土創(chuàng)新的一代指令集架構(gòu)與處理器微架構(gòu),其算力密度提升50%,計算能效實現(xiàn)了10 倍級跨越式提升。值得注意的是,這一提升并非單純依賴工藝,更深層的變化,來自對并行計算組織方式本身的重寫。

在傳統(tǒng)GPU并行模型中,算力瓶頸并不在于“核心不夠多”,更多是來自核心之間長期存在的調(diào)度失衡——任務(wù)分配不均導(dǎo)致部分計算單元閑置,另一部分卻持續(xù)擁塞,硬件峰值難以轉(zhuǎn)化為有效的算力吞吐。

但是,“花港”架構(gòu)引入了新一代異步編程模型,通過重構(gòu)任務(wù)調(diào)度與資源分配機制,結(jié)合高效線程同步、線程束特化等技術(shù),讓成千上萬的計算核心可以在更細(xì)粒度、更高并發(fā)的節(jié)奏下協(xié)同運轉(zhuǎn),從而顯著提升算力的“實際可用率”。

這種對硬件潛力的極限釋放,使得其GPU在面對億級參數(shù)級模型時,不再只是“能跑”,更能提升有效產(chǎn)出比。

如果說并行模型決定了算力是否“用得滿”,那么精度完整性則決定了芯片能否覆蓋真實世界中復(fù)雜多樣的計算需求。“花港”架構(gòu)實現(xiàn)了從科學(xué)計算所需的FP64,到主流大模型訓(xùn)練的FP32 / TF32,再到可顯著壓縮推理成本的FP8、FP6、FP4的原生全精度支持。

在此基礎(chǔ)上,摩爾線程對Tensor Core進行了新一輪的深度設(shè)計升級。通過TCE-PAIR技術(shù),讓兩個張量計算引擎在計算過程中共享數(shù)據(jù)通路,將算力效率與數(shù)據(jù)復(fù)用深度耦合。在大量算子密集的應(yīng)用場景中,這種內(nèi)部結(jié)構(gòu)的優(yōu)化,往往比單純堆疊算力更能撬動整體性能。

這也是“花港”作為第五代“全功能 GPU”架構(gòu)的原因——既能承擔(dān)高精度的科學(xué)模擬(AI4S),也能下沉到低精度的大規(guī)模推理,覆蓋物理AI與多模態(tài)計算的完整圖譜。

在完成底層架構(gòu)統(tǒng)一之后,摩爾線程并沒有選擇“一顆芯片打天下”,而是基于“花港”架構(gòu),明確分化出兩條面向不同范式的產(chǎn)品路線。

其中,“華山”系列,面向AI訓(xùn)推一體與超大規(guī)模智能計算場景。該系列完整集成了新一代異步編程技術(shù),并引入高性能MTFP4計算能力,目標(biāo)是為萬卡級智算集群提供穩(wěn)定、可持續(xù)擴展的算力底座。其浮點計算能力對標(biāo)行業(yè)的較高水平,指向的是構(gòu)建下一代“AI 工廠”所需的系統(tǒng)級算力。

“廬山”系列,則集中在高性能圖形渲染領(lǐng)域,其性能提升近乎“暴力”——AI 計算性能提升64倍,幾何處理性能提升16倍,光線追蹤性能提升50倍。

在摩爾線程的判斷中,圖形能力并非是游戲的專屬,更是物理AI的“五感系統(tǒng)”。沒有高保真、實時的渲染能力,具身智能就無法在仿真環(huán)境中學(xué)習(xí)真實世界的物理反饋、光影變化與空間關(guān)系。通過集成AI 生成式渲染架構(gòu)(AGR)與UniTE 渲染架構(gòu),“廬山”不僅能夠支撐3A級實時渲染,更成為工業(yè)數(shù)字化仿真與具身智能訓(xùn)練中的關(guān)鍵基礎(chǔ)設(shè)施。

02 跨越“萬卡壁壘” 摩爾線程的本土算力“成人禮”

如果把芯片看作“個體”,那么萬卡集群則是高度協(xié)同的龐大軍團。

在未來幾年的算力戰(zhàn)場上,真正決定上限的,是能否在數(shù)萬乃至十萬顆芯片的規(guī)模下,保持系統(tǒng)的穩(wěn)定性、可用性與持續(xù)吞吐。這是一道典型的工程題——規(guī)模一旦放大,任何一次硬件失效、通信抖動,都會被指數(shù)級放大為系統(tǒng)性風(fēng)險。

這便是在超大規(guī)模訓(xùn)練場景中,業(yè)界長期被困擾的問題——“萬卡壁壘”。

摩爾線程本次推出的“夸娥(KUAE)2.0萬卡智算集群”,正是針對這一工程痛點給出的解法,其關(guān)鍵在于DP組級的故障隔離與自愈機制。



例如,當(dāng)某一GPU或計算節(jié)點發(fā)生異常時,系統(tǒng)只隔離受影響的數(shù)據(jù)并行組,其余絕大多數(shù)GPU保持訓(xùn)練態(tài)繼續(xù)運行,備機接入后,僅對局部通信拓?fù)溥M行重建,無需整體停機或全量重啟,這種設(shè)計思路,本質(zhì)上是將“容錯”前移到調(diào)度與通信層,避免“斷點”影響擴散到訓(xùn)練任務(wù)本身。

按照摩爾線程官方披露的數(shù)據(jù),在萬卡規(guī)模下,有效訓(xùn)練時間占比可維持在90%以上,大規(guī)模訓(xùn)練的線性擴展效率接近95%。更重要的是,這意味著,萬億參數(shù)模型在本土化算力體系上,具備了“工程可持續(xù)性”——不再只是跑得動,而是能穩(wěn)定、連續(xù)地跑完。



如果說集群能力驗證的是“系統(tǒng)工程”,那么模型實測考驗的則是軟硬件協(xié)同的真實水位。

現(xiàn)場,摩爾線程展示了在MTT S5000單卡上運行DeepSeek R1 671B全量模型的優(yōu)化實測結(jié)果。

坦白講,這一選擇本身就具有現(xiàn)實意義——MoE架構(gòu)因其不規(guī)則計算、專家調(diào)度與通信壓力,被公認(rèn)為對系統(tǒng)最“挑剔”的模型形態(tài)之一。

在現(xiàn)場測試下,單卡Prefill吞吐突破4000tokens/s;單卡Decode吞吐突破1000 tokens/s。這些結(jié)果意味著兩點:其一,目前本土GPU在MoE場景下的算子調(diào)度、顯存管理與通信協(xié)同已進入可用區(qū)間。其二,MUSA軟件棧對復(fù)雜模型結(jié)構(gòu)的適配,已經(jīng)從“能跑”邁入“跑得好”。



某種意義上,這更像是一次工程意義上的“成人禮”——標(biāo)志著本土化算力體系,開始進入全球高端模型訓(xùn)練與推理的現(xiàn)實博弈中。

硬件規(guī)模化之后,真正拉開差距的,往往是軟件系統(tǒng)的成熟度。在MUSA 5.0中,摩爾線程繼續(xù)向“效率升級”的方向推進底層能力:核心計算庫muDNN在GEMM、FlashAttention等關(guān)鍵算子上,效率逼近理論上限(官方披露為98%+);編譯器整體性能較上一代實現(xiàn)數(shù)倍級的提升;針對大模型高頻路徑,持續(xù)做算子融合與訪存優(yōu)化。

相比單純性能指標(biāo),更值得注意的是開發(fā)范式的變化。摩爾線程同步即將推出的MUSACode 代碼生成大模型,用于解決長期的生態(tài)摩擦問題——將通用CUDA /主流框架代碼,低成本遷移到MUSA體系。

按照官方目前披露的階段性成果,自動代碼轉(zhuǎn)換的可編譯率已超過90%,在主流算子與模型結(jié)構(gòu)上的準(zhǔn)確率保持在較高水平。

更前沿的探索,則是摩爾線程的Text to MUSA路線,開發(fā)者只需通過自然語言描述計算邏輯,系統(tǒng)即可生成面向MUSA 架構(gòu)的高性能算子。這一方向指向的,是算力平臺從“程序驅(qū)動”向“意圖驅(qū)動”的演進趨勢。

在軟件能力之外,摩爾線程還選擇了一條更“更穩(wěn)”的路線——逐步開放底層能力。包括計算加速庫(MATE、MUTLASS)與通信相關(guān)組件(MT DeepEP),均已明確了開源或規(guī)劃開源的路徑。

誠然,這一選擇并不指向立竿見影的商業(yè)回報,而是通過開放工程,將更多開發(fā)者真正拉進體系之中。

與此同時,摩爾線程也通過其“摩爾學(xué)院”,在高校與開發(fā)者社區(qū)中形成持續(xù)滲透。官方披露數(shù)據(jù)顯示,其已覆蓋20萬量級的用戶規(guī)模,并與全國200余所高校建立合作關(guān)系。





或許,這一投入短期內(nèi)難以在賬面上量化,卻構(gòu)成其本土算力生態(tài)難以被復(fù)制的護城河——真正重要的,從來不是某一代芯片,而是可持續(xù)的工程體系。

03 端側(cè)“造身 ”補上下一塊“物理AI”拼圖

當(dāng)全功能 GPU 架構(gòu)、持續(xù)演進的硬件性能,以及逐步成型的軟件工具鏈被拉到同一條技術(shù)主線上,物理 AI開始從概念的驗證,進入可被工程驗證的階段。

具身智能是AI從“認(rèn)知智能”走向“行動智能”的關(guān)鍵路徑,而摩爾線程的選擇,并沒有從模型出發(fā),而是從物理世界的可計算性切入。

此次,摩爾線程發(fā)布的MT Lambda仿真訓(xùn)練平臺,正是這一選擇的直接落地。該平臺構(gòu)建在摩爾線程自研的AlphaCore物理仿真引擎之上,針對剛體動力學(xué)、柔體、流體與碰撞等多物理場聯(lián)合計算進行了底層并行化重構(gòu)。

在典型工業(yè)與自動駕駛仿真負(fù)載下,其整體仿真吞吐效率相較傳統(tǒng)CPU或“圖算割裂”方案,達到了約30倍的提升。具體而言,其通過在GPU上統(tǒng)一調(diào)度物理求解與圖形渲染,減少數(shù)據(jù)在不同計算單元間的頻繁搬運。

更具現(xiàn)實意義的是,摩爾線程對 3DGS(3D Gaussian Splatting)重建技術(shù)的工程化應(yīng)用。開發(fā)者可直接利用普通相機采集的照片或視頻,快速重建出厘米級精度、帶語義標(biāo)簽的數(shù)字孿生環(huán)境。相比傳統(tǒng)基于CAD、高精地圖的建模方式,這一流程大幅降低了場景構(gòu)建成本,也顯著縮短了機器人控制策略與自動駕駛算法的“仿真—驗證—迭代”周期。

同步亮相的,還有摩爾線程新一代AI SoC芯片——“長江”。這是一顆將CPU、GPU、NPU與VPU 集成于單一芯片的全智能計算核心,面向端側(cè)推理與多模態(tài)處理場景,提供50 TOPS的異構(gòu)算力。其設(shè)計目標(biāo)便是讓模型調(diào)試、推理驗證與邊緣部署具備獨立運行能力。

基于“長江”SoC打造的MTT AIBOOK,被定位為端側(cè)AI開發(fā)工作站。開發(fā)者可以在本地離線環(huán)境中直接運行DeepSeek、MiniCPM-V等主流基礎(chǔ)模型,以完成推理調(diào)試與應(yīng)用驗證,同時還能與云端的“夸娥”算力集群協(xié)同工作,形成“小腦在端側(cè)、大腦在云端”的分層算力結(jié)構(gòu)。

在此基礎(chǔ)上,其推出的迷你型計算設(shè)備 MTT AICube進一步補齊了個人算力中心的形態(tài),使端側(cè)智能不再停留在Demo,更具備持續(xù)部署與運行的現(xiàn)實條件。

發(fā)布現(xiàn)場,摩爾線程還展示了其與 51SIM 聯(lián)合打造的自動駕駛仿真引擎。該方案在復(fù)雜交通參與體、高頻傳感器仿真以及動態(tài)環(huán)境交互中,驗證了全功能GPU架構(gòu)在物理環(huán)境模擬上的優(yōu)勢——不是“單幀更快”,而是能夠在更高并發(fā)、更高保真的環(huán)境下持續(xù)運行,從而讓大規(guī)模仿真訓(xùn)練成為可負(fù)擔(dān)的工程選項。

04 寫在最后

在MDC 2025上,一個最強烈的行業(yè)體感是:在國產(chǎn)算力的牌桌上,圖形渲染能力,在物理AI時代正在變成下一張“王牌”。

一方面,是對“算力提純論”的有力反擊。在過去幾年本土自研芯片的演進中,存在“去圖形化”的論調(diào)——為了追求極致的AI理論峰值(FLOPS),許多廠商選擇了NPU(神經(jīng)網(wǎng)絡(luò)處理器)路線,砍掉了圖形渲染單元。這種策略在處理純文本大模型(LLM)時固然高效,但在面對Physical AI時卻顯露疲態(tài)。

摩爾線程堅持的“全功能GPU”路線,看似在單點能效上不如專用ASIC極致,但其背后的邏輯是——物理世界的智能,必須建立在“感”與“知”的閉環(huán)之上。具身智能不僅需要Transformer來預(yù)測下一個Token,更需要實時渲染來預(yù)測下一幀畫面、模擬物理碰撞。而“花港”則通過統(tǒng)一的顯存和計算單元,消弭了圖形渲染與AI計算之間的數(shù)據(jù)搬運延遲(Data Movement),更在硬件底層為“世界模型”預(yù)埋了最高效的物理通路。

另一方面,從“能跑”到“敢跑”,工程化成熟度是隱形的護城河。業(yè)界對于本土算力較大的顧慮,在于萬卡集群的MTBF(平均故障間隔時間)。DeepSeek R1 671B等MoE(混合專家)模型對通信帶寬和負(fù)載均衡的苛刻要求,是檢驗集群“成色”的試金石。

“夸娥2.0”的“DP組級故障隔離”,則將容錯機制下沉到通信層的設(shè)計,標(biāo)志著本土算力已經(jīng)走出了“堆料”階段,進入了精細(xì)化運維的深水區(qū)。

在MDC 2025所展示的,或許是對“計算范式回歸”的押注。

在如今這個范式劇變的時代,對“全功能”的執(zhí)著,正逐漸顯現(xiàn)出摩爾線程的遠見卓識。本土創(chuàng)新不應(yīng)只是對標(biāo)與替代,更應(yīng)是對未來的定義。

構(gòu)筑自研基座,共赴智能未來。這場硬核突圍,已至中場。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
價格飆升,多地零售價突破10元/斤!年初一斤僅一兩元,網(wǎng)友:雞蛋都快配不上它了……

價格飆升,多地零售價突破10元/斤!年初一斤僅一兩元,網(wǎng)友:雞蛋都快配不上它了……

每日經(jīng)濟新聞
2025-12-26 10:01:26
外交部回應(yīng)日本領(lǐng)導(dǎo)人或參拜靖國神社:日方不要錯上加錯

外交部回應(yīng)日本領(lǐng)導(dǎo)人或參拜靖國神社:日方不要錯上加錯

環(huán)球網(wǎng)資訊
2025-12-26 15:30:50
玉淵譚天|現(xiàn)場畫面!菲律賓在我南海造假擺拍被抓包

玉淵譚天|現(xiàn)場畫面!菲律賓在我南海造假擺拍被抓包

環(huán)球網(wǎng)資訊
2025-12-26 21:52:17
搶中國原油的美軍,意識到玩砸了,收到最新命令,60天內(nèi)不能動手

搶中國原油的美軍,意識到玩砸了,收到最新命令,60天內(nèi)不能動手

近史博覽
2025-12-26 11:41:41
敖德薩遭襲,此前澤連斯基變卦、變卦、又變卦

敖德薩遭襲,此前澤連斯基變卦、變卦、又變卦

新民晚報
2025-12-26 09:03:19
再反轉(zhuǎn)!助理辟謠姜昆沒出國,網(wǎng)友曝飛機上合照,這次又社死

再反轉(zhuǎn)!助理辟謠姜昆沒出國,網(wǎng)友曝飛機上合照,這次又社死

知法而形
2025-12-26 23:23:24
為什么全世界都在準(zhǔn)備平安夜和圣誕節(jié),只有中國人顯得異常冷靜?

為什么全世界都在準(zhǔn)備平安夜和圣誕節(jié),只有中國人顯得異常冷靜?

扶蘇聊歷史
2025-12-26 12:59:52
姜昆回應(yīng),視頻為拼接,人一直在國內(nèi),蹭熱度的楊儀又被打臉了

姜昆回應(yīng),視頻為拼接,人一直在國內(nèi),蹭熱度的楊儀又被打臉了

李健政觀察
2025-12-26 12:19:52
格力市場總監(jiān)朱磊曬工廠圖:銅管堆成山!堅決不用鋁代銅

格力市場總監(jiān)朱磊曬工廠圖:銅管堆成山!堅決不用鋁代銅

快科技
2025-12-26 17:57:08
美媒扒愛德華茲離場前爆笑細(xì)節(jié):指著3個裁判一頓痛罵 沒放過一人

美媒扒愛德華茲離場前爆笑細(xì)節(jié):指著3個裁判一頓痛罵 沒放過一人

Emily說個球
2025-12-26 16:07:48
姜昆“美國唱紅歌”事件再度升級,郭德綱和寧靜的話,一針見血

姜昆“美國唱紅歌”事件再度升級,郭德綱和寧靜的話,一針見血

得得電影
2025-12-26 13:58:03
華潤置地裁員近8千人

華潤置地裁員近8千人

地產(chǎn)微資訊
2025-12-26 09:43:39
那些立遺囑的中國女明星們……

那些立遺囑的中國女明星們……

新民周刊
2025-12-26 19:59:15
南京博物館事件后,全國博物館紛紛關(guān)閉:施工關(guān)閉、臨時關(guān)閉

南京博物館事件后,全國博物館紛紛關(guān)閉:施工關(guān)閉、臨時關(guān)閉

爆角追蹤
2025-12-26 11:02:32
新加坡坐不住了!開始對海南封關(guān)展開反擊!

新加坡坐不住了!開始對海南封關(guān)展開反擊!

荊楚寰宇文樞
2025-12-26 22:25:14
泰防長怒批某國“偽中立”:只逼泰國?;?,卻偏袒柬埔寨

泰防長怒批某國“偽中立”:只逼泰國?;?,卻偏袒柬埔寨

胡嚴(yán)亂語
2025-12-25 15:15:35
越南信心滿滿,讓老外當(dāng)法官,革新力度前所未有獲贊

越南信心滿滿,讓老外當(dāng)法官,革新力度前所未有獲贊

熱點菌本君
2025-12-25 15:31:40
加時18分歷史首人!約基奇56+16+15刷7紀(jì)錄 小丑皇登全美熱搜第一

加時18分歷史首人!約基奇56+16+15刷7紀(jì)錄 小丑皇登全美熱搜第一

顏小白的籃球夢
2025-12-26 14:55:39
陳皮加它一煮,沾床就睡著!疏肝解郁安神,這法子讓我一覺到天亮

陳皮加它一煮,沾床就睡著!疏肝解郁安神,這法子讓我一覺到天亮

江江食研社
2025-12-26 07:30:06
體壇核爆!烏克蘭開出“戰(zhàn)爭黑名單”:援俄國家全部滾出奧運會!

體壇核爆!烏克蘭開出“戰(zhàn)爭黑名單”:援俄國家全部滾出奧運會!

看盡人間百態(tài)
2025-12-26 14:11:10
2025-12-27 03:40:49
至頂頭條 incentive-icons
至頂頭條
記錄和推動數(shù)字化創(chuàng)新
15141文章數(shù) 49680關(guān)注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

頭條要聞

老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

體育要聞

開翻航母之后,他決定親手造一艘航母

娛樂要聞

王傳君生病后近照變化大,面部浮腫

財經(jīng)要聞

投資巨鱷羅杰斯最新持倉:只留四種資產(chǎn)

汽車要聞

兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

態(tài)度原創(chuàng)

時尚
旅游
親子
本地
軍事航空

我們?yōu)槭裁葱枰?jié)日穿搭?

旅游要聞

桂林冬日必沖!紅杉映水如油畫,免費打卡還出片

親子要聞

為什么買好衣服給孩子是個大坑?你絕對想不到!

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

軍事要聞

烏最新20點俄烏和平草案遞交莫斯科 俄方拒絕

無障礙瀏覽 進入關(guān)懷版