国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

拆解CANN:當(dāng)華為決定打開(kāi)算力的「黑盒」

0
分享至



編輯|Panda、澤南

大模型的競(jìng)爭(zhēng)如火如荼,也有一群人正在研究如何降低門(mén)檻,讓 AI 工具變得親民。

最近,在 AI 基礎(chǔ)算力上重磅頻出的華為,又亮出了一張王牌:昇騰的底層基礎(chǔ)軟件,CANN 全面開(kāi)源開(kāi)放

昇騰宣布將通過(guò)一系列新舉措,持續(xù)支持開(kāi)發(fā)者在 AI 模型、算子、內(nèi)核、底層資源等多個(gè)層級(jí)進(jìn)行自主優(yōu)化與自定義開(kāi)發(fā)。通過(guò)開(kāi)放共建,一個(gè)新興的 AI 算力生態(tài)正在快速崛起,改變計(jì)算架構(gòu)領(lǐng)域本已固化的格局。

CANN 全稱(chēng)為「神經(jīng)網(wǎng)絡(luò)異構(gòu)計(jì)算架構(gòu)」(Compute Architecture for Neural Networks),其作為連接上層 AI 訓(xùn)練框架(如 PyTorch、TensorFlow、MindSpore 等)和底層 AI 芯片的橋梁,讓開(kāi)發(fā)者不用關(guān)心芯片細(xì)節(jié)就能調(diào)用底層算力。

最近一段時(shí)間,業(yè)內(nèi)對(duì)于國(guó)產(chǎn) AI 算力的需求大幅增長(zhǎng),讓人們更加重視起硬件的計(jì)算架構(gòu)。CANN 的開(kāi)源開(kāi)放引發(fā)了業(yè)界的廣泛關(guān)注,當(dāng) CANN 這個(gè)在整個(gè) AI 技術(shù)棧中「承上啟下」的關(guān)鍵角色被開(kāi)源了之后,開(kāi)發(fā)者們獲得了定義算力的權(quán)力。

以前在 AI 芯片上的算子開(kāi)發(fā)門(mén)檻高到不敢用,現(xiàn)在昇騰 CANN 把這層窗戶(hù)紙捅破了。

這一次,我們不談宏大的生態(tài)格局,只談對(duì)于坐在屏幕前的開(kāi)發(fā)者來(lái)說(shuō),CANN 的開(kāi)源開(kāi)放到底帶來(lái)了什么?

拒絕「黑盒」

三種路徑實(shí)現(xiàn)「AI 算子開(kāi)發(fā)自由」

在 AI 開(kāi)發(fā)的深水區(qū),算子開(kāi)發(fā)效率與性能的平衡始終是個(gè)難題。但「AI 算子開(kāi)發(fā)自由」首先建立在廣泛的生態(tài)兼容之上。

CANN 目前已經(jīng)支持與 PyTorch、TensorFlow、MindSpore、PaddlePaddle 等主流 AI 框架無(wú)縫對(duì)接,并開(kāi)放了 GE 圖開(kāi)發(fā)接口,允許開(kāi)發(fā)者自定義圖結(jié)構(gòu),滿(mǎn)足了多樣化的開(kāi)發(fā)需求。



大模型方面,CANN 覆蓋了國(guó)內(nèi)外目前的主流,支持包括 Llama、Mistral、Phi 等海外模型,以及 Qwen、DeepSeek、GLM 等國(guó)產(chǎn)大模型家族,共計(jì)超過(guò) 50 種。昇騰已經(jīng)參與了超過(guò) 10 個(gè)大模型開(kāi)源社區(qū)的上下游生態(tài)構(gòu)建。

在此基礎(chǔ)上,針對(duì)更深層的算子開(kāi)發(fā)挑戰(zhàn),開(kāi)源開(kāi)放后的 CANN 為不同技術(shù)背景的開(kāi)發(fā)者提供了三條路徑。



路徑一:習(xí)慣 Python?Triton 生態(tài)無(wú)縫接入

對(duì)于習(xí)慣了 GPU 編程范式的開(kāi)發(fā)者,最大的顧慮往往是遷移成本。CANN 對(duì)此給出的答案是:不用改變習(xí)慣

CANN 實(shí)現(xiàn)了與業(yè)界主流開(kāi)發(fā)范式 Triton 的深度對(duì)接。通過(guò) Linalg IR 與 AscendNPU IR(中間表示)的轉(zhuǎn)換,開(kāi)發(fā)者可以直接使用熟悉的 Python 語(yǔ)法編寫(xiě)高性能算子,原有的 Triton 代碼能夠以極低的成本遷移到昇騰 NPU 上。

此外,CANN 還引入了TileLang這一新興編程選擇。它提供了比 Triton 更細(xì)粒度的性能控制能力,允許開(kāi)發(fā)者顯式管理數(shù)據(jù)分塊和內(nèi)存層級(jí)映射。通過(guò) TileLang-Ascend 的深度適配,開(kāi)發(fā)者可以利用類(lèi) Python 語(yǔ)法,精準(zhǔn)操控 NPU 的 Cube 核與 Vector 核,有效解決現(xiàn)代 AI 芯片面臨的「內(nèi)存墻」挑戰(zhàn)。

路徑二:追求極致?Ascend C 讓性能「狂飆」

對(duì)于追求 SOTA 性能的系統(tǒng)級(jí)程序員,Ascend C是昇騰原生提供的終極武器。

這是一種采用 C/C++ 語(yǔ)法風(fēng)格的編程語(yǔ)言,它開(kāi)放了算子底層資源管理接口。這意味著開(kāi)發(fā)者不再受限于封裝好的 API,而是可以直接調(diào)用 NPU 的原子級(jí)能力,精確控制每一個(gè)時(shí)鐘周期的行為和片上緩存管理。無(wú)論是 FlashAttention 還是復(fù)雜的 MoE 融合算子,Ascend C 都能讓開(kāi)發(fā)者榨干硬件的每一滴性能。

路徑三:想要省力?搭積木式的模板庫(kù)

并非所有場(chǎng)景都需要從零手寫(xiě)算子。針對(duì)深度學(xué)習(xí)中無(wú)處不在的矩陣運(yùn)算(GEMM),CANN 推出了CATLASS 算子模板庫(kù)



這是一個(gè)基于 Ascend C 構(gòu)建的高性能算子模版庫(kù),它將復(fù)雜的矩陣乘法及其融合算子抽象為可配置的模板。開(kāi)發(fā)者無(wú)需重新編寫(xiě)復(fù)雜的切分(Tiling)和流水線(xiàn)(Pipeline)邏輯,只需簡(jiǎn)單的參數(shù)配置,即可快速生成適配不同形狀和精度的矩陣乘算子。

在當(dāng)前主流的 MoE(混合專(zhuān)家)模型支持上,CANN 還推出了創(chuàng)新的 MLAPO 融合算子。這種設(shè)計(jì)將原本需要多個(gè)算子完成的 MoE 計(jì)算,融合為單個(gè)高效算子。測(cè)試數(shù)據(jù)顯示,MLAPO 融合算子能夠顯著降低計(jì)算開(kāi)銷(xiāo),相比傳統(tǒng)實(shí)現(xiàn)方式,在相同硬件上獲得明顯的性能提升。



在大參數(shù) DeepSeekV3 模型的量化場(chǎng)景下,MLAPO 算子的實(shí)現(xiàn)能將計(jì)算耗時(shí)從 109us 縮減為 45us,帶來(lái)整網(wǎng)性能提升 20%。

這不是畫(huà)餅,而是已經(jīng)有開(kāi)源代碼、有倉(cāng)庫(kù)的實(shí)質(zhì)性進(jìn)展。

為了方便開(kāi)發(fā)者快速上手,CANN 已在 AtomGit 上開(kāi)放了包括 CATLASS(算子模板庫(kù))、ops-math(基礎(chǔ)數(shù)學(xué))、ops-nn(神經(jīng)網(wǎng)絡(luò))、ops-transformer(transformer 類(lèi)大模型)、ops-cv(圖像處理、目標(biāo)檢測(cè))、HCCL(通信庫(kù))在內(nèi)的多個(gè)核心倉(cāng)庫(kù),并發(fā)布了集成主流大模型環(huán)境的官方容器鏡像,開(kāi)發(fā)者可以通過(guò)容器指令直接獲取開(kāi)箱即用的開(kāi)發(fā)環(huán)境。(https://gitcode.com/cann)

目前,CANN 已預(yù)置了超過(guò) 1400 個(gè)基礎(chǔ)算子、100 多個(gè)融合算子以及 15 個(gè)通信算法,為大模型開(kāi)發(fā)提供了「開(kāi)箱即用」的能力。這些算子經(jīng)過(guò)深度優(yōu)化和實(shí)際生產(chǎn)過(guò)程的驗(yàn)證,能夠充分發(fā)揮昇騰硬件的性能潛力,是吸引開(kāi)發(fā)者和企業(yè)客戶(hù)從「試一試」轉(zhuǎn)向「深度用」的硬通貨。

這種對(duì)底層細(xì)節(jié)的「可控性」,使 CANN 能夠成為追求 SOTA 性能的系統(tǒng)程序員的有力武器。

架構(gòu)變革:分層解耦

為什么現(xiàn)在的 CANN 能做到如此靈活?核心在于架構(gòu)上的分層解耦



CANN 的多層架構(gòu)示意圖,其中不同的層級(jí)有不同的開(kāi)源策略。

何為分層解耦?其實(shí)并不難理解。在過(guò)去的 AI 軟件棧中,工具鏈、運(yùn)行時(shí)、驅(qū)動(dòng)、編程體系、加速庫(kù)等往往被打造成一個(gè)整體。這種模式雖也有優(yōu)勢(shì),但對(duì)于追求極致性能的頭部模型廠商和底層系統(tǒng)工程師來(lái)說(shuō),卻顯得笨重。

而 CANN 卻做到了在宏觀架構(gòu)上的功能解耦與組件獨(dú)立演進(jìn)。

具體來(lái)說(shuō),CANN 不再是一個(gè)巨大的單體軟件,而是被拆解為多個(gè)功能正交的組件。分層解耦的思路貫穿了全棧:從底層的硬件驅(qū)動(dòng)到中間的運(yùn)行時(shí),再到上層的編譯器和加速庫(kù),每一層都實(shí)現(xiàn)了物理上的松耦合。

這意味著開(kāi)發(fā)者無(wú)需像過(guò)去那樣「牽一發(fā)而動(dòng)全身」,而是可以根據(jù)業(yè)務(wù)需求,按需引入或升級(jí)特定的組件功能,大幅降低了系統(tǒng)集成和定制開(kāi)發(fā)的門(mén)檻。

這種解耦可為 CANN 各個(gè)層級(jí)帶來(lái)重要的變化:

加速庫(kù)的「組件化」

CANN 改變了過(guò)去「全量算子一個(gè)包」的發(fā)布方式。算子庫(kù)被精細(xì)拆分為 ops-math、ops-nn、ops-cv 和 ops-transformer 等獨(dú)立組件。



通信庫(kù)和圖引擎(GE)也作為獨(dú)立組件逐步開(kāi)放。其中 HCCL 開(kāi)放了通信算子和框架層,支持開(kāi)發(fā)者自定義通信算法以適應(yīng)大規(guī)模集群;GE 則開(kāi)放了圖編譯和執(zhí)行接口,支持自定義圖融合策略。

運(yùn)行時(shí)的「極簡(jiǎn)化」

Runtime 層剝離了冗余模塊,實(shí)現(xiàn)了核心功能的最小化。更為關(guān)鍵的是,Runtime 開(kāi)放了 aclGraph 接口,支持圖模式下沉。

這一機(jī)制允許開(kāi)發(fā)者將由多個(gè)算子組成的計(jì)算圖一次性下沉到 Device 側(cè),極大地減少了 Host 與 Device 之間的交互開(kāi)銷(xiāo)。

在架構(gòu)分層解耦之后,CANN 實(shí)現(xiàn)了組件功能的最小化,共有 20 余個(gè)安裝包,支持各功能的獨(dú)立演進(jìn)和編譯升級(jí)。

這樣一來(lái),開(kāi)發(fā)者可以在模型、算子、內(nèi)核、底層資源等多個(gè)層級(jí)分別進(jìn)行優(yōu)化與開(kāi)發(fā)。可以說(shuō)開(kāi)源后的 CANN,在追求極致性能的同時(shí),兼顧了開(kāi)發(fā)的易用性。

全面開(kāi)源開(kāi)放

正在陸續(xù)進(jìn)行中

對(duì)于開(kāi)源世界來(lái)說(shuō),真正的技術(shù)價(jià)值會(huì)在自由流動(dòng)中無(wú)限放大。CANN 的開(kāi)源正是遵循同一邏輯:它不僅僅是為了「替代」,更是發(fā)出了一份共同構(gòu)建「算力多元世界」的邀請(qǐng)函。開(kāi)發(fā)者的每一次使用,問(wèn)題的反饋和代碼的提交,都會(huì)為這個(gè)新的生態(tài)做出貢獻(xiàn)。

當(dāng) CANN 開(kāi)源社區(qū)的代碼倉(cāng)庫(kù)逐漸被開(kāi)發(fā)者 fork 和 star,大學(xué)實(shí)驗(yàn)室的研究者們開(kāi)始用 Ascend C 完成 AI 項(xiàng)目,當(dāng)硅基流動(dòng)、無(wú)問(wèn)芯穹等創(chuàng)業(yè)公司基于 CANN 優(yōu)化自己的模型訓(xùn)練流程,一個(gè)不同于 CUDA 路徑的 AI 算力生態(tài)正在快速成長(zhǎng)。

基于昇騰 CANN,無(wú)論你是想驗(yàn)證一個(gè)想法,還是遷移一個(gè)模型,現(xiàn)在都可以快速開(kāi)始。

目前,CANN 的全面開(kāi)源開(kāi)放正在加速推進(jìn),其在 AtomGit 的代碼庫(kù)也非?;钴S,幾乎每天都有新的動(dòng)態(tài)。



截至目前,CANN 項(xiàng)目下已有 27 個(gè)子項(xiàng)目,總 star 數(shù)已經(jīng)超過(guò) 3700,總下載量更是已經(jīng)突破 35 萬(wàn)。

更值得期待的是,開(kāi)源的版圖還在持續(xù)擴(kuò)大。比如用于負(fù)責(zé) AI 計(jì)算圖的解析、優(yōu)化和執(zhí)行的 GE (Graph Engine,也是 CANN 的核心組件之一)以及一種旨在簡(jiǎn)化高性能算子的開(kāi)發(fā)流程的新型編程范式 PyPTO(Python Parallel Tensor Operation)框架。



想體驗(yàn)最新的 CANN 開(kāi)源開(kāi)放能力?

  • 主頁(yè)地址:https://www.hiascend.com/cann
  • 開(kāi)源項(xiàng)目:https://gitcode.com/cann

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
石家莊一男子4年強(qiáng)奸繼女六七十次,判24年半

石家莊一男子4年強(qiáng)奸繼女六七十次,判24年半

大風(fēng)新聞
2025-12-24 10:08:08
烤雞少年承認(rèn)用“肉寶王”來(lái)調(diào)味,廠家人員:是已生產(chǎn)25年的合法調(diào)味料,不是添加劑

烤雞少年承認(rèn)用“肉寶王”來(lái)調(diào)味,廠家人員:是已生產(chǎn)25年的合法調(diào)味料,不是添加劑

極目新聞
2025-12-22 19:57:51
我花2萬(wàn)找小姐要求處女,在酒店以為遇到仙人跳,最后動(dòng)了真心

我花2萬(wàn)找小姐要求處女,在酒店以為遇到仙人跳,最后動(dòng)了真心

葉天辰故事會(huì)
2024-06-07 18:02:04
奇葩親戚朋友的要求有多離譜?網(wǎng)友:這年頭還有想吃絕戶(hù)的

奇葩親戚朋友的要求有多離譜?網(wǎng)友:這年頭還有想吃絕戶(hù)的

解讀熱點(diǎn)事件
2025-12-21 00:05:08
雷霆20分慘敗馬刺吞恥辱紀(jì)錄!SGA33+8里程悲 聯(lián)盟第一近5戰(zhàn)3負(fù)

雷霆20分慘敗馬刺吞恥辱紀(jì)錄!SGA33+8里程悲 聯(lián)盟第一近5戰(zhàn)3負(fù)

顏小白的籃球夢(mèng)
2025-12-24 11:54:59
我替首長(zhǎng)擋了5槍,他連電話(huà)都沒(méi)打,我退伍后,剛到火車(chē)站就被人攔住

我替首長(zhǎng)擋了5槍,他連電話(huà)都沒(méi)打,我退伍后,剛到火車(chē)站就被人攔住

張道陵秘話(huà)
2025-12-17 10:20:09
廣東女護(hù)士林楚欣,因淤青確診癌癥,年僅18歲,兩個(gè)月共花費(fèi)13萬(wàn)

廣東女護(hù)士林楚欣,因淤青確診癌癥,年僅18歲,兩個(gè)月共花費(fèi)13萬(wàn)

溫辭韞
2025-12-23 10:42:08
最新 | 天津市委、市政府決定!名單發(fā)布!

最新 | 天津市委、市政府決定!名單發(fā)布!

天津廣播
2025-12-24 09:54:15
韓國(guó)財(cái)閥千金黃荷娜因涉毒落網(wǎng)!曾潛逃泰國(guó)、非法入境柬埔寨,已返韓接受調(diào)查

韓國(guó)財(cái)閥千金黃荷娜因涉毒落網(wǎng)!曾潛逃泰國(guó)、非法入境柬埔寨,已返韓接受調(diào)查

紅星新聞
2025-12-24 13:51:13
3人20+力克國(guó)王!CC23分7板14助5斷,德羅贊空砍37分,威少27+6+4

3人20+力克國(guó)王!CC23分7板14助5斷,德羅贊空砍37分,威少27+6+4

無(wú)術(shù)不學(xué)
2025-12-24 14:10:18
老公駐派中東3年,我深夜給5歲女兒掖被角,她說(shuō):爸爸每天半夜來(lái)

老公駐派中東3年,我深夜給5歲女兒掖被角,她說(shuō):爸爸每天半夜來(lái)

朝暮書(shū)屋
2025-12-17 18:26:03
41分8板5助!就在今天,一項(xiàng)由保羅保持的NBA紀(jì)錄被小卡達(dá)成了

41分8板5助!就在今天,一項(xiàng)由保羅保持的NBA紀(jì)錄被小卡達(dá)成了

世界體育圈
2025-12-24 15:16:46
女子花1.8萬(wàn)挑戰(zhàn)“獨(dú)處100小時(shí)贏60萬(wàn)” 中途被無(wú)故判出局 法院判全額退還報(bào)名費(fèi)

女子花1.8萬(wàn)挑戰(zhàn)“獨(dú)處100小時(shí)贏60萬(wàn)” 中途被無(wú)故判出局 法院判全額退還報(bào)名費(fèi)

閃電新聞
2025-12-23 17:15:36
俄羅斯和朝鮮因20億美元援俄士兵勞務(wù)款項(xiàng)正式鬧掰

俄羅斯和朝鮮因20億美元援俄士兵勞務(wù)款項(xiàng)正式鬧掰

律法刑道
2025-12-23 22:50:36
劇終!南京博物院 劇本只能寫(xiě)到省委調(diào)查組進(jìn)駐西康賓館

劇終!南京博物院 劇本只能寫(xiě)到省委調(diào)查組進(jìn)駐西康賓館

八斗小先生
2025-12-24 09:47:17
李蘭娟院士提醒:過(guò)了65歲,體檢主要查這4大項(xiàng),別隨便亂查

李蘭娟院士提醒:過(guò)了65歲,體檢主要查這4大項(xiàng),別隨便亂查

全球軍事記
2025-12-13 15:20:18
愛(ài)潑斯坦案大批文件曝光,特朗普被曝曾8次乘坐其私人飛機(jī)

愛(ài)潑斯坦案大批文件曝光,特朗普被曝曾8次乘坐其私人飛機(jī)

上觀新聞
2025-12-24 12:22:13
偷雞不成蝕把米,本想“毀掉”羅永浩,不料自己先被扒了個(gè)底朝天

偷雞不成蝕把米,本想“毀掉”羅永浩,不料自己先被扒了個(gè)底朝天

往史過(guò)眼云煙
2025-12-23 21:22:46
30多名員工聯(lián)名舉報(bào)!這次,82歲徐湖平恐不是"退休養(yǎng)病"這么簡(jiǎn)單

30多名員工聯(lián)名舉報(bào)!這次,82歲徐湖平恐不是"退休養(yǎng)病"這么簡(jiǎn)單

奇思妙想草葉君
2025-12-22 20:02:05
特朗普試探中國(guó)紅線(xiàn)?美軍公然扣押香港油輪,中方該如何應(yīng)對(duì)?

特朗普試探中國(guó)紅線(xiàn)?美軍公然扣押香港油輪,中方該如何應(yīng)對(duì)?

小樾說(shuō)歷史
2025-12-23 13:35:46
2025-12-24 15:47:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
11984文章數(shù) 142517關(guān)注度
往期回顧 全部

科技要聞

馬斯克沒(méi)想到的"中國(guó)速度"!2026值得期待

頭條要聞

美國(guó)再向委內(nèi)瑞拉施壓 中方在安理會(huì)上連說(shuō)5個(gè)"反對(duì)"

頭條要聞

美國(guó)再向委內(nèi)瑞拉施壓 中方在安理會(huì)上連說(shuō)5個(gè)"反對(duì)"

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂(lè)要聞

曝闞清子女兒早產(chǎn)但沒(méi)保住

財(cái)經(jīng)要聞

快手到底惹了誰(shuí)?

汽車(chē)要聞

“運(yùn)動(dòng)版庫(kù)里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

旅游
藝術(shù)
家居
游戲
教育

旅游要聞

天府好禮滬上迎新 這些“成都禮物”圈粉上海市民

藝術(shù)要聞

2026第一福!孫曉云親筆“?!弊殖鰻t

家居要聞

法式大平層 智能家居添彩

殺瘋了!2025獨(dú)游諸神之戰(zhàn)鴨科夫殺入前五

教育要聞

考研考證留學(xué)不迷茫 武漢學(xué)院會(huì)計(jì)學(xué)院專(zhuān)屬輔導(dǎo)室正式啟用

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版