国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

拆解CANN:當(dāng)華為決定打開算力的「黑盒」

0
分享至



編輯|Panda、澤南

大模型的競爭如火如荼,也有一群人正在研究如何降低門檻,讓 AI 工具變得親民。

最近,在 AI 基礎(chǔ)算力上重磅頻出的華為,又亮出了一張王牌:昇騰的底層基礎(chǔ)軟件,CANN 全面開源開放

昇騰宣布將通過一系列新舉措,持續(xù)支持開發(fā)者在 AI 模型、算子、內(nèi)核、底層資源等多個層級進(jìn)行自主優(yōu)化與自定義開發(fā)。通過開放共建,一個新興的 AI 算力生態(tài)正在快速崛起,改變計算架構(gòu)領(lǐng)域本已固化的格局。

CANN 全稱為「神經(jīng)網(wǎng)絡(luò)異構(gòu)計算架構(gòu)」(Compute Architecture for Neural Networks),其作為連接上層 AI 訓(xùn)練框架(如 PyTorch、TensorFlow、MindSpore 等)和底層 AI 芯片的橋梁,讓開發(fā)者不用關(guān)心芯片細(xì)節(jié)就能調(diào)用底層算力。

最近一段時間,業(yè)內(nèi)對于國產(chǎn) AI 算力的需求大幅增長,讓人們更加重視起硬件的計算架構(gòu)。CANN 的開源開放引發(fā)了業(yè)界的廣泛關(guān)注,當(dāng) CANN 這個在整個 AI 技術(shù)棧中「承上啟下」的關(guān)鍵角色被開源了之后,開發(fā)者們獲得了定義算力的權(quán)力。

以前在 AI 芯片上的算子開發(fā)門檻高到不敢用,現(xiàn)在昇騰 CANN 把這層窗戶紙捅破了。

這一次,我們不談宏大的生態(tài)格局,只談對于坐在屏幕前的開發(fā)者來說,CANN 的開源開放到底帶來了什么?

拒絕「黑盒」

三種路徑實(shí)現(xiàn)「AI 算子開發(fā)自由」

在 AI 開發(fā)的深水區(qū),算子開發(fā)效率與性能的平衡始終是個難題。但「AI 算子開發(fā)自由」首先建立在廣泛的生態(tài)兼容之上。

CANN 目前已經(jīng)支持與 PyTorch、TensorFlow、MindSpore、PaddlePaddle 等主流 AI 框架無縫對接,并開放了 GE 圖開發(fā)接口,允許開發(fā)者自定義圖結(jié)構(gòu),滿足了多樣化的開發(fā)需求。



大模型方面,CANN 覆蓋了國內(nèi)外目前的主流,支持包括 Llama、Mistral、Phi 等海外模型,以及 Qwen、DeepSeek、GLM 等國產(chǎn)大模型家族,共計超過 50 種。昇騰已經(jīng)參與了超過 10 個大模型開源社區(qū)的上下游生態(tài)構(gòu)建。

在此基礎(chǔ)上,針對更深層的算子開發(fā)挑戰(zhàn),開源開放后的 CANN 為不同技術(shù)背景的開發(fā)者提供了三條路徑。



路徑一:習(xí)慣 Python?Triton 生態(tài)無縫接入

對于習(xí)慣了 GPU 編程范式的開發(fā)者,最大的顧慮往往是遷移成本。CANN 對此給出的答案是:不用改變習(xí)慣

CANN 實(shí)現(xiàn)了與業(yè)界主流開發(fā)范式 Triton 的深度對接。通過 Linalg IR 與 AscendNPU IR(中間表示)的轉(zhuǎn)換,開發(fā)者可以直接使用熟悉的 Python 語法編寫高性能算子,原有的 Triton 代碼能夠以極低的成本遷移到昇騰 NPU 上。

此外,CANN 還引入了TileLang這一新興編程選擇。它提供了比 Triton 更細(xì)粒度的性能控制能力,允許開發(fā)者顯式管理數(shù)據(jù)分塊和內(nèi)存層級映射。通過 TileLang-Ascend 的深度適配,開發(fā)者可以利用類 Python 語法,精準(zhǔn)操控 NPU 的 Cube 核與 Vector 核,有效解決現(xiàn)代 AI 芯片面臨的「內(nèi)存墻」挑戰(zhàn)。

路徑二:追求極致?Ascend C 讓性能「狂飆」

對于追求 SOTA 性能的系統(tǒng)級程序員,Ascend C是昇騰原生提供的終極武器。

這是一種采用 C/C++ 語法風(fēng)格的編程語言,它開放了算子底層資源管理接口。這意味著開發(fā)者不再受限于封裝好的 API,而是可以直接調(diào)用 NPU 的原子級能力,精確控制每一個時鐘周期的行為和片上緩存管理。無論是 FlashAttention 還是復(fù)雜的 MoE 融合算子,Ascend C 都能讓開發(fā)者榨干硬件的每一滴性能。

路徑三:想要省力?搭積木式的模板庫

并非所有場景都需要從零手寫算子。針對深度學(xué)習(xí)中無處不在的矩陣運(yùn)算(GEMM),CANN 推出了CATLASS 算子模板庫



這是一個基于 Ascend C 構(gòu)建的高性能算子模版庫,它將復(fù)雜的矩陣乘法及其融合算子抽象為可配置的模板。開發(fā)者無需重新編寫復(fù)雜的切分(Tiling)和流水線(Pipeline)邏輯,只需簡單的參數(shù)配置,即可快速生成適配不同形狀和精度的矩陣乘算子。

在當(dāng)前主流的 MoE(混合專家)模型支持上,CANN 還推出了創(chuàng)新的 MLAPO 融合算子。這種設(shè)計將原本需要多個算子完成的 MoE 計算,融合為單個高效算子。測試數(shù)據(jù)顯示,MLAPO 融合算子能夠顯著降低計算開銷,相比傳統(tǒng)實(shí)現(xiàn)方式,在相同硬件上獲得明顯的性能提升。



在大參數(shù) DeepSeekV3 模型的量化場景下,MLAPO 算子的實(shí)現(xiàn)能將計算耗時從 109us 縮減為 45us,帶來整網(wǎng)性能提升 20%。

這不是畫餅,而是已經(jīng)有開源代碼、有倉庫的實(shí)質(zhì)性進(jìn)展。

為了方便開發(fā)者快速上手,CANN 已在 AtomGit 上開放了包括 CATLASS(算子模板庫)、ops-math(基礎(chǔ)數(shù)學(xué))、ops-nn(神經(jīng)網(wǎng)絡(luò))、ops-transformer(transformer 類大模型)、ops-cv(圖像處理、目標(biāo)檢測)、HCCL(通信庫)在內(nèi)的多個核心倉庫,并發(fā)布了集成主流大模型環(huán)境的官方容器鏡像,開發(fā)者可以通過容器指令直接獲取開箱即用的開發(fā)環(huán)境。(https://gitcode.com/cann)

目前,CANN 已預(yù)置了超過 1400 個基礎(chǔ)算子、100 多個融合算子以及 15 個通信算法,為大模型開發(fā)提供了「開箱即用」的能力。這些算子經(jīng)過深度優(yōu)化和實(shí)際生產(chǎn)過程的驗(yàn)證,能夠充分發(fā)揮昇騰硬件的性能潛力,是吸引開發(fā)者和企業(yè)客戶從「試一試」轉(zhuǎn)向「深度用」的硬通貨。

這種對底層細(xì)節(jié)的「可控性」,使 CANN 能夠成為追求 SOTA 性能的系統(tǒng)程序員的有力武器。

架構(gòu)變革:分層解耦

為什么現(xiàn)在的 CANN 能做到如此靈活?核心在于架構(gòu)上的分層解耦



CANN 的多層架構(gòu)示意圖,其中不同的層級有不同的開源策略。

何為分層解耦?其實(shí)并不難理解。在過去的 AI 軟件棧中,工具鏈、運(yùn)行時、驅(qū)動、編程體系、加速庫等往往被打造成一個整體。這種模式雖也有優(yōu)勢,但對于追求極致性能的頭部模型廠商和底層系統(tǒng)工程師來說,卻顯得笨重。

而 CANN 卻做到了在宏觀架構(gòu)上的功能解耦與組件獨(dú)立演進(jìn)。

具體來說,CANN 不再是一個巨大的單體軟件,而是被拆解為多個功能正交的組件。分層解耦的思路貫穿了全棧:從底層的硬件驅(qū)動到中間的運(yùn)行時,再到上層的編譯器和加速庫,每一層都實(shí)現(xiàn)了物理上的松耦合。

這意味著開發(fā)者無需像過去那樣「牽一發(fā)而動全身」,而是可以根據(jù)業(yè)務(wù)需求,按需引入或升級特定的組件功能,大幅降低了系統(tǒng)集成和定制開發(fā)的門檻。

這種解耦可為 CANN 各個層級帶來重要的變化:

加速庫的「組件化」

CANN 改變了過去「全量算子一個包」的發(fā)布方式。算子庫被精細(xì)拆分為 ops-math、ops-nn、ops-cv 和 ops-transformer 等獨(dú)立組件。



通信庫和圖引擎(GE)也作為獨(dú)立組件逐步開放。其中 HCCL 開放了通信算子和框架層,支持開發(fā)者自定義通信算法以適應(yīng)大規(guī)模集群;GE 則開放了圖編譯和執(zhí)行接口,支持自定義圖融合策略。

運(yùn)行時的「極簡化」

Runtime 層剝離了冗余模塊,實(shí)現(xiàn)了核心功能的最小化。更為關(guān)鍵的是,Runtime 開放了 aclGraph 接口,支持圖模式下沉。

這一機(jī)制允許開發(fā)者將由多個算子組成的計算圖一次性下沉到 Device 側(cè),極大地減少了 Host 與 Device 之間的交互開銷。

在架構(gòu)分層解耦之后,CANN 實(shí)現(xiàn)了組件功能的最小化,共有 20 余個安裝包,支持各功能的獨(dú)立演進(jìn)和編譯升級。

這樣一來,開發(fā)者可以在模型、算子、內(nèi)核、底層資源等多個層級分別進(jìn)行優(yōu)化與開發(fā)??梢哉f開源后的 CANN,在追求極致性能的同時,兼顧了開發(fā)的易用性。

全面開源開放

正在陸續(xù)進(jìn)行中

對于開源世界來說,真正的技術(shù)價值會在自由流動中無限放大。CANN 的開源正是遵循同一邏輯:它不僅僅是為了「替代」,更是發(fā)出了一份共同構(gòu)建「算力多元世界」的邀請函。開發(fā)者的每一次使用,問題的反饋和代碼的提交,都會為這個新的生態(tài)做出貢獻(xiàn)。

當(dāng) CANN 開源社區(qū)的代碼倉庫逐漸被開發(fā)者 fork 和 star,大學(xué)實(shí)驗(yàn)室的研究者們開始用 Ascend C 完成 AI 項(xiàng)目,當(dāng)硅基流動、無問芯穹等創(chuàng)業(yè)公司基于 CANN 優(yōu)化自己的模型訓(xùn)練流程,一個不同于 CUDA 路徑的 AI 算力生態(tài)正在快速成長。

基于昇騰 CANN,無論你是想驗(yàn)證一個想法,還是遷移一個模型,現(xiàn)在都可以快速開始。

目前,CANN 的全面開源開放正在加速推進(jìn),其在 AtomGit 的代碼庫也非?;钴S,幾乎每天都有新的動態(tài)。



截至目前,CANN 項(xiàng)目下已有 27 個子項(xiàng)目,總 star 數(shù)已經(jīng)超過 3700,總下載量更是已經(jīng)突破 35 萬。

更值得期待的是,開源的版圖還在持續(xù)擴(kuò)大。比如用于負(fù)責(zé) AI 計算圖的解析、優(yōu)化和執(zhí)行的 GE (Graph Engine,也是 CANN 的核心組件之一)以及一種旨在簡化高性能算子的開發(fā)流程的新型編程范式 PyPTO(Python Parallel Tensor Operation)框架。



想體驗(yàn)最新的 CANN 開源開放能力?

  • 主頁地址:https://www.hiascend.com/cann
  • 開源項(xiàng)目:https://gitcode.com/cann

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
1970年,謝富治阻撓少將升官,主席掐滅煙頭問了一句,全場沒人敢接茬

1970年,謝富治阻撓少將升官,主席掐滅煙頭問了一句,全場沒人敢接茬

史海殘云
2025-12-11 16:19:09
今晚開播!又一30集黑馬大劇來襲,演員陣容不錯,想不火都難

今晚開播!又一30集黑馬大劇來襲,演員陣容不錯,想不火都難

糖寶影視w
2025-12-20 13:22:14
廣東宏遠(yuǎn)VS青島男籃!杜鋒拒絕輸球,麥考爾上演首秀,央視直播

廣東宏遠(yuǎn)VS青島男籃!杜鋒拒絕輸球,麥考爾上演首秀,央視直播

體壇瞎白話
2025-12-20 11:10:45
41歲戚薇骨瘦如柴不長肉!一家四口度假被偶遇,Lucky長大變了樣

41歲戚薇骨瘦如柴不長肉!一家四口度假被偶遇,Lucky長大變了樣

文刀貳
2025-12-20 22:27:38
黑色幽默!電詐園區(qū)辦公室中文標(biāo)語,簡直是天大的諷刺

黑色幽默!電詐園區(qū)辦公室中文標(biāo)語,簡直是天大的諷刺

麥大人
2025-11-06 08:32:30
拿300萬!0分2分+3場12犯規(guī),廣東揪出最大軟蛋,杜鋒自作自受?

拿300萬!0分2分+3場12犯規(guī),廣東揪出最大軟蛋,杜鋒自作自受?

南海浪花
2025-12-20 08:09:59
倒反天罡!日本明治天皇玄孫發(fā)文稱世界上最野蠻的國家是中國

倒反天罡!日本明治天皇玄孫發(fā)文稱世界上最野蠻的國家是中國

我心縱橫天地間
2025-12-17 14:35:24
羅永浩炮轟上海電信后終于理解為何運(yùn)營商要喜歡光貓撥號了

羅永浩炮轟上海電信后終于理解為何運(yùn)營商要喜歡光貓撥號了

阿纂看事
2025-12-20 10:45:48
越南首條高鐵正式開工,棄用中國技術(shù),選用德國方案引熱議

越南首條高鐵正式開工,棄用中國技術(shù),選用德國方案引熱議

虎哥閑聊
2025-12-20 09:33:34
每日一笑:上班的時候不要看,容易被老板發(fā)現(xiàn),哈哈哈!

每日一笑:上班的時候不要看,容易被老板發(fā)現(xiàn),哈哈哈!

夜深愛雜談
2025-12-20 16:58:46
房東被沒收財產(chǎn),柳州市河?xùn)|一套江景房拍賣,被人撿漏117萬競得

房東被沒收財產(chǎn),柳州市河?xùn)|一套江景房拍賣,被人撿漏117萬競得

天天話事
2025-12-19 16:42:33
哈佛大學(xué)驚人發(fā)現(xiàn):世界上最健康長壽的運(yùn)動,竟然簡單到一學(xué)就會

哈佛大學(xué)驚人發(fā)現(xiàn):世界上最健康長壽的運(yùn)動,竟然簡單到一學(xué)就會

原來仙女不講理
2025-12-17 17:16:38
拆遷款1700萬,我剛想辭職,老爸:財不外說,先上班再裝病離職

拆遷款1700萬,我剛想辭職,老爸:財不外說,先上班再裝病離職

罪案洞察者
2025-11-27 10:48:33
哪一刻意識到自己沒見過世面?網(wǎng)友:從此再沒喝過茶

哪一刻意識到自己沒見過世面?網(wǎng)友:從此再沒喝過茶

另子維愛讀史
2025-12-13 21:53:50
“跳梁小丑”李玉剛跌落神壇,不再被世界寬容,他究竟做了什么

“跳梁小丑”李玉剛跌落神壇,不再被世界寬容,他究竟做了什么

小熊侃史
2025-12-19 11:03:12
26歲妻子猥褻12歲侄子,丈夫:希望追究她的刑事責(zé)任

26歲妻子猥褻12歲侄子,丈夫:希望追究她的刑事責(zé)任

揚(yáng)子晚報
2025-12-20 10:17:28
連場轟20+!中國女籃26歲2米王牌閃耀:升聯(lián)盟第2,宮帥招她嗎?

連場轟20+!中國女籃26歲2米王牌閃耀:升聯(lián)盟第2,宮帥招她嗎?

李喜林籃球絕殺
2025-12-20 16:09:28
給《老舅》演技最好10位演員排個名:郭京飛僅第2,第1沒有爭議

給《老舅》演技最好10位演員排個名:郭京飛僅第2,第1沒有爭議

小丸子的娛樂圈
2025-12-20 17:25:37
童瑤胸貼露出來了

童瑤胸貼露出來了

手工制作阿殲
2025-12-15 12:20:21
每天散步能降血糖?哈工大發(fā)現(xiàn):控糖有7個"最好方法",不是散步

每天散步能降血糖?哈工大發(fā)現(xiàn):控糖有7個"最好方法",不是散步

健康之光
2025-12-19 15:50:06
2025-12-21 01:07:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142515關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時刻"還未到來

頭條要聞

印度官員:若"臺灣有事" 印度不太可能像西方那樣回應(yīng)

頭條要聞

印度官員:若"臺灣有事" 印度不太可能像西方那樣回應(yīng)

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會陣容曝光,豪華陣仗

財經(jīng)要聞

求解“地方財政困難”

汽車要聞

嵐圖推進(jìn)L3量產(chǎn)測試 已完成11萬公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

手機(jī)
數(shù)碼
游戲
公開課
軍事航空

手機(jī)要聞

vivo X200T再曝,天璣 9400+芯片加持

數(shù)碼要聞

50歲了!長虹第一臺彩電入駐中國國家博物館

新勞拉·克勞馥演員回憶《完美黑暗》項(xiàng)目取消經(jīng)歷

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

澤連斯基:前線局勢愈發(fā)艱難

無障礙瀏覽 進(jìn)入關(guān)懷版