国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

天下苦CUDA久矣,又一國(guó)產(chǎn)方案上桌了

0
分享至

允中 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

國(guó)產(chǎn)算力基建跑了這么多年,大家最關(guān)心的邏輯一直沒變:芯片夠不夠多?

但對(duì)開發(fā)者來說,真正扎心的問題其實(shí)是:好不好使?

如果把AI開發(fā)比作做飯,現(xiàn)在的尷尬是——

國(guó)產(chǎn)鍋(硬件)雖然越來越多了,但大部分大廚還是只習(xí)慣用那套進(jìn)口調(diào)料包(生態(tài))

這正是當(dāng)下AI落地最真實(shí)的一幕。

模型層繁花似錦,底層卻隱憂重重。大家在參數(shù)規(guī)模上輪番刷新紀(jì)錄,回過頭來卻發(fā)現(xiàn),最難擺脫的還是那套已經(jīng)長(zhǎng)進(jìn)骨子里的開發(fā)流程。


△圖片由AI生成

算力只是敲門磚,真正的勝負(fù)手,是那段算法與硬件之間的“翻譯權(quán)”

說白了,如果拿不到這支“翻譯筆”,再強(qiáng)悍的國(guó)產(chǎn)硬件,也只能像是一座無法與外界溝通的孤島。

終于,那個(gè)讓開發(fā)者喊了無數(shù)次“天下苦CUDA久矣”的僵局,現(xiàn)在迎來了一個(gè)不一樣的國(guó)產(chǎn)答案

KernelCAT:計(jì)算加速專家級(jí)別的Agent

這幾年,AI領(lǐng)域的熱鬧幾乎是肉眼可見的。

模型在密集發(fā)布,應(yīng)用數(shù)據(jù)持續(xù)走高,看上去一切都在加速向前。

但在工程現(xiàn)場(chǎng),感受卻更復(fù)雜。

真正制約落地效率的,并不是模型能力本身,而是底層軟件生態(tài)的成熟度。

硬件選擇一多,問題反而集中暴露出來:遷移成本高,適配周期長(zhǎng),性能釋放不穩(wěn)定。很多模型即便具備條件切換算力平臺(tái),最終也會(huì)被算子支持和工具鏈完整度擋在門外。

這讓一個(gè)事實(shí)變得越來越清晰——突破口不在堆更多算力,而在打通算法到硬件之間那段最容易被忽視的工程鏈路,把芯片的理論性能真正轉(zhuǎn)化為可用性能。

其中最關(guān)鍵的一環(huán),正是高性能算子的開發(fā)

算子(Kernel),是連接AI算法與計(jì)算芯片的“翻譯官”:它將算法轉(zhuǎn)化為硬件可執(zhí)行的指令,決定了AI模型的推理速度、能耗與兼容性。

算子開發(fā)可以被理解為內(nèi)核級(jí)別的編程工作,目前行業(yè)仍停留在“手工作坊”時(shí)代——開發(fā)過程極度依賴頂尖工程師的經(jīng)驗(yàn)與反復(fù)試錯(cuò),周期動(dòng)輒數(shù)月,性能調(diào)優(yōu)如同在迷霧中摸索。

若把開發(fā)大模型應(yīng)用比作“在精裝修的樣板間里擺放家具”,那么編寫底層算子的難度,無異于“在深海中戴著沉重的手銬,徒手組裝一塊精密機(jī)械表”。

但如果,讓AI來開發(fā)算子呢?

傳統(tǒng)大模型或知識(shí)增強(qiáng)型Agent在此類任務(wù)面前往往力不從心。因?yàn)樗鼈兩瞄L(zhǎng)模式匹配,卻難以理解復(fù)雜計(jì)算任務(wù)中的物理約束、內(nèi)存布局與并行調(diào)度邏輯。

唯有超越經(jīng)驗(yàn)式推理,深入建模問題本質(zhì),才能實(shí)現(xiàn)真正的“智能級(jí)”優(yōu)化。

正是在這一“地獄級(jí)”技術(shù)挑戰(zhàn)下,KernelCAT應(yīng)運(yùn)而生。


△終端版

具體來看,KernelCAT是一款本地運(yùn)行的AI Agent,它不僅是深耕算子開發(fā)和模型遷移的“計(jì)算加速專家”,也能夠勝任日常通用的全棧開發(fā)任務(wù),提供了CLI終端命令行版與簡(jiǎn)潔桌面版兩種形態(tài)供開發(fā)者使用。

不同于僅聚焦特定任務(wù)的工具型Agent,KernelCAT具備扎實(shí)的通用編程能力——不僅能理解、生成和優(yōu)化內(nèi)核級(jí)別代碼,也能處理常規(guī)軟件工程任務(wù),如環(huán)境配置、依賴管理、錯(cuò)誤診斷與腳本編寫,從而在復(fù)雜場(chǎng)景中實(shí)現(xiàn)端到端自主閉環(huán)。


△桌面版

為國(guó)產(chǎn)芯片生態(tài)寫高性能算子

在算子開發(fā)中,有一類問題很像“調(diào)參”——面對(duì)幾十上百種參數(shù)或策略組合,工程師需要找出讓算子跑得最快的那一組配置。

傳統(tǒng)做法靠經(jīng)驗(yàn)試錯(cuò),費(fèi)時(shí)費(fèi)力,而且還容易踩坑。

KernelCAT的思路是——引入運(yùn)籌優(yōu)化,把“找最優(yōu)參數(shù)”這件事交給算法,讓算法去探索調(diào)優(yōu)空間并收斂到最佳方案

以昇騰芯片上的FlashAttentionScore算子為例,KernelCAT在昇騰官方示例代碼上,可以自動(dòng)對(duì)該算子的分塊參數(shù)調(diào)優(yōu)問題進(jìn)行運(yùn)籌學(xué)建模,并使用數(shù)學(xué)優(yōu)化算法求解,在十幾輪迭代后就鎖定了最優(yōu)配置,在多種輸入尺寸下延遲降低最高可達(dá)22%,吞吐量提升最高近30%,而且整個(gè)過程無需人工干預(yù)。

這正是KernelCAT的獨(dú)特之處:它不僅具備大模型的智能,能夠理解代碼、生成方案;還擁有運(yùn)籌優(yōu)化算法的嚴(yán)謹(jǐn),能夠系統(tǒng)搜索并收斂到最優(yōu)解。

智能與算法的結(jié)合,讓算子調(diào)優(yōu)既靈活,又有交付保障。

在對(duì)KernelCAT的另一場(chǎng)測(cè)試中,該團(tuán)隊(duì)選取了7個(gè)不同規(guī)模的向量加法任務(wù),測(cè)試目標(biāo)明確——

即在華為昇騰平臺(tái)上,直接對(duì)比華為開源算子、“黑盒”封裝的商業(yè)化算子與KernelCAT自研算子實(shí)現(xiàn)的執(zhí)行效率。

結(jié)果同樣令人振奮,在這個(gè)案例的7個(gè)測(cè)試規(guī)模中,KernelCAT給出的算子版本性能均取得領(lǐng)先優(yōu)勢(shì),且任務(wù)完成僅用時(shí)10分鐘

這意味著,即便面對(duì)經(jīng)過商業(yè)級(jí)調(diào)優(yōu)的閉源實(shí)現(xiàn),KernelCAT所采用的優(yōu)化方式仍具備一定競(jìng)爭(zhēng)力。



這不僅是數(shù)值層面的勝利,更是國(guó)產(chǎn)AI Agent在算子領(lǐng)域完成的一次自證。

沒有堅(jiān)不可破的生態(tài),包括CUDA

全球范圍內(nèi),目前超過90%的重要AI訓(xùn)練任務(wù)運(yùn)行于英偉達(dá)GPU之上,推理占比亦達(dá)80%以上;其開發(fā)者生態(tài)覆蓋超590萬用戶,算子庫規(guī)模逾400個(gè),深度嵌入90%頂級(jí)AI學(xué)術(shù)論文的實(shí)現(xiàn)流程。

黃仁勛曾言:

  • 我們創(chuàng)立英偉達(dá),是為了加速軟件,芯片設(shè)計(jì)反而是次要的。

這句話揭示了一個(gè)關(guān)鍵真相:在現(xiàn)代計(jì)算體系中,軟件才是真正的護(hù)城河。

英偉達(dá)的持續(xù)領(lǐng)先,源于其從底層算法出發(fā)、貫通架構(gòu)與編程模型的全棧掌控能力。

參考AMD的歷史經(jīng)驗(yàn),即使在架構(gòu)與制程上具備充足的競(jìng)爭(zhēng)力,缺乏成熟的生態(tài)系統(tǒng)也仍然難以撼動(dòng)英偉達(dá)的地位。

這類案例清晰地表明,模型性能并不簡(jiǎn)單等價(jià)于算力規(guī)模的堆疊,而是取決于算法設(shè)計(jì)、算子實(shí)現(xiàn)與硬件特性的協(xié)同程度。當(dāng)算子足夠成熟,硬件潛力才能被真正釋放。

沿著這條思路,KernelCAT團(tuán)隊(duì)圍繞模型在本土算力平臺(tái)上的高效遷移,進(jìn)行了系統(tǒng)性的工程探索。

DeepSeek-OCR-2模型在華為昇騰910B2 NPU上的部署為例,KernelCAT展示了一種全新的工作范式:

  • 對(duì)抗“版本地獄”:KernelCAT對(duì)任務(wù)目標(biāo)和限制條件有著深度理解,基于DeepSeek-OCR-2官方的CUDA實(shí)現(xiàn),通過精準(zhǔn)的依賴識(shí)別和補(bǔ)丁注入,解決了vLLM、torch和torch_npu的各個(gè)依賴庫間版本互鎖的三角矛盾,硬生生從零搭建起了一套穩(wěn)定的生產(chǎn)環(huán)境,結(jié)合基礎(chǔ)Docker鏡像即可實(shí)現(xiàn)模型的開箱即用。
  • 準(zhǔn)確修補(bǔ):它敏銳地識(shí)別出原版vLLM的MOE層依賴CUDA專有的操作,和vllm-ascend提供的Ascend原生MOE實(shí)現(xiàn),并果斷通過插件包進(jìn)行調(diào)用替換,讓模型在國(guó)產(chǎn)芯片上“說上了母語”。
  • 實(shí)現(xiàn)35倍加速:在引入vllm-ascend原生MOE實(shí)現(xiàn)補(bǔ)丁后,vLLM在高并發(fā)下的吞吐量飆升至550.45toks/s,相比Transformers方案實(shí)現(xiàn)了35倍加速,且在繼續(xù)優(yōu)化中。
  • 無需人工大量介入:在這種復(fù)雜任務(wù)目標(biāo)下,KernelCAT可以自己規(guī)劃和完成任務(wù),無需研發(fā)提供大量提示詞指導(dǎo)模型工作。

這意味著,原本需要頂尖工程師團(tuán)隊(duì)花費(fèi)數(shù)周才能完成進(jìn)行的適配工作,現(xiàn)在可以縮短至小時(shí)級(jí)(包含模型下載、環(huán)境構(gòu)建的時(shí)間)。

與此同時(shí),它讓國(guó)產(chǎn)芯片從“能跑”到“飛起”,實(shí)現(xiàn)了35倍的加速

也就是說,KernelCAT讓國(guó)產(chǎn)芯片不再是被“封印”的算力廢鐵,而是可以通過深度工程優(yōu)化,承載頂級(jí)多模態(tài)模型推理任務(wù)的性能引擎。



“天下苦CUDA久矣”——這句話曾是無奈的自嘲,如今正成為行動(dòng)的號(hào)角。

KernelCAT所代表的,不只是一個(gè)AI Agent新范式的出現(xiàn),更是一種底層能力建設(shè)方式的轉(zhuǎn)向:

從依賴既有生態(tài),到構(gòu)建能夠自我演進(jìn)的計(jì)算基礎(chǔ)。

KernelCAT正限時(shí)免費(fèi)內(nèi)測(cè)中,歡迎體驗(yàn):
https://kernelcat.cn/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
白銀全球暴跌!發(fā)生了什么?

白銀全球暴跌!發(fā)生了什么?

格隆匯
2026-01-30 20:38:56
谷愛凌不再回避!坦言“世界不會(huì)原諒我了”,徹底走上朱婷的老路

谷愛凌不再回避!坦言“世界不會(huì)原諒我了”,徹底走上朱婷的老路

有范又有料
2026-01-29 16:02:11
吳越國(guó)君:錢弘佐20歲去世,錢弘倧當(dāng)王9個(gè)月,錢弘俶幸運(yùn)又悲哀

吳越國(guó)君:錢弘佐20歲去世,錢弘倧當(dāng)王9個(gè)月,錢弘俶幸運(yùn)又悲哀

容妃
2026-01-30 11:15:24
逆天,公司發(fā)布通知:加班期間禁止猝死,違者罰款500元!

逆天,公司發(fā)布通知:加班期間禁止猝死,違者罰款500元!

黯泉
2026-01-30 22:50:02
劉強(qiáng)東母親讓人淚目,她和奶茶妹妹根本就不是同一個(gè)世界的人!

劉強(qiáng)東母親讓人淚目,她和奶茶妹妹根本就不是同一個(gè)世界的人!

小娛樂悠悠
2026-01-30 08:58:00
伊能靜真人又矮又胖,臀部好寬大

伊能靜真人又矮又胖,臀部好寬大

TVB的四小花
2026-01-07 01:18:53
萊萬妻子:這是我丈夫在巴薩的最后一個(gè)賽季,希望大家記得他

萊萬妻子:這是我丈夫在巴薩的最后一個(gè)賽季,希望大家記得他

懂球帝
2026-01-30 21:35:06
莫里斯直言不諱地批評(píng)了湖人隊(duì)克內(nèi)希特的交易請(qǐng)求:他傲慢得要死

莫里斯直言不諱地批評(píng)了湖人隊(duì)克內(nèi)希特的交易請(qǐng)求:他傲慢得要死

好火子
2026-01-30 05:47:49
蔣介石孫子被抓進(jìn)警察局,警察:家長(zhǎng)姓甚名誰?他指了墻上的照片

蔣介石孫子被抓進(jìn)警察局,警察:家長(zhǎng)姓甚名誰?他指了墻上的照片

浩渺青史
2026-01-29 20:17:57
北京奧運(yùn)會(huì)冠軍陳燮霞:靠作弊獲得金牌,被查后如今銷聲匿跡

北京奧運(yùn)會(huì)冠軍陳燮霞:靠作弊獲得金牌,被查后如今銷聲匿跡

謝葥郵輪攝影
2026-01-26 15:23:05
Anthropic遭遇OpenAI貼身肉搏,上市路多了個(gè)坎

Anthropic遭遇OpenAI貼身肉搏,上市路多了個(gè)坎

字母榜
2026-01-29 17:16:50
大齡剩女崩潰的瞬間是什么時(shí)候?網(wǎng)友:多年的舔狗突然結(jié)婚

大齡剩女崩潰的瞬間是什么時(shí)候?網(wǎng)友:多年的舔狗突然結(jié)婚

夜深愛雜談
2026-01-20 18:56:34
公公催我去銀行簽字,我:簽什么?丈夫:我表哥要你做共同還款人

公公催我去銀行簽字,我:簽什么?丈夫:我表哥要你做共同還款人

朝暮書屋
2026-01-21 17:07:25
8換2!9換1!字母哥交易方案出爐,他要簽4年2.75億美金超級(jí)頂薪

8換2!9換1!字母哥交易方案出爐,他要簽4年2.75億美金超級(jí)頂薪

世界體育圈
2026-01-30 16:15:41
王岳倫發(fā)文聲明,離譜了

王岳倫發(fā)文聲明,離譜了

聽風(fēng)聽你
2026-01-28 22:40:00
四川一校花太漂亮了,身高170五官精致,美得讓人移不開眼

四川一校花太漂亮了,身高170五官精致,美得讓人移不開眼

阿廢冷眼觀察所
2026-01-29 08:24:05
黃圣依也開始拍短劇了,她本人沒網(wǎng)上夸的那么年輕就是40歲的狀態(tài)

黃圣依也開始拍短劇了,她本人沒網(wǎng)上夸的那么年輕就是40歲的狀態(tài)

可樂談情感
2026-01-30 02:30:08
婚姻里的“哄”,是最高級(jí)的浪漫

婚姻里的“哄”,是最高級(jí)的浪漫

青蘋果sht
2025-12-27 05:12:18
外網(wǎng)網(wǎng)友太有才!這 P 圖簡(jiǎn)直是維多利亞 “本色出演”

外網(wǎng)網(wǎng)友太有才!這 P 圖簡(jiǎn)直是維多利亞 “本色出演”

述家娛記
2026-01-23 10:04:59
“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

妍妍教育日記
2026-01-27 19:58:28
2026-01-30 23:44:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12090文章數(shù) 176368關(guān)注度
往期回顧 全部

科技要聞

意念控制機(jī)器人不是科幻 1-2年就落地

頭條要聞

特朗普警告稱中英、中加合作是"危險(xiǎn)的" 外交部回應(yīng)

頭條要聞

特朗普警告稱中英、中加合作是"危險(xiǎn)的" 外交部回應(yīng)

體育要聞

“假賭黑”的子彈,還要再飛一會(huì)兒?jiǎn)幔?/h3>

娛樂要聞

警方通報(bào)金晨交通事故,否認(rèn)網(wǎng)傳騙保

財(cái)經(jīng)要聞

水貝驚雷:揭秘杰我睿百億黃金賭局的背后

汽車要聞

合資品牌首搭800V/5C快充 東風(fēng)日產(chǎn)NX8將于3、4月上市

態(tài)度原創(chuàng)

教育
本地
旅游
手機(jī)
公開課

教育要聞

China Heartbeats | Middle School Tug-of-War Ignite...

本地新聞

云游中國(guó)|撥開云霧,巫山每幀都是航拍大片

旅游要聞

免費(fèi)游園還有交通補(bǔ)貼,南京首批“青檸碼”受益者已沖進(jìn)景區(qū)

手機(jī)要聞

差200元!紅米Turbo 5與Max該怎么選?這4點(diǎn)核心差異看完不糾結(jié)!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版