国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

天下苦CUDA久矣,又一國(guó)產(chǎn)方案上桌了

0
分享至

允中 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

國(guó)產(chǎn)算力基建跑了這么多年,大家最關(guān)心的邏輯一直沒(méi)變:芯片夠不夠多?

但對(duì)開(kāi)發(fā)者來(lái)說(shuō),真正扎心的問(wèn)題其實(shí)是:好不好使?

如果把AI開(kāi)發(fā)比作做飯,現(xiàn)在的尷尬是——

國(guó)產(chǎn)鍋(硬件)雖然越來(lái)越多了,但大部分大廚還是只習(xí)慣用那套進(jìn)口調(diào)料包(生態(tài))

這正是當(dāng)下AI落地最真實(shí)的一幕。

模型層繁花似錦,底層卻隱憂重重。大家在參數(shù)規(guī)模上輪番刷新紀(jì)錄,回過(guò)頭來(lái)卻發(fā)現(xiàn),最難擺脫的還是那套已經(jīng)長(zhǎng)進(jìn)骨子里的開(kāi)發(fā)流程。


△圖片由AI生成

算力只是敲門(mén)磚,真正的勝負(fù)手,是那段算法與硬件之間的“翻譯權(quán)”

說(shuō)白了,如果拿不到這支“翻譯筆”,再?gòu)?qiáng)悍的國(guó)產(chǎn)硬件,也只能像是一座無(wú)法與外界溝通的孤島。

終于,那個(gè)讓開(kāi)發(fā)者喊了無(wú)數(shù)次“天下苦CUDA久矣”的僵局,現(xiàn)在迎來(lái)了一個(gè)不一樣的國(guó)產(chǎn)答案

KernelCAT:計(jì)算加速專家級(jí)別的Agent

這幾年,AI領(lǐng)域的熱鬧幾乎是肉眼可見(jiàn)的。

模型在密集發(fā)布,應(yīng)用數(shù)據(jù)持續(xù)走高,看上去一切都在加速向前。

但在工程現(xiàn)場(chǎng),感受卻更復(fù)雜。

真正制約落地效率的,并不是模型能力本身,而是底層軟件生態(tài)的成熟度。

硬件選擇一多,問(wèn)題反而集中暴露出來(lái):遷移成本高,適配周期長(zhǎng),性能釋放不穩(wěn)定。很多模型即便具備條件切換算力平臺(tái),最終也會(huì)被算子支持和工具鏈完整度擋在門(mén)外。

這讓一個(gè)事實(shí)變得越來(lái)越清晰——突破口不在堆更多算力,而在打通算法到硬件之間那段最容易被忽視的工程鏈路,把芯片的理論性能真正轉(zhuǎn)化為可用性能。

其中最關(guān)鍵的一環(huán),正是高性能算子的開(kāi)發(fā)

算子(Kernel),是連接AI算法與計(jì)算芯片的“翻譯官”:它將算法轉(zhuǎn)化為硬件可執(zhí)行的指令,決定了AI模型的推理速度、能耗與兼容性。

算子開(kāi)發(fā)可以被理解為內(nèi)核級(jí)別的編程工作,目前行業(yè)仍停留在“手工作坊”時(shí)代——開(kāi)發(fā)過(guò)程極度依賴頂尖工程師的經(jīng)驗(yàn)與反復(fù)試錯(cuò),周期動(dòng)輒數(shù)月,性能調(diào)優(yōu)如同在迷霧中摸索。

若把開(kāi)發(fā)大模型應(yīng)用比作“在精裝修的樣板間里擺放家具”,那么編寫(xiě)底層算子的難度,無(wú)異于“在深海中戴著沉重的手銬,徒手組裝一塊精密機(jī)械表”。

但如果,讓AI來(lái)開(kāi)發(fā)算子呢?

傳統(tǒng)大模型或知識(shí)增強(qiáng)型Agent在此類(lèi)任務(wù)面前往往力不從心。因?yàn)樗鼈兩瞄L(zhǎng)模式匹配,卻難以理解復(fù)雜計(jì)算任務(wù)中的物理約束、內(nèi)存布局與并行調(diào)度邏輯。

唯有超越經(jīng)驗(yàn)式推理,深入建模問(wèn)題本質(zhì),才能實(shí)現(xiàn)真正的“智能級(jí)”優(yōu)化。

正是在這一“地獄級(jí)”技術(shù)挑戰(zhàn)下,KernelCAT應(yīng)運(yùn)而生。


△終端版

具體來(lái)看,KernelCAT是一款本地運(yùn)行的AI Agent,它不僅是深耕算子開(kāi)發(fā)和模型遷移的“計(jì)算加速專家”,也能夠勝任日常通用的全棧開(kāi)發(fā)任務(wù),提供了CLI終端命令行版與簡(jiǎn)潔桌面版兩種形態(tài)供開(kāi)發(fā)者使用。

不同于僅聚焦特定任務(wù)的工具型Agent,KernelCAT具備扎實(shí)的通用編程能力——不僅能理解、生成和優(yōu)化內(nèi)核級(jí)別代碼,也能處理常規(guī)軟件工程任務(wù),如環(huán)境配置、依賴管理、錯(cuò)誤診斷與腳本編寫(xiě),從而在復(fù)雜場(chǎng)景中實(shí)現(xiàn)端到端自主閉環(huán)。


△桌面版

為國(guó)產(chǎn)芯片生態(tài)寫(xiě)高性能算子

在算子開(kāi)發(fā)中,有一類(lèi)問(wèn)題很像“調(diào)參”——面對(duì)幾十上百種參數(shù)或策略組合,工程師需要找出讓算子跑得最快的那一組配置。

傳統(tǒng)做法靠經(jīng)驗(yàn)試錯(cuò),費(fèi)時(shí)費(fèi)力,而且還容易踩坑。

KernelCAT的思路是——引入運(yùn)籌優(yōu)化,把“找最優(yōu)參數(shù)”這件事交給算法,讓算法去探索調(diào)優(yōu)空間并收斂到最佳方案

以昇騰芯片上的FlashAttentionScore算子為例,KernelCAT在昇騰官方示例代碼上,可以自動(dòng)對(duì)該算子的分塊參數(shù)調(diào)優(yōu)問(wèn)題進(jìn)行運(yùn)籌學(xué)建模,并使用數(shù)學(xué)優(yōu)化算法求解,在十幾輪迭代后就鎖定了最優(yōu)配置,在多種輸入尺寸下延遲降低最高可達(dá)22%,吞吐量提升最高近30%,而且整個(gè)過(guò)程無(wú)需人工干預(yù)。

這正是KernelCAT的獨(dú)特之處:它不僅具備大模型的智能,能夠理解代碼、生成方案;還擁有運(yùn)籌優(yōu)化算法的嚴(yán)謹(jǐn),能夠系統(tǒng)搜索并收斂到最優(yōu)解。

智能與算法的結(jié)合,讓算子調(diào)優(yōu)既靈活,又有交付保障。

在對(duì)KernelCAT的另一場(chǎng)測(cè)試中,該團(tuán)隊(duì)選取了7個(gè)不同規(guī)模的向量加法任務(wù),測(cè)試目標(biāo)明確——

即在華為昇騰平臺(tái)上,直接對(duì)比華為開(kāi)源算子、“黑盒”封裝的商業(yè)化算子與KernelCAT自研算子實(shí)現(xiàn)的執(zhí)行效率。

結(jié)果同樣令人振奮,在這個(gè)案例的7個(gè)測(cè)試規(guī)模中,KernelCAT給出的算子版本性能均取得領(lǐng)先優(yōu)勢(shì),且任務(wù)完成僅用時(shí)10分鐘

這意味著,即便面對(duì)經(jīng)過(guò)商業(yè)級(jí)調(diào)優(yōu)的閉源實(shí)現(xiàn),KernelCAT所采用的優(yōu)化方式仍具備一定競(jìng)爭(zhēng)力。



這不僅是數(shù)值層面的勝利,更是國(guó)產(chǎn)AI Agent在算子領(lǐng)域完成的一次自證。

沒(méi)有堅(jiān)不可破的生態(tài),包括CUDA

全球范圍內(nèi),目前超過(guò)90%的重要AI訓(xùn)練任務(wù)運(yùn)行于英偉達(dá)GPU之上,推理占比亦達(dá)80%以上;其開(kāi)發(fā)者生態(tài)覆蓋超590萬(wàn)用戶,算子庫(kù)規(guī)模逾400個(gè),深度嵌入90%頂級(jí)AI學(xué)術(shù)論文的實(shí)現(xiàn)流程。

黃仁勛曾言:

  • 我們創(chuàng)立英偉達(dá),是為了加速軟件,芯片設(shè)計(jì)反而是次要的。

這句話揭示了一個(gè)關(guān)鍵真相:在現(xiàn)代計(jì)算體系中,軟件才是真正的護(hù)城河。

英偉達(dá)的持續(xù)領(lǐng)先,源于其從底層算法出發(fā)、貫通架構(gòu)與編程模型的全棧掌控能力。

參考AMD的歷史經(jīng)驗(yàn),即使在架構(gòu)與制程上具備充足的競(jìng)爭(zhēng)力,缺乏成熟的生態(tài)系統(tǒng)也仍然難以撼動(dòng)英偉達(dá)的地位。

這類(lèi)案例清晰地表明,模型性能并不簡(jiǎn)單等價(jià)于算力規(guī)模的堆疊,而是取決于算法設(shè)計(jì)、算子實(shí)現(xiàn)與硬件特性的協(xié)同程度。當(dāng)算子足夠成熟,硬件潛力才能被真正釋放。

沿著這條思路,KernelCAT團(tuán)隊(duì)圍繞模型在本土算力平臺(tái)上的高效遷移,進(jìn)行了系統(tǒng)性的工程探索。

DeepSeek-OCR-2模型在華為昇騰910B2 NPU上的部署為例,KernelCAT展示了一種全新的工作范式:

  • 對(duì)抗“版本地獄”:KernelCAT對(duì)任務(wù)目標(biāo)和限制條件有著深度理解,基于DeepSeek-OCR-2官方的CUDA實(shí)現(xiàn),通過(guò)精準(zhǔn)的依賴識(shí)別和補(bǔ)丁注入,解決了vLLM、torch和torch_npu的各個(gè)依賴庫(kù)間版本互鎖的三角矛盾,硬生生從零搭建起了一套穩(wěn)定的生產(chǎn)環(huán)境,結(jié)合基礎(chǔ)Docker鏡像即可實(shí)現(xiàn)模型的開(kāi)箱即用。
  • 準(zhǔn)確修補(bǔ):它敏銳地識(shí)別出原版vLLM的MOE層依賴CUDA專有的操作,和vllm-ascend提供的Ascend原生MOE實(shí)現(xiàn),并果斷通過(guò)插件包進(jìn)行調(diào)用替換,讓模型在國(guó)產(chǎn)芯片上“說(shuō)上了母語(yǔ)”。
  • 實(shí)現(xiàn)35倍加速:在引入vllm-ascend原生MOE實(shí)現(xiàn)補(bǔ)丁后,vLLM在高并發(fā)下的吞吐量飆升至550.45toks/s,相比Transformers方案實(shí)現(xiàn)了35倍加速,且在繼續(xù)優(yōu)化中。
  • 無(wú)需人工大量介入:在這種復(fù)雜任務(wù)目標(biāo)下,KernelCAT可以自己規(guī)劃和完成任務(wù),無(wú)需研發(fā)提供大量提示詞指導(dǎo)模型工作。

這意味著,原本需要頂尖工程師團(tuán)隊(duì)花費(fèi)數(shù)周才能完成進(jìn)行的適配工作,現(xiàn)在可以縮短至小時(shí)級(jí)(包含模型下載、環(huán)境構(gòu)建的時(shí)間)。

與此同時(shí),它讓國(guó)產(chǎn)芯片從“能跑”到“飛起”,實(shí)現(xiàn)了35倍的加速

也就是說(shuō),KernelCAT讓國(guó)產(chǎn)芯片不再是被“封印”的算力廢鐵,而是可以通過(guò)深度工程優(yōu)化,承載頂級(jí)多模態(tài)模型推理任務(wù)的性能引擎。



“天下苦CUDA久矣”——這句話曾是無(wú)奈的自嘲,如今正成為行動(dòng)的號(hào)角。

KernelCAT所代表的,不只是一個(gè)AI Agent新范式的出現(xiàn),更是一種底層能力建設(shè)方式的轉(zhuǎn)向:

從依賴既有生態(tài),到構(gòu)建能夠自我演進(jìn)的計(jì)算基礎(chǔ)。

KernelCAT正限時(shí)免費(fèi)內(nèi)測(cè)中,歡迎體驗(yàn):
https://kernelcat.cn/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

月滿大江流
2026-04-16 13:54:38
斯諾克最新戰(zhàn)報(bào)!希金斯8-8戰(zhàn)平墨菲,吳宜澤有望擴(kuò)大領(lǐng)先優(yōu)勢(shì)

斯諾克最新戰(zhàn)報(bào)!希金斯8-8戰(zhàn)平墨菲,吳宜澤有望擴(kuò)大領(lǐng)先優(yōu)勢(shì)

郝小小看體育
2026-05-01 20:53:32
iPhone Ultra售價(jià)曝光,14999元起!

iPhone Ultra售價(jià)曝光,14999元起!

劉奔跑
2026-05-01 23:31:55
格拉利什恢復(fù)訓(xùn)練大秀六塊腹肌,前兩天還被拍到醉酒昏睡

格拉利什恢復(fù)訓(xùn)練大秀六塊腹肌,前兩天還被拍到醉酒昏睡

懂球帝
2026-05-01 11:39:06
蘋(píng)果配陳皮太厲害!老中醫(yī)用一輩子,省錢(qián)又實(shí)用

蘋(píng)果配陳皮太厲害!老中醫(yī)用一輩子,省錢(qián)又實(shí)用

開(kāi)心美食白科
2026-04-08 21:25:15
基因鐵證撕碎韓國(guó)純血神話!他們真正的老祖宗曝光,竟是一路殺光半島土著的東南亞狠人

基因鐵證撕碎韓國(guó)純血神話!他們真正的老祖宗曝光,竟是一路殺光半島土著的東南亞狠人

寄史言志
2026-04-30 18:39:55
上海市中心又有大規(guī)模動(dòng)遷,兩大小區(qū)總算輪到動(dòng)遷

上海市中心又有大規(guī)模動(dòng)遷,兩大小區(qū)總算輪到動(dòng)遷

愛(ài)看劇的阿峰
2026-05-02 00:15:59
世錦賽:觀眾不斷起哄,裁判介入,艾倫被逼破僵局!吳宜澤險(xiǎn)勝

世錦賽:觀眾不斷起哄,裁判介入,艾倫被逼破僵局!吳宜澤險(xiǎn)勝

呀古銅
2026-05-02 02:08:43
首個(gè)退群北約的國(guó)家來(lái)了:已走程序,退意已決!

首個(gè)退群北約的國(guó)家來(lái)了:已走程序,退意已決!

福建睿平
2026-04-27 11:46:08
臺(tái)灣解決方案曝光:臺(tái)軍轉(zhuǎn)民、解放軍進(jìn)駐、一國(guó)兩制,讓?shí)u內(nèi)穩(wěn)定

臺(tái)灣解決方案曝光:臺(tái)軍轉(zhuǎn)民、解放軍進(jìn)駐、一國(guó)兩制,讓?shí)u內(nèi)穩(wěn)定

阿七說(shuō)史
2026-05-01 05:00:04
泡溫泉遇見(jiàn)美女鄰居出軌,晚上她來(lái)到我家:替我保守秘密,好嗎?

泡溫泉遇見(jiàn)美女鄰居出軌,晚上她來(lái)到我家:替我保守秘密,好嗎?

千秋文化
2026-04-26 20:22:47
扎哈羅娃:俄羅斯與基輔政權(quán)不同 不會(huì)將戰(zhàn)士投入到毫無(wú)意義的強(qiáng)攻中

扎哈羅娃:俄羅斯與基輔政權(quán)不同 不會(huì)將戰(zhàn)士投入到毫無(wú)意義的強(qiáng)攻中

俄羅斯衛(wèi)星通訊社
2026-05-01 15:20:54
舉報(bào)抽煙的沈女士為何翻車(chē)?因?yàn)樗戎?,網(wǎng)友們最討厭的1個(gè)雷區(qū)

舉報(bào)抽煙的沈女士為何翻車(chē)?因?yàn)樗戎?,網(wǎng)友們最討厭的1個(gè)雷區(qū)

觀察鑒娛
2026-05-01 08:51:07
33歲章澤天風(fēng)格大變!穿艷俗紗裙、副乳突出,比實(shí)際年齡成熟10歲

33歲章澤天風(fēng)格大變!穿艷俗紗裙、副乳突出,比實(shí)際年齡成熟10歲

阿訊說(shuō)天下
2026-04-18 14:53:39
去城里的姑父家拜年,姑姑讓我滾,后來(lái)她從新聞上看到我任命縣長(zhǎng)

去城里的姑父家拜年,姑姑讓我滾,后來(lái)她從新聞上看到我任命縣長(zhǎng)

千秋文化
2026-04-30 18:46:59
倫敦世乒賽剛開(kāi)打!孫穎莎直接攤牌:眼下兩大難題,真的扛不住了

倫敦世乒賽剛開(kāi)打!孫穎莎直接攤牌:眼下兩大難題,真的扛不住了

劉哥談體育
2026-05-02 01:19:18
東風(fēng)導(dǎo)彈泄密案!間諜郭萬(wàn)鈞一家三口,全部被處以死刑

東風(fēng)導(dǎo)彈泄密案!間諜郭萬(wàn)鈞一家三口,全部被處以死刑

番外行
2026-03-31 08:28:28
從 15 億到 1 億!五一檔票房大跌,《寒戰(zhàn) 1994》難挽市場(chǎng)頹勢(shì)

從 15 億到 1 億!五一檔票房大跌,《寒戰(zhàn) 1994》難挽市場(chǎng)頹勢(shì)

隨性的海浪
2026-05-01 16:10:18
世錦賽戰(zhàn)報(bào):組合球一炮雙響,希金斯三度反超被扳平了8-8墨菲

世錦賽戰(zhàn)報(bào):組合球一炮雙響,希金斯三度反超被扳平了8-8墨菲

求球不落諦
2026-05-01 20:32:05
太炸裂!武漢樓市要變天!“漢七條”連夜出臺(tái),快準(zhǔn)狠,力度空前

太炸裂!武漢樓市要變天!“漢七條”連夜出臺(tái),快準(zhǔn)狠,力度空前

火山詩(shī)話
2026-05-01 11:42:00
2026-05-02 04:04:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12567文章數(shù) 176459關(guān)注度
往期回顧 全部

科技要聞

DeepSeek發(fā)布多模態(tài)論文又連夜刪除

頭條要聞

伊朗未爆彈藥爆炸 致革命衛(wèi)隊(duì)14人死亡

頭條要聞

伊朗未爆彈藥爆炸 致革命衛(wèi)隊(duì)14人死亡

體育要聞

無(wú)奈!約基奇:這要在塞爾維亞 全隊(duì)早被炒了

娛樂(lè)要聞

馬筱梅產(chǎn)后身材恢復(fù)超好 現(xiàn)身戶外直播

財(cái)經(jīng)要聞

GPU神話松動(dòng),AI真正的戰(zhàn)場(chǎng)變了

汽車(chē)要聞

限時(shí)9.67萬(wàn)起 吉利星越L/星瑞i-HEV智擎混動(dòng)上市

態(tài)度原創(chuàng)

本地
家居
游戲
教育
旅游

本地新聞

用青花瓷的方式,打開(kāi)西溪濕地

家居要聞

靈動(dòng)實(shí)用 生活藝術(shù)場(chǎng)

PS玩家團(tuán)結(jié)起來(lái)!請(qǐng)?jiān)笍?fù)活第一方3A 耗時(shí)7年卻被取消

教育要聞

高考作文遇見(jiàn)反躺平:提倡奮斗,反對(duì)躺平

旅游要聞

一張票根全年玩轉(zhuǎn)寶山!今日起,持郵輪登船證享全城超值優(yōu)惠

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版