国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

成本0.3美元,耗時26分鐘!CudaForge:顛覆性低成本CUDA優(yōu)化框架

0
分享至




本文作者包括明尼蘇達(dá)大學(xué)的張子健(共同第一作者),王嶸(共同第一作者),李世陽,羅越波,洪明毅,丁才文。

CUDA 代碼的性能對于當(dāng)今的模型訓(xùn)練與推理至關(guān)重要,然而手動編寫優(yōu)化 CUDA Kernel 需要很高的知識門檻和時間成本。與此同時,近年來 LLM 在 Code 領(lǐng)域獲得了諸多成功。這推動人們?nèi)ヌ剿魅绾卫?LLM 來編寫優(yōu)化 CUDA kernel。然而,現(xiàn)有的方法面臨諸多問題,例如高昂的訓(xùn)練與推理成本,不良的 kernel 性能,以及缺乏硬件反饋導(dǎo)致的盲目探索。

那么對于使用 LLM 進(jìn)行 CUDA 代碼生成,我們能不能設(shè)計(jì)一個簡單而有效的方法,使其能夠低成本地生成可靠高效的 CUDA kernel?

明尼蘇達(dá)大學(xué)的團(tuán)隊(duì)提出了一種新的方法——CudaForge。這是一種簡單、高效且低成本的多智能體 CUDA Kernel 生成與優(yōu)化工作流。該工作流受人類專家的實(shí)際開發(fā)流程啟發(fā),包含初始 Kernel 的編寫、正確性測試、硬件反饋分析以及迭代改進(jìn)等關(guān)鍵階段。

  • 論文標(biāo)題:CudaForge: An Agent Framework with Hardware Feedback for CUDA Kernel Optimization
  • 論文鏈接:https://arxiv.org/pdf/2511.01884
  • 代碼地址: https://github.com/OptimAI-Lab/CudaForge

實(shí)驗(yàn)結(jié)果表明,CudaForge 在 KernelBench Levels 1-3 上取得了 SOTA 的結(jié)果,超越了現(xiàn)有的所有方法。值得注意的是,通過 CudaForge 生成一個經(jīng)過優(yōu)化的 Kernel 在單張 RTX6000上僅需約26.5 分鐘,同時僅產(chǎn)生約0.3 美元的 API 調(diào)用成本!

CudaForge Workflow 介紹

正如人類專家所采用的開發(fā)方法,包括初始 Kernel 的編寫、正確性測試、硬件反饋分析以及迭代改進(jìn),我們將 CudaForge 設(shè)計(jì)為如上所示的迭代式優(yōu)化框架。

該框架包含兩個相互獨(dú)立的智能體:CoderJudge

Coder 根據(jù)任務(wù)描述以及來自 Judge 的反饋生成候選 CUDA kernel;而 Judge 則利用 kernel 本身、硬件反饋以及運(yùn)行時信息對每個候選進(jìn)行評估。

具體而言,給定一個 CUDA kernel 生成任務(wù),Coder 首先接收任務(wù)要求以及對應(yīng)的 PyTorch 參考實(shí)現(xiàn),然后生成一個初始的候選 kernel。該 kernel 將被編譯并在測試用例上執(zhí)行以驗(yàn)證其正確性。

如果測試失敗,Judge 會檢查運(yùn)行時信息(例如編譯錯誤、與 PyTorch 參考結(jié)果不一致的輸出),并分析該錯誤 kernel 的問題所在。隨后,Judge 會返回相應(yīng)的糾錯反饋(如缺少頭文件等),以指導(dǎo)下一輪生成。當(dāng)某個候選 kernel 通過了正確性測試后,Judge 會使用NCU工具對其進(jìn)行性能剖析,獲取NCU 性能指標(biāo)(如內(nèi)存帶寬、占用率、warp 效率等)。

結(jié)合 GPU 硬件規(guī)格,這些指標(biāo)構(gòu)成了用于識別主要性能瓶頸(如算力受限或帶寬受限)的硬件反饋,Judge 會進(jìn)一步基于此返回一個明確的優(yōu)化建議(如使用 shared memory)給 Coder。

在下一輪中,Coder 會同時接收上一輪的 kernel、Judge 的反饋以及原始任務(wù)需求,并生成新的、經(jīng)過修正或優(yōu)化的 kernel。該過程最多重復(fù)N輪,最終我們會從所有正確的候選結(jié)果中選擇效率最高的 kernel作為最終輸出。

在此,我們給出一個使用 CudaForge 進(jìn)行 Kernel 優(yōu)化的案例,并將其與Kevin-32B方法進(jìn)行對比:

這一對比進(jìn)一步凸顯出使用硬件反饋對于 Cuda 代碼優(yōu)化的重要意義。

具體來說,CudaForge通過以下三項(xiàng)關(guān)鍵設(shè)計(jì)顯著提升了 CUDA kernel 的生成與優(yōu)化能力:

雙智能體分工協(xié)作:CudaForge 采用Coder–Judge雙智能體架構(gòu),其中 Coder 專注于代碼生成,Judge 負(fù)責(zé)評估代碼并提供反饋,從而實(shí)現(xiàn)“認(rèn)知負(fù)載”的有效分離。

迭代式優(yōu)化流程:CudaForge 通過多輪迭代逐步糾錯與提速,使得 Kernel 能在每一輪中持續(xù)被改進(jìn),特別是在復(fù)雜任務(wù)中能夠獲得更加穩(wěn)定的優(yōu)化效果。

顯式引入硬件反饋:CudaForge 將GPU 規(guī)格NCU 性能指標(biāo)(如帶寬、占用率、Warp 效率)納入反饋,使 Judge 能精確定位瓶頸并提供可執(zhí)行的優(yōu)化指導(dǎo)

實(shí)驗(yàn)評估

我們在 KernelBench Levels 1-3 上評估了我們的模型,并與 Kevin-32B,OpenAI-o3 等模型進(jìn)行了比較。

在 RTX 6000 上的 KernelBench Levels 1–3 主要結(jié)果:

在我們的主要實(shí)驗(yàn)中,我們默認(rèn)將OpenAI-o3同時用作 Coder 與 Judge,并將最大迭代輪數(shù)設(shè)為N = 10,以在性能提升與推理成本之間取得平衡。

在 KernelBench 上,CudaForge 達(dá)到了 97.6% 的正確率,平均加速比為 1.677×,F(xiàn)ast1 比例為 70.8%,并且實(shí)現(xiàn)了1.107× 的中位數(shù)加速比1.592× 的 75 分位加速比。這些結(jié)果顯著優(yōu)于基礎(chǔ)模型 OpenAI-o3 與一系列消融變體(包括o3-self-refine、o3-correction、o3-optimization)。

與 Kevin-32B 在 H200 上的對比:

考慮到 Kevin-32B 是基于 H200 訓(xùn)練的 RL 模型,我們在 H200 上對比了 Kevin-32B 和 CudaForge。下圖展示了 CudaForge 與 Kevin-32B 在 KernelBench 上的正確性與性能表現(xiàn)對比。虛線表示 CudaForge 在 Level 1 和 Level 2 上的平均水平。

盡管CudaForge 不需要訓(xùn)練(training-free),它在KernelBench Level 1–2上的表現(xiàn)依然優(yōu)于Kevin-32B,并且在Level 3上也取得了極為出色的性能。

CudaForge 的 API 與計(jì)算時間成本分析

我們進(jìn)一步分析了 CudaForge 的性能與其 API 調(diào)用成本和計(jì)算時間之間的關(guān)系,如圖所示。隨著 API 成本與計(jì)算時間的增加,CudaForge 的性能呈單調(diào)提升趨勢。值得注意的是,即使在每個任務(wù)耗費(fèi)不超過 0.15 美元和 10 分鐘的情況下,CudaForge 也已經(jīng)能夠超越 Agentic 基線方法,這充分展示了其出色的性能-成本平衡能力。



基于 KernelBench,我們測評了 CudaForge 所需的時間和 API 成本,結(jié)果表明在 KernelBench Levels 1-3 所有任務(wù)上,CudaForge 每個任務(wù)僅需平均 0.3 美元的 API 成本,以及在單卡 RTX6000 上 26.5 分鐘的運(yùn)行時間!

消融實(shí)驗(yàn)

在不同 LLM 上實(shí)例化 CudaForge:

為了驗(yàn)證 CudaForge 是否依賴某個特定基礎(chǔ)模型,我們在實(shí)驗(yàn)中固定一方(Coder 或 Judge)為 OpenAI-o3(記作 O3),并將另一方替換為多種先進(jìn)的大模型,包括 QwQ-32B、GPT-5、Claude-Sonnet-4、GPT-OSS-120B 等。

如表所示,所有組合都能夠取得較高的正確率和良好的性能表現(xiàn),并且在某些情況下甚至超過原始的 O3/O3 配置。

這一結(jié)果表明,CudaForge 并不依賴于某個特定的基礎(chǔ)模型:其有效性主要來源于 Coder–Judge 的工作流機(jī)制,并且隨著更強(qiáng)模型的出現(xiàn),它可以直接受益并進(jìn)一步提升性能。

在不同 GPU 架構(gòu)上使用 CudaForge:

我們進(jìn)一步在多種 GPU 架構(gòu)上評估 CudaForge,包括 RTX 6000、RTX 4090、RTX 3090 和 A100,以考察其在不同硬件條件下的適用性。

實(shí)驗(yàn)結(jié)果(如表所示)顯示,CudaForge 在所有測試 GPU 上均保持了高正確率和強(qiáng)性能表現(xiàn),證明其具有良好的硬件通用性和穩(wěn)定性。

總結(jié)

我們提出了 CudaForge,一個無需訓(xùn)練的多智能體 CUDA kernel 生成與優(yōu)化框架。該框架模擬人類專家的迭代式工作流程,并顯式地引入硬件反饋,以實(shí)現(xiàn)有針對性的 Kernel 優(yōu)化,而非盲目搜索。 在 KernelBench 基準(zhǔn)上,CudaForge 相較于現(xiàn)有方法取得了最高的正確率和顯著的性能提升,同時在不同 GPU 架構(gòu)和多種基礎(chǔ)大模型上均表現(xiàn)出強(qiáng)魯棒性與泛化性。

此外,CudaForge 的性能隨著迭代輪數(shù)的增加能夠進(jìn)一步提升。 最后,得益于其低 API 開銷與低時間成本,CudaForge 為自動化 CUDA Kernel 開發(fā)提供了一種高效、實(shí)用且可投入實(shí)際使用的解決方案。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
鄭少秋4個女兒:老大55歲自縊,老二38歲抑郁,老三老四享盡父愛

鄭少秋4個女兒:老大55歲自縊,老二38歲抑郁,老三老四享盡父愛

照見古今
2026-04-08 18:17:49
小S首談大S去世前細(xì)節(jié),承認(rèn)她執(zhí)意帶姐姐去日本 后悔沒聽S媽的話

小S首談大S去世前細(xì)節(jié),承認(rèn)她執(zhí)意帶姐姐去日本 后悔沒聽S媽的話

白面書誏
2026-04-20 19:15:05
太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

橙星文娛
2026-04-17 13:19:56
一張封面讓以色列炸鍋,大使怒罵,雜志不道歉,最后視頻曝光

一張封面讓以色列炸鍋,大使怒罵,雜志不道歉,最后視頻曝光

海綿芝士局
2026-04-20 16:17:16
關(guān)注丨剛剛,全線跳水!伊朗,突然宣布

關(guān)注丨剛剛,全線跳水!伊朗,突然宣布

錢眼
2026-04-20 20:12:47
何猷君家保姆買彩票中了3000萬,保姆樂壞了,拒不辭職!轉(zhuǎn)頭第一句話是:你想要什么,我都買給你

何猷君家保姆買彩票中了3000萬,保姆樂壞了,拒不辭職!轉(zhuǎn)頭第一句話是:你想要什么,我都買給你

LULU生活家
2026-04-20 14:34:28
許家印認(rèn)罪!2.4萬億窟窿,家族只拿走500億,其余真金白銀去哪了

許家印認(rèn)罪!2.4萬億窟窿,家族只拿走500億,其余真金白銀去哪了

小嵩
2026-04-20 13:52:49
最后時刻簽了,高市將全面梭哈?中日航班已停飛,解放軍準(zhǔn)時出海

最后時刻簽了,高市將全面梭哈?中日航班已停飛,解放軍準(zhǔn)時出海

起喜電影
2026-04-21 01:20:08
女子利用天氣預(yù)報(bào)頻繁購買飛機(jī)延誤險(xiǎn),5年買中900多次,獲賠近300萬,被抓時:我符合保險(xiǎn)理賠要求

女子利用天氣預(yù)報(bào)頻繁購買飛機(jī)延誤險(xiǎn),5年買中900多次,獲賠近300萬,被抓時:我符合保險(xiǎn)理賠要求

譚老師地理大課堂
2026-04-15 20:11:42
37歲福原愛官宣生下三胎,現(xiàn)任丈夫居然是此前出軌門男主,母子平安

37歲福原愛官宣生下三胎,現(xiàn)任丈夫居然是此前出軌門男主,母子平安

好乒乓
2026-04-20 11:14:45
惡心!浙江新娘吐槽,18萬禮金被拿走15萬,結(jié)婚像給婆婆賺養(yǎng)老錢

惡心!浙江新娘吐槽,18萬禮金被拿走15萬,結(jié)婚像給婆婆賺養(yǎng)老錢

火山詩話
2026-04-20 08:59:19
張雪回應(yīng)比賽提前結(jié)束:如果繼續(xù)比賽可能引發(fā)安全事故;“賽車圈還是很干凈的,每個人都為了自己的信仰拼搏”

張雪回應(yīng)比賽提前結(jié)束:如果繼續(xù)比賽可能引發(fā)安全事故;“賽車圈還是很干凈的,每個人都為了自己的信仰拼搏”

大風(fēng)新聞
2026-04-20 10:28:40
6月1日起全國工地統(tǒng)一用工新規(guī),明確60歲以上農(nóng)民工上崗標(biāo)準(zhǔn)

6月1日起全國工地統(tǒng)一用工新規(guī),明確60歲以上農(nóng)民工上崗標(biāo)準(zhǔn)

阿嚼影視評論
2026-04-20 21:02:56
失蹤足足5天后,美軍終于承認(rèn):價(jià)值16億的最強(qiáng)無人機(jī)在中東沒了

失蹤足足5天后,美軍終于承認(rèn):價(jià)值16億的最強(qiáng)無人機(jī)在中東沒了

混沌錄
2026-04-20 20:32:11
女騎手兩年暴漲35%,女司機(jī)猛增75%,中年女人為何搶著跑車?

女騎手兩年暴漲35%,女司機(jī)猛增75%,中年女人為何搶著跑車?

老特有話說
2026-04-17 17:19:57
中國男子在中東教漢語,娶三位本地姑娘,生下混血,卻坦言養(yǎng)不起

中國男子在中東教漢語,娶三位本地姑娘,生下混血,卻坦言養(yǎng)不起

三農(nóng)老歷
2026-04-15 19:17:15
“最難對付的敵人”:周末,真主黨消滅以軍超過一個排!

“最難對付的敵人”:周末,真主黨消滅以軍超過一個排!

勝研集
2026-04-20 18:04:11
當(dāng)年勸烏克蘭“為民生投降”,如今同一番話,原封不動送給伊朗

當(dāng)年勸烏克蘭“為民生投降”,如今同一番話,原封不動送給伊朗

老馬拉車莫少裝
2026-03-18 13:51:32
1999年,69歲禹作敏獄中難耐孤寂,死前曾向李瑞環(huán)提出:我想回家

1999年,69歲禹作敏獄中難耐孤寂,死前曾向李瑞環(huán)提出:我想回家

華人星光
2026-04-20 09:59:15
殲10直飛伊朗,美以都沒敢攔!誰也沒想到,背后藏著一個天大的局

殲10直飛伊朗,美以都沒敢攔!誰也沒想到,背后藏著一個天大的局

尋墨閣
2026-04-20 18:51:46
2026-04-21 09:15:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12813文章數(shù) 142633關(guān)注度
往期回顧 全部

科技要聞

重磅官宣:庫克卸任,特努斯接任蘋果CEO

頭條要聞

牛彈琴:特朗普成美伊談判最大障礙 伊朗果然勃然大怒

頭條要聞

牛彈琴:特朗普成美伊談判最大障礙 伊朗果然勃然大怒

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財(cái)經(jīng)要聞

減速機(jī)訂單已排到明年!

汽車要聞

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

旅游
藝術(shù)
游戲
本地
公開課

旅游要聞

貴州千戶苗寨景區(qū)山體滑坡致道路中斷,景區(qū)回應(yīng)

藝術(shù)要聞

鄭麗文牛仔平底鞋引發(fā)爭議,洪秀柱題字黃河橋引關(guān)注!

《星際爭霸》射擊新作細(xì)節(jié)曝光 游戲是逼真寫實(shí)風(fēng)格

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版