国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

成本0.3美元,耗時(shí)26分鐘!CudaForge:顛覆性低成本CUDA優(yōu)化框架

0
分享至




本文作者包括明尼蘇達(dá)大學(xué)的張子?。ü餐谝蛔髡撸鯉V(共同第一作者),李世陽(yáng),羅越波,洪明毅,丁才文。

CUDA 代碼的性能對(duì)于當(dāng)今的模型訓(xùn)練與推理至關(guān)重要,然而手動(dòng)編寫(xiě)優(yōu)化 CUDA Kernel 需要很高的知識(shí)門(mén)檻和時(shí)間成本。與此同時(shí),近年來(lái) LLM 在 Code 領(lǐng)域獲得了諸多成功。這推動(dòng)人們?nèi)ヌ剿魅绾卫?LLM 來(lái)編寫(xiě)優(yōu)化 CUDA kernel。然而,現(xiàn)有的方法面臨諸多問(wèn)題,例如高昂的訓(xùn)練與推理成本,不良的 kernel 性能,以及缺乏硬件反饋導(dǎo)致的盲目探索。

那么對(duì)于使用 LLM 進(jìn)行 CUDA 代碼生成,我們能不能設(shè)計(jì)一個(gè)簡(jiǎn)單而有效的方法,使其能夠低成本地生成可靠高效的 CUDA kernel?

明尼蘇達(dá)大學(xué)的團(tuán)隊(duì)提出了一種新的方法——CudaForge。這是一種簡(jiǎn)單、高效且低成本的多智能體 CUDA Kernel 生成與優(yōu)化工作流。該工作流受人類專家的實(shí)際開(kāi)發(fā)流程啟發(fā),包含初始 Kernel 的編寫(xiě)、正確性測(cè)試、硬件反饋分析以及迭代改進(jìn)等關(guān)鍵階段。

  • 論文標(biāo)題:CudaForge: An Agent Framework with Hardware Feedback for CUDA Kernel Optimization
  • 論文鏈接:https://arxiv.org/pdf/2511.01884
  • 代碼地址: https://github.com/OptimAI-Lab/CudaForge

實(shí)驗(yàn)結(jié)果表明,CudaForge 在 KernelBench Levels 1-3 上取得了 SOTA 的結(jié)果,超越了現(xiàn)有的所有方法。值得注意的是,通過(guò) CudaForge 生成一個(gè)經(jīng)過(guò)優(yōu)化的 Kernel 在單張 RTX6000上僅需約26.5 分鐘,同時(shí)僅產(chǎn)生約0.3 美元的 API 調(diào)用成本!

CudaForge Workflow 介紹

正如人類專家所采用的開(kāi)發(fā)方法,包括初始 Kernel 的編寫(xiě)、正確性測(cè)試、硬件反饋分析以及迭代改進(jìn),我們將 CudaForge 設(shè)計(jì)為如上所示的迭代式優(yōu)化框架。

該框架包含兩個(gè)相互獨(dú)立的智能體:CoderJudge

Coder 根據(jù)任務(wù)描述以及來(lái)自 Judge 的反饋生成候選 CUDA kernel;而 Judge 則利用 kernel 本身、硬件反饋以及運(yùn)行時(shí)信息對(duì)每個(gè)候選進(jìn)行評(píng)估。

具體而言,給定一個(gè) CUDA kernel 生成任務(wù),Coder 首先接收任務(wù)要求以及對(duì)應(yīng)的 PyTorch 參考實(shí)現(xiàn),然后生成一個(gè)初始的候選 kernel。該 kernel 將被編譯并在測(cè)試用例上執(zhí)行以驗(yàn)證其正確性。

如果測(cè)試失敗,Judge 會(huì)檢查運(yùn)行時(shí)信息(例如編譯錯(cuò)誤、與 PyTorch 參考結(jié)果不一致的輸出),并分析該錯(cuò)誤 kernel 的問(wèn)題所在。隨后,Judge 會(huì)返回相應(yīng)的糾錯(cuò)反饋(如缺少頭文件等),以指導(dǎo)下一輪生成。當(dāng)某個(gè)候選 kernel 通過(guò)了正確性測(cè)試后,Judge 會(huì)使用NCU工具對(duì)其進(jìn)行性能剖析,獲取NCU 性能指標(biāo)(如內(nèi)存帶寬、占用率、warp 效率等)。

結(jié)合 GPU 硬件規(guī)格,這些指標(biāo)構(gòu)成了用于識(shí)別主要性能瓶頸(如算力受限或帶寬受限)的硬件反饋,Judge 會(huì)進(jìn)一步基于此返回一個(gè)明確的優(yōu)化建議(如使用 shared memory)給 Coder。

在下一輪中,Coder 會(huì)同時(shí)接收上一輪的 kernel、Judge 的反饋以及原始任務(wù)需求,并生成新的、經(jīng)過(guò)修正或優(yōu)化的 kernel。該過(guò)程最多重復(fù)N輪,最終我們會(huì)從所有正確的候選結(jié)果中選擇效率最高的 kernel作為最終輸出。

在此,我們給出一個(gè)使用 CudaForge 進(jìn)行 Kernel 優(yōu)化的案例,并將其與Kevin-32B方法進(jìn)行對(duì)比:

這一對(duì)比進(jìn)一步凸顯出使用硬件反饋對(duì)于 Cuda 代碼優(yōu)化的重要意義。

具體來(lái)說(shuō),CudaForge通過(guò)以下三項(xiàng)關(guān)鍵設(shè)計(jì)顯著提升了 CUDA kernel 的生成與優(yōu)化能力:

雙智能體分工協(xié)作:CudaForge 采用Coder–Judge雙智能體架構(gòu),其中 Coder 專注于代碼生成,Judge 負(fù)責(zé)評(píng)估代碼并提供反饋,從而實(shí)現(xiàn)“認(rèn)知負(fù)載”的有效分離。

迭代式優(yōu)化流程:CudaForge 通過(guò)多輪迭代逐步糾錯(cuò)與提速,使得 Kernel 能在每一輪中持續(xù)被改進(jìn),特別是在復(fù)雜任務(wù)中能夠獲得更加穩(wěn)定的優(yōu)化效果。

顯式引入硬件反饋:CudaForge 將GPU 規(guī)格NCU 性能指標(biāo)(如帶寬、占用率、Warp 效率)納入反饋,使 Judge 能精確定位瓶頸并提供可執(zhí)行的優(yōu)化指導(dǎo)

實(shí)驗(yàn)評(píng)估

我們?cè)?KernelBench Levels 1-3 上評(píng)估了我們的模型,并與 Kevin-32B,OpenAI-o3 等模型進(jìn)行了比較。

在 RTX 6000 上的 KernelBench Levels 1–3 主要結(jié)果:

在我們的主要實(shí)驗(yàn)中,我們默認(rèn)將OpenAI-o3同時(shí)用作 Coder 與 Judge,并將最大迭代輪數(shù)設(shè)為N = 10,以在性能提升與推理成本之間取得平衡。

在 KernelBench 上,CudaForge 達(dá)到了 97.6% 的正確率,平均加速比為 1.677×,F(xiàn)ast1 比例為 70.8%,并且實(shí)現(xiàn)了1.107× 的中位數(shù)加速比1.592× 的 75 分位加速比。這些結(jié)果顯著優(yōu)于基礎(chǔ)模型 OpenAI-o3 與一系列消融變體(包括o3-self-refine、o3-correction、o3-optimization)。

與 Kevin-32B 在 H200 上的對(duì)比:

考慮到 Kevin-32B 是基于 H200 訓(xùn)練的 RL 模型,我們?cè)?H200 上對(duì)比了 Kevin-32B 和 CudaForge。下圖展示了 CudaForge 與 Kevin-32B 在 KernelBench 上的正確性與性能表現(xiàn)對(duì)比。虛線表示 CudaForge 在 Level 1 和 Level 2 上的平均水平。

盡管CudaForge 不需要訓(xùn)練(training-free),它在KernelBench Level 1–2上的表現(xiàn)依然優(yōu)于Kevin-32B,并且在Level 3上也取得了極為出色的性能。

CudaForge 的 API 與計(jì)算時(shí)間成本分析

我們進(jìn)一步分析了 CudaForge 的性能與其 API 調(diào)用成本和計(jì)算時(shí)間之間的關(guān)系,如圖所示。隨著 API 成本與計(jì)算時(shí)間的增加,CudaForge 的性能呈單調(diào)提升趨勢(shì)。值得注意的是,即使在每個(gè)任務(wù)耗費(fèi)不超過(guò) 0.15 美元和 10 分鐘的情況下,CudaForge 也已經(jīng)能夠超越 Agentic 基線方法,這充分展示了其出色的性能-成本平衡能力。



基于 KernelBench,我們測(cè)評(píng)了 CudaForge 所需的時(shí)間和 API 成本,結(jié)果表明在 KernelBench Levels 1-3 所有任務(wù)上,CudaForge 每個(gè)任務(wù)僅需平均 0.3 美元的 API 成本,以及在單卡 RTX6000 上 26.5 分鐘的運(yùn)行時(shí)間!

消融實(shí)驗(yàn)

在不同 LLM 上實(shí)例化 CudaForge:

為了驗(yàn)證 CudaForge 是否依賴某個(gè)特定基礎(chǔ)模型,我們?cè)趯?shí)驗(yàn)中固定一方(Coder 或 Judge)為 OpenAI-o3(記作 O3),并將另一方替換為多種先進(jìn)的大模型,包括 QwQ-32B、GPT-5、Claude-Sonnet-4、GPT-OSS-120B 等。

如表所示,所有組合都能夠取得較高的正確率和良好的性能表現(xiàn),并且在某些情況下甚至超過(guò)原始的 O3/O3 配置。

這一結(jié)果表明,CudaForge 并不依賴于某個(gè)特定的基礎(chǔ)模型:其有效性主要來(lái)源于 Coder–Judge 的工作流機(jī)制,并且隨著更強(qiáng)模型的出現(xiàn),它可以直接受益并進(jìn)一步提升性能。

在不同 GPU 架構(gòu)上使用 CudaForge:

我們進(jìn)一步在多種 GPU 架構(gòu)上評(píng)估 CudaForge,包括 RTX 6000、RTX 4090、RTX 3090 和 A100,以考察其在不同硬件條件下的適用性。

實(shí)驗(yàn)結(jié)果(如表所示)顯示,CudaForge 在所有測(cè)試 GPU 上均保持了高正確率和強(qiáng)性能表現(xiàn),證明其具有良好的硬件通用性和穩(wěn)定性。

總結(jié)

我們提出了 CudaForge,一個(gè)無(wú)需訓(xùn)練的多智能體 CUDA kernel 生成與優(yōu)化框架。該框架模擬人類專家的迭代式工作流程,并顯式地引入硬件反饋,以實(shí)現(xiàn)有針對(duì)性的 Kernel 優(yōu)化,而非盲目搜索。 在 KernelBench 基準(zhǔn)上,CudaForge 相較于現(xiàn)有方法取得了最高的正確率和顯著的性能提升,同時(shí)在不同 GPU 架構(gòu)和多種基礎(chǔ)大模型上均表現(xiàn)出強(qiáng)魯棒性與泛化性。

此外,CudaForge 的性能隨著迭代輪數(shù)的增加能夠進(jìn)一步提升。 最后,得益于其低 API 開(kāi)銷與低時(shí)間成本,CudaForge 為自動(dòng)化 CUDA Kernel 開(kāi)發(fā)提供了一種高效、實(shí)用且可投入實(shí)際使用的解決方案。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
男子公園騎三輪車遭“攔路鐵絲”勒脖身亡,園方:事發(fā)地為私人承包區(qū),已排查公園安全隱患

男子公園騎三輪車遭“攔路鐵絲”勒脖身亡,園方:事發(fā)地為私人承包區(qū),已排查公園安全隱患

極目新聞
2025-12-18 17:10:51
悲?。『贾菪∶捉桓吨行谋蛔矄T工身亡:車主90后,剛提車,未上牌

悲??!杭州小米交付中心被撞員工身亡:車主90后,剛提車,未上牌

娜烏和西卡
2025-12-19 11:10:31
王勵(lì)勤大動(dòng)作!世界第一組合拆對(duì),3大新星獲重用,蒯曼陳熠聯(lián)手

王勵(lì)勤大動(dòng)作!世界第一組合拆對(duì),3大新星獲重用,蒯曼陳熠聯(lián)手

籃球看比賽
2025-12-19 11:03:25
國(guó)羽傳捷報(bào)!王祉怡2-0橫掃世界冠軍,小組第1出線,圣壇組合接場(chǎng)

國(guó)羽傳捷報(bào)!王祉怡2-0橫掃世界冠軍,小組第1出線,圣壇組合接場(chǎng)

劉姚堯的文字城堡
2025-12-18 18:29:37
楊冪現(xiàn)身株洲被偶遇,遠(yuǎn)遠(yuǎn)的看著身材前凸后翹,十分吸睛。

楊冪現(xiàn)身株洲被偶遇,遠(yuǎn)遠(yuǎn)的看著身材前凸后翹,十分吸睛。

TVB的四小花
2025-12-19 00:32:25
中紀(jì)委:不能把全面從嚴(yán)治黨等同于反腐敗

中紀(jì)委:不能把全面從嚴(yán)治黨等同于反腐敗

微法官
2025-12-19 08:08:11
萬(wàn)科自救失敗,要變天了

萬(wàn)科自救失敗,要變天了

新行情
2025-12-18 14:11:20
西安一小區(qū)7層頂樓住戶拆除原樓板加蓋,一樓住戶臥室現(xiàn)三條裂縫

西安一小區(qū)7層頂樓住戶拆除原樓板加蓋,一樓住戶臥室現(xiàn)三條裂縫

大風(fēng)新聞
2025-12-19 08:36:04
微信新規(guī)已經(jīng)明確!從12月開(kāi)始,這類微信用戶將無(wú)法進(jìn)行轉(zhuǎn)賬!

微信新規(guī)已經(jīng)明確!從12月開(kāi)始,這類微信用戶將無(wú)法進(jìn)行轉(zhuǎn)賬!

復(fù)轉(zhuǎn)這些年
2025-12-17 23:46:36
恥辱被逆轉(zhuǎn)!火箭128-133鵜鶘,看數(shù)據(jù):頭號(hào)罪人是他!

恥辱被逆轉(zhuǎn)!火箭128-133鵜鶘,看數(shù)據(jù):頭號(hào)罪人是他!

籃壇籃談
2025-12-19 10:13:25
一夜消息:哈登或被交易,保羅下家概率出爐,水花有望再合體

一夜消息:哈登或被交易,保羅下家概率出爐,水花有望再合體

冷月小風(fēng)風(fēng)
2025-12-19 10:11:49
太慘了!小米車主剛提新車就喜提牢飯!被撞者身份曝光,人已離世

太慘了!小米車主剛提新車就喜提牢飯!被撞者身份曝光,人已離世

鋭娛之樂(lè)
2025-12-18 22:15:24
中國(guó)留學(xué)生保存大量?jī)和橐曨l,面臨終身監(jiān)禁

中國(guó)留學(xué)生保存大量?jī)和橐曨l,面臨終身監(jiān)禁

大洛杉磯LA
2025-12-19 07:11:48
六人互拔頭發(fā)吃霸王餐后續(xù):正臉曝光社死,還是群慣犯,警方介入

六人互拔頭發(fā)吃霸王餐后續(xù):正臉曝光社死,還是群慣犯,警方介入

有范又有料
2025-12-19 11:39:54
浙江官方:李提香、孫正傲、董宇、岳鑫、梁諾恒合同期滿離隊(duì)

浙江官方:李提香、孫正傲、董宇、岳鑫、梁諾恒合同期滿離隊(duì)

懂球帝
2025-12-19 12:10:11
外籍男子國(guó)際航班上辱罵兩名中國(guó)女乘客,哈爾濱女博士用英語(yǔ)反擊,當(dāng)事人:他酒后鬧事,被帶離后全場(chǎng)鼓掌

外籍男子國(guó)際航班上辱罵兩名中國(guó)女乘客,哈爾濱女博士用英語(yǔ)反擊,當(dāng)事人:他酒后鬧事,被帶離后全場(chǎng)鼓掌

極目新聞
2025-12-18 13:41:36
國(guó)家文物局:正在查“8800萬(wàn)藏品被拍賣”,南京博物館“遺漏”?

國(guó)家文物局:正在查“8800萬(wàn)藏品被拍賣”,南京博物館“遺漏”?

奇思妙想草葉君
2025-12-18 23:51:37
央國(guó)企員工可以放心做副業(yè)了

央國(guó)企員工可以放心做副業(yè)了

細(xì)說(shuō)職場(chǎng)
2025-12-19 09:59:12
著名播音員鐘瑞在加拿大病逝!丈夫宋世雄的三件禮物溫暖她一生

著名播音員鐘瑞在加拿大病逝!丈夫宋世雄的三件禮物溫暖她一生

銀河史記
2025-12-16 16:18:24
中國(guó)的“性蕭條”時(shí)代,正式到來(lái)了

中國(guó)的“性蕭條”時(shí)代,正式到來(lái)了

律法刑道
2025-12-15 08:28:58
2025-12-19 13:11:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11953文章數(shù) 142513關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

媒體:美方官宣史上對(duì)臺(tái)單筆最大軍售 野心藏不住了

頭條要聞

媒體:美方官宣史上對(duì)臺(tái)單筆最大軍售 野心藏不住了

體育要聞

沒(méi)有塔圖姆,還有塔禿姆

娛樂(lè)要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無(wú)期

汽車要聞

最便宜GLS 2026款奔馳GLS經(jīng)典版售96.8萬(wàn)

態(tài)度原創(chuàng)

時(shí)尚
健康
手機(jī)
本地
教育

“煙管褲”今年冬天爆火,怎么搭都時(shí)髦!

這些新療法,讓化療不再那么痛苦

手機(jī)要聞

蘋(píng)果客服回應(yīng)“內(nèi)存用完致iPhone損壞”:建議及時(shí)清理并備份數(shù)據(jù)

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

教育要聞

“考考考老師的法寶”應(yīng)該休矣

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版