国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

英偉達(dá)護(hù)城河被AI攻破,字節(jié)清華CUDA Agent,讓人人能搓CUDA內(nèi)核

0
分享至



機(jī)器之心編輯部

近日,來自字節(jié)跳動 Seed 團(tuán)隊(duì)和清華大學(xué) AIR的新研究CUDA Agent,在 AI 領(lǐng)域引發(fā)了不小的轟動。

研究人員訓(xùn)練了一個(gè)能夠編寫快速 CUDA 內(nèi)核的模型:不只是正確的內(nèi)核,而是真正經(jīng)過優(yōu)化的內(nèi)核。

在簡單/中等內(nèi)核上,它的性能比 torch.compile高出 2 倍;在復(fù)雜內(nèi)核上,它的性能比 torch.compile高出約 92%;即使在最難的設(shè)置下,它的性能也比 Claude Opus 4.5 和 Gemini 3 Pro高出約 40%



  • 論文鏈接:https://arxiv.org/abs/2602.24286
  • 項(xiàng)目主頁:https://cuda-agent.github.io/
  • Github鏈接:https://github.com/BytedTsinghua-SIA/CUDA-Agent
  • 數(shù)據(jù)集鏈接:https://huggingface.co/datasets/BytedTsinghua-SIA/CUDA-Agent-Ops-6K

在此之前,GPT、Claude 等大模型已經(jīng)能寫出「正確」的 CUDA 代碼,AI 生成的代碼也已獲得了一定程度的應(yīng)用,但能跑通和跑得快完全是兩碼事。

GPU 內(nèi)核優(yōu)化是現(xiàn)代深度學(xué)習(xí)的基礎(chǔ),但它仍然是一項(xiàng)高度專業(yè)化的工作,需要深厚的硬件知識。現(xiàn)有的 AI 生成 CUDA 代碼通常依賴無訓(xùn)練的提示工程(Prompting)或多輪執(zhí)行反饋微調(diào)的機(jī)制。這導(dǎo)致模型只能解決表面上的語法錯(cuò)誤,無法真正理解底層硬件邏輯,一定程度上限制了其內(nèi)在的優(yōu)化能力。

真正極致的 CUDA 優(yōu)化需要處理的任務(wù),是只有在性能分析器中才能看到的硬件級指標(biāo)。人們一直期待能出現(xiàn)一個(gè)像人類 CUDA 專家一樣思考的 AI。

針對這一矛盾,CUDA Agent 的核心理念簡單而巧妙:CUDA 性能并非取決于正確性,而是取決于硬件。線程束、內(nèi)存帶寬、內(nèi)存沖突——這些只有在性能分析器中才能看到的東西。

研究人員不再獎勵(lì)「是否編譯成功」,而是獎勵(lì)實(shí)際的GPU速度。真實(shí)的性能分析數(shù)據(jù)。強(qiáng)化學(xué)習(xí)直接基于性能進(jìn)行訓(xùn)練。

產(chǎn)生的效果出乎人們的預(yù)料。

在 KernelBench 基準(zhǔn)測試上,CUDA Agent 取得了 SOTA 的成績:在 Level-1、Level-2 和 Level-3 三個(gè)劃分上,相比 torch.compile 分別實(shí)現(xiàn)了 100%、100% 和 92% 的加速比例(faster rate)。



CUDA Agent 與 torch.compile 和強(qiáng)大的專有模型在 KernelBench 上的對比。

簡而言之,CUDA Agent是一個(gè)大規(guī)模的智能體強(qiáng)化學(xué)習(xí)系統(tǒng),包含三個(gè)核心組成部分:可擴(kuò)展的數(shù)據(jù)合成機(jī)制、一個(gè)集成技能增強(qiáng)且具備可靠驗(yàn)證與性能分析能力的 CUDA 開發(fā)環(huán)境,以及用于穩(wěn)定長上下文訓(xùn)練的強(qiáng)化學(xué)習(xí)算法技術(shù)。

此外,研究團(tuán)隊(duì)同時(shí)發(fā)布了CUDA-Agent-Ops-6K,一個(gè)經(jīng)過嚴(yán)格篩選與數(shù)據(jù)污染控制的高質(zhì)量合成訓(xùn)練數(shù)據(jù)集,可支持基于強(qiáng)化學(xué)習(xí)的 CUDA 內(nèi)核優(yōu)化研究的復(fù)現(xiàn)。

系統(tǒng)管線設(shè)計(jì)

數(shù)據(jù)合成

研究團(tuán)隊(duì)通過一個(gè)三階段的管線來構(gòu)建訓(xùn)練任務(wù):種子問題爬取、基于 LLM 的組合式合成,以及基于執(zhí)行結(jié)果的篩選。

  • 從 torch 和 transformers中挖掘種子算子。每個(gè)算子都以一個(gè) Python 類的形式表示,包含初始化和前向傳播方法。
  • 在組合式合成階段,最多采樣 5 個(gè) torch 算子,并將它們按順序組合,構(gòu)造成融合任務(wù)。
  • 篩選階段僅保留那些在 eager 模式和 compile 模式下都能正常運(yùn)行的任務(wù),同時(shí)移除包含隨機(jī)性的算子。
  • 為防止「投機(jī)取巧」,剔除在不同輸入下輸出為常數(shù)或無法區(qū)分的任務(wù)。
  • 在工作負(fù)載控制方面,將 eager 模式下的運(yùn)行時(shí)間限制在 1ms–100ms 區(qū)間內(nèi),并移除與 KernelBench 高度相似的樣本。



三階段數(shù)據(jù)收集管線

最終整理得到 6000 條訓(xùn)練樣本,構(gòu)建了 CUDA-Agent-Ops-6K 數(shù)據(jù)集,該數(shù)據(jù)集專為可擴(kuò)展的強(qiáng)化學(xué)習(xí)訓(xùn)練而設(shè)計(jì),兼具廣泛的任務(wù)多樣性和較低的數(shù)據(jù)污染風(fēng)險(xiǎn)。

智能體環(huán)境

智能體循環(huán)管線遵循一種 ReAct 風(fēng)格的工作流,結(jié)合代碼工具與 CUDA Skill 規(guī)范(SKILL.md),支持迭代式的編碼-編譯-調(diào)試循環(huán),以及基于性能分析器的優(yōu)化過程。

  • 標(biāo)準(zhǔn)工作流程:對原生 PyTorch 實(shí)現(xiàn)進(jìn)行性能分析,編寫 CUDA 內(nèi)核及其綁定代碼,在 GPU 沙盒環(huán)境中完成編譯,并不斷迭代優(yōu)化。
  • 目標(biāo)要求:通過正確性檢查,并在性能上相對于 torch.compile 實(shí)現(xiàn)超過 5% 的加速。
  • 穩(wěn)健的獎勵(lì)機(jī)制采用基于里程碑的離散獎勵(lì)設(shè)計(jì),根據(jù)正確性達(dá)標(biāo)情況和性能提升幅度分別給予獎勵(lì)。
  • 防止獎勵(lì)作弊的控制措施包括:對驗(yàn)證與性能分析腳本進(jìn)行保護(hù),禁止回退調(diào)用,采用 5 組不同輸入進(jìn)行正確性檢查,在同步預(yù)熱后進(jìn)行性能分析,以及禁止網(wǎng)絡(luò)檢索。



這些約束共同構(gòu)建了可靠的、基于真實(shí)執(zhí)行結(jié)果的反饋機(jī)制,使策略學(xué)習(xí)聚焦于內(nèi)核質(zhì)量的實(shí)質(zhì)性提升,而非依賴取巧或捷徑行為。

訓(xùn)練流程

訓(xùn)練過程采用分階段設(shè)計(jì),以穩(wěn)定 CUDA 編碼這一長時(shí)序強(qiáng)化學(xué)習(xí)任務(wù)。首先進(jìn)行單輪 PPO 預(yù)熱訓(xùn)練,隨后分別初始化 actor 和 critic,最后進(jìn)入完整的多輪智能體強(qiáng)化學(xué)習(xí)階段。

  • 單輪預(yù)熱階段旨在提升基礎(chǔ)的 CUDA 代碼生成能力,為后續(xù)的交互式智能體訓(xùn)練打下基礎(chǔ)。
  • 在 actor 初始化階段,采用基于正向結(jié)果軌跡采樣的拒絕式微調(diào)(RFT)。
  • RFT 過濾機(jī)制會剔除低效循環(huán)以及無效的工具調(diào)用模式,從而降低策略崩潰的風(fēng)險(xiǎn)。
  • critic 初始化階段通過價(jià)值函數(shù)預(yù)訓(xùn)練,使得從訓(xùn)練早期開始,優(yōu)勢估計(jì)就具備較高可靠性。



借助這一多階段訓(xùn)練設(shè)計(jì),系統(tǒng)在長上下文設(shè)定下(最長 128k 上下文、訓(xùn)練階段最多 150 輪、評估階段最多 200 輪)依然保持穩(wěn)定,從而實(shí)現(xiàn)持續(xù)的獎勵(lì)增長。

核心實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)在 KernelBench 上報(bào)告了針對整體和 Level-3 拆分的完整指標(biāo),包括通過率、提速率(與 Eager 對比/與 Compile 對比)以及幾何平均加速比(與 Eager 對比/與 Compile 對比)。



與強(qiáng)大的專有基線模型相比,CUDA Agent 在相對于 Compile 的性能優(yōu)化上展現(xiàn)出顯著優(yōu)勢:在整體 KernelBench 基準(zhǔn)測試中,其相對 Compile 的加速達(dá)成率達(dá)到 96.8%,幾何平均加速比為 2.11 倍

這一優(yōu)勢在高難度設(shè)置下尤為明顯:在 Level-3 上,CUDA Agent 相對 compile 的加速達(dá)成率達(dá)到 90%,相比最強(qiáng)的專有基線高出約 40 個(gè)百分點(diǎn);在 Level-2 的算子序列任務(wù)上,其加速達(dá)成率達(dá)到 100%,幾何平均加速比達(dá)到 2.80 倍。



在 KernelBench 上的整體性能和加速指標(biāo)。

本研究存在兩個(gè)主要局限。

首先,此次研究未將 CUDA Agent 與更為復(fù)雜的編譯器框架(如 TVM)進(jìn)行對比。其次,訓(xùn)練流程依賴于大規(guī)模 GPU 資源池以及進(jìn)程級隔離機(jī)制,這帶來了相當(dāng)可觀的計(jì)算與工程成本。探索更加資源高效的訓(xùn)練策略,將是未來的重要研究方向。

看起來,CUDA Agent 等技術(shù)的出現(xiàn)即將打破傳統(tǒng)編譯器(如torch.compile或Triton)的優(yōu)化瓶頸。它證明了:大語言模型不僅可以學(xué)習(xí)人類自然語言和高級編程語言,還可以通過基于硬件反饋的強(qiáng)化學(xué)習(xí),內(nèi)化出極高門檻的「硬件直覺」。

一條通向全自動、高度性能優(yōu)化計(jì)算基礎(chǔ)設(shè)施的道路正在出現(xiàn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
外媒:全球都在轉(zhuǎn)向中國,巴拿馬卻選擇完全相反的“親美”道路

外媒:全球都在轉(zhuǎn)向中國,巴拿馬卻選擇完全相反的“親美”道路

袁周院長
2026-03-03 17:50:01
任何一艘美航母上,都要帶足大量女兵?她們在航母上有什么作用?

任何一艘美航母上,都要帶足大量女兵?她們在航母上有什么作用?

無月可歸辛
2026-03-03 05:42:58
女子花30000購入阿里巴巴股份,被婆家趕出家門,4年后看到收益懵了

女子花30000購入阿里巴巴股份,被婆家趕出家門,4年后看到收益懵了

第四思維
2025-07-31 18:48:48
A股午后大概率企穩(wěn)回升

A股午后大概率企穩(wěn)回升

和訊網(wǎng)
2026-03-03 08:57:05
TOP14位身高170以上的女神,有顏有燈有演技

TOP14位身高170以上的女神,有顏有燈有演技

素然追光
2026-01-02 02:45:02
中東戰(zhàn)火籠罩!港媒:臺灣能源危機(jī)加深,天然氣儲量只有8到11天

中東戰(zhàn)火籠罩!港媒:臺灣能源危機(jī)加深,天然氣儲量只有8到11天

海峽導(dǎo)報(bào)社
2026-03-03 11:54:14
萬萬沒想到,打敗彩禮居然是社保

萬萬沒想到,打敗彩禮居然是社保

放牛娃的遐想
2026-03-03 08:34:32
新華時(shí)評:當(dāng)炸彈落在校園,文明底線何在

新華時(shí)評:當(dāng)炸彈落在校園,文明底線何在

澎湃新聞
2026-03-01 22:32:48
畜生父親虞天華被執(zhí)行死刑,押赴刑場前高喊:這輩子值了!

畜生父親虞天華被執(zhí)行死刑,押赴刑場前高喊:這輩子值了!

紙鳶奇譚
2024-12-04 21:37:57
泡泡瑪特起訴3D打印機(jī)公司拓竹科技,“Labubu”模型已無法搜索到

泡泡瑪特起訴3D打印機(jī)公司拓竹科技,“Labubu”模型已無法搜索到

鳳凰網(wǎng)科技
2026-03-03 17:26:50
郭德綱宣布德云社繼承人

郭德綱宣布德云社繼承人

逍遙論經(jīng)
2026-03-03 13:18:51
安徽省紀(jì)委監(jiān)委通報(bào):2人同日被查!

安徽省紀(jì)委監(jiān)委通報(bào):2人同日被查!

鳳凰網(wǎng)安徽
2026-03-03 16:55:13
隨著火箭123-118險(xiǎn)勝,穩(wěn)坐第3,NBA最新積分榜:西部3-6名太亂!

隨著火箭123-118險(xiǎn)勝,穩(wěn)坐第3,NBA最新積分榜:西部3-6名太亂!

生活新鮮市
2026-03-03 17:44:31
韓寒和郭敬明:20年了,終于一個(gè)天上,一個(gè)地下

韓寒和郭敬明:20年了,終于一個(gè)天上,一個(gè)地下

陳意小可愛
2026-03-01 13:23:13
84年排長匯報(bào)作戰(zhàn)報(bào)告,師長廖錫龍連忙打斷:停下,你畢業(yè)于哪里

84年排長匯報(bào)作戰(zhàn)報(bào)告,師長廖錫龍連忙打斷:停下,你畢業(yè)于哪里

混沌錄
2026-03-02 22:24:05
過去100年,美國搞垮了4個(gè)世界老二,第5個(gè)或?qū)⒎词指傻裘绹?>
    </a>
        <h3>
      <a href=蘇大強(qiáng)專欄
2024-07-20 13:22:14
中國正在大量囤油,一度吞掉世界9成囤量,有什么大事要發(fā)生?

中國正在大量囤油,一度吞掉世界9成囤量,有什么大事要發(fā)生?

森羅萬象視頻
2026-02-23 21:13:07
演員于某在北京被抓

演員于某在北京被抓

老吳教育課堂
2026-03-02 20:13:46
曾是央視知名主持,如今桂林街頭買菜!她的選擇為何讓人深思?

曾是央視知名主持,如今桂林街頭買菜!她的選擇為何讓人深思?

全球風(fēng)情大揭秘
2026-01-11 23:10:48
震驚!網(wǎng)傳廣西某設(shè)計(jì)院普通員工年終獎144000元,月工資86699元

震驚!網(wǎng)傳廣西某設(shè)計(jì)院普通員工年終獎144000元,月工資86699元

火山詩話
2026-02-27 12:08:36
2026-03-03 19:00:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12402文章數(shù) 142577關(guān)注度
往期回顧 全部

科技要聞

擁抱AI的"牛馬":邊提效邊自嘲"自費(fèi)"上班

頭條要聞

襲擊伊朗后 特朗普首次發(fā)表白宮講話:將不惜一切代價(jià)

頭條要聞

襲擊伊朗后 特朗普首次發(fā)表白宮講話:將不惜一切代價(jià)

體育要聞

35輪后積分-7,他們遭遇史上最早的降級

娛樂要聞

謝娜霸氣護(hù)夫:喊話薛之謙給張杰道歉

財(cái)經(jīng)要聞

特朗普“不惜一切”!全球股債齊崩

汽車要聞

第一梯隊(duì)輔助駕駛加持 iCAR V27定檔3月13日上市

態(tài)度原創(chuàng)

教育
本地
房產(chǎn)
藝術(shù)
親子

教育要聞

氣象系統(tǒng)2025錄用1100多,研究生占50%,南信大294人成信大113人

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

房產(chǎn)要聞

狂銷13億!近百位三亞頂豪買家,都在All in超級地中!倫?

藝術(shù)要聞

Nihad Aghazada:當(dāng)代阿塞拜疆畫家

親子要聞

親媽勸女兒一定要有經(jīng)濟(jì)來源!網(wǎng)友:不落自己身上都不知道痛

無障礙瀏覽 進(jìn)入關(guān)懷版