国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

英偉達護城河被AI攻破,字節(jié)清華CUDA Agent,讓人人能搓CUDA內(nèi)核

0
分享至



機器之心編輯部

近日,來自字節(jié)跳動 Seed 團隊和清華大學(xué) AIR的新研究CUDA Agent,在 AI 領(lǐng)域引發(fā)了不小的轟動。

研究人員訓(xùn)練了一個能夠編寫快速 CUDA 內(nèi)核的模型:不只是正確的內(nèi)核,而是真正經(jīng)過優(yōu)化的內(nèi)核。

在簡單/中等內(nèi)核上,它的性能比 torch.compile高出 2 倍;在復(fù)雜內(nèi)核上,它的性能比 torch.compile高出約 92%;即使在最難的設(shè)置下,它的性能也比 Claude Opus 4.5 和 Gemini 3 Pro高出約 40%



  • 論文鏈接:https://arxiv.org/abs/2602.24286
  • 項目主頁:https://cuda-agent.github.io/
  • Github鏈接:https://github.com/BytedTsinghua-SIA/CUDA-Agent
  • 數(shù)據(jù)集鏈接:https://huggingface.co/datasets/BytedTsinghua-SIA/CUDA-Agent-Ops-6K

在此之前,GPT、Claude 等大模型已經(jīng)能寫出「正確」的 CUDA 代碼,AI 生成的代碼也已獲得了一定程度的應(yīng)用,但能跑通和跑得快完全是兩碼事。

GPU 內(nèi)核優(yōu)化是現(xiàn)代深度學(xué)習(xí)的基礎(chǔ),但它仍然是一項高度專業(yè)化的工作,需要深厚的硬件知識,F(xiàn)有的 AI 生成 CUDA 代碼通常依賴無訓(xùn)練的提示工程(Prompting)或多輪執(zhí)行反饋微調(diào)的機制。這導(dǎo)致模型只能解決表面上的語法錯誤,無法真正理解底層硬件邏輯,一定程度上限制了其內(nèi)在的優(yōu)化能力。

真正極致的 CUDA 優(yōu)化需要處理的任務(wù),是只有在性能分析器中才能看到的硬件級指標(biāo)。人們一直期待能出現(xiàn)一個像人類 CUDA 專家一樣思考的 AI。

針對這一矛盾,CUDA Agent 的核心理念簡單而巧妙:CUDA 性能并非取決于正確性,而是取決于硬件。線程束、內(nèi)存帶寬、內(nèi)存沖突——這些只有在性能分析器中才能看到的東西。

研究人員不再獎勵「是否編譯成功」,而是獎勵實際的GPU速度。真實的性能分析數(shù)據(jù)。強化學(xué)習(xí)直接基于性能進行訓(xùn)練。

產(chǎn)生的效果出乎人們的預(yù)料。

在 KernelBench 基準(zhǔn)測試上,CUDA Agent 取得了 SOTA 的成績:在 Level-1、Level-2 和 Level-3 三個劃分上,相比 torch.compile 分別實現(xiàn)了 100%、100% 和 92% 的加速比例(faster rate)。



CUDA Agent 與 torch.compile 和強大的專有模型在 KernelBench 上的對比。

簡而言之,CUDA Agent是一個大規(guī)模的智能體強化學(xué)習(xí)系統(tǒng),包含三個核心組成部分:可擴展的數(shù)據(jù)合成機制、一個集成技能增強且具備可靠驗證與性能分析能力的 CUDA 開發(fā)環(huán)境,以及用于穩(wěn)定長上下文訓(xùn)練的強化學(xué)習(xí)算法技術(shù)。

此外,研究團隊同時發(fā)布了CUDA-Agent-Ops-6K,一個經(jīng)過嚴(yán)格篩選與數(shù)據(jù)污染控制的高質(zhì)量合成訓(xùn)練數(shù)據(jù)集,可支持基于強化學(xué)習(xí)的 CUDA 內(nèi)核優(yōu)化研究的復(fù)現(xiàn)。

系統(tǒng)管線設(shè)計

數(shù)據(jù)合成

研究團隊通過一個三階段的管線來構(gòu)建訓(xùn)練任務(wù):種子問題爬取、基于 LLM 的組合式合成,以及基于執(zhí)行結(jié)果的篩選。

  • 從 torch 和 transformers中挖掘種子算子。每個算子都以一個 Python 類的形式表示,包含初始化和前向傳播方法。
  • 在組合式合成階段,最多采樣 5 個 torch 算子,并將它們按順序組合,構(gòu)造成融合任務(wù)。
  • 篩選階段僅保留那些在 eager 模式和 compile 模式下都能正常運行的任務(wù),同時移除包含隨機性的算子。
  • 為防止「投機取巧」,剔除在不同輸入下輸出為常數(shù)或無法區(qū)分的任務(wù)。
  • 在工作負(fù)載控制方面,將 eager 模式下的運行時間限制在 1ms–100ms 區(qū)間內(nèi),并移除與 KernelBench 高度相似的樣本。



三階段數(shù)據(jù)收集管線

最終整理得到 6000 條訓(xùn)練樣本,構(gòu)建了 CUDA-Agent-Ops-6K 數(shù)據(jù)集,該數(shù)據(jù)集專為可擴展的強化學(xué)習(xí)訓(xùn)練而設(shè)計,兼具廣泛的任務(wù)多樣性和較低的數(shù)據(jù)污染風(fēng)險。

智能體環(huán)境

智能體循環(huán)管線遵循一種 ReAct 風(fēng)格的工作流,結(jié)合代碼工具與 CUDA Skill 規(guī)范(SKILL.md),支持迭代式的編碼-編譯-調(diào)試循環(huán),以及基于性能分析器的優(yōu)化過程。

  • 標(biāo)準(zhǔn)工作流程:對原生 PyTorch 實現(xiàn)進行性能分析,編寫 CUDA 內(nèi)核及其綁定代碼,在 GPU 沙盒環(huán)境中完成編譯,并不斷迭代優(yōu)化。
  • 目標(biāo)要求:通過正確性檢查,并在性能上相對于 torch.compile 實現(xiàn)超過 5% 的加速。
  • 穩(wěn)健的獎勵機制采用基于里程碑的離散獎勵設(shè)計,根據(jù)正確性達標(biāo)情況和性能提升幅度分別給予獎勵。
  • 防止獎勵作弊的控制措施包括:對驗證與性能分析腳本進行保護,禁止回退調(diào)用,采用 5 組不同輸入進行正確性檢查,在同步預(yù)熱后進行性能分析,以及禁止網(wǎng)絡(luò)檢索。



這些約束共同構(gòu)建了可靠的、基于真實執(zhí)行結(jié)果的反饋機制,使策略學(xué)習(xí)聚焦于內(nèi)核質(zhì)量的實質(zhì)性提升,而非依賴取巧或捷徑行為。

訓(xùn)練流程

訓(xùn)練過程采用分階段設(shè)計,以穩(wěn)定 CUDA 編碼這一長時序強化學(xué)習(xí)任務(wù)。首先進行單輪 PPO 預(yù)熱訓(xùn)練,隨后分別初始化 actor 和 critic,最后進入完整的多輪智能體強化學(xué)習(xí)階段。

  • 單輪預(yù)熱階段旨在提升基礎(chǔ)的 CUDA 代碼生成能力,為后續(xù)的交互式智能體訓(xùn)練打下基礎(chǔ)。
  • 在 actor 初始化階段,采用基于正向結(jié)果軌跡采樣的拒絕式微調(diào)(RFT)。
  • RFT 過濾機制會剔除低效循環(huán)以及無效的工具調(diào)用模式,從而降低策略崩潰的風(fēng)險。
  • critic 初始化階段通過價值函數(shù)預(yù)訓(xùn)練,使得從訓(xùn)練早期開始,優(yōu)勢估計就具備較高可靠性。



借助這一多階段訓(xùn)練設(shè)計,系統(tǒng)在長上下文設(shè)定下(最長 128k 上下文、訓(xùn)練階段最多 150 輪、評估階段最多 200 輪)依然保持穩(wěn)定,從而實現(xiàn)持續(xù)的獎勵增長。

核心實驗結(jié)果

研究團隊在 KernelBench 上報告了針對整體和 Level-3 拆分的完整指標(biāo),包括通過率、提速率(與 Eager 對比/與 Compile 對比)以及幾何平均加速比(與 Eager 對比/與 Compile 對比)。



與強大的專有基線模型相比,CUDA Agent 在相對于 Compile 的性能優(yōu)化上展現(xiàn)出顯著優(yōu)勢:在整體 KernelBench 基準(zhǔn)測試中,其相對 Compile 的加速達成率達到 96.8%,幾何平均加速比為 2.11 倍

這一優(yōu)勢在高難度設(shè)置下尤為明顯:在 Level-3 上,CUDA Agent 相對 compile 的加速達成率達到 90%,相比最強的專有基線高出約 40 個百分點;在 Level-2 的算子序列任務(wù)上,其加速達成率達到 100%,幾何平均加速比達到 2.80 倍。



在 KernelBench 上的整體性能和加速指標(biāo)。

本研究存在兩個主要局限。

首先,此次研究未將 CUDA Agent 與更為復(fù)雜的編譯器框架(如 TVM)進行對比。其次,訓(xùn)練流程依賴于大規(guī)模 GPU 資源池以及進程級隔離機制,這帶來了相當(dāng)可觀的計算與工程成本。探索更加資源高效的訓(xùn)練策略,將是未來的重要研究方向。

看起來,CUDA Agent 等技術(shù)的出現(xiàn)即將打破傳統(tǒng)編譯器(如torch.compile或Triton)的優(yōu)化瓶頸。它證明了:大語言模型不僅可以學(xué)習(xí)人類自然語言和高級編程語言,還可以通過基于硬件反饋的強化學(xué)習(xí),內(nèi)化出極高門檻的「硬件直覺」。

一條通向全自動、高度性能優(yōu)化計算基礎(chǔ)設(shè)施的道路正在出現(xiàn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
徹底涼了!3650 萬水貨曼聯(lián)生涯終結(jié),卡里克一場都不會再用他!

徹底涼了!3650 萬水貨曼聯(lián)生涯終結(jié),卡里克一場都不會再用他!

奶蓋熊本熊
2026-03-03 05:36:27
美伊大戰(zhàn)后果來了,石油漲價歐佩克宣布增產(chǎn),中國能源轉(zhuǎn)型很明智

美伊大戰(zhàn)后果來了,石油漲價歐佩克宣布增產(chǎn),中國能源轉(zhuǎn)型很明智

傲傲講歷史
2026-03-02 23:42:56
痛惜!41歲中國博士后猝死東京大學(xué)實驗室,去世前還在廢寢忘食趕論文

痛惜!41歲中國博士后猝死東京大學(xué)實驗室,去世前還在廢寢忘食趕論文

醫(yī)脈圈
2026-03-03 12:11:40
女護士處理男患者隱私部位,會感覺難為情嗎?美女護士說出大實話

女護士處理男患者隱私部位,會感覺難為情嗎?美女護士說出大實話

第7情感
2025-09-17 12:12:15
40萬周薪引爆爭議!31歲隊長7球13助,1億歐報價逼曼聯(lián)兩難

40萬周薪引爆爭議!31歲隊長7球13助,1億歐報價逼曼聯(lián)兩難

卿子書
2026-03-02 09:47:30
地板流籃球:扎實?飄忽?

地板流籃球:扎實?飄忽?

張佳瑋寫字的地方
2026-03-03 12:36:34
過去30年,中國三次忍辱負(fù)重“裝孫子”躲過美國阻擊,終迎大發(fā)展

過去30年,中國三次忍辱負(fù)重“裝孫子”躲過美國阻擊,終迎大發(fā)展

阿胡
2024-06-13 14:25:16
加拿大股市繼續(xù)創(chuàng)收盤歷史新高

加拿大股市繼續(xù)創(chuàng)收盤歷史新高

每日經(jīng)濟新聞
2026-03-03 06:16:10
王楚欽擊敗林昀儒奪冠,賽后居然對王皓吐槽,說了三個字讓人心疼

王楚欽擊敗林昀儒奪冠,賽后居然對王皓吐槽,說了三個字讓人心疼

胡一舸南游y
2026-03-02 19:15:45
2015年,二胎政策推出,翟振武教授:中國每年將新增2000萬新生兒

2015年,二胎政策推出,翟振武教授:中國每年將新增2000萬新生兒

南權(quán)先生
2026-02-24 15:55:07
垃圾不夠燒了,不是好消息而是警報被點燃了,真正的大變革才開始

垃圾不夠燒了,不是好消息而是警報被點燃了,真正的大變革才開始

蜉蝣說
2026-02-16 21:14:06
林昀儒為何遭橫掃?聽了他的總結(jié),你才知道如今王楚欽究竟有多強

林昀儒為何遭橫掃?聽了他的總結(jié),你才知道如今王楚欽究竟有多強

十點街球體育
2026-03-02 21:20:28
單日融資38億元,人形機器人不差錢:涌入的資本在投什么

單日融資38億元,人形機器人不差錢:涌入的資本在投什么

澎湃新聞
2026-03-03 07:48:30
官方徹查實錘!閆學(xué)晶徹底涼了,最擔(dān)心的噩夢還是來了

官方徹查實錘!閆學(xué)晶徹底涼了,最擔(dān)心的噩夢還是來了

TVB的四小花
2026-03-03 11:09:18
英媒爆出猛料:中國或違反聯(lián)合國規(guī)定,運送超高音速導(dǎo)彈給伊朗!

英媒爆出猛料:中國或違反聯(lián)合國規(guī)定,運送超高音速導(dǎo)彈給伊朗!

快看張同學(xué)
2026-02-26 14:22:43
2100枚核彈24小時待命,張召忠曾發(fā)出警告:一旦開戰(zhàn),將無處可逃

2100枚核彈24小時待命,張召忠曾發(fā)出警告:一旦開戰(zhàn),將無處可逃

近史博覽
2026-01-22 12:52:47
米蘭時裝周好真實!陳妍希假發(fā)包太夸張,陳小紜臉僵腫、滿腿淤青

米蘭時裝周好真實!陳妍希假發(fā)包太夸張,陳小紜臉僵腫、滿腿淤青

楓塵余往逝
2026-03-02 12:47:21
中國鋰電突破登Nature!不用固態(tài)電池也續(xù)航翻倍,零下50°照樣跑

中國鋰電突破登Nature!不用固態(tài)電池也續(xù)航翻倍,零下50°照樣跑

胖福的小木屋
2026-03-02 10:16:54
巴基斯坦全面宣戰(zhàn),中亞格局或改寫,印度最慌!

巴基斯坦全面宣戰(zhàn),中亞格局或改寫,印度最慌!

達文西看世界
2026-02-27 16:30:28
1989年,哈梅內(nèi)伊吃北京烤鴨時,一張罕見留影,此后再未踏出國門

1989年,哈梅內(nèi)伊吃北京烤鴨時,一張罕見留影,此后再未踏出國門

冒泡泡的魚兒
2026-03-02 16:07:00
2026-03-03 12:56:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12396文章數(shù) 142576關(guān)注度
往期回顧 全部

科技要聞

手機AI在MWC上卷出了新高度

頭條要聞

美國三架F-15E被擊落 美軍聲明中有個非常奇怪的地方

頭條要聞

美國三架F-15E被擊落 美軍聲明中有個非常奇怪的地方

體育要聞

35輪后積分-7,他們遭遇史上最早的降級

娛樂要聞

謝娜霸氣護夫:喊話薛之謙給張杰道歉

財經(jīng)要聞

霍爾木茲海峽近乎停擺 布油直逼80美元

汽車要聞

長安汽車2月銷量151922輛 環(huán)比逆勢增長12.8%

態(tài)度原創(chuàng)

教育
游戲
藝術(shù)
親子
公開課

教育要聞

娃娃秧歌扭起來 非遺傳承潤童心

《三角洲》主播毀號事件后續(xù)!當(dāng)事人征集聯(lián)名控告

藝術(shù)要聞

Nihad Aghazada:當(dāng)代阿塞拜疆畫家

親子要聞

深度長文:它們只能以超光速傳播,完全顛覆人類的三觀!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版