国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

UCSD 推出 AIBuildAI 智能體,斬獲OpenAI MLE-Bench榜單第一

0
分享至



近日,加州大學(xué)圣地亞哥分校的研究團(tuán)隊(duì)開發(fā)了 AIBuildAI 智能體,可以全自動(dòng)構(gòu)建 AI 模型(包括模型設(shè)計(jì),代碼實(shí)現(xiàn),模型訓(xùn)練,調(diào)參,性能評(píng)估,迭代優(yōu)化)。團(tuán)隊(duì)成員包括博士生 Ruiyi Zhang,Peijia Qin,Qi Cao,Li Zhang,以及該校副教授 Pengtao Xie。



視頻地址:https://mp.weixin.qq.com/s/8sb5CpBLb3PEQ7IGY6A5ug?click_id=35

開發(fā)一個(gè)高性能 AI 模型非常耗時(shí)費(fèi)力,工程師需要反復(fù)設(shè)計(jì)模型、寫代碼實(shí)現(xiàn)模型、構(gòu)建訓(xùn)練流水線、執(zhí)行超參數(shù)搜索,并根據(jù)實(shí)驗(yàn)結(jié)果對(duì)模型進(jìn)行迭代優(yōu)化。這一過(guò)程對(duì)專業(yè)知識(shí)的依賴程度極高,人力成本也居高不下,非常耗費(fèi)時(shí)間。為了解決這一問(wèn)題,UCSD 的研究團(tuán)隊(duì)開發(fā)了 AIBuildAI 智能體,充當(dāng)虛擬的 AI 工程師或 AI 科學(xué)家,全自動(dòng)構(gòu)建 AI 模型。用戶無(wú)需編程,只需要用自然語(yǔ)言對(duì)任務(wù)進(jìn)行描述,AIBuildAI 自動(dòng)設(shè)計(jì)模型,寫代碼實(shí)現(xiàn)模型,訓(xùn)練模型,調(diào)節(jié)超參數(shù),評(píng)估模型性能,并根據(jù)實(shí)驗(yàn)結(jié)果對(duì)模型進(jìn)行迭代優(yōu)化。

AIBuildAI 在 OpenAI MLE-Bench 基準(zhǔn)測(cè)試的 75 個(gè)任務(wù)上以 63.1% 的獲獎(jiǎng)率位居榜首(截至 2026 年 3 月 6 日),其表現(xiàn)可媲美經(jīng)驗(yàn)豐富的 AI 工程師,實(shí)現(xiàn)了從任務(wù)描述到可部署模型的端到端自動(dòng)化。







  • 論文標(biāo)題:AIBuildAI:An AI agent that automatically builds AI models
  • 項(xiàng)目地址:https://github.com/aibuildai/AI-Build-AI
  • 論文鏈接:https://github.com/aibuildai/AIBuildAI/blob/main/AIBuildAI_Tech_Report.pdf
  • OpenAI MLE-Bench 測(cè)評(píng)結(jié)果:https://github.com/openai/mle-bench/pull/126

AIBuildAI 的設(shè)計(jì)靈感來(lái)源于真實(shí)的 AI 研究團(tuán)隊(duì)的工作流程。在典型的 AI 項(xiàng)目中,技術(shù)負(fù)責(zé)人統(tǒng)籌多條并行探索路線,研究員提出建模策略,工程師實(shí)現(xiàn)訓(xùn)練流水線,負(fù)責(zé)人定期評(píng)審結(jié)果、分配資源。AIBuildAI 將這一工作流抽象為一個(gè)多智能體搜索過(guò)程:將整個(gè)開發(fā)周期分解為多個(gè)專職智能體協(xié)作執(zhí)行,并通過(guò)集中化的管理器進(jìn)行統(tǒng)一調(diào)度。



技術(shù)核心

管理智能體(Manager Agent)

扮演項(xiàng)目運(yùn)行負(fù)責(zé)人的角色,全程不直接寫代碼或執(zhí)行訓(xùn)練任務(wù),而是通過(guò)讀取磁盤上的實(shí)驗(yàn)記錄來(lái)做出下一步?jīng)Q策。他在兩種模式之間切換:協(xié)調(diào)模式下決定下一步應(yīng)該調(diào)用哪一個(gè)子智能體;篩選模式下依據(jù)訓(xùn)練信號(hào)保留有潛力的候選方案并終止無(wú)效方案來(lái)節(jié)約時(shí)間以及計(jì)算成本,并在進(jìn)展停滯時(shí)觸發(fā)修訂或者終止。

研究員智能體(Designer Agent)

負(fù)責(zé)想方案和改方案兩項(xiàng)核心任務(wù)。在設(shè)計(jì)模式下,他直接探索數(shù)據(jù)集特征,提出多個(gè)差異化、可行性強(qiáng)的建模計(jì)劃;在修訂模式下,他仔細(xì)診斷失敗原因(過(guò)擬合、欠擬合、收斂問(wèn)題或者數(shù)據(jù)異常),并提出具體的改進(jìn)方案供編碼智能體重新實(shí)現(xiàn)。

編碼智能體(Coder Agent)

將設(shè)計(jì)方案轉(zhuǎn)化為可運(yùn)行的訓(xùn)練與推理流水線。編碼智能體的目標(biāo)是確保代碼正確完整,而非追求最終性能。他會(huì)在寫完代碼后執(zhí)行一次短時(shí)驗(yàn)證運(yùn)行以確保流水線可以端到端運(yùn)行,隨后將完整訓(xùn)練交由調(diào)優(yōu)器處理。

調(diào)優(yōu)器智能體(Tuner Agent)

接管訓(xùn)練過(guò)程,在已有代碼基礎(chǔ)上專注于性能提升。它采用先快速校準(zhǔn)、再?zèng)Q定是否投入的策略:先跑一段簡(jiǎn)短的熱身訓(xùn)練觀察學(xué)習(xí)曲線,再?zèng)Q定是延長(zhǎng)當(dāng)前方案還是進(jìn)行超參數(shù)調(diào)整。整個(gè)過(guò)程在固定計(jì)算預(yù)算內(nèi)完成。

系統(tǒng)設(shè)計(jì)

AIBuildAI 在系統(tǒng)層面還具備三項(xiàng)關(guān)鍵特征:

  • 并行效率:多條解決方案軌跡在獨(dú)立工作空間中并發(fā)運(yùn)行,避免互相干擾,允許系統(tǒng)同時(shí)探索多個(gè)方法并將資源集中于表現(xiàn)好的候選方案。
  • 可復(fù)現(xiàn)性:所有智能體通過(guò)存儲(chǔ)于磁盤中產(chǎn)出物(方案文檔、配置文件、日志、檢查點(diǎn))進(jìn)行協(xié)調(diào),而非依賴內(nèi)存中的臨時(shí)信息,確保每一步操作均可事后審查與復(fù)現(xiàn)。
  • 安全性:智能體僅被允許寫入自身軌跡目錄,數(shù)據(jù)集以只讀方式掛載,每次調(diào)用均生成可審計(jì)的操作日志。

實(shí)驗(yàn)結(jié)果



AIBuildAI 在 OpenAI MLE-Bench 基準(zhǔn)測(cè)試上進(jìn)行了評(píng)估 (https://github.com/openai/mle-bench/pull/126)。MLE-Bench 包含了來(lái)自 Kaggle 競(jìng)賽的真實(shí)任務(wù),涵蓋圖像分類,目標(biāo)檢測(cè) / 分割、自然語(yǔ)言理解與生成、時(shí)序信號(hào)建模以及結(jié)構(gòu)化表格預(yù)測(cè)等多個(gè)類別,共 75 個(gè)任務(wù),要求系統(tǒng)完成從原始數(shù)據(jù)到可提交模型的全流程開發(fā)。

截止 2026 年 3 月 6 號(hào)的榜單,AIBuildAI 以 63.1% 的綜合獲獎(jiǎng)率位居 MLE-Bench 總榜第一。上圖展示了 AIBuildAI(橙條)的綜合性能在所有的對(duì)比方法中實(shí)現(xiàn)了性能最佳。



上圖展示了 AIBuildAI 在語(yǔ)言理解與生成任務(wù)上的詳細(xì)結(jié)果。上半部分以 Billion Word Imputation 為例,完整呈現(xiàn)了 AIBuildAI 各智能體的運(yùn)行軌跡:Manager 依次調(diào)度 Setup、Designer(提出 6 個(gè)候選方案)、Coder(實(shí)現(xiàn)流水線)和 Tuner(迭代調(diào)參),最終 Aggregator 以 RoBERTa-large 為基礎(chǔ)生成提交文件,取得 5.5060 的最優(yōu)分?jǐn)?shù)。下半部分對(duì)比了 AIBuildAI 與 AIRA-dojo、MLEvolve 在 10 個(gè)具體語(yǔ)言任務(wù)上的性能表現(xiàn)。AIBuildAI(紫色)在 chaii-hindi-and-tamil-question-answering、patent-matching、tweet-sentiment-extraction、text-normalization-challenge-english-language、random-acts-of-pizza 等多個(gè)任務(wù)上均取得最優(yōu)成績(jī),充分驗(yàn)證了 AIBuildAI 在多樣化語(yǔ)言任務(wù)上的泛化能力。

總結(jié)

AIBuildAI 通過(guò)將 AI 開發(fā)流程分配到包括設(shè)計(jì)、編碼、調(diào)優(yōu)與協(xié)調(diào)等任務(wù)的專職智能體,并以基于產(chǎn)出物的狀態(tài)管理將各個(gè)智能體緊密協(xié)同,實(shí)現(xiàn)了端到端自動(dòng)化 AI 工程。不同于以往將代碼生成作為核心范式的單體系統(tǒng),AIBuildAI 顯示建模了訓(xùn)練動(dòng)態(tài)監(jiān)控、早停機(jī)制與超參數(shù)調(diào)整等關(guān)鍵環(huán)節(jié),更貼近真實(shí)工程師團(tuán)隊(duì)的工作方式。AIBuildAI 在 MLE-Bench 的 75 個(gè)任務(wù)上,以 63.1% 的獲獎(jiǎng)率位居第一,證明了結(jié)構(gòu)化多智能體協(xié)作在復(fù)雜工程工作自動(dòng)化上的可行性,也為邁向媲美人類專業(yè)工程師的自動(dòng) AI 系統(tǒng)提供了清晰的技術(shù)路線。

作者簡(jiǎn)介:

謝澎濤,UCSD 副教授,研究受人類學(xué)習(xí)啟發(fā)的機(jī)器學(xué)習(xí)及其在 LLM、基礎(chǔ)模型與生物醫(yī)學(xué)的應(yīng)用。張睿一,UCSD 博士生,關(guān)注 LLM 效率、安全與測(cè)試時(shí)計(jì)算擴(kuò)展。秦佩嘉,UCSD 博士生,聚焦獎(jiǎng)勵(lì)模型與多智能體系統(tǒng)。曹啟,UCSD 博士生,主攻 LLM 推理。張力,UCSD 博士生,研究方向?yàn)闄C(jī)器視覺(jué)與視覺(jué)大模型。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
鄭麗文來(lái)京時(shí)間剛確定,馬英九卻先傾向美國(guó)?拒絕通話,斷其支援

鄭麗文來(lái)京時(shí)間剛確定,馬英九卻先傾向美國(guó)?拒絕通話,斷其支援

半窗疏影
2026-03-30 14:38:49
美軍集結(jié)地遭襲擊傷亡慘重!美媒:美國(guó)軍力遭受二戰(zhàn)后最嚴(yán)重削弱

美軍集結(jié)地遭襲擊傷亡慘重!美媒:美國(guó)軍力遭受二戰(zhàn)后最嚴(yán)重削弱

影孖看世界
2026-03-28 22:40:15
浙大研究:每天多吃一個(gè)蛋,心臟疾病和癌癥死亡風(fēng)險(xiǎn)增加?真相來(lái)了

浙大研究:每天多吃一個(gè)蛋,心臟疾病和癌癥死亡風(fēng)險(xiǎn)增加?真相來(lái)了

消化石醫(yī)生
2026-03-30 11:17:40
鐘塔西的生涯,其實(shí)就是大部分踢球孩子的縮影

鐘塔西的生涯,其實(shí)就是大部分踢球孩子的縮影

寫球的牧子
2026-03-30 16:10:43
特朗普:奪島,搶石油!地面戰(zhàn)持續(xù)數(shù)周,伊領(lǐng)袖發(fā)聲,布什號(hào)出動(dòng)

特朗普:奪島,搶石油!地面戰(zhàn)持續(xù)數(shù)周,伊領(lǐng)袖發(fā)聲,布什號(hào)出動(dòng)

小徹
2026-03-30 20:03:04
中俄同時(shí)下場(chǎng),美國(guó)最差局面出手,特朗普表態(tài),美媒:美國(guó)完了

中俄同時(shí)下場(chǎng),美國(guó)最差局面出手,特朗普表態(tài),美媒:美國(guó)完了

防衛(wèi)狙擊手
2026-03-30 13:39:04
廣東男籃北京男籃可做雙贏交易:焦泊喬+陳家政換范子銘

廣東男籃北京男籃可做雙贏交易:焦泊喬+陳家政換范子銘

男足的小球童
2026-03-30 19:36:17
臺(tái)積電已無(wú)法向美國(guó)交代了!張忠謀未說(shuō)謊:臺(tái)積電也無(wú)可奈何了

臺(tái)積電已無(wú)法向美國(guó)交代了!張忠謀未說(shuō)謊:臺(tái)積電也無(wú)可奈何了

歸史
2026-03-30 13:22:40
祁東女教師的瓜

祁東女教師的瓜

皮蛋兒電影
2026-03-23 15:30:40
伊朗的頭號(hào)強(qiáng)援到了,部隊(duì)進(jìn)入德黑蘭!特朗普的總統(tǒng)替代人選出爐

伊朗的頭號(hào)強(qiáng)援到了,部隊(duì)進(jìn)入德黑蘭!特朗普的總統(tǒng)替代人選出爐

諦聽骨語(yǔ)本尊
2026-03-30 17:12:03
iPhone Fold即將發(fā)布,系蘋果史上首款折疊屏手機(jī),外屏尺寸約為5.5英寸,展開后的內(nèi)屏則達(dá)到7.8英寸,電池容量突破5000毫安時(shí)

iPhone Fold即將發(fā)布,系蘋果史上首款折疊屏手機(jī),外屏尺寸約為5.5英寸,展開后的內(nèi)屏則達(dá)到7.8英寸,電池容量突破5000毫安時(shí)

魯中晨報(bào)
2026-03-30 18:17:07
人老了,想多活幾年,先管住自己這10點(diǎn):1、不摔倒,2、不勞累…

人老了,想多活幾年,先管住自己這10點(diǎn):1、不摔倒,2、不勞累…

荷蘭豆愛(ài)健康
2026-03-28 09:28:48
1992年陳云原警衛(wèi)員趙天元去看望老首長(zhǎng),陳云:你好久沒(méi)來(lái)看我了

1992年陳云原警衛(wèi)員趙天元去看望老首長(zhǎng),陳云:你好久沒(méi)來(lái)看我了

涼州辭
2026-03-30 08:50:03
簡(jiǎn)直就是本人!國(guó)外大叔cos生化9里昂堪稱百分百還原

簡(jiǎn)直就是本人!國(guó)外大叔cos生化9里昂堪稱百分百還原

游民星空
2026-03-30 17:15:44
體育局正式宣布,陳夢(mèng)正式上任,新崗位亮相,將與張繼科正面競(jìng)爭(zhēng)

體育局正式宣布,陳夢(mèng)正式上任,新崗位亮相,將與張繼科正面競(jìng)爭(zhēng)

海棠未眠a
2026-03-30 15:26:24
美軍3500名增援到達(dá)!以色列襲殺記者!伊朗:擊中美軍F-16戰(zhàn)斗機(jī),強(qiáng)力反擊將加速以政權(quán)崩潰

美軍3500名增援到達(dá)!以色列襲殺記者!伊朗:擊中美軍F-16戰(zhàn)斗機(jī),強(qiáng)力反擊將加速以政權(quán)崩潰

每日經(jīng)濟(jì)新聞
2026-03-29 00:39:10
內(nèi)部分裂——佩澤什基安與革命衛(wèi)隊(duì)領(lǐng)導(dǎo)人因伊朗控制權(quán)發(fā)生沖突

內(nèi)部分裂——佩澤什基安與革命衛(wèi)隊(duì)領(lǐng)導(dǎo)人因伊朗控制權(quán)發(fā)生沖突

老王說(shuō)正義
2026-03-29 22:38:27
全美900萬(wàn)人抗議,ICE代局長(zhǎng)焦慮到兩度入院,伊朗戰(zhàn)事成萬(wàn)斯與魯比奧“試金石”?

全美900萬(wàn)人抗議,ICE代局長(zhǎng)焦慮到兩度入院,伊朗戰(zhàn)事成萬(wàn)斯與魯比奧“試金石”?

紅星新聞
2026-03-30 17:15:13
4月即將上市的7款重磅新車,最后一款大概率涼涼?

4月即將上市的7款重磅新車,最后一款大概率涼涼?

汽車天涯
2026-03-29 10:51:42
上海電影院現(xiàn)場(chǎng)被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

上海電影院現(xiàn)場(chǎng)被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

靜若梨花
2026-03-01 16:25:46
2026-03-30 21:04:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12640文章數(shù) 142599關(guān)注度
往期回顧 全部

科技要聞

一句謊言引發(fā)的硅谷血案

頭條要聞

中國(guó)向能源緊缺的東南亞國(guó)家出口柴油等燃料 官方回應(yīng)

頭條要聞

中國(guó)向能源緊缺的東南亞國(guó)家出口柴油等燃料 官方回應(yīng)

體育要聞

想進(jìn)世界杯,意大利還要過(guò)他這一關(guān)

娛樂(lè)要聞

單依純凌晨發(fā)長(zhǎng)文道歉!李榮浩再回應(yīng)

財(cái)經(jīng)要聞

本輪地緣沖突,A股憑什么走出獨(dú)立行情

汽車要聞

限時(shí)12.58萬(wàn)起 銀河星耀8遠(yuǎn)航家系列上市

態(tài)度原創(chuàng)

健康
家居
旅游
親子
公開課

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

家居要聞

東方法式美學(xué) 現(xiàn)代簡(jiǎn)約

旅游要聞

怒江上罕見(jiàn)“雙虹凌空”,它就是永昌古驛道保存最好的雙孔鐵索橋

親子要聞

孩子眼睛出現(xiàn)這些現(xiàn)象,一定要警惕!

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版