国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

這個AI能自己造AI,十幾分鐘寫完代碼,一天交付可用模型

0
分享至

近日,在 OpenAI 發(fā)布的機器學(xué)習(xí)工程師基準(zhǔn)測試(MLE-bench)中,一個名為 AIBuildAI 的智能體系統(tǒng)以 63.11% 的整體得分穩(wěn)居第一。

AIBuildAI 是一個可以自動構(gòu)建 AI 模型的 AI 智能體。這意味著,你只需給它一個自然語言任務(wù)描述和數(shù)據(jù)文件夾,它就能在一天內(nèi)獨立完成模型設(shè)計、代碼生成、模型訓(xùn)練、超參數(shù)調(diào)優(yōu)、性能評估,并持續(xù)迭代改進模型性能。


(來源:受訪者提供)

這個“AI 工程師”背后的主要負(fù)責(zé)人,正是加州大學(xué)圣地亞哥分校(UCSD)電氣與計算機工程系副教授謝澎濤(Pengtao Xie)。他擁有卡內(nèi)基梅隆大學(xué)機器學(xué)習(xí)系博士背景,研究方向聚焦人類學(xué)習(xí)技能啟發(fā)的機器學(xué)習(xí),并將其應(yīng)用于大語言模型、基礎(chǔ)模型以及生物醫(yī)學(xué)領(lǐng)域。

據(jù)謝澎濤介紹,AIBuildAI 的誕生,最初是為了解決實驗室內(nèi)部一個非?,F(xiàn)實的困境。

“我們團隊有兩類學(xué)生。一類是生物醫(yī)學(xué)背景的,他們希望用 AI 預(yù)測 RNA 功能、蛋白質(zhì)結(jié)構(gòu)等具體問題,但缺乏建模和編程能力;另一類是 AI 方法背景的,雖然能自己寫代碼,卻要花好幾天甚至幾周反復(fù)實驗?!敝x澎濤告訴 DeepTech。

“如果有一個智能體,能讓用戶只用自然語言描述任務(wù),后續(xù)所有步驟——模型架構(gòu)設(shè)計、代碼編寫、訓(xùn)練、超參數(shù)調(diào)優(yōu)、性能評估、甚至自我復(fù)盤改進——全部自動完成,那對兩類學(xué)生都是巨大解放。”他補充道。

于是,AIBuildAI 項目正式啟動。“智能體本身大約做了半年,但底層的推理、合成數(shù)據(jù)等技術(shù)我們已經(jīng)積累了好幾年。”謝澎濤透露,團隊對于這款智能體的定位也十分明確:基于成熟 AI 模塊組合設(shè)計模型,解決落地性強的常規(guī)任務(wù)。

據(jù)悉,AIBuildAI 是一套模塊化、可閉環(huán)運行的 AI 智能體系統(tǒng),整體分為三層,各司其職又深度聯(lián)動,實現(xiàn)從任務(wù)理解到模型交付的全流程無人干預(yù)。

頂層是任務(wù)理解與決策層。當(dāng)用戶輸入“預(yù)測 RNA 功能”或“蛋白質(zhì)酶分類”等自然語言指令時,這一層負(fù)責(zé)解析意圖、判斷任務(wù)類型并拆解執(zhí)行步驟。它是整個系統(tǒng)的“指揮中心”,決定了建模的方向和邏輯。

在這一核心中樞的選擇上,團隊選用了 Claude-Opus-4.6 大模型?!拔覀儨y試對比了多個模型,雖然 GPT-5 在某些設(shè)計思路上表現(xiàn)出色,但在智能體最關(guān)鍵的環(huán)節(jié)——‘寫代碼’上,Claude 的穩(wěn)定性、長流程邏輯理解和結(jié)構(gòu)化指令執(zhí)行力是最適配建模場景的?!?/p>

中層是推理與代碼生成層,也是 AIBuildAI 的技術(shù)核心,搭載團隊自研的 Dream PRM(過程獎勵模型)、Dream ORM(結(jié)果獎勵模型)推理模塊,負(fù)責(zé)模型設(shè)計、代碼編寫、迭代復(fù)盤。PRM 負(fù)責(zé)步驟級精準(zhǔn)推理,ORM 負(fù)責(zé)結(jié)果校驗與優(yōu)化建議,雙重保障每一步執(zhí)行不出錯,避免“一步錯、全流程崩”的問題,也是實現(xiàn)自動復(fù)盤改進的關(guān)鍵。

底層是執(zhí)行與訓(xùn)練層,其承接中層生成的代碼和方案,自動完成數(shù)據(jù)加載、模型訓(xùn)練、超參數(shù)調(diào)優(yōu)、性能評估、結(jié)果輸出,同時管控硬件資源和算力消耗。這一層把上層的“設(shè)計思路”轉(zhuǎn)化為可運行、可部署的實際模型。


(來源:受訪者提供)

為了驗證 AIBuildAI 的能力,團隊在 MLE-bench 的 75 個任務(wù)(涵蓋醫(yī)療、物理、生物等多個學(xué)科)中進行了測試。MLE-Bench 是 OpenAI 推出的全球頂尖的全自動機器學(xué)習(xí)測評平臺,專門考核 AI 智能體 “獨立構(gòu)建有效 AI 模型” 的能力,測評覆蓋簡單(Low)、中等(Medium)、高難度(High) 三類真實 AI 任務(wù),最終按整體準(zhǔn)確率排名,是行業(yè)內(nèi)公認(rèn)的“全自動 ML 能力試金石”。

AIBuildAI 在這個測評中交出了亮眼的成績,在無測試數(shù)據(jù)泄露的前提下排名第一。其中簡單任務(wù)準(zhǔn)確率77.27%;中等任務(wù)準(zhǔn)確率 61.40%;高難度任務(wù)準(zhǔn)確率 46.67%;整體綜合準(zhǔn)確率 63.11%。

以“蛋白質(zhì)酶類別預(yù)測”為例,該任務(wù)基于發(fā)表在 Science 論文的數(shù)據(jù)集,AIBuildAI 自動構(gòu)建的模型,效果完全對標(biāo)論文成果,普通用戶借助簡化數(shù)據(jù)集就能快速復(fù)現(xiàn)。

“對比學(xué)生手動寫代碼需要好幾天,AIBuildAI 十幾分鐘就能完成代碼編寫,大多數(shù)數(shù)據(jù)量不大的任務(wù),一天內(nèi)就能落地?!敝x澎濤介紹道。

目前,AIBuildAI 已深度融入團隊實驗室工作,主要服務(wù)生物醫(yī)學(xué)背景的研究者,完美適配分類、回歸、序列分析等單模態(tài)任務(wù),無論是生物信息數(shù)據(jù)分析,還是產(chǎn)業(yè)界的預(yù)測建模需求,都能輕松勝任。但對于 AI方向博士生的前沿研究、多模態(tài)融合任務(wù),目前仍無法完全滿足,團隊仍在持續(xù)迭代優(yōu)化。

針對用戶關(guān)心的系統(tǒng)適配問題,謝澎濤表示,現(xiàn)階段 AIBuildAI 僅支持 Linux 系統(tǒng),暫無適配 Mac、Windows 的計劃?!癆I 模型訓(xùn)練依賴 GPU,而 99% 的 GPU 環(huán)境都部署在 Linux 上,足以覆蓋絕大多數(shù)使用場景?!?/p>

據(jù)悉,AIBuildAI 已開啟中小企業(yè)試用,收獲了不少真實反饋,也明確了下一步優(yōu)化方向。用戶反饋的核心問題集中在兩點:數(shù)據(jù)處理能力不足,難以應(yīng)對缺失值、標(biāo)注混亂等問題;對用戶意圖理解不夠精準(zhǔn)。

謝澎濤坦言,數(shù)據(jù)處理的技術(shù)難點并不大,通過增加數(shù)據(jù)質(zhì)量檢查工具就能逐步優(yōu)化,但現(xiàn)實場景中數(shù)據(jù)問題繁雜,實現(xiàn)泛化適配仍有挑戰(zhàn)。這也是團隊接下來的重點攻堅方向。

對于 AIBuildAI 的長遠未來,謝澎濤有著更宏大的構(gòu)想:讓智能體具備自我學(xué)習(xí)、自我進化的能力?!拔磥硭苤鲃娱喿x最新論文,歸納新知識、轉(zhuǎn)化為自身技能,不用人工干預(yù)就能實現(xiàn)能力升級。”

1.https://pengtaoxie.github.io/

2.https://github.com/aibuildai/AI-Build-AI

3.https://github.com/openai/mle-bench/pull/126

4.https://www.science.org/doi/10.1126/science.adf2465

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
若曼城剩余英超比賽全勝,英超冠軍歸屬可能通過凈勝球決定

若曼城剩余英超比賽全勝,英超冠軍歸屬可能通過凈勝球決定

懂球帝
2026-04-11 22:00:12
李想在朋友圈飆臟話!疑似炮轟東風(fēng)日產(chǎn)

李想在朋友圈飆臟話!疑似炮轟東風(fēng)日產(chǎn)

鞭牛士
2026-04-11 16:34:04
寶馬“炮轟”比亞迪:不是我們做不到閃充,是不愿犧牲電池耐用性

寶馬“炮轟”比亞迪:不是我們做不到閃充,是不愿犧牲電池耐用性

混沌錄
2026-04-10 22:53:05
萬茜蹲火了

萬茜蹲火了

動物奇奇怪怪
2026-04-11 17:32:32
鄭麗文明確兩岸統(tǒng)一方向,臺10位縣市長發(fā)聲,蔣萬安盧秀燕均表態(tài)

鄭麗文明確兩岸統(tǒng)一方向,臺10位縣市長發(fā)聲,蔣萬安盧秀燕均表態(tài)

娛樂小可愛蛙
2026-04-11 11:06:06
美國前情報局長爆出俄烏戰(zhàn)場驚人內(nèi)幕,烏軍重新殺回紅軍城

美國前情報局長爆出俄烏戰(zhàn)場驚人內(nèi)幕,烏軍重新殺回紅軍城

史政先鋒
2026-04-11 20:44:50
A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

另子維愛讀史
2026-04-11 13:26:55
難以置信!張雪峰離世后,峰學(xué)蔚來員工從10點變?yōu)槠甙它c主動到崗

難以置信!張雪峰離世后,峰學(xué)蔚來員工從10點變?yōu)槠甙它c主動到崗

火山詩話
2026-04-11 19:37:49
大眾汽車官宣,停產(chǎn)純電車型!

大眾汽車官宣,停產(chǎn)純電車型!

新浪財經(jīng)
2026-04-11 15:06:14
中美沒談妥?沉默12天,美宣布維持對華高額關(guān)稅,逼中方交出稀土

中美沒談妥?沉默12天,美宣布維持對華高額關(guān)稅,逼中方交出稀土

民間胡扯老哥
2026-04-11 05:52:40
標(biāo)120W的充電器實際功率僅22.5W,商家:120W是產(chǎn)品型號

標(biāo)120W的充電器實際功率僅22.5W,商家:120W是產(chǎn)品型號

極目新聞
2026-04-11 00:53:31
突發(fā):以軍發(fā)動襲擊

突發(fā):以軍發(fā)動襲擊

第一財經(jīng)資訊
2026-04-11 10:21:30
紅牌!補時壓哨絕平,鄭智不敢相信:3分變1分,5輪僅1勝

紅牌!補時壓哨絕平,鄭智不敢相信:3分變1分,5輪僅1勝

足球狗說
2026-04-11 21:01:49
各國不吃的食物:韓國人不吃香菜,俄羅斯人不吃海參,中國人呢?

各國不吃的食物:韓國人不吃香菜,俄羅斯人不吃海參,中國人呢?

阿纂看事
2026-04-11 19:24:41
震驚!做普工都要驗資了,網(wǎng)傳深圳一工廠招工,身價最低300元起

震驚!做普工都要驗資了,網(wǎng)傳深圳一工廠招工,身價最低300元起

火山詩話
2026-04-11 14:54:51
2026年勞務(wù)派遣大整改:熬了這么多年,派遣打工人終于迎來春天!

2026年勞務(wù)派遣大整改:熬了這么多年,派遣打工人終于迎來春天!

老特有話說
2026-04-09 18:11:29
廣東:超強臺風(fēng),可能發(fā)生20年一遇洪水!

廣東:超強臺風(fēng),可能發(fā)生20年一遇洪水!

東莞好生活
2026-04-11 16:40:22
突發(fā)!以軍發(fā)動襲擊

突發(fā)!以軍發(fā)動襲擊

農(nóng)民日報
2026-04-11 09:56:05
"翻臉"是遲早的事?王濛怒甩李小冉當(dāng)眾黑臉,內(nèi)娛惡俗一幕被揭開

"翻臉"是遲早的事?王濛怒甩李小冉當(dāng)眾黑臉,內(nèi)娛惡俗一幕被揭開

離離言幾許
2026-04-11 15:21:33
女子坐地鐵時被擋水板絆倒受傷,索賠27萬元!法院:駁回,不能因“在公共場所受傷”盲目索賠

女子坐地鐵時被擋水板絆倒受傷,索賠27萬元!法院:駁回,不能因“在公共場所受傷”盲目索賠

揚子晚報
2026-04-11 09:00:29
2026-04-11 22:35:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16567文章數(shù) 514863關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

特朗普:美方開始清理霍爾木茲海峽

頭條要聞

特朗普:美方開始清理霍爾木茲海峽

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

鄭鈞回應(yīng)兒子走路:會監(jiān)督他挺直腰板

財經(jīng)要聞

從日本翻身看:這次誰能扛住高油價?

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

手機
旅游
時尚
教育
公開課

手機要聞

榮耀600 Pro再次曝光,極窄四等邊+超大R角,驍龍8 Elite也沒落下

旅游要聞

火出圈!成都人民公園相親角被老外包圍了

普通人穿衣其實很簡單!構(gòu)造腰線、一衣多穿,大方舒適又自然

教育要聞

2026年昆明幼升小 審核材料正在進行中 家長請保持手機暢通!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版