国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

刷榜只是體力活!清華消費(fèi)10萬塊,一周「肝」出105個SOTA

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】AutoSOTA通過多智能體協(xié)作,將AI研究中繁瑣的性能優(yōu)化過程自動化,使科研從「手工藝」轉(zhuǎn)向「工業(yè)流水線」。只需5小時即可完成人類需數(shù)月的工作,極大釋放科學(xué)家的創(chuàng)造力,推動更多原創(chuàng)性探索。

在當(dāng)今的人工智能研究領(lǐng)域,實(shí)驗(yàn)室的燈火往往見證了無數(shù)次為了提升1%性能而進(jìn)行的徹夜調(diào)參。這種被戲稱為「煉丹」的過程,雖然最終產(chǎn)出了當(dāng)前的最佳水平(State-of-the-Art,簡稱SOTA),但也將人類科學(xué)家最寶貴的直覺與創(chuàng)造力,困在了無止境的「增量式優(yōu)化」勞動中。

面對這種高強(qiáng)度的競爭壓力,清華大學(xué)徐豐力助理教授團(tuán)隊(duì)與北京中關(guān)村學(xué)院推出了AutoSOTA項(xiàng)目。這不僅是一個技術(shù)工具的發(fā)布,更是試圖改寫AI研究領(lǐng)域的「工業(yè)節(jié)拍」,將AI科研從低效的「手工藝模式」推向高效的「工業(yè)流水線模式」。


論文網(wǎng)址:https://arxiv.org/abs/2604.05550

項(xiàng)目網(wǎng)站:https://tsinghua-fib-lab.github.io/AutoSOTA/

研究背景

要理解AutoSOTA的必要性,首先要看當(dāng)前AI科研的殘酷現(xiàn)狀。

以頂級AI學(xué)術(shù)會議為例,頂會論文海量的投稿和最終能夠脫穎而出的口頭報(bào)告(Oral)極低的比率使得SOTA性能指標(biāo)成為了衡量研究價值的「金標(biāo)準(zhǔn)」。

然而,攀登這一高峰需要投入巨量的研究力量。一個頂尖成果或許始于少數(shù)幾個大膽的直覺,但后續(xù)往往涉及數(shù)千次的持續(xù)打磨。

以著名的Transformer架構(gòu)為例,自2017年問世以來,全球科研人員投入了海量算力與人力,歷經(jīng)數(shù)年的變體研究與打磨,才將其在通用語言理解評測集(GLUE)上的性能從約75%提升至90%以上。

這種迭代優(yōu)化雖然必要,卻占用了人類科學(xué)家本可用于原創(chuàng)性探索的大量精力。


圖1 Transformer架構(gòu)在GLUE評測集上的性能爬升

全自動刷榜

不同于現(xiàn)有只能在沙盒里做局部代碼優(yōu)化的框架,AutoSOTA 并不是對單一實(shí)驗(yàn)環(huán)節(jié)的局部加速。

它將智能體的作用范圍大幅拓寬,向下延伸至環(huán)境準(zhǔn)備、代碼運(yùn)行等基礎(chǔ)瑣碎任務(wù),向上則觸達(dá)研究靈感激發(fā)等核心構(gòu)想步驟,旨在實(shí)現(xiàn)「從舊SOTA到新SOTA」、「從舊代碼庫到新代碼庫」的全面科研自動化。


圖2 AutoSOTA研究問題框架

借鑒人類算法研究中的分工流程與協(xié)作邏輯,使不同科研智能體能夠圍繞同一目標(biāo)推進(jìn)方案設(shè)計(jì)、實(shí)驗(yàn)操作、數(shù)據(jù)分析與優(yōu)化迭代,研究團(tuán)隊(duì)設(shè)計(jì)了8個各司其職的Agent:


圖3 AutoSOTA端到端AI科研自動化系統(tǒng)

在資源準(zhǔn)備與目標(biāo)設(shè)定階段,AgentResource負(fù)責(zé)物理落地,從PDF提取官方代碼庫,并自動搞定海量外部數(shù)據(jù)集和權(quán)重的下載,AgentObjective負(fù)責(zé)識別目標(biāo),通過樹狀結(jié)構(gòu)分解將論文宏觀目標(biāo)轉(zhuǎn)化為密集的評估標(biāo)準(zhǔn),精準(zhǔn)鎖定要超越的目標(biāo)。

構(gòu)建環(huán)境和實(shí)驗(yàn)評估階段,AgentInit負(fù)責(zé)初始化環(huán)境,根據(jù)論文概念補(bǔ)全代碼庫中缺失的腳本,AgentMonitor作為外部監(jiān)控者,實(shí)時追蹤執(zhí)行軌跡 。一旦發(fā)現(xiàn)agent陷入了死循環(huán)調(diào)試,會立刻介入打斷并提供高級指導(dǎo),AgentFix專治各種報(bào)錯。它帶著失敗記憶庫來修復(fù)CUDA不匹配、缺包等環(huán)境問題。

深度反思與突破創(chuàng)新階段,AgentIdeator是核心創(chuàng)新大腦,它結(jié)合外部文獻(xiàn)先驗(yàn)知識,提出架構(gòu)重組的優(yōu)化假設(shè) ,AgentScheduler作為系統(tǒng)調(diào)度中樞,管理實(shí)驗(yàn)的GPU資源和節(jié)點(diǎn)狀態(tài),并在每次改代碼前自動打好Git快照以便隨時回滾,AgentSupervisor作為監(jiān)督者,嚴(yán)格執(zhí)行由禁止修改評估腳本、禁止更改數(shù)據(jù)集劃分等規(guī)則組成的紅線系統(tǒng),所有生成的Idea必須經(jīng)過它的嚴(yán)格審計(jì)。

與此同時,AutoSOTA 配備了完善的工具庫(Toolkit)與技能集(Skill Set),既能處理實(shí)驗(yàn)運(yùn)行中的突發(fā)狀況,又能勝任查閱文獻(xiàn)、頭腦風(fēng)暴和方案謀劃等高級工作,真正打通了從頂層規(guī)劃到底層執(zhí)行的閉環(huán)。

這意味著,AutoSOTA的野心不僅是「跑實(shí)驗(yàn)快一點(diǎn)」,更是引領(lǐng)AI科研自動化從單一環(huán)節(jié)的輔助工具,蛻變?yōu)橐惶紫到y(tǒng)化、常態(tài)化且高度智能的科研協(xié)作生態(tài)。

一周斬獲105個SOTA

在最近進(jìn)行的一場為期一周的真實(shí)壓力測試中,AutoSOTA展示了令人震撼的工業(yè)產(chǎn)出能力。該實(shí)驗(yàn)以前一年的AI頂會論文成果為基礎(chǔ),在完全無人干預(yù)的條件下持續(xù)運(yùn)行。

一周(168小時)內(nèi)累計(jì)消耗約220億Token(約10.4萬美元,75萬元人民幣),最終成功發(fā)現(xiàn)了105個性能顯著提升的SOTA模型。這意味著系統(tǒng)在這周內(nèi),平均每隔約1.6小時就能完成一次性能飛躍。這105個新模型平均實(shí)現(xiàn)了近10%的性能提升。

更令人驚訝的是,這些成果并非簡單的超參數(shù)微調(diào),其中超過60%的模型涉及新穎的結(jié)構(gòu)設(shè)計(jì),展現(xiàn)了系統(tǒng)在復(fù)雜設(shè)計(jì)空間中的挖掘能力。AutoSOTA并非機(jī)械搜索,它能在已有研究的基礎(chǔ)上進(jìn)行一定程度的結(jié)構(gòu)創(chuàng)新。


圖4 AutoSOTA實(shí)驗(yàn)結(jié)果

AutoSOTA的吞吐量與人類科研路徑形成了極其鮮明的代差。對于一名經(jīng)驗(yàn)豐富的人類研究者或人類博士而言,完成一個SOTA模型的完整迭代優(yōu)化——包括精讀文獻(xiàn)、準(zhǔn)備算力資源、安裝工具搭建平臺、模型訓(xùn)練評估、深入調(diào)研創(chuàng)新構(gòu)思以及持續(xù)調(diào)優(yōu)——通常需要數(shù)個月的時間。

相比之下,AutoSOTA走完從閱讀論文到迭代優(yōu)化的全流程,平均耗時僅為5小時。

這種百倍速的提升,不僅是效率的飛躍,更是科研范式維度的「降維打擊」。系統(tǒng)通過「算力換智能」,在相對穩(wěn)定的條件下,持續(xù)產(chǎn)出具備學(xué)術(shù)競爭力的工作。它具備完善的工具庫與技能集,能夠獨(dú)立處理那些讓研究者頭疼的底層繁瑣任務(wù)。

總結(jié)

AutoSOTA帶給我們的震撼,不僅是產(chǎn)出了一批嶄新的SOTA指標(biāo),更深層的意義在于它促使學(xué)界反思科研創(chuàng)新的初衷:單純刷高SOTA分?jǐn)?shù),真的等同于實(shí)現(xiàn)了重大的科學(xué)突破嗎?

它為我們拋出了一個極具啟發(fā)性的命題:如何才能把人類科學(xué)家最稀缺的注意力,從機(jī)械的實(shí)驗(yàn)試錯中釋放出來,重新聚焦到更具原創(chuàng)價值、更考驗(yàn)長遠(yuǎn)判斷的研究課題上?

未來理想的「人機(jī)協(xié)作」圖景或許是這樣的:由科研智能體系統(tǒng)去死磕那些重復(fù)度高、勞動密集的漫長優(yōu)化流程;而人類科學(xué)家則專職負(fù)責(zé)提出好問題、錨定大方向、敏銳捕捉機(jī)遇并構(gòu)思底層機(jī)制。

從這個角度來看,AutoSOTA更像是一個加持在科研流程上的「創(chuàng)造力放大器」 。

它的初衷決不是為了取代學(xué)者的原創(chuàng)智慧,而是要把這種原創(chuàng)性從低效繁雜的苦力活里徹底解放出來。


圖5 AutoSOTA啟發(fā)的人智協(xié)同科研范式

歸根結(jié)底,真正關(guān)乎科研未來的,絕非讓學(xué)者們陷入「把舊模型分?jǐn)?shù)再推高一點(diǎn)」的循環(huán),而是賦予他們探索那些未被定義、未被解釋且未被系統(tǒng)深挖之難題的機(jī)會。

在這條探索之路上,AutoSOTA已經(jīng)邁出了極具標(biāo)志性的一步 。它不僅論證了智能體在AI科研自動化領(lǐng)域的磅礴潛力,更為我們描繪了一個充滿希望的明天:當(dāng)繁重的「性能優(yōu)化」被智能體接管,科學(xué)研究終將回歸其最純粹、最珍貴的起點(diǎn)——大膽地提出問題,勇敢地駛向未知,去追尋真正無可替代的原始創(chuàng)新突破。

AutoSOTA的意義在于它重新定義了SOTA的價值。

當(dāng)性能優(yōu)化可以被大規(guī)模自動化發(fā)現(xiàn)時,我們必須反思:SOTA性能的刷新是否等同于重大的科學(xué)突破?

AutoSOTA給出的答案是:它應(yīng)當(dāng)成為人類科學(xué)家的「創(chuàng)造力放大器」。

通過將工程實(shí)現(xiàn)與科學(xué)發(fā)現(xiàn)解耦,AutoSOTA讓研究者能夠面對那些尚未被解釋、尚未被系統(tǒng)探索的科學(xué)無人區(qū)。

參考資料:

https://arxiv.org/abs/2604.05550

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
香奈兒發(fā)布無底綁帶鞋,網(wǎng)友:太抽象了!

香奈兒發(fā)布無底綁帶鞋,網(wǎng)友:太抽象了!

都市快報(bào)橙柿互動
2026-04-29 15:43:37
人到中年才發(fā)現(xiàn)一個飯局定律:酒桌上,那個不喝酒、不說話、只埋頭吃菜的人,往往是這兩種

人到中年才發(fā)現(xiàn)一個飯局定律:酒桌上,那個不喝酒、不說話、只埋頭吃菜的人,往往是這兩種

心理觀察局
2026-04-29 15:46:18
五一將至,濟(jì)南、青島兩市紀(jì)委監(jiān)委發(fā)布關(guān)于違反中央八項(xiàng)規(guī)定精神典型問題的通報(bào)

五一將至,濟(jì)南、青島兩市紀(jì)委監(jiān)委發(fā)布關(guān)于違反中央八項(xiàng)規(guī)定精神典型問題的通報(bào)

魯中晨報(bào)
2026-04-29 20:59:33
林志玲自爆和公婆住一塊,丈夫每天準(zhǔn)時回家,自己凌晨3點(diǎn)未睡

林志玲自爆和公婆住一塊,丈夫每天準(zhǔn)時回家,自己凌晨3點(diǎn)未睡

白面書誏
2026-04-28 19:34:08
后續(xù)!岳陽高三水杯投毒案:施害者停課,受害者卻可能無緣高考

后續(xù)!岳陽高三水杯投毒案:施害者停課,受害者卻可能無緣高考

許三歲
2026-04-29 07:39:34
10倍牛股將被*ST !一天16家公司宣布“戴帽”

10倍牛股將被*ST !一天16家公司宣布“戴帽”

每日經(jīng)濟(jì)新聞
2026-04-29 13:39:40
2026年全面禁麻將?公安部劃定紅線,不超這個金額全合法!

2026年全面禁麻將?公安部劃定紅線,不超這個金額全合法!

筆墨V
2026-04-28 14:08:20
郭濤全家拍婚紗照,倆兒女太驚艷,兒子1米85很帥,女兒神似父親

郭濤全家拍婚紗照,倆兒女太驚艷,兒子1米85很帥,女兒神似父親

一娛三分地
2026-04-29 19:14:50
小米推出“米家燃?xì)庠?C 5200W”:適用于天然氣,首發(fā)價699元

小米推出“米家燃?xì)庠?C 5200W”:適用于天然氣,首發(fā)價699元

IT之家
2026-04-29 15:12:47
男子曝入職全球頂尖科技公司時突然被降薪20萬,拒offer后被嘲諷:你的愛國情懷不值20萬嗎

男子曝入職全球頂尖科技公司時突然被降薪20萬,拒offer后被嘲諷:你的愛國情懷不值20萬嗎

爆角追蹤
2026-04-27 14:54:06
被指控“賣黨求榮”后,韓國瑜正式發(fā)聲,季麟連回應(yīng),不簡單

被指控“賣黨求榮”后,韓國瑜正式發(fā)聲,季麟連回應(yīng),不簡單

愛下廚的阿釃
2026-04-29 19:19:48
中國男人在非洲有多歡迎?我在非洲創(chuàng)業(yè)十年,娶了三個老婆

中國男人在非洲有多歡迎?我在非洲創(chuàng)業(yè)十年,娶了三個老婆

千秋文化
2026-04-27 20:01:18
為什么失業(yè)集中發(fā)生在2026年?揭露4個扎心真相

為什么失業(yè)集中發(fā)生在2026年?揭露4個扎心真相

慧翔百科
2026-04-28 11:50:58
官方:山東泰山U20主教練崔鵬因試圖沖擊主裁判被禁賽6場

官方:山東泰山U20主教練崔鵬因試圖沖擊主裁判被禁賽6場

懂球帝
2026-04-29 19:33:37
乒羽是一家,張軍落馬顯現(xiàn)連鎖反應(yīng)!對劉國梁有罪推論純屬陰謀論

乒羽是一家,張軍落馬顯現(xiàn)連鎖反應(yīng)!對劉國梁有罪推論純屬陰謀論

中國足球的那些事兒
2026-04-29 20:21:00
單依純演唱會氛圍詭異,穿的像馬桶刷,歌曲獨(dú)白疑暗懟硬剛李榮浩

單依純演唱會氛圍詭異,穿的像馬桶刷,歌曲獨(dú)白疑暗懟硬剛李榮浩

一娛三分地
2026-04-28 19:26:23
最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

周軍律師聊案子
2026-04-21 09:50:16
5月1日嚴(yán)查正式開啟,退休三類事別亂做,人情往來也會被追責(zé)

5月1日嚴(yán)查正式開啟,退休三類事別亂做,人情往來也會被追責(zé)

芳姐侃社會
2026-04-29 12:07:06
官方:廣州龍獅與西班牙籃球俱樂部Lucentum Alicante達(dá)成合作

官方:廣州龍獅與西班牙籃球俱樂部Lucentum Alicante達(dá)成合作

懂球帝
2026-04-29 17:54:19
一個多月的親身感受,AI的接入全面顛覆傳統(tǒng)研發(fā)流程

一個多月的親身感受,AI的接入全面顛覆傳統(tǒng)研發(fā)流程

人人都是產(chǎn)品經(jīng)理社區(qū)
2026-04-28 07:48:37
2026-04-29 22:59:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
15095文章數(shù) 66819關(guān)注度
往期回顧 全部

科技要聞

今晨庭審紀(jì)實(shí)|馬斯克當(dāng)庭講述OpenAI被偷走

頭條要聞

院長兒子被指"吃空餉"涉百萬獎金 醫(yī)院調(diào)查稱其拿2萬

頭條要聞

院長兒子被指"吃空餉"涉百萬獎金 醫(yī)院調(diào)查稱其拿2萬

體育要聞

一場九球狂歡,各路神仙批量下凡

娛樂要聞

馬頔一句話,孫楊媽媽怒罵節(jié)目組2小時

財(cái)經(jīng)要聞

蘇州,率先進(jìn)入牛市

汽車要聞

技術(shù)天花板再摸高 全能型的奕境X9首秀

態(tài)度原創(chuàng)

親子
游戲
藝術(shù)
健康
公開課

親子要聞

奶瓶也要“低碳裝”?貝親亮相上海氣候周,開啟綠色育兒新賽道

《黎明行者之血》開發(fā)商還計(jì)劃打造第二個原創(chuàng)IP

藝術(shù)要聞

這些女神,竟然都是攝影師切爾尼亞季耶夫的復(fù)古作品!

干細(xì)胞治燒燙傷能用了么?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版