国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Agent不是關(guān)鍵!人大AiScientist實(shí)現(xiàn)23小時(shí)、74輪長(zhǎng)程記憶

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】中國(guó)人民大學(xué)團(tuán)隊(duì)打造的AiScientist,旨在解決長(zhǎng)程機(jī)器學(xué)習(xí)研究工程的持續(xù)性難題。該系統(tǒng)從論文理解開始,跨越環(huán)境配置、代碼實(shí)現(xiàn)與實(shí)驗(yàn)迭代,保持狀態(tài)連續(xù)與決策連貫,顯著提升科研效率。其核心在于通過File-as-Bus機(jī)制,穩(wěn)定保存項(xiàng)目狀態(tài),使AI能真正接手科研流程,而非僅輔助單個(gè)環(huán)節(jié)。

自動(dòng)化科學(xué)研究,正在成為人工智能領(lǐng)域最受關(guān)注的方向之一。

在機(jī)器學(xué)習(xí)場(chǎng)景下,已經(jīng)有越來越多系統(tǒng)能夠參與 idea generation、literature synthesis、targeted experimentation、scientific writing 等研究環(huán)節(jié)。無論是從論文到代碼,還是從實(shí)驗(yàn)到分析,AI for Research 的邊界都在快速外擴(kuò)。

AiScientist的切入點(diǎn),是在這些已有進(jìn)展的基礎(chǔ)上,進(jìn)一步關(guān)注一個(gè)更具操作性、也更接近真實(shí)科研流程的設(shè)定:長(zhǎng)程ML research engineering

在這一設(shè)定下,系統(tǒng)不只是完成某一個(gè)環(huán)節(jié),而是要從論文或研究目標(biāo)出發(fā),連續(xù)處理環(huán)境配置、依賴管理、資源獲取、代碼實(shí)現(xiàn)、實(shí)驗(yàn)執(zhí)行、結(jié)果對(duì)比、錯(cuò)誤歸因和反復(fù)修復(fù)。這里既有局部環(huán)節(jié)本身的技術(shù)難度,也有跨階段持續(xù)推進(jìn)時(shí)的系統(tǒng)性挑戰(zhàn)。

更關(guān)鍵的是,這些問題往往不會(huì)即時(shí)暴露。一個(gè)早期決策的偏差,可能要到數(shù)小時(shí)后的實(shí)驗(yàn)結(jié)果里才會(huì)顯現(xiàn);而一旦項(xiàng)目狀態(tài)在多輪推進(jìn)中丟失,后續(xù)階段就很難判斷問題究竟來自論文理解、實(shí)現(xiàn)細(xì)節(jié)、數(shù)據(jù)處理,還是基礎(chǔ)設(shè)施配置。

中國(guó)人民大學(xué)高瓴人工智能學(xué)院此次提出的AiScientist,正是沿著這條方向,試圖把AI從「能參與若干研究環(huán)節(jié)」進(jìn)一步推進(jìn)到「能持續(xù)接手研究工程流程」。


論文:https://arxiv.org/pdf/2604.13018

倉(cāng)庫:https://github.com/AweAI-Team/AiScientist

23小時(shí)、74輪實(shí)驗(yàn)

AiScientist在做什么?


AiScientist最直觀的結(jié)果,來自MLE-Bench Lite的Detecting Insults任務(wù)。

在這一任務(wù)上,AiScientist在23小時(shí)內(nèi)自主完成了74輪實(shí)驗(yàn)循環(huán),將validation AUC從0.903提升到了0.982,期間實(shí)現(xiàn)了18次best-so-far update

這一結(jié)果的意義,不只是分?jǐn)?shù)提高了多少,更在于它呈現(xiàn)出了一條完整的研究工程鏈路:從讀取任務(wù)、搭建環(huán)境、撰寫實(shí)現(xiàn),到運(yùn)行實(shí)驗(yàn)、分析偏差、修補(bǔ)系統(tǒng)、再驗(yàn)證結(jié)果,整個(gè)過程并非單次生成,而是持續(xù)迭代。

換句話說,AiScientist試圖解決的并不是「再做一個(gè)更強(qiáng)的代碼助手」,而是讓 AI 在真實(shí)科研流程中,開始具備持續(xù)推進(jìn)任務(wù)的能力。

AiScientist在解決什么問題?

現(xiàn)有不少AI for Research系統(tǒng),已經(jīng)能在某些研究環(huán)節(jié)展現(xiàn)出很強(qiáng)能力,例如生成代碼、總結(jié)論文、輔助實(shí)驗(yàn)設(shè)計(jì),甚至完成一整篇論文的撰寫。

AiScientist聚焦于實(shí)驗(yàn)性更強(qiáng)的場(chǎng)景:ML research engineering,它不是一個(gè)單點(diǎn)問題,而是一條跨階段、長(zhǎng)時(shí)間的連續(xù)任務(wù)鏈。系統(tǒng)需要先理解論文和目標(biāo)設(shè)定,再處理依賴與資源,完成實(shí)現(xiàn),運(yùn)行實(shí)驗(yàn),并根據(jù)實(shí)驗(yàn)輸出做歸因、修正和繼續(xù)迭代。

其中每一個(gè)環(huán)節(jié),本身都已經(jīng)足夠困難。論文可能是不完整、欠規(guī)格化的;環(huán)境配置與依賴下載常常瑣碎而脆弱;實(shí)驗(yàn)反饋具有明顯延遲,而且錯(cuò)誤原因往往交織在實(shí)現(xiàn)、數(shù)據(jù)、超參與基礎(chǔ)設(shè)施多個(gè)層面。

論文也指出,這一困難已經(jīng)在嚴(yán)苛評(píng)測(cè)中有所體現(xiàn):在 PaperBench 這類高難度從零復(fù)現(xiàn)任務(wù)上,最佳已報(bào)告agent僅達(dá)到約21%的replication rubric,而頂尖ML PhD在48小時(shí)預(yù)算下可達(dá)到41%。這說明,長(zhǎng)程研究工程的瓶頸并不只是模型能否完成局部推理,而是系統(tǒng)能否跨越多個(gè)階段,保持狀態(tài)連續(xù)和決策連貫。

也就是說,長(zhǎng)程ML research engineering既包含很多高難度的local problem,也要求把這些問題在時(shí)間線上順序串起來、相互校正、持續(xù)推進(jìn)。真正的難點(diǎn),不只是「這一輪會(huì)不會(huì)推理」,而是系統(tǒng)能不能在不同階段之間保持coherent progress。

不只是「多幾個(gè)Agent」


AiScientist 的核心設(shè)計(jì)理念,可以概括為一句話:thin control over thick state。

在這套系統(tǒng)中,頂層Orchestrator負(fù)責(zé)階段級(jí)控制與任務(wù)推進(jìn),相當(dāng)于一個(gè)輕量的總調(diào)度器;而真正承載項(xiàng)目記憶的,則不是一輪輪對(duì)話上下文,而是workspace中持續(xù)演化的分析、計(jì)劃、代碼、日志與實(shí)驗(yàn)記錄。

換句話說,AiScientist并不試圖讓某一個(gè)Agent把所有細(xì)節(jié)都「記在腦子里」,而是讓不同角色圍繞一個(gè)持續(xù)更新的項(xiàng)目狀態(tài)展開協(xié)作。頂層控制保持輕量,底層狀態(tài)保持厚實(shí),系統(tǒng)因此可以在長(zhǎng)程任務(wù)中逐步積累,而不是反復(fù)從頭開始。

這也是這篇工作的一個(gè)重要判斷:讓系統(tǒng)跑長(zhǎng)的關(guān)鍵,不只是多智能體分工本身,而是這些分工能否建立在穩(wěn)定、可繼承的項(xiàng)目狀態(tài)之上。

File-as-Bus是關(guān)鍵

AiScientist將這種「項(xiàng)目狀態(tài)」進(jìn)一步落實(shí)成了File-as-Bus機(jī)制。

簡(jiǎn)單理解,它不是把文件當(dāng)作普通附件來存放,而是把文件系統(tǒng)本身當(dāng)作長(zhǎng)程協(xié)作的底座。論文分析、任務(wù)計(jì)劃、實(shí)現(xiàn)代碼、實(shí)驗(yàn)日志、錯(cuò)誤記錄和中間結(jié)果,都被持續(xù)寫回workspace,成為后續(xù)階段可以重新讀取和利用的 durable artifacts。

這意味著,系統(tǒng)不是依賴對(duì)話里殘留的幾句摘要繼續(xù)工作,而是可以圍繞真實(shí)存在的項(xiàng)目證據(jù)來推進(jìn)下一步?jīng)Q策。對(duì)于長(zhǎng)程研究工程來說,這一點(diǎn)非常重要。因?yàn)榍耙浑A段的一個(gè)判斷,可能會(huì)在幾個(gè)小時(shí)后才以實(shí)驗(yàn)異常的形式暴露出來;如果這些中間狀態(tài)無法被完整保留,后續(xù)階段就很難準(zhǔn)確歸因,更難在正確位置做修補(bǔ)。

也因此,AiScientist的重點(diǎn)并不只是「讓多個(gè)Agent配合起來」,而是讓整個(gè)系統(tǒng)具備一種更穩(wěn)定的外部記憶能力。真正需要被傳遞的,不是某一輪的表面結(jié)論,而是項(xiàng)目在不同階段里逐步積累下來的狀態(tài)本身。

實(shí)驗(yàn)結(jié)果


在PaperBench上,AiScientist相對(duì)最佳匹配基線平均提升約10.54 分。這一結(jié)果說明,它并不只是在某個(gè)單獨(dú)case上有效,而是能夠在從論文復(fù)現(xiàn)到完整工程實(shí)現(xiàn)的高難度場(chǎng)景中,穩(wěn)定拉開與現(xiàn)有方法的差距。


在MLE-Bench Lite上,AiScientist達(dá)到了81.82% Any Medal,說明它不只擅長(zhǎng)「把系統(tǒng)先跑起來」,也能在更接近真實(shí)競(jìng)賽和研究迭代的場(chǎng)景中持續(xù)優(yōu)化結(jié)果。

更重要的是,這種提升并不是簡(jiǎn)單靠「多交互幾輪」堆出來的。論文明確指出:More interaction alone is not enough.額外的輪次只有建立在前面正確積累的狀態(tài)之上,才會(huì)真正轉(zhuǎn)化為長(zhǎng)程能力。否則,更多交互反而可能帶來更高成本和更多噪聲。


機(jī)制分析進(jìn)一步說明了這一點(diǎn)。移除File-as-Bus后,AiScientist在PaperBench上下降6.41分,在MLE-Bench Lite上Any Medal下降31.82個(gè)百分點(diǎn)。這表明,狀態(tài)連續(xù)性并不是一個(gè)「錦上添花」的設(shè)計(jì),而是長(zhǎng)程研究工程里真正影響系統(tǒng)能否持續(xù)推進(jìn)的關(guān)鍵因素之一。

與此同時(shí),論文也沒有把File-as-Bus說成唯一答案。實(shí)驗(yàn)同樣表明,hierarchical orchestration也在性能提升中起到了重要作用。換句話說,AiScientist的價(jià)值并不來自某一個(gè)單獨(dú)組件,而是來自orchestration與state continuity 共同支撐的系統(tǒng)設(shè)計(jì)。

啟示

如果只看結(jié)果,AiScientist的貢獻(xiàn)似乎只是「分?jǐn)?shù)更高了」。但從論文給出的機(jī)制分析來看,這項(xiàng)工作的價(jià)值其實(shí)更立體。

第一,長(zhǎng)程ML research engineering不只是很多l(xiāng)ocal problem的堆疊,它本身還是一個(gè)更難的 systems problem。論文理解、環(huán)境配置、資源下載、代碼實(shí)現(xiàn)、實(shí)驗(yàn)執(zhí)行、誤差診斷,這些環(huán)節(jié)單獨(dú)拿出來,很多都已經(jīng)是足夠困難的技術(shù)任務(wù);更難的是,要把這些環(huán)節(jié)在長(zhǎng)時(shí)間跨度里順序接起來、相互校正、持續(xù)推進(jìn)。也正因?yàn)槿绱耍瑳Q定系統(tǒng)成敗的,不只是某一步做得好不好,而是整個(gè)流程能否在跨階段推進(jìn)中保持連貫。

第二,AiScientist的關(guān)鍵,不只是用了multi-agent,而是把狀態(tài)連續(xù)性做成了系統(tǒng)能力。層級(jí)化orchestration當(dāng)然重要,它幫助不同角色聚焦不同階段;但真正讓這套組織形式產(chǎn)生復(fù)利的,是項(xiàng)目狀態(tài)能否以durable artifact的形式被穩(wěn)定保存、讀取、繼承和繼續(xù)利用。換句話說,multi-agent是組織形式,狀態(tài)連續(xù)性才是這套系統(tǒng)真正跑長(zhǎng)的基礎(chǔ)。

第三,File-as-Bus的價(jià)值,更多體現(xiàn)在后期refinement,而不只是前期搭一個(gè)能跑的腳手架。從消融結(jié)果看,去掉File-as-Bus后,系統(tǒng)未必立刻連基礎(chǔ)可運(yùn)行性都失去,但在更依賴后期優(yōu)化和結(jié)果逼近的指標(biāo)上,會(huì)出現(xiàn)更明顯退化。這意味著它真正帶來的,不只是executability,而是fidelity:讓系統(tǒng)能在多輪診斷、修補(bǔ)、對(duì)齊和優(yōu)化中,把每一輪試錯(cuò)都建立在前一輪留下的有效證據(jù)之上。

為什么這件事值得關(guān)注?

從更大的視角看,AiScientist指向的是一個(gè)比benchmark分?jǐn)?shù)更值得關(guān)注的問題:AI能否真正進(jìn)入科研流程,而不只是停留在某一個(gè)局部環(huán)節(jié)。

長(zhǎng)程ML research engineering既是很多困難local problem的串聯(lián),也是一個(gè)更難的systems problem。每個(gè)局部環(huán)節(jié)都足夠復(fù)雜,而把這些環(huán)節(jié)接起來、在多輪反饋里保持一致性、讓前一輪決策真正服務(wù)于后一輪推進(jìn),則更難。

AiScientist給出的一個(gè)重要啟示是:未來的AI科研系統(tǒng),關(guān)鍵不只是模型會(huì)不會(huì)推理、會(huì)不會(huì)寫代碼、會(huì)不會(huì)調(diào)用工具,而是能否在長(zhǎng)時(shí)間跨度里穩(wěn)定保存、繼承并利用項(xiàng)目狀態(tài)。

這也是為什么這項(xiàng)工作值得被放在更廣的AI for Research進(jìn)展中來看。它討論的不是單步能力的再增強(qiáng),而是 AI 如何真正從「輔助一個(gè)環(huán)節(jié)」走向「接手一條流程」。

與此同時(shí),團(tuán)隊(duì)也在將AiScientist從benchmark中的評(píng)測(cè)對(duì)象,逐步推進(jìn)為真實(shí)可用的軟件系統(tǒng)。換句話說,這項(xiàng)工作并不只是想回答「分?jǐn)?shù)能不能提高」,也想回答「AI 能不能真正走進(jìn)實(shí)驗(yàn)、復(fù)現(xiàn)、調(diào)參和迭代的日常流程里,進(jìn)一步解放實(shí)驗(yàn)層面的生產(chǎn)力」。

總結(jié)

AiScientist試圖推動(dòng)的,并不只是一個(gè)更強(qiáng)的科研Agent,而是一種對(duì)長(zhǎng)程研究工程的新理解:在真實(shí)科研任務(wù)中,真正重要的往往不是單次生成得多漂亮,而是系統(tǒng)能否在跨階段、跨輪次、跨文件的任務(wù)鏈中,把項(xiàng)目狀態(tài)穩(wěn)定存住,并據(jù)此持續(xù)推進(jìn)。

如果這一點(diǎn)成立,那么AI進(jìn)入科研流程的方式,也將從「輔助某一步」逐漸走向「接手整條鏈路」。

參考資料:

https://arxiv.org/pdf/2604.13018

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
雷軍宣布:小米車主安全行駛里程達(dá)十萬公里,可獲贈(zèng)實(shí)體限量徽章、精美虛擬勛章,一鍵生成專屬行車故事

雷軍宣布:小米車主安全行駛里程達(dá)十萬公里,可獲贈(zèng)實(shí)體限量徽章、精美虛擬勛章,一鍵生成專屬行車故事

魯中晨報(bào)
2026-04-18 16:20:17
雷霆大勝太陽總分1-0:亞歷山大25分17罰 布克23分杰倫22+7+6

雷霆大勝太陽總分1-0:亞歷山大25分17罰 布克23分杰倫22+7+6

醉臥浮生
2026-04-20 06:07:58
重磅!34歲國(guó)乒世界冠軍換籍復(fù)出 代表哈薩克斯坦參賽 效仿朱雨玲

重磅!34歲國(guó)乒世界冠軍換籍復(fù)出 代表哈薩克斯坦參賽 效仿朱雨玲

念洲
2026-04-20 11:51:43
2天就猝死!醫(yī)生提示:冠心病患者若常出現(xiàn)4個(gè)異常,立即就醫(yī)

2天就猝死!醫(yī)生提示:冠心病患者若常出現(xiàn)4個(gè)異常,立即就醫(yī)

牛鍋巴小釩
2026-04-20 19:05:26
釋永信“開光”真相大白,過程不堪入目,易中天也被牽連

釋永信“開光”真相大白,過程不堪入目,易中天也被牽連

往史過眼云煙
2026-03-24 17:05:24
“3歲男童遭生父女友虐待致死案”,明日宣判

“3歲男童遭生父女友虐待致死案”,明日宣判

南方都市報(bào)
2026-04-20 17:00:24
金像獎(jiǎng)上最耀眼的5位明星,個(gè)個(gè)拿獎(jiǎng),實(shí)至名歸,皆被觀眾喜愛

金像獎(jiǎng)上最耀眼的5位明星,個(gè)個(gè)拿獎(jiǎng),實(shí)至名歸,皆被觀眾喜愛

叨嘮
2026-04-20 03:23:05
女兒美國(guó)讀高中花掉110萬,單親媽媽向社會(huì)求助:求捐200萬讀大學(xué)

女兒美國(guó)讀高中花掉110萬,單親媽媽向社會(huì)求助:求捐200萬讀大學(xué)

談史論天地
2026-04-17 16:50:03
白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

特約前排觀眾
2025-12-22 00:20:06
伊朗宣布關(guān)閉霍爾木茲海峽

伊朗宣布關(guān)閉霍爾木茲海峽

財(cái)聯(lián)社
2026-04-19 02:25:05
馬筱梅怒與小楊阿姨切割,下通牒后,阿姨 3 句話慌了神

馬筱梅怒與小楊阿姨切割,下通牒后,阿姨 3 句話慌了神

橙星文娛
2026-04-20 16:59:16
僅播5集,熱度破22000,追完后我想說:能和《漫長(zhǎng)的季節(jié)》媲美了

僅播5集,熱度破22000,追完后我想說:能和《漫長(zhǎng)的季節(jié)》媲美了

星宿影視鴨
2026-04-20 10:58:00
通報(bào)!特大串通投標(biāo)案82人落網(wǎng),19人被判刑

通報(bào)!特大串通投標(biāo)案82人落網(wǎng),19人被判刑

新浪財(cái)經(jīng)
2026-04-20 10:52:23
林丹親自回應(yīng)12歲燒傷男孩!為其免費(fèi)提供治療,相約賽場(chǎng)見面

林丹親自回應(yīng)12歲燒傷男孩!為其免費(fèi)提供治療,相約賽場(chǎng)見面

閱微札記
2026-04-20 14:48:14
情侶利用店鋪展示漏洞偷走上千個(gè)玩偶,涉案近3萬元被刑拘

情侶利用店鋪展示漏洞偷走上千個(gè)玩偶,涉案近3萬元被刑拘

環(huán)球網(wǎng)資訊
2026-04-20 14:55:12
我52歲女干部,絕經(jīng)3年和65歲老干部出差三亞才明白什么是真女人

我52歲女干部,絕經(jīng)3年和65歲老干部出差三亞才明白什么是真女人

吃貨的分享
2026-04-20 18:55:57
1955年楊國(guó)夫估計(jì)自己能評(píng)少將,結(jié)果公布后發(fā)現(xiàn),他竟評(píng)上了中將

1955年楊國(guó)夫估計(jì)自己能評(píng)少將,結(jié)果公布后發(fā)現(xiàn),他竟評(píng)上了中將

野史日記
2026-04-19 21:35:03
馬斯克再放狠話:能造出超級(jí)高鐵,比中國(guó)任何公共交通系統(tǒng)都要好

馬斯克再放狠話:能造出超級(jí)高鐵,比中國(guó)任何公共交通系統(tǒng)都要好

通文知史
2026-04-19 19:00:08
大幅降薪?波爾津吉斯未承諾留在勇士效力:今夏將成完全自由球員

大幅降薪?波爾津吉斯未承諾留在勇士效力:今夏將成完全自由球員

羅說NBA
2026-04-20 04:46:16
前六輪下來!申花是扣分球隊(duì)里面拿分最多 如果不扣分就是老二了

前六輪下來!申花是扣分球隊(duì)里面拿分最多 如果不扣分就是老二了

80后體育大蜀黍
2026-04-20 20:53:40
2026-04-20 22:00:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
15021文章數(shù) 66790關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價(jià)10999元起

頭條要聞

保價(jià)2000元機(jī)蓋運(yùn)輸中損壞 德邦僅愿以1300元回購(gòu)

頭條要聞

保價(jià)2000元機(jī)蓋運(yùn)輸中損壞 德邦僅愿以1300元回購(gòu)

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財(cái)經(jīng)要聞

利潤(rùn)暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

本地
健康
時(shí)尚
手機(jī)
公開課

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

春天就該這樣穿!裙子選彩色、白色T恤作內(nèi)搭,舒適優(yōu)雅簡(jiǎn)約

手機(jī)要聞

OPPO Find X9s Pro/X9 Ultra爆料匯總,新機(jī)明天見

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版