国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大變天?Nature 報道科研邁向AI自動化:從研究構(gòu)思到通過盲審

0
分享至


認(rèn)知神經(jīng)科學(xué)前沿文獻(xiàn)分享


基本信息

Title:Towards end-to-end automation of AI research

發(fā)表時間:2026-03-25

發(fā)表期刊:Nature

影響因子:48.5

獲取原文:

1. 添加小助手:PSY-Brain-Frontier即可獲取PDF版本



研究背景

過去幾年,AI在科研中的角色不斷擴(kuò)張,但多數(shù)停留在查文獻(xiàn)、寫代碼、提假設(shè)等單點輔助上。真正困難的問題是:模型能否將一個研究想法推進(jìn)成完整實驗,再把實驗結(jié)果整理成論文,并最終通過同行評議的檢驗?

這篇《Nature》論文探討的正是這一關(guān)鍵缺口:是否可以構(gòu)建一個基于基礎(chǔ)模型(foundation models)的代理式系統(tǒng)(agentic system),端到端自動完成機(jī)器學(xué)習(xí)科研流程。作者提出了The AI Scientist系統(tǒng),其目標(biāo)不是簡單生成文本,而是覆蓋構(gòu)思、查重、實驗、畫圖、寫作乃至AI審稿的完整鏈條。同時,評估這類系統(tǒng)本身也極具挑戰(zhàn)。若每次都依賴人類專家逐篇審稿,成本極高且難以規(guī)?;容^。因此,作者構(gòu)建了配套的自動審稿器 The Automated Reviewer,用以近似人類評審群體的判斷。

這項工作最引人注目的結(jié)果在于其真實的外部驗證:經(jīng)批準(zhǔn)后,3篇全AI生成的論文被匿名投至ICLR 2025的一個workshop,其中1篇在真實盲審中超過了平均接收閾值。這表明AI自動化科研開始觸碰真實學(xué)術(shù)評審體系,但作者也極其謹(jǐn)慎地指出,這距離頂級主會標(biāo)準(zhǔn)仍有明顯差距,且系統(tǒng)的穩(wěn)定性與方法正確性仍有待解決。


實驗設(shè)計與方法邏輯

論文的論證為三個層次:系統(tǒng)構(gòu)建、評估器驗證與能力檢驗。

第一層是系統(tǒng)構(gòu)建。The AI Scientist包含兩種形態(tài):基于模板(template-based)的系統(tǒng)從人類提供的初始代碼出發(fā),在特定子領(lǐng)域上迭代推進(jìn);無模板(template-free)系統(tǒng)則在更開放的空間中,通過代理式樹搜索(agentic tree search)生成代碼、調(diào)試并推進(jìn)研究議程,更接近從零開始的開放式科研。

第二層是評估器驗證。作者構(gòu)建了The Automated Reviewer,采用5個獨(dú)立AI審稿加1個元審稿(meta-review)的集成流程。在OpenReview的ICLR歷史決策數(shù)據(jù)上,該審稿器的平衡準(zhǔn)確率(balanced accuracy)達(dá)到0.66至0.69,與已知的人類評審一致性水平相當(dāng)。這使其具備了作為大規(guī)模比較系統(tǒng)輸出質(zhì)量的近似標(biāo)尺的資格。

第三層是能力檢驗。作者首先在內(nèi)部比較了不同底層模型和測試時計算(test-time compute)對生成論文質(zhì)量的影響。隨后進(jìn)行了最關(guān)鍵的外部驗證:經(jīng)ICLR 2025 workshop組織方和IRB批準(zhǔn),作者將3篇未經(jīng)人工修改正文的AI生成論文提交至ICBINB workshop盲審。此設(shè)計的目的并非證明AI已達(dá)頂會水平,而是檢驗其能否在真實同行評審場景下跨過最低可接受門檻。


核心發(fā)現(xiàn)

發(fā)現(xiàn)一:AI首次閉環(huán)完成科研流程,并在真實workshop盲審中達(dá)到接收門檻

The AI Scientist將提出想法、新穎性檢查、修改代碼、運(yùn)行實驗、繪制圖表、撰寫論文及AI審稿等環(huán)節(jié)串聯(lián)為完整閉環(huán)。在經(jīng)批準(zhǔn)的外部驗證中,3篇全AI生成的論文被提交至ICLR 2025的ICBINB workshop。其中1篇獲得6、7、6的評分,超過該workshop的平均接收閾值。這證明全AI生成的論文已能在真實的同行評審環(huán)境中跨過初步門檻,但作者強(qiáng)調(diào),這僅是workshop級別,且3篇中僅1篇過線,尚未達(dá)到頂級主會標(biāo)準(zhǔn)。



Fig. 1a 中,作者展示了 The AI Scientist 覆蓋構(gòu)思、實驗、寫作與審稿的完整流程;Fig. 2 則展示了在真實盲審中達(dá)到接收門檻的 AI 生成論文片段。
發(fā)現(xiàn)二:底層模型升級與測試時計算增加,能顯著提升AI生成的論文質(zhì)量

借助與人類評審一致性相當(dāng)?shù)淖詣訉徃迤鳎髡吡炕u估了不同配置下的系統(tǒng)產(chǎn)出。結(jié)果顯示,驅(qū)動系統(tǒng)的底層基礎(chǔ)模型發(fā)布時間越新,生成的論文得分越高。此外,在無模板的開放式探索中,增加測試時計算,尤其是增加樹搜索中的實驗節(jié)點預(yù)算,能讓系統(tǒng)嘗試更多路徑并修復(fù)錯誤,從而進(jìn)一步提高最終論文的質(zhì)量評分。


Fig. 1b 中,作者展示了不同發(fā)布時間的底層模型驅(qū)動系統(tǒng)時,論文評分整體上升的趨勢;Fig. 3c 則表明隨著實驗節(jié)點數(shù)量增加,自動審稿器給出的論文分?jǐn)?shù)也隨之上升。
發(fā)現(xiàn)三:當(dāng)前系統(tǒng)仍存在方法錯誤與幻覺等短板,尚未能穩(wěn)定替代人類科研

文中 Limitations 段落與討論中,作者認(rèn)為:盡管實現(xiàn)了流程閉環(huán),但當(dāng)前系統(tǒng)在科學(xué)嚴(yán)謹(jǐn)性上仍存在明顯瓶頸。作者坦誠列舉了常見的失敗模式,包括研究想法不成熟、核心方法實現(xiàn)錯誤、實驗不夠嚴(yán)謹(jǐn)、圖表重復(fù)以及引用幻覺(hallucination)等。這些問題直接觸及科學(xué)研究的正確性與可信度。因此,當(dāng)前的系統(tǒng)更像是一個能跑通流程的研究代理原型,若無監(jiān)督地大規(guī)模使用,可能帶來制造文獻(xiàn)噪聲、擠占評審資源等倫理與社會風(fēng)險。


省流總結(jié)

本研究提出The AI Scientist系統(tǒng),實現(xiàn)了機(jī)器學(xué)習(xí)科研從構(gòu)思到審稿的端到端自動化。在真實workshop盲審中,1篇AI生成論文達(dá)到接收門檻。盡管模型升級能提升質(zhì)量,但系統(tǒng)仍存在實驗錯誤與幻覺等短板,距離頂會標(biāo)準(zhǔn)仍有差距。


請打分

這篇剛剛登上Nature的研究,是否實至名歸?我們邀請您作為“云審稿人”,一同品鑒。精讀全文后,歡迎在匿名投票中打分,并在評論區(qū)分享您的深度見解。

分享人:天天

審核:PsyBrain 腦心前沿編輯部

你好,這里是「PsyBrain 腦心前沿

專注追蹤全球認(rèn)知神經(jīng)科學(xué)的最尖端突破

視野直擊 Nature, Science, Cell 正刊 及核心子刊與頂級大刊

每日速遞「深度解讀」與「前沿快訊

科研是一場探索未知的長跑,但你無需獨(dú)行。歡迎加入PsyBrain 學(xué)術(shù)社群,和一群懂你的同行,共同丈量腦與心智的無垠前沿。

點擊卡片進(jìn)群,歡迎你的到來

一鍵關(guān)注,點亮星標(biāo) ? 前沿不走丟!


一鍵分享,讓更多人了解前沿

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
為什么偷情的首要任務(wù)就是發(fā)生關(guān)系呢?

為什么偷情的首要任務(wù)就是發(fā)生關(guān)系呢?

思絮
2026-04-17 09:43:07
印度總理莫迪、新加坡前總理李顯龍、不丹國王都用的什么相機(jī)?

印度總理莫迪、新加坡前總理李顯龍、不丹國王都用的什么相機(jī)?

攝影初級班
2026-04-16 16:16:29
評分比對面全隊還低,C羅虐菜局再現(xiàn)散步級表現(xiàn)

評分比對面全隊還低,C羅虐菜局再現(xiàn)散步級表現(xiàn)

耀陽體育
2026-04-17 07:12:13
江蘇放晴升溫 4月18日最高氣溫沖28℃

江蘇放晴升溫 4月18日最高氣溫沖28℃

金臺資訊
2026-04-17 07:26:17
后來,我才明白,斷聯(lián)后不刪除、不拉黑、不聯(lián)系的人,不是在等對方回頭,而是在等自己放下

后來,我才明白,斷聯(lián)后不刪除、不拉黑、不聯(lián)系的人,不是在等對方回頭,而是在等自己放下

品讀時刻
2026-04-12 09:08:19
還剩7天,賴清德將登機(jī)離島,國臺辦宣告結(jié)局,賴岳謙說得沒毛病

還剩7天,賴清德將登機(jī)離島,國臺辦宣告結(jié)局,賴岳謙說得沒毛病

混沌錄
2026-04-16 16:38:03
貴州車輛墜河4死后續(xù),出事不是偶然,當(dāng)?shù)厝似孛土?,果然有蹊蹺

貴州車輛墜河4死后續(xù),出事不是偶然,當(dāng)?shù)厝似孛土?,果然有蹊蹺

青橘罐頭
2026-04-16 07:29:21
定了!5月1日開始,65歲以上老人可享免費(fèi)公交、景區(qū)、體檢

定了!5月1日開始,65歲以上老人可享免費(fèi)公交、景區(qū)、體檢

我不叫阿哏
2026-04-16 16:49:37
臉沒恢復(fù)就別出來拍劇了,頂著膨脹臉、說話嘴歪全是痘坑,太出戲

臉沒恢復(fù)就別出來拍劇了,頂著膨脹臉、說話嘴歪全是痘坑,太出戲

翰飛觀事
2026-04-16 17:03:30
保羅社媒嘲諷快船附加賽出局:他真的死透了

保羅社媒嘲諷快船附加賽出局:他真的死透了

懂球帝
2026-04-17 01:10:12
男子取現(xiàn)11萬元,稱“結(jié)婚用”,電話那頭的妻子懵了:干什么呀,我倆早結(jié)了

男子取現(xiàn)11萬元,稱“結(jié)婚用”,電話那頭的妻子懵了:干什么呀,我倆早結(jié)了

極目新聞
2026-04-16 20:44:18
快船隊加蘭在球隊輸給勇士隊后,坦率地談到了球隊的未來

快船隊加蘭在球隊輸給勇士隊后,坦率地談到了球隊的未來

好火子
2026-04-17 00:05:36
集團(tuán)黨委書記、董事長龔小波帶隊赴重慶考察調(diào)研

集團(tuán)黨委書記、董事長龔小波帶隊赴重慶考察調(diào)研

新浪財經(jīng)
2026-04-16 18:52:02
41歲詹姆斯生病了!期待與兒子并肩作戰(zhàn) 包攬多項季后賽歷史第一

41歲詹姆斯生病了!期待與兒子并肩作戰(zhàn) 包攬多項季后賽歷史第一

追球者
2026-04-17 09:21:34
華為Mate 80賣得不火,卻總被老用戶提起,它到底值不值得買

華為Mate 80賣得不火,卻總被老用戶提起,它到底值不值得買

小柱解說游戲
2026-04-17 09:32:44
湘南民宅翻修驚現(xiàn)毛主席80年前舊照,專家鑒定彌足珍貴可補(bǔ)史遺缺

湘南民宅翻修驚現(xiàn)毛主席80年前舊照,專家鑒定彌足珍貴可補(bǔ)史遺缺

云霄紀(jì)史觀
2026-04-14 02:08:48
光熱效率91%!“木基太陽能板”可能顛覆硅基太陽能

光熱效率91%!“木基太陽能板”可能顛覆硅基太陽能

環(huán)球零碳
2026-04-15 20:00:43
“車還沒造,先跑數(shù)百萬公里”,寶馬廣告文案疑似暗諷同行

“車還沒造,先跑數(shù)百萬公里”,寶馬廣告文案疑似暗諷同行

三言科技
2026-04-16 21:52:12
王立群教授:用權(quán)力泡女人,女人在你面前服服帖帖,用金錢泡女人,女人是滿臉不服氣,甚至討價還價...

王立群教授:用權(quán)力泡女人,女人在你面前服服帖帖,用金錢泡女人,女人是滿臉不服氣,甚至討價還價...

深度知局
2026-04-08 07:41:14
專家:建議拆除毛主席紀(jì)念堂雕像,士兵:你拆一下試試

專家:建議拆除毛主席紀(jì)念堂雕像,士兵:你拆一下試試

古今閑談
2026-04-14 22:49:01
2026-04-17 10:23:00
PsyBrain腦心前沿
PsyBrain腦心前沿
追蹤腦科學(xué)新動態(tài),聚焦認(rèn)知與神經(jīng)新研究
319文章數(shù) 15關(guān)注度
往期回顧 全部

科技要聞

Anthropic推出Opus 4.7,坦言依不及Mythos

頭條要聞

小伙曾花80萬開店失敗被離婚:妻子覺得我很難翻身

頭條要聞

小伙曾花80萬開店失敗被離婚:妻子覺得我很難翻身

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰誰的生意?

汽車要聞

空間大五個乘客都滿意?體驗嵐圖泰山X8

態(tài)度原創(chuàng)

家居
健康
旅游
教育
公開課

家居要聞

智能舒適 簡約風(fēng)尚

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

旅游要聞

濰坊昌邑:牡丹真國色 花開一城春

教育要聞

用心陪伴,助力孩子綻放光芒——王越家教好故事

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版