網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Scale AI研究揭示：AI科學(xué)實(shí)驗(yàn)結(jié)果預(yù)測(cè)能力遠(yuǎn)低于預(yù)期突破

2026-04-21 21:44:06　來源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由Scale AI主導(dǎo)、聯(lián)合加州大學(xué)洛杉磯分校、馬里蘭大學(xué)、普林斯頓大學(xué)以及Human Frontier Collective共同完成的研究，以預(yù)印本形式發(fā)布于2026年4月12日，論文編號(hào)為arXiv:2604.10718v1，有興趣深入探究的讀者可通過該編號(hào)檢索完整論文。

科學(xué)研究從來都不便宜。在濕實(shí)驗(yàn)室里，一次蛋白質(zhì)結(jié)晶實(shí)驗(yàn)可能耗費(fèi)研究團(tuán)隊(duì)數(shù)月時(shí)間和大量資金，結(jié)果卻可能什么都得不到。在材料科學(xué)領(lǐng)域，找到合適的合成參數(shù)往往意味著無數(shù)次昂貴的試錯(cuò)。即便是基礎(chǔ)物理學(xué)，決定把稀缺的粒子加速器機(jī)時(shí)用在哪個(gè)參數(shù)范圍，本身就是一個(gè)代價(jià)高昂的賭注。正因?yàn)槿绱?，科學(xué)家們?cè)趧?dòng)手做實(shí)驗(yàn)之前，總是會(huì)先在腦子里推演：如果這樣做，會(huì)發(fā)生什么？

這種"先預(yù)測(cè)、再實(shí)驗(yàn)"的思維方式貫穿了人類科學(xué)史的始終。而如今，人工智能的快速崛起讓很多人開始期待：能不能讓AI來替代科學(xué)家做這件事？AI掌握了海量的科學(xué)文獻(xiàn)，能夠推理復(fù)雜系統(tǒng)，在各類科學(xué)問答測(cè)試中也表現(xiàn)出色——理論上，它似乎是預(yù)測(cè)實(shí)驗(yàn)結(jié)果的理想工具。

然而，這項(xiàng)來自Scale AI的研究給出了一個(gè)讓人清醒的答案：目前的AI在這件事上，做得相當(dāng)糟糕。

研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為SciPredict的評(píng)測(cè)基準(zhǔn)，專門用于衡量大型語言模型（也就是GPT、Claude這類AI）預(yù)測(cè)真實(shí)科學(xué)實(shí)驗(yàn)結(jié)果的能力。這個(gè)基準(zhǔn)涵蓋了物理、生物、化學(xué)三大領(lǐng)域中33個(gè)專業(yè)子領(lǐng)域，共包含405道來自2025年3月31日之后發(fā)表的最新研究論文的實(shí)驗(yàn)預(yù)測(cè)題目。選擇這個(gè)時(shí)間節(jié)點(diǎn)非常關(guān)鍵——它確保了這些題目超出了當(dāng)前所有主流AI模型的訓(xùn)練數(shù)據(jù)范圍，徹底堵死了"背答案"的可能性。為了建立這個(gè)基準(zhǔn)，研究團(tuán)隊(duì)耗費(fèi)了7380個(gè)專家工時(shí)，花費(fèi)了33.6萬美元，可見其嚴(yán)苛程度。

一、當(dāng)科學(xué)預(yù)測(cè)變成一場(chǎng)考試：SciPredict是什么，為什么重要

要理解這項(xiàng)研究的價(jià)值，不妨把整個(gè)科學(xué)研究過程想象成一條流水線。第一步是頭腦風(fēng)暴：科學(xué)家通過文獻(xiàn)調(diào)研和假設(shè)設(shè)計(jì)，確定想探索的方向。第二步是關(guān)鍵決策：在真正動(dòng)手做實(shí)驗(yàn)之前，先評(píng)估"這個(gè)方向值不值得試"。第三步才是真正昂貴的部分：采購(gòu)設(shè)備、準(zhǔn)備材料、執(zhí)行實(shí)驗(yàn)、收集數(shù)據(jù)。最后是分析結(jié)果、發(fā)表論文。

在這條流水線中，第二步——也就是"預(yù)測(cè)實(shí)驗(yàn)結(jié)果"——是最被忽視但潛在價(jià)值最大的環(huán)節(jié)。如果AI能在這一步發(fā)揮作用，替科學(xué)家篩掉那些注定失敗的方向，優(yōu)先推薦最有希望的實(shí)驗(yàn)設(shè)計(jì)，整個(gè)科研效率將會(huì)大幅提升。

SciPredict的研究團(tuán)隊(duì)把AI的這一能力分解為兩個(gè)核心問題：第一，AI能不能以足夠高的準(zhǔn)確率預(yù)測(cè)實(shí)驗(yàn)結(jié)果？第二，即便AI能做到一定程度的預(yù)測(cè)，它能不能告訴我們"哪些預(yù)測(cè)是可信的、哪些不可信"？這兩個(gè)問題，前者關(guān)乎能力，后者關(guān)乎可靠性。正如研究者指出的，一個(gè)準(zhǔn)確率60%但無法區(qū)分可靠預(yù)測(cè)和不可靠預(yù)測(cè)的AI，在實(shí)際科研中幾乎沒有用處——因?yàn)槟悴恢涝撓嘈潘哪木湓挕?/p>

為了全面考察AI的表現(xiàn)，SciPredict設(shè)計(jì)了三種題目形式。多項(xiàng)選擇題（MCQ）給出幾個(gè)選項(xiàng)，讓AI選出最可能的實(shí)驗(yàn)結(jié)果；自由作答題（FF）要求AI用自己的語言描述預(yù)期結(jié)果；數(shù)值預(yù)測(cè)題（NUM）要求AI給出具體的數(shù)字。這三種形式分別測(cè)試了AI識(shí)別正確答案、生成解釋以及定量預(yù)測(cè)的不同能力維度。

物理學(xué)部分涵蓋凝聚態(tài)物理、量子與原子物理、高能粒子物理、光學(xué)與激光物理等9個(gè)子領(lǐng)域；生物學(xué)覆蓋了微生物學(xué)、癌癥生物學(xué)、神經(jīng)科學(xué)、生態(tài)學(xué)、免疫學(xué)等14個(gè)子領(lǐng)域；化學(xué)則包括有機(jī)化學(xué)、催化、物理化學(xué)、納米化學(xué)等10個(gè)子領(lǐng)域。整體分布是生物占50%、物理25%、化學(xué)25%，題目格式分布為多選40%、自由作答32%、數(shù)值預(yù)測(cè)28%。

二、成績(jī)揭曉：AI的表現(xiàn)讓人大跌眼鏡

現(xiàn)在來看看這場(chǎng)考試的成績(jī)單。

研究團(tuán)隊(duì)在關(guān)閉網(wǎng)絡(luò)搜索功能的條件下（這一點(diǎn)至關(guān)重要，否則AI可能直接檢索到原論文答案，把預(yù)測(cè)題變成查找題），對(duì)15款當(dāng)前最先進(jìn)的AI模型進(jìn)行了零樣本測(cè)試。這15款模型包括OpenAI的o3、o3-mini、o4-mini、GPT-5.2；Anthropic的Claude Sonnet 4.5、Opus 4.1、Opus 4.5；Google的Gemini 2.5 Pro、3 Flash、3 Pro；Meta的Llama 3.1 8B、Llama 3.3 70B；阿里巴巴的Qwen 3 32B、Qwen 3 235B；以及DeepSeek v3。

整體準(zhǔn)確率在14%到26%之間。

表現(xiàn)最好的是Gemini 3 Pro，平均準(zhǔn)確率約25.3%。排名靠前的還有Claude Opus 4.5（約23%）、Claude Sonnet 4.5（約22.6%）和Gemini 3 Flash（約22.2%）。表現(xiàn)墊底的是Llama 3.1 8B，準(zhǔn)確率僅約14.7%。

同期，研究團(tuán)隊(duì)還招募了一批真正的領(lǐng)域?qū)＜易鳛槿祟惢鶞?zhǔn)線。這些專家中74.4%持有博士學(xué)位，17.9%持有碩士學(xué)位，每位專家只回答與其專業(yè)方向嚴(yán)格對(duì)應(yīng)的題目。人類專家的平均準(zhǔn)確率大約是20%。

換句話說，最頂尖的AI模型（Gemini 3 Pro）勉強(qiáng)比人類專家高出幾個(gè)百分點(diǎn)，而大多數(shù)模型的表現(xiàn)與人類專家大體相當(dāng)，甚至更差。

這個(gè)數(shù)字本身已經(jīng)令人深思。一個(gè)隨機(jī)在4個(gè)選項(xiàng)中猜答案的策略，期望準(zhǔn)確率是25%——而許多AI模型的表現(xiàn)與瞎猜相差無幾。對(duì)于號(hào)稱掌握了人類絕大多數(shù)科學(xué)知識(shí)的AI系統(tǒng)來說，這個(gè)成績(jī)相當(dāng)難看。

但研究者們強(qiáng)調(diào)，準(zhǔn)確率只是這張成績(jī)單的一半。另一半，才是真正讓人擔(dān)憂的地方。

三、比答錯(cuò)更可怕的問題：AI不知道自己哪里錯(cuò)了

回到流水線的比喻。假設(shè)你雇了一個(gè)助理幫你篩選實(shí)驗(yàn)方案。這個(gè)助理答對(duì)的概率只有兩成，但他非常清楚自己什么時(shí)候把握大、什么時(shí)候沒把握——每當(dāng)他說"我有把握"，他答對(duì)的概率是八成；每當(dāng)他說"我沒把握"，他答對(duì)的概率只有一兩成。這樣的助理依然很有價(jià)值，因?yàn)槟阒朗裁磿r(shí)候可以信任他的判斷。

但如果這個(gè)助理無論對(duì)錯(cuò)，都用同樣自信的語氣說話，完全無法區(qū)分自己什么時(shí)候?qū)?、什么時(shí)候錯(cuò)——那他的價(jià)值就大打折扣了，甚至比沒有這個(gè)助理還要危險(xiǎn)，因?yàn)樗腻e(cuò)誤判斷會(huì)以可信的面目出現(xiàn)，引導(dǎo)你走上彎路。

SciPredict的研究者們專門設(shè)計(jì)了三個(gè)維度來衡量AI的這種"自我認(rèn)知"能力，分別稱為置信度（Confidence）、難度（Difficulty）和可行性（Feasibility）。置信度是讓AI評(píng)估自己對(duì)當(dāng)前預(yù)測(cè)的把握程度，1到5分，分?jǐn)?shù)越高表示越有把握。難度是讓AI判斷這道題有多難預(yù)測(cè)，1到5分，分?jǐn)?shù)越高表示越難?？尚行允亲孉I判斷這個(gè)實(shí)驗(yàn)結(jié)果能不能在不親自做實(shí)驗(yàn)的情況下通過推理預(yù)測(cè)出來，1到5分，分?jǐn)?shù)越高表示越可以通過推理得出。

一個(gè)校準(zhǔn)良好的AI應(yīng)該表現(xiàn)出這樣的規(guī)律：當(dāng)它給自己打高置信度時(shí)，實(shí)際答題準(zhǔn)確率也應(yīng)該更高；當(dāng)它認(rèn)為題目難度很大時(shí)，準(zhǔn)確率應(yīng)該更低；當(dāng)它認(rèn)為可行性高時(shí)，準(zhǔn)確率也應(yīng)該更高。

然而，實(shí)驗(yàn)結(jié)果顯示，AI完全沒有這種自我認(rèn)知。無論AI給自己打出多高的置信度（哪怕是最高分5分），它的實(shí)際準(zhǔn)確率依然穩(wěn)定在約20%左右，和它給自己打低置信度時(shí)沒有任何差別。難度評(píng)分和可行性評(píng)分同樣如此，與實(shí)際準(zhǔn)確率之間幾乎看不出任何規(guī)律性的關(guān)聯(lián)。

更具體地說，當(dāng)AI把某道題的可行性打?yàn)?分（最容易通過推理得出答案）時(shí)，它的準(zhǔn)確率并不比把可行性打?yàn)?分（必須做實(shí)驗(yàn)才能知道答案）時(shí)高出多少，兩種情況下的準(zhǔn)確率都在約20%上下。

人類專家的表現(xiàn)與此形成了鮮明對(duì)比。當(dāng)專家們認(rèn)為某道題幾乎不可能在不做實(shí)驗(yàn)的情況下預(yù)測(cè)出來（可行性1分）時(shí)，他們的準(zhǔn)確率僅約5%，說明他們對(duì)自己的局限有清醒認(rèn)知。但當(dāng)專家們認(rèn)為某道題可以通過已有知識(shí)推理得出（可行性5分）時(shí)，他們的準(zhǔn)確率驟然攀升至約80%。這種從5%到80%的跨越，正是真正的自我認(rèn)知能力的體現(xiàn)。

AI缺乏這種能力，意味著它的預(yù)測(cè)結(jié)果無法被可靠地"過濾"——你無法根據(jù)AI的自我評(píng)估來判斷哪些預(yù)測(cè)值得信任。

四、背景知識(shí)的秘密：給AI"補(bǔ)課"有沒有用

既然AI的基礎(chǔ)表現(xiàn)不盡如人意，研究者們進(jìn)一步探究了一個(gè)關(guān)鍵問題：如果給AI提供更多背景知識(shí)，情況會(huì)不會(huì)改善？

這個(gè)問題在實(shí)際應(yīng)用中非常重要。在真實(shí)的科研場(chǎng)景里，研究人員可以為AI提供相關(guān)領(lǐng)域的文獻(xiàn)摘要、已知實(shí)驗(yàn)結(jié)論等背景信息，幫助AI更好地推理。但這種"補(bǔ)課"到底有多大用？

研究團(tuán)隊(duì)設(shè)計(jì)了五種不同的信息提供條件進(jìn)行對(duì)比。第一種是"無背景知識(shí)"（NBK），只給AI實(shí)驗(yàn)設(shè)置描述和測(cè)量方法，沒有任何額外的領(lǐng)域背景。第二種是"專家背景知識(shí)"（BK），在實(shí)驗(yàn)描述的基礎(chǔ)上額外提供由領(lǐng)域?qū)＜覐南嚓P(guān)文獻(xiàn)中精心篩選的關(guān)鍵背景知識(shí)條目。第三種是"AI自生成背景"（SBK），要求AI在回答問題之前先自己生成相關(guān)背景知識(shí)，然后再據(jù)此作答。第四種是"組合背景"（SABK），把專家背景知識(shí)和AI自生成背景疊加在一起提供給AI。第五種是"過濾背景"（FBK），從專家背景知識(shí)中去掉AI已經(jīng)知道的那些條目，只提供AI實(shí)際不熟悉的新信息。

結(jié)果顯示，提供專家精選的背景知識(shí)確實(shí)有幫助，平均提升約3%的準(zhǔn)確率，個(gè)別模型最多提升約5.8%。然而，這點(diǎn)提升雖然穩(wěn)定，但依然無法將AI的整體表現(xiàn)提升到實(shí)用閾值。

更有趣的發(fā)現(xiàn)是：讓AI自己生成背景知識(shí)，往往會(huì)讓表現(xiàn)變得更差，而不是更好。研究者們發(fā)現(xiàn)，當(dāng)AI自行生成背景知識(shí)時(shí)，它經(jīng)常引入不相關(guān)的信息、錯(cuò)誤的假設(shè)，或者干脆捏造一些聽起來合理但實(shí)際上并不適用于當(dāng)前情境的"事實(shí)"。這些噪音信息把AI原本還算正確的直覺干擾掉了。

更耐人尋味的是：即便把專家背景知識(shí)和AI自生成的背景知識(shí)疊加在一起（SABK條件），大多數(shù)模型的表現(xiàn)也沒有比單獨(dú)使用專家背景知識(shí)（BK條件）更好——有時(shí)甚至更差。這說明AI自己生成的信息不僅沒有提供額外價(jià)值，反而污染了已有的優(yōu)質(zhì)信息。

還有一個(gè)細(xì)節(jié)值得關(guān)注：研究者們把背景知識(shí)條目轉(zhuǎn)化成問題，測(cè)試AI是否"已經(jīng)知道"這些知識(shí)。結(jié)果發(fā)現(xiàn)，所有模型對(duì)背景知識(shí)條目的掌握率均超過70%——也就是說，AI其實(shí)已經(jīng)"知道"大部分背景知識(shí)了，只是在預(yù)測(cè)具體實(shí)驗(yàn)結(jié)果時(shí)沒能有效調(diào)用這些知識(shí)。但有趣的是，即便把AI已經(jīng)知道的背景知識(shí)重新以文字形式呈現(xiàn)在上下文中，也仍然能輕微提升其準(zhǔn)確率。這說明"知道"某件事和"在預(yù)測(cè)中有效使用"某件事，是兩種不同的能力。

五、AI究竟在哪里犯錯(cuò)：一份詳細(xì)的錯(cuò)誤診斷報(bào)告

研究團(tuán)隊(duì)不滿足于僅僅知道AI答錯(cuò)了，他們還想搞清楚AI是怎么答錯(cuò)的。為此，他們讓另一個(gè)AI充當(dāng)"評(píng)審法官"，對(duì)所有錯(cuò)誤答案進(jìn)行分類分析，按照五大錯(cuò)誤類別和16個(gè)具體子類型逐一標(biāo)注。

這五大錯(cuò)誤類別構(gòu)成了一幅層層遞進(jìn)的"錯(cuò)誤圖譜"。最淺層的是理解與范圍錯(cuò)誤，包括誤解題意、違反題目約束、回答過于籠統(tǒng)、或者加入了無關(guān)信息。平均而言，約10%的錯(cuò)誤答案存在此類問題——這意味著AI基本上能理解題目在問什么，這并不是主要瓶頸。

更深一層是事實(shí)提取錯(cuò)誤，包括忽略實(shí)驗(yàn)描述中明確給出的關(guān)鍵信息、與實(shí)驗(yàn)材料中的事實(shí)相矛盾、憑空捏造數(shù)據(jù)或結(jié)論，以及在自己的推理過程中遺漏關(guān)鍵證據(jù)。這一類是AI最常犯的錯(cuò)誤，約80.1%的錯(cuò)誤答案至少存在一個(gè)此類問題。具體來看，"事實(shí)矛盾"（Factual Contradiction）的發(fā)生率約52.3%，"信息捏造"（Information Fabrication）的發(fā)生率約54%。換句話說，AI非常頻繁地在推理中引入了與實(shí)驗(yàn)描述相矛盾的內(nèi)容，或者直接發(fā)明了實(shí)驗(yàn)材料中不存在的信息。

第三層是邏輯推理錯(cuò)誤，約87.4%的錯(cuò)誤答案存在此類問題。這包括循環(huán)論證（用結(jié)論來證明結(jié)論）、推理依賴未經(jīng)證明的假設(shè)、正確的事實(shí)之間缺乏邏輯連接、以及把次要原因誤認(rèn)為主要原因。其中"無根據(jù)假設(shè)"（Unsupported Assumption）的發(fā)生率高達(dá)86%，是最主要的邏輯錯(cuò)誤類型。

第四層是科學(xué)嚴(yán)謹(jǐn)性缺陷，約47.9%的錯(cuò)誤答案存在此類問題。其中最典型的是"虛假確定性"（False Certainty）——AI在錯(cuò)誤的情況下依然用斬釘截鐵的口吻給出答案，發(fā)生率約43.6%。這直接解釋了為什么AI的置信度評(píng)分與實(shí)際準(zhǔn)確率之間毫無關(guān)聯(lián)：AI會(huì)對(duì)著一個(gè)錯(cuò)誤的答案說"我非常確定"。此外，約19.4%的錯(cuò)誤答案中，AI沒有承認(rèn)自己知識(shí)的局限性。

第五層是格式錯(cuò)誤，發(fā)生率極低，不足0.6%，說明AI在理解題目格式方面基本沒有問題。

一個(gè)值得注意的規(guī)律是：規(guī)模較小的模型（如Llama 3.1 8B）在"推理斷裂"（Disconnected Reasoning）方面的發(fā)生率高達(dá)28%，而頂級(jí)模型這一比例僅約9.6%。這說明模型規(guī)模確實(shí)與推理連貫性相關(guān)，更大的模型在把證據(jù)串聯(lián)成結(jié)論方面做得更好，只是它們?nèi)匀粫?huì)捏造信息和做出無根據(jù)的假設(shè)。

六、題目格式的巨大影響：多選題和自由作答差距有多大

如果你曾經(jīng)參加過標(biāo)準(zhǔn)化考試，你大概知道多項(xiàng)選擇題和填空題之間的感受差別有多大。前者至少給你一些提示，讓你有機(jī)會(huì)通過排除法找到正確答案；后者則要求你真的"知道"答案。

SciPredict的研究發(fā)現(xiàn)，這種差距在AI身上同樣顯著，而且幅度相當(dāng)驚人。

在多選題（MCQ）格式下，頂級(jí)模型的準(zhǔn)確率通常在30%到40%之間，部分模型超過40%。但當(dāng)研究者把同樣的內(nèi)容改寫成自由作答格式時(shí)，準(zhǔn)確率會(huì)明顯下滑。而數(shù)值預(yù)測(cè)題的準(zhǔn)確率最低，通常在10%到16%之間徘徊。

為了進(jìn)一步驗(yàn)證格式本身的影響，研究者做了一個(gè)精妙的對(duì)照實(shí)驗(yàn)：把多選題逐字改寫成自由作答題（MCQ→FF），保持題目?jī)?nèi)容完全一致，只是去掉了選項(xiàng)。結(jié)果發(fā)現(xiàn)，幾乎所有模型在這種轉(zhuǎn)換后準(zhǔn)確率都出現(xiàn)了明顯下降，即便題目?jī)?nèi)容沒有任何改變。

這揭示了一個(gè)重要問題：AI的多選題表現(xiàn)，在一定程度上依賴于"看到選項(xiàng)后比對(duì)最相近的那個(gè)"這種模式識(shí)別策略，而不是真正理解實(shí)驗(yàn)會(huì)產(chǎn)生什么結(jié)果。當(dāng)必須自己給出答案時(shí)，這種策略就失效了。

這意味著，通常用來評(píng)估AI科學(xué)能力的多選題基準(zhǔn)測(cè)試，可能系統(tǒng)性地高估了AI在真實(shí)科研場(chǎng)景中的實(shí)際能力——因?yàn)檎鎸?shí)科研中的預(yù)測(cè)通常是開放式的，而不是從幾個(gè)選項(xiàng)中選一個(gè)。

七、化學(xué)最難，不同領(lǐng)域的差異說明了什么

按學(xué)科領(lǐng)域來看，三個(gè)大類的難度存在明顯差異?；瘜W(xué)是最難的領(lǐng)域，平均準(zhǔn)確率在13%到26%之間，最難的模型勉強(qiáng)超過13%。這種差距在人類專家身上體現(xiàn)得尤為明顯：專家在化學(xué)題上的準(zhǔn)確率僅約8.82%，而在生物學(xué)上約23.15%，在物理學(xué)上約26%。

化學(xué)領(lǐng)域的低表現(xiàn)可能反映了一個(gè)深層問題：化學(xué)實(shí)驗(yàn)的結(jié)果往往高度依賴非常具體的實(shí)驗(yàn)條件，細(xì)微的參數(shù)變化可能導(dǎo)致截然不同的結(jié)果，這種"蝴蝶效應(yīng)"使得在沒有親自操作的情況下預(yù)測(cè)結(jié)果尤為困難。無論是AI還是人類專家，面對(duì)高度情境依賴的化學(xué)實(shí)驗(yàn)結(jié)果，都很難僅憑文字描述做出準(zhǔn)確預(yù)測(cè)。

研究者們還發(fā)現(xiàn)了一個(gè)關(guān)于模型能力的有趣規(guī)律：SciPredict的得分與一個(gè)名為HLE（Humanity's Last Exam）的通用硬推理基準(zhǔn)存在正相關(guān)關(guān)系，Pearson相關(guān)系數(shù)約為0.46。也就是說，通用推理能力越強(qiáng)的模型，在實(shí)驗(yàn)預(yù)測(cè)上通常也表現(xiàn)得稍好一些。但這種相關(guān)性并不強(qiáng)——不同模型在HLE上得分相近，但在SciPredict上的得分可能相差好幾個(gè)百分點(diǎn)。

具體來看，DeepSeek v3在HLE上得分非常低，但在SciPredict上的表現(xiàn)超出了其HLE分?jǐn)?shù)所預(yù)期的水平。而Gemini 2.5 Pro和GPT-5.2在HLE上得分較高，卻在SciPredict上低于預(yù)期。這種"偏差"說明，除了通用推理能力，實(shí)驗(yàn)預(yù)測(cè)還依賴于對(duì)具體科學(xué)領(lǐng)域的先驗(yàn)知識(shí)和實(shí)驗(yàn)直覺——即能識(shí)別哪些實(shí)驗(yàn)細(xì)節(jié)與結(jié)果因果相關(guān)、能把觀測(cè)值映射到合理機(jī)制上，這些是通用推理能力之外的東西。

八、這一切意味著什么：AI科學(xué)助手的門檻在哪里

歸根結(jié)底，這篇論文用嚴(yán)格的數(shù)據(jù)告訴我們一件事：AI目前的實(shí)驗(yàn)預(yù)測(cè)能力，還遠(yuǎn)遠(yuǎn)達(dá)不到能夠可靠指導(dǎo)科學(xué)研究的程度。

準(zhǔn)確率14%到26%的絕對(duì)數(shù)值已經(jīng)夠低了。但更根本的問題在于，AI無法告訴你它的哪些預(yù)測(cè)是可信的。這種缺乏自我認(rèn)知的狀態(tài)，意味著即便AI偶爾預(yù)測(cè)正確，研究者也沒有可靠的方法從一堆預(yù)測(cè)中把正確的那個(gè)挑出來。

研究者們用了一個(gè)非常精準(zhǔn)的說法來描述這個(gè)問題：AI不僅缺乏預(yù)測(cè)的準(zhǔn)確性，更缺乏"預(yù)測(cè)可靠性的自我意識(shí)"（metacognitive awareness）。人類專家擁有這種意識(shí)——他們知道自己什么時(shí)候是在踩實(shí)地、什么時(shí)候是在走鋼絲。AI目前還沒有這個(gè)能力。

這并不意味著AI在科學(xué)研究中沒有價(jià)值。事實(shí)上，AI在文獻(xiàn)綜述、假設(shè)生成、代碼編寫和數(shù)據(jù)分析方面已經(jīng)展現(xiàn)出了實(shí)實(shí)在在的輔助價(jià)值，這些領(lǐng)域的進(jìn)展都有大量實(shí)證研究支撐。SciPredict聚焦的是一項(xiàng)更難的能力——預(yù)測(cè)未知的實(shí)驗(yàn)結(jié)果——而這件事本身對(duì)人類專家來說也很難，20%的專家準(zhǔn)確率就是最好的證明。

研究團(tuán)隊(duì)在結(jié)論中指出，要實(shí)現(xiàn)AI在實(shí)驗(yàn)科學(xué)中的真正價(jià)值，需要兩方面的同步進(jìn)步：一方面是提升預(yù)測(cè)準(zhǔn)確率本身，這需要更好的科學(xué)事實(shí)基礎(chǔ)和更強(qiáng)的因果推理能力；另一方面是發(fā)展可靠的不確定性量化能力，讓AI能夠?qū)ψ约旱念A(yù)測(cè)誠(chéng)實(shí)地標(biāo)注"我不知道"或"這個(gè)我沒把握"。后一點(diǎn)可能比前一點(diǎn)更難，也更重要。

研究者們還展望了未來的方向：把AI與真實(shí)的實(shí)驗(yàn)流程結(jié)合起來，讓它在看到實(shí)驗(yàn)結(jié)果后能更新自己的推理——把預(yù)測(cè)從一次性的猜測(cè)變成一個(gè)迭代的對(duì)話過程。此外，跨領(lǐng)域知識(shí)遷移也是值得探索的方向，即讓AI學(xué)會(huì)識(shí)別不同科學(xué)領(lǐng)域之間的類比關(guān)系，就像頂尖的跨學(xué)科科學(xué)家那樣，把一個(gè)領(lǐng)域的洞察帶到另一個(gè)領(lǐng)域。

SciPredict的數(shù)據(jù)和代碼已經(jīng)完整開放在GitHub上，供研究社區(qū)自由使用和改進(jìn)。這個(gè)基準(zhǔn)本身將成為衡量未來AI在這一能力維度上進(jìn)步的標(biāo)尺。

下次當(dāng)你看到某個(gè)關(guān)于"AI將革命性地加速科學(xué)發(fā)現(xiàn)"的新聞標(biāo)題時(shí)，不妨想起這組數(shù)字：在最新發(fā)表的科學(xué)實(shí)驗(yàn)面前，即便是最頂尖的AI，它的預(yù)測(cè)能力也只比專業(yè)領(lǐng)域的博士專家高出幾個(gè)百分點(diǎn)。這條路還很長(zhǎng)。

Q&A

Q1：SciPredict基準(zhǔn)測(cè)試和普通AI科學(xué)問答測(cè)試有什么本質(zhì)區(qū)別？

A：SciPredict專門測(cè)試AI預(yù)測(cè)真實(shí)實(shí)驗(yàn)結(jié)果的能力，而不是測(cè)試AI的科學(xué)知識(shí)儲(chǔ)量。所有題目都來自2025年3月31日之后發(fā)表的最新論文，確保超出所有AI的訓(xùn)練數(shù)據(jù)范圍，徹底杜絕"背答案"的可能。更重要的是，SciPredict同時(shí)評(píng)估AI是否知道自己哪些預(yù)測(cè)是可信的——這是普通知識(shí)問答測(cè)試完全忽略的維度。

Q2：為什么給AI提供背景知識(shí)只能提升約3%的準(zhǔn)確率，而不是大幅提升？

A：研究發(fā)現(xiàn)，AI對(duì)大多數(shù)背景知識(shí)條目的掌握率超過70%，也就是說它"知道"這些知識(shí)，但無法有效用于預(yù)測(cè)具體實(shí)驗(yàn)結(jié)果。這說明"知道知識(shí)"和"用知識(shí)預(yù)測(cè)未知實(shí)驗(yàn)結(jié)果"是兩種截然不同的能力。預(yù)測(cè)實(shí)驗(yàn)結(jié)果需要理解細(xì)微的實(shí)驗(yàn)條件依賴關(guān)系，以及做出有根據(jù)的因果推斷，而不只是調(diào)用已儲(chǔ)存的知識(shí)。

Q3：SciPredict研究中的人類專家準(zhǔn)確率只有20%，是不是說明這些題目太難了，AI表現(xiàn)差情有可原？

A：人類專家20%的整體準(zhǔn)確率的確反映了這些題目的高難度，但關(guān)鍵不在于絕對(duì)準(zhǔn)確率，而在于校準(zhǔn)能力。當(dāng)專家認(rèn)為某題可以通過推理預(yù)測(cè)時(shí)，他們的準(zhǔn)確率高達(dá)約80%；而認(rèn)為必須做實(shí)驗(yàn)才能知道時(shí)，準(zhǔn)確率僅約5%。這種從5%到80%的跨越說明專家知道自己的邊界。AI則無論對(duì)錯(cuò)都維持約20%的準(zhǔn)確率，缺乏這種自我認(rèn)知，這才是核心問題。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.