国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Scale AI研究揭示:AI科學(xué)實(shí)驗(yàn)結(jié)果預(yù)測(cè)能力遠(yuǎn)低于預(yù)期突破

0
分享至


這項(xiàng)由Scale AI主導(dǎo)、聯(lián)合加州大學(xué)洛杉磯分校、馬里蘭大學(xué)、普林斯頓大學(xué)以及Human Frontier Collective共同完成的研究,以預(yù)印本形式發(fā)布于2026年4月12日,論文編號(hào)為arXiv:2604.10718v1,有興趣深入探究的讀者可通過該編號(hào)檢索完整論文。

科學(xué)研究從來都不便宜。在濕實(shí)驗(yàn)室里,一次蛋白質(zhì)結(jié)晶實(shí)驗(yàn)可能耗費(fèi)研究團(tuán)隊(duì)數(shù)月時(shí)間和大量資金,結(jié)果卻可能什么都得不到。在材料科學(xué)領(lǐng)域,找到合適的合成參數(shù)往往意味著無數(shù)次昂貴的試錯(cuò)。即便是基礎(chǔ)物理學(xué),決定把稀缺的粒子加速器機(jī)時(shí)用在哪個(gè)參數(shù)范圍,本身就是一個(gè)代價(jià)高昂的賭注。正因?yàn)槿绱?,科學(xué)家們?cè)趧?dòng)手做實(shí)驗(yàn)之前,總是會(huì)先在腦子里推演:如果這樣做,會(huì)發(fā)生什么?

這種"先預(yù)測(cè)、再實(shí)驗(yàn)"的思維方式貫穿了人類科學(xué)史的始終。而如今,人工智能的快速崛起讓很多人開始期待:能不能讓AI來替代科學(xué)家做這件事?AI掌握了海量的科學(xué)文獻(xiàn),能夠推理復(fù)雜系統(tǒng),在各類科學(xué)問答測(cè)試中也表現(xiàn)出色——理論上,它似乎是預(yù)測(cè)實(shí)驗(yàn)結(jié)果的理想工具。

然而,這項(xiàng)來自Scale AI的研究給出了一個(gè)讓人清醒的答案:目前的AI在這件事上,做得相當(dāng)糟糕。

研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為SciPredict的評(píng)測(cè)基準(zhǔn),專門用于衡量大型語言模型(也就是GPT、Claude這類AI)預(yù)測(cè)真實(shí)科學(xué)實(shí)驗(yàn)結(jié)果的能力。這個(gè)基準(zhǔn)涵蓋了物理、生物、化學(xué)三大領(lǐng)域中33個(gè)專業(yè)子領(lǐng)域,共包含405道來自2025年3月31日之后發(fā)表的最新研究論文的實(shí)驗(yàn)預(yù)測(cè)題目。選擇這個(gè)時(shí)間節(jié)點(diǎn)非常關(guān)鍵——它確保了這些題目超出了當(dāng)前所有主流AI模型的訓(xùn)練數(shù)據(jù)范圍,徹底堵死了"背答案"的可能性。為了建立這個(gè)基準(zhǔn),研究團(tuán)隊(duì)耗費(fèi)了7380個(gè)專家工時(shí),花費(fèi)了33.6萬美元,可見其嚴(yán)苛程度。

一、當(dāng)科學(xué)預(yù)測(cè)變成一場(chǎng)考試:SciPredict是什么,為什么重要

要理解這項(xiàng)研究的價(jià)值,不妨把整個(gè)科學(xué)研究過程想象成一條流水線。第一步是頭腦風(fēng)暴:科學(xué)家通過文獻(xiàn)調(diào)研和假設(shè)設(shè)計(jì),確定想探索的方向。第二步是關(guān)鍵決策:在真正動(dòng)手做實(shí)驗(yàn)之前,先評(píng)估"這個(gè)方向值不值得試"。第三步才是真正昂貴的部分:采購(gòu)設(shè)備、準(zhǔn)備材料、執(zhí)行實(shí)驗(yàn)、收集數(shù)據(jù)。最后是分析結(jié)果、發(fā)表論文。

在這條流水線中,第二步——也就是"預(yù)測(cè)實(shí)驗(yàn)結(jié)果"——是最被忽視但潛在價(jià)值最大的環(huán)節(jié)。如果AI能在這一步發(fā)揮作用,替科學(xué)家篩掉那些注定失敗的方向,優(yōu)先推薦最有希望的實(shí)驗(yàn)設(shè)計(jì),整個(gè)科研效率將會(huì)大幅提升。

SciPredict的研究團(tuán)隊(duì)把AI的這一能力分解為兩個(gè)核心問題:第一,AI能不能以足夠高的準(zhǔn)確率預(yù)測(cè)實(shí)驗(yàn)結(jié)果?第二,即便AI能做到一定程度的預(yù)測(cè),它能不能告訴我們"哪些預(yù)測(cè)是可信的、哪些不可信"?這兩個(gè)問題,前者關(guān)乎能力,后者關(guān)乎可靠性。正如研究者指出的,一個(gè)準(zhǔn)確率60%但無法區(qū)分可靠預(yù)測(cè)和不可靠預(yù)測(cè)的AI,在實(shí)際科研中幾乎沒有用處——因?yàn)槟悴恢涝撓嘈潘哪木湓挕?/p>

為了全面考察AI的表現(xiàn),SciPredict設(shè)計(jì)了三種題目形式。多項(xiàng)選擇題(MCQ)給出幾個(gè)選項(xiàng),讓AI選出最可能的實(shí)驗(yàn)結(jié)果;自由作答題(FF)要求AI用自己的語言描述預(yù)期結(jié)果;數(shù)值預(yù)測(cè)題(NUM)要求AI給出具體的數(shù)字。這三種形式分別測(cè)試了AI識(shí)別正確答案、生成解釋以及定量預(yù)測(cè)的不同能力維度。

物理學(xué)部分涵蓋凝聚態(tài)物理、量子與原子物理、高能粒子物理、光學(xué)與激光物理等9個(gè)子領(lǐng)域;生物學(xué)覆蓋了微生物學(xué)、癌癥生物學(xué)、神經(jīng)科學(xué)、生態(tài)學(xué)、免疫學(xué)等14個(gè)子領(lǐng)域;化學(xué)則包括有機(jī)化學(xué)、催化、物理化學(xué)、納米化學(xué)等10個(gè)子領(lǐng)域。整體分布是生物占50%、物理25%、化學(xué)25%,題目格式分布為多選40%、自由作答32%、數(shù)值預(yù)測(cè)28%。

二、成績(jī)揭曉:AI的表現(xiàn)讓人大跌眼鏡

現(xiàn)在來看看這場(chǎng)考試的成績(jī)單。

研究團(tuán)隊(duì)在關(guān)閉網(wǎng)絡(luò)搜索功能的條件下(這一點(diǎn)至關(guān)重要,否則AI可能直接檢索到原論文答案,把預(yù)測(cè)題變成查找題),對(duì)15款當(dāng)前最先進(jìn)的AI模型進(jìn)行了零樣本測(cè)試。這15款模型包括OpenAI的o3、o3-mini、o4-mini、GPT-5.2;Anthropic的Claude Sonnet 4.5、Opus 4.1、Opus 4.5;Google的Gemini 2.5 Pro、3 Flash、3 Pro;Meta的Llama 3.1 8B、Llama 3.3 70B;阿里巴巴的Qwen 3 32B、Qwen 3 235B;以及DeepSeek v3。

整體準(zhǔn)確率在14%到26%之間。

表現(xiàn)最好的是Gemini 3 Pro,平均準(zhǔn)確率約25.3%。排名靠前的還有Claude Opus 4.5(約23%)、Claude Sonnet 4.5(約22.6%)和Gemini 3 Flash(約22.2%)。表現(xiàn)墊底的是Llama 3.1 8B,準(zhǔn)確率僅約14.7%。

同期,研究團(tuán)隊(duì)還招募了一批真正的領(lǐng)域?qū)<易鳛槿祟惢鶞?zhǔn)線。這些專家中74.4%持有博士學(xué)位,17.9%持有碩士學(xué)位,每位專家只回答與其專業(yè)方向嚴(yán)格對(duì)應(yīng)的題目。人類專家的平均準(zhǔn)確率大約是20%。

換句話說,最頂尖的AI模型(Gemini 3 Pro)勉強(qiáng)比人類專家高出幾個(gè)百分點(diǎn),而大多數(shù)模型的表現(xiàn)與人類專家大體相當(dāng),甚至更差。

這個(gè)數(shù)字本身已經(jīng)令人深思。一個(gè)隨機(jī)在4個(gè)選項(xiàng)中猜答案的策略,期望準(zhǔn)確率是25%——而許多AI模型的表現(xiàn)與瞎猜相差無幾。對(duì)于號(hào)稱掌握了人類絕大多數(shù)科學(xué)知識(shí)的AI系統(tǒng)來說,這個(gè)成績(jī)相當(dāng)難看。

但研究者們強(qiáng)調(diào),準(zhǔn)確率只是這張成績(jī)單的一半。另一半,才是真正讓人擔(dān)憂的地方。

三、比答錯(cuò)更可怕的問題:AI不知道自己哪里錯(cuò)了

回到流水線的比喻。假設(shè)你雇了一個(gè)助理幫你篩選實(shí)驗(yàn)方案。這個(gè)助理答對(duì)的概率只有兩成,但他非常清楚自己什么時(shí)候把握大、什么時(shí)候沒把握——每當(dāng)他說"我有把握",他答對(duì)的概率是八成;每當(dāng)他說"我沒把握",他答對(duì)的概率只有一兩成。這樣的助理依然很有價(jià)值,因?yàn)槟阒朗裁磿r(shí)候可以信任他的判斷。

但如果這個(gè)助理無論對(duì)錯(cuò),都用同樣自信的語氣說話,完全無法區(qū)分自己什么時(shí)候?qū)?、什么時(shí)候錯(cuò)——那他的價(jià)值就大打折扣了,甚至比沒有這個(gè)助理還要危險(xiǎn),因?yàn)樗腻e(cuò)誤判斷會(huì)以可信的面目出現(xiàn),引導(dǎo)你走上彎路。

SciPredict的研究者們專門設(shè)計(jì)了三個(gè)維度來衡量AI的這種"自我認(rèn)知"能力,分別稱為置信度(Confidence)、難度(Difficulty)和可行性(Feasibility)。置信度是讓AI評(píng)估自己對(duì)當(dāng)前預(yù)測(cè)的把握程度,1到5分,分?jǐn)?shù)越高表示越有把握。難度是讓AI判斷這道題有多難預(yù)測(cè),1到5分,分?jǐn)?shù)越高表示越難??尚行允亲孉I判斷這個(gè)實(shí)驗(yàn)結(jié)果能不能在不親自做實(shí)驗(yàn)的情況下通過推理預(yù)測(cè)出來,1到5分,分?jǐn)?shù)越高表示越可以通過推理得出。

一個(gè)校準(zhǔn)良好的AI應(yīng)該表現(xiàn)出這樣的規(guī)律:當(dāng)它給自己打高置信度時(shí),實(shí)際答題準(zhǔn)確率也應(yīng)該更高;當(dāng)它認(rèn)為題目難度很大時(shí),準(zhǔn)確率應(yīng)該更低;當(dāng)它認(rèn)為可行性高時(shí),準(zhǔn)確率也應(yīng)該更高。

然而,實(shí)驗(yàn)結(jié)果顯示,AI完全沒有這種自我認(rèn)知。無論AI給自己打出多高的置信度(哪怕是最高分5分),它的實(shí)際準(zhǔn)確率依然穩(wěn)定在約20%左右,和它給自己打低置信度時(shí)沒有任何差別。難度評(píng)分和可行性評(píng)分同樣如此,與實(shí)際準(zhǔn)確率之間幾乎看不出任何規(guī)律性的關(guān)聯(lián)。

更具體地說,當(dāng)AI把某道題的可行性打?yàn)?分(最容易通過推理得出答案)時(shí),它的準(zhǔn)確率并不比把可行性打?yàn)?分(必須做實(shí)驗(yàn)才能知道答案)時(shí)高出多少,兩種情況下的準(zhǔn)確率都在約20%上下。

人類專家的表現(xiàn)與此形成了鮮明對(duì)比。當(dāng)專家們認(rèn)為某道題幾乎不可能在不做實(shí)驗(yàn)的情況下預(yù)測(cè)出來(可行性1分)時(shí),他們的準(zhǔn)確率僅約5%,說明他們對(duì)自己的局限有清醒認(rèn)知。但當(dāng)專家們認(rèn)為某道題可以通過已有知識(shí)推理得出(可行性5分)時(shí),他們的準(zhǔn)確率驟然攀升至約80%。這種從5%到80%的跨越,正是真正的自我認(rèn)知能力的體現(xiàn)。

AI缺乏這種能力,意味著它的預(yù)測(cè)結(jié)果無法被可靠地"過濾"——你無法根據(jù)AI的自我評(píng)估來判斷哪些預(yù)測(cè)值得信任。

四、背景知識(shí)的秘密:給AI"補(bǔ)課"有沒有用

既然AI的基礎(chǔ)表現(xiàn)不盡如人意,研究者們進(jìn)一步探究了一個(gè)關(guān)鍵問題:如果給AI提供更多背景知識(shí),情況會(huì)不會(huì)改善?

這個(gè)問題在實(shí)際應(yīng)用中非常重要。在真實(shí)的科研場(chǎng)景里,研究人員可以為AI提供相關(guān)領(lǐng)域的文獻(xiàn)摘要、已知實(shí)驗(yàn)結(jié)論等背景信息,幫助AI更好地推理。但這種"補(bǔ)課"到底有多大用?

研究團(tuán)隊(duì)設(shè)計(jì)了五種不同的信息提供條件進(jìn)行對(duì)比。第一種是"無背景知識(shí)"(NBK),只給AI實(shí)驗(yàn)設(shè)置描述和測(cè)量方法,沒有任何額外的領(lǐng)域背景。第二種是"專家背景知識(shí)"(BK),在實(shí)驗(yàn)描述的基礎(chǔ)上額外提供由領(lǐng)域?qū)<覐南嚓P(guān)文獻(xiàn)中精心篩選的關(guān)鍵背景知識(shí)條目。第三種是"AI自生成背景"(SBK),要求AI在回答問題之前先自己生成相關(guān)背景知識(shí),然后再據(jù)此作答。第四種是"組合背景"(SABK),把專家背景知識(shí)和AI自生成背景疊加在一起提供給AI。第五種是"過濾背景"(FBK),從專家背景知識(shí)中去掉AI已經(jīng)知道的那些條目,只提供AI實(shí)際不熟悉的新信息。

結(jié)果顯示,提供專家精選的背景知識(shí)確實(shí)有幫助,平均提升約3%的準(zhǔn)確率,個(gè)別模型最多提升約5.8%。然而,這點(diǎn)提升雖然穩(wěn)定,但依然無法將AI的整體表現(xiàn)提升到實(shí)用閾值。

更有趣的發(fā)現(xiàn)是:讓AI自己生成背景知識(shí),往往會(huì)讓表現(xiàn)變得更差,而不是更好。研究者們發(fā)現(xiàn),當(dāng)AI自行生成背景知識(shí)時(shí),它經(jīng)常引入不相關(guān)的信息、錯(cuò)誤的假設(shè),或者干脆捏造一些聽起來合理但實(shí)際上并不適用于當(dāng)前情境的"事實(shí)"。這些噪音信息把AI原本還算正確的直覺干擾掉了。

更耐人尋味的是:即便把專家背景知識(shí)和AI自生成的背景知識(shí)疊加在一起(SABK條件),大多數(shù)模型的表現(xiàn)也沒有比單獨(dú)使用專家背景知識(shí)(BK條件)更好——有時(shí)甚至更差。這說明AI自己生成的信息不僅沒有提供額外價(jià)值,反而污染了已有的優(yōu)質(zhì)信息。

還有一個(gè)細(xì)節(jié)值得關(guān)注:研究者們把背景知識(shí)條目轉(zhuǎn)化成問題,測(cè)試AI是否"已經(jīng)知道"這些知識(shí)。結(jié)果發(fā)現(xiàn),所有模型對(duì)背景知識(shí)條目的掌握率均超過70%——也就是說,AI其實(shí)已經(jīng)"知道"大部分背景知識(shí)了,只是在預(yù)測(cè)具體實(shí)驗(yàn)結(jié)果時(shí)沒能有效調(diào)用這些知識(shí)。但有趣的是,即便把AI已經(jīng)知道的背景知識(shí)重新以文字形式呈現(xiàn)在上下文中,也仍然能輕微提升其準(zhǔn)確率。這說明"知道"某件事和"在預(yù)測(cè)中有效使用"某件事,是兩種不同的能力。

五、AI究竟在哪里犯錯(cuò):一份詳細(xì)的錯(cuò)誤診斷報(bào)告

研究團(tuán)隊(duì)不滿足于僅僅知道AI答錯(cuò)了,他們還想搞清楚AI是怎么答錯(cuò)的。為此,他們讓另一個(gè)AI充當(dāng)"評(píng)審法官",對(duì)所有錯(cuò)誤答案進(jìn)行分類分析,按照五大錯(cuò)誤類別和16個(gè)具體子類型逐一標(biāo)注。

這五大錯(cuò)誤類別構(gòu)成了一幅層層遞進(jìn)的"錯(cuò)誤圖譜"。最淺層的是理解與范圍錯(cuò)誤,包括誤解題意、違反題目約束、回答過于籠統(tǒng)、或者加入了無關(guān)信息。平均而言,約10%的錯(cuò)誤答案存在此類問題——這意味著AI基本上能理解題目在問什么,這并不是主要瓶頸。

更深一層是事實(shí)提取錯(cuò)誤,包括忽略實(shí)驗(yàn)描述中明確給出的關(guān)鍵信息、與實(shí)驗(yàn)材料中的事實(shí)相矛盾、憑空捏造數(shù)據(jù)或結(jié)論,以及在自己的推理過程中遺漏關(guān)鍵證據(jù)。這一類是AI最常犯的錯(cuò)誤,約80.1%的錯(cuò)誤答案至少存在一個(gè)此類問題。具體來看,"事實(shí)矛盾"(Factual Contradiction)的發(fā)生率約52.3%,"信息捏造"(Information Fabrication)的發(fā)生率約54%。換句話說,AI非常頻繁地在推理中引入了與實(shí)驗(yàn)描述相矛盾的內(nèi)容,或者直接發(fā)明了實(shí)驗(yàn)材料中不存在的信息。

第三層是邏輯推理錯(cuò)誤,約87.4%的錯(cuò)誤答案存在此類問題。這包括循環(huán)論證(用結(jié)論來證明結(jié)論)、推理依賴未經(jīng)證明的假設(shè)、正確的事實(shí)之間缺乏邏輯連接、以及把次要原因誤認(rèn)為主要原因。其中"無根據(jù)假設(shè)"(Unsupported Assumption)的發(fā)生率高達(dá)86%,是最主要的邏輯錯(cuò)誤類型。

第四層是科學(xué)嚴(yán)謹(jǐn)性缺陷,約47.9%的錯(cuò)誤答案存在此類問題。其中最典型的是"虛假確定性"(False Certainty)——AI在錯(cuò)誤的情況下依然用斬釘截鐵的口吻給出答案,發(fā)生率約43.6%。這直接解釋了為什么AI的置信度評(píng)分與實(shí)際準(zhǔn)確率之間毫無關(guān)聯(lián):AI會(huì)對(duì)著一個(gè)錯(cuò)誤的答案說"我非常確定"。此外,約19.4%的錯(cuò)誤答案中,AI沒有承認(rèn)自己知識(shí)的局限性。

第五層是格式錯(cuò)誤,發(fā)生率極低,不足0.6%,說明AI在理解題目格式方面基本沒有問題。

一個(gè)值得注意的規(guī)律是:規(guī)模較小的模型(如Llama 3.1 8B)在"推理斷裂"(Disconnected Reasoning)方面的發(fā)生率高達(dá)28%,而頂級(jí)模型這一比例僅約9.6%。這說明模型規(guī)模確實(shí)與推理連貫性相關(guān),更大的模型在把證據(jù)串聯(lián)成結(jié)論方面做得更好,只是它們?nèi)匀粫?huì)捏造信息和做出無根據(jù)的假設(shè)。

六、題目格式的巨大影響:多選題和自由作答差距有多大

如果你曾經(jīng)參加過標(biāo)準(zhǔn)化考試,你大概知道多項(xiàng)選擇題和填空題之間的感受差別有多大。前者至少給你一些提示,讓你有機(jī)會(huì)通過排除法找到正確答案;后者則要求你真的"知道"答案。

SciPredict的研究發(fā)現(xiàn),這種差距在AI身上同樣顯著,而且幅度相當(dāng)驚人。

在多選題(MCQ)格式下,頂級(jí)模型的準(zhǔn)確率通常在30%到40%之間,部分模型超過40%。但當(dāng)研究者把同樣的內(nèi)容改寫成自由作答格式時(shí),準(zhǔn)確率會(huì)明顯下滑。而數(shù)值預(yù)測(cè)題的準(zhǔn)確率最低,通常在10%到16%之間徘徊。

為了進(jìn)一步驗(yàn)證格式本身的影響,研究者做了一個(gè)精妙的對(duì)照實(shí)驗(yàn):把多選題逐字改寫成自由作答題(MCQ→FF),保持題目?jī)?nèi)容完全一致,只是去掉了選項(xiàng)。結(jié)果發(fā)現(xiàn),幾乎所有模型在這種轉(zhuǎn)換后準(zhǔn)確率都出現(xiàn)了明顯下降,即便題目?jī)?nèi)容沒有任何改變。

這揭示了一個(gè)重要問題:AI的多選題表現(xiàn),在一定程度上依賴于"看到選項(xiàng)后比對(duì)最相近的那個(gè)"這種模式識(shí)別策略,而不是真正理解實(shí)驗(yàn)會(huì)產(chǎn)生什么結(jié)果。當(dāng)必須自己給出答案時(shí),這種策略就失效了。

這意味著,通常用來評(píng)估AI科學(xué)能力的多選題基準(zhǔn)測(cè)試,可能系統(tǒng)性地高估了AI在真實(shí)科研場(chǎng)景中的實(shí)際能力——因?yàn)檎鎸?shí)科研中的預(yù)測(cè)通常是開放式的,而不是從幾個(gè)選項(xiàng)中選一個(gè)。

七、化學(xué)最難,不同領(lǐng)域的差異說明了什么

按學(xué)科領(lǐng)域來看,三個(gè)大類的難度存在明顯差異?;瘜W(xué)是最難的領(lǐng)域,平均準(zhǔn)確率在13%到26%之間,最難的模型勉強(qiáng)超過13%。這種差距在人類專家身上體現(xiàn)得尤為明顯:專家在化學(xué)題上的準(zhǔn)確率僅約8.82%,而在生物學(xué)上約23.15%,在物理學(xué)上約26%。

化學(xué)領(lǐng)域的低表現(xiàn)可能反映了一個(gè)深層問題:化學(xué)實(shí)驗(yàn)的結(jié)果往往高度依賴非常具體的實(shí)驗(yàn)條件,細(xì)微的參數(shù)變化可能導(dǎo)致截然不同的結(jié)果,這種"蝴蝶效應(yīng)"使得在沒有親自操作的情況下預(yù)測(cè)結(jié)果尤為困難。無論是AI還是人類專家,面對(duì)高度情境依賴的化學(xué)實(shí)驗(yàn)結(jié)果,都很難僅憑文字描述做出準(zhǔn)確預(yù)測(cè)。

研究者們還發(fā)現(xiàn)了一個(gè)關(guān)于模型能力的有趣規(guī)律:SciPredict的得分與一個(gè)名為HLE(Humanity's Last Exam)的通用硬推理基準(zhǔn)存在正相關(guān)關(guān)系,Pearson相關(guān)系數(shù)約為0.46。也就是說,通用推理能力越強(qiáng)的模型,在實(shí)驗(yàn)預(yù)測(cè)上通常也表現(xiàn)得稍好一些。但這種相關(guān)性并不強(qiáng)——不同模型在HLE上得分相近,但在SciPredict上的得分可能相差好幾個(gè)百分點(diǎn)。

具體來看,DeepSeek v3在HLE上得分非常低,但在SciPredict上的表現(xiàn)超出了其HLE分?jǐn)?shù)所預(yù)期的水平。而Gemini 2.5 Pro和GPT-5.2在HLE上得分較高,卻在SciPredict上低于預(yù)期。這種"偏差"說明,除了通用推理能力,實(shí)驗(yàn)預(yù)測(cè)還依賴于對(duì)具體科學(xué)領(lǐng)域的先驗(yàn)知識(shí)和實(shí)驗(yàn)直覺——即能識(shí)別哪些實(shí)驗(yàn)細(xì)節(jié)與結(jié)果因果相關(guān)、能把觀測(cè)值映射到合理機(jī)制上,這些是通用推理能力之外的東西。

八、這一切意味著什么:AI科學(xué)助手的門檻在哪里

歸根結(jié)底,這篇論文用嚴(yán)格的數(shù)據(jù)告訴我們一件事:AI目前的實(shí)驗(yàn)預(yù)測(cè)能力,還遠(yuǎn)遠(yuǎn)達(dá)不到能夠可靠指導(dǎo)科學(xué)研究的程度。

準(zhǔn)確率14%到26%的絕對(duì)數(shù)值已經(jīng)夠低了。但更根本的問題在于,AI無法告訴你它的哪些預(yù)測(cè)是可信的。這種缺乏自我認(rèn)知的狀態(tài),意味著即便AI偶爾預(yù)測(cè)正確,研究者也沒有可靠的方法從一堆預(yù)測(cè)中把正確的那個(gè)挑出來。

研究者們用了一個(gè)非常精準(zhǔn)的說法來描述這個(gè)問題:AI不僅缺乏預(yù)測(cè)的準(zhǔn)確性,更缺乏"預(yù)測(cè)可靠性的自我意識(shí)"(metacognitive awareness)。人類專家擁有這種意識(shí)——他們知道自己什么時(shí)候是在踩實(shí)地、什么時(shí)候是在走鋼絲。AI目前還沒有這個(gè)能力。

這并不意味著AI在科學(xué)研究中沒有價(jià)值。事實(shí)上,AI在文獻(xiàn)綜述、假設(shè)生成、代碼編寫和數(shù)據(jù)分析方面已經(jīng)展現(xiàn)出了實(shí)實(shí)在在的輔助價(jià)值,這些領(lǐng)域的進(jìn)展都有大量實(shí)證研究支撐。SciPredict聚焦的是一項(xiàng)更難的能力——預(yù)測(cè)未知的實(shí)驗(yàn)結(jié)果——而這件事本身對(duì)人類專家來說也很難,20%的專家準(zhǔn)確率就是最好的證明。

研究團(tuán)隊(duì)在結(jié)論中指出,要實(shí)現(xiàn)AI在實(shí)驗(yàn)科學(xué)中的真正價(jià)值,需要兩方面的同步進(jìn)步:一方面是提升預(yù)測(cè)準(zhǔn)確率本身,這需要更好的科學(xué)事實(shí)基礎(chǔ)和更強(qiáng)的因果推理能力;另一方面是發(fā)展可靠的不確定性量化能力,讓AI能夠?qū)ψ约旱念A(yù)測(cè)誠(chéng)實(shí)地標(biāo)注"我不知道"或"這個(gè)我沒把握"。后一點(diǎn)可能比前一點(diǎn)更難,也更重要。

研究者們還展望了未來的方向:把AI與真實(shí)的實(shí)驗(yàn)流程結(jié)合起來,讓它在看到實(shí)驗(yàn)結(jié)果后能更新自己的推理——把預(yù)測(cè)從一次性的猜測(cè)變成一個(gè)迭代的對(duì)話過程。此外,跨領(lǐng)域知識(shí)遷移也是值得探索的方向,即讓AI學(xué)會(huì)識(shí)別不同科學(xué)領(lǐng)域之間的類比關(guān)系,就像頂尖的跨學(xué)科科學(xué)家那樣,把一個(gè)領(lǐng)域的洞察帶到另一個(gè)領(lǐng)域。

SciPredict的數(shù)據(jù)和代碼已經(jīng)完整開放在GitHub上,供研究社區(qū)自由使用和改進(jìn)。這個(gè)基準(zhǔn)本身將成為衡量未來AI在這一能力維度上進(jìn)步的標(biāo)尺。

下次當(dāng)你看到某個(gè)關(guān)于"AI將革命性地加速科學(xué)發(fā)現(xiàn)"的新聞標(biāo)題時(shí),不妨想起這組數(shù)字:在最新發(fā)表的科學(xué)實(shí)驗(yàn)面前,即便是最頂尖的AI,它的預(yù)測(cè)能力也只比專業(yè)領(lǐng)域的博士專家高出幾個(gè)百分點(diǎn)。這條路還很長(zhǎng)。

Q&A

Q1:SciPredict基準(zhǔn)測(cè)試和普通AI科學(xué)問答測(cè)試有什么本質(zhì)區(qū)別?

A:SciPredict專門測(cè)試AI預(yù)測(cè)真實(shí)實(shí)驗(yàn)結(jié)果的能力,而不是測(cè)試AI的科學(xué)知識(shí)儲(chǔ)量。所有題目都來自2025年3月31日之后發(fā)表的最新論文,確保超出所有AI的訓(xùn)練數(shù)據(jù)范圍,徹底杜絕"背答案"的可能。更重要的是,SciPredict同時(shí)評(píng)估AI是否知道自己哪些預(yù)測(cè)是可信的——這是普通知識(shí)問答測(cè)試完全忽略的維度。

Q2:為什么給AI提供背景知識(shí)只能提升約3%的準(zhǔn)確率,而不是大幅提升?

A:研究發(fā)現(xiàn),AI對(duì)大多數(shù)背景知識(shí)條目的掌握率超過70%,也就是說它"知道"這些知識(shí),但無法有效用于預(yù)測(cè)具體實(shí)驗(yàn)結(jié)果。這說明"知道知識(shí)"和"用知識(shí)預(yù)測(cè)未知實(shí)驗(yàn)結(jié)果"是兩種截然不同的能力。預(yù)測(cè)實(shí)驗(yàn)結(jié)果需要理解細(xì)微的實(shí)驗(yàn)條件依賴關(guān)系,以及做出有根據(jù)的因果推斷,而不只是調(diào)用已儲(chǔ)存的知識(shí)。

Q3:SciPredict研究中的人類專家準(zhǔn)確率只有20%,是不是說明這些題目太難了,AI表現(xiàn)差情有可原?

A:人類專家20%的整體準(zhǔn)確率的確反映了這些題目的高難度,但關(guān)鍵不在于絕對(duì)準(zhǔn)確率,而在于校準(zhǔn)能力。當(dāng)專家認(rèn)為某題可以通過推理預(yù)測(cè)時(shí),他們的準(zhǔn)確率高達(dá)約80%;而認(rèn)為必須做實(shí)驗(yàn)才能知道時(shí),準(zhǔn)確率僅約5%。這種從5%到80%的跨越說明專家知道自己的邊界。AI則無論對(duì)錯(cuò)都維持約20%的準(zhǔn)確率,缺乏這種自我認(rèn)知,這才是核心問題。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
晚年米芾寫出此大字神作,筆法縱橫莫測(cè),堪稱生平不世出的經(jīng)典

晚年米芾寫出此大字神作,筆法縱橫莫測(cè),堪稱生平不世出的經(jīng)典

幸福娃3790
2026-04-09 11:55:20
你見過老板是怎么把生意干黃的?網(wǎng)友:拿了雙一次性筷子還追出來

你見過老板是怎么把生意干黃的?網(wǎng)友:拿了雙一次性筷子還追出來

夜深愛雜談
2026-04-20 09:31:31
蔚來,我算是把你看清了

蔚來,我算是把你看清了

汽車十三行
2026-04-21 11:56:48
為什么2026教育突然松綁了?網(wǎng)友:過度內(nèi)卷只會(huì)影響孩子心理健康

為什么2026教育突然松綁了?網(wǎng)友:過度內(nèi)卷只會(huì)影響孩子心理健康

另子維愛讀史
2026-04-21 20:14:40
中方禁令為何時(shí)隔百天才爆發(fā)?日本媒體不再隱瞞,遮羞布被揭下

中方禁令為何時(shí)隔百天才爆發(fā)?日本媒體不再隱瞞,遮羞布被揭下

誰將笑到最后
2026-04-22 17:27:39
汪嘉偉之子汪崎:心疼母親鄧星,再難不“啃”父親,贏得繼母好評(píng)

汪嘉偉之子汪崎:心疼母親鄧星,再難不“啃”父親,贏得繼母好評(píng)

細(xì)品名人
2026-03-26 07:10:29
2105km續(xù)航,9.79萬!比亞迪官宣:新車上市

2105km續(xù)航,9.79萬!比亞迪官宣:新車上市

新浪財(cái)經(jīng)
2026-04-21 14:30:59
收拾完伊朗,下一個(gè)輪到中國(guó)?以色列發(fā)戰(zhàn)爭(zhēng)威脅,中方送出5個(gè)字

收拾完伊朗,下一個(gè)輪到中國(guó)?以色列發(fā)戰(zhàn)爭(zhēng)威脅,中方送出5個(gè)字

千羽解讀
2026-04-18 10:12:15
阿斯塔納航空將于6月3日開通廣州—阿斯塔納直飛航線

阿斯塔納航空將于6月3日開通廣州—阿斯塔納直飛航線

北京商報(bào)
2026-04-21 15:34:11
凱特致敬伊麗莎白女王,戴其生前珍珠項(xiàng)鏈亮相,細(xì)節(jié)盡顯高情商

凱特致敬伊麗莎白女王,戴其生前珍珠項(xiàng)鏈亮相,細(xì)節(jié)盡顯高情商

世界王室那些事
2026-04-22 17:29:57
港媒:兩岸已步入到“準(zhǔn)統(tǒng)一”階段,“西藏模式”更具參考!

港媒:兩岸已步入到“準(zhǔn)統(tǒng)一”階段,“西藏模式”更具參考!

娛樂圈的筆娛君
2026-04-21 17:59:45
美加州熱氣球耗盡燃料降民居后院 13乘客淡定揮手 房主:難以置信

美加州熱氣球耗盡燃料降民居后院 13乘客淡定揮手 房主:難以置信

環(huán)球趣聞分享
2026-04-22 13:40:09
我國(guó)肝癌高發(fā),茶葉是背后的禍因?醫(yī)生勸告:3種茶才是幫兇

我國(guó)肝癌高發(fā),茶葉是背后的禍因?醫(yī)生勸告:3種茶才是幫兇

岐黃傳人孫大夫
2026-04-12 06:30:03
特朗普下令“無限期停戰(zhàn)”,9千萬伊朗人熬過最艱苦時(shí)刻?

特朗普下令“無限期停戰(zhàn)”,9千萬伊朗人熬過最艱苦時(shí)刻?

牛鍋巴小釩
2026-04-22 16:01:58
603169,被證監(jiān)會(huì)立案!

603169,被證監(jiān)會(huì)立案!

證券時(shí)報(bào)e公司
2026-04-22 17:54:29
51歲李健,每天只吃一餐,每周4次健身,身體狀態(tài)像20歲小伙子

51歲李健,每天只吃一餐,每周4次健身,身體狀態(tài)像20歲小伙子

馬拉松跑步健身
2026-04-13 22:00:23
解秀梅大膽擁抱毛主席,多年后呂厚民回憶稱:主席可能被嚇到了

解秀梅大膽擁抱毛主席,多年后呂厚民回憶稱:主席可能被嚇到了

春秋硯
2026-04-22 11:40:08
iPhone 17突然降價(jià),這應(yīng)該是目前最香的iPhone了

iPhone 17突然降價(jià),這應(yīng)該是目前最香的iPhone了

劉奔跑
2026-04-19 23:10:21
蘋果8號(hào)員工干了49年:裁員名單繞著他走,因?yàn)橘r不起

蘋果8號(hào)員工干了49年:裁員名單繞著他走,因?yàn)橘r不起

世界圈
2026-04-04 13:13:03
發(fā)現(xiàn)了嗎,越是分床睡、經(jīng)濟(jì)AA制、不干涉對(duì)方隱私的夫妻,感情濃度往往越低,越把婚姻過成......

發(fā)現(xiàn)了嗎,越是分床睡、經(jīng)濟(jì)AA制、不干涉對(duì)方隱私的夫妻,感情濃度往往越低,越把婚姻過成......

LULU生活家
2026-04-21 19:20:03
2026-04-22 18:07:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

特朗普180°轉(zhuǎn)彎延長(zhǎng)?;?伊朗硬剛首次直接回絕談判

頭條要聞

特朗普180°轉(zhuǎn)彎延長(zhǎng)?;?伊朗硬剛首次直接回絕談判

體育要聞

網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

娛樂要聞

復(fù)婚無望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長(zhǎng)?;鹌谙?/h3>

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

本地
教育
健康
家居
公開課

本地新聞

春色滿城關(guān)不?。座N梅浪漫盛放,吳山藏了一片四月雪

教育要聞

慣子如殺子!孩子這4種表現(xiàn)說明已經(jīng)被慣壞了,再不改就來不及了

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

家居要聞

極簡(jiǎn)繪夢(mèng) 克制和諧

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版