OpenAI推出FrontierScience重置科學(xué)AI基準(zhǔn)

2025-12-23 08:12:23　來源: Ai時(shí)代前沿

北京舉報(bào)

分享至

很多關(guān)于人工智能和科學(xué)的討論聽起來都充滿自信，甚至可以稱之為過于樂觀。模型可以閱讀論文，總結(jié)研究結(jié)果，并連接各個(gè)領(lǐng)域。理論上，這應(yīng)該會(huì)改變研究的工作方式。然而，在實(shí)踐中，并沒有那么簡單。

大多數(shù)科學(xué)家仍然謹(jǐn)慎對待這些人工智能系統(tǒng)，有時(shí)懷疑。不是因?yàn)檫@些工具毫無用處，而是因?yàn)闆]有人真正證明它們可以像人類在事情變得不清楚或復(fù)雜時(shí)那樣推理科學(xué)問題。但是，現(xiàn)在一切都可能改變。

OpenAI發(fā)布了FrontierScience（前沿科學(xué)），這是一個(gè)新的基準(zhǔn)，旨在測試先進(jìn)的人工智能模型是否能夠處理科學(xué)推理，而不僅僅是科學(xué)知識(shí)。這正是科學(xué)家對人工智能系統(tǒng)建立信心和信任的原因。

FrontierScience不是專注于有明確答案的基本問題，而是旨在將模型推向更開放的問題，這些問題類似于真正的研究。早期結(jié)果表明取得了進(jìn)展，但也暴露了這一進(jìn)展的脆弱性。

FrontierScience背后的核心主張是，許多現(xiàn)有的科學(xué)基準(zhǔn)已經(jīng)不適合現(xiàn)在的工作。隨著模型的改進(jìn)，得分有所上升，但洞察力沒有。

FrontierScience基準(zhǔn)背后的OpenAI研究人員寫道：“最近的模型進(jìn)展幾乎完全突破了現(xiàn)有的科學(xué)基準(zhǔn)，這些基準(zhǔn)通常依賴于多項(xiàng)選擇知識(shí)問題或已經(jīng)發(fā)布的信息?！?/p>

圍繞已知答案和已發(fā)表材料構(gòu)建的測試變得失去價(jià)值，即使?jié)撛诘目茖W(xué)能力沒有太大變化也能通過測試。雖然基準(zhǔn)分?jǐn)?shù)有所提高，但這并不是真正的科學(xué)運(yùn)作的。FrontierScience被視為一種重置。一種不同的方法，將困難和摩擦重新引入評估中，這樣就可以用一些誠實(shí)的態(tài)度再次衡量進(jìn)展。

那么，F(xiàn)rontierScience究竟是什么，它是如何工作的呢？

FrontierScience旨在通過兩種不同類型的工作來測試科學(xué)能力。第一種是OpenAI所說的奧林匹克路徑（Olympiad track）。這些都是困難且定義嚴(yán)格的問題，類似于高級競爭問題。這些問題的目標(biāo)是在明確的約束下進(jìn)行精確推理，并得出可驗(yàn)證的答案。基準(zhǔn)測試的這一部分測試了問題解決能力。它不衡量創(chuàng)造力或猜測，這在其他領(lǐng)域可能很有價(jià)值，但在科學(xué)領(lǐng)域則不然。

第二個(gè)是研究路徑（Research track），它是特意創(chuàng)建的，用于測試更混亂的數(shù)據(jù)。這些任務(wù)類似于科學(xué)家在研究過程中可能遇到的子問題，其中進(jìn)展取決于做出一系列正確的決定，而不是一個(gè)單一的最終答案。為了評估這一點(diǎn)，每個(gè)問題都使用一個(gè)詳細(xì)的評分標(biāo)準(zhǔn)進(jìn)行評分，該標(biāo)準(zhǔn)對中間推理步驟進(jìn)行評分。目的是觀察模型是否理解如何處理問題。重點(diǎn)仍然是推理，而不是聽起來正確的最終答案。

FrontierScience的研究結(jié)果令人印象深刻，同時(shí)也發(fā)人深省。OpenAI評估了來自不同組織的多個(gè)前沿模型。谷歌、Anthropic和xAI的幾個(gè)競爭系統(tǒng)在基準(zhǔn)測試的部分內(nèi)容上發(fā)布了類似的結(jié)果。

GPT-5.2總體領(lǐng)先于基準(zhǔn)。它在奧林匹克l路徑上的得分為77%。在研究路徑上，這一數(shù)字降至25%。有趣的是，這種下降在各個(gè)模型中是一致的。在明確界定的問題上，人工智能表現(xiàn)仍然強(qiáng)勁，但隨著任務(wù)變得更加開放和有序，表現(xiàn)有所減弱。

這種差距突顯了解決問題和在實(shí)驗(yàn)室進(jìn)行實(shí)際研究之間的區(qū)別，在實(shí)驗(yàn)室中，實(shí)驗(yàn)在整個(gè)過程中可以采取多種形式。FrontierScience認(rèn)為，當(dāng)邊界清晰時(shí)，當(dāng)前的模型可以有效地推理，但很難在更長的科學(xué)判斷鏈中保持一致性。這種區(qū)別有助于解釋為什么人工智能工具在某些研究工作流程中感覺強(qiáng)大，而在其他工作流程中則感覺脆弱。

FrontierScience真正強(qiáng)調(diào)的不是當(dāng)前模型的失敗，而是人工智能進(jìn)步的衡量方式與科學(xué)工作的實(shí)際展開方式之間的不匹配。

即使是它的創(chuàng)造者也警告不要高估結(jié)果。FrontierScience專注于受限和專家編寫的問題，并沒有捕捉到科學(xué)工作的許多核心要素。這包括假設(shè)生成和實(shí)驗(yàn)交互?；诹恳?guī)的評分也引入了更簡單的基準(zhǔn)所避免的主觀性。

那么，關(guān)鍵要點(diǎn)是什么？根據(jù)OpenAI的說法，基準(zhǔn)測試更像是一種診斷工具，而不是終點(diǎn)線。還有很多工作要做。然而，F(xiàn)rontierScience的目的是揭示推理失敗的地方，以便未來的模型開發(fā)可以集中在那里。這是否會(huì)導(dǎo)致更深層次的科學(xué)自主性仍然是一個(gè)懸而未決的問題。

OpenAI研究人員寫道：“研究和實(shí)踐評估對于繼續(xù)建立長期和直接相關(guān)的評估非常重要。”“科學(xué)推理是人工智能有益影響的核心，需要強(qiáng)有力的基準(zhǔn)來加速真正的科學(xué)進(jìn)步?！?/p>

與Ai時(shí)代前沿合作，將大門向更多普通用戶敞開！免費(fèi)課程限時(shí)領(lǐng)，還有好禮相送！無論你是對新技術(shù)充滿好奇心的愛好者，還是希望提升自己技能的職場人士，這里都有適合你的課程和資源。文章留言或私信小編拉您入群！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.