国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI發(fā)布權(quán)威AI科研基準(zhǔn),扯下AI遮羞布:奧賽金牌≠一流科學(xué)家!

0
分享至


新智元報(bào)道

編輯:艾倫

【新智元導(dǎo)讀】OpenAI最新發(fā)布的FrontierScience基準(zhǔn),試圖用真實(shí)的博士級(jí)難題,從物理、化學(xué)、生物三個(gè)維度上考驗(yàn)AI。真相是殘酷的:在沒(méi)有唯一標(biāo)準(zhǔn)答案的科研實(shí)戰(zhàn)中,AI作為「頂級(jí)做題家」,距離真正的科學(xué)家,還差得遠(yuǎn)。

OpenAI在2025年12月16日發(fā)布了一套新基準(zhǔn)FrontierScience,用來(lái)衡量AI在物理、化學(xué)、生物三門(mén)學(xué)科里,能否做到接近專家水準(zhǔn)的科學(xué)推理,而不只是背知識(shí)點(diǎn)。



OpenAI在文中把科學(xué)工作描述成一套更接近「持續(xù)試錯(cuò)」的流程。

提出假設(shè),設(shè)計(jì)驗(yàn)證,推翻再重來(lái),還要把不同領(lǐng)域的線索拼成同一張圖。

模型越強(qiáng),問(wèn)題就越尖銳,AI能不能把這種深推理用到真正的科研推進(jìn)上。

OpenAI提到,過(guò)去一年他們的系統(tǒng)在國(guó)際數(shù)學(xué)奧林匹克和國(guó)際信息學(xué)奧林匹克上達(dá)到了金牌級(jí)表現(xiàn),同時(shí)更重要的變化發(fā)生在實(shí)驗(yàn)室和辦公室里。

研究者開(kāi)始拿這些模型做跨學(xué)科文獻(xiàn)檢索,跨語(yǔ)言讀論文,也拿它們?nèi)ネ茝?fù)雜證明。

有些原本要耗掉幾天甚至幾周的工作,被壓到幾小時(shí)就能跑完一輪。

為什么需要FrontierScience?OpenAI給了一個(gè)對(duì)比。

2023年11月,GPQA這個(gè)由博士專家撰寫(xiě)、強(qiáng)調(diào)「谷歌搜不到」的科學(xué)題庫(kù)發(fā)布時(shí),GPT-4只拿到39%,低于專家基線74%。

兩年后,GPT-5.2在同一基準(zhǔn)上拿到92%。

當(dāng)舊題庫(kù)逐漸被刷穿,新的尺子就必須更長(zhǎng),否則你看不出模型還能往哪里發(fā)展。

FrontierScience的設(shè)計(jì)更像是給模型丟進(jìn)兩種不同的「科學(xué)難關(guān)」。

一類偏競(jìng)賽風(fēng)格,考你在約束條件下把推理做到干凈利落。


物理競(jìng)賽題示例

另一類更貼近研究現(xiàn)場(chǎng),要求你在開(kāi)放問(wèn)題里把思路走通,哪怕沒(méi)有標(biāo)準(zhǔn)答案那么工整。


物理科研問(wèn)題示例

這套評(píng)測(cè)總量超過(guò)700道文本型題目,其中160道屬于「黃金組」(Gold Set)題目。

競(jìng)賽賽道有100道題,強(qiáng)調(diào)短答案形式,便于核驗(yàn)對(duì)錯(cuò)。

研究賽道有60個(gè)原創(chuàng)研究子任務(wù),由博士階段或更資深的研究者設(shè)計(jì),用10分制評(píng)分,拿到至少7分才算通過(guò)。


題目質(zhì)量是有充足保障的:

競(jìng)賽賽道和42位前國(guó)際獎(jiǎng)牌得主或國(guó)家隊(duì)教練合作,總計(jì)109枚奧賽獎(jiǎng)牌;

研究賽道由45位合格科學(xué)家與領(lǐng)域?qū)<覅⑴c,覆蓋從量子電動(dòng)力學(xué)到合成有機(jī)化學(xué),再到進(jìn)化生物學(xué)等細(xì)分方向。

OpenAI還承認(rèn)了一個(gè)不那么「中立」的細(xì)節(jié)。

兩套題在制作流程里會(huì)刻意淘汰OpenAI自家內(nèi)部模型已經(jīng)能答對(duì)的題,因此這套評(píng)測(cè)對(duì)OpenAI自家模型可能更苛刻一些。

與此同時(shí),他們開(kāi)源了兩套賽道的「黃金組」題目,其余題目保留,用來(lái)追蹤數(shù)據(jù)污染。

OpenAI說(shuō),短答案適合機(jī)器判定,但研究型任務(wù)需要更細(xì)顆粒度的量表,于是他們用GPT-5充當(dāng)模型判卷員,對(duì)照短答案逐項(xiàng)打分。

理想狀態(tài)是請(qǐng)專家逐題批改,現(xiàn)實(shí)是規(guī)模不允許,于是規(guī)則被設(shè)計(jì)成盡量客觀且可被模型檢查,并配了驗(yàn)證流程來(lái)校準(zhǔn)難度與正確性。

成績(jī)單上,OpenAI給出了一輪初測(cè)對(duì)比。

他們?cè)u(píng)測(cè)了GPT-5.2、Claude Opus 4.5、Gemini 3 Pro、GPT-4o、OpenAI o4-mini、OpenAI o3等模型。OpenAI表示,GPT-5.2在競(jìng)賽題上得分77%,在研究題上得分25%,目前領(lǐng)先;Gemini 3 Pro在競(jìng)賽題上拿到76%,緊跟其后。


更值得注意的是失敗原因。

OpenAI從答題記錄里總結(jié),前沿模型仍會(huì)犯推理、邏輯和計(jì)算錯(cuò)誤,會(huì)卡在冷門(mén)概念上,也會(huì)出現(xiàn)事實(shí)性偏差。

另一個(gè)很樸素的觀察也被寫(xiě)進(jìn)正文:模型想得更久,準(zhǔn)確率往往更高。


OpenAI對(duì)FrontierScience的邊界也直言不諱。

它把科研切成可控的題目,這讓評(píng)測(cè)更標(biāo)準(zhǔn)化,但也意味著它更像一張高清截圖,而不是科研的全景紀(jì)錄片。

尤其是它不評(píng)估模型能否提出真正新穎的假設(shè),也不覆蓋它與多模態(tài)數(shù)據(jù)和現(xiàn)實(shí)實(shí)驗(yàn)系統(tǒng)打交道的能力。

接下來(lái),OpenAI計(jì)劃迭代題庫(kù)、擴(kuò)展領(lǐng)域,并配套更多真實(shí)世界評(píng)估,看這些系統(tǒng)究竟讓科學(xué)家多做成了什么。

奧賽金牌≠一流科學(xué)家,AI距離成為真正能獨(dú)當(dāng)一面的一流科學(xué)家,還有很長(zhǎng)的路要走完。

參考資料:

https://openai.com/index/frontierscience/

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
2025-12-26 09:12:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14183文章數(shù) 66397關(guān)注度
往期回顧 全部

科技要聞

“不再是機(jī)器人大國(guó)”,日本錯(cuò)過(guò)了什么?

頭條要聞

網(wǎng)友取300元少5元被銀行員工拿走 公開(kāi)后被人上門(mén)威脅

頭條要聞

網(wǎng)友取300元少5元被銀行員工拿走 公開(kāi)后被人上門(mén)威脅

體育要聞

約基奇有多喜歡馬?

娛樂(lè)要聞

朱孝天把阿信好意當(dāng)球踢!

財(cái)經(jīng)要聞

涉案近300億元 多方圍剿金融“黑灰產(chǎn)”

汽車要聞

速來(lái)!智界在上海西岸準(zhǔn)備了年末潮流盛典

態(tài)度原創(chuàng)

健康
房產(chǎn)
親子
旅游
家居

這些新療法,讓化療不再那么痛苦

房產(chǎn)要聞

太猛了!單月新增企業(yè)4.1萬(wàn)家,又一波巨頭涌向海南!

親子要聞

一歲以后一定要讓寶寶多涂鴉畫(huà)畫(huà),培養(yǎng)想象力和手眼協(xié)調(diào)

旅游要聞

訂單激增130%!這些地方,徹底火了!外國(guó)人涌入

家居要聞

經(jīng)典彌新 品味浪漫居所

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版