国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI發(fā)布專家級(jí)科學(xué)能力評(píng)估基準(zhǔn)FrontierScience

0
分享至



編輯丨coisini

推理能力是科學(xué)工作的核心??茖W(xué)家不僅需要記憶事實(shí),更要提出假設(shè)、驗(yàn)證修正,并在跨領(lǐng)域間融合思想。隨著人工智能(AI)模型的能力不斷增強(qiáng),核心問題在于它們?nèi)绾瓮ㄟ^深度推理推動(dòng)科學(xué)研究。

OpenAI 認(rèn)為:隨著模型推理與知識(shí)能力的持續(xù)擴(kuò)展,我們需要更強(qiáng)大的基準(zhǔn)來量化和預(yù)測(cè)模型加速科研的潛力。現(xiàn)有科學(xué)基準(zhǔn)多聚焦選擇題、已達(dá)性能飽和或未以科學(xué)能力為核心評(píng)估維度。

為填補(bǔ)這一空白,OpenAI 推出 FrontierScience:一個(gè)專為評(píng)估專家級(jí)科學(xué)能力構(gòu)建的新基準(zhǔn)。該基準(zhǔn)由物理學(xué)、化學(xué)和生物學(xué)領(lǐng)域的專家編寫驗(yàn)證,包含數(shù)百道兼具難度、原創(chuàng)性與實(shí)質(zhì)意義的題目。



研究論文:https://cdn.openai.com/pdf/2fcd284c-b468-4c21-8ee0-7a783933efcc/frontierscience-paper.pdf

FrontierScience 設(shè)有兩個(gè)賽道:衡量奧林匹克式科學(xué)推理能力的奧賽賽道(FrontierScience-Olympiad),以及評(píng)估真實(shí)世界科研能力的研究賽道(FrontierScience-Research)。在初步評(píng)估中,GPT-5.2 在 FrontierScience - 奧賽賽道(得分 77%)和研究賽道(得分 25%)均領(lǐng)先于其他前沿模型。

FrontierScience 的評(píng)估維度與構(gòu)建方法

完整的 FrontierScience 評(píng)估包含 700 余道文本問題(其中 160 道構(gòu)成黃金標(biāo)準(zhǔn)集),涵蓋物理、化學(xué)和生物學(xué)。

FrontierScience - 奧賽賽道包含 100 道由國際奧賽獎(jiǎng)牌得主設(shè)計(jì)的題目,通過約束性簡答形式評(píng)估科學(xué)推理能力,其理論問題難度不低于國際奧賽競(jìng)賽題。



FrontierScience - 奧賽賽道化學(xué)題目示例



FrontierScience - 奧賽賽道物理題目示例



FrontierScience - 奧賽賽道生物題目示例

FrontierScience - 研究賽道包含 60 項(xiàng)由博士科學(xué)家設(shè)計(jì)的原創(chuàng)研究子任務(wù),采用 10 分制評(píng)分標(biāo)準(zhǔn)。研究賽道旨在構(gòu)建具有獨(dú)立性、多步驟的研究子任務(wù),其難度相當(dāng)于博士科學(xué)家在科研中可能遇到的挑戰(zhàn)。



FrontierScience - 研究賽道化學(xué)題目示例



FrontierScience - 研究賽道物理題目示例



FrontierScience - 研究賽道生物題目示例

奧賽題集采用簡答評(píng)分模式:答案以數(shù)字、表達(dá)式或模糊字符串匹配形式呈現(xiàn),便于驗(yàn)證準(zhǔn)確性。但這種驗(yàn)證方式往往限制了問題的表達(dá)張力與開放程度。針對(duì)研究題集,F(xiàn)rontierScience 引入基于量規(guī)的評(píng)估架構(gòu)以應(yīng)對(duì)開放性任務(wù)。每道題目均配備包含多個(gè)獨(dú)立且可客觀評(píng)估條目的評(píng)分量規(guī),總分 10 分。該量規(guī)不僅考察最終答案的準(zhǔn)確性,更關(guān)注推理步驟的正確性,從而支持對(duì)模型表現(xiàn)與失誤的細(xì)致分析。若模型獲得至少 7/10 的量規(guī)分值,即判定其解答「正確」。



模型表現(xiàn)

OpenAI 在 FrontierScience 上對(duì)多款前沿模型進(jìn)行了評(píng)估:GPT?5.2、Claude Opus 4.5、Gemini 3 Pro、GPT?4o、OpenAI o4-mini 以及 OpenAI o3。

除 GPT?5.2 采用「極高」推理強(qiáng)度外,其余推理模型均以「高」推理強(qiáng)度運(yùn)行。初步評(píng)估顯示,GPT?5.2 在兩個(gè)測(cè)試集中表現(xiàn)最優(yōu):奧賽題集得分 77%,研究題集得分 25%,均領(lǐng)先于其他前沿模型。





值得注意的是,Gemini 3 Pro 在奧賽題集上與 GPT?5.2 表現(xiàn)相當(dāng)(得分 76%)。

評(píng)估表明:當(dāng)前模型在解答專家級(jí)問題 —— 尤其是開放式研究型任務(wù) —— 方面已取得顯著進(jìn)展,但仍有提升空間。通過對(duì)錯(cuò)誤案例的分析,OpenAI 發(fā)現(xiàn)前沿模型存在以下問題:推理邏輯與計(jì)算錯(cuò)誤、對(duì)專業(yè)科學(xué)概念理解不足,以及事實(shí)性表述不準(zhǔn)確。

局限性與未來方向

盡管 FrontierScience 在科學(xué)基準(zhǔn)測(cè)試難度上邁進(jìn)了一步,但仍存在諸多局限。例如,該測(cè)試集由問題陳述受限的題目構(gòu)成。

FrontierScience 雖能對(duì)模型在專家級(jí)難題上的推理能力提供更精細(xì)的評(píng)估,但尚不能完整反映實(shí)際科研工作的全貌,尤其是未能覆蓋科學(xué)研究的關(guān)鍵環(huán)節(jié),例如,模型如何生成真正新穎的假設(shè)、如何處理現(xiàn)實(shí)實(shí)驗(yàn)系統(tǒng)等多模態(tài)信息交互。

展望未來,OpenAI 預(yù)期科學(xué)推理能力的進(jìn)步將來源于兩方面:更強(qiáng)大的通用推理系統(tǒng),以及對(duì)科學(xué)專項(xiàng)能力的針對(duì)性提升。FrontierScience 等基準(zhǔn)測(cè)試有助于我們洞察當(dāng)前 AI 系統(tǒng)的薄弱環(huán)節(jié),從而引導(dǎo)開發(fā)者著力打造能在科學(xué)探索中成為可靠伙伴的模型。

參考內(nèi)容:https://openai.com/index/frontierscience/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
不是迷信!今日冬至,晚上最不能做的5件事,別忘了告訴家人!

不是迷信!今日冬至,晚上最不能做的5件事,別忘了告訴家人!

阿龍美食記
2025-12-21 03:51:06
黃有龍做夢(mèng)也沒想到,自己花重金培養(yǎng)大的女兒,竟給趙薇做了嫁衣

黃有龍做夢(mèng)也沒想到,自己花重金培養(yǎng)大的女兒,竟給趙薇做了嫁衣

查爾菲的筆記
2025-12-16 15:14:06
越扒越有!古代書畫鑒定實(shí)錄顯示,南博在85年就已不見《江南春》

越扒越有!古代書畫鑒定實(shí)錄顯示,南博在85年就已不見《江南春》

火山詩話
2025-12-20 06:02:25
肝癌是喝茶喝出來的?醫(yī)生:就算是鐵打的肝臟,也怕天天喝5種茶

肝癌是喝茶喝出來的?醫(yī)生:就算是鐵打的肝臟,也怕天天喝5種茶

健康科普365
2025-12-20 16:30:03
出大事了,托卡耶夫犯了大忌,參拜日本明治神宮,還要給日稀土?

出大事了,托卡耶夫犯了大忌,參拜日本明治神宮,還要給日稀土?

科普100克克
2025-12-21 02:38:52
偉大的6-1!常冰玉爆冷12冠王進(jìn)決賽,解鎖2紀(jì)錄,PK韋克林爭冠!

偉大的6-1!常冰玉爆冷12冠王進(jìn)決賽,解鎖2紀(jì)錄,PK韋克林爭冠!

劉姚堯的文字城堡
2025-12-21 06:26:54
美軍公海攔截中國貨輪,中國反手立規(guī)矩

美軍公海攔截中國貨輪,中國反手立規(guī)矩

回京歷史夢(mèng)
2025-12-20 01:25:05
想錢想瘋了!田靜曬帶貨視頻慘遭網(wǎng)友攻擊,罕見回應(yīng):怎么都是錯(cuò)

想錢想瘋了!田靜曬帶貨視頻慘遭網(wǎng)友攻擊,罕見回應(yīng):怎么都是錯(cuò)

夢(mèng)回千年aa
2025-12-19 10:04:39
犯了大忌!托卡耶夫去日本明治神宮,必將是其政治生涯的一個(gè)污點(diǎn)

犯了大忌!托卡耶夫去日本明治神宮,必將是其政治生涯的一個(gè)污點(diǎn)

我心縱橫天地間
2025-12-20 15:40:20
樊振東效應(yīng)太猛!德甲收視碾壓WTT,國際乒聯(lián)主席急了!歐冠狂轟11-1模仿C羅慶祝

樊振東效應(yīng)太猛!德甲收視碾壓WTT,國際乒聯(lián)主席急了!歐冠狂轟11-1模仿C羅慶祝

好乒乓
2025-12-20 12:26:37
99 元拿下千元級(jí) HIFI 頭戴耳機(jī)!久戴舒適,耳機(jī)、音箱隨意切換,吊打同價(jià)位!

99 元拿下千元級(jí) HIFI 頭戴耳機(jī)!久戴舒適,耳機(jī)、音箱隨意切換,吊打同價(jià)位!

英國報(bào)姐
2025-12-19 10:14:17
網(wǎng)友評(píng)南博事件:我不相信有人能為這幅畫謀劃近40年

網(wǎng)友評(píng)南博事件:我不相信有人能為這幅畫謀劃近40年

映射生活的身影
2025-12-20 16:36:14
奧迪突然官宣:31.3萬起,新車正式預(yù)售!

奧迪突然官宣:31.3萬起,新車正式預(yù)售!

高科技愛好者
2025-12-20 23:05:13
阿隆索過關(guān)了!皇馬2-0三連勝,27歲巨星3場(chǎng)進(jìn)4球,2人扛起全隊(duì)

阿隆索過關(guān)了!皇馬2-0三連勝,27歲巨星3場(chǎng)進(jìn)4球,2人扛起全隊(duì)

體育知多少
2025-12-21 07:28:35
羽聯(lián)總決賽女單對(duì)決,安洗瑩不敵山口茜

羽聯(lián)總決賽女單對(duì)決,安洗瑩不敵山口茜

兩兄弟養(yǎng)牛
2025-12-21 07:05:15
CBA最新消息!上海男籃或裁掉洛夫頓,程帥澎第一階段報(bào)銷

CBA最新消息!上海男籃或裁掉洛夫頓,程帥澎第一階段報(bào)銷

體壇瞎白話
2025-12-20 08:35:12
大部分人的存款都將歸零。

大部分人的存款都將歸零。

愛吃糖的貓cat
2025-12-20 18:11:26
3-0!哈蘭德獨(dú)造3球,一戰(zhàn)超越C羅,曼城豪取7連勝,英超榜首易主

3-0!哈蘭德獨(dú)造3球,一戰(zhàn)超越C羅,曼城豪取7連勝,英超榜首易主

我的護(hù)球最獨(dú)特
2025-12-21 00:53:51
劉亦菲在家玩自拍!不料被鏡子“出賣”了,網(wǎng)友直呼:好女人?。?>
    </a>
        <h3>
      <a href=劉亦菲在家玩自拍!不料被鏡子“出賣”了,網(wǎng)友直呼:好女人??! 小欣欣聊體育
2025-12-18 20:44:37
尚無特效藥!廣西一家四口用“毒鱟”煮湯喝,母子中毒去世

尚無特效藥!廣西一家四口用“毒鱟”煮湯喝,母子中毒去世

萬象硬核本尊
2025-12-20 18:57:12
2025-12-21 08:48:49
ScienceAI incentive-icons
ScienceAI
關(guān)注人工智能與其他前沿技術(shù)
1185文章數(shù) 221關(guān)注度
往期回顧 全部

科技要聞

生態(tài)適配已超95% 鴻蒙下一關(guān):十萬個(gè)應(yīng)用

頭條要聞

臺(tái)北襲擊案行兇者被造謠是"大陸籍" 蔣萬安駁斥

頭條要聞

臺(tái)北襲擊案行兇者被造謠是"大陸籍" 蔣萬安駁斥

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會(huì)陣容曝光,豪華陣仗

財(cái)經(jīng)要聞

求解“地方財(cái)政困難”

汽車要聞

嵐圖推進(jìn)L3量產(chǎn)測(cè)試 已完成11萬公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

藝術(shù)
時(shí)尚
健康
數(shù)碼
公開課

藝術(shù)要聞

李嵐清書法展現(xiàn)獨(dú)特風(fēng)貌,王風(fēng)啟功韻引關(guān)注

中年女人,冬天這么穿羽絨服、大衣,優(yōu)雅都藏在這3個(gè)細(xì)節(jié)里

這些新療法,讓化療不再那么痛苦

數(shù)碼要聞

11月Top10電視ODM工廠出貨下降5.2% 今年以來最大降幅

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版