国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

OpenAI推出FrontierScience重置科學(xué)AI基準(zhǔn)

0
分享至

很多關(guān)于人工智能和科學(xué)的討論聽起來都充滿自信,甚至可以稱之為過于樂觀。模型可以閱讀論文,總結(jié)研究結(jié)果,并連接各個(gè)領(lǐng)域。理論上,這應(yīng)該會(huì)改變研究的工作方式。然而,在實(shí)踐中,并沒有那么簡單。


大多數(shù)科學(xué)家仍然謹(jǐn)慎對待這些人工智能系統(tǒng),有時(shí)懷疑。不是因?yàn)檫@些工具毫無用處,而是因?yàn)闆]有人真正證明它們可以像人類在事情變得不清楚或復(fù)雜時(shí)那樣推理科學(xué)問題。但是,現(xiàn)在一切都可能改變。

OpenAI發(fā)布了FrontierScience(前沿科學(xué)),這是一個(gè)新的基準(zhǔn),旨在測試先進(jìn)的人工智能模型是否能夠處理科學(xué)推理,而不僅僅是科學(xué)知識(shí)。這正是科學(xué)家對人工智能系統(tǒng)建立信心和信任的原因。

FrontierScience不是專注于有明確答案的基本問題,而是旨在將模型推向更開放的問題,這些問題類似于真正的研究。早期結(jié)果表明取得了進(jìn)展,但也暴露了這一進(jìn)展的脆弱性。

FrontierScience背后的核心主張是,許多現(xiàn)有的科學(xué)基準(zhǔn)已經(jīng)不適合現(xiàn)在的工作。隨著模型的改進(jìn),得分有所上升,但洞察力沒有。

FrontierScience基準(zhǔn)背后的OpenAI研究人員寫道:“最近的模型進(jìn)展幾乎完全突破了現(xiàn)有的科學(xué)基準(zhǔn),這些基準(zhǔn)通常依賴于多項(xiàng)選擇知識(shí)問題或已經(jīng)發(fā)布的信息?!?/p>


圍繞已知答案和已發(fā)表材料構(gòu)建的測試變得失去價(jià)值,即使?jié)撛诘目茖W(xué)能力沒有太大變化也能通過測試。雖然基準(zhǔn)分?jǐn)?shù)有所提高,但這并不是真正的科學(xué)運(yùn)作的。FrontierScience被視為一種重置。一種不同的方法,將困難和摩擦重新引入評估中,這樣就可以用一些誠實(shí)的態(tài)度再次衡量進(jìn)展。

那么,F(xiàn)rontierScience究竟是什么,它是如何工作的呢?

FrontierScience旨在通過兩種不同類型的工作來測試科學(xué)能力。第一種是OpenAI所說的奧林匹克路徑(Olympiad track)。這些都是困難且定義嚴(yán)格的問題,類似于高級競爭問題。這些問題的目標(biāo)是在明確的約束下進(jìn)行精確推理,并得出可驗(yàn)證的答案。基準(zhǔn)測試的這一部分測試了問題解決能力。它不衡量創(chuàng)造力或猜測,這在其他領(lǐng)域可能很有價(jià)值,但在科學(xué)領(lǐng)域則不然。

第二個(gè)是研究路徑(Research track),它是特意創(chuàng)建的,用于測試更混亂的數(shù)據(jù)。這些任務(wù)類似于科學(xué)家在研究過程中可能遇到的子問題,其中進(jìn)展取決于做出一系列正確的決定,而不是一個(gè)單一的最終答案。為了評估這一點(diǎn),每個(gè)問題都使用一個(gè)詳細(xì)的評分標(biāo)準(zhǔn)進(jìn)行評分,該標(biāo)準(zhǔn)對中間推理步驟進(jìn)行評分。目的是觀察模型是否理解如何處理問題。重點(diǎn)仍然是推理,而不是聽起來正確的最終答案。

FrontierScience的研究結(jié)果令人印象深刻,同時(shí)也發(fā)人深省。OpenAI評估了來自不同組織的多個(gè)前沿模型。谷歌、Anthropic和xAI的幾個(gè)競爭系統(tǒng)在基準(zhǔn)測試的部分內(nèi)容上發(fā)布了類似的結(jié)果。


GPT-5.2總體領(lǐng)先于基準(zhǔn)。它在奧林匹克l路徑上的得分為77%。在研究路徑上,這一數(shù)字降至25%。有趣的是,這種下降在各個(gè)模型中是一致的。在明確界定的問題上,人工智能表現(xiàn)仍然強(qiáng)勁,但隨著任務(wù)變得更加開放和有序,表現(xiàn)有所減弱。

這種差距突顯了解決問題和在實(shí)驗(yàn)室進(jìn)行實(shí)際研究之間的區(qū)別,在實(shí)驗(yàn)室中,實(shí)驗(yàn)在整個(gè)過程中可以采取多種形式。FrontierScience認(rèn)為,當(dāng)邊界清晰時(shí),當(dāng)前的模型可以有效地推理,但很難在更長的科學(xué)判斷鏈中保持一致性。這種區(qū)別有助于解釋為什么人工智能工具在某些研究工作流程中感覺強(qiáng)大,而在其他工作流程中則感覺脆弱。

FrontierScience真正強(qiáng)調(diào)的不是當(dāng)前模型的失敗,而是人工智能進(jìn)步的衡量方式與科學(xué)工作的實(shí)際展開方式之間的不匹配。

即使是它的創(chuàng)造者也警告不要高估結(jié)果。FrontierScience專注于受限和專家編寫的問題,并沒有捕捉到科學(xué)工作的許多核心要素。這包括假設(shè)生成和實(shí)驗(yàn)交互?;诹恳?guī)的評分也引入了更簡單的基準(zhǔn)所避免的主觀性。


那么,關(guān)鍵要點(diǎn)是什么?根據(jù)OpenAI的說法,基準(zhǔn)測試更像是一種診斷工具,而不是終點(diǎn)線。還有很多工作要做。然而,F(xiàn)rontierScience的目的是揭示推理失敗的地方,以便未來的模型開發(fā)可以集中在那里。這是否會(huì)導(dǎo)致更深層次的科學(xué)自主性仍然是一個(gè)懸而未決的問題。

OpenAI研究人員寫道:“研究和實(shí)踐評估對于繼續(xù)建立長期和直接相關(guān)的評估非常重要。”“科學(xué)推理是人工智能有益影響的核心,需要強(qiáng)有力的基準(zhǔn)來加速真正的科學(xué)進(jìn)步?!?/p>

與Ai時(shí)代前沿合作,將大門向更多普通用戶敞開!免費(fèi)課程限時(shí)領(lǐng),還有好禮相送!無論你是對新技術(shù)充滿好奇心的愛好者,還是希望提升自己技能的職場人士,這里都有適合你的課程和資源。文章留言或私信小編拉您入群!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
77歲老藝術(shù)家何慶魁,被親兒子捅刀:他嫖不動(dòng)了,每月1萬夠花

77歲老藝術(shù)家何慶魁,被親兒子捅刀:他嫖不動(dòng)了,每月1萬夠花

豐譚筆錄
2025-12-15 10:43:28
回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

就一點(diǎn)
2025-11-22 10:36:39
搶中國原油的美軍,意識(shí)到玩砸了,收到最新命令,60天內(nèi)不能動(dòng)手

搶中國原油的美軍,意識(shí)到玩砸了,收到最新命令,60天內(nèi)不能動(dòng)手

近史博覽
2025-12-26 11:41:41
亞洲周刊曝光徐鶯偽造身份11年,篡改民國收藏史,文博圈大佬站臺(tái)

亞洲周刊曝光徐鶯偽造身份11年,篡改民國收藏史,文博圈大佬站臺(tái)

阿纂看事
2025-12-25 13:38:27
慈禧洗澡后獨(dú)留李蓮英伺候,房間里常傳出痛呼,宮女忍不住窺門簾

慈禧洗澡后獨(dú)留李蓮英伺候,房間里常傳出痛呼,宮女忍不住窺門簾

宅家伍菇?jīng)?/span>
2025-12-27 16:34:05
豪取3連勝,上海男籃手下留情,洛夫頓6+7,四川避免再創(chuàng)得分新低

豪取3連勝,上海男籃手下留情,洛夫頓6+7,四川避免再創(chuàng)得分新低

替補(bǔ)席看球
2025-12-27 21:18:42
美國專家:漢字是全球唯一超越時(shí)空的文字,這一優(yōu)勢碾壓英法俄語

美國專家:漢字是全球唯一超越時(shí)空的文字,這一優(yōu)勢碾壓英法俄語

比利
2025-12-27 19:26:54
中超又引進(jìn)一位大牌外援:身價(jià)2千萬的巴西球星即將來中國踢球

中超又引進(jìn)一位大牌外援:身價(jià)2千萬的巴西球星即將來中國踢球

國足風(fēng)云
2025-12-28 08:57:47
內(nèi)行人預(yù)測2026年大勢,4大現(xiàn)象席卷全國!

內(nèi)行人預(yù)測2026年大勢,4大現(xiàn)象席卷全國!

老特有話說
2025-12-25 12:01:20
前NBA教練:詹姆斯即使現(xiàn)在加盟奇才,他也只能當(dāng)球隊(duì)的第三選擇

前NBA教練:詹姆斯即使現(xiàn)在加盟奇才,他也只能當(dāng)球隊(duì)的第三選擇

移動(dòng)擋拆
2025-12-28 01:32:30
36歲銀行女自殺后續(xù)!生前被上面查過,月薪五六萬,全家都是公職

36歲銀行女自殺后續(xù)!生前被上面查過,月薪五六萬,全家都是公職

鋭娛之樂
2025-12-27 19:24:33
康熙將鰲拜滿門抄斬,問其女:可知罪?女孩反問他,當(dāng)場臉色大變

康熙將鰲拜滿門抄斬,問其女:可知罪?女孩反問他,當(dāng)場臉色大變

千秋文化
2025-12-24 23:35:07
張水華遭中國田協(xié)除名背后!絕非工作人員失誤 存2種可能:爭議大

張水華遭中國田協(xié)除名背后!絕非工作人員失誤 存2種可能:爭議大

風(fēng)過鄉(xiāng)
2025-12-28 07:20:23
一天吃40個(gè)蛋的蛋神,見證了互聯(lián)網(wǎng)最跟風(fēng)時(shí)刻

一天吃40個(gè)蛋的蛋神,見證了互聯(lián)網(wǎng)最跟風(fēng)時(shí)刻

雷斯林
2025-12-26 19:42:20
國運(yùn)由誰決定?從烏克蘭的悲劇,回看教員那幾次“孤獨(dú)的堅(jiān)持”

國運(yùn)由誰決定?從烏克蘭的悲劇,回看教員那幾次“孤獨(dú)的堅(jiān)持”

遠(yuǎn)方風(fēng)林
2025-12-26 00:05:55
如果不想滅亡,就不要開戰(zhàn)!我國集裝箱導(dǎo)彈艦完工:美日打不贏了

如果不想滅亡,就不要開戰(zhàn)!我國集裝箱導(dǎo)彈艦完工:美日打不贏了

墨蘭史書
2025-12-27 17:25:02
特朗普不讓政敵過個(gè)安穩(wěn)年

特朗普不讓政敵過個(gè)安穩(wěn)年

陸棄
2025-12-27 08:20:03
37歲闞清子閨蜜葉青探望寶寶:辟謠孩子畸形,用法律追責(zé)造謠者

37歲闞清子閨蜜葉青探望寶寶:辟謠孩子畸形,用法律追責(zé)造謠者

滄海一書客
2025-12-27 00:16:56
南博事件新證據(jù)!龐叔令律師:龐家捐贈(zèng)的江南春,不是曝光的兩幅

南博事件新證據(jù)!龐叔令律師:龐家捐贈(zèng)的江南春,不是曝光的兩幅

火山詩話
2025-12-26 07:14:22
若澤連斯基選舉失敗會(huì)被清算嗎?

若澤連斯基選舉失敗會(huì)被清算嗎?

史政先鋒
2025-12-27 16:52:40
2025-12-28 09:36:49
Ai時(shí)代前沿
Ai時(shí)代前沿
人工智能新聞動(dòng)態(tài)及應(yīng)用案例。
1608文章數(shù) 510關(guān)注度
往期回顧 全部

科技要聞

小米也漲價(jià)了!業(yè)界稱終端再不漲明年必虧

頭條要聞

牛彈琴:俄烏局勢關(guān)鍵時(shí)刻普京穿上軍裝 釋放強(qiáng)烈信號(hào)

頭條要聞

牛彈琴:俄烏局勢關(guān)鍵時(shí)刻普京穿上軍裝 釋放強(qiáng)烈信號(hào)

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財(cái)經(jīng)要聞

注意,開始拉物價(jià)了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

藝術(shù)
健康
教育
數(shù)碼
時(shí)尚

藝術(shù)要聞

手串種類大盤點(diǎn),全見過的算得上是文玩老手了!

這些新療法,讓化療不再那么痛苦

教育要聞

二次函數(shù)定值第1講,一個(gè)視頻學(xué)會(huì)!

數(shù)碼要聞

2025全球智能手表出貨量預(yù)計(jì)回暖 重回增長軌道

這些穿搭才最適合普通人!不露腿、不花哨,簡約舒適又顯氣質(zhì)

無障礙瀏覽 進(jìn)入關(guān)懷版