国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5準(zhǔn)確率不足40%!北大發(fā)布多模態(tài)、高難度化學(xué)基準(zhǔn)SUPERChem

0
分享至


新智元報道

編輯:LRST

【新智元導(dǎo)讀】北大團(tuán)隊發(fā)布化學(xué)大模型基準(zhǔn)SUPERChem,這是一個多模態(tài)、高難度的化學(xué)推理基準(zhǔn)。它針對現(xiàn)有化學(xué)評測的不足,系統(tǒng)構(gòu)建了評估大語言模型化學(xué)推理能力的新體系。測試結(jié)果顯示,前沿模型如GPT-5準(zhǔn)確率僅38.5%,與低年級本科生水平相當(dāng),且在高階化學(xué)推理環(huán)節(jié)存在短板。該基準(zhǔn)為模型優(yōu)化提供了方向。

2025年,隨著開源推理模型DeepSeek-R1推出,LLM在「深度思考」范式下快速發(fā)展,其在自然科學(xué)領(lǐng)域的應(yīng)用已從簡單問答轉(zhuǎn)向復(fù)雜推理。然而,現(xiàn)有通用科學(xué)基準(zhǔn)趨于飽和,化學(xué)專用基準(zhǔn)多關(guān)注基礎(chǔ)能力與化學(xué)信息學(xué)任務(wù),缺乏對深度推理的系統(tǒng)考察。

從基礎(chǔ)教育、化學(xué)奧林匹克競賽到高等教育,化學(xué)學(xué)習(xí)強調(diào)知識綜合運用與多步推理,是評估推理能力的理想場景。設(shè)計高質(zhì)量評估題目需融合抽象概念與具體情境,構(gòu)建層層遞進(jìn)的推理鏈,對出題者專業(yè)素養(yǎng)要求極高。

近日,北京大學(xué)化學(xué)與分子工程學(xué)院聯(lián)合計算中心、計算機(jī)學(xué)院、元培學(xué)院發(fā)布化學(xué)大模型基準(zhǔn)SUPERChem。該基準(zhǔn)針對當(dāng)前化學(xué)評測中題目難度有限、多模態(tài)與推理過程評估缺失等不足,系統(tǒng)構(gòu)建了專注評估大語言模型 (LLM) 化學(xué)推理能力的新體系,旨在推動化學(xué)智能評測的深入發(fā)展。


論文鏈接:https://arxiv.org/abs/2512.01274

數(shù)據(jù)集:https://huggingface.co/datasets/ZehuaZhao/SUPERChem

平臺網(wǎng)站:https://superchem.pku.edu.cn

研究團(tuán)隊依托北京大學(xué)化學(xué)學(xué)院水平頂尖的本科生和研究生群體,充分發(fā)揮其扎實學(xué)科功底與豐富解題命題經(jīng)驗,對已有題目素材進(jìn)行準(zhǔn)確評估與合理優(yōu)化,共同構(gòu)建了SUPERChem基準(zhǔn),填補了化學(xué)深度推理評估的空白。


SUPERChem總覽與例題

數(shù)據(jù)構(gòu)建


SUPERChem題庫的三階段審核流程

SUPERChem題庫由北大化學(xué)專業(yè)近百名師生共建,涵蓋題目編寫、解析撰寫及嚴(yán)格的三階段審核。

題目源自非公開試題與專業(yè)文獻(xiàn)改編,并采用防泄漏設(shè)計,避免LLM依賴記憶或從選項逆推。針對化學(xué)信息的多模態(tài)特點,同步提供圖文交錯與純文本版本的對齊數(shù)據(jù)集,支持探究視覺信息對推理的影響。

目前,SUPERChem先期發(fā)布500道專家級精選題目,覆蓋結(jié)構(gòu)與性質(zhì)、化學(xué)反應(yīng)與合成、化學(xué)原理與計算、實驗設(shè)計與分析四大化學(xué)核心領(lǐng)域。

為細(xì)粒度評估LLM思考過程,SUPERChem引入推理路徑一致性(Reasoning Path Fidelity, RPF)指標(biāo):團(tuán)隊為每道題目撰寫了含關(guān)鍵檢查點的詳細(xì)解析,通過自動化評估模型思維鏈與解析的一致性,判別模型是否真正「理解」化學(xué)。

評測結(jié)果


前沿模型接近低年級本科生水平,不同模型推理一致性存在差異


前沿模型在SUPERChem上的表現(xiàn)

評測顯示,SUPERChem具有較高難度與區(qū)分度。在北京大學(xué)化學(xué)專業(yè)低年級本科生閉卷測試中,人類準(zhǔn)確率為40.3%。參與評測的前沿模型中,表現(xiàn)最佳的GPT-5 (High)準(zhǔn)確率為38.5%,表明其化學(xué)推理能力僅與化學(xué)專業(yè)低年級本科生水平相當(dāng),尚未超越人類基礎(chǔ)專業(yè)認(rèn)知。


前沿模型的正確率與RPF關(guān)系

分析RPF指標(biāo)可見,不同模型推理過程質(zhì)量差異明顯:Gemini-2.5-Pro和GPT-5 (High)在取得較高準(zhǔn)確率的同時,其推理邏輯也更符合專家路徑;而DeepSeek-V3.1-Think雖然準(zhǔn)確率相近,但RPF得分相對較低,反映其更傾向通過啟發(fā)式路徑得出結(jié)論。

多模態(tài)信息的「雙刃劍」效應(yīng)


輸入模態(tài)對不同模型的影響

在依賴多模態(tài)輸入的題目中,視覺信息對不同模型影響各異:對Gemini-2.5-Pro等強推理模型,圖像輸入可提升準(zhǔn)確率;對GPT-4o等推理能力較弱的模型,圖像信息反而造成干擾。這提示在科學(xué)任務(wù)中需根據(jù)模型能力匹配合適的輸入模態(tài)。

推理斷點分析:模型倒在了哪一步?

為進(jìn)一步探究LLM推理失敗的深層原因,研究團(tuán)隊進(jìn)行了推理斷點分析。結(jié)果表明,前沿模型的推理斷點集中于產(chǎn)物結(jié)構(gòu)預(yù)測、反應(yīng)機(jī)理識別、構(gòu)效關(guān)系分析等高階化學(xué)推理環(huán)節(jié),反映出當(dāng)前LLM在涉及反應(yīng)性與分子結(jié)構(gòu)理解的核心任務(wù)上仍存在短板。


推理斷點所屬化學(xué)能力分布

總結(jié)

綜上所述,SUPERChem為系統(tǒng)評估大語言模型的化學(xué)推理能力提供了細(xì)致、可靠的基準(zhǔn)。
評測結(jié)果指出,當(dāng)前前沿模型的化學(xué)能力仍處于基礎(chǔ)水平,在涉及高階化學(xué)推理能力的任務(wù)上存在明顯局限,為后續(xù)模型的針對性優(yōu)化提供了明確方向。

團(tuán)隊介紹

SUPERChem項目由北京大學(xué)化學(xué)與分子工程學(xué)院與元培學(xué)院的趙澤華、黃志賢、李雋仁、林思宇同學(xué)領(lǐng)銜完成。

77位北京大學(xué)化學(xué)專業(yè)的博士生與高年級本科生參與了SUPERChem題庫的構(gòu)建與審核,其中包括3位國際化學(xué)奧林匹克(IChO)獲獎選手與64位中國化學(xué)奧林匹克(CChO)決賽獲獎選手。174位北京大學(xué)化學(xué)專業(yè)低年級本科生參與了人類基線測試。

SUPERChem項目在北京大學(xué)化學(xué)與分子工程學(xué)院裴堅、高珍老師,計算中心馬皓老師,計算機(jī)學(xué)院楊仝老師的指導(dǎo)下開展。

項目獲得北京大學(xué)計算中心與高性能計算平臺資源支持,來自Chemy、好未來、質(zhì)心教育等機(jī)構(gòu)和化學(xué)與分子工程學(xué)院鄒鵬、鄭捷等多位教授的題目素材支持,以及高楊、龍汀汀老師的專業(yè)協(xié)助。

參考資料:

https://arxiv.org/abs/2512.01274

秒追ASI

?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
提拔要避開難走的路!

提拔要避開難走的路!

細(xì)說職場
2025-12-27 11:31:04
不得不說這兩位阿姨真的很會打扮,既優(yōu)雅又有女人味

不得不說這兩位阿姨真的很會打扮,既優(yōu)雅又有女人味

牛彈琴123456
2025-12-25 10:19:13
1981年,華國鋒并未辭去所有職位,仍留著一個關(guān)鍵職務(wù)直到2002年

1981年,華國鋒并未辭去所有職位,仍留著一個關(guān)鍵職務(wù)直到2002年

賈文彬的史書
2025-12-25 17:28:15
一部封神!九條滿:出道一年即消失,卻讓老司機(jī)們念念不忘

一部封神!九條滿:出道一年即消失,卻讓老司機(jī)們念念不忘

灼灼小齊
2025-12-26 19:41:18
中國隊第2位晉級8強棋手!世界棋仙戰(zhàn)黨毅飛完韓升周九段保住榮譽

中國隊第2位晉級8強棋手!世界棋仙戰(zhàn)黨毅飛完韓升周九段保住榮譽

L76號
2025-12-27 10:52:59
560億元天價索賠!聞泰科技誓收安世

560億元天價索賠!聞泰科技誓收安世

EETOP半導(dǎo)體社區(qū)
2025-12-27 09:00:49
哪些事是外國人到中國后才知道的?網(wǎng)友:你來天朝!你就漲知識吧

哪些事是外國人到中國后才知道的?網(wǎng)友:你來天朝!你就漲知識吧

帶你感受人間冷暖
2025-12-24 00:10:09
笑噴!王曼昱乒超贏球裹毛巾偷聽對手采訪,被發(fā)現(xiàn)后一臉壞笑離開

笑噴!王曼昱乒超贏球裹毛巾偷聽對手采訪,被發(fā)現(xiàn)后一臉壞笑離開

818體育
2025-12-27 10:00:10
在抗美援朝戰(zhàn)爭中,此人干涉彭總指揮,被調(diào)回國,還撤掉了職務(wù)!

在抗美援朝戰(zhàn)爭中,此人干涉彭總指揮,被調(diào)回國,還撤掉了職務(wù)!

瘋狂的小歷史
2025-12-27 10:40:02
再反轉(zhuǎn)!助理辟謠姜昆沒出國,網(wǎng)友曝飛機(jī)上合照,這次又社死

再反轉(zhuǎn)!助理辟謠姜昆沒出國,網(wǎng)友曝飛機(jī)上合照,這次又社死

李健政觀察
2025-12-27 09:32:16
鄭麗文滿意度出爐,盧秀燕、王金平選擇跟進(jìn),傅崐萁再次承擔(dān)重?fù)?dān)

鄭麗文滿意度出爐,盧秀燕、王金平選擇跟進(jìn),傅崐萁再次承擔(dān)重?fù)?dān)

阿天愛旅行
2025-12-27 11:56:18
中超最大牌外援?申花與30歲葡萄牙國腳談判!曾轟28球獲德甲銀靴

中超最大牌外援?申花與30歲葡萄牙國腳談判!曾轟28球獲德甲銀靴

我愛英超
2025-12-26 22:19:17
住院5天點了48頓VIP餐,男子續(xù)保被拒,一家三口想換其他保險公司也被風(fēng)控;保險公司回應(yīng):該產(chǎn)品不保證續(xù)保

住院5天點了48頓VIP餐,男子續(xù)保被拒,一家三口想換其他保險公司也被風(fēng)控;保險公司回應(yīng):該產(chǎn)品不保證續(xù)保

揚子晚報
2025-12-26 12:36:59
石頭男星培養(yǎng)女大學(xué)生!張柏芝“封肚”不生娃了?

石頭男星培養(yǎng)女大學(xué)生!張柏芝“封肚”不生娃了?

八卦瘋叔
2025-12-27 11:18:42
王青山,被查!

王青山,被查!

中國基金報
2025-12-26 16:53:47
60:51票!臺島彈劾提案通過,賴清德時代或告終,盧秀燕一針見血

60:51票!臺島彈劾提案通過,賴清德時代或告終,盧秀燕一針見血

素年文史
2025-12-26 17:19:56
他是香港社團(tuán)中的雇傭兵之王,曾做掉多位大佬名聲大噪,晚年凄涼

他是香港社團(tuán)中的雇傭兵之王,曾做掉多位大佬名聲大噪,晚年凄涼

徐慍解說
2025-12-25 17:26:11
男子發(fā)現(xiàn)妻子胸口有可疑痕跡,到醫(yī)院檢查后,醫(yī)生:立即聯(lián)系警察

男子發(fā)現(xiàn)妻子胸口有可疑痕跡,到醫(yī)院檢查后,醫(yī)生:立即聯(lián)系警察

眼淚博物
2025-08-07 16:47:38
爵士131-129險勝活塞,喬治拋投準(zhǔn)絕殺砍31+7+8,坎寧安29+5+17

爵士131-129險勝活塞,喬治拋投準(zhǔn)絕殺砍31+7+8,坎寧安29+5+17

懂球帝
2025-12-27 13:16:13
一車企海報被指“用粵語不雅詞匯”引爭議,廣東網(wǎng)友:有被冒犯到,數(shù)字“7”因發(fā)音問題,在日常交流中需謹(jǐn)慎避諱;當(dāng)前爭議海報已被撤換

一車企海報被指“用粵語不雅詞匯”引爭議,廣東網(wǎng)友:有被冒犯到,數(shù)字“7”因發(fā)音問題,在日常交流中需謹(jǐn)慎避諱;當(dāng)前爭議海報已被撤換

揚子晚報
2025-12-25 18:00:21
2025-12-27 13:43:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14194文章數(shù) 66399關(guān)注度
往期回顧 全部

教育要聞

美國境內(nèi)旅游簽轉(zhuǎn)學(xué)簽到底需要花多少錢?

頭條要聞

美國聯(lián)邦政府終止撥款加州高鐵 美國加州撤銷相關(guān)訴訟

頭條要聞

美國聯(lián)邦政府終止撥款加州高鐵 美國加州撤銷相關(guān)訴訟

體育要聞

NBA教練圈的布朗尼,花了22年證明自己

娛樂要聞

劉宇寧:我的價值不需要靠番位來證明

財經(jīng)要聞

注意,開始拉物價了!

科技要聞

小米也漲價了!業(yè)界稱終端再不漲明年必虧

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

手機(jī)
本地
時尚
公開課
軍事航空

手機(jī)要聞

聯(lián)發(fā)科34%份額再度登頂Q3全球手機(jī)芯片市場,持續(xù)領(lǐng)跑背后的秘訣

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

推廣中獎名單-更新至2025年12月15日推廣

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

英法德三國領(lǐng)導(dǎo)人通話 重申對烏支持

無障礙瀏覽 進(jìn)入關(guān)懷版