国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

頂尖AI挑戰(zhàn)北大化院174名頂尖學(xué)子,有機(jī)化學(xué)考場(chǎng)誰(shuí)更勝一籌?

0
分享至

歡迎報(bào)名摜蛋友誼賽暨產(chǎn)學(xué)研對(duì)接交流會(huì)

導(dǎo)讀

近日,北京大學(xué)化學(xué)與分子工程學(xué)院進(jìn)行了一場(chǎng)特殊的有機(jī)化學(xué)期中考試,174位北大化院的大二學(xué)生與GPT、Gemini、DeepSeek這些頂尖AI同場(chǎng)競(jìng)技,那究竟誰(shuí)更勝一籌呢?


考試現(xiàn)場(chǎng)

近日,北京大學(xué)化學(xué)與分子工程學(xué)院聯(lián)合計(jì)算中心、計(jì)算機(jī)學(xué)院、元培學(xué)院團(tuán)隊(duì),發(fā)布了最新成果化學(xué)大模型基準(zhǔn)SUPERChem。該基準(zhǔn)針對(duì)當(dāng)前化學(xué)知識(shí)水平評(píng)測(cè)中題目難度有限、多模態(tài)與推理過(guò)程評(píng)估缺失等不足,系統(tǒng)構(gòu)建了專注評(píng)估大語(yǔ)言模型(LLM)化學(xué)推理分析能力的新體系,旨在推動(dòng)化學(xué)智能評(píng)測(cè)的深入發(fā)展。而這場(chǎng)特殊的期中考試,是北大科研團(tuán)隊(duì)為大語(yǔ)言模型投下的一塊“試金石”,來(lái)丈量AI在科學(xué)推理上的真實(shí)邊界。

打開SUPERChem的題庫(kù),一種“壓迫感”撲面而來(lái)。晶體結(jié)構(gòu)的精細(xì)解析、反應(yīng)機(jī)理的深度推演、物化性質(zhì)的定量計(jì)算……這500道題目并非來(lái)自網(wǎng)絡(luò)上隨手可得的公開題庫(kù),而是源于對(duì)高難度試題和前沿專業(yè)文獻(xiàn)的深度改編。

互聯(lián)網(wǎng)可及的測(cè)試題大多已被博聞強(qiáng)識(shí)的AI在訓(xùn)練階段熟讀,考出的高分往往掩蓋了其推理能力的蒼白。而化學(xué),恰恰是一門不能只靠死記硬背的學(xué)科。它既有嚴(yán)密的邏輯推演,又充滿了對(duì)微觀世界的空間想象。要設(shè)計(jì)一套讓AI“沒(méi)見過(guò)”、必須靠硬實(shí)力推理的題目,難度極高。然而,這正是北大化院的獨(dú)特優(yōu)勢(shì)所在。近百名師生——其中不乏奧林匹克金牌得主——集結(jié)起來(lái),決定給AI出一套高門檻、重推理、防作弊的試卷。

他們要考的,是AI是否真的“懂”化學(xué)。


SUPERChem總覽與例題

為了構(gòu)建這套高質(zhì)量評(píng)估集,團(tuán)隊(duì)搭建了一個(gè)專屬協(xié)作平臺(tái)。在這里,出題、審題、修題從單調(diào)的任務(wù),變成了一套循序漸進(jìn)的“通關(guān)”流程。成員們?cè)谄脚_(tái)上協(xié)作,互相審閱、彼此“找茬”,讓嚴(yán)謹(jǐn)?shù)目茖W(xué)探討與活躍的思維碰撞交織共融。團(tuán)隊(duì)還引入了積分激勵(lì)系統(tǒng),讓出題過(guò)程就像在游戲中打怪升級(jí)。一道題目需歷經(jīng)編寫初稿、撰寫解析,再通過(guò)初審與終審的嚴(yán)格審核,每個(gè)環(huán)節(jié)均由不同的同學(xué)把關(guān),并發(fā)放相應(yīng)的積分。終審?fù)ㄟ^(guò)的題目,甚至最多迭代過(guò)15個(gè)版本。


SUPERChem題庫(kù)的三階段審核流程

考試成績(jī)揭曉。在這場(chǎng)精心設(shè)計(jì)的考試中,人類展現(xiàn)出了復(fù)雜的科學(xué)直覺(jué)。作為基線,參與測(cè)試的北大化院本科生取得了40.3%的平均準(zhǔn)確率。這個(gè)數(shù)字本身,就足以說(shuō)明這套題目的硬核程度。

而AI的表現(xiàn)如何?即便是接受測(cè)試的頂尖模型,其成績(jī)也僅與低年級(jí)本科生的平均水平相當(dāng)。


前沿模型在SUPERChem上的表現(xiàn)


前沿模型的正確率與RPF關(guān)系

讓團(tuán)隊(duì)感到意外的是視覺(jué)信息帶來(lái)的困惑?;瘜W(xué)的語(yǔ)言是圖形,分子結(jié)構(gòu)、反應(yīng)機(jī)理圖蘊(yùn)含著關(guān)鍵信息。然而對(duì)于部分模型而言,當(dāng)引入圖像信息時(shí),其準(zhǔn)確率不升反降。這說(shuō)明,當(dāng)前的AI在將視覺(jué)信息轉(zhuǎn)化為化學(xué)語(yǔ)義時(shí),仍存在明顯的感知瓶頸。


輸入模態(tài)對(duì)不同模型的影響

團(tuán)隊(duì)發(fā)現(xiàn),AI的推理鏈條往往斷裂于產(chǎn)物結(jié)構(gòu)預(yù)測(cè)、反應(yīng)機(jī)理識(shí)別以及構(gòu)效關(guān)系分析等高階任務(wù)。當(dāng)前的頂尖模型雖然擁有海量的知識(shí)儲(chǔ)備,但在處理需要嚴(yán)密邏輯和深刻理解的硬核化學(xué)問(wèn)題時(shí),仍顯得力不從心。


推理斷點(diǎn)所屬化學(xué)能力分布

SUPERChem的誕生,填補(bǔ)了化學(xué)領(lǐng)域多模態(tài)深度推理評(píng)測(cè)的空白。

團(tuán)隊(duì)發(fā)布這項(xiàng)成果,并非為了證明AI的短板,而是為了推動(dòng)它走得更遠(yuǎn)。SUPERChem就像一個(gè)路標(biāo)。它提醒我們:從通用的聊天機(jī)器人,到能夠理解構(gòu)效關(guān)系、推演反應(yīng)機(jī)理的專業(yè)科學(xué)助手,中間還有很長(zhǎng)的一段路要走。那是從“記住知識(shí)”到“理解物理世界”的跨越。

目前,SUPERChem項(xiàng)目已全面開源。團(tuán)隊(duì)希望這套源自北大的“試卷”,能成為全球科學(xué)與人工智能領(lǐng)域的公共財(cái)富,去催化下一次技術(shù)的爆發(fā)。或許在不久的將來(lái),當(dāng)我們?cè)俅未蜷_這張?jiān)嚲頃r(shí),AI能交出一份滿分的答卷。那將是化學(xué)與人工智能共同的驚喜。


SUPERChem平臺(tái)界面

更多介紹:

——背景——

2025年,隨著開源推理模型DeepSeek-R1推出,LLM在“深度思考”范式下快速發(fā)展,其在自然科學(xué)領(lǐng)域的應(yīng)用已從簡(jiǎn)單問(wèn)答轉(zhuǎn)向復(fù)雜推理。然而,現(xiàn)有通用科學(xué)基準(zhǔn)趨于飽和,化學(xué)專用基準(zhǔn)多關(guān)注基礎(chǔ)能力與化學(xué)信息學(xué)任務(wù),缺乏對(duì)深度推理的系統(tǒng)考察。

從基礎(chǔ)教育、化學(xué)奧林匹克競(jìng)賽到高等教育,化學(xué)學(xué)習(xí)強(qiáng)調(diào)知識(shí)綜合運(yùn)用與多步推理,是評(píng)估推理能力的理想場(chǎng)景。設(shè)計(jì)高質(zhì)量評(píng)估題目需融合抽象概念與具體情境,構(gòu)建層層遞進(jìn)的推理鏈,對(duì)出題者專業(yè)素養(yǎng)要求極高。

研究團(tuán)隊(duì)依托北京大學(xué)化學(xué)學(xué)院水平頂尖的本科生和研究生群體,充分發(fā)揮其扎實(shí)學(xué)科功底與豐富解題命題經(jīng)驗(yàn),對(duì)已有題目素材進(jìn)行準(zhǔn)確評(píng)估與合理優(yōu)化,共同構(gòu)建了SUPERChem基準(zhǔn),填補(bǔ)了化學(xué)深度推理評(píng)估的空白。


圖1.SUPERChem總覽與例題。

——數(shù)據(jù)構(gòu)建——


圖2.SUPERChem題庫(kù)的三階段審核流程。

SUPERChem題庫(kù)由北大化學(xué)專業(yè)近百名師生共建,涵蓋題目編寫、解析撰寫及嚴(yán)格的三階段審核。題目源自非公開試題與專業(yè)文獻(xiàn)改編,并采用防泄漏設(shè)計(jì),避免LLM依賴記憶或從選項(xiàng)逆推。針對(duì)化學(xué)信息的多模態(tài)特點(diǎn),同步提供圖文交錯(cuò)與純文本版本的對(duì)齊數(shù)據(jù)集,支持探究視覺(jué)信息對(duì)推理的影響。

目前,SUPERChem先期發(fā)布500道專家級(jí)精選題目,覆蓋結(jié)構(gòu)與性質(zhì)、化學(xué)反應(yīng)與合成、化學(xué)原理與計(jì)算、實(shí)驗(yàn)設(shè)計(jì)與分析四大化學(xué)核心領(lǐng)域。為細(xì)粒度評(píng)估LLM思考過(guò)程,SUPERChem引入推理路徑一致性(Reasoning Path Fidelity,RPF)指標(biāo):團(tuán)隊(duì)為每道題目撰寫了含關(guān)鍵檢查點(diǎn)的詳細(xì)解析,通過(guò)自動(dòng)化評(píng)估模型思維鏈與解析的一致性,判別模型是否真正“理解”化學(xué)。

——評(píng)測(cè)結(jié)果——

1.前沿模型接近低年級(jí)本科生水平,不同模型推理一致性存在差異

表1:前沿模型在SUPERChem上的表現(xiàn)。


評(píng)測(cè)顯示,SUPERChem具有較高難度與區(qū)分度。在北京大學(xué)化學(xué)專業(yè)低年級(jí)本科生閉卷測(cè)試中,人類準(zhǔn)確率為40.3%。參與評(píng)測(cè)的前沿模型中,表現(xiàn)最佳的GPT-5 (High)準(zhǔn)確率為38.5%,表明其化學(xué)推理能力僅與化學(xué)專業(yè)低年級(jí)本科生水平相當(dāng),尚未超越人類基礎(chǔ)專業(yè)認(rèn)知。


圖3. 前沿模型的正確率與RPF關(guān)系。

分析RPF指標(biāo)可見,不同模型推理過(guò)程質(zhì)量差異明顯:Gemini-2.5-Pro和GPT-5 (High)在取得較高準(zhǔn)確率的同時(shí),其推理邏輯也更符合專家路徑;而DeepSeek-V3.1-Thinking雖然準(zhǔn)確率相近,但RPF得分相對(duì)較低,反映其更傾向通過(guò)啟發(fā)式路徑得出結(jié)論。

2.多模態(tài)信息雙刃劍效應(yīng)


圖4:輸入模態(tài)對(duì)不同模型的影響。

在依賴多模態(tài)輸入的題目中,視覺(jué)信息對(duì)不同模型影響各異:對(duì)Gemini-2.5-Pro等強(qiáng)推理模型,圖像輸入可提升準(zhǔn)確率;對(duì)GPT-4o等推理能力較弱的模型,圖像信息反而造成干擾。這提示在科學(xué)任務(wù)中需根據(jù)模型能力匹配合適的輸入模態(tài)。

3.推理斷點(diǎn)分析:模型倒在了哪一步?

為進(jìn)一步探究LLM推理失敗的深層原因,研究團(tuán)隊(duì)進(jìn)行了推理斷點(diǎn)分析。結(jié)果表明,前沿模型的推理斷點(diǎn)集中于產(chǎn)物結(jié)構(gòu)預(yù)測(cè)、反應(yīng)機(jī)理識(shí)別、構(gòu)效關(guān)系分析等高階化學(xué)推理環(huán)節(jié)。這反映出當(dāng)前LLM在涉及反應(yīng)性與分子結(jié)構(gòu)理解的核心任務(wù)上仍存在短板。


圖5. 推理斷點(diǎn)所屬化學(xué)能力分布。

——總結(jié)——

綜上所述,SUPERChem為系統(tǒng)評(píng)估大語(yǔ)言模型的化學(xué)推理能力提供了細(xì)致、可靠的基準(zhǔn)。評(píng)測(cè)結(jié)果指出,當(dāng)前前沿模型的化學(xué)能力仍處于基礎(chǔ)水平,在涉及高階化學(xué)推理能力的任務(wù)上存在明顯局限,為后續(xù)模型的針對(duì)性優(yōu)化提供了明確方向。

——團(tuán)隊(duì)介紹——

SUPERChem項(xiàng)目由北京大學(xué)化學(xué)與分子工程學(xué)院與元培學(xué)院的趙澤華、黃志賢、李雋仁、林思宇同學(xué)領(lǐng)銜完成。近百位化學(xué)學(xué)院博士生與高年級(jí)本科生參與題庫(kù)構(gòu)建與審核,其中包括多位國(guó)際與中國(guó)化學(xué)奧林匹克決賽獲獎(jiǎng)選手。174位北京大學(xué)化學(xué)專業(yè)低年級(jí)本科生參與了人類基線測(cè)試。

SUPERChem項(xiàng)目在北京大學(xué)化學(xué)與分子工程學(xué)院裴堅(jiān)、高珍老師,計(jì)算中心馬皓老師, 計(jì)算機(jī)學(xué)院楊仝老師的指導(dǎo)下開展。項(xiàng)目 獲 得 北京大學(xué)計(jì)算中心與高性能計(jì)算平臺(tái) 資源 支持 ,來(lái)自 Chemy 、好未來(lái)、質(zhì)心教育等機(jī)構(gòu) 和 化學(xué)與分子工程學(xué)院鄒鵬、鄭捷等 多位教授 的 題目素材支持,以及高楊、龍汀汀老師的專業(yè)協(xié)助 。

項(xiàng)目資源

論文: https://arxiv.org/abs/2512.01274

數(shù)據(jù)集: https://huggingface.co/datasets/ZehuaZhao/SUPERChem

平臺(tái)網(wǎng)站: https://superchem.pku.edu.cn

來(lái)源:北京大學(xué)、北京大學(xué)化學(xué)與分子工程學(xué)院

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
白巖松戳破農(nóng)村養(yǎng)老真相:每月不到 200 塊,農(nóng)村老人晚年太難了

白巖松戳破農(nóng)村養(yǎng)老真相:每月不到 200 塊,農(nóng)村老人晚年太難了

老特有話說(shuō)
2026-03-11 15:01:35
陶哲軒對(duì)談 OpenAI 高管:“試錯(cuò)成本”無(wú)限趨零,AI 正在把數(shù)學(xué)變成一門重工業(yè)

陶哲軒對(duì)談 OpenAI 高管:“試錯(cuò)成本”無(wú)限趨零,AI 正在把數(shù)學(xué)變成一門重工業(yè)

AI科技大本營(yíng)
2026-03-10 16:28:23
滿門抄斬式復(fù)仇!孟加拉前總理家破人亡,屠龍少年終成惡龍

滿門抄斬式復(fù)仇!孟加拉前總理家破人亡,屠龍少年終成惡龍

王楔曉
2026-03-12 13:23:46
騰訊發(fā)文:非常緊張,盡量爭(zhēng)取

騰訊發(fā)文:非常緊張,盡量爭(zhēng)取

時(shí)間財(cái)經(jīng)
2026-03-12 15:20:55
女子相親帶男閨蜜蹭飯,狂點(diǎn)8000元海鮮,男方逃單失聯(lián),警方介入

女子相親帶男閨蜜蹭飯,狂點(diǎn)8000元海鮮,男方逃單失聯(lián),警方介入

離離言幾許
2026-03-07 15:52:24
凌晨在北京去世?75歲“風(fēng)流妖精”劉曉慶,給內(nèi)娛明星們上了一課

凌晨在北京去世?75歲“風(fēng)流妖精”劉曉慶,給內(nèi)娛明星們上了一課

動(dòng)物奇奇怪怪
2026-03-12 16:09:42
5年2.4億!湖人決定續(xù)約!詹姆斯時(shí)代落幕了

5年2.4億!湖人決定續(xù)約!詹姆斯時(shí)代落幕了

籃球教學(xué)論壇
2026-03-12 10:34:44
A股:大家要坐穩(wěn)扶好了,不出意外,明天,3月13日,很可能這樣走

A股:大家要坐穩(wěn)扶好了,不出意外,明天,3月13日,很可能這樣走

夜深愛(ài)雜談
2026-03-12 19:39:28
語(yǔ)音誤關(guān)大燈致撞車、Z20銷量暴跌92%,領(lǐng)克正在失去光環(huán)

語(yǔ)音誤關(guān)大燈致撞車、Z20銷量暴跌92%,領(lǐng)克正在失去光環(huán)

新浪新消費(fèi)
2026-03-11 19:55:04
向佐踢主持人后續(xù)!百克力回應(yīng)稱確實(shí)有不爽,曝對(duì)方私下真實(shí)人品

向佐踢主持人后續(xù)!百克力回應(yīng)稱確實(shí)有不爽,曝對(duì)方私下真實(shí)人品

林雁飛
2026-03-12 16:17:53
3月13日精選熱點(diǎn):特高壓再次利好   這三大龍頭要底部起爆

3月13日精選熱點(diǎn):特高壓再次利好 這三大龍頭要底部起爆

元芳說(shuō)投資
2026-03-12 21:04:19
19歲小將溫瑞博擊敗世界第二,晉級(jí)男單八強(qiáng),誰(shuí)說(shuō)男乒后繼無(wú)人

19歲小將溫瑞博擊敗世界第二,晉級(jí)男單八強(qiáng),誰(shuí)說(shuō)男乒后繼無(wú)人

楊哥乒乓
2026-03-12 19:28:55
12號(hào)收評(píng):特朗普重啟關(guān)稅戰(zhàn)!所有人都注意,大盤后市開始這樣看

12號(hào)收評(píng):特朗普重啟關(guān)稅戰(zhàn)!所有人都注意,大盤后市開始這樣看

春江財(cái)富
2026-03-12 15:20:15
2026年,1270萬(wàn)畢業(yè)生的“天崩開局”。

2026年,1270萬(wàn)畢業(yè)生的“天崩開局”。

老陸不老
2026-03-12 21:12:47
特朗普人還沒(méi)到,先改訪華規(guī)格,中方已接到通知,美國(guó)要彎道超車

特朗普人還沒(méi)到,先改訪華規(guī)格,中方已接到通知,美國(guó)要彎道超車

影孖看世界
2026-03-11 13:52:46
細(xì)思極恐:宇宙最恐怖怪物,正在一口一口吃掉所有東西

細(xì)思極恐:宇宙最恐怖怪物,正在一口一口吃掉所有東西

觀察宇宙
2026-03-10 19:10:59
“臭哄大炕有啥可顯擺的”,東北嫡長(zhǎng)女被嘲沒(méi)教養(yǎng),難登大雅之堂

“臭哄大炕有啥可顯擺的”,東北嫡長(zhǎng)女被嘲沒(méi)教養(yǎng),難登大雅之堂

妍妍教育日記
2026-03-11 18:07:53
伊朗公布最高領(lǐng)袖傷情,伊斯蘭革命衛(wèi)隊(duì)空軍指揮官遇襲身亡!伊朗宣布襲擊美國(guó)油輪,大火熊熊燃燒

伊朗公布最高領(lǐng)袖傷情,伊斯蘭革命衛(wèi)隊(duì)空軍指揮官遇襲身亡!伊朗宣布襲擊美國(guó)油輪,大火熊熊燃燒

每日經(jīng)濟(jì)新聞
2026-03-12 22:50:53
前國(guó)腳:伊朗女足球員回國(guó)后或被監(jiān)禁強(qiáng)奸處決 我因沒(méi)戴頭巾被奪走一切

前國(guó)腳:伊朗女足球員回國(guó)后或被監(jiān)禁強(qiáng)奸處決 我因沒(méi)戴頭巾被奪走一切

科學(xué)發(fā)掘
2026-03-12 08:28:27
韓媒:中國(guó)隊(duì)遞補(bǔ)世界杯純屬無(wú)稽之談,即便伊朗退賽也遠(yuǎn)輪不到

韓媒:中國(guó)隊(duì)遞補(bǔ)世界杯純屬無(wú)稽之談,即便伊朗退賽也遠(yuǎn)輪不到

懂球帝
2026-03-12 17:05:04
2026-03-12 23:48:49
化學(xué)加網(wǎng) incentive-icons
化學(xué)加網(wǎng)
萃聚英才,共享化學(xué)
12312文章數(shù) 8304關(guān)注度
往期回顧 全部

教育要聞

15個(gè)面試加分項(xiàng)。

頭條要聞

男子做核磁被遺忘在機(jī)器上6小時(shí) 涉事醫(yī)生:交接失誤

頭條要聞

男子做核磁被遺忘在機(jī)器上6小時(shí) 涉事醫(yī)生:交接失誤

體育要聞

建議將“出球型門將”納入反詐app

娛樂(lè)要聞

貝克漢姆全家給27歲大布送生日祝福

財(cái)經(jīng)要聞

盧鋒:從特朗普?qǐng)F(tuán)隊(duì)群演看時(shí)代變局

科技要聞

當(dāng)養(yǎng)蝦人開始卸載,大廠的戰(zhàn)爭(zhēng)才真正開始

汽車要聞

大眾2025財(cái)報(bào):轉(zhuǎn)型雖有陣痛 "大象"已然起跑

態(tài)度原創(chuàng)

教育
數(shù)碼
親子
本地
公開課

教育要聞

2026年春假安排告家長(zhǎng)書

數(shù)碼要聞

本地生活變天!雷鳥AWE聯(lián)手高德,AR眼鏡成下一代「飯票」

親子要聞

有愛(ài)但不多??!

本地新聞

坐標(biāo)北京,過(guò)敏季反向遷徒

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版