国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

頂尖AI挑戰(zhàn)北大化院174名頂尖學子,有機化學考場誰更勝一籌?

0
分享至

歡迎報名摜蛋友誼賽暨產(chǎn)學研對接交流會

導(dǎo)讀

近日,北京大學化學與分子工程學院進行了一場特殊的有機化學期中考試,174位北大化院的大二學生與GPT、Gemini、DeepSeek這些頂尖AI同場競技,那究竟誰更勝一籌呢?


考試現(xiàn)場

近日,北京大學化學與分子工程學院聯(lián)合計算中心、計算機學院、元培學院團隊,發(fā)布了最新成果化學大模型基準SUPERChem。該基準針對當前化學知識水平評測中題目難度有限、多模態(tài)與推理過程評估缺失等不足,系統(tǒng)構(gòu)建了專注評估大語言模型(LLM)化學推理分析能力的新體系,旨在推動化學智能評測的深入發(fā)展。而這場特殊的期中考試,是北大科研團隊為大語言模型投下的一塊“試金石”,來丈量AI在科學推理上的真實邊界。

打開SUPERChem的題庫,一種“壓迫感”撲面而來。晶體結(jié)構(gòu)的精細解析、反應(yīng)機理的深度推演、物化性質(zhì)的定量計算……這500道題目并非來自網(wǎng)絡(luò)上隨手可得的公開題庫,而是源于對高難度試題和前沿專業(yè)文獻的深度改編。

互聯(lián)網(wǎng)可及的測試題大多已被博聞強識的AI在訓練階段熟讀,考出的高分往往掩蓋了其推理能力的蒼白。而化學,恰恰是一門不能只靠死記硬背的學科。它既有嚴密的邏輯推演,又充滿了對微觀世界的空間想象。要設(shè)計一套讓AI“沒見過”、必須靠硬實力推理的題目,難度極高。然而,這正是北大化院的獨特優(yōu)勢所在。近百名師生——其中不乏奧林匹克金牌得主——集結(jié)起來,決定給AI出一套高門檻、重推理、防作弊的試卷。

他們要考的,是AI是否真的“懂”化學。


SUPERChem總覽與例題

為了構(gòu)建這套高質(zhì)量評估集,團隊搭建了一個專屬協(xié)作平臺。在這里,出題、審題、修題從單調(diào)的任務(wù),變成了一套循序漸進的“通關(guān)”流程。成員們在平臺上協(xié)作,互相審閱、彼此“找茬”,讓嚴謹?shù)目茖W探討與活躍的思維碰撞交織共融。團隊還引入了積分激勵系統(tǒng),讓出題過程就像在游戲中打怪升級。一道題目需歷經(jīng)編寫初稿、撰寫解析,再通過初審與終審的嚴格審核,每個環(huán)節(jié)均由不同的同學把關(guān),并發(fā)放相應(yīng)的積分。終審?fù)ㄟ^的題目,甚至最多迭代過15個版本。


SUPERChem題庫的三階段審核流程

考試成績揭曉。在這場精心設(shè)計的考試中,人類展現(xiàn)出了復(fù)雜的科學直覺。作為基線,參與測試的北大化院本科生取得了40.3%的平均準確率。這個數(shù)字本身,就足以說明這套題目的硬核程度。

而AI的表現(xiàn)如何?即便是接受測試的頂尖模型,其成績也僅與低年級本科生的平均水平相當。


前沿模型在SUPERChem上的表現(xiàn)


前沿模型的正確率與RPF關(guān)系

讓團隊感到意外的是視覺信息帶來的困惑;瘜W的語言是圖形,分子結(jié)構(gòu)、反應(yīng)機理圖蘊含著關(guān)鍵信息。然而對于部分模型而言,當引入圖像信息時,其準確率不升反降。這說明,當前的AI在將視覺信息轉(zhuǎn)化為化學語義時,仍存在明顯的感知瓶頸。


輸入模態(tài)對不同模型的影響

團隊發(fā)現(xiàn),AI的推理鏈條往往斷裂于產(chǎn)物結(jié)構(gòu)預(yù)測、反應(yīng)機理識別以及構(gòu)效關(guān)系分析等高階任務(wù)。當前的頂尖模型雖然擁有海量的知識儲備,但在處理需要嚴密邏輯和深刻理解的硬核化學問題時,仍顯得力不從心。


推理斷點所屬化學能力分布

SUPERChem的誕生,填補了化學領(lǐng)域多模態(tài)深度推理評測的空白。

團隊發(fā)布這項成果,并非為了證明AI的短板,而是為了推動它走得更遠。SUPERChem就像一個路標。它提醒我們:從通用的聊天機器人,到能夠理解構(gòu)效關(guān)系、推演反應(yīng)機理的專業(yè)科學助手,中間還有很長的一段路要走。那是從“記住知識”到“理解物理世界”的跨越。

目前,SUPERChem項目已全面開源。團隊希望這套源自北大的“試卷”,能成為全球科學與人工智能領(lǐng)域的公共財富,去催化下一次技術(shù)的爆發(fā)。或許在不久的將來,當我們再次打開這張試卷時,AI能交出一份滿分的答卷。那將是化學與人工智能共同的驚喜。


SUPERChem平臺界面

更多介紹:

——背景——

2025年,隨著開源推理模型DeepSeek-R1推出,LLM在“深度思考”范式下快速發(fā)展,其在自然科學領(lǐng)域的應(yīng)用已從簡單問答轉(zhuǎn)向復(fù)雜推理。然而,現(xiàn)有通用科學基準趨于飽和,化學專用基準多關(guān)注基礎(chǔ)能力與化學信息學任務(wù),缺乏對深度推理的系統(tǒng)考察。

從基礎(chǔ)教育、化學奧林匹克競賽到高等教育,化學學習強調(diào)知識綜合運用與多步推理,是評估推理能力的理想場景。設(shè)計高質(zhì)量評估題目需融合抽象概念與具體情境,構(gòu)建層層遞進的推理鏈,對出題者專業(yè)素養(yǎng)要求極高。

研究團隊依托北京大學化學學院水平頂尖的本科生和研究生群體,充分發(fā)揮其扎實學科功底與豐富解題命題經(jīng)驗,對已有題目素材進行準確評估與合理優(yōu)化,共同構(gòu)建了SUPERChem基準,填補了化學深度推理評估的空白。


圖1.SUPERChem總覽與例題。

——數(shù)據(jù)構(gòu)建——


圖2.SUPERChem題庫的三階段審核流程。

SUPERChem題庫由北大化學專業(yè)近百名師生共建,涵蓋題目編寫、解析撰寫及嚴格的三階段審核。題目源自非公開試題與專業(yè)文獻改編,并采用防泄漏設(shè)計,避免LLM依賴記憶或從選項逆推。針對化學信息的多模態(tài)特點,同步提供圖文交錯與純文本版本的對齊數(shù)據(jù)集,支持探究視覺信息對推理的影響。

目前,SUPERChem先期發(fā)布500道專家級精選題目,覆蓋結(jié)構(gòu)與性質(zhì)、化學反應(yīng)與合成、化學原理與計算、實驗設(shè)計與分析四大化學核心領(lǐng)域。為細粒度評估LLM思考過程,SUPERChem引入推理路徑一致性(Reasoning Path Fidelity,RPF)指標:團隊為每道題目撰寫了含關(guān)鍵檢查點的詳細解析,通過自動化評估模型思維鏈與解析的一致性,判別模型是否真正“理解”化學。

——評測結(jié)果——

1.前沿模型接近低年級本科生水平,不同模型推理一致性存在差異

表1:前沿模型在SUPERChem上的表現(xiàn)。


評測顯示,SUPERChem具有較高難度與區(qū)分度。在北京大學化學專業(yè)低年級本科生閉卷測試中,人類準確率為40.3%。參與評測的前沿模型中,表現(xiàn)最佳的GPT-5 (High)準確率為38.5%,表明其化學推理能力僅與化學專業(yè)低年級本科生水平相當,尚未超越人類基礎(chǔ)專業(yè)認知。


圖3. 前沿模型的正確率與RPF關(guān)系。

分析RPF指標可見,不同模型推理過程質(zhì)量差異明顯:Gemini-2.5-Pro和GPT-5 (High)在取得較高準確率的同時,其推理邏輯也更符合專家路徑;而DeepSeek-V3.1-Thinking雖然準確率相近,但RPF得分相對較低,反映其更傾向通過啟發(fā)式路徑得出結(jié)論。

2.多模態(tài)信息雙刃劍效應(yīng)


圖4:輸入模態(tài)對不同模型的影響。

在依賴多模態(tài)輸入的題目中,視覺信息對不同模型影響各異:對Gemini-2.5-Pro等強推理模型,圖像輸入可提升準確率;對GPT-4o等推理能力較弱的模型,圖像信息反而造成干擾。這提示在科學任務(wù)中需根據(jù)模型能力匹配合適的輸入模態(tài)。

3.推理斷點分析:模型倒在了哪一步?

為進一步探究LLM推理失敗的深層原因,研究團隊進行了推理斷點分析。結(jié)果表明,前沿模型的推理斷點集中于產(chǎn)物結(jié)構(gòu)預(yù)測、反應(yīng)機理識別、構(gòu)效關(guān)系分析等高階化學推理環(huán)節(jié)。這反映出當前LLM在涉及反應(yīng)性與分子結(jié)構(gòu)理解的核心任務(wù)上仍存在短板。


圖5. 推理斷點所屬化學能力分布。

——總結(jié)——

綜上所述,SUPERChem為系統(tǒng)評估大語言模型的化學推理能力提供了細致、可靠的基準。評測結(jié)果指出,當前前沿模型的化學能力仍處于基礎(chǔ)水平,在涉及高階化學推理能力的任務(wù)上存在明顯局限,為后續(xù)模型的針對性優(yōu)化提供了明確方向。

——團隊介紹——

SUPERChem項目由北京大學化學與分子工程學院與元培學院的趙澤華、黃志賢、李雋仁、林思宇同學領(lǐng)銜完成。近百位化學學院博士生與高年級本科生參與題庫構(gòu)建與審核,其中包括多位國際與中國化學奧林匹克決賽獲獎選手。174位北京大學化學專業(yè)低年級本科生參與了人類基線測試。

SUPERChem項目在北京大學化學與分子工程學院裴堅、高珍老師,計算中心馬皓老師, 計算機學院楊仝老師的指導(dǎo)下開展。項目 獲 得 北京大學計算中心與高性能計算平臺 資源 支持 ,來自 Chemy 、好未來、質(zhì)心教育等機構(gòu) 和 化學與分子工程學院鄒鵬、鄭捷等 多位教授 的 題目素材支持,以及高楊、龍汀汀老師的專業(yè)協(xié)助 。

項目資源

論文: https://arxiv.org/abs/2512.01274

數(shù)據(jù)集: https://huggingface.co/datasets/ZehuaZhao/SUPERChem

平臺網(wǎng)站: https://superchem.pku.edu.cn

來源:北京大學、北京大學化學與分子工程學院

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
博爾特現(xiàn)狀:退役8年生3娃,每年領(lǐng)400萬美元,39歲上樓都能喘氣

博爾特現(xiàn)狀:退役8年生3娃,每年領(lǐng)400萬美元,39歲上樓都能喘氣

削桐作琴
2025-12-25 17:32:09
出大事了,烏克蘭發(fā)起斬首行動:91架戰(zhàn)機炸普京官邸,特朗普大怒

出大事了,烏克蘭發(fā)起斬首行動:91架戰(zhàn)機炸普京官邸,特朗普大怒

芳芳歷史燴
2025-12-30 10:29:34
廣東高速堵瘋了!首個能泡溫泉的服務(wù)區(qū)開業(yè),停車竟玩成度假

廣東高速堵瘋了!首個能泡溫泉的服務(wù)區(qū)開業(yè),停車竟玩成度假

小怪吃美食
2025-12-30 01:06:09
上海人沸騰!多家確認:延長!先提前做好這件大事,就在今天↗

上海人沸騰!多家確認:延長!先提前做好這件大事,就在今天↗

申消費
2025-12-30 10:22:22
美司令曾警告:若大陸武力收臺,美軍將摧毀中方火箭軍和核武庫!

美司令曾警告:若大陸武力收臺,美軍將摧毀中方火箭軍和核武庫!

壹知眠羊
2025-12-21 07:15:19
孫穎莎告別深大倒計時,王楚欽東家放話:簽下莎莎!有望成大頭隊友

孫穎莎告別深大倒計時,王楚欽東家放話:簽下莎莎!有望成大頭隊友

好乒乓
2025-12-30 12:37:04
25歲國足主力大婚!新娘氣質(zhì)出眾 申花眾隊友出席 81歲徐根寶致辭

25歲國足主力大婚!新娘氣質(zhì)出眾 申花眾隊友出席 81歲徐根寶致辭

我愛英超
2025-12-29 21:46:23
對等攔截!報仇不隔夜!1000萬升走私燃料被截,背后竟是美國人?

對等攔截!報仇不隔夜!1000萬升走私燃料被截,背后竟是美國人?

動漫里的童話
2025-12-30 10:00:29
我們已經(jīng)找到了解決油輪被扣的辦法,老師分析太透徹了

我們已經(jīng)找到了解決油輪被扣的辦法,老師分析太透徹了

阿芒娛樂說
2025-12-29 12:46:03
普京沒攪黃,特朗普沒逼簽,下月美國接著談,美媒:澤連斯基取得“保底勝利”

普京沒攪黃,特朗普沒逼簽,下月美國接著談,美媒:澤連斯基取得“保底勝利”

愛意隨風起呀
2025-12-30 12:55:49
260億都不要!毛阿敏帶女兒去美國生活后,大家才知她有多清醒

260億都不要!毛阿敏帶女兒去美國生活后,大家才知她有多清醒

徐徐道史
2025-12-28 08:01:36
美司令:一旦中國在臺海設(shè)禁飛區(qū),美軍就只能擊沉解放軍的戰(zhàn)艦了

美司令:一旦中國在臺海設(shè)禁飛區(qū),美軍就只能擊沉解放軍的戰(zhàn)艦了

浮光驚掠影
2025-12-12 23:27:34
晚飯七分飽被推翻了?醫(yī)生調(diào)查:過了56歲,吃飯盡量要做到這5點

晚飯七分飽被推翻了?醫(yī)生調(diào)查:過了56歲,吃飯盡量要做到這5點

39健康網(wǎng)
2025-12-28 20:31:10
當下,請你做好隨時失去一切的準備。

當下,請你做好隨時失去一切的準備。

詩詞中國
2025-12-28 17:43:04
長期腦力工作的人會沉迷簡單的體力勞動!網(wǎng)友:像是發(fā)現(xiàn)了新大陸

長期腦力工作的人會沉迷簡單的體力勞動!網(wǎng)友:像是發(fā)現(xiàn)了新大陸

另子維愛讀史
2025-12-23 16:31:52
山楂配它煮一煮,淤血暢通了,手腳冰涼好了、臉蛋粉嫩氣色好!

山楂配它煮一煮,淤血暢通了,手腳冰涼好了、臉蛋粉嫩氣色好!

健身狂人
2025-12-30 10:45:21
NBA最強豬隊友?63萬臨時工干傷世界籃球第一人!約基奇轟然倒下

NBA最強豬隊友?63萬臨時工干傷世界籃球第一人!約基奇轟然倒下

籃球看比賽
2025-12-30 11:36:48
馬伊琍更新動態(tài),新造型引發(fā)網(wǎng)友吐槽:從頭到腳都難看,眼里無光

馬伊琍更新動態(tài),新造型引發(fā)網(wǎng)友吐槽:從頭到腳都難看,眼里無光

小咪侃娛圈
2025-12-30 09:46:35
營業(yè)近10年,又一網(wǎng)紅店扛不。涸抨2小時,今一地門店全關(guān)

營業(yè)近10年,又一網(wǎng)紅店扛不住:曾排隊2小時,今一地門店全關(guān)

財經(jīng)八卦
2025-12-29 21:26:57
馬云預(yù)言兌現(xiàn)?2026年手上還握有存款的人,別忽視這三大現(xiàn)實

馬云預(yù)言兌現(xiàn)?2026年手上還握有存款的人,別忽視這三大現(xiàn)實

來科點譜
2025-12-29 09:01:09
2025-12-30 14:12:49
化學加網(wǎng) incentive-icons
化學加網(wǎng)
萃聚英才,共享化學
12221文章數(shù) 8303關(guān)注度
往期回顧 全部

教育要聞

學生論文匿名評閱不合格,導(dǎo)師按教學事故處理

頭條要聞

媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習

頭條要聞

媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習

體育要聞

這個59歲的胖子,還在表演“蝎子擺尾”

娛樂要聞

林俊杰官宣文案爭議!女方名字都不提

財經(jīng)要聞

朱光耀:美關(guān)稅政策正使WTO名存實亡

科技要聞

估值150億的智元,開始批量"制造"小獨角獸

汽車要聞

標配華為乾崑ADS 4 Pro 華境S明年上半年上市

態(tài)度原創(chuàng)

時尚
手機
親子
本地
公開課

“短大衣”今年冬天又火了,這4件怎么搭都好看!

手機要聞

榮耀 Power2 官宣:搭載第二代鴻燕通信,主打超強續(xù)航

親子要聞

后續(xù)!3歲“熊孩子”頭卡石像懷中,家長回應(yīng)!評論區(qū)笑不活了!

本地新聞

即將過去的2025年,對重慶的影響竟然如此深遠

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版