国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

北大團隊發(fā)布化學大模型基準SUPERChem 挑戰(zhàn)多模態(tài)高難度化學推理

0
分享至



作者丨北大團隊

編輯丨ScienceAI

近日,北京大學化學與分子工程學院聯(lián)合計算中心、計算機學院、元培學院發(fā)布化學大模型基準SUPERChem。該基準針對當前化學評測中題目難度有限、多模態(tài)與推理過程評估缺失等不足,系統(tǒng)構建了專注評估大語言模型 (LLM) 化學推理能力的新體系,旨在推動化學智能評測的深入發(fā)展。

——背景——

2025年,隨著開源推理模型 DeepSeek-R1 推出,LLM 在“深度思考”范式下快速發(fā)展,其在自然科學領域的應用已從簡單問答轉向復雜推理。然而,現(xiàn)有通用科學基準趨于飽和,化學專用基準多關注基礎能力與化學信息學任務,缺乏對深度推理的系統(tǒng)考察。

從基礎教育、化學奧林匹克競賽到高等教育,化學學習強調知識綜合運用與多步推理,是評估推理能力的理想場景。設計高質量評估題目需融合抽象概念與具體情境,構建層層遞進的推理鏈,對出題者專業(yè)素養(yǎng)要求極高。

研究團隊依托北京大學化學學院水平頂尖的本科生和研究生群體,充分發(fā)揮其扎實學科功底與豐富解題命題經(jīng)驗,對已有題目素材進行準確評估與合理優(yōu)化,共同構建了 SUPERChem 基準,填補了化學深度推理評估的空白。



圖 1:SUPERChem 總覽與例題。



圖 2:SUPERChem 題庫的三階段審核流程。

SUPERChem 題庫由北大化學專業(yè)近百名師生共建,涵蓋題目編寫、解析撰寫及嚴格的三階段審核。題目源自非公開試題與專業(yè)文獻改編,并采用防泄漏設計,避免 LLM 依賴記憶或從選項逆推。針對化學信息的多模態(tài)特點,同步提供圖文交錯與純文本版本的對齊數(shù)據(jù)集,支持探究視覺信息對推理的影響。

目前,SUPERChem 先期發(fā)布 500 道專家級精選題目,覆蓋結構與性質、化學反應與合成、化學原理與計算、實驗設計與分析四大化學核心領域。為細粒度評估 LLM 思考過程,SUPERChem 引入推理路徑一致性(Reasoning Path Fidelity, RPF)指標:團隊為每道題目撰寫了含關鍵檢查點的詳細解析,通過自動化評估模型思維鏈與解析的一致性,判別模型是否真正“理解”化學。

——評測結果——

  1. 前沿模型接近低年級本科生水平,不同模型推理一致性存在差異

表 1:前沿模型在 SUPERChem 上的表現(xiàn)。



評測顯示,SUPERChem 具有較高難度與區(qū)分度。在北京大學化學專業(yè)低年級本科生閉卷測試中,人類準確率為 40.3%。參與評測的前沿模型中,表現(xiàn)最佳的 GPT-5 (High) 準確率為 38.5%,表明其化學推理能力僅與化學專業(yè)低年級本科生水平相當,尚未超越人類基礎專業(yè)認知。



圖 3:前沿模型的正確率與 RPF 關系。

分析 RPF 指標可見,不同模型推理過程質量差異明顯:Gemini-2.5-Pro 和 GPT-5 (High) 在取得較高準確率的同時,其推理邏輯也更符合專家路徑;而 DeepSeek-V3.1-Think 雖然準確率相近,但RPF得分相對較低,反映其更傾向通過啟發(fā)式路徑得出結論。

  1. 多模態(tài)信息的“雙刃劍”效應



圖 4:輸入模態(tài)對不同模型的影響。

在依賴多模態(tài)輸入的題目中,視覺信息對不同模型影響各異:對 Gemini-2.5-Pro 等強推理模型,圖像輸入可提升準確率;對 GPT-4o 等推理能力較弱的模型,圖像信息反而造成干擾。這提示在科學任務中需根據(jù)模型能力匹配合適的輸入模態(tài)。

  1. 推理斷點分析:模型倒在了哪一步?

為進一步探究 LLM 推理失敗的深層原因,研究團隊進行了推理斷點分析。結果表明,前沿模型的推理斷點集中于產物結構預測、反應機理識別、構效關系分析等高階化學推理環(huán)節(jié)。這反映出當前 LLM 在涉及反應性與分子結構理解的核心任務上仍存在短板。



圖 5:推理斷點所屬化學能力分布。

——總結——

綜上所述,SUPERChem為系統(tǒng)評估大語言模型的化學推理能力提供了細致、可靠的基準。評測結果指出,當前前沿模型的化學能力仍處于基礎水平,在涉及高階化學推理能力的任務上存在明顯局限,為后續(xù)模型的針對性優(yōu)化提供了明確方向。

——團隊介紹——

SUPERChem項目由北京大學化學與分子工程學院與元培學院的趙澤華、黃志賢、李雋仁、林思宇同學領銜完成。77 位北京大學化學專業(yè)的博士生與高年級本科生參與了 SUPERChem 題庫的構建與審核,其中包括 3 位國際化學奧林匹克(IChO)獲獎選手與 64 位中國化學奧林匹克(CChO)決賽獲獎選手。174 位北京大學化學專業(yè)低年級本科生參與了人類基線測試。

SUPERChem項目在北京大學化學與分子工程學院裴堅、高珍老師,計算中心馬皓老師,計算機學院楊仝老師的指導下開展。項目獲得北京大學計算中心與高性能計算平臺資源支持,來自 Chemy、好未來、質心教育等機構和化學與分子工程學院鄒鵬、鄭捷等多位教授的題目素材支持,以及高楊、龍汀汀老師的專業(yè)協(xié)助。

聲明:包含AI生成內容

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
長期吃阿托伐他汀和阿司匹林,出現(xiàn)3種情況及時停藥,別心存僥幸

長期吃阿托伐他汀和阿司匹林,出現(xiàn)3種情況及時停藥,別心存僥幸

瑛派兒老黃
2025-12-19 19:32:16
并非迷信!今日冬至,牢記:1不晚、2不吃、3不做、4不拜,早了解

并非迷信!今日冬至,牢記:1不晚、2不吃、3不做、4不拜,早了解

阿龍美食記
2025-12-21 03:51:12
對華合約全部撕毀!中國又一伙伴背后捅刀,騙走20億倒向美國

對華合約全部撕毀!中國又一伙伴背后捅刀,騙走20億倒向美國

離離言幾許
2025-12-20 19:56:40
還沒打委內瑞拉,美先炸第3國,美軍不宣而戰(zhàn),100枚導彈連夜空襲

還沒打委內瑞拉,美先炸第3國,美軍不宣而戰(zhàn),100枚導彈連夜空襲

影孖看世界
2025-12-20 20:47:49
警方通報:任某被刑拘!在居民區(qū)做出危險行為!

警方通報:任某被刑拘!在居民區(qū)做出危險行為!

看看新聞Knews
2025-12-20 20:16:44
美國對臺軍售捅馬蜂窩,中國反手大舉賣武器,反美國家搶瘋了。

美國對臺軍售捅馬蜂窩,中國反手大舉賣武器,反美國家搶瘋了。

百態(tài)人間
2025-11-21 17:02:27
非洲唯一發(fā)達國家垮掉,只需一個「偉人」

非洲唯一發(fā)達國家垮掉,只需一個「偉人」

家傳編輯部
2025-12-08 20:18:50
3連冠!谷愛凌創(chuàng)歷史,被外國網(wǎng)友批評:享受美國福利卻代表中國

3連冠!谷愛凌創(chuàng)歷史,被外國網(wǎng)友批評:享受美國福利卻代表中國

侃球熊弟
2025-12-19 19:28:01
冬天寧可少吃牛羊肉,也要多吃它,強筋壯骨、補虛弱,錯過可惜了

冬天寧可少吃牛羊肉,也要多吃它,強筋壯骨、補虛弱,錯過可惜了

江江食研社
2025-12-19 20:30:04
第一批免簽去俄羅斯的中產傻眼了

第一批免簽去俄羅斯的中產傻眼了

風向觀察
2025-12-16 18:26:08
茼蒿立大功!醫(yī)生調查發(fā)現(xiàn):茼蒿對這5種疾病有好處,建議常吃

茼蒿立大功!醫(yī)生調查發(fā)現(xiàn):茼蒿對這5種疾病有好處,建議常吃

阿纂看事
2025-10-13 15:36:03
壽命短的男性,常有“2大2白1斑”,如果沒有,說明身體很健康

壽命短的男性,常有“2大2白1斑”,如果沒有,說明身體很健康

軒轅島
2025-12-20 11:45:03
金價真的是一夜變天,12月20日最新報價,全國金價竟然差這么多?

金價真的是一夜變天,12月20日最新報價,全國金價竟然差這么多?

戶外釣魚哥阿旱
2025-12-20 15:43:34
B費:我們不能把所有問題歸咎于C羅,他在禁區(qū)內仍是頂級殺手

B費:我們不能把所有問題歸咎于C羅,他在禁區(qū)內仍是頂級殺手

懂球帝
2025-12-20 07:46:21
104比88大勝16分!CBA第一爭冠熱門冒尖:他們沖擊第4冠穩(wěn)了?

104比88大勝16分!CBA第一爭冠熱門冒尖:他們沖擊第4冠穩(wěn)了?

籃球快餐車
2025-12-21 02:19:55
微胖:女人的多重煩惱

微胖:女人的多重煩惱

疾跑的小蝸牛
2025-12-16 16:53:48
為了防止其它國家給柬埔寨運輸武器彈藥,泰國直接封鎖了泰國灣!

為了防止其它國家給柬埔寨運輸武器彈藥,泰國直接封鎖了泰國灣!

荊楚寰宇文樞
2025-12-17 22:13:04
博主:申花門將鮑亞雄、前鋒費爾南多無限接近加盟云南玉昆

博主:申花門將鮑亞雄、前鋒費爾南多無限接近加盟云南玉昆

懂球帝
2025-12-20 11:16:27
33分5板6助4帽,隊史第一人!你再這么打下去,擺爛要變成爭冠了

33分5板6助4帽,隊史第一人!你再這么打下去,擺爛要變成爭冠了

鍋子籃球
2025-12-20 13:00:07
央視曝光固態(tài)電池重大消息!

央視曝光固態(tài)電池重大消息!

電動知家
2025-12-18 10:41:13
2025-12-21 06:24:49
ScienceAI incentive-icons
ScienceAI
關注人工智能與其他前沿技術
1185文章數(shù) 221關注度
往期回顧 全部

教育要聞

婆羅摩及多模型很好用,很多人還不知道!

頭條要聞

高市早苗擔心被邊緣化 要趕在特朗普訪華前行動

頭條要聞

高市早苗擔心被邊緣化 要趕在特朗普訪華前行動

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會陣容曝光,豪華陣仗

財經(jīng)要聞

求解“地方財政困難”

科技要聞

許四清:具身智能的"ChatGPT時刻"還未到來

汽車要聞

嵐圖推進L3量產測試 已完成11萬公里實際道路驗證

態(tài)度原創(chuàng)

數(shù)碼
教育
時尚
房產
軍事航空

數(shù)碼要聞

一屏多用:華為Mate X7 / XTs折疊屏手機“變身”智能手卡

教育要聞

中產留學家庭起飛三件套!

最顯腿細的騎士靴,誰穿誰是腿精

房產要聞

廣州有態(tài)度,一座國際化社區(qū)給出的城市答案

軍事要聞

澤連斯基:前線局勢愈發(fā)艱難

無障礙瀏覽 進入關懷版