国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

CMPhysBench發(fā)布,評估大語言模型凝聚態(tài)物理水平邁向科研級智能

0
分享至



作者 | 論文團(tuán)隊(duì)

編輯 | ScienceAI

近年來,大語言模型(LLM)似乎無所不能,以驚人的速度快速應(yīng)用于文本生成、編程、通用問答和科研領(lǐng)域。大語言模型在具體科學(xué)問題上的能力究竟如何?

凝聚態(tài)物理問題是一個(gè)很好的測試標(biāo)準(zhǔn),它們往往涉及固體理論、多體物理、量子統(tǒng)計(jì)、量子場論和高等量子力學(xué)等,還與物質(zhì)科學(xué)、材料科學(xué)等高維度、多場調(diào)控等復(fù)雜物性效應(yīng)密切相關(guān)。在研究生級別的凝聚態(tài)物理問題上,常見的模型還能像人類專家一樣推理嗎?

近日,上海人工智能實(shí)驗(yàn)室、中國科學(xué)院物理研究所及中國科學(xué)院凝聚態(tài)物質(zhì)科學(xué)數(shù)據(jù)中心等多家機(jī)構(gòu)聯(lián)合發(fā)布了 CMPhysBench 評測集。這是全球首個(gè)面向凝聚態(tài)物理的大模型評測基準(zhǔn),涵蓋磁學(xué)、超導(dǎo)、強(qiáng)關(guān)聯(lián)系統(tǒng)、半導(dǎo)體、理論基礎(chǔ)等六大核心領(lǐng)域,題目均來源于研究生水平教材與專家審核。

研究團(tuán)隊(duì)還提出了適用于物理問題答案的 SEED(Scalable Expression Edit Distance)評分體系,可實(shí)現(xiàn)對復(fù)雜物理推理過程的細(xì)粒度評估。實(shí)驗(yàn)結(jié)果顯示,即使是目前最強(qiáng)的大模型 Grok-4,在 CMPhysBench 上的平均 SEED 得分僅為 36,準(zhǔn)確率不到 30%,凸顯了大模型在前沿物理推理中的顯著差距。

該工作也在中國物理學(xué)會 2025 秋季會議 (CPS 2025) 上獲得最佳墻報(bào)獎(jiǎng)。



  • 論文鏈接:https://arxiv.org/pdf/2508.18124
  • 項(xiàng)目主頁:https://cmpdc.iphy.ac.cn/benchmarks
  • 代碼鏈接:https://github.com/CMPhysBench/CMPhysBench
  • 數(shù)據(jù)集鏈接:https://huggingface.co/datasets/weidawang/CMPhysBench

1. 為什么需要 CMPhysBench?——AI 與硬核科學(xué)

近年來,大語言模型(LLM)在自然語言處理、數(shù)學(xué)推理、編程等任務(wù)上展現(xiàn)出令人矚目的能力。例如,它們能夠在奧數(shù)題、復(fù)雜編程挑戰(zhàn)甚至分子設(shè)計(jì)中取得接近專家的表現(xiàn)。這使得人們對其在科學(xué)發(fā)現(xiàn)中的應(yīng)用寄予厚望。因此誕生了很多針對大語言模型的科學(xué)測試,但是很多測試題目偏向概念理解和多項(xiàng)選擇題。這使得大模型在解決需要長推導(dǎo)的研究生級別物理問題上的能力難以進(jìn)行有效評估。

物理學(xué) —— 尤其是凝聚態(tài)物理 —— 包含了磁性、超導(dǎo)、強(qiáng)關(guān)聯(lián)等,這些都是現(xiàn)代物理學(xué)最活躍和最具挑戰(zhàn)性的領(lǐng)域,這些領(lǐng)域的問題對模型提出了更嚴(yán)苛的要求:不僅要有復(fù)雜的邏輯推理與數(shù)學(xué)計(jì)算能力,還必須深刻理解物理概念與理論框架。凝聚態(tài)物理問題往往涉及多體理論、量子統(tǒng)計(jì)、量子場論和高等量子力學(xué),這類問題帶來的挑戰(zhàn)超越了日常語言和基礎(chǔ)數(shù)學(xué),是檢驗(yàn) LLM 是否真正 「懂世界」,輔助科學(xué)研究的理想試金石?,F(xiàn)有的科學(xué)評測基準(zhǔn)多聚焦在中學(xué)或本科水平(如 ScienceQA、PHYBench 等),對研究前沿的復(fù)雜問題覆蓋有限。

因此,我們?nèi)匀狈σ粋€(gè)能夠真正衡量大模型在研究生級別能力上的標(biāo)準(zhǔn)數(shù)據(jù)集,CMPhysBench 的誕生,正是為了填補(bǔ)這一空白,具體對比如下表所示:



拓展討論:為什么選擇凝聚態(tài)物理?凝聚態(tài)物理和人工智能的交匯值得更進(jìn)一步的挖掘。凝聚態(tài)物理研究的是大量相互作用粒子導(dǎo)致的復(fù)雜物理。它的思想本源是「More is different」,「多者異也」,「量變引起質(zhì)變」等多維復(fù)雜效應(yīng)。凝聚態(tài)物理研究為人工智能的神經(jīng)網(wǎng)絡(luò)提供了基本原理和初始架構(gòu),為大語言模型的智能「涌現(xiàn)」提供了「量變引起質(zhì)變」的思維根源和物理依據(jù)。從這個(gè)角度說,凝聚態(tài)物理是「人工智能 + 科學(xué)」的交匯點(diǎn)和發(fā)源地。

2. 試卷如何出?一份給大模型的研究生級別的考題 ——CMPhysBench

考試目的:CMPhysBench 是一個(gè)面向 凝聚態(tài)物理 的全新大模型評測基準(zhǔn),其目標(biāo)是檢驗(yàn)大語言模型在真正科學(xué)領(lǐng)域中的推理和計(jì)算能力。CMPhysBench 共收錄 520 道研究生級別的計(jì)算類題目,所有題目均由博士生和博士后研究人員基于 17 本經(jīng)典教材(如著名的朗道《理論物理學(xué)教程》、M. Peskin 與 D. Schroeder 合著的《量子場論導(dǎo)論》,F(xiàn). Gelis 的《量子場論》與李正中的《固體理論》) 精心整理與改寫,并經(jīng)過專家審核,保證學(xué)術(shù)嚴(yán)謹(jǐn)性與可操作性。這意味著大語言模型需要掌握更復(fù)雜的推理技巧和更深厚廣博的物理知識。





考試范圍:題目體系完整,覆蓋六大核心領(lǐng)域:

1. 電磁學(xué)(Magnetism)

2. 超導(dǎo)(Superconductivity)

3. 強(qiáng)關(guān)聯(lián)系統(tǒng)(Strongly Correlated Systems)

4. 半導(dǎo)體(Semiconductors)

5. 理論基礎(chǔ)(Theoretical Foundations),涵蓋高等量子力學(xué)(如復(fù)雜薛定諤方程求解和物理體系分析),量子場論(如 Klein-Gordon 場、Dirac 場、路徑積分、自發(fā)對稱性破缺,重整化群)到統(tǒng)計(jì)物理(如相變、漲落理論)等廣泛主題

6. 其他(Others),包括量子力學(xué)中的基礎(chǔ)問題與計(jì)算技巧,如諧振子、微擾理論、自旋體系等

考試題型:CMPhysBench 全部為開放性計(jì)算題,沒有選擇題,沒有填空題,不可以投機(jī)取巧!答案形式不僅包括 表達(dá)式 和 數(shù)值,還涉及方程、區(qū)間、元組等多樣化類型,更貼近科研人員日常需要解決的推導(dǎo)與計(jì)算任務(wù)。



3. 如何花式評分?涵蓋多種類型的表達(dá)式評價(jià)方法 ——SEED 評分體系

在評估大模型的物理解題能力時(shí),由于答案具有多樣性,如何打分是一個(gè)關(guān)鍵難題。傳統(tǒng)做法往往采用二元判定(對 / 錯(cuò)),或者依賴簡單的表達(dá)式比對,但這在凝聚態(tài)物理的復(fù)雜場景中非常有限,讓我們來理一理:

  • Accuracy(準(zhǔn)確率):只能判斷最終答案對不對,不能定量評估正確性,忽略了「差一點(diǎn)正確」的情況。
  • EED 表達(dá)式編輯距離(Expression Edit Distance):通過比較答案的符號樹結(jié)構(gòu)來衡量差異,比單純的字符串匹配更智能,但它在處理復(fù)雜的方程、多元組或區(qū)間答案時(shí),往往表現(xiàn)不夠穩(wěn)定。對于復(fù)雜多樣的答案,需要多種多樣的處理手法。

為解決這些問題,研究團(tuán)隊(duì)提出了的 SEED(Scalable Expression Edit Distance)指標(biāo):

1.更全面的答案類型支持:SEED 不僅能處理 表達(dá)式(Expression),還支持 方程(Equation)、元組(Tuple)、區(qū)間(Interval)、數(shù)值(Numeric) 等多種答案形式,實(shí)現(xiàn)了對研究生級物理問題更真實(shí)的覆蓋。

2.細(xì)粒度的部分得分:不同于傳統(tǒng)的對 / 錯(cuò)判定,SEED 會根據(jù)答案和標(biāo)準(zhǔn)解之間的結(jié)構(gòu)差異給出細(xì)粒度的部分分。比如:符號寫錯(cuò)、邊界條件遺漏,SEED 都能識別并合理扣分,而不是直接判「零分」。

3.物理語義感知:SEED 在設(shè)計(jì)時(shí)還特別考慮了物理場景,支持單位換算、科學(xué)計(jì)數(shù)法、四舍五入等常見物理答案格式;能處理 矩陣 / 向量、不等式等復(fù)雜符號;自動(dòng)進(jìn)行 LaTeX 清洗與歸一化,避免因格式差異導(dǎo)致的「誤判」。

4.更高的可靠性:在與專家打分的對比實(shí)驗(yàn)中,SEED 的一致性最高(Spearman 相關(guān)系數(shù) ρ=0.90),顯著優(yōu)于 EED (ρ≈0.7) 和 GPT-4o 審題判分 (ρ≈0.56) 等方法。這意味著 SEED 不僅能看出對錯(cuò),還能捕捉「接近正確」的推理軌跡,更接近科研人員的思維方式。



4. 最強(qiáng)模型真的能完美解決研究生級別物理問題嗎,AI 離真正的「物理學(xué)家」還有多遠(yuǎn)?

這個(gè)問題的答案可能并不樂觀,現(xiàn)有的大語言模型在解決研究生級別的問題時(shí)候犯的錯(cuò)誤多種多樣,體現(xiàn)出在物理背景知識理解與數(shù)學(xué)推導(dǎo)等能力上的不足。

通過對 18 個(gè)主流大語言模型(包括 o3、Grok-4、Gemini-2.5-pro、deepseek-r1 等)的系統(tǒng)評測,CMPhysBench 揭示了幾個(gè)重要發(fā)現(xiàn):

首先,大模型在凝聚態(tài)物理上的整體表現(xiàn)遠(yuǎn)低于預(yù)期。即使是表現(xiàn)最好的 Grok-4,平均 SEED 得分也只有 36 左右(滿分 100 分),專家標(biāo)注的準(zhǔn)確率不足 30%;而多數(shù)模型徘徊在 15–25 SEED 區(qū)間,正確率更是常常低于 20%。這與它們在數(shù)學(xué)、編程等任務(wù)上的高分形成鮮明對比,說明當(dāng)前最強(qiáng)的大模型在應(yīng)對研究級物理問題時(shí)存在顯著能力鴻溝。



其次,錯(cuò)誤分析顯示,大模型在凝聚態(tài)物理中最常見的錯(cuò)誤是概念與物理模型的誤用(占比超過 40–50%),其次是數(shù)學(xué)與邏輯錯(cuò)誤(約 20–30%)。例如,有的模型在推導(dǎo)中混淆物理量的定義,有的則在代數(shù)運(yùn)算或近似處理上犯下低級錯(cuò)誤。這些錯(cuò)誤反映出模型在物理概念把握和符號操作上的雙重不足。



最后,不同領(lǐng)域的表現(xiàn)差異明顯。如下圖所示,Grok-4 在超導(dǎo)與理論基礎(chǔ)題目上領(lǐng)先,但在強(qiáng)關(guān)聯(lián)系統(tǒng)中顯著下滑;Gemini 2.5 Pro 在半導(dǎo)體問題上表現(xiàn)較強(qiáng);而 DeepSeek-R1 在強(qiáng)關(guān)聯(lián)系統(tǒng)中反而取得了最高分。這說明不同模型在物理分支領(lǐng)域的能力并不均衡,凸顯了未來進(jìn)行「學(xué)科定向優(yōu)化」的必要性。

在未來,需要更加專門的數(shù)據(jù)和訓(xùn)練方法才能讓大模型在這些實(shí)踐性強(qiáng)且前沿的區(qū)域成為人類的好助理。



5. CMPhysBench—— 讓大語言模型離前沿基礎(chǔ)科學(xué)更近一步

CMPhysBench 的意義在于三方面:

  • 科研價(jià)值:它是首個(gè)專注于研究生級別凝聚態(tài)物理的系統(tǒng)性評測基準(zhǔn),填補(bǔ)了現(xiàn)有物理類基準(zhǔn)「只到高中 / 本科」的空白,讓大模型真正接受更高層次級別的檢驗(yàn)。
  • 方法論突破:團(tuán)隊(duì)提出的 SEED 評分體系,不僅能精確衡量復(fù)雜物理解答的對錯(cuò),還能推廣到數(shù)學(xué)、工程等其他 STEM 領(lǐng)域,為未來的精細(xì)化評測提供了新思路。
  • 對 AI 社區(qū)的啟發(fā):結(jié)果顯示,即便是最先進(jìn)的大規(guī)模語言模型(LLM),其在凝聚態(tài)物理領(lǐng)域的問題處理能力依然欠佳。這提醒我們,大模型要真正「懂物理」,還需引入物理感知、符號工具以及科學(xué)化的監(jiān)督。

未來改進(jìn)的方向包括:在模型推理過程中引入物理定律約束、結(jié)合符號 / 數(shù)值計(jì)算工具、開展逐步監(jiān)督訓(xùn)練,并基于 SEED 提供過程化反饋進(jìn)行后訓(xùn)練,從而讓模型更懂物理,更加貼近科研工作。

結(jié)語

CMPhysBench 是大模型在凝聚態(tài)物理、材料科學(xué)等前沿科學(xué)領(lǐng)域的第一張?jiān)嚲?。作為「試金石」,它告訴我們大模型在具體物理問題上的智能水平;作為未來的「墊腳石」,它也展示了通用人工智能進(jìn)一步改進(jìn)的方向,為 AI 賦能科學(xué) (AI for Science),科學(xué)促進(jìn) AI (Science for AI) 提供了一個(gè)重要的示范和基準(zhǔn)。

你認(rèn)為大語言模型多久才能成為真正可靠的全科科研助理,在更復(fù)雜的「考試」中取得高分?歡迎在評論區(qū)留下自己的看法。

聲明:包含AI生成內(nèi)容

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
普京參觀圖-160制造廠,亮家底:確實(shí)夠中國至少追趕二十年

普京參觀圖-160制造廠,亮家底:確實(shí)夠中國至少追趕二十年

我心縱橫天地間
2025-12-20 21:21:26
中央明確規(guī)定:從明年起,將對普通高中進(jìn)行擴(kuò)招。

中央明確規(guī)定:從明年起,將對普通高中進(jìn)行擴(kuò)招。

百態(tài)人間
2025-12-18 05:00:04
直接發(fā)錢!楊瀚森下放召回不僅報(bào)銷機(jī)票,還有餐補(bǔ)150美元

直接發(fā)錢!楊瀚森下放召回不僅報(bào)銷機(jī)票,還有餐補(bǔ)150美元

懂球帝
2025-12-21 03:56:07
水貨實(shí)錘?才一年就全面下滑,這可是狀元啊,老鷹虧大發(fā)了

水貨實(shí)錘?才一年就全面下滑,這可是狀元啊,老鷹虧大發(fā)了

球童無忌
2025-12-20 23:40:16
女CEO剛上任就開除我,晚上她竟在我家,我爸:這是你未來媳婦兒

女CEO剛上任就開除我,晚上她竟在我家,我爸:這是你未來媳婦兒

蕭竹輕語
2025-12-18 15:34:55
就在剛剛 白俄總統(tǒng)盧卡申科正式表態(tài):中國正在實(shí)現(xiàn)革命性突破,

就在剛剛 白俄總統(tǒng)盧卡申科正式表態(tài):中國正在實(shí)現(xiàn)革命性突破,

忠于法紀(jì)
2025-12-20 10:15:15
1-0!隊(duì)長讓點(diǎn)12.9億豪門3連勝重返榜首 英超領(lǐng)頭羊4小時(shí)兩度易主

1-0!隊(duì)長讓點(diǎn)12.9億豪門3連勝重返榜首 英超領(lǐng)頭羊4小時(shí)兩度易主

狍子歪解體壇
2025-12-21 06:05:23
27歲“咪神”疑因性感晚裝走咣惹禍,傳已被節(jié)目組踢出局

27歲“咪神”疑因性感晚裝走咣惹禍,傳已被節(jié)目組踢出局

粵睇先生
2025-12-21 01:14:58
江暢同志突發(fā)心梗,不幸逝世

江暢同志突發(fā)心梗,不幸逝世

新京報(bào)政事兒
2025-12-20 22:27:40
動(dòng)真格了!新華社對王莉的舉報(bào)起作用,范某被停職,結(jié)果大快人心

動(dòng)真格了!新華社對王莉的舉報(bào)起作用,范某被停職,結(jié)果大快人心

林子說事
2025-12-20 11:13:54
大爆冷!國羽世界第1被淘汰,劉圣書譚寧1:2韓國,女雙全軍覆沒

大爆冷!國羽世界第1被淘汰,劉圣書譚寧1:2韓國,女雙全軍覆沒

國乒二三事
2025-12-20 19:46:07
震驚!有茅臺經(jīng)銷商單批出貨虧損超30萬,網(wǎng)傳浙江有黃牛開始掃樓

震驚!有茅臺經(jīng)銷商單批出貨虧損超30萬,網(wǎng)傳浙江有黃牛開始掃樓

火山詩話
2025-12-20 12:02:08
突然,集體跳水!特朗普,最新宣布!

突然,集體跳水!特朗普,最新宣布!

證券時(shí)報(bào)
2025-12-20 19:51:03
53年金日成訪華,周總理罕見發(fā)脾氣,拍桌子道:把王明貴給我叫來

53年金日成訪華,周總理罕見發(fā)脾氣,拍桌子道:把王明貴給我叫來

云霄紀(jì)史觀
2025-12-21 02:02:44
挖角成功!曝云南玉昆引進(jìn)申花2將,昔日主力門將在列

挖角成功!曝云南玉昆引進(jìn)申花2將,昔日主力門將在列

體壇鑒春秋
2025-12-20 16:40:13
朱孝天嫉妒心藏不住了!公開嘲諷阿信“又老又丑”,評論區(qū)已淪陷

朱孝天嫉妒心藏不住了!公開嘲諷阿信“又老又丑”,評論區(qū)已淪陷

楓塵余往逝
2025-12-20 20:24:53
大量浙江游客涌入沈陽,打著旅游幌子不去旅游不吃美食,為啥來

大量浙江游客涌入沈陽,打著旅游幌子不去旅游不吃美食,為啥來

另子維愛讀史
2025-11-29 07:53:16
心痛!30歲男銷售確認(rèn)死亡,目擊者講述事發(fā)經(jīng)過,車主懵了

心痛!30歲男銷售確認(rèn)死亡,目擊者講述事發(fā)經(jīng)過,車主懵了

魔都姐姐雜談
2025-12-20 09:19:55
網(wǎng)友評南博事件:我不相信有人能為這幅畫謀劃近40年

網(wǎng)友評南博事件:我不相信有人能為這幅畫謀劃近40年

映射生活的身影
2025-12-20 16:36:14
4天5條人命,中國不再忍耐,聯(lián)大下通牒:塔利班若再裝傻后果自負(fù)

4天5條人命,中國不再忍耐,聯(lián)大下通牒:塔利班若再裝傻后果自負(fù)

春秋論娛
2025-12-18 07:11:35
2025-12-21 06:28:49
ScienceAI incentive-icons
ScienceAI
關(guān)注人工智能與其他前沿技術(shù)
1185文章數(shù) 221關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來

頭條要聞

高市早苗擔(dān)心被邊緣化 要趕在特朗普訪華前行動(dòng)

頭條要聞

高市早苗擔(dān)心被邊緣化 要趕在特朗普訪華前行動(dòng)

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會陣容曝光,豪華陣仗

財(cái)經(jīng)要聞

求解“地方財(cái)政困難”

汽車要聞

嵐圖推進(jìn)L3量產(chǎn)測試 已完成11萬公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

健康
藝術(shù)
房產(chǎn)
教育
數(shù)碼

這些新療法,讓化療不再那么痛苦

藝術(shù)要聞

中國老香煙品牌,你知道多少?

房產(chǎn)要聞

廣州有態(tài)度,一座國際化社區(qū)給出的城市答案

教育要聞

中產(chǎn)留學(xué)家庭起飛三件套!

數(shù)碼要聞

一屏多用:華為Mate X7 / XTs折疊屏手機(jī)“變身”智能手卡

無障礙瀏覽 進(jìn)入關(guān)懷版