CMPhysBench發(fā)布，評估大語言模型凝聚態(tài)物理水平邁向科研級智能

2025-11-03 15:22:14　來源: ScienceAI

北京舉報(bào)

分享至

作者 | 論文團(tuán)隊(duì)

編輯 | ScienceAI

近年來，大語言模型（LLM）似乎無所不能，以驚人的速度快速應(yīng)用于文本生成、編程、通用問答和科研領(lǐng)域。大語言模型在具體科學(xué)問題上的能力究竟如何？

凝聚態(tài)物理問題是一個(gè)很好的測試標(biāo)準(zhǔn)，它們往往涉及固體理論、多體物理、量子統(tǒng)計(jì)、量子場論和高等量子力學(xué)等，還與物質(zhì)科學(xué)、材料科學(xué)等高維度、多場調(diào)控等復(fù)雜物性效應(yīng)密切相關(guān)。在研究生級別的凝聚態(tài)物理問題上，常見的模型還能像人類專家一樣推理嗎？

近日，上海人工智能實(shí)驗(yàn)室、中國科學(xué)院物理研究所及中國科學(xué)院凝聚態(tài)物質(zhì)科學(xué)數(shù)據(jù)中心等多家機(jī)構(gòu)聯(lián)合發(fā)布了 CMPhysBench 評測集。這是全球首個(gè)面向凝聚態(tài)物理的大模型評測基準(zhǔn)，涵蓋磁學(xué)、超導(dǎo)、強(qiáng)關(guān)聯(lián)系統(tǒng)、半導(dǎo)體、理論基礎(chǔ)等六大核心領(lǐng)域，題目均來源于研究生水平教材與專家審核。

研究團(tuán)隊(duì)還提出了適用于物理問題答案的 SEED（Scalable Expression Edit Distance）評分體系，可實(shí)現(xiàn)對復(fù)雜物理推理過程的細(xì)粒度評估。實(shí)驗(yàn)結(jié)果顯示，即使是目前最強(qiáng)的大模型 Grok-4，在 CMPhysBench 上的平均 SEED 得分僅為 36，準(zhǔn)確率不到 30%，凸顯了大模型在前沿物理推理中的顯著差距。

該工作也在中國物理學(xué)會 2025 秋季會議（CPS 2025) 上獲得最佳墻報(bào)獎(jiǎng)。

論文鏈接：https://arxiv.org/pdf/2508.18124
項(xiàng)目主頁：https://cmpdc.iphy.ac.cn/benchmarks
代碼鏈接：https://github.com/CMPhysBench/CMPhysBench
數(shù)據(jù)集鏈接：https://huggingface.co/datasets/weidawang/CMPhysBench

1. 為什么需要 CMPhysBench？——AI 與硬核科學(xué)

近年來，大語言模型（LLM）在自然語言處理、數(shù)學(xué)推理、編程等任務(wù)上展現(xiàn)出令人矚目的能力。例如，它們能夠在奧數(shù)題、復(fù)雜編程挑戰(zhàn)甚至分子設(shè)計(jì)中取得接近專家的表現(xiàn)。這使得人們對其在科學(xué)發(fā)現(xiàn)中的應(yīng)用寄予厚望。因此誕生了很多針對大語言模型的科學(xué)測試，但是很多測試題目偏向概念理解和多項(xiàng)選擇題。這使得大模型在解決需要長推導(dǎo)的研究生級別物理問題上的能力難以進(jìn)行有效評估。

物理學(xué) —— 尤其是凝聚態(tài)物理 —— 包含了磁性、超導(dǎo)、強(qiáng)關(guān)聯(lián)等，這些都是現(xiàn)代物理學(xué)最活躍和最具挑戰(zhàn)性的領(lǐng)域，這些領(lǐng)域的問題對模型提出了更嚴(yán)苛的要求：不僅要有復(fù)雜的邏輯推理與數(shù)學(xué)計(jì)算能力，還必須深刻理解物理概念與理論框架。凝聚態(tài)物理問題往往涉及多體理論、量子統(tǒng)計(jì)、量子場論和高等量子力學(xué)，這類問題帶來的挑戰(zhàn)超越了日常語言和基礎(chǔ)數(shù)學(xué)，是檢驗(yàn) LLM 是否真正「懂世界」，輔助科學(xué)研究的理想試金石?，F(xiàn)有的科學(xué)評測基準(zhǔn)多聚焦在中學(xué)或本科水平（如 ScienceQA、PHYBench 等），對研究前沿的復(fù)雜問題覆蓋有限。

因此，我們?nèi)匀狈σ粋€(gè)能夠真正衡量大模型在研究生級別能力上的標(biāo)準(zhǔn)數(shù)據(jù)集，CMPhysBench 的誕生，正是為了填補(bǔ)這一空白，具體對比如下表所示：

拓展討論：為什么選擇凝聚態(tài)物理？凝聚態(tài)物理和人工智能的交匯值得更進(jìn)一步的挖掘。凝聚態(tài)物理研究的是大量相互作用粒子導(dǎo)致的復(fù)雜物理。它的思想本源是「More is different」，「多者異也」，「量變引起質(zhì)變」等多維復(fù)雜效應(yīng)。凝聚態(tài)物理研究為人工智能的神經(jīng)網(wǎng)絡(luò)提供了基本原理和初始架構(gòu)，為大語言模型的智能「涌現(xiàn)」提供了「量變引起質(zhì)變」的思維根源和物理依據(jù)。從這個(gè)角度說，凝聚態(tài)物理是「人工智能 + 科學(xué)」的交匯點(diǎn)和發(fā)源地。

2. 試卷如何出？一份給大模型的研究生級別的考題 ——CMPhysBench

考試目的：CMPhysBench 是一個(gè)面向凝聚態(tài)物理的全新大模型評測基準(zhǔn)，其目標(biāo)是檢驗(yàn)大語言模型在真正科學(xué)領(lǐng)域中的推理和計(jì)算能力。CMPhysBench 共收錄 520 道研究生級別的計(jì)算類題目，所有題目均由博士生和博士后研究人員基于 17 本經(jīng)典教材（如著名的朗道《理論物理學(xué)教程》、M. Peskin 與 D. Schroeder 合著的《量子場論導(dǎo)論》，F(xiàn). Gelis 的《量子場論》與李正中的《固體理論》）精心整理與改寫，并經(jīng)過專家審核，保證學(xué)術(shù)嚴(yán)謹(jǐn)性與可操作性。這意味著大語言模型需要掌握更復(fù)雜的推理技巧和更深厚廣博的物理知識。

考試范圍：題目體系完整，覆蓋六大核心領(lǐng)域：

1. 電磁學(xué)（Magnetism）

2. 超導(dǎo)（Superconductivity）

3. 強(qiáng)關(guān)聯(lián)系統(tǒng)（Strongly Correlated Systems）

4. 半導(dǎo)體（Semiconductors）

5. 理論基礎(chǔ)（Theoretical Foundations），涵蓋高等量子力學(xué)（如復(fù)雜薛定諤方程求解和物理體系分析），量子場論（如 Klein-Gordon 場、Dirac 場、路徑積分、自發(fā)對稱性破缺，重整化群）到統(tǒng)計(jì)物理（如相變、漲落理論）等廣泛主題

6. 其他（Others），包括量子力學(xué)中的基礎(chǔ)問題與計(jì)算技巧，如諧振子、微擾理論、自旋體系等

考試題型：CMPhysBench 全部為開放性計(jì)算題，沒有選擇題，沒有填空題，不可以投機(jī)取巧！答案形式不僅包括表達(dá)式和數(shù)值，還涉及方程、區(qū)間、元組等多樣化類型，更貼近科研人員日常需要解決的推導(dǎo)與計(jì)算任務(wù)。

3. 如何花式評分？涵蓋多種類型的表達(dá)式評價(jià)方法 ——SEED 評分體系

在評估大模型的物理解題能力時(shí)，由于答案具有多樣性，如何打分是一個(gè)關(guān)鍵難題。傳統(tǒng)做法往往采用二元判定（對 / 錯(cuò)），或者依賴簡單的表達(dá)式比對，但這在凝聚態(tài)物理的復(fù)雜場景中非常有限，讓我們來理一理：

Accuracy（準(zhǔn)確率）：只能判斷最終答案對不對，不能定量評估正確性，忽略了「差一點(diǎn)正確」的情況。
EED 表達(dá)式編輯距離（Expression Edit Distance）：通過比較答案的符號樹結(jié)構(gòu)來衡量差異，比單純的字符串匹配更智能，但它在處理復(fù)雜的方程、多元組或區(qū)間答案時(shí)，往往表現(xiàn)不夠穩(wěn)定。對于復(fù)雜多樣的答案，需要多種多樣的處理手法。

為解決這些問題，研究團(tuán)隊(duì)提出了的 SEED（Scalable Expression Edit Distance）指標(biāo)：

1.更全面的答案類型支持：SEED 不僅能處理表達(dá)式（Expression），還支持方程（Equation）、元組（Tuple）、區(qū)間（Interval）、數(shù)值（Numeric）等多種答案形式，實(shí)現(xiàn)了對研究生級物理問題更真實(shí)的覆蓋。

2.細(xì)粒度的部分得分：不同于傳統(tǒng)的對 / 錯(cuò)判定，SEED 會根據(jù)答案和標(biāo)準(zhǔn)解之間的結(jié)構(gòu)差異給出細(xì)粒度的部分分。比如：符號寫錯(cuò)、邊界條件遺漏，SEED 都能識別并合理扣分，而不是直接判「零分」。

3.物理語義感知：SEED 在設(shè)計(jì)時(shí)還特別考慮了物理場景，支持單位換算、科學(xué)計(jì)數(shù)法、四舍五入等常見物理答案格式；能處理矩陣 / 向量、不等式等復(fù)雜符號；自動(dòng)進(jìn)行 LaTeX 清洗與歸一化，避免因格式差異導(dǎo)致的「誤判」。

4.更高的可靠性：在與專家打分的對比實(shí)驗(yàn)中，SEED 的一致性最高（Spearman 相關(guān)系數(shù) ρ=0.90），顯著優(yōu)于 EED (ρ≈0.7) 和 GPT-4o 審題判分 (ρ≈0.56) 等方法。這意味著 SEED 不僅能看出對錯(cuò)，還能捕捉「接近正確」的推理軌跡，更接近科研人員的思維方式。

4. 最強(qiáng)模型真的能完美解決研究生級別物理問題嗎，AI 離真正的「物理學(xué)家」還有多遠(yuǎn)？

這個(gè)問題的答案可能并不樂觀，現(xiàn)有的大語言模型在解決研究生級別的問題時(shí)候犯的錯(cuò)誤多種多樣，體現(xiàn)出在物理背景知識理解與數(shù)學(xué)推導(dǎo)等能力上的不足。

通過對 18 個(gè)主流大語言模型（包括 o3、Grok-4、Gemini-2.5-pro、deepseek-r1 等）的系統(tǒng)評測，CMPhysBench 揭示了幾個(gè)重要發(fā)現(xiàn)：

首先，大模型在凝聚態(tài)物理上的整體表現(xiàn)遠(yuǎn)低于預(yù)期。即使是表現(xiàn)最好的 Grok-4，平均 SEED 得分也只有 36 左右（滿分 100 分），專家標(biāo)注的準(zhǔn)確率不足 30%；而多數(shù)模型徘徊在 15–25 SEED 區(qū)間，正確率更是常常低于 20%。這與它們在數(shù)學(xué)、編程等任務(wù)上的高分形成鮮明對比，說明當(dāng)前最強(qiáng)的大模型在應(yīng)對研究級物理問題時(shí)存在顯著能力鴻溝。

其次，錯(cuò)誤分析顯示，大模型在凝聚態(tài)物理中最常見的錯(cuò)誤是概念與物理模型的誤用（占比超過 40–50%），其次是數(shù)學(xué)與邏輯錯(cuò)誤（約 20–30%）。例如，有的模型在推導(dǎo)中混淆物理量的定義，有的則在代數(shù)運(yùn)算或近似處理上犯下低級錯(cuò)誤。這些錯(cuò)誤反映出模型在物理概念把握和符號操作上的雙重不足。

最后，不同領(lǐng)域的表現(xiàn)差異明顯。如下圖所示，Grok-4 在超導(dǎo)與理論基礎(chǔ)題目上領(lǐng)先，但在強(qiáng)關(guān)聯(lián)系統(tǒng)中顯著下滑；Gemini 2.5 Pro 在半導(dǎo)體問題上表現(xiàn)較強(qiáng)；而 DeepSeek-R1 在強(qiáng)關(guān)聯(lián)系統(tǒng)中反而取得了最高分。這說明不同模型在物理分支領(lǐng)域的能力并不均衡，凸顯了未來進(jìn)行「學(xué)科定向優(yōu)化」的必要性。

在未來，需要更加專門的數(shù)據(jù)和訓(xùn)練方法才能讓大模型在這些實(shí)踐性強(qiáng)且前沿的區(qū)域成為人類的好助理。

5. CMPhysBench—— 讓大語言模型離前沿基礎(chǔ)科學(xué)更近一步

CMPhysBench 的意義在于三方面：

科研價(jià)值：它是首個(gè)專注于研究生級別凝聚態(tài)物理的系統(tǒng)性評測基準(zhǔn)，填補(bǔ)了現(xiàn)有物理類基準(zhǔn)「只到高中 / 本科」的空白，讓大模型真正接受更高層次級別的檢驗(yàn)。
方法論突破：團(tuán)隊(duì)提出的 SEED 評分體系，不僅能精確衡量復(fù)雜物理解答的對錯(cuò)，還能推廣到數(shù)學(xué)、工程等其他 STEM 領(lǐng)域，為未來的精細(xì)化評測提供了新思路。
對 AI 社區(qū)的啟發(fā)：結(jié)果顯示，即便是最先進(jìn)的大規(guī)模語言模型（LLM），其在凝聚態(tài)物理領(lǐng)域的問題處理能力依然欠佳。這提醒我們，大模型要真正「懂物理」，還需引入物理感知、符號工具以及科學(xué)化的監(jiān)督。

未來改進(jìn)的方向包括：在模型推理過程中引入物理定律約束、結(jié)合符號 / 數(shù)值計(jì)算工具、開展逐步監(jiān)督訓(xùn)練，并基于 SEED 提供過程化反饋進(jìn)行后訓(xùn)練，從而讓模型更懂物理，更加貼近科研工作。

結(jié)語

CMPhysBench 是大模型在凝聚態(tài)物理、材料科學(xué)等前沿科學(xué)領(lǐng)域的第一張?jiān)嚲?。作為「試金石」，它告訴我們大模型在具體物理問題上的智能水平；作為未來的「墊腳石」，它也展示了通用人工智能進(jìn)一步改進(jìn)的方向，為 AI 賦能科學(xué) (AI for Science)，科學(xué)促進(jìn) AI (Science for AI) 提供了一個(gè)重要的示范和基準(zhǔn)。

你認(rèn)為大語言模型多久才能成為真正可靠的全科科研助理，在更復(fù)雜的「考試」中取得高分？歡迎在評論區(qū)留下自己的看法。

聲明：包含AI生成內(nèi)容

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.