国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

港科大&英偉達(dá)提出NewtonBench:「平行宇宙」評估大模型發(fā)現(xiàn)能力

0
分享至



作者 | 論文團(tuán)隊

編輯 | ScienceAI

隨著大語言模型(Large Language Models, LLMs)推理能力的提升,其在自動化科學(xué)發(fā)現(xiàn)(Automatic Scientific Discovery)領(lǐng)域的潛力也引發(fā)了學(xué)術(shù)界與公眾的廣泛關(guān)注。AI 領(lǐng)域知名學(xué)者何愷明曾在一次訪談中提出一個引人深思的問題:「以當(dāng)前大模型的智能水平,若將其置于牛頓時代,它能否獨立發(fā)現(xiàn)牛頓物理定律?」

然而,評估這種能力面臨諸多挑戰(zhàn)。首先,現(xiàn)實世界中的科學(xué)定律已廣泛存在于大模型的訓(xùn)練語料中,直接評估難以避免數(shù)據(jù)泄漏問題。其次,當(dāng)前的評估方法通常依賴于在靜態(tài)數(shù)據(jù)表格中歸納等式,無法真實反映實際科研中通過設(shè)計實驗獲取數(shù)據(jù)以進(jìn)行探索性研究的本質(zhì)。

為此,來自香港科技大學(xué)和英偉達(dá)的研究者提出了 NewtonBench—— 一個具備強泛化能力、旨在模擬真實實驗探索環(huán)境的科學(xué)定律發(fā)現(xiàn)基準(zhǔn)(Scientific Law Discovery Benchmark)。



論文地址:https://arxiv.org/pdf/2510.07172

代碼地址:https://github.com/HKUST-KnowComp/NewtonBench

NewtonBench 覆蓋了 12 個物理領(lǐng)域,其核心創(chuàng)新在于通過「形而上學(xué)變換(metaphysical shift)」將已知物理定律轉(zhuǎn)換為全新的定律,從而有效規(guī)避了數(shù)據(jù)泄漏問題,能夠更真實地評估大模型的原始推理能力。

此外,NewtonBench 為每個物理定律的發(fā)現(xiàn)過程提供了沙盒化的實驗環(huán)境。大模型可以在其中自主設(shè)定實驗參數(shù),執(zhí)行不同復(fù)雜度的實驗任務(wù),并從環(huán)境中獲取反饋數(shù)據(jù)。這種高度模擬真實科學(xué)研究流程的設(shè)計,顯著提升了評估結(jié)果的實際意義。

該研究對 11 個領(lǐng)先的大語言模型進(jìn)行了基準(zhǔn)測試,包括 GPT-5、Gemini-2.5-Pro、DeepSeek-R1 和 Qwen-3-235B 等。

評測結(jié)果顯示,非推理模型(如 GPT-4.1、DeepSeek-V3)表現(xiàn)普遍不佳。而推理模型(如 GPT-5、DeepSeek-R1)則展現(xiàn)出顯著差異。在復(fù)雜實驗環(huán)境下,表現(xiàn)最優(yōu)的 GPT-5 和 Gemini-2.5-Pro 的定律發(fā)現(xiàn)準(zhǔn)確率分別為 29.9% 和 13.9%,而其他模型的準(zhǔn)確率均低于 5%。這充分凸顯了強大的推理能力對于科學(xué)定律發(fā)現(xiàn)的關(guān)鍵作用。

研究還深入分析發(fā)現(xiàn),為模型額外提供代碼解釋器工具(Code Interpreter Tool) 可以幫助能力較弱的模型突破計算瓶頸,但可能導(dǎo)致能力較強的模型產(chǎn)生過度依賴,反而抑制其自主探索的效率。

目前,NewtonBench 的評測數(shù)據(jù)集與評測代碼已全部開源。

NewtonBench 基準(zhǔn)構(gòu)建

物理法則構(gòu)建

NewtonBench 包含 324 個物理定律發(fā)現(xiàn)任務(wù),覆蓋力學(xué)、電磁學(xué)、熱力學(xué)等 12 個物理領(lǐng)域。其核心構(gòu)建方法是:以真實物理定律為基礎(chǔ),在「形而上學(xué)變換(metaphysical shift)」框架下,通過等式變換操作(mutation operation)生成衍生定律。根據(jù)變換步驟的復(fù)雜度及其引入的泛化需求,任務(wù)被劃分為簡單、中等、困難三個難度等級。



實驗環(huán)境構(gòu)建

對于每個物理定律,NewtonBench 提供三種不同復(fù)雜度的實驗環(huán)境。在簡單實驗環(huán)境中,實驗的輸入與輸出參數(shù)完全對齊目標(biāo)物理定律的表達(dá)形式,接近于理想的符號回歸(symbolic regression) 場景。而在中等及復(fù)雜難度環(huán)境中,目標(biāo)物理定律僅隱含于部分實驗數(shù)據(jù)中。例如:要求模型通過兩個小球沿直線相向運動的觀測數(shù)據(jù),推導(dǎo)出引力與距離、質(zhì)量的函數(shù)關(guān)系。

大模型可通過函數(shù)調(diào)用(function calling)機制執(zhí)行實驗操作,并從環(huán)境動態(tài)獲取實驗結(jié)果。模型最多可進(jìn)行 10 輪實驗交互,最終需提交其推導(dǎo)出的物理定律表達(dá)式。



實驗結(jié)果

研究人員對 11 個前沿大語言模型 進(jìn)行了系統(tǒng)評測,采用符號準(zhǔn)確率(Symbolic Accuracy) 和 均方根對數(shù)誤差(Root Mean Squared Logarithmic Error, RMSLE) 作為核心評估指標(biāo)。實驗結(jié)果表明:

1.非推理模型整體表現(xiàn)欠佳,即使在最簡單的實驗設(shè)定下,其符號準(zhǔn)確率也僅處于 20%-50% 的區(qū)間;

2.推理模型(如 GPT-5、DeepSeek-R1)憑借其強大的復(fù)雜推理與數(shù)學(xué)運算能力,在簡單場景下的符號準(zhǔn)確率普遍突破 80%;

3. 隨著實驗復(fù)雜度提升,推理模型間的性能差距顯著擴大。在最具挑戰(zhàn)性的「困難定律 + 復(fù)雜實驗」場景下:

  • 性能領(lǐng)先的 GPT-5 和 Gemini-2.5-Pro 符號準(zhǔn)確率分別僅為 29.9% 和 13.9%;
  • 其余模型的準(zhǔn)確率均低于 5%,顯示出任務(wù)難度的陡增特性。



值得注意的是,代碼執(zhí)行工具的輔助效果呈現(xiàn)出顯著的分化現(xiàn)象:

  • 對于較弱模型(符號準(zhǔn)確率 < 40%),代碼工具可帶來顯著性能提升;
  • 然而對于較強模型,代碼輔助均產(chǎn)生負(fù)面效應(yīng)。

這一矛盾現(xiàn)象促使研究人員開展了深度歸因分析。

代碼輔助效果分析

研究人員選取了四個代表性模型(GPT-4.1、Qwen-3-235B、Gemini-2.5-Flash、GPT-5-Mini),通過控制代碼調(diào)用權(quán)限數(shù)量展開對比實驗。結(jié)果顯示,當(dāng)兩個高性能模型初步獲得代碼權(quán)限時,準(zhǔn)確率均出現(xiàn)顯著下滑。進(jìn)一步分析模型決策文本中的探索(exploration)與利用(exploitation)關(guān)鍵詞頻發(fā)現(xiàn):性能驟降的 Gemini-2.5-Flash 在使用代碼后,探索類詞匯出現(xiàn)頻率急劇下降;而受益于代碼輔助的 Qwen-3-235B 則保持穩(wěn)定的探索傾向。這表明代碼工具的引入導(dǎo)致部分模型發(fā)生推理范式偏移 —— 從開放探索轉(zhuǎn)向?qū)Υa工具的過度依賴,最終削弱其定律發(fā)現(xiàn)能力。

此外,研究人員深度解析了 GPT-4.1 與 GPT-5-Mini 的代碼使用模式。在 GPT-4.1 中,45.4% 的代碼調(diào)用集中于數(shù)值計算環(huán)節(jié),而該比例在 GPT-5-Mini 中降至 16.5%。與之形成鮮明對比的是,GPT-5-Mini 將 69.4% 的代碼資源投入函數(shù)擬合(function fitting)過程。這一發(fā)現(xiàn)印證了核心觀點:對于基礎(chǔ)模型,代碼工具有效突破其計算瓶頸;但高性能模型將其大量用于快速獲取局部最優(yōu)解,反而抑制了對全局最優(yōu)定律的探索空間。



總結(jié)

NewtonBench 的評測結(jié)果系統(tǒng)揭示了當(dāng)前大模型科學(xué)發(fā)現(xiàn)能力的核心瓶頸:前沿推理模型雖能推演預(yù)設(shè)場景中的已知定律變體,但其泛化能力在面對復(fù)雜物理定律及實驗環(huán)境時呈現(xiàn)系統(tǒng)性衰減。

尤為關(guān)鍵的是,代碼工具在輔助基礎(chǔ)模型突破計算瓶頸的同時,卻顯著抑制了高性能模型(如 GPT-5 等)的自主探索傾向,致使其陷入局部最優(yōu)陷阱。這充分表明,現(xiàn)有 AI 的科學(xué)發(fā)現(xiàn)能力存在內(nèi)在脆弱性且易受工具范式干擾。

未來研究亟需構(gòu)建可動態(tài)平衡探索與利用的認(rèn)知架構(gòu),并將評估體系拓展至真實科研流程模擬 —— 涵蓋未知定律發(fā)現(xiàn)、動態(tài)實驗設(shè)計及可證偽性驗證,方有望鍛造出具備本征科學(xué)智能的新一代人工智能系統(tǒng)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
不是迷信!今日冬至,晚上最不能做的5件事,別忘了告訴家人!

不是迷信!今日冬至,晚上最不能做的5件事,別忘了告訴家人!

阿龍美食記
2025-12-21 03:51:06
黃有龍做夢也沒想到,自己花重金培養(yǎng)大的女兒,竟給趙薇做了嫁衣

黃有龍做夢也沒想到,自己花重金培養(yǎng)大的女兒,竟給趙薇做了嫁衣

查爾菲的筆記
2025-12-16 15:14:06
越扒越有!古代書畫鑒定實錄顯示,南博在85年就已不見《江南春》

越扒越有!古代書畫鑒定實錄顯示,南博在85年就已不見《江南春》

火山詩話
2025-12-20 06:02:25
肝癌是喝茶喝出來的?醫(yī)生:就算是鐵打的肝臟,也怕天天喝5種茶

肝癌是喝茶喝出來的?醫(yī)生:就算是鐵打的肝臟,也怕天天喝5種茶

健康科普365
2025-12-20 16:30:03
出大事了,托卡耶夫犯了大忌,參拜日本明治神宮,還要給日稀土?

出大事了,托卡耶夫犯了大忌,參拜日本明治神宮,還要給日稀土?

科普100克克
2025-12-21 02:38:52
偉大的6-1!常冰玉爆冷12冠王進(jìn)決賽,解鎖2紀(jì)錄,PK韋克林爭冠!

偉大的6-1!常冰玉爆冷12冠王進(jìn)決賽,解鎖2紀(jì)錄,PK韋克林爭冠!

劉姚堯的文字城堡
2025-12-21 06:26:54
美軍公海攔截中國貨輪,中國反手立規(guī)矩

美軍公海攔截中國貨輪,中國反手立規(guī)矩

回京歷史夢
2025-12-20 01:25:05
想錢想瘋了!田靜曬帶貨視頻慘遭網(wǎng)友攻擊,罕見回應(yīng):怎么都是錯

想錢想瘋了!田靜曬帶貨視頻慘遭網(wǎng)友攻擊,罕見回應(yīng):怎么都是錯

夢回千年aa
2025-12-19 10:04:39
犯了大忌!托卡耶夫去日本明治神宮,必將是其政治生涯的一個污點

犯了大忌!托卡耶夫去日本明治神宮,必將是其政治生涯的一個污點

我心縱橫天地間
2025-12-20 15:40:20
樊振東效應(yīng)太猛!德甲收視碾壓WTT,國際乒聯(lián)主席急了!歐冠狂轟11-1模仿C羅慶祝

樊振東效應(yīng)太猛!德甲收視碾壓WTT,國際乒聯(lián)主席急了!歐冠狂轟11-1模仿C羅慶祝

好乒乓
2025-12-20 12:26:37
99 元拿下千元級 HIFI 頭戴耳機!久戴舒適,耳機、音箱隨意切換,吊打同價位!

99 元拿下千元級 HIFI 頭戴耳機!久戴舒適,耳機、音箱隨意切換,吊打同價位!

英國報姐
2025-12-19 10:14:17
網(wǎng)友評南博事件:我不相信有人能為這幅畫謀劃近40年

網(wǎng)友評南博事件:我不相信有人能為這幅畫謀劃近40年

映射生活的身影
2025-12-20 16:36:14
奧迪突然官宣:31.3萬起,新車正式預(yù)售!

奧迪突然官宣:31.3萬起,新車正式預(yù)售!

高科技愛好者
2025-12-20 23:05:13
阿隆索過關(guān)了!皇馬2-0三連勝,27歲巨星3場進(jìn)4球,2人扛起全隊

阿隆索過關(guān)了!皇馬2-0三連勝,27歲巨星3場進(jìn)4球,2人扛起全隊

體育知多少
2025-12-21 07:28:35
羽聯(lián)總決賽女單對決,安洗瑩不敵山口茜

羽聯(lián)總決賽女單對決,安洗瑩不敵山口茜

兩兄弟養(yǎng)牛
2025-12-21 07:05:15
CBA最新消息!上海男籃或裁掉洛夫頓,程帥澎第一階段報銷

CBA最新消息!上海男籃或裁掉洛夫頓,程帥澎第一階段報銷

體壇瞎白話
2025-12-20 08:35:12
大部分人的存款都將歸零。

大部分人的存款都將歸零。

愛吃糖的貓cat
2025-12-20 18:11:26
3-0!哈蘭德獨造3球,一戰(zhàn)超越C羅,曼城豪取7連勝,英超榜首易主

3-0!哈蘭德獨造3球,一戰(zhàn)超越C羅,曼城豪取7連勝,英超榜首易主

我的護(hù)球最獨特
2025-12-21 00:53:51
劉亦菲在家玩自拍!不料被鏡子“出賣”了,網(wǎng)友直呼:好女人??!

劉亦菲在家玩自拍!不料被鏡子“出賣”了,網(wǎng)友直呼:好女人??!

小欣欣聊體育
2025-12-18 20:44:37
尚無特效藥!廣西一家四口用“毒鱟”煮湯喝,母子中毒去世

尚無特效藥!廣西一家四口用“毒鱟”煮湯喝,母子中毒去世

萬象硬核本尊
2025-12-20 18:57:12
2025-12-21 08:48:49
ScienceAI incentive-icons
ScienceAI
關(guān)注人工智能與其他前沿技術(shù)
1185文章數(shù) 221關(guān)注度
往期回顧 全部

科技要聞

生態(tài)適配已超95% 鴻蒙下一關(guān):十萬個應(yīng)用

頭條要聞

臺北襲擊案行兇者被造謠是"大陸籍" 蔣萬安駁斥

頭條要聞

臺北襲擊案行兇者被造謠是"大陸籍" 蔣萬安駁斥

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會陣容曝光,豪華陣仗

財經(jīng)要聞

求解“地方財政困難”

汽車要聞

嵐圖推進(jìn)L3量產(chǎn)測試 已完成11萬公里實際道路驗證

態(tài)度原創(chuàng)

數(shù)碼
本地
手機
時尚
公開課

數(shù)碼要聞

11月Top10電視ODM工廠出貨下降5.2% 今年以來最大降幅

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

手機要聞

iOS 26.1驗證已關(guān)閉!蘋果將暫時停更iOS 26.3測試版

中年女人,冬天這么穿羽絨服、大衣,優(yōu)雅都藏在這3個細(xì)節(jié)里

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版