国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

距離“數(shù)字科學(xué)家”還有多遠?從“死記硬背”到“邏輯博弈”

0
分享至


潘 展|編譯

在實驗室的幽暗燈光下,科學(xué)家常年與實驗數(shù)據(jù)和復(fù)雜的理論公式博弈。而如今,一個全新的“協(xié)作者”出現(xiàn)在了實驗臺上。大語言模型(LLMs)已經(jīng)展示了書寫論文、總結(jié)文獻、甚至是構(gòu)思復(fù)雜實驗流程的驚人能力。

然而,當一個AI系統(tǒng)提出一種新的催化劑分子,或是預(yù)測了一種全新的蛋白質(zhì)結(jié)構(gòu)時,我們?nèi)绾未_定它是真的通過“理解”科學(xué)原理得出的結(jié)論,還是僅僅在進行一場精密的統(tǒng)計游戲?


近日,《科學(xué)》雜志探討了這一核心議題:我們究竟該如何衡量人工智能是否聰明到足以從事科學(xué)研究?

01


從“死記硬背”到“邏輯博弈”

在過去幾年中,AI 模型在各類學(xué)術(shù)基準測試中表現(xiàn)出了近乎狂飆的性能。無論是 MMLU(大規(guī)模多任務(wù)語言理解)還是其他通用學(xué)科測試,AI的得分屢創(chuàng)新高。然而,這引發(fā)了研究界深層的擔憂:這些測試是否正在失效?


前沿LLMs在流行基準和HLE上的性能,圖源:HLE

AI模型在訓(xùn)練階段幾乎“閱讀”了互聯(lián)網(wǎng)上公開的所有科學(xué)論文、教科書和在線習(xí)題集,許多基準測試題本質(zhì)上已經(jīng)成為了模型的“考前背誦材料”。由于目前的AI模型在訓(xùn)練階段幾乎“閱讀”了互聯(lián)網(wǎng)上公開的所有科學(xué)論文、教科書和在線習(xí)題集,許多基準測試題本質(zhì)上已經(jīng)成為了模型的“考前背誦材料”。

當模型面對一道復(fù)雜的物理競賽題時,它給出的正確答案可能并非基于對物理定律的深刻推演,而是基于海量訓(xùn)練數(shù)據(jù)中的相似模式匹配。也由此,這種“記憶力驅(qū)動的智能”在科學(xué)研究中是危險的,科學(xué)家將它稱之為“數(shù)據(jù)污染”——科學(xué)的本質(zhì)在于探索未知,而記憶只能復(fù)述已知。

為了甄別真正的科學(xué)智能,研究人員開始設(shè)計那些“無法通過互聯(lián)網(wǎng)搜索找到答案”的極端考題。其中,生物、化學(xué)、物理領(lǐng)域的GPQA(研究生級別谷歌驗證問答集)成為衡量這一能力的標桿。


各流行模型GPQA分數(shù)排行榜,圖片來源Frontier

GPQA的獨特之處在于其極高的門檻。即使是相關(guān)學(xué)科的專家,在擁有無限互聯(lián)網(wǎng)訪問權(quán)限的情況下,回答這些問題的正確率也僅在65%至70%之間。如果一個非相關(guān)領(lǐng)域的博士去參加測試,正確率往往會大幅跌落。

當新一代AI 模型(如 OpenAI o1 系列)在 GPQA-Diamond 測試中取得超過80%的正確率時,科研界感受到了震動。

他們認為,這不再是簡單的記憶檢索,而是模型展現(xiàn)出了某種形式的“科學(xué)推演能力”——它能夠處理多步驟的邏輯鏈條,在信息不足的情況下進行嚴謹?shù)耐馔啤?/p>

02


從“結(jié)果導(dǎo)向”轉(zhuǎn)向“過程審計”

在科學(xué)發(fā)現(xiàn)中,結(jié)論的正確性固然重要,但推導(dǎo)過程的嚴謹性往往決定了研究的價值。最新的評估框架開始引入“過程監(jiān)督”。


FrontierScience奧林匹克與科學(xué)研究上各模型準確率,圖源:OpenAI

這不僅僅是檢查AI最后的答案是否正確,而是要求模型展示其思維路徑,如在評估一個AI是否具備合成復(fù)雜有機分子的能力時,評估者不再只看最終產(chǎn)量,而是逐一審查AI的每一步操作邏輯:它是否考慮了反應(yīng)環(huán)境的溫度與壓力?是否識別并避開了可能發(fā)生的副反應(yīng)?在實驗失敗時,它能否根據(jù)異常數(shù)據(jù)進行正確的歸因分析?

這種方法有力地剔除了“邏輯幻覺”。許多模型在測試中能夠?qū)懗鰞?yōu)美的科研術(shù)語,但在嚴密的邏輯審查下,其推導(dǎo)鏈條往往存在致命的科學(xué)漏洞。

03


從“實戰(zhàn)測試”到回歸科學(xué)的本質(zhì)

衡量AI性能的最終戰(zhàn)場是真實的實驗室。目前,最前沿的評估方式被稱為“閉環(huán)自動化發(fā)現(xiàn)”。

在這種模式下,AI 被直接連接到自動化的化學(xué)合成實驗室或計算平臺。研究人員只給出一個宏大的目標,如“尋找一種能更高效固碳的納米材料”。AI 必須在海量假設(shè)中篩選最優(yōu)路線,指導(dǎo)機器人進行實驗,并根據(jù)實驗回傳的實時數(shù)據(jù),動態(tài)調(diào)整自己的假設(shè)。

當實驗數(shù)據(jù)與初始理論沖突時,AI能否迅速識別出是模型偏差還是實驗誤差的反思能力,成為衡量其是否“聰明”的黃金標準。那些能夠通過少量實驗修正自身知識結(jié)構(gòu)、進而逼近真理的AI,才被認為具備了真正的科學(xué)直覺。

然而,即便是最先進的AI,在科學(xué)領(lǐng)域的表現(xiàn)依然面臨界限。我們衡量AI,并非為了證明它能取代科學(xué)家,而是為了確立一種全新的協(xié)作范式。

科學(xué)研究不僅需要邏輯推演,還需要那種打破范式的“直覺”。目前,AI擅長在既定的科學(xué)空間內(nèi)進行海量的、高維度的搜索與優(yōu)化,但在提出顛覆性的科學(xué)假說、或在模糊的交叉學(xué)科邊緣進行原創(chuàng)性飛躍方面,人類科學(xué)家依然掌握著主導(dǎo)權(quán)。

04


結(jié)語

我們距離創(chuàng)造出一個能夠獨立從事科學(xué)研究的“數(shù)字科學(xué)家”還有多遠?《科學(xué)》這篇文章的結(jié)論或許可以給予我們啟發(fā):這取決于我們的評估體系演進得有多快。

當我們不再僅僅以“考試成績”來衡量模型,而是以“邏輯嚴謹度”、“實驗修正能力”和“跨學(xué)科泛化能力”為坐標系時,我們不僅在篩選更好的工具,更是在重新定義科學(xué)本身。

在這個人機共進的時代,衡量AI的過程,本質(zhì)上也是人類在不斷審視自身如何理解自然界的過程。

https://www.science.org/content/article/how-will-we-know-if-ai-smart-enough-do-science

Deep Science預(yù)印本



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
伊朗獲得強援,又一中東國家下場,還是美國親自送上門的幫手

伊朗獲得強援,又一中東國家下場,還是美國親自送上門的幫手

快看張同學(xué)
2026-03-26 14:46:05
2026年身份證就是老年證!爸媽滿60歲別辦證,這4件事千萬不能忘

2026年身份證就是老年證!爸媽滿60歲別辦證,這4件事千萬不能忘

復(fù)轉(zhuǎn)這些年
2026-03-26 09:26:17
楊振寧猝然離世5個月后,翁帆突傳新消息,懷孕傳聞早就真相大白

楊振寧猝然離世5個月后,翁帆突傳新消息,懷孕傳聞早就真相大白

李橑在北漂
2026-03-25 23:30:59
人狂自有天收

人狂自有天收

李老逵亂擺龍門陣
2025-09-11 09:01:28
巴基斯坦把稀土賣給美國,以為捏住中國“七寸”,如今自食惡果

巴基斯坦把稀土賣給美國,以為捏住中國“七寸”,如今自食惡果

滄海旅行家
2026-03-25 16:13:09
跟著黃仁勛下注:如今的token可能就是20年的房子

跟著黃仁勛下注:如今的token可能就是20年的房子

夢大明白
2026-03-24 11:05:49
快訊!歐爾班的回旋鏢來了!

快訊!歐爾班的回旋鏢來了!

達文西看世界
2026-03-26 12:23:16
我在小城市,一個人做電商,半年掙300萬

我在小城市,一個人做電商,半年掙300萬

南風(fēng)窗
2026-03-26 10:07:51
兩大致命短板,一個懸疑謎題!央媒怒批王勵勤,國乒王朝懸了?

兩大致命短板,一個懸疑謎題!央媒怒批王勵勤,國乒王朝懸了?

成吉思熱
2026-03-26 10:06:14
伊朗:擊中擊落美以202架飛機;以方:坦格西里身亡,他負責(zé)封鎖霍爾木茲!想快速抽身,特朗普:打伊朗不是戰(zhàn)爭,是“軍事行動”

伊朗:擊中擊落美以202架飛機;以方:坦格西里身亡,他負責(zé)封鎖霍爾木茲!想快速抽身,特朗普:打伊朗不是戰(zhàn)爭,是“軍事行動”

每日經(jīng)濟新聞
2026-03-26 17:27:09
他倆才是最牛岳父母,3個女兒全嫁百億富豪,一個比一個漂亮厲害

他倆才是最牛岳父母,3個女兒全嫁百億富豪,一個比一個漂亮厲害

白面書誏
2026-03-26 18:13:05
79元太火!小米磁吸玩偶賣斷貨 官方承諾加快生產(chǎn)

79元太火!小米磁吸玩偶賣斷貨 官方承諾加快生產(chǎn)

快科技
2026-03-26 07:09:03
原來他12年前就已離世!患病3年女兒不愿照看,死后為爭遺產(chǎn)現(xiàn)身

原來他12年前就已離世!患病3年女兒不愿照看,死后為爭遺產(chǎn)現(xiàn)身

白面書誏
2026-03-26 13:38:18
原來她是張雪峰母親,一生操勞全力托舉兒子,卻中年喪夫晚年喪子

原來她是張雪峰母親,一生操勞全力托舉兒子,卻中年喪夫晚年喪子

以茶帶書
2026-03-26 13:38:50
東莞長安醫(yī)院“慰問用水果籃”中標價492元/份?醫(yī)院采購辦稱水果籃包含11種水果,紀檢辦回應(yīng)正在調(diào)查中

東莞長安醫(yī)院“慰問用水果籃”中標價492元/份?醫(yī)院采購辦稱水果籃包含11種水果,紀檢辦回應(yīng)正在調(diào)查中

極目新聞
2026-03-26 18:38:43
伊朗對以色列發(fā)起導(dǎo)彈打擊 以多地響起防空警報

伊朗對以色列發(fā)起導(dǎo)彈打擊 以多地響起防空警報

財聯(lián)社
2026-03-26 14:50:24
太扎心!遼寧一中年男子小便怒斥妻子舉布遮擋稍高,就撒手人寰了

太扎心!遼寧一中年男子小便怒斥妻子舉布遮擋稍高,就撒手人寰了

火山詩話
2026-03-26 06:16:11
馬英九基金會決定中止今年兩岸青年交流,馬應(yīng)該出面聲明!

馬英九基金會決定中止今年兩岸青年交流,馬應(yīng)該出面聲明!

達文西看世界
2026-03-26 10:58:22
伊朗用導(dǎo)彈拼出尊嚴,中國導(dǎo)彈實力藏不住了,俄專家給出硬核定論

伊朗用導(dǎo)彈拼出尊嚴,中國導(dǎo)彈實力藏不住了,俄專家給出硬核定論

探源歷史
2026-03-25 13:22:35
東北兩省書記省長會見劉強東

東北兩省書記省長會見劉強東

觀察者網(wǎng)
2026-03-25 21:43:37
2026-03-26 21:47:00
深究科學(xué) incentive-icons
深究科學(xué)
科學(xué)、技術(shù)、創(chuàng)新。
207文章數(shù) 10關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

美國總統(tǒng)特朗普公開宣布訪華行程 外交部回應(yīng)

頭條要聞

美國總統(tǒng)特朗普公開宣布訪華行程 外交部回應(yīng)

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

健康
教育
親子
手機
房產(chǎn)

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

教育要聞

江蘇省教育廳公布全省中小學(xué)生競賽活動名單

親子要聞

你好,我是饅頭,快開門!

手機要聞

15年經(jīng)典落幕!MIUI正式停更,澎湃OS全面接棒

房產(chǎn)要聞

突發(fā),三亞又有大批征遷補償方案出爐!

無障礙瀏覽 進入關(guān)懷版