国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

系統(tǒng)梳理600+數(shù)據(jù)集與模型,上海AI Lab等發(fā)布科學(xué)大語(yǔ)言模型全景式綜述

0
分享至

過(guò)去幾年,大語(yǔ)言模型(LLM)的浪潮席卷學(xué)術(shù)界與產(chǎn)業(yè)界。在科研場(chǎng)景中,它們正從 “工具” 演變?yōu)?“合作者”,科學(xué)大語(yǔ)言模型(Sci-LLMs)的進(jìn)展尤為矚目。

然而,科學(xué)數(shù)據(jù)的多模態(tài)、跨尺度、強(qiáng)領(lǐng)域語(yǔ)義與不確定性,以及科學(xué)知識(shí)本身的層次化結(jié)構(gòu),對(duì) Sci-LLMs 提出了遠(yuǎn)超通用領(lǐng)域的新要求。當(dāng)前的研究仍處于碎片化狀態(tài),缺乏對(duì)全學(xué)科領(lǐng)域的科學(xué)數(shù)據(jù)與模型演進(jìn)路徑的系統(tǒng)性梳理。一個(gè)系統(tǒng)性的梳理與前瞻性設(shè)計(jì)已成為整個(gè)領(lǐng)域的迫切需求。

為填補(bǔ)這一空白,上海人工智能實(shí)驗(yàn)室聯(lián)合全球 20 余家頂尖高校與研究機(jī)構(gòu),全面調(diào)研了 1000+ 文獻(xiàn),系統(tǒng)梳理了 600+ 重要數(shù)據(jù)集與 SOTA 模型,重磅發(fā)布了對(duì) Sci-LLMs 的全面綜述 《A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers》,系統(tǒng)梳理了 Sci-LLMs 的發(fā)展歷程、數(shù)據(jù)基礎(chǔ)、模型演進(jìn)、模型評(píng)測(cè)體系與智能體前沿,并提出了未來(lái)智能體助力科學(xué)發(fā)現(xiàn)生態(tài)的路線圖。


論文標(biāo)題: A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers 論文鏈接: https://arxiv.org/abs/2508.21148 GitHub 鏈接: https://github.com/open-sciencelab/Awesome-Scientific-Datasets-and-LLMs
一、科研界的 “爆炸時(shí)刻”:論文數(shù)量曲線說(shuō)明了一切

近年來(lái),人工智能在科學(xué)探索(AI for Science)領(lǐng)域的應(yīng)用呈現(xiàn)爆發(fā)式增長(zhǎng),科學(xué)大語(yǔ)言模型正以前所未有的深度和廣度變革著知識(shí)的表示、整合與應(yīng)用方式,在物理、化學(xué)、材料、生命科學(xué)、天文、地球科學(xué)等多個(gè)自然科學(xué)領(lǐng)域展現(xiàn)出驚人的潛力,重新定義著科學(xué)研究的方式。如下圖,綜述簡(jiǎn)要展示了在主要預(yù)印本平臺(tái)上,涉及 “l(fā)anguage model” 及其與科學(xué)領(lǐng)域結(jié)合(聯(lián)合檢索學(xué)科關(guān)鍵詞)的論文發(fā)表趨勢(shì)。左圖顯示 arXiv 與 PubMed 上的快速增長(zhǎng),右圖則呈現(xiàn) bioRxiv、medRxiv 和 ChemRxiv 的加速態(tài)勢(shì),體現(xiàn)出跨學(xué)科興趣的不斷升溫。


圖 1:科學(xué)大模型相關(guān)論文數(shù)量快速增長(zhǎng)(2018–2025)。 二、四次范式轉(zhuǎn)移:解碼 Sci-LLMs 進(jìn)化路徑

綜述首先指出,2018–2025 年,數(shù)據(jù)驅(qū)動(dòng)的 Sci-LLMs 已經(jīng)歷四次關(guān)鍵范式轉(zhuǎn)移,其能力邊界得到不斷拓展,逐步邁向更高階的科研應(yīng)用階段。

1. 遷移學(xué)習(xí)階段(2018–2020)

  • 代表:SciBERT、BioBERT、PubMedBERT 等

  • 特點(diǎn):通過(guò)在特定領(lǐng)域的科學(xué)語(yǔ)料上繼續(xù)預(yù)訓(xùn)練,顯著提升模型的領(lǐng)域理解能力。但這些模型僅能提供 “靜態(tài)知識(shí)”,大多面向領(lǐng)域內(nèi)既定的下游任務(wù),難以直接應(yīng)用到更復(fù)雜也更高級(jí)的科研探索任務(wù)中。

2. 規(guī)模化階段(2020–2022)

  • 代表:GPT-3、Galactica、MedPaLM-2 等

  • 特點(diǎn):通過(guò)急劇擴(kuò)大的參數(shù)和數(shù)據(jù)規(guī)模,模型展現(xiàn)出跨學(xué)科知識(shí)整合與專業(yè)推理能力。例如,MedPaLM-2 在美國(guó)醫(yī)師執(zhí)照考試(USMLE)問(wèn)題上達(dá)到了與持證醫(yī)師相當(dāng)?shù)膶<壹?jí)水平。然而,這一階段也展示出科學(xué)領(lǐng)域的獨(dú)特挑戰(zhàn):高質(zhì)量科學(xué)文本語(yǔ)料遠(yuǎn)小于通用語(yǔ)料,限制了 Sci-LLMs 的大規(guī)模擴(kuò)展。

3. 指令對(duì)齊階段(2022–2024)

  • 代表:ChatGPT、Meditron、NatureLM 等

  • 特點(diǎn):通過(guò)精心設(shè)計(jì)的指令數(shù)據(jù)微調(diào),模型能夠更精確地執(zhí)行復(fù)雜的科學(xué)任務(wù) 。這一階段,開源架構(gòu)的多樣性與指令數(shù)據(jù)規(guī)模的空前擴(kuò)展形成了 “雙輪驅(qū)動(dòng)”,催生了大量里程碑式的 Sci-LLMs ,它們?cè)谏镄蛄欣斫狻⒖鐚W(xué)科知識(shí)整合等任務(wù)上取得了顯著突破。

4. 科學(xué)智能體階段(2023–至今)

  • 代表:Coscientist、Biomni、InternAgent 等

  • 特點(diǎn):除了進(jìn)一步規(guī)?;瘉?lái)提供更加強(qiáng)大的科學(xué)基座(如 Intern-S1),由 Sci-LLMs 構(gòu)成的系統(tǒng)開始具備科學(xué)智能體(Agent)的雛形。AI 不再僅僅 “理解科學(xué)”,而是能自主規(guī)劃實(shí)驗(yàn)、撰寫論文、迭代科研流程。這也對(duì)新型科學(xué)數(shù)據(jù)以及科學(xué)發(fā)現(xiàn)性能評(píng)估提出了新的要求。


圖 2:Sci-LLMs 的范式演化(2018–2025)。 三、科學(xué)領(lǐng)域總覽:貫通六大科學(xué)領(lǐng)域

這篇綜述不僅覆蓋了六大科學(xué)領(lǐng)域(物理、化學(xué)、材料科學(xué)、生命科學(xué)、天文學(xué)、地球科學(xué)),還揭示了它們?cè)?數(shù)據(jù)尺度上的層層遞進(jìn)。

  • 物理、化學(xué)、材料科學(xué) —— 從微觀粒子、分子到材料結(jié)構(gòu),奠定了理解物質(zhì)世界的基石;

  • 生命科學(xué) —— 跨越分子、細(xì)胞、多組學(xué)和系統(tǒng),體現(xiàn)復(fù)雜性的中觀尺度;

  • 天文學(xué)與地球科學(xué) —— 從地球、行星到星系,直達(dá)宏觀層面的觀測(cè)與模擬。

這種從微觀到宏觀的尺度演進(jìn),正是 Sci-LLMs 預(yù)訓(xùn)練數(shù)據(jù)設(shè)計(jì)的邏輯:模型需要同時(shí)理解分子動(dòng)力學(xué)的精細(xì)結(jié)構(gòu),也要能把握天體演化和氣候變化的宏大趨勢(shì)。


圖 3:綜述所涵蓋的六大科學(xué)領(lǐng)域(物理、化學(xué)、材料科學(xué)、生命科學(xué)、地球科學(xué)、天文學(xué))及各領(lǐng)域中的代表性子方向。 四、科學(xué)模型薈萃:通才 vs 專才、文本 vs 多模態(tài)1. 通才 vs 專才 vs “通專融合”

通才型 Sci-LLMs 致力于構(gòu)建跨學(xué)科的知識(shí)底座,典型代表是 Intern-S1。它通過(guò)在海量、跨學(xué)科的科學(xué)語(yǔ)料(涵蓋論文、教科書、百科、習(xí)題等)上進(jìn)行大規(guī)模預(yù)訓(xùn)練,具備廣博而系統(tǒng)的科學(xué)知識(shí)儲(chǔ)備。與此相對(duì),專才型 Sci-LLMs 則更像是針對(duì)單一學(xué)科定制的 “手術(shù)刀”,依靠在特定領(lǐng)域(如高能物理、化學(xué)、生命科學(xué)等)的專業(yè)數(shù)據(jù)集上進(jìn)行深度訓(xùn)練,成為該學(xué)科的專家,例如專注高能物理的 Xiwu,以及面向化學(xué)的 ChemLLM。

與兩者相比,Intern-S1 的獨(dú)特優(yōu)勢(shì)在于通專融合:它既繼承了通才模型的跨學(xué)科廣度,能夠在復(fù)雜問(wèn)題中調(diào)用多領(lǐng)域知識(shí);又通過(guò)針對(duì)重點(diǎn)學(xué)科的優(yōu)化實(shí)現(xiàn)了專才模型的深度,具備解決專業(yè)領(lǐng)域難題的能力。憑借這一雙重特性,Intern-S1 不僅能作為科學(xué)研究的通用助手,還能夠在特定學(xué)科場(chǎng)景下展現(xiàn)接近專家級(jí)的推理與回答水平。


圖 4:按六大科學(xué)領(lǐng)域分類的代表性 Sci-LLMs 時(shí)間概覽(2019 年至 2025 年中)。 2. 文本 vs 多模態(tài)

綜述的統(tǒng)計(jì)分析指出:當(dāng)前約四分之三的科學(xué)大語(yǔ)言模型是純文本 LLM ,而多模態(tài) LLM 僅占四分之一。這一方面反映了科學(xué)知識(shí)的主要載體 —— 學(xué)術(shù)論文和教科書等 —— 仍以文本為主;另一方面也暴露了高質(zhì)量、細(xì)粒度的多模態(tài)監(jiān)督數(shù)據(jù)的稀缺性。這種對(duì)文本的過(guò)度依賴造成了一個(gè)核心困境:模型學(xué)習(xí)到的更多是對(duì)科學(xué)的 “描述”,而非從第一性原理和實(shí)驗(yàn)證據(jù)中習(xí)得的科學(xué)研究本身。為了彌合這一鴻溝,未來(lái)的趨勢(shì)必然是向多模態(tài)生態(tài)系統(tǒng)演進(jìn),尤其是在天文學(xué)、氣候科學(xué)等高度依賴異構(gòu)信號(hào)融合的領(lǐng)域,能夠綜合處理圖像、光譜、時(shí)間序列和文本等多模態(tài)數(shù)據(jù)將是 Sci-LLMs 發(fā)展的關(guān)鍵 。


圖 5: Sci-LLMs 和 Sci-MLLMs 分布統(tǒng)計(jì):(a) Sci-LLMs 與 Sci-MLLMs 的數(shù)量對(duì)比;(b) 基礎(chǔ)模型家族分布和 (c) 參數(shù)規(guī)模分布。 五、深入數(shù)據(jù)生態(tài):270+ 訓(xùn)練集 & 210+ 評(píng)測(cè)集的全景地圖1. 統(tǒng)一視角:從數(shù)據(jù)分類到知識(shí)層級(jí)

綜述指出,構(gòu)建強(qiáng)大的 Sci-LLMs 必須首先理解科學(xué)數(shù)據(jù)與知識(shí)的內(nèi)在結(jié)構(gòu)。為此,論文提出了兩大數(shù)據(jù)分級(jí)框架:

  • 統(tǒng)一的科學(xué)數(shù)據(jù)分類法,將紛繁復(fù)雜的科學(xué)數(shù)據(jù)(如 SMILES 化學(xué)式、基因序列、天文圖像、醫(yī)學(xué)掃描等)歸納為文本、視覺(jué)、符號(hào)、結(jié)構(gòu)化、時(shí)序與多組學(xué)融合等六大類別,并且系統(tǒng)梳理了各科學(xué)領(lǐng)域的數(shù)據(jù)表達(dá)。


圖 6:科學(xué)領(lǐng)域數(shù)據(jù)可視化。

  • 科學(xué)知識(shí)的層次化模型,該模型認(rèn)為科學(xué)知識(shí)并非扁平的信息集合,而是一個(gè)由五個(gè)層次構(gòu)成的復(fù)雜系統(tǒng),從底層的事實(shí)層(Factual Level)、理論層(Theoretical Level),到方法技術(shù)層(Methodological & Technological Level)、建模仿真層(Modeling & Simulation Level),最終達(dá)到頂端的洞見層(Insight Level)。只有讓 AI 模型理解并能在這五個(gè)層級(jí)之間穿梭,才能實(shí)現(xiàn)從具體到抽象、從現(xiàn)象到本質(zhì)的科學(xué)推理,而不僅僅是事實(shí)的復(fù)述。


圖 7:科學(xué)數(shù)據(jù)的層級(jí)劃分和動(dòng)態(tài)交互。2. 數(shù)據(jù)質(zhì)量 “四要素”、現(xiàn)狀分析與結(jié)構(gòu)性痛點(diǎn)

綜述強(qiáng)調(diào),高質(zhì)量的數(shù)據(jù)是 Sci-LLMs 成功的關(guān)鍵,并提出了評(píng)估科學(xué)數(shù)據(jù) “AI-ready” 質(zhì)量的四要素,與當(dāng)前數(shù)據(jù)生態(tài)存在的不足,以及其背后的系統(tǒng)性痛點(diǎn)。

a)質(zhì)量四要素:

  • 準(zhǔn)確性 (Accuracy):數(shù)據(jù)是否真實(shí)反映客觀世界;

  • 完整性 (Completeness):數(shù)據(jù)是否全面覆蓋了所有相關(guān)元素;

  • 時(shí)效性 (Timeliness):數(shù)據(jù)更新是否及時(shí),能否反映最新科研進(jìn)展;

  • 可追溯性 (Traceability):數(shù)據(jù)的來(lái)源、處理流程是否清晰可查,以保證可復(fù)現(xiàn)性。

b)當(dāng)前數(shù)據(jù)生態(tài)的不足:

  • 實(shí)驗(yàn)數(shù)據(jù)稀缺:受限于實(shí)驗(yàn)的現(xiàn)實(shí)性質(zhì),數(shù)據(jù)獲取成本高、周期長(zhǎng),且共享存在障礙;

  • 過(guò)度依賴文本:圖表、三維結(jié)構(gòu)、時(shí)間序列等非文本數(shù)據(jù)未被充分利用;

  • 表示鴻溝:現(xiàn)有數(shù)據(jù)集多為靜態(tài)知識(shí)快照,無(wú)法體現(xiàn)科研的動(dòng)態(tài)演進(jìn)過(guò)程;

  • 多層偏差:存在發(fā)表偏差(傾向于正面結(jié)果)、領(lǐng)域偏差和語(yǔ)言偏差等問(wèn)題。

c)系統(tǒng)性問(wèn)題:

  • 可追溯性危機(jī):大量科學(xué)數(shù)據(jù)集缺乏對(duì)其來(lái)源、版本和預(yù)處理流程的完整記錄,導(dǎo)致 AI 模型的結(jié)論難以復(fù)現(xiàn)和驗(yàn)證,也削弱了 AI 生成假設(shè)的可信度;

  • 科學(xué)數(shù)據(jù)延遲:從一項(xiàng)科研成果誕生到其數(shù)據(jù)被納入模型訓(xùn)練語(yǔ)料庫(kù),存在數(shù)月甚至數(shù)年的滯后。這使得模型知識(shí)迅速過(guò)時(shí),尤其在生物醫(yī)學(xué)等快速發(fā)展的領(lǐng)域,模型可能無(wú)法回答關(guān)于最新發(fā)現(xiàn)的問(wèn)題;

  • AI-readiness 不足:絕大多數(shù)科學(xué)數(shù)據(jù)并非為 AI “開箱即用” 。不規(guī)范的數(shù)據(jù)格式、缺失的元數(shù)據(jù)和異構(gòu)的結(jié)構(gòu),使得研究者需花費(fèi)大量精力進(jìn)行數(shù)據(jù)清洗和預(yù)處理,這直接限制了 Sci-LLMs 開發(fā)的效率和規(guī)模以及高級(jí)科學(xué)智能的上限。

3. 預(yù)訓(xùn)練數(shù)據(jù):按學(xué)科拆解 “AI-ready” 數(shù)據(jù)側(cè)重點(diǎn)

預(yù)訓(xùn)練數(shù)據(jù)是科學(xué)大語(yǔ)言模型(Sci-LLMs)的核心基礎(chǔ),它決定了模型能否在復(fù)雜科學(xué)場(chǎng)景中具備理解、推理和生成的能力。本章首先回顧了當(dāng)前模型在預(yù)訓(xùn)練數(shù)據(jù)上的總體分布:例如 Yi 模型結(jié)合了網(wǎng)頁(yè)、代碼、論文和問(wèn)答等多源數(shù)據(jù),而 LLaMA 的預(yù)訓(xùn)練語(yǔ)料約 1.4TB,涵蓋 CommonCrawl、GitHub、Wikipedia 與學(xué)術(shù)資源(見圖 8a)。

相比之下,Intern-S1 在總語(yǔ)料中專門劃分出約 2.5 萬(wàn)億 tokens(占比 45.8%)用于科學(xué)領(lǐng)域,覆蓋物理、化學(xué)、材料科學(xué)、生命科學(xué)、天文學(xué)和地球科學(xué)六大板塊,為后續(xù)的領(lǐng)域拆解奠定了基礎(chǔ)。作者強(qiáng)調(diào),科學(xué)語(yǔ)料的廣度與真實(shí)性直接影響模型能否在科學(xué)場(chǎng)景中進(jìn)行理解、推理與生成。


圖 8:LLaMA, Yi, GPT-3 和 Intern-S1 的預(yù)訓(xùn)練數(shù)據(jù)集分布。

在回顧整體的語(yǔ)料構(gòu)成之后,綜述進(jìn)一步從學(xué)科尺度深入分析了科學(xué)大語(yǔ)言模型預(yù)訓(xùn)練數(shù)據(jù)的特點(diǎn)與挑戰(zhàn)。

物理學(xué)的數(shù)據(jù)多來(lái)自理想化仿真與理論推導(dǎo),如偏微分方程與動(dòng)力學(xué)模擬,但與真實(shí)觀測(cè)之間存在顯著差距,因此亟需解決 simulation-to-observation gap,使模型既能學(xué)習(xí)物理定律,又能適應(yīng)實(shí)驗(yàn)噪聲和儀器特性。

化學(xué)預(yù)訓(xùn)練以分子結(jié)構(gòu)和性質(zhì)數(shù)據(jù)為核心,包括 SMILES 表示、量子化學(xué)計(jì)算結(jié)果與反應(yīng)數(shù)據(jù)庫(kù)等,雖然結(jié)構(gòu)化程度高,但實(shí)驗(yàn)標(biāo)注成本昂貴,限制了語(yǔ)料規(guī)模,因此提升分子表征的多樣性與覆蓋度是關(guān)鍵。材料科學(xué)主要依賴大型材料數(shù)據(jù)庫(kù)(如 Materials Project、NOMAD、OQMD),涵蓋晶體結(jié)構(gòu)、能帶、力學(xué)與熱學(xué)性質(zhì),但由于元數(shù)據(jù)與計(jì)算條件不一致,跨數(shù)據(jù)庫(kù)融合存在障礙,未來(lái)需要標(biāo)準(zhǔn)化與跨模態(tài)的統(tǒng)一表示。

生命科學(xué)覆蓋基因、蛋白質(zhì)序列、多組學(xué)數(shù)據(jù)、醫(yī)學(xué)影像與電子病歷等,數(shù)據(jù)量龐大卻因隱私與倫理問(wèn)題常常不完整或滯后,現(xiàn)有方法多通過(guò)去標(biāo)識(shí)化、合成數(shù)據(jù)與多模態(tài)整合來(lái)緩解。

天文學(xué)的科學(xué)數(shù)據(jù)包括光譜、射電觀測(cè)、星系影像與宇宙學(xué)模擬,然而不同儀器在分辨率、帶寬與校準(zhǔn)上的差異,使得跨模態(tài)和跨設(shè)備對(duì)齊成為挑戰(zhàn)。

地球科學(xué)的數(shù)據(jù)則最為稀缺,主要依賴論文與教材 PDF 的解析,以及有限的遙感影像和氣候變量場(chǎng),但其高度異質(zhì)性導(dǎo)致文本解析和圖像對(duì)齊的代價(jià)很高,未來(lái)的發(fā)展趨勢(shì)是通過(guò)多源融合與自動(dòng)標(biāo)注來(lái)擴(kuò)展規(guī)模。


圖 9:預(yù)訓(xùn)練數(shù)據(jù)集的詞云圖。圖中展示了模態(tài)(左)和類型(右)的相對(duì)分布,詞語(yǔ)大小與出現(xiàn)頻率成正比。4. 后訓(xùn)練數(shù)據(jù):面向科研任務(wù)的能力對(duì)齊

在完成大規(guī)模預(yù)訓(xùn)練后,科學(xué)大語(yǔ)言模型還需要進(jìn)一步 后訓(xùn)練(post-training),以便從 “具備科學(xué)常識(shí)” 走向 “能夠真正解決科學(xué)問(wèn)題”。與預(yù)訓(xùn)練強(qiáng)調(diào) 廣覆蓋與大規(guī)模 不同,后訓(xùn)練更關(guān)注 高質(zhì)量、任務(wù)導(dǎo)向與學(xué)科特色 的數(shù)據(jù)。本章從多個(gè)科學(xué)領(lǐng)域系統(tǒng)介紹了后訓(xùn)練數(shù)據(jù)的構(gòu)建現(xiàn)狀與難點(diǎn),并指出當(dāng)前后訓(xùn)練數(shù)據(jù)呈現(xiàn)四大趨勢(shì):

  • 指令化語(yǔ)料占主導(dǎo):將結(jié)構(gòu)化知識(shí)庫(kù)、教科書習(xí)題等轉(zhuǎn)化為指令 - 回復(fù)對(duì)。

  • 多模態(tài)數(shù)據(jù)集日益重要:在醫(yī)學(xué)、遙感等領(lǐng)域,視覺(jué)問(wèn)答(VQA)數(shù)據(jù)集已成為主流。

  • 向顯式推理監(jiān)督演進(jìn):帶有思維鏈(CoT)的推理過(guò)程數(shù)據(jù)開始出現(xiàn),以提升模型的可解釋性。

  • 數(shù)據(jù)合成的自動(dòng)化趨勢(shì):以強(qiáng)大的 LLM(如 GPT-4)為數(shù)據(jù)處理工具,從文獻(xiàn)和數(shù)據(jù)庫(kù)中自動(dòng)生成海量指令數(shù)據(jù),以彌補(bǔ)人工標(biāo)注的不足。


圖 10:現(xiàn)有 Sci-LLMs/Sci-MLLMs 后訓(xùn)練語(yǔ)料的來(lái)源分布。


圖 11:后訓(xùn)練數(shù)據(jù)集的詞云圖。圖中展示了模態(tài)(左)和類型(右)的相對(duì)分布,詞語(yǔ)大小與出現(xiàn)頻率成正比。 六、評(píng)測(cè)升級(jí):從 “考試” 到 “科研流程” 的方法論躍遷

測(cè)評(píng)數(shù)據(jù)是連接 預(yù)訓(xùn)練 / 后訓(xùn)練 與 真實(shí)科研應(yīng)用 的關(guān)鍵環(huán)節(jié)。與通用 LLM 測(cè)評(píng)(如 MMLU、MMMU)不同,Sci-LLMs 的測(cè)評(píng)更強(qiáng)調(diào):

  • 學(xué)科覆蓋:是否掌握從微觀到宏觀的多領(lǐng)域科學(xué)知識(shí);

  • 推理能力:能否進(jìn)行公式推導(dǎo)、多步計(jì)算、實(shí)驗(yàn)結(jié)果解釋;

  • 應(yīng)用導(dǎo)向:是否能在醫(yī)學(xué)診斷、分子設(shè)計(jì)、氣候預(yù)測(cè)等任務(wù)中給出可用答案。

1. 測(cè)評(píng)數(shù)據(jù)現(xiàn)狀分析

(1) 物理學(xué)

  • 主要依賴 教育 / 競(jìng)賽題庫(kù),如 PhysicsArena、SciBench,測(cè)試模型在推導(dǎo)、數(shù)值估算、單位換算等方面的能力。

  • 挑戰(zhàn):評(píng)測(cè)數(shù)據(jù)多來(lái)源于教材,距離真實(shí)物理實(shí)驗(yàn)數(shù)據(jù)、尤其是多模態(tài)物理實(shí)驗(yàn)數(shù)據(jù)有不小的差距。

(2) 化學(xué)

  • 測(cè)評(píng)多集中于 分子性質(zhì)預(yù)測(cè)、反應(yīng)預(yù)測(cè) 與 藥物發(fā)現(xiàn)任務(wù)。

  • 數(shù)據(jù)集包括 QM9(小分子性質(zhì))、USPTO(反應(yīng)數(shù)據(jù))、藥物性質(zhì)評(píng)估數(shù)據(jù)。

  • 重點(diǎn)考察模型能否在分子層面做出正確預(yù)測(cè)或生成。

(3) 材料科學(xué)

  • 測(cè)評(píng)?;诓牧蠑?shù)據(jù)庫(kù)中的下游任務(wù),如能帶預(yù)測(cè)、晶格能估算、力學(xué) / 熱學(xué)性質(zhì)預(yù)測(cè)。

  • 測(cè)評(píng)挑戰(zhàn):數(shù)據(jù)庫(kù)之間格式不統(tǒng)一,影響跨任務(wù)評(píng)估。

(4) 生命科學(xué)

  • 醫(yī)學(xué)領(lǐng)域:使用 臨床問(wèn)答、病例診斷 數(shù)據(jù)集,如 MedQA、MedMCQA、PubMedQA。

  • 生物學(xué)領(lǐng)域:蛋白質(zhì)功能預(yù)測(cè)、基因組序列分析。

  • 難點(diǎn):缺少標(biāo)準(zhǔn)化的 “真實(shí)病歷” 測(cè)評(píng)集,多依賴學(xué)術(shù)題庫(kù)或合成數(shù)據(jù)。

(5) 天文學(xué)

  • 測(cè)評(píng)任務(wù)包括 天文問(wèn)答、天體分類、光譜分析、宇宙學(xué)參數(shù)擬合。

  • 數(shù)據(jù)特點(diǎn):多為文本(如文獻(xiàn)、星表、注釋),科學(xué)圖像。

  • 挑戰(zhàn):缺乏權(quán)威社區(qū)和統(tǒng)一 benchmark、跨望遠(yuǎn)鏡與觀測(cè)條件的域間存在差異。

(6) 地球科學(xué)

  • 測(cè)評(píng)多集中于 氣候問(wèn)答、遙感圖像感知等。

  • 示例:ClimaQA 等基于教材構(gòu)建的評(píng)測(cè)集,OmniEarth-Bench 基于遙感圖像構(gòu)建 VQA 任務(wù)。

  • 難點(diǎn):數(shù)據(jù)覆蓋度有限,難以反映復(fù)雜的氣候與地球過(guò)程。


圖 12:現(xiàn)有 Sci-LLMs/Sci-MLLMs 評(píng)測(cè)語(yǔ)料的來(lái)源分布。


圖 13:評(píng)測(cè)數(shù)據(jù)集的詞云圖。圖中展示了模態(tài)(左)和類型(右)的相對(duì)分布,詞語(yǔ)大小與出現(xiàn)頻率成正比。 2. 測(cè)評(píng)體系變遷

綜述指出,Sci-LLMs 的評(píng)測(cè)正經(jīng)歷從 “靜態(tài)考試型測(cè)試” 到 “動(dòng)態(tài)、過(guò)程導(dǎo)向型測(cè)評(píng)” 的轉(zhuǎn)變。早期評(píng)測(cè)多采用 MMLU 、ScienceQA 等 “考試” 型基準(zhǔn),但最新研究發(fā)現(xiàn),頂尖模型在這些基準(zhǔn)上取得高分,但在真正考驗(yàn)前沿、跨領(lǐng)域科學(xué)推理的測(cè)試(如 HLE、SFE)上表現(xiàn)會(huì)急劇下降。這催生了評(píng)測(cè)范式的三大升級(jí):

  • 從通用指標(biāo)到領(lǐng)域定制:除了準(zhǔn)確率,評(píng)測(cè)開始引入化學(xué)有效性、物理學(xué)公式匹配度等專業(yè)指標(biāo);

  • 從靜態(tài)問(wèn)答到動(dòng)態(tài)流程:新一代評(píng)測(cè)基準(zhǔn)如 ScienceAgentBench ,要求模型完成文獻(xiàn)檢索、實(shí)驗(yàn)設(shè)計(jì)、代碼執(zhí)行等完整的科研工作流,評(píng)估其過(guò)程的正確性;

  • 從人工評(píng)判到智能體評(píng)判:引入 “Agent-as-a-Judge” 范式,利用一個(gè)或多個(gè) AI 智能體來(lái)評(píng)估目標(biāo)模型的開放式回答、假設(shè)新穎性等難以量化的能力,實(shí)現(xiàn)更高效、可解釋的評(píng)估。


圖 14:Sci-LLMs 評(píng)測(cè)方式的演變過(guò)程。3. 測(cè)評(píng)數(shù)據(jù)的挑戰(zhàn)和發(fā)展趨勢(shì)

盡管近年來(lái)已經(jīng)出現(xiàn)了面向不同學(xué)科的評(píng)測(cè)基準(zhǔn),但整體來(lái)看,科學(xué)測(cè)評(píng)數(shù)據(jù)依然存在明顯不足。這些不足不僅體現(xiàn)在學(xué)科覆蓋的不均衡上,也體現(xiàn)在模態(tài)、真實(shí)性與動(dòng)態(tài)性等維度的缺失,使得現(xiàn)有評(píng)估體系難以全面衡量模型在真實(shí)科研場(chǎng)景中的表現(xiàn)。

  • 覆蓋不均衡:化學(xué)、生命科學(xué)已有較多測(cè)評(píng)數(shù)據(jù),而地球科學(xué)、天文學(xué)仍然缺乏;

  • 模態(tài)局限:多數(shù)評(píng)測(cè)仍是文本 QA,未能涵蓋科學(xué)研究中的圖表、實(shí)驗(yàn)圖像、譜線、公式;

  • 真實(shí)性不足:很多測(cè)評(píng)數(shù)據(jù)源于教材或競(jìng)賽,和科研真實(shí)場(chǎng)景有差距;

  • 動(dòng)態(tài)性不足:缺少能評(píng)估模型隨時(shí)間更新的能力,例如應(yīng)對(duì)新藥發(fā)現(xiàn)、新觀測(cè)結(jié)果。

針對(duì)上述問(wèn)題,研究者們也提出了新的發(fā)展方向,嘗試讓測(cè)評(píng)體系更接近科學(xué)實(shí)踐的真實(shí)需求。趨勢(shì)既包括評(píng)測(cè)范式的轉(zhuǎn)變,也涵蓋多模態(tài)與跨學(xué)科的拓展,最終目標(biāo)是建立起動(dòng)態(tài)而全面的科學(xué)智能評(píng)估框架。

  • 過(guò)程導(dǎo)向測(cè)評(píng):從 “對(duì) / 錯(cuò)” 答案轉(zhuǎn)向檢驗(yàn)?zāi)P偷耐评礞湣?shí)驗(yàn)解釋、科學(xué)方法論;

  • 多模態(tài)測(cè)評(píng):未來(lái)會(huì)更多結(jié)合圖像、表格、符號(hào),測(cè)試模型跨模態(tài)理解能力;

  • 跨學(xué)科評(píng)測(cè):推動(dòng)建立涵蓋物理、化學(xué)、材料、生命、天文、地球科學(xué)等多學(xué)科的統(tǒng)一基準(zhǔn);

  • 閉環(huán)評(píng)測(cè):發(fā)展 “自動(dòng)化科學(xué)代理人” 評(píng)估框架,讓模型在實(shí)驗(yàn)仿真、假設(shè)檢驗(yàn)、數(shù)據(jù)分析中被動(dòng)態(tài)測(cè)試。

七、從 “模型” 到 “智能體”:閉環(huán)科研工作流


圖 15:從數(shù)據(jù)基礎(chǔ)設(shè)施到智能體輔助的科學(xué)發(fā)現(xiàn):科學(xué) AI 的三階段演進(jìn)。

綜述最后展望了 Sci-LLMs 的下一代形態(tài) —— 科學(xué)智能體(Scientific Agent)。不同于被動(dòng)回答問(wèn)題的模型,科學(xué)智能體是能夠被賦予高級(jí)目標(biāo)(如 “為某疾病尋找候選藥物”)后,自主進(jìn)行任務(wù)分解、規(guī)劃、工具調(diào)用、虛擬實(shí)驗(yàn)和結(jié)果分析的自治系統(tǒng)。

綜述指出,實(shí)現(xiàn)這一目標(biāo)的核心在于構(gòu)建一個(gè)閉環(huán)的 “智能體 - 數(shù)據(jù)” 生態(tài)系統(tǒng)。在這個(gè)系統(tǒng)中,智能體通過(guò)與外部工具(數(shù)據(jù)庫(kù)、模擬器、甚至自動(dòng)化實(shí)驗(yàn)室)交互來(lái)主動(dòng)獲取和生成新的實(shí)驗(yàn)數(shù)據(jù);這些 “AI-ready” 的數(shù)據(jù)再反哺數(shù)據(jù)生態(tài),用于迭代和優(yōu)化智能體自身,形成一個(gè)能夠自我進(jìn)化的良性循環(huán)。綜述詳細(xì)探討了實(shí)現(xiàn)這一閉環(huán)所需的關(guān)鍵技術(shù),包括多智能體協(xié)作、工具使用和自進(jìn)化機(jī)制。

八、總結(jié)

這篇綜述為我們描繪了一幅壯闊的科學(xué) AI 演進(jìn)藍(lán)圖,其核心貢獻(xiàn)在于:

  • 建立了統(tǒng)一的科學(xué)大模型數(shù)據(jù)理論框架,為分析科學(xué)數(shù)據(jù)和知識(shí)的復(fù)雜性提供了全新視角。

  • 提供了最全面的數(shù)據(jù)、模型和測(cè)評(píng)體系分析全景圖,

  • 系統(tǒng)性梳理了超過(guò) 600 個(gè)數(shù)據(jù)集與模型,揭示了各學(xué)科的現(xiàn)狀與挑戰(zhàn)。

  • 指出了數(shù)據(jù)生態(tài)的結(jié)構(gòu)性瓶頸,并為構(gòu)建高質(zhì)量、可信的 AI-ready 科學(xué)數(shù)據(jù)提出了前瞻性議程。描繪了邁向自主科學(xué)發(fā)現(xiàn)的路線圖,倡導(dǎo)構(gòu)建智能體與數(shù)據(jù)生態(tài)之間的閉環(huán)反饋系統(tǒng)。

正如文中所指出的,Sci-LLMs 正從單純的 “知識(shí)模型” 向 “推理引擎” 和 “科研伙伴” 演進(jìn),解決好其在數(shù)據(jù)基礎(chǔ)和智能體層面的核心挑戰(zhàn),將是未來(lái)研究的重中之重。

來(lái)源:公眾號(hào)【ScienceAI】

llustration From IconScout By IconScout Store

-The End-

本周上新!

掃碼觀看!

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長(zhǎng)。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //

// 前沿資訊解說(shuō)/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過(guò)連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。

將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:

bp@thejiangmen.com


點(diǎn)擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
北京銀行要甩的雷,可不止富力地產(chǎn)這一顆

北京銀行要甩的雷,可不止富力地產(chǎn)這一顆

源媒匯
2026-03-13 14:28:25
美專家猛然發(fā)現(xiàn):中國(guó)早就準(zhǔn)備好,一旦沖突,先廢掉美軍最強(qiáng)戰(zhàn)力

美專家猛然發(fā)現(xiàn):中國(guó)早就準(zhǔn)備好,一旦沖突,先廢掉美軍最強(qiáng)戰(zhàn)力

涵豆說(shuō)娛
2026-03-10 12:09:41
上海新規(guī)!非機(jī)動(dòng)車、行人罰單逾期每日加罰3%,今起實(shí)施!視頻詳解

上海新規(guī)!非機(jī)動(dòng)車、行人罰單逾期每日加罰3%,今起實(shí)施!視頻詳解

上觀新聞
2026-03-13 13:36:05
混社會(huì)的人出來(lái)之后變得怎樣了 看網(wǎng)友講述 發(fā)現(xiàn)真的好慘

混社會(huì)的人出來(lái)之后變得怎樣了 看網(wǎng)友講述 發(fā)現(xiàn)真的好慘

侃神評(píng)故事
2026-03-12 15:25:05
歐冠1/4決賽對(duì)陣預(yù)測(cè):皇任大戰(zhàn) 巴黎連戰(zhàn)紅藍(lán)軍 薩競(jìng)+槍耀

歐冠1/4決賽對(duì)陣預(yù)測(cè):皇任大戰(zhàn) 巴黎連戰(zhàn)紅藍(lán)軍 薩競(jìng)+槍耀

智道足球
2026-03-13 13:22:17
重慶冠軍賽:只贏一場(chǎng)就直通!張本美和3:0大獲全勝,迎中日對(duì)決

重慶冠軍賽:只贏一場(chǎng)就直通!張本美和3:0大獲全勝,迎中日對(duì)決

銜春信
2026-03-13 16:38:59
G聯(lián)賽:楊瀚森背靠背16+13+2+1帽 難阻混音遭快船雙殺

G聯(lián)賽:楊瀚森背靠背16+13+2+1帽 難阻混音遭快船雙殺

醉臥浮生
2026-03-13 12:33:30
13:2,聯(lián)合國(guó)安理會(huì)通過(guò)譴責(zé)伊朗決議,伊代表當(dāng)眾大喊:不公平

13:2,聯(lián)合國(guó)安理會(huì)通過(guò)譴責(zé)伊朗決議,伊代表當(dāng)眾大喊:不公平

混沌錄
2026-03-13 16:50:07
詹姆斯:東里持球我就努力搶板、接球,為球隊(duì)我愿做任何犧牲

詹姆斯:東里持球我就努力搶板、接球,為球隊(duì)我愿做任何犧牲

懂球帝
2026-03-13 14:28:30
萊萬(wàn)談瓜迪奧拉:備戰(zhàn)一周的戰(zhàn)術(shù),比賽當(dāng)天卻被要求全盤推翻

萊萬(wàn)談瓜迪奧拉:備戰(zhàn)一周的戰(zhàn)術(shù),比賽當(dāng)天卻被要求全盤推翻

懂球帝
2026-03-13 13:45:04
中方回應(yīng)特朗普計(jì)劃訪華

中方回應(yīng)特朗普計(jì)劃訪華

第一財(cái)經(jīng)資訊
2026-03-12 15:48:23
iPhone 18 Pro Max被曝機(jī)身尺寸變化不大 厚度達(dá)8.8mm

iPhone 18 Pro Max被曝機(jī)身尺寸變化不大 厚度達(dá)8.8mm

CNMO科技
2026-03-12 09:30:35
“全世界都看到了美軍的表現(xiàn),中國(guó)大有可為”

“全世界都看到了美軍的表現(xiàn),中國(guó)大有可為”

觀察者網(wǎng)
2026-03-12 22:37:22
生育大局已定:不出意外的話,2026年起中國(guó)人口將迎來(lái)3大變化

生育大局已定:不出意外的話,2026年起中國(guó)人口將迎來(lái)3大變化

大魚簡(jiǎn)科
2026-03-13 10:29:12
68歲廖偉雄首談破產(chǎn)原因,幫朋友擔(dān)保暴雷,直言有他就無(wú)周星馳

68歲廖偉雄首談破產(chǎn)原因,幫朋友擔(dān)保暴雷,直言有他就無(wú)周星馳

裕豐娛間說(shuō)
2026-03-12 08:51:54
這羞答答的抿嘴,沒(méi)有男人能拒絕??!

貴圈真亂
2026-03-13 12:41:35

油價(jià)最新調(diào)整通知 !

油價(jià)最新調(diào)整通知 !

時(shí)間財(cái)經(jīng)
2026-03-12 15:20:55
爆冷晉級(jí)16強(qiáng)卻收壞消息!溫瑞博下輪死磕隊(duì)友!高情商回應(yīng)擊敗世界第二

爆冷晉級(jí)16強(qiáng)卻收壞消息!溫瑞博下輪死磕隊(duì)友!高情商回應(yīng)擊敗世界第二

好乒乓
2026-03-13 12:24:14
春節(jié)返回家中的第一件事,就是買它來(lái)煲湯,喝完舒服多了

春節(jié)返回家中的第一件事,就是買它來(lái)煲湯,喝完舒服多了

江江食研社
2026-03-12 15:30:07
國(guó)家下狠手了!體制內(nèi)大地震,少爺、公主們的“天”,要塌了

國(guó)家下狠手了!體制內(nèi)大地震,少爺、公主們的“天”,要塌了

霹靂炮
2026-01-19 22:24:13
2026-03-13 17:43:00
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動(dòng)型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

龍蝦熱卷到AI硬件 “無(wú)腦”硬件或被淘汰

頭條要聞

媒體:若穆杰塔巴公開露面顯得虛弱 會(huì)嚴(yán)重打擊政權(quán)士氣

頭條要聞

媒體:若穆杰塔巴公開露面顯得虛弱 會(huì)嚴(yán)重打擊政權(quán)士氣

體育要聞

叕戰(zhàn)奧運(yùn),張雨霏要做回“小將”

娛樂(lè)要聞

小S復(fù)工錄制 感謝賈永婕陪大S走到最后

財(cái)經(jīng)要聞

2月M2同增9% 前兩個(gè)月存款增加9.26萬(wàn)億

汽車要聞

大眾汽車與小鵬首款聯(lián)合開發(fā)車型與眾08正式量產(chǎn)

態(tài)度原創(chuàng)

教育
家居
數(shù)碼
房產(chǎn)
公開課

教育要聞

數(shù)智賦能強(qiáng)指導(dǎo) 精準(zhǔn)導(dǎo)航求職路!數(shù)字化手段助力高校畢業(yè)生就業(yè)指導(dǎo)

家居要聞

藝術(shù)之家 法式優(yōu)雅

數(shù)碼要聞

小米手表S5外觀設(shè)計(jì)公布:三款不銹鋼表圈,可選真皮表帶

房產(chǎn)要聞

不容易?。『?诮K于又要賣地了!

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版