網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

系統(tǒng)梳理600+數(shù)據(jù)集與模型，上海AI Lab等發(fā)布科學(xué)大語(yǔ)言模型全景式綜述

2025-09-17 08:26:07　來(lái)源: 將門創(chuàng)投

北京舉報(bào)

分享至

過(guò)去幾年，大語(yǔ)言模型（LLM）的浪潮席卷學(xué)術(shù)界與產(chǎn)業(yè)界。在科研場(chǎng)景中，它們正從 “工具” 演變?yōu)?“合作者”，科學(xué)大語(yǔ)言模型（Sci-LLMs）的進(jìn)展尤為矚目。

然而，科學(xué)數(shù)據(jù)的多模態(tài)、跨尺度、強(qiáng)領(lǐng)域語(yǔ)義與不確定性，以及科學(xué)知識(shí)本身的層次化結(jié)構(gòu)，對(duì) Sci-LLMs 提出了遠(yuǎn)超通用領(lǐng)域的新要求。當(dāng)前的研究仍處于碎片化狀態(tài)，缺乏對(duì)全學(xué)科領(lǐng)域的科學(xué)數(shù)據(jù)與模型演進(jìn)路徑的系統(tǒng)性梳理。一個(gè)系統(tǒng)性的梳理與前瞻性設(shè)計(jì)已成為整個(gè)領(lǐng)域的迫切需求。

為填補(bǔ)這一空白，上海人工智能實(shí)驗(yàn)室聯(lián)合全球 20 余家頂尖高校與研究機(jī)構(gòu)，全面調(diào)研了 1000+ 文獻(xiàn)，系統(tǒng)梳理了 600+ 重要數(shù)據(jù)集與 SOTA 模型，重磅發(fā)布了對(duì) Sci-LLMs 的全面綜述《A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers》，系統(tǒng)梳理了 Sci-LLMs 的發(fā)展歷程、數(shù)據(jù)基礎(chǔ)、模型演進(jìn)、模型評(píng)測(cè)體系與智能體前沿，并提出了未來(lái)智能體助力科學(xué)發(fā)現(xiàn)生態(tài)的路線圖。

論文標(biāo)題： A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers 論文鏈接： https://arxiv.org/abs/2508.21148 GitHub 鏈接： https://github.com/open-sciencelab/Awesome-Scientific-Datasets-and-LLMs

一、科研界的 “爆炸時(shí)刻”：論文數(shù)量曲線說(shuō)明了一切

近年來(lái)，人工智能在科學(xué)探索（AI for Science）領(lǐng)域的應(yīng)用呈現(xiàn)爆發(fā)式增長(zhǎng)，科學(xué)大語(yǔ)言模型正以前所未有的深度和廣度變革著知識(shí)的表示、整合與應(yīng)用方式，在物理、化學(xué)、材料、生命科學(xué)、天文、地球科學(xué)等多個(gè)自然科學(xué)領(lǐng)域展現(xiàn)出驚人的潛力，重新定義著科學(xué)研究的方式。如下圖，綜述簡(jiǎn)要展示了在主要預(yù)印本平臺(tái)上，涉及 “l(fā)anguage model” 及其與科學(xué)領(lǐng)域結(jié)合（聯(lián)合檢索學(xué)科關(guān)鍵詞）的論文發(fā)表趨勢(shì)。左圖顯示 arXiv 與 PubMed 上的快速增長(zhǎng)，右圖則呈現(xiàn) bioRxiv、medRxiv 和 ChemRxiv 的加速態(tài)勢(shì)，體現(xiàn)出跨學(xué)科興趣的不斷升溫。

圖 1：科學(xué)大模型相關(guān)論文數(shù)量快速增長(zhǎng)（2018–2025）。二、四次范式轉(zhuǎn)移：解碼 Sci-LLMs 進(jìn)化路徑

綜述首先指出，2018–2025 年，數(shù)據(jù)驅(qū)動(dòng)的 Sci-LLMs 已經(jīng)歷四次關(guān)鍵范式轉(zhuǎn)移，其能力邊界得到不斷拓展，逐步邁向更高階的科研應(yīng)用階段。

1. 遷移學(xué)習(xí)階段（2018–2020）

代表：SciBERT、BioBERT、PubMedBERT 等
特點(diǎn)：通過(guò)在特定領(lǐng)域的科學(xué)語(yǔ)料上繼續(xù)預(yù)訓(xùn)練，顯著提升模型的領(lǐng)域理解能力。但這些模型僅能提供 “靜態(tài)知識(shí)”，大多面向領(lǐng)域內(nèi)既定的下游任務(wù)，難以直接應(yīng)用到更復(fù)雜也更高級(jí)的科研探索任務(wù)中。

2. 規(guī)模化階段（2020–2022）

代表：GPT-3、Galactica、MedPaLM-2 等
特點(diǎn)：通過(guò)急劇擴(kuò)大的參數(shù)和數(shù)據(jù)規(guī)模，模型展現(xiàn)出跨學(xué)科知識(shí)整合與專業(yè)推理能力。例如，MedPaLM-2 在美國(guó)醫(yī)師執(zhí)照考試（USMLE）問(wèn)題上達(dá)到了與持證醫(yī)師相當(dāng)?shù)膶＜壹?jí)水平。然而，這一階段也展示出科學(xué)領(lǐng)域的獨(dú)特挑戰(zhàn)：高質(zhì)量科學(xué)文本語(yǔ)料遠(yuǎn)小于通用語(yǔ)料，限制了 Sci-LLMs 的大規(guī)模擴(kuò)展。

3. 指令對(duì)齊階段（2022–2024）

代表：ChatGPT、Meditron、NatureLM 等
特點(diǎn)：通過(guò)精心設(shè)計(jì)的指令數(shù)據(jù)微調(diào)，模型能夠更精確地執(zhí)行復(fù)雜的科學(xué)任務(wù) 。這一階段，開源架構(gòu)的多樣性與指令數(shù)據(jù)規(guī)模的空前擴(kuò)展形成了 “雙輪驅(qū)動(dòng)”，催生了大量里程碑式的 Sci-LLMs ，它們?cè)谏镄蛄欣斫狻⒖鐚W(xué)科知識(shí)整合等任務(wù)上取得了顯著突破。

4. 科學(xué)智能體階段（2023–至今）

代表：Coscientist、Biomni、InternAgent 等
特點(diǎn)：除了進(jìn)一步規(guī)?；瘉?lái)提供更加強(qiáng)大的科學(xué)基座（如 Intern-S1），由 Sci-LLMs 構(gòu)成的系統(tǒng)開始具備科學(xué)智能體（Agent）的雛形。AI 不再僅僅 “理解科學(xué)”，而是能自主規(guī)劃實(shí)驗(yàn)、撰寫論文、迭代科研流程。這也對(duì)新型科學(xué)數(shù)據(jù)以及科學(xué)發(fā)現(xiàn)性能評(píng)估提出了新的要求。

圖 2：Sci-LLMs 的范式演化（2018–2025）。三、科學(xué)領(lǐng)域總覽：貫通六大科學(xué)領(lǐng)域

這篇綜述不僅覆蓋了六大科學(xué)領(lǐng)域（物理、化學(xué)、材料科學(xué)、生命科學(xué)、天文學(xué)、地球科學(xué)），還揭示了它們?cè)?數(shù)據(jù)尺度上的層層遞進(jìn)。

物理、化學(xué)、材料科學(xué) —— 從微觀粒子、分子到材料結(jié)構(gòu)，奠定了理解物質(zhì)世界的基石；
生命科學(xué) —— 跨越分子、細(xì)胞、多組學(xué)和系統(tǒng)，體現(xiàn)復(fù)雜性的中觀尺度；
天文學(xué)與地球科學(xué) —— 從地球、行星到星系，直達(dá)宏觀層面的觀測(cè)與模擬。

這種從微觀到宏觀的尺度演進(jìn)，正是 Sci-LLMs 預(yù)訓(xùn)練數(shù)據(jù)設(shè)計(jì)的邏輯：模型需要同時(shí)理解分子動(dòng)力學(xué)的精細(xì)結(jié)構(gòu)，也要能把握天體演化和氣候變化的宏大趨勢(shì)。

圖 3：綜述所涵蓋的六大科學(xué)領(lǐng)域（物理、化學(xué)、材料科學(xué)、生命科學(xué)、地球科學(xué)、天文學(xué)）及各領(lǐng)域中的代表性子方向。四、科學(xué)模型薈萃：通才 vs 專才、文本 vs 多模態(tài)1. 通才 vs 專才 vs “通專融合”

通才型 Sci-LLMs 致力于構(gòu)建跨學(xué)科的知識(shí)底座，典型代表是 Intern-S1。它通過(guò)在海量、跨學(xué)科的科學(xué)語(yǔ)料（涵蓋論文、教科書、百科、習(xí)題等）上進(jìn)行大規(guī)模預(yù)訓(xùn)練，具備廣博而系統(tǒng)的科學(xué)知識(shí)儲(chǔ)備。與此相對(duì)，專才型 Sci-LLMs 則更像是針對(duì)單一學(xué)科定制的 “手術(shù)刀”，依靠在特定領(lǐng)域（如高能物理、化學(xué)、生命科學(xué)等）的專業(yè)數(shù)據(jù)集上進(jìn)行深度訓(xùn)練，成為該學(xué)科的專家，例如專注高能物理的 Xiwu，以及面向化學(xué)的 ChemLLM。

與兩者相比，Intern-S1 的獨(dú)特優(yōu)勢(shì)在于通專融合：它既繼承了通才模型的跨學(xué)科廣度，能夠在復(fù)雜問(wèn)題中調(diào)用多領(lǐng)域知識(shí)；又通過(guò)針對(duì)重點(diǎn)學(xué)科的優(yōu)化實(shí)現(xiàn)了專才模型的深度，具備解決專業(yè)領(lǐng)域難題的能力。憑借這一雙重特性，Intern-S1 不僅能作為科學(xué)研究的通用助手，還能夠在特定學(xué)科場(chǎng)景下展現(xiàn)接近專家級(jí)的推理與回答水平。

圖 4：按六大科學(xué)領(lǐng)域分類的代表性 Sci-LLMs 時(shí)間概覽（2019 年至 2025 年中）。 2. 文本 vs 多模態(tài)

綜述的統(tǒng)計(jì)分析指出：當(dāng)前約四分之三的科學(xué)大語(yǔ)言模型是純文本 LLM ，而多模態(tài) LLM 僅占四分之一。這一方面反映了科學(xué)知識(shí)的主要載體 —— 學(xué)術(shù)論文和教科書等 —— 仍以文本為主；另一方面也暴露了高質(zhì)量、細(xì)粒度的多模態(tài)監(jiān)督數(shù)據(jù)的稀缺性。這種對(duì)文本的過(guò)度依賴造成了一個(gè)核心困境：模型學(xué)習(xí)到的更多是對(duì)科學(xué)的 “描述”，而非從第一性原理和實(shí)驗(yàn)證據(jù)中習(xí)得的科學(xué)研究本身。為了彌合這一鴻溝，未來(lái)的趨勢(shì)必然是向多模態(tài)生態(tài)系統(tǒng)演進(jìn)，尤其是在天文學(xué)、氣候科學(xué)等高度依賴異構(gòu)信號(hào)融合的領(lǐng)域，能夠綜合處理圖像、光譜、時(shí)間序列和文本等多模態(tài)數(shù)據(jù)將是 Sci-LLMs 發(fā)展的關(guān)鍵。

圖 5: Sci-LLMs 和 Sci-MLLMs 分布統(tǒng)計(jì)：(a) Sci-LLMs 與 Sci-MLLMs 的數(shù)量對(duì)比；(b) 基礎(chǔ)模型家族分布和 (c) 參數(shù)規(guī)模分布。五、深入數(shù)據(jù)生態(tài)：270+ 訓(xùn)練集 & 210+ 評(píng)測(cè)集的全景地圖1. 統(tǒng)一視角：從數(shù)據(jù)分類到知識(shí)層級(jí)

綜述指出，構(gòu)建強(qiáng)大的 Sci-LLMs 必須首先理解科學(xué)數(shù)據(jù)與知識(shí)的內(nèi)在結(jié)構(gòu)。為此，論文提出了兩大數(shù)據(jù)分級(jí)框架：

統(tǒng)一的科學(xué)數(shù)據(jù)分類法，將紛繁復(fù)雜的科學(xué)數(shù)據(jù)（如 SMILES 化學(xué)式、基因序列、天文圖像、醫(yī)學(xué)掃描等）歸納為文本、視覺(jué)、符號(hào)、結(jié)構(gòu)化、時(shí)序與多組學(xué)融合等六大類別，并且系統(tǒng)梳理了各科學(xué)領(lǐng)域的數(shù)據(jù)表達(dá)。

圖 6：科學(xué)領(lǐng)域數(shù)據(jù)可視化。

科學(xué)知識(shí)的層次化模型，該模型認(rèn)為科學(xué)知識(shí)并非扁平的信息集合，而是一個(gè)由五個(gè)層次構(gòu)成的復(fù)雜系統(tǒng)，從底層的事實(shí)層（Factual Level）、理論層（Theoretical Level），到方法技術(shù)層（Methodological & Technological Level）、建模仿真層（Modeling & Simulation Level），最終達(dá)到頂端的洞見層（Insight Level）。只有讓 AI 模型理解并能在這五個(gè)層級(jí)之間穿梭，才能實(shí)現(xiàn)從具體到抽象、從現(xiàn)象到本質(zhì)的科學(xué)推理，而不僅僅是事實(shí)的復(fù)述。

圖 7：科學(xué)數(shù)據(jù)的層級(jí)劃分和動(dòng)態(tài)交互。2. 數(shù)據(jù)質(zhì)量 “四要素”、現(xiàn)狀分析與結(jié)構(gòu)性痛點(diǎn)

綜述強(qiáng)調(diào)，高質(zhì)量的數(shù)據(jù)是 Sci-LLMs 成功的關(guān)鍵，并提出了評(píng)估科學(xué)數(shù)據(jù) “AI-ready” 質(zhì)量的四要素，與當(dāng)前數(shù)據(jù)生態(tài)存在的不足，以及其背后的系統(tǒng)性痛點(diǎn)。

a）質(zhì)量四要素：

準(zhǔn)確性 (Accuracy)：數(shù)據(jù)是否真實(shí)反映客觀世界；
完整性 (Completeness)：數(shù)據(jù)是否全面覆蓋了所有相關(guān)元素；
時(shí)效性 (Timeliness)：數(shù)據(jù)更新是否及時(shí)，能否反映最新科研進(jìn)展；
可追溯性 (Traceability)：數(shù)據(jù)的來(lái)源、處理流程是否清晰可查，以保證可復(fù)現(xiàn)性。

b）當(dāng)前數(shù)據(jù)生態(tài)的不足：

實(shí)驗(yàn)數(shù)據(jù)稀缺：受限于實(shí)驗(yàn)的現(xiàn)實(shí)性質(zhì)，數(shù)據(jù)獲取成本高、周期長(zhǎng)，且共享存在障礙；
過(guò)度依賴文本：圖表、三維結(jié)構(gòu)、時(shí)間序列等非文本數(shù)據(jù)未被充分利用；
表示鴻溝：現(xiàn)有數(shù)據(jù)集多為靜態(tài)知識(shí)快照，無(wú)法體現(xiàn)科研的動(dòng)態(tài)演進(jìn)過(guò)程；
多層偏差：存在發(fā)表偏差（傾向于正面結(jié)果）、領(lǐng)域偏差和語(yǔ)言偏差等問(wèn)題。

c）系統(tǒng)性問(wèn)題：

可追溯性危機(jī)：大量科學(xué)數(shù)據(jù)集缺乏對(duì)其來(lái)源、版本和預(yù)處理流程的完整記錄，導(dǎo)致 AI 模型的結(jié)論難以復(fù)現(xiàn)和驗(yàn)證，也削弱了 AI 生成假設(shè)的可信度；
科學(xué)數(shù)據(jù)延遲：從一項(xiàng)科研成果誕生到其數(shù)據(jù)被納入模型訓(xùn)練語(yǔ)料庫(kù)，存在數(shù)月甚至數(shù)年的滯后。這使得模型知識(shí)迅速過(guò)時(shí)，尤其在生物醫(yī)學(xué)等快速發(fā)展的領(lǐng)域，模型可能無(wú)法回答關(guān)于最新發(fā)現(xiàn)的問(wèn)題；
AI-readiness 不足：絕大多數(shù)科學(xué)數(shù)據(jù)并非為 AI “開箱即用” 。不規(guī)范的數(shù)據(jù)格式、缺失的元數(shù)據(jù)和異構(gòu)的結(jié)構(gòu)，使得研究者需花費(fèi)大量精力進(jìn)行數(shù)據(jù)清洗和預(yù)處理，這直接限制了 Sci-LLMs 開發(fā)的效率和規(guī)模以及高級(jí)科學(xué)智能的上限。

3. 預(yù)訓(xùn)練數(shù)據(jù)：按學(xué)科拆解 “AI-ready” 數(shù)據(jù)側(cè)重點(diǎn)

預(yù)訓(xùn)練數(shù)據(jù)是科學(xué)大語(yǔ)言模型（Sci-LLMs）的核心基礎(chǔ)，它決定了模型能否在復(fù)雜科學(xué)場(chǎng)景中具備理解、推理和生成的能力。本章首先回顧了當(dāng)前模型在預(yù)訓(xùn)練數(shù)據(jù)上的總體分布：例如 Yi 模型結(jié)合了網(wǎng)頁(yè)、代碼、論文和問(wèn)答等多源數(shù)據(jù)，而 LLaMA 的預(yù)訓(xùn)練語(yǔ)料約 1.4TB，涵蓋 CommonCrawl、GitHub、Wikipedia 與學(xué)術(shù)資源（見圖 8a）。

相比之下，Intern-S1 在總語(yǔ)料中專門劃分出約 2.5 萬(wàn)億 tokens（占比 45.8%）用于科學(xué)領(lǐng)域，覆蓋物理、化學(xué)、材料科學(xué)、生命科學(xué)、天文學(xué)和地球科學(xué)六大板塊，為后續(xù)的領(lǐng)域拆解奠定了基礎(chǔ)。作者強(qiáng)調(diào)，科學(xué)語(yǔ)料的廣度與真實(shí)性直接影響模型能否在科學(xué)場(chǎng)景中進(jìn)行理解、推理與生成。

圖 8：LLaMA, Yi, GPT-3 和 Intern-S1 的預(yù)訓(xùn)練數(shù)據(jù)集分布。

在回顧整體的語(yǔ)料構(gòu)成之后，綜述進(jìn)一步從學(xué)科尺度深入分析了科學(xué)大語(yǔ)言模型預(yù)訓(xùn)練數(shù)據(jù)的特點(diǎn)與挑戰(zhàn)。

物理學(xué)的數(shù)據(jù)多來(lái)自理想化仿真與理論推導(dǎo)，如偏微分方程與動(dòng)力學(xué)模擬，但與真實(shí)觀測(cè)之間存在顯著差距，因此亟需解決 simulation-to-observation gap，使模型既能學(xué)習(xí)物理定律，又能適應(yīng)實(shí)驗(yàn)噪聲和儀器特性。

化學(xué)預(yù)訓(xùn)練以分子結(jié)構(gòu)和性質(zhì)數(shù)據(jù)為核心，包括 SMILES 表示、量子化學(xué)計(jì)算結(jié)果與反應(yīng)數(shù)據(jù)庫(kù)等，雖然結(jié)構(gòu)化程度高，但實(shí)驗(yàn)標(biāo)注成本昂貴，限制了語(yǔ)料規(guī)模，因此提升分子表征的多樣性與覆蓋度是關(guān)鍵。材料科學(xué)主要依賴大型材料數(shù)據(jù)庫(kù)（如 Materials Project、NOMAD、OQMD），涵蓋晶體結(jié)構(gòu)、能帶、力學(xué)與熱學(xué)性質(zhì)，但由于元數(shù)據(jù)與計(jì)算條件不一致，跨數(shù)據(jù)庫(kù)融合存在障礙，未來(lái)需要標(biāo)準(zhǔn)化與跨模態(tài)的統(tǒng)一表示。

生命科學(xué)覆蓋基因、蛋白質(zhì)序列、多組學(xué)數(shù)據(jù)、醫(yī)學(xué)影像與電子病歷等，數(shù)據(jù)量龐大卻因隱私與倫理問(wèn)題常常不完整或滯后，現(xiàn)有方法多通過(guò)去標(biāo)識(shí)化、合成數(shù)據(jù)與多模態(tài)整合來(lái)緩解。

天文學(xué)的科學(xué)數(shù)據(jù)包括光譜、射電觀測(cè)、星系影像與宇宙學(xué)模擬，然而不同儀器在分辨率、帶寬與校準(zhǔn)上的差異，使得跨模態(tài)和跨設(shè)備對(duì)齊成為挑戰(zhàn)。

地球科學(xué)的數(shù)據(jù)則最為稀缺，主要依賴論文與教材 PDF 的解析，以及有限的遙感影像和氣候變量場(chǎng)，但其高度異質(zhì)性導(dǎo)致文本解析和圖像對(duì)齊的代價(jià)很高，未來(lái)的發(fā)展趨勢(shì)是通過(guò)多源融合與自動(dòng)標(biāo)注來(lái)擴(kuò)展規(guī)模。

圖 9：預(yù)訓(xùn)練數(shù)據(jù)集的詞云圖。圖中展示了模態(tài)（左）和類型（右）的相對(duì)分布，詞語(yǔ)大小與出現(xiàn)頻率成正比。4. 后訓(xùn)練數(shù)據(jù)：面向科研任務(wù)的能力對(duì)齊

在完成大規(guī)模預(yù)訓(xùn)練后，科學(xué)大語(yǔ)言模型還需要進(jìn)一步后訓(xùn)練（post-training），以便從 “具備科學(xué)常識(shí)” 走向 “能夠真正解決科學(xué)問(wèn)題”。與預(yù)訓(xùn)練強(qiáng)調(diào) 廣覆蓋與大規(guī)模不同，后訓(xùn)練更關(guān)注高質(zhì)量、任務(wù)導(dǎo)向與學(xué)科特色的數(shù)據(jù)。本章從多個(gè)科學(xué)領(lǐng)域系統(tǒng)介紹了后訓(xùn)練數(shù)據(jù)的構(gòu)建現(xiàn)狀與難點(diǎn)，并指出當(dāng)前后訓(xùn)練數(shù)據(jù)呈現(xiàn)四大趨勢(shì)：

指令化語(yǔ)料占主導(dǎo)：將結(jié)構(gòu)化知識(shí)庫(kù)、教科書習(xí)題等轉(zhuǎn)化為指令 - 回復(fù)對(duì)。
多模態(tài)數(shù)據(jù)集日益重要：在醫(yī)學(xué)、遙感等領(lǐng)域，視覺(jué)問(wèn)答（VQA）數(shù)據(jù)集已成為主流。
向顯式推理監(jiān)督演進(jìn)：帶有思維鏈（CoT）的推理過(guò)程數(shù)據(jù)開始出現(xiàn)，以提升模型的可解釋性。
數(shù)據(jù)合成的自動(dòng)化趨勢(shì)：以強(qiáng)大的 LLM（如 GPT-4）為數(shù)據(jù)處理工具，從文獻(xiàn)和數(shù)據(jù)庫(kù)中自動(dòng)生成海量指令數(shù)據(jù)，以彌補(bǔ)人工標(biāo)注的不足。

圖 10：現(xiàn)有 Sci-LLMs/Sci-MLLMs 后訓(xùn)練語(yǔ)料的來(lái)源分布。

圖 11：后訓(xùn)練數(shù)據(jù)集的詞云圖。圖中展示了模態(tài)（左）和類型（右）的相對(duì)分布，詞語(yǔ)大小與出現(xiàn)頻率成正比。六、評(píng)測(cè)升級(jí)：從 “考試” 到 “科研流程” 的方法論躍遷

測(cè)評(píng)數(shù)據(jù)是連接預(yù)訓(xùn)練 / 后訓(xùn)練與真實(shí)科研應(yīng)用的關(guān)鍵環(huán)節(jié)。與通用 LLM 測(cè)評(píng)（如 MMLU、MMMU）不同，Sci-LLMs 的測(cè)評(píng)更強(qiáng)調(diào)：

學(xué)科覆蓋：是否掌握從微觀到宏觀的多領(lǐng)域科學(xué)知識(shí)；
推理能力：能否進(jìn)行公式推導(dǎo)、多步計(jì)算、實(shí)驗(yàn)結(jié)果解釋；
應(yīng)用導(dǎo)向：是否能在醫(yī)學(xué)診斷、分子設(shè)計(jì)、氣候預(yù)測(cè)等任務(wù)中給出可用答案。

1. 測(cè)評(píng)數(shù)據(jù)現(xiàn)狀分析

(1) 物理學(xué)

主要依賴教育 / 競(jìng)賽題庫(kù)，如 PhysicsArena、SciBench，測(cè)試模型在推導(dǎo)、數(shù)值估算、單位換算等方面的能力。
挑戰(zhàn)：評(píng)測(cè)數(shù)據(jù)多來(lái)源于教材，距離真實(shí)物理實(shí)驗(yàn)數(shù)據(jù)、尤其是多模態(tài)物理實(shí)驗(yàn)數(shù)據(jù)有不小的差距。

(2) 化學(xué)

測(cè)評(píng)多集中于分子性質(zhì)預(yù)測(cè)、反應(yīng)預(yù)測(cè) 與藥物發(fā)現(xiàn)任務(wù)。
數(shù)據(jù)集包括 QM9（小分子性質(zhì)）、USPTO（反應(yīng)數(shù)據(jù)）、藥物性質(zhì)評(píng)估數(shù)據(jù)。
重點(diǎn)考察模型能否在分子層面做出正確預(yù)測(cè)或生成。

(3) 材料科學(xué)

測(cè)評(píng)?；诓牧蠑?shù)據(jù)庫(kù)中的下游任務(wù)，如能帶預(yù)測(cè)、晶格能估算、力學(xué) / 熱學(xué)性質(zhì)預(yù)測(cè)。
測(cè)評(píng)挑戰(zhàn)：數(shù)據(jù)庫(kù)之間格式不統(tǒng)一，影響跨任務(wù)評(píng)估。

(4) 生命科學(xué)

醫(yī)學(xué)領(lǐng)域：使用臨床問(wèn)答、病例診斷數(shù)據(jù)集，如 MedQA、MedMCQA、PubMedQA。
生物學(xué)領(lǐng)域：蛋白質(zhì)功能預(yù)測(cè)、基因組序列分析。
難點(diǎn)：缺少標(biāo)準(zhǔn)化的 “真實(shí)病歷” 測(cè)評(píng)集，多依賴學(xué)術(shù)題庫(kù)或合成數(shù)據(jù)。

(5) 天文學(xué)

測(cè)評(píng)任務(wù)包括天文問(wèn)答、天體分類、光譜分析、宇宙學(xué)參數(shù)擬合。
數(shù)據(jù)特點(diǎn)：多為文本（如文獻(xiàn)、星表、注釋），科學(xué)圖像。
挑戰(zhàn)：缺乏權(quán)威社區(qū)和統(tǒng)一 benchmark、跨望遠(yuǎn)鏡與觀測(cè)條件的域間存在差異。

(6) 地球科學(xué)

測(cè)評(píng)多集中于氣候問(wèn)答、遙感圖像感知等。
示例：ClimaQA 等基于教材構(gòu)建的評(píng)測(cè)集，OmniEarth-Bench 基于遙感圖像構(gòu)建 VQA 任務(wù)。
難點(diǎn)：數(shù)據(jù)覆蓋度有限，難以反映復(fù)雜的氣候與地球過(guò)程。

圖 12：現(xiàn)有 Sci-LLMs/Sci-MLLMs 評(píng)測(cè)語(yǔ)料的來(lái)源分布。

圖 13：評(píng)測(cè)數(shù)據(jù)集的詞云圖。圖中展示了模態(tài)（左）和類型（右）的相對(duì)分布，詞語(yǔ)大小與出現(xiàn)頻率成正比。 2. 測(cè)評(píng)體系變遷

綜述指出，Sci-LLMs 的評(píng)測(cè)正經(jīng)歷從 “靜態(tài)考試型測(cè)試” 到 “動(dòng)態(tài)、過(guò)程導(dǎo)向型測(cè)評(píng)” 的轉(zhuǎn)變。早期評(píng)測(cè)多采用 MMLU 、ScienceQA 等 “考試” 型基準(zhǔn)，但最新研究發(fā)現(xiàn)，頂尖模型在這些基準(zhǔn)上取得高分，但在真正考驗(yàn)前沿、跨領(lǐng)域科學(xué)推理的測(cè)試（如 HLE、SFE）上表現(xiàn)會(huì)急劇下降。這催生了評(píng)測(cè)范式的三大升級(jí)：

從通用指標(biāo)到領(lǐng)域定制：除了準(zhǔn)確率，評(píng)測(cè)開始引入化學(xué)有效性、物理學(xué)公式匹配度等專業(yè)指標(biāo)；
從靜態(tài)問(wèn)答到動(dòng)態(tài)流程：新一代評(píng)測(cè)基準(zhǔn)如 ScienceAgentBench ，要求模型完成文獻(xiàn)檢索、實(shí)驗(yàn)設(shè)計(jì)、代碼執(zhí)行等完整的科研工作流，評(píng)估其過(guò)程的正確性；
從人工評(píng)判到智能體評(píng)判：引入 “Agent-as-a-Judge” 范式，利用一個(gè)或多個(gè) AI 智能體來(lái)評(píng)估目標(biāo)模型的開放式回答、假設(shè)新穎性等難以量化的能力，實(shí)現(xiàn)更高效、可解釋的評(píng)估。

圖 14：Sci-LLMs 評(píng)測(cè)方式的演變過(guò)程。3. 測(cè)評(píng)數(shù)據(jù)的挑戰(zhàn)和發(fā)展趨勢(shì)

盡管近年來(lái)已經(jīng)出現(xiàn)了面向不同學(xué)科的評(píng)測(cè)基準(zhǔn)，但整體來(lái)看，科學(xué)測(cè)評(píng)數(shù)據(jù)依然存在明顯不足。這些不足不僅體現(xiàn)在學(xué)科覆蓋的不均衡上，也體現(xiàn)在模態(tài)、真實(shí)性與動(dòng)態(tài)性等維度的缺失，使得現(xiàn)有評(píng)估體系難以全面衡量模型在真實(shí)科研場(chǎng)景中的表現(xiàn)。

覆蓋不均衡：化學(xué)、生命科學(xué)已有較多測(cè)評(píng)數(shù)據(jù)，而地球科學(xué)、天文學(xué)仍然缺乏；
模態(tài)局限：多數(shù)評(píng)測(cè)仍是文本 QA，未能涵蓋科學(xué)研究中的圖表、實(shí)驗(yàn)圖像、譜線、公式；
真實(shí)性不足：很多測(cè)評(píng)數(shù)據(jù)源于教材或競(jìng)賽，和科研真實(shí)場(chǎng)景有差距；
動(dòng)態(tài)性不足：缺少能評(píng)估模型隨時(shí)間更新的能力，例如應(yīng)對(duì)新藥發(fā)現(xiàn)、新觀測(cè)結(jié)果。

針對(duì)上述問(wèn)題，研究者們也提出了新的發(fā)展方向，嘗試讓測(cè)評(píng)體系更接近科學(xué)實(shí)踐的真實(shí)需求。趨勢(shì)既包括評(píng)測(cè)范式的轉(zhuǎn)變，也涵蓋多模態(tài)與跨學(xué)科的拓展，最終目標(biāo)是建立起動(dòng)態(tài)而全面的科學(xué)智能評(píng)估框架。

過(guò)程導(dǎo)向測(cè)評(píng)：從 “對(duì) / 錯(cuò)” 答案轉(zhuǎn)向檢驗(yàn)?zāi)Ｐ偷耐评礞湣?shí)驗(yàn)解釋、科學(xué)方法論；
多模態(tài)測(cè)評(píng)：未來(lái)會(huì)更多結(jié)合圖像、表格、符號(hào)，測(cè)試模型跨模態(tài)理解能力；
跨學(xué)科評(píng)測(cè)：推動(dòng)建立涵蓋物理、化學(xué)、材料、生命、天文、地球科學(xué)等多學(xué)科的統(tǒng)一基準(zhǔn)；
閉環(huán)評(píng)測(cè)：發(fā)展 “自動(dòng)化科學(xué)代理人” 評(píng)估框架，讓模型在實(shí)驗(yàn)仿真、假設(shè)檢驗(yàn)、數(shù)據(jù)分析中被動(dòng)態(tài)測(cè)試。

七、從 “模型” 到 “智能體”：閉環(huán)科研工作流

圖 15：從數(shù)據(jù)基礎(chǔ)設(shè)施到智能體輔助的科學(xué)發(fā)現(xiàn)：科學(xué) AI 的三階段演進(jìn)。

綜述最后展望了 Sci-LLMs 的下一代形態(tài) —— 科學(xué)智能體（Scientific Agent）。不同于被動(dòng)回答問(wèn)題的模型，科學(xué)智能體是能夠被賦予高級(jí)目標(biāo)（如 “為某疾病尋找候選藥物”）后，自主進(jìn)行任務(wù)分解、規(guī)劃、工具調(diào)用、虛擬實(shí)驗(yàn)和結(jié)果分析的自治系統(tǒng)。

綜述指出，實(shí)現(xiàn)這一目標(biāo)的核心在于構(gòu)建一個(gè)閉環(huán)的 “智能體 - 數(shù)據(jù)” 生態(tài)系統(tǒng)。在這個(gè)系統(tǒng)中，智能體通過(guò)與外部工具（數(shù)據(jù)庫(kù)、模擬器、甚至自動(dòng)化實(shí)驗(yàn)室）交互來(lái)主動(dòng)獲取和生成新的實(shí)驗(yàn)數(shù)據(jù)；這些 “AI-ready” 的數(shù)據(jù)再反哺數(shù)據(jù)生態(tài)，用于迭代和優(yōu)化智能體自身，形成一個(gè)能夠自我進(jìn)化的良性循環(huán)。綜述詳細(xì)探討了實(shí)現(xiàn)這一閉環(huán)所需的關(guān)鍵技術(shù)，包括多智能體協(xié)作、工具使用和自進(jìn)化機(jī)制。

八、總結(jié)

這篇綜述為我們描繪了一幅壯闊的科學(xué) AI 演進(jìn)藍(lán)圖，其核心貢獻(xiàn)在于：

建立了統(tǒng)一的科學(xué)大模型數(shù)據(jù)理論框架，為分析科學(xué)數(shù)據(jù)和知識(shí)的復(fù)雜性提供了全新視角。
提供了最全面的數(shù)據(jù)、模型和測(cè)評(píng)體系分析全景圖，
系統(tǒng)性梳理了超過(guò) 600 個(gè)數(shù)據(jù)集與模型，揭示了各學(xué)科的現(xiàn)狀與挑戰(zhàn)。
指出了數(shù)據(jù)生態(tài)的結(jié)構(gòu)性瓶頸，并為構(gòu)建高質(zhì)量、可信的 AI-ready 科學(xué)數(shù)據(jù)提出了前瞻性議程。描繪了邁向自主科學(xué)發(fā)現(xiàn)的路線圖，倡導(dǎo)構(gòu)建智能體與數(shù)據(jù)生態(tài)之間的閉環(huán)反饋系統(tǒng)。

正如文中所指出的，Sci-LLMs 正從單純的 “知識(shí)模型” 向 “推理引擎” 和 “科研伙伴” 演進(jìn)，解決好其在數(shù)據(jù)基礎(chǔ)和智能體層面的核心挑戰(zhàn)，將是未來(lái)研究的重中之重。

來(lái)源：公眾號(hào)【ScienceAI】

llustration From IconScout By IconScout Store

-The End-

本周上新！

掃碼觀看！

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)（www.techbeat.net）。社區(qū)上線700+期talk視頻，3000+篇技術(shù)干貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會(huì)及其他線上交流活動(dòng)，不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛的高質(zhì)量、知識(shí)型交流平臺(tái)，希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn)，加速并陪伴其成長(zhǎng)。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //

// 前沿資訊解說(shuō)/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章，并標(biāo)明作者信息。

我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向，對(duì)用戶啟發(fā)更大的文章，做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信（michelle333_）投稿，溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機(jī)構(gòu)，也是北京市標(biāo)桿型孵化器。公司致力于通過(guò)連接技術(shù)與商業(yè)，發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè)，推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。

將門成立于2015年底，創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成，曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè)，不僅想獲得投資，還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù)，歡迎發(fā)送或者推薦項(xiàng)目給我“門”:

bp@thejiangmen.com

點(diǎn)擊右上角，把文章分享到朋友圈

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.