Science：大語言模型如何重塑科學(xué)產(chǎn)出

2026-02-08 11:34:33　來源: 集智俱樂部

北京舉報

分享至

導(dǎo)語

盡管生成式人工智能（Gen AI）在各學(xué)科中快速被接受的興奮（和擔(dān)憂）日益增長，但實證證據(jù)仍然零散，對大型語言模型（LLMs）在科學(xué)領(lǐng)域影響的系統(tǒng)理解仍然有限。

美國康奈爾大學(xué)的殷裔安教授及其團隊于2025年12月18日發(fā)表在Science的論文分析了三大主要預(yù)印本庫的大規(guī)模數(shù)據(jù)，表明使用大型語言模型加速了手稿產(chǎn)出，減少了非英語母語者的障礙，并豐富了既有文獻的發(fā)現(xiàn)。然而，傳統(tǒng)的科學(xué)質(zhì)量信號，如語言復(fù)雜性，正逐漸成為不可靠的價值指標(biāo)，正如我們正經(jīng)歷科學(xué)工作數(shù)量的上升。隨著人工智能系統(tǒng)的進步，它們將挑戰(zhàn)我們對研究質(zhì)量、學(xué)術(shù)交流以及知識勞動本質(zhì)的基本假設(shè)。科學(xué)政策制定者必須考慮如何發(fā)展我們的科學(xué)機構(gòu)，以適應(yīng)快速變化的科學(xué)生產(chǎn)過程。

關(guān)鍵詞：大語言模型（LLM），科學(xué)學(xué)，學(xué)術(shù)寫作，語言公平

任筱芃丨作者

殷裔安、趙思怡丨審校

論文題目：Scientific production in the era of large language models: With the production process rapidly evolving, science policy must consider how institutions could evolve 論文鏈接：https://doi.org/10.1126/science.adw3000 發(fā)表時間：2025年12月18日論文來源：Science

研究背景與問題

科學(xué)生產(chǎn)的歷史性轉(zhuǎn)折

科學(xué)研究始終與技術(shù)革新緊密相連。從顯微鏡的發(fā)明到超級計算機的出現(xiàn)，技術(shù)進步不斷推動著研究前沿的拓展。近年來，大語言模型在蛋白質(zhì)結(jié)構(gòu)預(yù)測、材料發(fā)現(xiàn)等領(lǐng)域的成功應(yīng)用，展示了AI在特定科學(xué)任務(wù)中的巨大價值。但這些成功案例大多可以被歸類為碎片化的證據(jù)，其對科學(xué)整體生產(chǎn)流程的宏觀影響（macro-level impact）仍待解答。

康奈爾大學(xué)殷裔安團隊收集了三個主要預(yù)印本數(shù)據(jù)庫的數(shù)據(jù)，涵蓋2018年至2024年的210多萬篇論文：arXiv（數(shù)學(xué)、物理、計算機科學(xué)等領(lǐng)域）、bioRxiv（生命科學(xué)）和SSRN（社會科學(xué)、法律、人文）。選擇預(yù)印本有兩個好處：其一，發(fā)布時間更接近研究完成時點，更適合做論文被采用前后的動態(tài)比較；其二，覆蓋面廣，能觀察到不同學(xué)科的共同趨勢，而不被單一領(lǐng)域的短期熱點帶偏。這些大型數(shù)據(jù)集為理解LLMs對科學(xué)研究的宏觀影響提供了實證基礎(chǔ)。

核心研究問題

研究聚焦于四個關(guān)鍵問題：

生產(chǎn)力效應(yīng)：LLM使用是否讓研究者單位時間內(nèi)產(chǎn)出更多論文？
語言公平性：這種效率提升是否跨越了語言背景的界限？
質(zhì)量評估挑戰(zhàn)：當(dāng)寫作能力被技術(shù)標(biāo)準(zhǔn)化后，傳統(tǒng)評價指標(biāo)是否還能有效識別研究質(zhì)量？
對已有知識的使用：LLM使用是否改變研究者對已有文獻的閱讀和引用行為?

該研究團隊訓(xùn)練了一個基于文本特征的AI檢測算法，通過比較2023年ChatGPT發(fā)布前后的摘要詞匯分布變化，識別出可能使用LLM輔助的論文。這種方法雖不完美，但在現(xiàn)有技術(shù)條件下提供了最可行的實證路徑。

主要研究發(fā)現(xiàn)

生產(chǎn)力躍升

在嚴(yán)格控制了AI領(lǐng)域自身研究熱潮帶來的干擾后，研究團隊發(fā)現(xiàn)，LLM采用者的論文產(chǎn)出增長在不同學(xué)科呈現(xiàn)出普遍性：arXiv增長36.2%，bioRxiv達52.9%，SSRN更是高達59.8%。更關(guān)鍵的是，盡管不同的 LLM 識別方法及統(tǒng)計模型值會影響估計系數(shù)的大小，敏感性分析顯示生產(chǎn)力效應(yīng)在不同的模型下都保持穩(wěn)健。

圖1：以作者首次被檢測為 LLM-assisted所在月份為 0（豎虛線），橫軸為相對月份，縱軸為采用者相對未采用者的產(chǎn)出變化（%）；點為估計值，豎線代表 95% 置信區(qū)間。圖中可見采用后產(chǎn)出在多個后續(xù)月份保持在更高水平。

LLM最早、最直接的影響往往發(fā)生在程序性的部分——摘要、引言、相關(guān)工作、措辭潤色、結(jié)構(gòu)整理、語法糾錯等。這些操作都屬于高頻、耗時、卻相對可被語言模型接管的工作。但需要注意的是，這是一種采用LLM與產(chǎn)出上升的強相關(guān)，并不等同于嚴(yán)格意義的因果關(guān)系。

更重要的發(fā)現(xiàn)是，在寫作層面，LLM 有潛力降低語言門檻，并且這種收益并不平均。例如，在SSRN中，亞洲姓名研究者+亞洲機構(gòu)生產(chǎn)力增幅達到了88.9%，遠超英語國家研究者的46.2%。長期以來，非英語母語學(xué)者承受著雙重負(fù)擔(dān)——既要做出一流研究，又要用外語精準(zhǔn)表達學(xué)術(shù)思想的微妙之處。這意味著，LLMs正在一定程度上緩解非英語母語研究者在學(xué)術(shù)寫作中的劣勢。

質(zhì)量信號失靈

然而，研究團隊發(fā)現(xiàn)了一個更為復(fù)雜的現(xiàn)象。在LLM輔助的論文中，寫作復(fù)雜度與發(fā)表概率之間出現(xiàn)了傳統(tǒng)預(yù)期的逆轉(zhuǎn)。

圖2：橫軸為寫作復(fù)雜度，縱軸為稿件最終發(fā)表（同行評審期刊/會議）的概率；橙線為 LLM-assisted樣本，藍線為 non–LLM-assisted樣本，陰影為 95% 置信區(qū)間。非 LLM 文本里復(fù)雜度越高，發(fā)表概率越高；但在 LLM 輔助文本里，復(fù)雜度越高對應(yīng)更低的發(fā)表概率。

研究團隊基于Flesch Reading Ease來衡量論文語言學(xué)上的復(fù)雜度。這個復(fù)雜性指標(biāo)綜合了平均句長與每詞音節(jié)數(shù)進行量化。分?jǐn)?shù)越高，代表文本越復(fù)雜、越難讀。對于 2023 年之后發(fā)布的預(yù)印本，研究團隊考察其是否在 2024 年 6 月之前發(fā)表于同行評議的期刊或會議，并以此作為論文科學(xué)質(zhì)量的近似衡量。這一指標(biāo)當(dāng)然并非完美的質(zhì)量定義，但它提供了一個跨學(xué)科可比、且與學(xué)術(shù)體系獎勵機制高度相關(guān)的結(jié)果變量。

研究團隊發(fā)現(xiàn)，傳統(tǒng)的人類撰寫的論文遵循"語言越復(fù)雜精致，越容易被接收"的預(yù)期。這符合學(xué)術(shù)界的直覺，長難句反映深厚功力、精準(zhǔn)定義或傳遞復(fù)雜性的能力。但在LLM輔助論文中，這條法則被顛覆：那些語言結(jié)構(gòu)最復(fù)雜、詞匯最艱深的稿件，反而更可能被拒稿。研究團隊還用多種替代指標(biāo)復(fù)現(xiàn)這一點：詞匯復(fù)雜度、形態(tài)復(fù)雜度（如分詞從句比例），以及“促銷性語言”（例如過度使用“前所未有”“顛覆性”這類營銷式表述）等，都顯示出 LLM 文本與人類寫作在統(tǒng)計特征上的顯著差異。

這一發(fā)現(xiàn)在所有三個數(shù)據(jù)庫中都得到了驗證。為了進一步檢驗這一現(xiàn)象是否與不同期刊和會議的過審機制有關(guān)，研究團隊引入 ICLR-2024 會議數(shù)據(jù)，涵蓋7243 篇投稿、約 2.8 萬份評審報告。用評審分?jǐn)?shù)作為科學(xué)質(zhì)量的結(jié)果變量后，研究團隊發(fā)現(xiàn)相關(guān)性仍然成立，即在 LLM 輔助文本中語言復(fù)雜度不再是正向信號。這也許在指代當(dāng)AI能夠輕松生成復(fù)雜、專業(yè)的學(xué)術(shù)語言時，語言復(fù)雜度作為研究質(zhì)量信號的價值正在消失。

研究團隊據(jù)此提出一個更一般的機制解釋：寫作復(fù)雜度過去之所以能當(dāng)作質(zhì)量信號，是因為它與作者投入的時間、語言訓(xùn)練與學(xué)術(shù)社會化高度相關(guān)；而 LLM 降低了生成復(fù)雜語言的成本，于是在語句上的與學(xué)術(shù)上的投入解耦。由此帶來的次級風(fēng)險是更容易出現(xiàn)“看起來很像優(yōu)秀論文”的文本，擁塞學(xué)術(shù)交流通道，增加評審負(fù)擔(dān)，并削弱傳統(tǒng)篩選機制。

知識流動的新圖景

生產(chǎn)力與評審只是科研流程的一部分。更隱蔽、但更長期的影響，可以從文獻與引用結(jié)構(gòu)的變化觀測。研究團隊從搜索行為的社會實驗，以及采用前后的引用行為對比兩個角度觀察"AI會強化經(jīng)典文獻馬太效應(yīng)"的擔(dān)憂是否為真。

2023年2月，Bing 推出集成 GPT-4 的對話式搜索。作者利用一個大規(guī)模的行為數(shù)據(jù)集：2.46 億次 arXiv 論文瀏覽/下載記錄，并區(qū)分訪問來源（Bing、Google）。

圖3：以 Bing Chat 發(fā)布當(dāng)周為 0 周（豎虛線），點表示“Bing 引流用戶 vs Google 引流用戶”的差異估計，豎線為 95% 置信區(qū)間。上圖顯示上線后 Bing 用戶訪問書籍的比例顯著上升；下圖顯示上線后 Bing 用戶訪問到的文獻中位年齡下降（平均約新 2.1 個月）。

在DID框架下，研究團隊比較 Bing 引流用戶在上線前后的變化，并以 Google 引流用戶作為對照。結(jié)果顯示，Bing 用戶在 GPT-4（ChatGPT-4顯然也是一個大語言模型）集成后訪問書籍的比例提高26.3%、訪問文獻的中位已發(fā)表時間下降0.18 年且并未更偏向高被引經(jīng)典而是更多接觸到已有的引用較少的工作。

如果把搜索引擎理解為一個注意力窗口，那么這組結(jié)果意味著 LLM 可能在一定程度上降低了發(fā)現(xiàn)長文本和冷門新文獻的門檻。它不只是把用戶帶向最熱門、最匹配的結(jié)構(gòu)，而可能擴展了可見的知識邊界。

研究團隊進一步把三大預(yù)印本庫連接到 OpenAlex 與 Semantic Scholar，得到 1.016 億條引用關(guān)系，并用事件研究比較作者采用前后的引用模式變化，發(fā)現(xiàn)了與上述結(jié)果高度一致的變化：科學(xué)家在使用LLM后：

更可能引用書籍（總體上 +11.9%，但在 SSRN 不顯著）；
所引文獻平均更“年輕”（平均已發(fā)表時間減少 0.379 年）；
所引文獻的引用影響更低（平均對數(shù)被引下降 2.34%）。

把兩部分放在一起看，采用LLM 可能把注意力引向一個更多樣化的知識基礎(chǔ)，而不是一味強化既有正典（scientific canons）。研究團隊的解釋是LLM 既可能通過寫作輔助降低整合文獻的成本，也可能通過對話式搜索改變信息獲取路徑，從而讓研究者更容易進入新的、分散的、非經(jīng)典的文本空間。

審稿人怎么辦

如果復(fù)雜、工整的語言不再可靠，那審稿人到底要看什么？在信息過載的現(xiàn)實里，最容易發(fā)生的并不是大家突然變得更嚴(yán)謹(jǐn)，而是大家用更省力的但是新型的啟發(fā)式做判斷。例如作者出身、機構(gòu)名頭、學(xué)術(shù)血統(tǒng)重新變成質(zhì)量的，或者說用地位標(biāo)記來替代語言的，標(biāo)記。這會讓 LLM 帶來的語言平權(quán)顯得有點像遞弱代償。舊的門檻被抬走了一部分，新的門檻卻可能在別的地方又豎起來。

作者給出的回應(yīng)是，既然語言模型讓表面信號失靈，一種可能的方案是將LLM技術(shù)拉進評審流程——引入“審稿代理”（reviewer agent），去提示方法不一致、核驗關(guān)鍵聲明、甚至輔助判斷新穎性，嘗試把注意力重新拉回研究的實質(zhì)。這種可規(guī)?；脑u審輔助，究竟會讓同行評審更重實證，還是會引入新的偏差與意料之外的副作用——這本身就是 LLM 時代的一項關(guān)鍵不確定性。

該研究的局限性

研究團隊坦誠了AI檢測方法面臨的挑戰(zhàn)。他們使用的基于文本的AI檢測算法雖然能夠識別LLM輔助寫作的統(tǒng)計特征，但存在以下局限：

僅基于摘要：檢測僅限于論文摘要，無法擴展到全文
無法定位具體作者：無法確定團隊中哪位具體作者使用了LLM
可能漏檢：可能無法檢測到對LLM輸出進行大量修改的使用情況
技術(shù)演進過快：當(dāng)新模型具備更強的推理、“深度研究”等能力后，影響可能擴大或嬗變
因果解釋需要強假設(shè)：社會交互中采用 LLM 與產(chǎn)出、引用、語言信號之間一系列一致的變化難以控制變量
選擇偏差：“首次被檢測為采用”的時間點，可能與生產(chǎn)力變化本身糾纏在一起

這些局限性提醒我們，在快速發(fā)展的AI時代，保持科學(xué)的批判性思維和方法學(xué)嚴(yán)謹(jǐn)性比以往任何時候都更重要。

論文作者：

AI+Science 讀書會

AI+Science 是近年興起的將人工智能和科學(xué)相結(jié)合的一種趨勢。一方面是 AI for Science，機器學(xué)習(xí)和其他 AI 技術(shù)可以用來解決科學(xué)研究中的問題，從預(yù)測天氣和蛋白質(zhì)結(jié)構(gòu)，到模擬星系碰撞、設(shè)計優(yōu)化核聚變反應(yīng)堆，甚至像科學(xué)家一樣進行科學(xué)發(fā)現(xiàn)，被稱為科學(xué)發(fā)現(xiàn)的“第五范式”。另一方面是 Science for AI，科學(xué)尤其是物理學(xué)中的規(guī)律和思想啟發(fā)機器學(xué)習(xí)理論，為人工智能的發(fā)展提供全新的視角和方法。

集智俱樂部聯(lián)合斯坦福大學(xué)計算機科學(xué)系博士后研究員吳泰霖（Jure Leskovec 教授指導(dǎo)）、哈佛量子計劃研究員扈鴻業(yè)、麻省理工學(xué)院物理系博士生劉子鳴（Max Tegmark 教授指導(dǎo)），共同發(fā)起以”為主題的讀書會，探討該領(lǐng)域的重要問題，共學(xué)共研相關(guān)文獻。讀書會已完結(jié)，現(xiàn)在報名可加入社群并解鎖回放視頻權(quán)限。

詳情請見：

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.