国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Science:大語言模型如何重塑科學(xué)產(chǎn)出

0
分享至


導(dǎo)語

盡管生成式人工智能(Gen AI)在各學(xué)科中快速被接受的興奮(和擔(dān)憂)日益增長,但實證證據(jù)仍然零散,對大型語言模型(LLMs)在科學(xué)領(lǐng)域影響的系統(tǒng)理解仍然有限。

美國康奈爾大學(xué)的殷裔安教授及其團隊于2025年12月18日發(fā)表在Science的論文分析了三大主要預(yù)印本庫的大規(guī)模數(shù)據(jù),表明使用大型語言模型加速了手稿產(chǎn)出,減少了非英語母語者的障礙,并豐富了既有文獻的發(fā)現(xiàn)。然而,傳統(tǒng)的科學(xué)質(zhì)量信號,如語言復(fù)雜性,正逐漸成為不可靠的價值指標(biāo),正如我們正經(jīng)歷科學(xué)工作數(shù)量的上升。隨著人工智能系統(tǒng)的進步,它們將挑戰(zhàn)我們對研究質(zhì)量、學(xué)術(shù)交流以及知識勞動本質(zhì)的基本假設(shè)。科學(xué)政策制定者必須考慮如何發(fā)展我們的科學(xué)機構(gòu),以適應(yīng)快速變化的科學(xué)生產(chǎn)過程。

關(guān)鍵詞:大語言模型(LLM),科學(xué)學(xué),學(xué)術(shù)寫作,語言公平

任筱芃丨作者

殷裔安、趙思怡丨審校


論文題目:Scientific production in the era of large language models: With the production process rapidly evolving, science policy must consider how institutions could evolve 論文鏈接:https://doi.org/10.1126/science.adw3000 發(fā)表時間:2025年12月18日 論文來源:Science

研究背景與問題

科學(xué)生產(chǎn)的歷史性轉(zhuǎn)折

科學(xué)研究始終與技術(shù)革新緊密相連。從顯微鏡的發(fā)明到超級計算機的出現(xiàn),技術(shù)進步不斷推動著研究前沿的拓展。近年來,大語言模型在蛋白質(zhì)結(jié)構(gòu)預(yù)測、材料發(fā)現(xiàn)等領(lǐng)域的成功應(yīng)用,展示了AI在特定科學(xué)任務(wù)中的巨大價值。但這些成功案例大多可以被歸類為碎片化的證據(jù),其對科學(xué)整體生產(chǎn)流程的宏觀影響(macro-level impact)仍待解答。

康奈爾大學(xué)殷裔安團隊收集了三個主要預(yù)印本數(shù)據(jù)庫的數(shù)據(jù),涵蓋2018年至2024年的210多萬篇論文:arXiv(數(shù)學(xué)、物理、計算機科學(xué)等領(lǐng)域)、bioRxiv(生命科學(xué))和SSRN(社會科學(xué)、法律、人文)。選擇預(yù)印本有兩個好處:其一,發(fā)布時間更接近研究完成時點,更適合做論文被采用前后的動態(tài)比較;其二,覆蓋面廣,能觀察到不同學(xué)科的共同趨勢,而不被單一領(lǐng)域的短期熱點帶偏。這些大型數(shù)據(jù)集為理解LLMs對科學(xué)研究的宏觀影響提供了實證基礎(chǔ)。

核心研究問題

研究聚焦于四個關(guān)鍵問題:

  1. 生產(chǎn)力效應(yīng):LLM使用是否讓研究者單位時間內(nèi)產(chǎn)出更多論文?

  2. 語言公平性:這種效率提升是否跨越了語言背景的界限?

  3. 質(zhì)量評估挑戰(zhàn):當(dāng)寫作能力被技術(shù)標(biāo)準(zhǔn)化后,傳統(tǒng)評價指標(biāo)是否還能有效識別研究質(zhì)量?

  4. 對已有知識的使用:LLM使用是否改變研究者對已有文獻的閱讀和引用行為?

該研究團隊訓(xùn)練了一個基于文本特征的AI檢測算法,通過比較2023年ChatGPT發(fā)布前后的摘要詞匯分布變化,識別出可能使用LLM輔助的論文。這種方法雖不完美,但在現(xiàn)有技術(shù)條件下提供了最可行的實證路徑。

主要研究發(fā)現(xiàn)

生產(chǎn)力躍升

在嚴(yán)格控制了AI領(lǐng)域自身研究熱潮帶來的干擾后,研究團隊發(fā)現(xiàn),LLM采用者的論文產(chǎn)出增長在不同學(xué)科呈現(xiàn)出普遍性:arXiv增長36.2%,bioRxiv達52.9%,SSRN更是高達59.8%。更關(guān)鍵的是,盡管不同的 LLM 識別方法及統(tǒng)計模型值會影響估計系數(shù)的大小,敏感性分析顯示生產(chǎn)力效應(yīng)在不同的模型下都保持穩(wěn)健。


圖1:以作者首次被檢測為 LLM-assisted所在月份為 0(豎虛線),橫軸為相對月份,縱軸為采用者相對未采用者的產(chǎn)出變化(%);點為估計值,豎線代表 95% 置信區(qū)間。圖中可見采用后產(chǎn)出在多個后續(xù)月份保持在更高水平。

LLM最早、最直接的影響往往發(fā)生在程序性的部分——摘要、引言、相關(guān)工作、措辭潤色、結(jié)構(gòu)整理、語法糾錯等。這些操作都屬于高頻、耗時、卻相對可被語言模型接管的工作。但需要注意的是,這是一種采用LLM與產(chǎn)出上升的強相關(guān),并不等同于嚴(yán)格意義的因果關(guān)系。

更重要的發(fā)現(xiàn)是,在寫作層面,LLM 有潛力降低語言門檻,并且這種收益并不平均。例如,在SSRN中,亞洲姓名研究者+亞洲機構(gòu)生產(chǎn)力增幅達到了88.9%,遠超英語國家研究者的46.2%。長期以來,非英語母語學(xué)者承受著雙重負(fù)擔(dān)——既要做出一流研究,又要用外語精準(zhǔn)表達學(xué)術(shù)思想的微妙之處。這意味著,LLMs正在一定程度上緩解非英語母語研究者在學(xué)術(shù)寫作中的劣勢

質(zhì)量信號失靈

然而,研究團隊發(fā)現(xiàn)了一個更為復(fù)雜的現(xiàn)象。在LLM輔助的論文中,寫作復(fù)雜度與發(fā)表概率之間出現(xiàn)了傳統(tǒng)預(yù)期的逆轉(zhuǎn)。


圖2:橫軸為寫作復(fù)雜度,縱軸為稿件最終發(fā)表(同行評審期刊/會議)的概率;橙線為 LLM-assisted樣本,藍線為 non–LLM-assisted樣本,陰影為 95% 置信區(qū)間。非 LLM 文本里復(fù)雜度越高,發(fā)表概率越高;但在 LLM 輔助文本里,復(fù)雜度越高對應(yīng)更低的發(fā)表概率。

研究團隊基于Flesch Reading Ease來衡量論文語言學(xué)上的復(fù)雜度。這個復(fù)雜性指標(biāo)綜合了平均句長與每詞音節(jié)數(shù)進行量化。分?jǐn)?shù)越高,代表文本越復(fù)雜、越難讀。對于 2023 年之后發(fā)布的預(yù)印本,研究團隊考察其是否在 2024 年 6 月之前發(fā)表于同行評議的期刊或會議,并以此作為論文科學(xué)質(zhì)量的近似衡量。這一指標(biāo)當(dāng)然并非完美的質(zhì)量定義,但它提供了一個跨學(xué)科可比、且與學(xué)術(shù)體系獎勵機制高度相關(guān)的結(jié)果變量。

研究團隊發(fā)現(xiàn),傳統(tǒng)的人類撰寫的論文遵循"語言越復(fù)雜精致,越容易被接收"的預(yù)期。這符合學(xué)術(shù)界的直覺,長難句反映深厚功力、精準(zhǔn)定義或傳遞復(fù)雜性的能力。但在LLM輔助論文中,這條法則被顛覆:那些語言結(jié)構(gòu)最復(fù)雜、詞匯最艱深的稿件,反而更可能被拒稿。研究團隊還用多種替代指標(biāo)復(fù)現(xiàn)這一點:詞匯復(fù)雜度、形態(tài)復(fù)雜度(如分詞從句比例),以及“促銷性語言”(例如過度使用“前所未有”“顛覆性”這類營銷式表述)等,都顯示出 LLM 文本與人類寫作在統(tǒng)計特征上的顯著差異。

這一發(fā)現(xiàn)在所有三個數(shù)據(jù)庫中都得到了驗證。為了進一步檢驗這一現(xiàn)象是否與不同期刊和會議的過審機制有關(guān),研究團隊引入 ICLR-2024 會議數(shù)據(jù),涵蓋7243 篇投稿、約 2.8 萬份評審報告。用評審分?jǐn)?shù)作為科學(xué)質(zhì)量的結(jié)果變量后,研究團隊發(fā)現(xiàn)相關(guān)性仍然成立,即在 LLM 輔助文本中語言復(fù)雜度不再是正向信號。這也許在指代當(dāng)AI能夠輕松生成復(fù)雜、專業(yè)的學(xué)術(shù)語言時,語言復(fù)雜度作為研究質(zhì)量信號的價值正在消失。

研究團隊據(jù)此提出一個更一般的機制解釋:寫作復(fù)雜度過去之所以能當(dāng)作質(zhì)量信號,是因為它與作者投入的時間、語言訓(xùn)練與學(xué)術(shù)社會化高度相關(guān);而 LLM 降低了生成復(fù)雜語言的成本,于是在語句上的與學(xué)術(shù)上的投入解耦。由此帶來的次級風(fēng)險是更容易出現(xiàn)“看起來很像優(yōu)秀論文”的文本,擁塞學(xué)術(shù)交流通道,增加評審負(fù)擔(dān),并削弱傳統(tǒng)篩選機制。

知識流動的新圖景

生產(chǎn)力與評審只是科研流程的一部分。更隱蔽、但更長期的影響,可以從文獻與引用結(jié)構(gòu)的變化觀測。研究團隊從搜索行為的社會實驗,以及采用前后的引用行為對比兩個角度觀察"AI會強化經(jīng)典文獻馬太效應(yīng)"的擔(dān)憂是否為真。

2023年2月,Bing 推出集成 GPT-4 的對話式搜索。作者利用一個大規(guī)模的行為數(shù)據(jù)集:2.46 億次 arXiv 論文瀏覽/下載記錄,并區(qū)分訪問來源(Bing、Google)。


圖3:以 Bing Chat 發(fā)布當(dāng)周為 0 周(豎虛線),點表示“Bing 引流用戶 vs Google 引流用戶”的差異估計,豎線為 95% 置信區(qū)間。上圖顯示上線后 Bing 用戶訪問書籍的比例顯著上升;下圖顯示上線后 Bing 用戶訪問到的文獻中位年齡下降(平均約新 2.1 個月)。

在DID框架下,研究團隊比較 Bing 引流用戶在上線前后的變化,并以 Google 引流用戶作為對照。結(jié)果顯示,Bing 用戶在 GPT-4(ChatGPT-4顯然也是一個大語言模型)集成后訪問書籍的比例提高26.3%、訪問文獻的中位已發(fā)表時間下降0.18 年且并未更偏向高被引經(jīng)典而是更多接觸到已有的引用較少的工作。

如果把搜索引擎理解為一個注意力窗口,那么這組結(jié)果意味著 LLM 可能在一定程度上降低了發(fā)現(xiàn)長文本和冷門新文獻的門檻。它不只是把用戶帶向最熱門、最匹配的結(jié)構(gòu),而可能擴展了可見的知識邊界。

研究團隊進一步把三大預(yù)印本庫連接到 OpenAlex 與 Semantic Scholar,得到 1.016 億條引用關(guān)系,并用事件研究比較作者采用前后的引用模式變化,發(fā)現(xiàn)了與上述結(jié)果高度一致的變化:科學(xué)家在使用LLM后:

  • 更可能引用書籍(總體上 +11.9%,但在 SSRN 不顯著);

  • 所引文獻平均更“年輕”(平均已發(fā)表時間減少 0.379 年);

  • 所引文獻的引用影響更低(平均對數(shù)被引下降 2.34%)。

把兩部分放在一起看,采用LLM 可能把注意力引向一個更多樣化的知識基礎(chǔ),而不是一味強化既有正典(scientific canons)。研究團隊的解釋是LLM 既可能通過寫作輔助降低整合文獻的成本,也可能通過對話式搜索改變信息獲取路徑,從而讓研究者更容易進入新的、分散的、非經(jīng)典的文本空間。

審稿人怎么辦

如果復(fù)雜、工整的語言不再可靠,那審稿人到底要看什么?在信息過載的現(xiàn)實里,最容易發(fā)生的并不是大家突然變得更嚴(yán)謹(jǐn),而是大家用更省力的但是新型的啟發(fā)式做判斷。例如作者出身、機構(gòu)名頭、學(xué)術(shù)血統(tǒng)重新變成質(zhì)量的,或者說用地位標(biāo)記來替代語言的,標(biāo)記。這會讓 LLM 帶來的語言平權(quán)顯得有點像遞弱代償。舊的門檻被抬走了一部分,新的門檻卻可能在別的地方又豎起來。

作者給出的回應(yīng)是,既然語言模型讓表面信號失靈,一種可能的方案是將LLM技術(shù)拉進評審流程——引入“審稿代理”(reviewer agent),去提示方法不一致、核驗關(guān)鍵聲明、甚至輔助判斷新穎性,嘗試把注意力重新拉回研究的實質(zhì)。這種可規(guī)?;脑u審輔助,究竟會讓同行評審更重實證,還是會引入新的偏差與意料之外的副作用——這本身就是 LLM 時代的一項關(guān)鍵不確定性。

該研究的局限性

研究團隊坦誠了AI檢測方法面臨的挑戰(zhàn)。他們使用的基于文本的AI檢測算法雖然能夠識別LLM輔助寫作的統(tǒng)計特征,但存在以下局限:

  1. 僅基于摘要:檢測僅限于論文摘要,無法擴展到全文

  2. 無法定位具體作者:無法確定團隊中哪位具體作者使用了LLM

  3. 可能漏檢:可能無法檢測到對LLM輸出進行大量修改的使用情況

  4. 技術(shù)演進過快:當(dāng)新模型具備更強的推理、“深度研究”等能力后,影響可能擴大或嬗變

  5. 因果解釋需要強假設(shè):社會交互中采用 LLM 與產(chǎn)出、引用、語言信號之間一系列一致的變化難以控制變量

  6. 選擇偏差:“首次被檢測為采用”的時間點,可能與生產(chǎn)力變化本身糾纏在一起

這些局限性提醒我們,在快速發(fā)展的AI時代,保持科學(xué)的批判性思維和方法學(xué)嚴(yán)謹(jǐn)性比以往任何時候都更重要。

論文作者:

AI+Science 讀書會

AI+Science 是近年興起的將人工智能和科學(xué)相結(jié)合的一種趨勢。 一方面是 AI for Science,機器學(xué)習(xí)和其他 AI 技術(shù)可以用來解決科學(xué)研究中的問題,從預(yù)測天氣和蛋白質(zhì)結(jié)構(gòu),到模擬星系碰撞、設(shè)計優(yōu)化核聚變反應(yīng)堆,甚至像科學(xué)家一樣進行科學(xué)發(fā)現(xiàn),被稱為科學(xué)發(fā)現(xiàn)的“第五范式”。 另一方面是 Science for AI,科學(xué)尤其是物理學(xué)中的規(guī)律和思想啟發(fā)機器學(xué)習(xí)理論,為人工智能的發(fā)展提供全新的視角和方法。

集智俱樂部聯(lián)合斯坦福大學(xué)計算機科學(xué)系博士后研究員吳泰霖(Jure Leskovec 教授指導(dǎo))、哈佛量子計劃研究員扈鴻業(yè)、麻省理工學(xué)院物理系博士生劉子鳴(Max Tegmark 教授指導(dǎo)),共同發(fā)起以”為主題的讀書會,探討該領(lǐng)域的重要問題,共學(xué)共研相關(guān)文獻。 讀書會已完結(jié),現(xiàn)在報名可加入社群并解鎖回放視頻權(quán)限。

詳情請見:

1.

2.

3.

4.

5.

6.

7.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
救市!上海樓市,亮劍了

救市!上海樓市,亮劍了

城市財經(jīng)
2026-02-25 15:37:37
逛公園要先付69元拍照費?深圳一免費公園現(xiàn)收費“園中園”引質(zhì)疑

逛公園要先付69元拍照費?深圳一免費公園現(xiàn)收費“園中園”引質(zhì)疑

深圳晚報
2026-02-25 12:16:54
央視直播中日男籃對決,籃協(xié)主席:世預(yù)賽已到最危險時刻!

央視直播中日男籃對決,籃協(xié)主席:世預(yù)賽已到最危險時刻!

籃球看比賽
2026-02-25 19:43:24
恒大到底如何虧出八千億的?終于搞懂了!許家印不跑是有原因的!

恒大到底如何虧出八千億的?終于搞懂了!許家印不跑是有原因的!

歷史偉人錄
2026-02-25 18:17:16
都開始明搶了…

都開始明搶了…

子說一點
2026-02-24 19:25:02
演都不演了!馬筱梅產(chǎn)子不足24小時,惡心事接連發(fā)生,還不止一件

演都不演了!馬筱梅產(chǎn)子不足24小時,惡心事接連發(fā)生,還不止一件

離離言幾許
2026-02-25 10:38:59
比亞迪連續(xù)40個月銷冠被終結(jié)

比亞迪連續(xù)40個月銷冠被終結(jié)

大象新聞
2026-02-24 09:44:05
李連杰曬影迷耗時100小時自制海報:謝謝這位有才的朋友;此前,該作者用成龍70部電影中的人物形象制作了海報,獲大哥當(dāng)面感謝

李連杰曬影迷耗時100小時自制海報:謝謝這位有才的朋友;此前,該作者用成龍70部電影中的人物形象制作了海報,獲大哥當(dāng)面感謝

極目新聞
2026-02-24 18:36:26
提醒大家:這5樣?xùn)|西“別放冰箱”,越放越壞!等于在“養(yǎng)菌”

提醒大家:這5樣?xùn)|西“別放冰箱”,越放越壞!等于在“養(yǎng)菌”

輝哥說動漫
2026-02-25 13:08:10
60歲郭富城給58歲岳父拜年,網(wǎng)友看完照片:這輩分是不是亂了?

60歲郭富城給58歲岳父拜年,網(wǎng)友看完照片:這輩分是不是亂了?

玥來玥好講故事
2026-02-21 16:18:11
馬筱梅前夫鄭揚融底細曝光!家境優(yōu)渥卻留不住她,原因太現(xiàn)實!

馬筱梅前夫鄭揚融底細曝光!家境優(yōu)渥卻留不住她,原因太現(xiàn)實!

科學(xué)發(fā)掘
2026-02-25 15:01:45
場均30分7板2斷,5000萬年薪或歸零!難怪你這么拼,確實快離隊了

場均30分7板2斷,5000萬年薪或歸零!難怪你這么拼,確實快離隊了

老梁體育漫談
2026-02-24 23:16:48
已婚也逃不過!在愛潑斯坦的安排下,比爾蓋茨和安妮·海瑟薇會面

已婚也逃不過!在愛潑斯坦的安排下,比爾蓋茨和安妮·海瑟薇會面

風(fēng)流女漢
2026-02-25 07:25:20
耗資18億!亞洲最大圖書館即將在武漢建成交付,成2026年最值得期待的中國建筑之一

耗資18億!亞洲最大圖書館即將在武漢建成交付,成2026年最值得期待的中國建筑之一

越喬
2026-02-25 11:53:27
當(dāng)不成總統(tǒng)了?日本逮捕美軍士兵,特朗普下令撤僑,14國向美施壓

當(dāng)不成總統(tǒng)了?日本逮捕美軍士兵,特朗普下令撤僑,14國向美施壓

健身狂人
2026-02-24 20:43:56
被稱為“中國最大忽悠”的賈躍亭,似乎要翻身了。

被稱為“中國最大忽悠”的賈躍亭,似乎要翻身了。

流蘇晚晴
2026-02-19 16:19:47
這個世界上最搞不懂的,就是尼格買提的父母了

這個世界上最搞不懂的,就是尼格買提的父母了

百態(tài)人間
2026-02-24 15:44:11
馬筱梅分享兒子睜眼照!闊嘴大鼻好像媽媽,蘭姐大方曬孫子沒拘束

馬筱梅分享兒子睜眼照!闊嘴大鼻好像媽媽,蘭姐大方曬孫子沒拘束

一盅情懷
2026-02-25 19:39:14
15天310萬!趙心童請6名中國球員吃飯 10連勝沖93萬獎金+3連冠

15天310萬!趙心童請6名中國球員吃飯 10連勝沖93萬獎金+3連冠

念洲
2026-02-25 09:16:03
被釘在恥辱柱上!42歲劉某飛踢到鐵板 已被法院逮捕 更嚴(yán)重的在后面

被釘在恥辱柱上!42歲劉某飛踢到鐵板 已被法院逮捕 更嚴(yán)重的在后面

小虎新車推薦員
2026-02-25 15:44:39
2026-02-25 21:20:49
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關(guān)知識技能
5674文章數(shù) 4664關(guān)注度
往期回顧 全部

科技要聞

“機器人只跳舞,沒什么用”

頭條要聞

近百萬元存款被送快遞小伙悄悄轉(zhuǎn)走 獨居老太毫無察覺

頭條要聞

近百萬元存款被送快遞小伙悄悄轉(zhuǎn)走 獨居老太毫無察覺

體育要聞

曝雄鹿計劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂要聞

黃曉明新戀情!與小22歲美女同游新加坡

財經(jīng)要聞

上海樓市放大招,地產(chǎn)預(yù)期別太大

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

親子
旅游
時尚
本地
軍事航空

親子要聞

總想把世界上最好的都給你 但卻發(fā)現(xiàn)世界上最好的就是你!

旅游要聞

迎春第一花盛放!頤和園樂農(nóng)軒蠟梅進入最佳觀賞期

“復(fù)古甜心”穿搭突然大火!春天穿時髦又減齡

本地新聞

津南好·四時總相宜

軍事要聞

俄烏沖突四周年:和平談判希望渺茫

無障礙瀏覽 進入關(guān)懷版