国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

科學能否預測一項研究何時站不住腳?某學科越來越不關心科學的事,被邊緣化是求仁得仁

0
分享至


Brian Nosek 是開放科學中心的執(zhí)行主任。在 2010 年代,Nosek 博士及其同事重復了 100 篇心理學論文,但只有 39% 的時間結果與原始結果相符。

卡爾·齊默

自 2011 年以來,卡爾·齊默一直在報道科學領域的可重復性問題。

2026年4月1日

開展研究很難,驗證研究結果也很難。一項新的重要研究發(fā)現,人工智能目前還無法提供幫助。

科學家每年發(fā)表超過一千萬篇研究論文和其他出版物。其中一些發(fā)現將豐富人類的知識寶庫,但有些則是錯誤的。

為了評估一項研究,科學家可以重復該研究,以檢驗是否能得到相同的結果。但七年前,一個由數百名科學家組成的團隊著手尋找一種更快捷的方法來評判新的科學文獻。他們構建了人工智能系統(tǒng),用于預測研究是否經得起推敲。

該項目由美國國防高級研究計劃局(DARPA)資助,名為“系統(tǒng)化開放研究和證據的信心”(簡稱SCORE)。其構想源于當時DARPA的項目經理亞當·羅素。他設想為科學建立一種類似信用評分的體系。

“人們可能會說,‘嘿,這很可能是可靠的,我們可以以此為基礎制定政策,’”目前在南加州大學任教的拉塞爾博士說?!啊沁@個呢?嗯,這或許能寫成一本在機場里賣的書?!?/p>

SCORE團隊審查了數百項研究,并對其中許多研究進行了重復測試,以更好地了解哪些因素能夠使研究結果經得起時間的考驗?,F在,他們正在發(fā)表一系列關于這些研究成果的論文。

研究人員表示,目前科學的信用評分仍然只是一個夢想。人工智能還無法做出可靠的預測。

“我們還沒達到目標,”開放科學中心執(zhí)行主任兼該項目負責人布萊恩·諾塞克說?!八_實接收到了一些信號,但要獨立使用,精度還需要大幅提高?!?/p>

但外部專家表示,在此過程中,SCORE 團隊對科學過程進行了非常深入的研究,發(fā)現了有助于改進該過程的線索。

“我認為以前從未有過如此大規(guī)模的嘗試,”牛津大學心理學家多蘿西·畢曉普說道,她并未參與這項研究。

自己看看吧

重復性研究一直是科學發(fā)展的重要支柱。1953年,加州理工學院的地球化學家克萊爾·帕特森利用一種新技術測定出地球的年齡為45億年,比之前的估計值大了12億年,這一結果令科學家們震驚不已。

“我遇到了一些世界上最優(yōu)秀、最有能力的評論家,他們竭盡全力想推翻我的數據,”帕特森博士后來回憶道?!八麄兘g盡腦汁,試圖證明我錯了?!比欢?,無論他們如何努力,他的數據始終沒有改變。

但有時重復實驗的結果并不一致。1976年,考古學家在智利蒙特維德發(fā)現了一處古代狩獵營地,并確定其距今約14500年,比此前在美洲發(fā)現的人類活動證據要古老得多。

時隔近50年,一個獨立的科學家團隊重復了這項研究。上個月,他們得出了截然不同的結論:蒙特維德地區(qū)在4200至8200年前就有人居住。

原研究的作者對這一新發(fā)現提出異議;可能需要更多研究來解決這一沖突??茖W就是這樣自我修正的。

至少,理論上應該是這樣。但重復先前的研究需要耗費時間和金錢,而研究人員可能更愿意將這些資源投入到自己的研究中。而且,期刊編輯通常對重復研究不感興趣。

新墨西哥州圣塔菲研究所的人工智能研究員梅蘭妮·米切爾最近復現了一篇人工智能論文,但未能得到與原論文相同的結果。一家期刊以缺乏創(chuàng)新性為由拒絕了她的論文。

“我真的很討厭這種文化,”米切爾博士上個月在耶魯大學的一次講座上對聽眾說。

解決一個“棘手問題”



上圖為克萊爾·帕特森,她在 20 世紀 50 年代計算出地球的年齡比之前估計的要大 12 億年;下圖為梅蘭妮·米切爾,她是新墨西哥州圣塔菲研究所的人工智能研究員,攝于 2023 年。

信用...

加州理工學院;《紐約時報》的艾莉婭·馬爾科姆

15 年來,一些科學家一直試圖改變這種文化。他們首先記錄了問題的嚴重程度。2010 年代初期,諾塞克博士及其同事重復了 100 篇心理學論文,結果只有 39%與原始結果相符。

在另一個項目中,諾塞克博士與癌癥生物學家合作,在動物和人類細胞上重復了50項實驗。但只有不到一半的結果經受住了他們的審查。

美國國防高級研究計劃局(DARPA)的羅素博士想知道,科學家能否利用人工智能來預測一項研究的可信度。但首先,科學家們需要收集更多關于可重復性的數據?!拔抑肋@是一個棘手的問題,”他說。

SCORE 項目始于2019 年,并發(fā)展壯大到包括 865 名研究人員。他們分析了 2009 年至 2018 年間發(fā)表的 3900 篇論文,這些論文涵蓋了犯罪學、經濟學、心理學和社會學等社會科學領域。

在一項研究中,SCORE團隊重復了164項研究。團隊成員重新進行了部分實驗,并招募志愿者再次參加原始測試。對于基于政府統(tǒng)計數據的研究,SCORE團隊成員獲取了相關數據并進行了分析。

只有大約一半的重復研究得出了與原始研究相同的結果。

惠特曼學院的生物學家蒂姆·帕克(Tim Parker)并未參與這項研究,他表示,這一低比率與之前規(guī)模較小的研究結果一致。

“我認為這些結果非常有說服力,”他說?!拔蚁M切┲皩嵶C研究結果不以為然的人,能夠被這些結果說服?!?/p>

帕克博士和其他研究人員對科學家們使用不同方法研究同一數據的做法表示擔憂。他們認為,即使這些方法都合理,也可能導致相互矛盾的結果。

SCORE團隊評估了科學家使用不同方法時研究結果的可靠性。團隊成員挑選了100篇論文,并為每篇論文分配了至少五個專家團隊。每個團隊都運用各自的方法分析原始數據。

諾塞克博士說:“很多時候,這些選擇會產生重大影響?!痹赟CORE試驗中,只有約57%的情況下,所有五個團隊都得到了與原始研究大致相同的結果。他們只有三分之一的時間得到了完全相同的結果。

SCORE 團隊還考慮了數據問題以及用于分析的計算機程序中的問題如何導致復制失敗。

研究人員使用與原作者相同的代碼分析了143篇論文中的數據。約9%的SCORE結果與原始結果完全不同;另有14%的結果僅大致相同。

圖像


Andrew Tyner, a principal research scientist at the Center for Open Science. “It’s still not that impressive,” he said of A.I. efforts to replicate results. “But there might be some there there.”

信用...

Cornell Watson for The New York Times

渥太華大學的經濟學家阿貝爾·布羅德爾表示,他在自己的科學測試項目——復制研究所——中也遇到過類似的問題。這些故障可能是由于科學家在格式化數據或編寫程序時出錯造成的?!坝袝r候,代碼錯誤簡直匪夷所思,”他說。

實際情況可能比SCORE研究表明的還要糟糕,因為科學家們常常不愿分享數據和代碼。當SCORE團隊不得不自行編寫代碼來分析數據時,他們成功復現相同結果的次數不到一半。

羅素博士曾希望人工智能系統(tǒng)能夠利用 SCORES 項目的研究結果進行訓練,從而學習判斷一篇論文能否成功復現的關鍵特征。但 SCORE 團隊發(fā)現,復現的奧秘似乎仍然深不可測;人工智能的預測并非完全隨機,但也遠非完美。

“這仍然不算令人印象深刻,”開放科學中心首席研究科學家、這項新研究的作者之一安德魯·泰納說?!暗蛟S其中蘊含著一些有價值的信息?!?/p>

但這并不意味著專家可以完全相信自己的直覺。SCORE項目招募了數百名專家來預測論文是否能夠成功重復。在審查了132項重復實驗后,SCORE團隊發(fā)現專家們的預測大約有四分之三的概率是正確的。

對于諾塞克博士來說,SCORE 的主要價值在于展示了科學過程的復雜性,并突出了改進科學過程的方法。

例如,科學家可以提前公布實驗計劃,這可以防止他們?yōu)榱诉m應最終獲得的數據而調整假設。

布羅德爾博士表示,期刊可以通過要求作者分享原始數據和代碼來提供幫助?!叭藗円呀浨謇砹怂麄兞粝碌臓€攤子,”他說。

美國國立衛(wèi)生研究院院長杰伊·巴塔查里亞博士在一次采訪中表示,該機構正在研究如何改進可復制性。

他說:“科學是通過重復實驗來確定真理的。我覺得現在這種方法不太奏效?!?/p>

從今年開始,該機構計劃推出新的數據和代碼共享工具。它還將遴選不同領域的關鍵理念,并頒發(fā)資助金以支持這些理念的復制。此外,該機構正在籌建一份期刊,巴塔查里亞博士將其描述為“一個可以發(fā)表你的復制研究成果并獲得認可的平臺”。

匹茲堡大學醫(yī)學院的生物化學家、美國國家普通醫(yī)學科學研究所前所長杰里米·伯格(Jeremy Berg)是巴塔查里亞博士的批評者,他將巴塔查里亞博士的計劃描述為“極其天真”。

伯格博士警告說,像集中式數據平臺和關鍵理念復制這樣的項目,只有政府做出昂貴的長期投入才能奏效。僅僅提供更多發(fā)表復制研究的機會,本身并不能使大學在決定招聘和終身教職時重視這些研究。

“我認為還沒有人破解了這個密碼,”他說。

諾塞克博士告誡說,無論研究人員在工作中投入多少精力,他們有時仍然會犯錯。

“探索知識前沿總是充滿挑戰(zhàn),無論你研究的是什么問題都一樣,”諾塞克博士說?!澳銜洑v很多次失敗,也會遇到很多不合邏輯的事情?!?/p>


Can Science Predict When a Study Won’t Hold Up?

Conducting research is hard; confirming the results is, too. And artificial intelligence isn’t yet ready to help, a major new study finds.

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
涉事醫(yī)生已被停診、終止聘用!三甲醫(yī)院通報!該醫(yī)生曾獲“國之名醫(yī)”稱號

涉事醫(yī)生已被停診、終止聘用!三甲醫(yī)院通報!該醫(yī)生曾獲“國之名醫(yī)”稱號

梅斯醫(yī)學
2026-04-17 18:00:48
“跟民進黨拼了!” 鄭麗文:2026、2028藍白定要緊密合作

“跟民進黨拼了!” 鄭麗文:2026、2028藍白定要緊密合作

牛鍋巴小釩
2026-04-18 02:19:05
假吃就別演了!看于和偉吃包子,讓多少演員無地自容

假吃就別演了!看于和偉吃包子,讓多少演員無地自容

糊咖娛樂
2026-04-17 14:47:44
趙心童首戰(zhàn)數據對比!名宿點出衛(wèi)冕最大對手,中國軍團4人出戰(zhàn)

趙心童首戰(zhàn)數據對比!名宿點出衛(wèi)冕最大對手,中國軍團4人出戰(zhàn)

排球黃金眼
2026-04-18 00:14:00
美以伊沖突,巴基斯坦這次為何能充當“關鍵角色” | 京釀館

美以伊沖突,巴基斯坦這次為何能充當“關鍵角色” | 京釀館

新京報評論
2026-04-17 12:20:46
拿伊朗沒轍,美國轉向馬六甲,強行要印尼領空特權,中國底牌亮出

拿伊朗沒轍,美國轉向馬六甲,強行要印尼領空特權,中國底牌亮出

深析古今
2026-04-18 03:59:45
Gemini桌面客戶端終于上線:直接讀取屏幕上下文,幫你解讀一切!

Gemini桌面客戶端終于上線:直接讀取屏幕上下文,幫你解讀一切!

新智元
2026-04-17 00:26:41
價格狂飆6倍!日本連夜求購遭中方出口管制,高端制造全線崩盤?

價格狂飆6倍!日本連夜求購遭中方出口管制,高端制造全線崩盤?

軒逸阿II
2026-04-18 00:56:22
徹底反轉!匈牙利新總理玩瘋了,歐盟美國全被耍,中俄笑到最后

徹底反轉!匈牙利新總理玩瘋了,歐盟美國全被耍,中俄笑到最后

傲傲講歷史
2026-04-17 02:30:07
中國“撿錢”時代可能要來了:若手中只有10萬,試試死啃這兩條線

中國“撿錢”時代可能要來了:若手中只有10萬,試試死啃這兩條線

奇思妙想生活家
2026-04-09 07:49:40
指名道姓了!特朗普聲稱中國只要繼續(xù)買伊朗石油,美國必出手制裁

指名道姓了!特朗普聲稱中國只要繼續(xù)買伊朗石油,美國必出手制裁

阿龍聊軍事
2026-04-16 16:48:42
單方一味,只需一味中藥,這9種病皆可用

單方一味,只需一味中藥,這9種病皆可用

環(huán)京快爆
2026-04-14 10:52:47
有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
情報高層被美中情局引誘成間諜,叛逃后被溺斃在南美的大海里

情報高層被美中情局引誘成間諜,叛逃后被溺斃在南美的大海里

阿胡
2026-04-14 12:22:32
意外!鄭州40歲女子患肝癌,臨終前懇求前夫接走女兒,前夫回復!

意外!鄭州40歲女子患肝癌,臨終前懇求前夫接走女兒,前夫回復!

青梅侃史啊
2026-04-17 19:48:25
?;?0天的交易:特朗普強推,以色列成“犧牲品”?

?;?0天的交易:特朗普強推,以色列成“犧牲品”?

上游新聞
2026-04-17 12:23:05
國家發(fā)改委:多渠道增加城鄉(xiāng)居民財產性收入

國家發(fā)改委:多渠道增加城鄉(xiāng)居民財產性收入

澎湃新聞
2026-04-17 12:08:10
中國關鍵時刻雪中送炭,給了8000多萬伊朗人,一份最實在的保障

中國關鍵時刻雪中送炭,給了8000多萬伊朗人,一份最實在的保障

起喜電影
2026-04-18 00:40:50
皇馬終于醒悟!高價水貨將被送走,球迷集體拍手叫好

皇馬終于醒悟!高價水貨將被送走,球迷集體拍手叫好

奶蓋熊本熊
2026-04-17 04:40:41
全網炸了!于和偉5秒連扇三記耳光,打出了中國人憋了80年的惡氣

全網炸了!于和偉5秒連扇三記耳光,打出了中國人憋了80年的惡氣

臨云史策
2026-04-16 11:12:54
2026-04-18 05:00:49
科學的歷程 incentive-icons
科學的歷程
吳國盛、田松主編
3185文章數 15015關注度
往期回顧 全部

科技要聞

7家頭部平臺被罰沒35.97億元

頭條要聞

知情人:伊朗為霍爾木茲海峽通行設定三個條件

頭條要聞

知情人:伊朗為霍爾木茲海峽通行設定三個條件

體育要聞

中超-泰山1-1海港 楊希處子球克雷桑任意球扳平

娛樂要聞

劉德華摯友潘宏彬離世 曾一起租房住

財經要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

又快又穩(wěn)的開掛動力! 阿維塔06T全系搭分布式電驅

態(tài)度原創(chuàng)

本地
旅游
數碼
游戲
公開課

本地新聞

12噸巧克力有難,全網化身超級偵探添亂

旅游要聞

三月三登泰山!蟠桃會+古風巡游驚艷出圈

數碼要聞

庫克都沒想到:MacBook Neo賣爆了!官網交付已排到5月

PS5完全獨占新作曝光!科樂美為索尼傾力打造

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版