国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Nature:首個能寫綜述論文的開源AI模型來了,大幅減少科研“幻覺”,堪比人類專家

0
分享至


撰文丨王聰

編輯丨王多魚

排版丨水成文

科學(xué)進(jìn)步取決于科研人員綜合日益增多的文獻(xiàn)資料的能力,面對科學(xué)文獻(xiàn)的爆炸式增長,科研人員如何才能快速篩選、總結(jié)海量文獻(xiàn)?大語言模型(LLM)是否能夠在這方面為科研人員提供幫助?

在日常生活中,很多人會用到 ChatGPT、DeepSeek 等大語言模型來聊天、寫郵件或生成答案,但當(dāng)你問它一個專業(yè)、前沿的科學(xué)問題,它可能會給出看似合理但實(shí)際虛構(gòu)的答案,甚至編造根本不存在的論文引用。這種“幻覺”問題在科研領(lǐng)域尤為致命,因?yàn)闇?zhǔn)確性是科學(xué)的生命線。

而現(xiàn)在,一項(xiàng)發(fā)表于Nature期刊的研究給出了解決方案——OpenScholar,這是一個專為科研打造的 AI 助手,不僅能準(zhǔn)確回答復(fù)雜的科學(xué)問題,生成綜述論文,還解決了 AI 喜歡胡編亂造的“幻覺”難題。


該研究來自華盛頓大學(xué)、艾倫人工智能研究所,于 2026 年 2 月 4 日在線發(fā)表于Nature期刊,論文題為:Synthesizing scientific literature with retrieval-augmented language models。

OpenScholar是一個檢索增強(qiáng)的語言模型(Retrieval-Augmented Language Model),它能夠從4500 萬篇開放獲?。∣pen Access)論文中智能檢索相關(guān)段落,生成帶引用的長篇綜述論文(涵蓋計算機(jī)科學(xué)、物理學(xué)、神經(jīng)科學(xué)和生物醫(yī)學(xué)領(lǐng)域),其引用準(zhǔn)確率與人類專家相當(dāng),并在多項(xiàng)測試中超越了 GPT-4o 等主流大模型。更令人驚喜的是,研究團(tuán)隊全面開源了 OpenScholar,為科研社區(qū)提供了一個透明、可復(fù)現(xiàn)的工具。

OpenScholar 是什么?科研文獻(xiàn)的“智能管家”

如果你是一名研究人員,需要寫一篇關(guān)于“人工智能在醫(yī)療診斷中的應(yīng)用”的綜述論文。通常情況下,你需要花費(fèi)數(shù)周甚至更長時間閱讀上百篇相關(guān)研究論文,篩選關(guān)鍵信息,構(gòu)思框架,最終完成綜述論文的撰寫、修改。

OpenScholar就像一個高效的智能助手,只需輸入問題,它就能在幾分鐘內(nèi)合成一份結(jié)構(gòu)清晰、引用準(zhǔn)確的綜述論文。

OpenScholar的核心創(chuàng)新在于其全開放、可檢索增強(qiáng)的架構(gòu)。它不依賴“黑箱” API,而是構(gòu)建了一個包含 4500 萬篇開放獲取論文的專用數(shù)據(jù)存儲(OpenScholar DataStore,OSDS),并配備了訓(xùn)練過的檢索器和生成模型。該系統(tǒng)通過以下步驟工作:

1、檢索階段:從多個來源(例如學(xué)術(shù)數(shù)據(jù)庫和網(wǎng)絡(luò)搜索)智能抓取相關(guān)論文段落。

2、生成階段:語言模型基于檢索到的內(nèi)容起草答案,并標(biāo)記引用。

3、自反饋循環(huán):模型會自我審查初稿,提出改進(jìn)意見(例如“需要補(bǔ)充更多實(shí)驗(yàn)數(shù)據(jù)”),并迭代優(yōu)化答案,確保事實(shí)性和覆蓋范圍。


OpenScholar 推理(上)和訓(xùn)練流程(下)

這張圖清晰展示了OpenScholar的工作流程:從輸入查詢到最終輸出,每一步都注重證據(jù)支撐。這種設(shè)計直接針對了當(dāng)前 AI 在科學(xué)領(lǐng)域應(yīng)用的痛點(diǎn)——例如,該研究顯示,當(dāng)要求GPT-4o引用計算機(jī)科學(xué)或生物醫(yī)學(xué)等領(lǐng)域的近期文獻(xiàn)時,其在 78%-90% 的情況下編造了引用,而 OpenScholar 的引用準(zhǔn)確性堪比人類專家。

如何評估 AI 的“科研能力”?ScholarQABench 基準(zhǔn)登場

要判斷一個 AI 系統(tǒng)是否可靠,需要嚴(yán)格的測試標(biāo)準(zhǔn)。為此,研究團(tuán)隊開發(fā)了ScholarQABench,這是首個大規(guī)模、多領(lǐng)域的科學(xué)文獻(xiàn)合成基準(zhǔn)。它包含近 3000 個由專家編寫的問題,覆蓋計算機(jī)科學(xué)、物理、神經(jīng)科學(xué)和生物醫(yī)學(xué)等領(lǐng)域,要求模型生成長篇、多論文支持的答案。

與以往只關(guān)注選擇題或短答案的基準(zhǔn)不同,ScholarQABench 引入了多維評估協(xié)議,包括自動指標(biāo)(例如引用準(zhǔn)確性)和人類專家基于量表的評分(覆蓋范圍、連貫性、寫作質(zhì)量等)。例如,在“計算機(jī)科學(xué)”部分中,專家會列出答案必須包含的關(guān)鍵要點(diǎn),AI 的回答需要滿足這些“評分標(biāo)準(zhǔn)”才能得分。


上圖是一個評估示例:問題、評分標(biāo)準(zhǔn)和 AI 輸出的對比。這種設(shè)計確保了評估的客觀性,避免了 AI “刷分”的可能。

實(shí)驗(yàn)結(jié)果:小模型大能量,OpenScholar 全面領(lǐng)先

OpenScholar在 ScholarQABench 上的測試結(jié)果令人印象深刻。盡管 OpenScholar 的核心模型參數(shù)量僅為 80 億(遠(yuǎn)小于 GPT-4o 的規(guī)模),但它在多項(xiàng)任務(wù)中表現(xiàn)優(yōu)異:

  • 正確率提升:在需要多論文合成的任務(wù)中,OpenScholar-8B 比 GPT-4o 高出 6.1%,比 PaperQA2 高出5.5%。

  • 引用準(zhǔn)確性:OpenScholar 的引用 F1 分?jǐn)?shù)達(dá)到 47.9%,而 GPT-4o 幾乎為 0。

  • 成本效益:使用高效的檢索管道,OpenScholar-8B 的成本比基于 GPT-4o 的商業(yè)系統(tǒng)更低。


更引人注目的是人類評估結(jié)果:16 位人類專家在盲測中比較了 AI 回答和人類專家撰寫的答案。結(jié)果顯示,人類專家在 50.8% 和 70.0% 的情況下選擇了 OpenScholar-8B 和 OpenScholar-GPT-4o 的回答,而 GPT-4o 的這一比例僅為 31.9%,人類專家認(rèn)為,OpenScholar 的回答更全面、信息深度更大,而這正是撰寫綜述論文所需的關(guān)鍵能力


AI,正在改變科研范式

OpenScholar的推出標(biāo)志著 AI 在科學(xué)領(lǐng)域的應(yīng)用邁出重要一步。它不僅是工具的創(chuàng)新,更體現(xiàn)了開放科學(xué)的精神——通過可復(fù)現(xiàn)的系統(tǒng),降低科研門檻。對于忙碌的科學(xué)家和學(xué)生來說,這類 AI 助手有望將文獻(xiàn)回顧從“苦役”變?yōu)楦咝剿鳌?/p>


OpenScholar、ScholarQABench 概述及評估結(jié)果

未來,隨著多模態(tài)學(xué)習(xí)和用戶反饋的整合,OpenScholar可能會變得更智能,從而成為科研人員的真正“協(xié)作者”,讓科研工作更聚焦于創(chuàng)新而非信息篩選。

論文鏈接

https://www.nature.com/articles/s41586-025-10072-4


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國家正式公布:3月30日起,全國統(tǒng)一執(zhí)行,老墳有新規(guī)定

國家正式公布:3月30日起,全國統(tǒng)一執(zhí)行,老墳有新規(guī)定

老特有話說
2026-02-24 23:23:24
普京三次痛批列寧:一生最大的錯誤,就是把統(tǒng)一國家改造成聯(lián)盟!

普京三次痛批列寧:一生最大的錯誤,就是把統(tǒng)一國家改造成聯(lián)盟!

牛馬搞笑
2026-02-23 11:35:52
貝加爾湖7條命,小紅書躺槍

貝加爾湖7條命,小紅書躺槍

智識漂流
2026-02-23 19:24:13
頤和園摸完貓手臭了,反復(fù)追問其他人,發(fā)現(xiàn)別人摸都不臭!

頤和園摸完貓手臭了,反復(fù)追問其他人,發(fā)現(xiàn)別人摸都不臭!

Magic寵物社
2026-02-23 18:35:10
春節(jié)剛過,美國深夜收到消息!中國出手了,高市早苗的苦日子來了

春節(jié)剛過,美國深夜收到消息!中國出手了,高市早苗的苦日子來了

東極妙嚴(yán)
2026-02-25 09:11:39
球王的威力!因與梅西產(chǎn)生激烈爭吵,當(dāng)值主裁被聯(lián)盟禁賽5場!

球王的威力!因與梅西產(chǎn)生激烈爭吵,當(dāng)值主裁被聯(lián)盟禁賽5場!

田先生籃球
2026-02-24 16:37:19
她在非誠勿擾上站五年,爆燈無數(shù)卻不牽手,最終被主持人趕下臺

她在非誠勿擾上站五年,爆燈無數(shù)卻不牽手,最終被主持人趕下臺

琴聲飛揚(yáng)
2026-02-22 15:21:45
中超新土豪!外援總身價超過國安+蓉城總和,或成爭冠最大黑馬

中超新土豪!外援總身價超過國安+蓉城總和,或成爭冠最大黑馬

零度眼看球
2026-02-25 07:17:45
真敢查!湖北精神病院騙醫(yī)保,連院長帶保護(hù)傘一鍋端,23人全栽了

真敢查!湖北精神病院騙醫(yī)保,連院長帶保護(hù)傘一鍋端,23人全栽了

趣味萌寵的日常
2026-02-24 20:21:44
重磅實(shí)錘!俄親戰(zhàn)大V自曝:俄軍進(jìn)攻潛力已耗盡

重磅實(shí)錘!俄親戰(zhàn)大V自曝:俄軍進(jìn)攻潛力已耗盡

老馬拉車莫少裝
2026-02-25 08:57:51
26歲男子春節(jié)離家失聯(lián)5天,山中發(fā)現(xiàn)外套!父親:事前曾去奶奶墳前,手機(jī)留“遺言”

26歲男子春節(jié)離家失聯(lián)5天,山中發(fā)現(xiàn)外套!父親:事前曾去奶奶墳前,手機(jī)留“遺言”

紅星新聞
2026-02-24 13:12:52
AI寫代碼收費(fèi)大變天!字節(jié)Trae按Token算錢了

AI寫代碼收費(fèi)大變天!字節(jié)Trae按Token算錢了

IT之家
2026-02-24 17:16:37
為何保險賣不動了?保險賣不動的原因是當(dāng)年的騙局到現(xiàn)在已被證實(shí)

為何保險賣不動了?保險賣不動的原因是當(dāng)年的騙局到現(xiàn)在已被證實(shí)

來科點(diǎn)譜
2026-02-24 07:11:24
55歲央視一哥康輝,缺席春晚真相曝光,為什么他不再拋頭露面?

55歲央視一哥康輝,缺席春晚真相曝光,為什么他不再拋頭露面?

天天熱點(diǎn)見聞
2026-02-23 05:22:26
網(wǎng)紅表面直播游戲,實(shí)際跨城殺懷孕女友?!完美犯罪+演技爆表,警察都信了...

網(wǎng)紅表面直播游戲,實(shí)際跨城殺懷孕女友?!完美犯罪+演技爆表,警察都信了...

英國那些事兒
2026-02-24 23:23:48
524-1!常冰玉殘暴4-0橫掃 世界第8崩潰搖頭長時間鼓掌:歷史最強(qiáng)

524-1!常冰玉殘暴4-0橫掃 世界第8崩潰搖頭長時間鼓掌:歷史最強(qiáng)

風(fēng)過鄉(xiāng)
2026-02-24 20:15:22
宋慶齡去世,請宋美齡回國吊唁,她答復(fù):血脈雖親,大義更重

宋慶齡去世,請宋美齡回國吊唁,她答復(fù):血脈雖親,大義更重

文史明鑒
2026-02-14 11:11:11
中國50后還有多少人?多少人能活到80歲?權(quán)威數(shù)據(jù)告訴你

中國50后還有多少人?多少人能活到80歲?權(quán)威數(shù)據(jù)告訴你

芭比衣櫥
2026-02-19 21:00:42
真吃不動了!東北虎被喂太撐,叼肉條扭頭吐掉,網(wǎng)友:別喂肉了,喂消食片吧

真吃不動了!東北虎被喂太撐,叼肉條扭頭吐掉,網(wǎng)友:別喂肉了,喂消食片吧

觀威海
2026-02-24 10:42:08
調(diào)門變了!高市對中改口,被民眾大罵不知羞恥,外交部一句話定調(diào)

調(diào)門變了!高市對中改口,被民眾大罵不知羞恥,外交部一句話定調(diào)

青梅侃史啊
2026-02-24 22:33:41
2026-02-25 10:03:00
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科學(xué)研究
8916文章數(shù) 145003關(guān)注度
往期回顧 全部

科技要聞

蘋果MacBook Pro要加觸摸屏了,還帶靈動島

頭條要聞

牛彈琴:美伊大戰(zhàn)若還不打 全世界都會看特朗普的笑話

頭條要聞

牛彈琴:美伊大戰(zhàn)若還不打 全世界都會看特朗普的笑話

體育要聞

曝雄鹿計劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂要聞

汪小菲官宣三胎出生:承諾會照顧好3個孩子

財經(jīng)要聞

春節(jié)檔"開門黑" 電影票少賣了7000萬張

汽車要聞

入門即滿配 威蘭達(dá)AIR版上市 13.78萬元起

態(tài)度原創(chuàng)

教育
房產(chǎn)
家居
數(shù)碼
公開課

教育要聞

上海匯工大學(xué)揭秘!別被名稱坑了志愿

房產(chǎn)要聞

330萬人涌入!春節(jié)全國樓市,第一個賣爆的區(qū)域出現(xiàn)了!

家居要聞

本真棲居 愛暖伴流年

數(shù)碼要聞

榮耀MagicPad 4平板曝4月發(fā)布,搭載最新驍龍8系處理器

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版