国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Nat Commun丨沈?qū)巿F(tuán)隊(duì)開發(fā)大模型RNA相關(guān)預(yù)測(cè)的統(tǒng)一基準(zhǔn)測(cè)試框架

0
分享至


RNA在生物體中占據(jù)核心地位,其功能范疇涵蓋基因表達(dá)調(diào)控、蛋白質(zhì)合成及疾病發(fā)生機(jī)制等關(guān)鍵生命過程。隨著高通量測(cè)序數(shù)據(jù)的爆發(fā)式增長,如何從海量序列中破譯生命密碼成為了新的挑戰(zhàn)。近年來,借鑒自然語言處理技術(shù)的預(yù)訓(xùn)練基因組語言模型(gLMs) 迅速崛起。這些預(yù)訓(xùn)練大模型如同掌握了基因組語法的“通才”,通過人類及多物種基因組數(shù)據(jù)預(yù)訓(xùn)練大型 Transformer 架構(gòu),無需重新開發(fā)即可低成本遷移至各類 RNA 相關(guān)預(yù)測(cè)任務(wù),憑借 “開箱即用” 的優(yōu)勢(shì),讓缺乏大模型開發(fā)能力或硬件條件的團(tuán)隊(duì)也能高效開展研究。

然而,已發(fā)表的 gLMs 普遍存在規(guī)模龐大、架構(gòu)復(fù)雜的問題,且不同模型的應(yīng)用場(chǎng)景各有側(cè)重,其在各類任務(wù)中的性能差異缺乏系統(tǒng)性驗(yàn)證。面對(duì)琳瑯滿目的模型,研究者往往陷入“選擇困難癥”,難以判斷哪個(gè)模型最適配自己的研究場(chǎng)景,這在很大程度上限制了gLMs的廣泛應(yīng)用。

近日,良渚實(shí)驗(yàn)室沈?qū)?/strong>研究團(tuán)隊(duì)在Nature Communications上發(fā)表了題為

Benchmarking Pre-trained Genomic Language Models for RNA Sequence-Related Predictive Applications
的論文,針對(duì)以上痛點(diǎn) 開發(fā)了統(tǒng)一的基準(zhǔn)測(cè)試框架。 該框架系統(tǒng)評(píng)估了 11 種主流 預(yù)訓(xùn)練 gLMs 在四類核心 RNA 生物過程任務(wù)中的表現(xiàn),包括非編碼 RNA 分類、m6A 修飾預(yù)測(cè)、可變剪接位點(diǎn)預(yù)測(cè)及翻譯效率預(yù)測(cè)。研究通過詳盡的多指標(biāo)對(duì)比與消融實(shí)驗(yàn),揭示了數(shù)據(jù)與算法協(xié)同的重要性,并證實(shí)了gLMs在小樣本及長上下文場(chǎng)景下的獨(dú)特優(yōu)勢(shì)。同時(shí),研究發(fā)現(xiàn)以往“模型越大越好”的觀點(diǎn)并不絕對(duì)成立。例如,與應(yīng)用場(chǎng)景語義適配的預(yù)訓(xùn)練數(shù)據(jù),以及編碼方式同樣會(huì)對(duì)模型性能產(chǎn)生明顯的影響。除分析結(jié)果外,該工作也留下了一套易用的代碼框架,方便用戶把感興趣的模型加進(jìn)去一起測(cè)試。這項(xiàng)工作不僅填補(bǔ)了評(píng)測(cè)空白,更為廣大科研人員提供了一份極具實(shí)操價(jià)值的RNA序列分析模型選擇指南。



圖 1 Benchmark框架示意圖

為了確保公平比較,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)靈活可擴(kuò)展的評(píng)估框架 (1a)。他們聚焦于RNA轉(zhuǎn)錄后調(diào)控中的四個(gè)關(guān)鍵任務(wù),這些任務(wù)同時(shí)也涵蓋了生物問題的四種建模方式:非編碼RNA (ncRNA) 分類要求模型將整個(gè)序列劃分為16個(gè)類別中的一種(如miRNA、circRNA等),涉及序列級(jí)多分類問題;N6-甲基腺苷 (N6-methyladenosine, m6A) 修飾預(yù)測(cè)是二分類任務(wù),需判斷序列中心位點(diǎn)是否發(fā)生甲基化;可變剪接位點(diǎn)預(yù)測(cè) (splice site prediction) 則需在核苷酸分辨率上識(shí)別剪接供體和受體,并進(jìn)一步對(duì)組織特異性使用情況進(jìn)行多標(biāo)簽分類;翻譯效率預(yù)測(cè) (translation efficiency prediction) 則是一項(xiàng)回歸任務(wù),目標(biāo)是根據(jù)5'UTR序列預(yù)測(cè)核糖體負(fù)載均值 (mean ribosome loading, MRL)。每個(gè)任務(wù)都配備了代表性數(shù)據(jù)集,樣本量從數(shù)千到數(shù)億不等,涵蓋了不同數(shù)據(jù)規(guī)模和平衡性場(chǎng)景。除了大模型之間的比較,研究還引入了對(duì)應(yīng)領(lǐng)域的傳統(tǒng)深度學(xué)習(xí)算法 (如DeepM6ASeq、SpliceAI等),作為對(duì)比基準(zhǔn)。本研究系統(tǒng)整合了11種主流預(yù)訓(xùn)練基因組語言模型(gLMs) 進(jìn)行標(biāo)準(zhǔn)化評(píng)估,涵蓋RNA-FM、SpliceBERT、DNABERT2等代表性架構(gòu)(1b)。這些模型在架構(gòu)設(shè)計(jì)、參數(shù)規(guī)模 (百萬級(jí)至十億級(jí)參數(shù))、預(yù)訓(xùn)練數(shù)據(jù)構(gòu)成 (單物種特異性數(shù)據(jù)至跨物種泛化數(shù)據(jù)) 及tokenization策略 (傳統(tǒng)k-mer分詞、BPE分詞、全核苷酸編碼) 等方面呈現(xiàn)顯著異質(zhì)性。例如,RNA-FM基于無標(biāo)注RNA數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,SpliceBERT整合了72種脊椎動(dòng)物pre-mRNA數(shù)據(jù)構(gòu)建跨物種表征,DNABERT2與GENA-LM采用BPE分詞實(shí)現(xiàn)長程依賴建模 (支持36,000 bp上下文),而Nucleotide Transformer通過全局注意力機(jī)制支持長達(dá)12,000 bp的輸入序列同時(shí),評(píng)測(cè)還包含多種任務(wù)專用方法,如ncRDense (融合結(jié)構(gòu)特征) 和SpliceTransformer (專為剪接設(shè)計(jì))。所有模型均采用統(tǒng)一微調(diào)策略,在相同數(shù)據(jù)分割下訓(xùn)練,以避免偏差。值得注意的是,gLMs作為“基礎(chǔ)模型”,可通過微調(diào)適配不同任務(wù),但其性能受預(yù)訓(xùn)練數(shù)據(jù)匹配度、輸入長度等因素影響。這種多樣性使本次評(píng)測(cè)能深入揭示模型特性,為后續(xù)應(yīng)用提供依據(jù)。

綜合測(cè)試結(jié)果表明“沒有包治百病的模型”,不同架構(gòu)在特定任務(wù)上各有所長:例如,SpliceBERT憑借其對(duì)進(jìn)化保守性知識(shí)的利用在m6A任務(wù)中脫穎而出,而Nucleotide Transformer則在處理長序列剪接預(yù)測(cè)方面表現(xiàn)優(yōu)異。研究深入揭示了模型性能背后的關(guān)鍵驅(qū)動(dòng)因素:模型表現(xiàn)是預(yù)訓(xùn)練數(shù)據(jù)匹配度、輸入長度和分詞策略復(fù)雜交互的結(jié)果?;诖耍撐奶岢鲆粡圧NA序列分析模型的選擇導(dǎo)引圖:首先考慮數(shù)據(jù)量——小樣本或不平衡數(shù)據(jù)優(yōu)選gLMs;大數(shù)據(jù)時(shí)任務(wù)專用方法更高效。其次,任務(wù)類型決定輸入長度需求 (如剪接需長上下文),而多模態(tài)數(shù)據(jù) (如臨床圖像) 可能需定制模型。計(jì)算資源也是關(guān)鍵:SpliceAI等CNN模型訓(xùn)練快50倍,適合初步驗(yàn)證。最后,生物背景至關(guān)重要——選用預(yù)訓(xùn)練數(shù)據(jù)與下游任務(wù)匹配的模型。這一指南幫助用戶避開“越大越好”的誤區(qū),實(shí)現(xiàn)性能與效率的平衡。當(dāng)然,AI x 生物學(xué)的領(lǐng)域無窮廣闊,這些已有的預(yù)訓(xùn)練大模型仍有許多可提升的空間。對(duì)于有能力探索和開發(fā)新模型的研究者,作者也希望目前的benchmark工作能給他們帶來啟發(fā)和幫助,推動(dòng)生物信息學(xué)領(lǐng)域的發(fā)展。

本基準(zhǔn)測(cè)試證實(shí)了gLMs在RNA生物學(xué)中的巨大潛力,但也揭示當(dāng)前局限:如長序列處理與計(jì)算成本的矛盾、模態(tài)表征的不足等。未來,融合多組學(xué)數(shù)據(jù)、開發(fā)更高效架構(gòu)或可突破這些瓶頸。同時(shí),研究強(qiáng)調(diào)“生物語境”的重要性——預(yù)訓(xùn)練需貼合下游任務(wù),而非盲目擴(kuò)規(guī)模。這項(xiàng)工作不僅為研究者提供了選型“路線圖”,還推動(dòng)了標(biāo)準(zhǔn)化評(píng)估流程的建設(shè)。隨著AI技術(shù)進(jìn)步,下一代gLM有望成為生物醫(yī)學(xué)發(fā)現(xiàn)的強(qiáng)大引擎,在疾病機(jī)制解析、藥物設(shè)計(jì)等領(lǐng)域發(fā)揮更大價(jià)值。團(tuán)隊(duì)已公開所有代碼與數(shù)據(jù),鼓勵(lì)社區(qū)共同完善。

文章相關(guān)代碼已開源,發(fā)布在GitHub平臺(tái)(https://github.com/ShenLab-Genomics/biombenchmark)。

本研究由浙江大學(xué)醫(yī)學(xué)院良渚實(shí)驗(yàn)室的游寧遠(yuǎn)、劉暢為共同第一作者,沈?qū)幯芯繂T為通訊作者。浙江大學(xué)區(qū)塊鏈與數(shù)據(jù)安全國家重點(diǎn)實(shí)驗(yàn)室的伍賽、陳剛等人參與了工作設(shè)計(jì)與指導(dǎo)。

https://www.nature.com/articles/s41467-025-66899-y

制版人: 十一

學(xué)術(shù)合作組織

(*排名不分先后)



戰(zhàn)略合作伙伴

(*排名不分先后)



轉(zhuǎn)載須知


【非原創(chuàng)文章】本文著作權(quán)歸文章作者所有,歡迎個(gè)人轉(zhuǎn)發(fā)分享,未經(jīng)作者的允許禁止轉(zhuǎn)載,作者擁有所有法定權(quán)利,違者必究。

BioArt

Med

Plants

人才招聘

近期直播推薦


點(diǎn)擊主頁推薦活動(dòng)

關(guān)注更多最新活動(dòng)!


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
太幻滅了!章小蕙參加呂良偉70歲生日宴,真人又老又胖,頸紋好深

太幻滅了!章小蕙參加呂良偉70歲生日宴,真人又老又胖,頸紋好深

娛圈小愚
2025-12-25 14:15:00
馬刺三殺雷霆豪取8連勝!文班19+11 ??怂?9分 SGA19中7

馬刺三殺雷霆豪取8連勝!文班19+11 福克斯29分 SGA19中7

云隱南山
2025-12-26 06:17:03
目前廣東隊(duì)很像上賽季16連勝的上海隊(duì)

目前廣東隊(duì)很像上賽季16連勝的上海隊(duì)

大眼瞄世界
2025-12-25 22:01:27
王君正率中共代表團(tuán)訪問馬來西亞、斯里蘭卡

王君正率中共代表團(tuán)訪問馬來西亞、斯里蘭卡

新華社
2025-12-25 17:45:02
鄭麗文滿意度出爐,盧秀燕力挺江啟臣或落空!傅崐萁再獲重用!

鄭麗文滿意度出爐,盧秀燕力挺江啟臣或落空!傅崐萁再獲重用!

陳博世財(cái)經(jīng)
2025-12-25 14:31:54
被捧為“神藥”的它,說明書要改了!小心抑郁、自殺傾向……

被捧為“神藥”的它,說明書要改了!小心抑郁、自殺傾向……

環(huán)球網(wǎng)資訊
2025-12-25 19:54:52
僅剩6天!深圳一、二檔醫(yī)保報(bào)銷額度即將清零重置!

僅剩6天!深圳一、二檔醫(yī)保報(bào)銷額度即將清零重置!

深圳本地寶
2025-12-25 22:40:52
“南京義烏商品城”2026年1月1日起更名為“江寧大學(xué)城商業(yè)廣場(chǎng)”

“南京義烏商品城”2026年1月1日起更名為“江寧大學(xué)城商業(yè)廣場(chǎng)”

現(xiàn)代快報(bào)
2025-12-25 20:38:39
常規(guī)賽第6輪|四連勝!多點(diǎn)開花! 浙江方興渡大勝遼寧本鋼

常規(guī)賽第6輪|四連勝!多點(diǎn)開花! 浙江方興渡大勝遼寧本鋼

浙江廣廈籃球俱樂部
2025-12-25 22:54:22
你是咋意識(shí)到自己沒見過世面的?網(wǎng)友:書里的楊桃饞了我二十多年

你是咋意識(shí)到自己沒見過世面的?網(wǎng)友:書里的楊桃饞了我二十多年

解讀熱點(diǎn)事件
2025-10-06 00:05:03
中國的社零增速,已經(jīng)連降了6個(gè)月,轉(zhuǎn)負(fù)甚至就在眼前

中國的社零增速,已經(jīng)連降了6個(gè)月,轉(zhuǎn)負(fù)甚至就在眼前

子業(yè)一說財(cái)經(jīng)
2025-12-23 15:21:31
第一批免簽去俄羅斯的中產(chǎn)傻眼了

第一批免簽去俄羅斯的中產(chǎn)傻眼了

風(fēng)向觀察
2025-12-16 18:26:08
當(dāng)白菜買呢?傳阿里巴巴將采購五萬顆MI308芯片

當(dāng)白菜買呢?傳阿里巴巴將采購五萬顆MI308芯片

熱點(diǎn)科技
2025-12-24 14:00:34
北京連下六道指令,陜西硬抗整整四年,最高指示:讓749局來

北京連下六道指令,陜西硬抗整整四年,最高指示:讓749局來

小哥很OK
2025-12-12 14:33:01
傷病猛于虎!膝蓋外掰+三核心倒下,西部最慘球隊(duì)無爭(zhēng)議啊

傷病猛于虎!膝蓋外掰+三核心倒下,西部最慘球隊(duì)無爭(zhēng)議啊

球童無忌
2025-12-25 21:18:28
特朗普大消息,支持率大幅下降接近歷史最低!美聯(lián)儲(chǔ)降1月息懸了

特朗普大消息,支持率大幅下降接近歷史最低!美聯(lián)儲(chǔ)降1月息懸了

前沿天地
2025-12-26 05:44:37
12.26日早評(píng)|突然漲價(jià)!光伏大消息,A股周五加油!

12.26日早評(píng)|突然漲價(jià)!光伏大消息,A股周五加油!

龍行天下虎
2025-12-26 03:06:36
博主:海牛門將韓镕澤、成都中場(chǎng)嚴(yán)鼎皓即將加盟遼寧鐵人

博主:海牛門將韓镕澤、成都中場(chǎng)嚴(yán)鼎皓即將加盟遼寧鐵人

懂球帝
2025-12-26 00:29:13
陳都靈小腳丫好白嫩干凈

陳都靈小腳丫好白嫩干凈

東方不敗然多多
2025-12-26 00:11:14
要不是有喜馬拉雅山攔著,這回中國倒大霉了!

要不是有喜馬拉雅山攔著,這回中國倒大霉了!

霹靂炮
2025-12-25 22:40:44
2025-12-26 07:32:49
BioArt incentive-icons
BioArt
探索生物藝術(shù)之奧秘
8761文章數(shù) 18481關(guān)注度
往期回顧 全部

科技要聞

小米17Ultra發(fā)布,徠卡2億像素 ,6999元起

頭條要聞

韓國"最毒"財(cái)閥千金被捕 韓國人稱"經(jīng)過她身邊就會(huì)死"

頭條要聞

韓國"最毒"財(cái)閥千金被捕 韓國人稱"經(jīng)過她身邊就會(huì)死"

體育要聞

約基奇有多喜歡馬?

娛樂要聞

朱孝天把阿信好意當(dāng)球踢!

財(cái)經(jīng)要聞

新規(guī)來了,年化超24%的小貸被即刻叫停

汽車要聞

速來!智界在上海西岸準(zhǔn)備了年末潮流盛典

態(tài)度原創(chuàng)

親子
健康
教育
旅游
公開課

親子要聞

首都兒研所又出狠貨「兒童霜」!新華網(wǎng)力薦,北京媽媽排隊(duì)買...

這些新療法,讓化療不再那么痛苦

教育要聞

父母口中的"聽話",其實(shí)是控制

旅游要聞

2℃天安門實(shí)錄:游客全副武裝,只為這抹紅!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版