国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

當(dāng)AI第一次讀完整本基因之書,十億參數(shù)單細胞大模型能干什么?

0
分享至


新智元報道

編輯:LRST

【新智元導(dǎo)讀】十億參數(shù)單細胞基礎(chǔ)模型scLong不再只看少數(shù)高表達基因,而是把一個細胞里接近 2.8 萬個基因 都納入建模,并結(jié)合 Gene Ontology(GO) 的生物學(xué)知識,去理解更完整的基因上下文。

在單細胞轉(zhuǎn)錄組學(xué)領(lǐng)域,研究者希望從每個細胞的基因表達中讀出細胞狀態(tài)、調(diào)控關(guān)系,甚至預(yù)測當(dāng)某個基因被敲除、某種藥物被加入后,細胞會發(fā)生什么變化。

過去幾年,foundation model(基礎(chǔ)模型)開始進入這一領(lǐng)域,顯示出強大的遷移能力;但長期以來,現(xiàn)有方法往往為了節(jié)省計算,只關(guān)注少量高表達基因,忽略了大量低表達甚至零表達基因,同時也缺少對外部基因功能知識的系統(tǒng)整合。這不僅會丟失重要調(diào)控信號,也容易讓模型對復(fù)雜生物過程「只見樹木,不見森林」。


近日,MBZUAI、加州大學(xué)圣地亞哥分校(UC San Diego)等機構(gòu)聯(lián)合團隊在 Nature Communications 發(fā)表研究成果scLong。


論文鏈接:https://www.nature.com/articles/s41467-026-69102-y

這是一種擁有10億參數(shù)的單細胞基礎(chǔ)模型,基于約4800萬個細胞進行預(yù)訓(xùn)練,能夠在整個人類轉(zhuǎn)錄組范圍內(nèi)對約27874個基因建模,并將GO(Gene Ontology) 提供的結(jié)構(gòu)化生物學(xué)知識融入模型中。

論文報告顯示,scLong在遺傳擾動預(yù)測、化學(xué)擾動預(yù)測、癌癥藥物反應(yīng)預(yù)測、基因調(diào)控網(wǎng)絡(luò)推斷等多項任務(wù)上,均優(yōu)于現(xiàn)有單細胞基礎(chǔ)模型和多種任務(wù)專用模型。

研究背景

為什么單細胞領(lǐng)域需要一個「更長」的模型?

因為一個細胞并不是只由少數(shù)幾個「明星基因」決定的。很多現(xiàn)有模型只在約 1500 到 2000 個高表達基因上做 self-attention,這樣確實更省算力,但代價是:大量低表達基因被排除在外。

而這些低表達基因雖然「聲音不大」,卻常常扮演調(diào)控開關(guān)、信號微調(diào)器,甚至在稀有細胞類型、應(yīng)激反應(yīng)、疾病進展中發(fā)揮關(guān)鍵作用。

換句話說,過去很多模型更像是在讀「摘要」,而不是在讀「全文」。

另一個問題是,單靠表達矩陣本身,模型未必能真正理解「這個基因是干什么的」。

而Gene Ontology恰恰提供了基因在生物過程(Biological Process)、分子功能(Molecular Function)、細胞組分(Cellular Component)上的結(jié)構(gòu)化知識。過去很多模型主要從數(shù)據(jù)里「自己悟」,但沒有顯式利用這些成熟的生物學(xué)先驗,因此在理解功能關(guān)聯(lián)、調(diào)控關(guān)系和跨條件泛化時仍然受限。

于是,scLong想做的事情很直接:不僅把基因看全,還要把基因「看懂」。

把一個細胞,讀成一整句話


如果用自然語言來打比方,scLong的核心思想很有畫面感:把一個細胞的整條基因表達譜,當(dāng)成一句非常長、非常復(fù)雜的話來讀。

在這個「句子」里,每個「詞」不是普通單詞,而是一個 「基因 ID + 表達值」 的組合。模型先用一個表達編碼器,把數(shù)值型表達量映射成向量;再用一個基因編碼器,為每個基因生成帶有生物學(xué)含義的表示;兩者相加后,就得到這個「詞」的初始表示。

隨后,模型通過上下文編碼器,讓這些基因彼此「看見對方」,從而學(xué)習(xí)基因之間在當(dāng)前細胞中的上下文關(guān)系。

這里最有意思的一點是:scLong并沒有粗暴地把低表達基因扔掉。 它采用了一個雙編碼器設(shè)計:對高表達基因使用更大的Performer編碼器,對低表達基因使用更小的Performer編碼器,最后再通過一個full-length Performer把全體基因整合起來。這樣既盡量保住了全基因組范圍的上下文信息,又在計算量和建模能力之間做了平衡。

更進一步,scLong還把GO知識圖譜 接進來了。研究團隊先根據(jù)基因共享的GO注釋來構(gòu)建基因圖:

如果兩個基因在生物過程、分子功能或細胞定位上足夠相似,它們就會被連接起來;

然后再用圖卷積網(wǎng)絡(luò)(GCN)來學(xué)習(xí)基因表示。

這樣一來,模型不僅知道「這個基因在這個細胞里表達了多少」,還知道「這個基因通常和哪些功能、哪些基因有關(guān)系」。這相當(dāng)于給每個「詞」都加了一層背景知識。

預(yù)訓(xùn)練方面,scLong使用的是一種類似BERT的思路:隨機遮掉一部分表達值,讓模型去重建它們。

研究團隊用來自1618個單細胞數(shù)據(jù)集、覆蓋50多種組織 的約4800萬個人類細胞 進行預(yù)訓(xùn)練,覆蓋27874個基因,其中既包括蛋白編碼基因,也包括非編碼基因。對單細胞領(lǐng)域來說,這相當(dāng)于讓模型先在海量真實細胞中「通讀語料」,再去做各種下游任務(wù)。

還有一個非常值得注意的設(shè)計:scLong甚至把零表達也當(dāng)作信息來建模。 因為零不一定意味著「沒意義」,它可能代表「表達太低沒測到」,也可能代表「這個基因在該細胞里確實被關(guān)閉了」。

前者可能對應(yīng)弱但真實的生物信號,后者則可能恰恰揭示了某種細胞身份或調(diào)控狀態(tài)。對于單細胞數(shù)據(jù)來說,這種「把缺席也當(dāng)作信息」的思路非常重要。

從基因擾動到藥物反應(yīng)

遺傳擾動預(yù)測:沒見過的擾動,也更會猜


在遺傳擾動任務(wù)中,模型需要根據(jù)細胞擾動前的表達和擾動條件,預(yù)測擾動后的表達變化。

論文使用Norman數(shù)據(jù)集進行評測,并特別關(guān)注模型對未見過擾動組合的泛化能力。結(jié)果顯示,scLong在大多數(shù)場景下都優(yōu)于 Geneformer、scGPT、scFoundation、UCE,以及任務(wù)專用模型GEARS、ALM和簡單基線No-Change。尤其是在更困難的Seen 0/1和Seen 0/2場景中,scLong的優(yōu)勢更明顯:例如在Seen 0/1 場景下,scLong的Pearson相關(guān)系數(shù)達到0.625,高于GEARS的0.561;在Seen 0/2場景下,scLong的MSE為0.170,也優(yōu)于多數(shù)基線。

不僅如此,scLong對雙基因擾動中的協(xié)同(synergy)和抑制(suppressor)兩類遺傳互作的識別也優(yōu)于GEARS。

這意味著它不僅能預(yù)測「會變多少」,還更接近理解「這些基因之間是怎樣一起起作用的」。

化學(xué)擾動預(yù)測:新藥上來,先讓模型「測一測」

在化學(xué)擾動任務(wù)中,模型輸入藥物分子圖、劑量和細胞系信息,輸出擾動后的基因表達。論文在L1000子集上評估了scLong,結(jié)果顯示:無論是RMSE、Spearman/Pearson 相關(guān),還是Top-100精度指標(biāo),scLong都顯著優(yōu)于Geneformer、scGPT、scFoundation、UCE和任務(wù)專用模型DeepCE。

換句話說,面對一個新化合物,scLong更擅長預(yù)判它會把細胞「推向什么狀態(tài)」。

癌癥藥物反應(yīng)預(yù)測:更懂癌細胞,也更懂聯(lián)合用藥

在癌癥藥物反應(yīng)預(yù)測任務(wù)中,模型需要根據(jù)藥物結(jié)構(gòu)和癌細胞表達譜,預(yù)測藥物療效。論文在DeepCDR數(shù)據(jù)集上報告,scLong的Pearson相關(guān)系數(shù)達到0.878,高于Geneformer 的0.852、scFoundation的0.867、DeepCDR的0.837以及線性模型的0.746


更有意思的是,研究團隊還把問題升級到藥物組合預(yù)測:同一個癌細胞系面對兩種藥物聯(lián)用,會不會有更好的反應(yīng)?

在分布外測試集上,scLong的AUROC達到0.652,同樣超過了多種基礎(chǔ)模型和任務(wù)模型。這說明它不僅能看單藥,還能在更復(fù)雜的聯(lián)合治療場景中提供線索。

基因調(diào)控網(wǎng)絡(luò)與批次整合:不僅會預(yù)測,還會「組織知識」

在基因調(diào)控網(wǎng)絡(luò)(GRN)推斷任務(wù)中,scLong從基因表示之間的相似性出發(fā),去重建誰調(diào)控誰。

結(jié)果顯示,其AUPR達到1.35,顯著優(yōu)于Geneformer、scGPT、scFoundation、UCE、DeepSEM、GENIE3以及直接使用GO圖的基線。

也就是說,scLong學(xué)到的并不是「死記硬背」的GO網(wǎng)絡(luò),而是結(jié)合具體細胞數(shù)據(jù)后更貼近真實生物系統(tǒng)的關(guān)系圖。


在零樣本批次整合任務(wù)中,scLong在pancreas數(shù)據(jù)集上取得0.96的batch ASW,超過Raw、HVG、scVI以及其他foundation model

值得注意的是,scLong既沒有在這個數(shù)據(jù)集上預(yù)訓(xùn)練,也沒有微調(diào),卻仍然超過了專門在該數(shù)據(jù)集上訓(xùn)練的scVI,顯示出很強的遷移性。

最后,消融實驗也給出了很強的支撐:去掉低表達基因建模、或者去掉 GO 圖后,性能都會下降。這說明scLong的提升不是偶然,而正是來自「看全基因」和「引入生物知識」這兩件事本身。

核心亮點總結(jié)

從「看少數(shù)基因」走向「看全基因組」:它把約 2.8 萬個基因都納入上下文建模,而不是只盯著高表達基因。

把生物知識真正嵌進模型:GO 不再只是注釋表,而是參與到基因表示學(xué)習(xí)的核心結(jié)構(gòu)中。

大規(guī)模預(yù)訓(xùn)練帶來強遷移能力:基于 4800 萬細胞的預(yù)訓(xùn)練,讓模型在多個下游任務(wù)上都能穩(wěn)健發(fā)揮。

不只是「更大」,而是「更懂生物」:論文最重要的啟發(fā)不是參數(shù)量本身,而是證明了低表達/零表達基因和結(jié)構(gòu)化先驗知識,對單細胞 foundation model 來說都非常關(guān)鍵。

實際應(yīng)用前景

從應(yīng)用角度看,scLong 展示出的潛力相當(dāng)清晰。

首先,在基因擾動與功能研究中,它可以幫助研究者更快預(yù)測敲除、過表達、組合擾動可能帶來的轉(zhuǎn)錄組變化,從而減少大量濕實驗試錯成本。

其次,在藥物發(fā)現(xiàn)和精準(zhǔn)醫(yī)學(xué)中,它能夠預(yù)測化學(xué)擾動和癌癥藥物反應(yīng),為候選藥物篩選、聯(lián)合用藥設(shè)計和個體化治療提供計算支持。

再次,在系統(tǒng)生物學(xué)層面,它還能輔助重建基因調(diào)控網(wǎng)絡(luò)、理解細胞狀態(tài)轉(zhuǎn)換,并在多批次數(shù)據(jù)整合中提供更穩(wěn)定的細胞表示。論文作者也指出,這樣的模型有望進一步推動精準(zhǔn)醫(yī)療、藥物研發(fā)和細胞生物學(xué)研究。

更長遠地看,scLong代表了一種很值得關(guān)注的方向:單細胞基礎(chǔ)模型不應(yīng)只是把Transformer搬到生物數(shù)據(jù)上,而應(yīng)該同時擁抱「全局上下文」和「領(lǐng)域知識」。

當(dāng)模型既能「讀完整本基因之書」,又能理解每個基因在生物學(xué)中的位置,它才更有可能真正成為生命科學(xué)里的通用智能工具。

參考資料:

https://www.nature.com/articles/s41467-026-69102-y

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
日軍官闖中國使館后,天皇玄孫迅速澄清,高市失聲,特朗普沒說錯

日軍官闖中國使館后,天皇玄孫迅速澄清,高市失聲,特朗普沒說錯

滄海旅行家
2026-03-26 13:46:41
韓媒臆想:中國隊歡呼吧,國際足聯(lián)同意他們替補世界杯

韓媒臆想:中國隊歡呼吧,國際足聯(lián)同意他們替補世界杯

體壇風(fēng)之子
2026-03-26 07:00:06
淚目!全紅嬋這張紅金海報藏深意:從湛江漁村到全球代言人

淚目!全紅嬋這張紅金海報藏深意:從湛江漁村到全球代言人

TVB的四小花
2026-03-26 12:18:20
日本自衛(wèi)官持刀闖入中國大使館,日本網(wǎng)絡(luò)輿論呼吁政府立即道歉

日本自衛(wèi)官持刀闖入中國大使館,日本網(wǎng)絡(luò)輿論呼吁政府立即道歉

徐靜波靜說日本
2026-03-25 08:10:07
成都寶媽近一年狂掃5套“老破小”!地鐵口+軟裝實現(xiàn)以租養(yǎng)貸

成都寶媽近一年狂掃5套“老破小”!地鐵口+軟裝實現(xiàn)以租養(yǎng)貸

封面新聞
2026-03-25 21:28:05
日本內(nèi)閣官房長官就“強闖使館”事件表態(tài)

日本內(nèi)閣官房長官就“強闖使館”事件表態(tài)

新浪財經(jīng)
2026-03-25 18:48:42
岳云鵬現(xiàn)身上海,氣場跟以前完全不一樣了,助理當(dāng)街抽煙也不避諱

岳云鵬現(xiàn)身上海,氣場跟以前完全不一樣了,助理當(dāng)街抽煙也不避諱

仙味少女心
2026-03-24 16:47:29
第六險來了!一文讀懂“長護險”

第六險來了!一文讀懂“長護險”

極目新聞
2026-03-26 07:21:00
連場三雙,約基奇成為NBA歷史首位背靠背場均15+15+15的球員

連場三雙,約基奇成為NBA歷史首位背靠背場均15+15+15的球員

懂球帝
2026-03-26 14:02:09
出了一身臭汗,洗澡睡覺……

出了一身臭汗,洗澡睡覺……

鄉(xiāng)野小珥
2026-03-26 12:26:29
科學(xué)家在月球背面,發(fā)現(xiàn)了2200萬億噸金屬,它們究竟從何而來?

科學(xué)家在月球背面,發(fā)現(xiàn)了2200萬億噸金屬,它們究竟從何而來?

觀察宇宙
2026-03-25 20:24:45
“寫作業(yè)就頭痛,睡一覺又好了”,江蘇一家長以為孩子裝病逃避學(xué)習(xí),為探究竟帶往醫(yī)院,結(jié)果孩子突發(fā)腦出血,被送ICU,家屬:正在恢復(fù)中

“寫作業(yè)就頭痛,睡一覺又好了”,江蘇一家長以為孩子裝病逃避學(xué)習(xí),為探究竟帶往醫(yī)院,結(jié)果孩子突發(fā)腦出血,被送ICU,家屬:正在恢復(fù)中

瀟湘晨報
2026-03-26 11:49:57
美國最大的失誤就是一上來就把宋江給干掉了

美國最大的失誤就是一上來就把宋江給干掉了

仰望星空的一粒沙子
2026-03-14 16:25:14
東契奇:六連客最滿意的是從不放棄,布朗尼相比去年進步很大

東契奇:六連客最滿意的是從不放棄,布朗尼相比去年進步很大

懂球帝
2026-03-26 11:13:10
白人女性與黑人女性的體味差異,網(wǎng)友真實分享引發(fā)熱議

白人女性與黑人女性的體味差異,網(wǎng)友真實分享引發(fā)熱議

特約前排觀眾
2025-12-22 00:20:06
我愛上41歲女人,她開口:玩玩可以但不結(jié)婚,得知真相我癱坐在地

我愛上41歲女人,她開口:玩玩可以但不結(jié)婚,得知真相我癱坐在地

小月故事
2026-03-19 17:08:37
養(yǎng)肥了再宰?蒙古對西方巨頭下手了,這一刀也給中國提了個醒

養(yǎng)肥了再宰?蒙古對西方巨頭下手了,這一刀也給中國提了個醒

財經(jīng)保探長
2026-03-19 19:39:45
伊朗最新回應(yīng):已被特朗普欺騙了兩次,不想再被愚弄!3架F-15戰(zhàn)機墜毀,特朗普最新回應(yīng):小意外!伊朗致函聯(lián)合國,“176國傳閱”

伊朗最新回應(yīng):已被特朗普欺騙了兩次,不想再被愚弄!3架F-15戰(zhàn)機墜毀,特朗普最新回應(yīng):小意外!伊朗致函聯(lián)合國,“176國傳閱”

每日經(jīng)濟新聞
2026-03-25 16:15:05
CIA前局長稱相比特朗普更相信伊朗方面的表述

CIA前局長稱相比特朗普更相信伊朗方面的表述

極目新聞
2026-03-25 14:10:05
40分鐘連挨4輪導(dǎo)彈!以色列遭盟友背叛?中方:支持巴勒斯坦建國

40分鐘連挨4輪導(dǎo)彈!以色列遭盟友背叛?中方:支持巴勒斯坦建國

近史博覽
2026-03-26 09:52:59
2026-03-26 14:16:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14819文章數(shù) 66720關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

伊朗議長和外長暫被移出美以清除名單 時限4到5天

頭條要聞

伊朗議長和外長暫被移出美以清除名單 時限4到5天

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰家人首發(fā)聲 不設(shè)追思會喪事從簡

財經(jīng)要聞

黃仁勛:芯片公司的時代已經(jīng)結(jié)束了

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

教育
時尚
藝術(shù)
房產(chǎn)
數(shù)碼

教育要聞

2027屆注意:暑期實習(xí)=秋招通行證,錯過等一年

2026年了,最好看的還是“這件針織”!

藝術(shù)要聞

哪一座橋不是風(fēng)景?

房產(chǎn)要聞

質(zhì)價比標(biāo)桿!三亞首創(chuàng)浮島全景艙亮相,還得是萬科!

數(shù)碼要聞

Intel史上最先進!酷睿Ultra 300系列vPro平臺發(fā)布

無障礙瀏覽 進入關(guān)懷版