国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

一文了解虛擬細(xì)胞的前世今生

0
分享至

關(guān)于生物學(xué)的一個(gè)長(zhǎng)期笑話是,如果你喜歡科學(xué)但數(shù)學(xué)不好,那它是一個(gè)很棒的專業(yè)。

分子生物學(xué)不像物理學(xué)。生命系統(tǒng)的復(fù)雜性和非線性,要求以蠻力方式創(chuàng)造和傳播知識(shí)。生物學(xué)教科書充滿了事實(shí),而不是方程式。

人工智能正在以重大方式改變這一狀況。經(jīng)過(guò)數(shù)十年研究,深度學(xué)習(xí)有效地解決了三維蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的問(wèn)題,許多現(xiàn)實(shí)問(wèn)題通過(guò)收集數(shù)據(jù)更容易解決。

這一突破——以及蛋白質(zhì)設(shè)計(jì)的進(jìn)展——讓David Baker,、Demis Hassabis和John Jumper 獲得了2024年諾貝爾化學(xué)獎(jiǎng)。

這背后的邏輯并不難理解:很少有大分子像蛋白質(zhì)一樣重要,在解決和設(shè)計(jì)其結(jié)構(gòu)的能力上實(shí)現(xiàn)突破,意義很重大。

但整個(gè)分子復(fù)合物,以及這些復(fù)合物之間的相互作用呢?

我們已經(jīng)擁有特定部件的強(qiáng)大模型?,F(xiàn)在我們正在學(xué)習(xí)將部分組成整體的模型——讓我們更接近整體細(xì)胞的預(yù)測(cè)模型。

這似乎正是研究工作目前的發(fā)展方向。生物學(xué)中一個(gè)長(zhǎng)期以來(lái)的圣杯——有效模擬細(xì)胞行為——的關(guān)注明顯上升。

全球頂尖實(shí)驗(yàn)室和公司正競(jìng)相建設(shè)“虛擬細(xì)胞”,這一概念自世紀(jì)之交以來(lái)就存在。有了新工具,這個(gè)愿景現(xiàn)在似乎觸手可及。

一個(gè)特別重要的例子是最近的論文How to build the virtual cell with artificial intelligence: Priorities and opportunities(《如何用人工智能構(gòu)建虛擬細(xì)胞:優(yōu)先事項(xiàng)與機(jī)遇》)。

我們正看到第一波架構(gòu)創(chuàng)新浪潮——更重要的是,基準(zhǔn)測(cè)試——以及大規(guī)模生成多類數(shù)據(jù)的努力。

但在我們開始揭開AI虛擬細(xì)胞的真相之前,先來(lái)看看以前虛擬細(xì)胞是什么樣子?


早期探索

Markus Covert成長(zhǎng)于1980年代的硅谷,在大學(xué)期間,他決定學(xué)習(xí)化學(xué)工程,部分原因是他長(zhǎng)期以來(lái)對(duì)科學(xué)的興趣,部分原因是這被認(rèn)為是校園里最難的專業(yè)。

它名副其實(shí):真的很難。但回報(bào)并不完全值得。

對(duì)化學(xué)工程感到失望,Covert開始尋找當(dāng)時(shí)還非常少見的生物工程研究生項(xiàng)目。他最終來(lái)到了加州大學(xué)圣地亞哥分校,該校在1994年才成立了整個(gè)加州大學(xué)系統(tǒng)中第一個(gè)生物工程系。事實(shí)證明這是明智的選擇。


圖:Markus Covert

當(dāng)時(shí),基因組學(xué)領(lǐng)域剛剛開始合并。圣地亞哥是一個(gè)圣地——Craig Venter成立了基因組研究所,這是一個(gè)私營(yíng)研究中心,致力于應(yīng)對(duì)看似瘋狂的項(xiàng)目。

Venter是一位極具前瞻性和競(jìng)爭(zhēng)心的科學(xué)家,后來(lái)因與人類基因組計(jì)劃競(jìng)速而聞名,他召集了一小群科學(xué)家,這些人與他一樣,擁有熱情和雄心。

在一系列具有里程碑意義的論文中,他們繪制了首個(gè)自由生活生物的基因組圖譜、世界上最小生物(生殖支原體)的基因組,以及著名腸道病原體的基因組。

但這一愿景遠(yuǎn)遠(yuǎn)超出了基因組測(cè)序。Venter和他的團(tuán)隊(duì)推動(dòng)了一個(gè)研究議程,旨在在計(jì)算機(jī)上模擬整個(gè)細(xì)胞,最終甚至合成其基因組。排序、合成模擬,這些理念作為一個(gè)使命的一部分,旨在以一種根本全新的方式設(shè)計(jì)生命。

Covert十分欣賞這些成果,他師從Bernhard Palsson,后者是生物學(xué)計(jì)算機(jī)建模的早期先驅(qū)之一。Covert癡迷于生成可驗(yàn)證預(yù)測(cè)的美妙之處,他發(fā)表了一篇重要論文,Palsson的細(xì)胞代謝建模技術(shù)與基因調(diào)控的表示方法聯(lián)系起來(lái)。

之后,David Baltimore成為了Covert的博士后,隨便一提,David Baltimore在37歲時(shí)獲得諾貝爾獎(jiǎng),后來(lái)還成為了洛克菲勒大學(xué)校長(zhǎng),以及加州理工學(xué)院校長(zhǎng)。

在加州理工學(xué)院,Covert愛上了實(shí)驗(yàn)。他學(xué)會(huì)了將建模技術(shù)與細(xì)致實(shí)驗(yàn)結(jié)合起來(lái),追蹤實(shí)際細(xì)胞中的單個(gè)轉(zhuǎn)錄因子。

關(guān)鍵是,他接觸到了活細(xì)胞成像技術(shù)的早期原型。為了學(xué)習(xí),科弗特自愿在夜間監(jiān)視顯微鏡,他用雞卵孵化器、紙板和膠帶搭建了一個(gè)臨時(shí)設(shè)備,確保溫度穩(wěn)定在37度,以保證細(xì)胞存活。

最終,Covert有機(jī)會(huì)回到灣區(qū),在斯坦福創(chuàng)辦自己的實(shí)驗(yàn)室,繼續(xù)從事計(jì)算機(jī)建模和活細(xì)胞成像的研究

模擬一個(gè)細(xì)胞需要什么?

1984年,耶魯大學(xué)的生物物理學(xué)家Harold Morowitz在一篇題為The completeness of molecular biology的文章中提出了一個(gè)計(jì)劃。

首先,測(cè)序最小的生物——分枝桿菌。Covert已經(jīng)做過(guò)類似的事,確認(rèn)了這件事。

接下來(lái),模擬基因組中估計(jì)存在的600個(gè)基因的行為。Morowitz推理道:“在600步中,計(jì)算機(jī)模型是可行的,實(shí)驗(yàn)室中所有實(shí)驗(yàn)也可以在計(jì)算機(jī)上進(jìn)行。這些匹配程度衡量了分子生物學(xué)范式的完整性?!?/p>

但實(shí)際上,這一步比預(yù)期的要困難得多。早期原型僅代表了M. genitalium基因組中的127個(gè)基因,模擬結(jié)果幾乎不像實(shí)驗(yàn)。分子生物學(xué)的范式感覺遠(yuǎn)未完整。

時(shí)間到2008年,突然,Covert將整個(gè)訓(xùn)練中收集的零散想法開始拼湊起來(lái)。

在加州理工學(xué)院,他曾用顯微鏡觀察單個(gè)細(xì)胞。全細(xì)胞模擬應(yīng)當(dāng)以近似一個(gè)細(xì)胞為目標(biāo),而非對(duì)多個(gè)細(xì)胞群體進(jìn)行近似。與他的論文工作類似,這需要將不同細(xì)胞過(guò)程的不同數(shù)學(xué)表示整合到一個(gè)模型中。

他立即開始繪制單個(gè)M. genitalium細(xì)胞中每個(gè)細(xì)胞過(guò)程的模塊,雪球開始滾起來(lái)了。Covert招募了兩名研究生,Jonathan Karr 和 Jayodita Sanghvi,他們?cè)敢鈪⑴c這項(xiàng)新項(xiàng)目。

這兩位研究生花了兩年時(shí)間訪問(wèn)多家研究圖書館,實(shí)地掃描了近千篇研究論文。他們正在尋找任何關(guān)于生殖分枝桿菌的分子信息。所有這些數(shù)據(jù)點(diǎn),以及其他物種的理論假設(shè)和測(cè)量數(shù)據(jù),都存儲(chǔ)在MySQL數(shù)據(jù)庫(kù)中。

隨著建模工作的擴(kuò)展和完善,團(tuán)隊(duì)也不斷壯大。他們采用了測(cè)試驅(qū)動(dòng)開發(fā),并向面向?qū)ο缶幊棠P桶l(fā)展。每個(gè)離散的細(xì)胞過(guò)程和分子都被作為獨(dú)立對(duì)象表示,以幫助應(yīng)對(duì)問(wèn)題的復(fù)雜性。

另一個(gè)重要的建模假設(shè)是,“盡管所有這些生物過(guò)程在活細(xì)胞中同時(shí)發(fā)生,但它們的作用在不到一秒的時(shí)間內(nèi)實(shí)際上是獨(dú)立的?!边@意味著每個(gè)模塊——總共有28個(gè)——可以獨(dú)立執(zhí)行每個(gè)一秒間隔。

目進(jìn)行多年,沒有實(shí)證證據(jù)表明這一關(guān)鍵假設(shè)——或許多內(nèi)置于模型中的假設(shè)——能真正產(chǎn)生結(jié)果。正如Covert回憶的那樣,“這是一次信念的飛躍?!?/p>

這款模型一開始性能極差。模擬與現(xiàn)實(shí)幾乎沒有對(duì)應(yīng)關(guān)系。但經(jīng)過(guò)一年多的調(diào)整和調(diào)試,實(shí)驗(yàn)和數(shù)字成果開始趨于一致。

最終成果發(fā)表于2012Cell:每一個(gè)注釋的基因都被記錄在內(nèi)。每個(gè)細(xì)胞過(guò)程都配備了不同的數(shù)學(xué)工具。


圖:A Whole-Cell Computational Model Predicts Phenotype from Genotype

雖然遠(yuǎn)非完美,但全細(xì)胞模型近似了細(xì)胞的生長(zhǎng)和分裂,產(chǎn)生的數(shù)值在廣泛的代謝數(shù)據(jù)范圍內(nèi)相差一個(gè)數(shù)量級(jí),并與實(shí)驗(yàn)基因表達(dá)數(shù)據(jù)相關(guān)聯(lián)。

這是一大進(jìn)步。設(shè)計(jì)核心元素之一是在模擬的每個(gè)步驟中引入傳感器讀取細(xì)胞狀態(tài)。借助這臺(tái)數(shù)字測(cè)量設(shè)備,他們用模型探索了廣泛的生物學(xué)問(wèn)題。

這才是真正的“模型驅(qū)動(dòng)的生物學(xué)發(fā)現(xiàn)”。正如Horowitz所設(shè)想的,預(yù)測(cè)與實(shí)驗(yàn)之間的每一次差異,都是接近分子生物學(xué)“完整”理解的機(jī)會(huì)。

而且存在許多矛盾。作者完全承認(rèn)這一點(diǎn),并表示:“與人類基因組序列的首次報(bào)告類似,這里呈現(xiàn)的模型是'初稿',需要大量努力才能被視為模型完整?!?/p>

推進(jìn)進(jìn)展的一個(gè)主要瓶頸是與其他模式生物相比,生殖單粒菌缺乏實(shí)驗(yàn)可處理性。該生物體較小的基因組幫助縮小了首個(gè)全細(xì)胞模型的挑戰(zhàn)范圍。但生殖單胞菌細(xì)胞體積小、抗生素耐藥性強(qiáng)以及缺乏成熟工具,使得實(shí)驗(yàn)室中無(wú)法驗(yàn)證某些預(yù)測(cè)。

自這項(xiàng)工作以來(lái)的十三年里,Covert的實(shí)驗(yàn)室和其他團(tuán)隊(duì)一直在大腸桿菌建模問(wèn)題上不斷推進(jìn)。雖然大腸桿菌是最簡(jiǎn)單的模式生物之一,但其基因組幾乎比生殖單體單體大一個(gè)數(shù)量級(jí),包含超過(guò)4,000個(gè)基因。

Covert認(rèn)為自那以后已經(jīng)取得了相當(dāng)大的進(jìn)展。他認(rèn)為我們正接近一個(gè)“圖靈測(cè)試時(shí)刻”,即沒有任何大腸桿菌生物學(xué)家能可靠地檢測(cè)模擬結(jié)果與匹配實(shí)驗(yàn)結(jié)果之間的差異。

對(duì)于研究最詳盡的微生物之一來(lái)說(shuō),模擬與現(xiàn)實(shí)可能很快難以區(qū)分。

對(duì)于擁有數(shù)十億DNA堿基對(duì)和數(shù)萬(wàn)個(gè)基因的人類細(xì)胞來(lái)說(shuō),機(jī)制性全細(xì)胞模型的時(shí)間線則不那么確定。這可能仍然是一種信心的飛躍。

這又回到梯度下降的問(wèn)題。假如細(xì)胞的計(jì)算機(jī)模型是我們應(yīng)該從數(shù)據(jù)中學(xué)習(xí)的典型程序,而不是試圖手動(dòng)定義和參數(shù)化呢?


范式轉(zhuǎn)變

硅谷自20世紀(jì)80年代以來(lái)發(fā)生了變化。雖然建筑環(huán)境依然令人沮喪地穩(wěn)定,但科技卻爆發(fā)式增長(zhǎng)。在全球十大最大公司中,有七家已成為科技公司。

能力越大,責(zé)任越大。

20世紀(jì),安德魯·卡內(nèi)基、約翰·D·洛克菲勒和亨利·福特向公共工程項(xiàng)目捐贈(zèng)了前所未有的資金。全新的大學(xué)、研究機(jī)構(gòu)、圖書館和醫(yī)院相繼成立。

這些都是新科技精英們必須承擔(dān)的重任,他們現(xiàn)在正努力如何最好地發(fā)揮新獲得的權(quán)力。與他們的前輩類似,硅谷慈善家早期的重點(diǎn)是科學(xué)研究。歷史不會(huì)重演,但常常押韻

一個(gè)核心例子是·扎克伯格倡議。CZI成立于2015年,馬克·扎克伯格和普莉西拉·陳宣布將通過(guò)CZI的努力捐贈(zèng)他們99%的Facebook(現(xiàn)Meta)分享內(nèi)容。

CZI的第一個(gè)重大項(xiàng)目是建立一個(gè)耗資30億美元的生物中心,為灣區(qū)三大生物醫(yī)學(xué)研究機(jī)構(gòu)——加州大學(xué)舊金山分校、伯克利大學(xué)和斯坦福大學(xué)——提供新的資源。

生物中心的創(chuàng)始使命是“在本世紀(jì)末治愈、預(yù)防和管理所有疾病”,這一觀點(diǎn)立即引發(fā)了極大分歧。

起初,科學(xué)家們——包括CZI首任科學(xué)主管Steve Quake——對(duì)此嗤之以鼻。Quake開玩笑道:“我可沒法正經(jīng)地說(shuō)......我不知道你為什么雇我,因?yàn)槲艺f(shuō)不出任務(wù)?!?/p>

但漸漸地,這個(gè)想法被他和其他科學(xué)家接受了。在大多數(shù)研究依賴于官僚主義且日益保守的NIH,新機(jī)構(gòu)是件好事。更關(guān)鍵的是,更長(zhǎng)的資金周期意味著科學(xué)家們可以采取更大膽的賭注。將這些項(xiàng)目堆疊起來(lái)超過(guò)一個(gè)世紀(jì),誰(shuí)知道會(huì)發(fā)生什么?

據(jù)Quake說(shuō),CZI未來(lái)十年的終極目標(biāo)是理解細(xì)胞的奧秘。

其理由有兩個(gè)。

首先,人工智能正在發(fā)生。他們認(rèn)為蛋白質(zhì)是這些技術(shù)在生物學(xué)中的首次突破性應(yīng)用,但不會(huì)是最后一個(gè)。

其次,AI需要大量數(shù)據(jù)。AlphaFold及后續(xù)蛋白質(zhì)模型之所以成為可能,正是因?yàn)檠芯咳藛T數(shù)十年來(lái)貢獻(xiàn)的晶體結(jié)構(gòu)數(shù)據(jù)庫(kù)。在細(xì)胞數(shù)據(jù)方面,CZI在開發(fā)龐大的單細(xì)胞基因組測(cè)量圖譜上投入巨大。

也許這些龐大的單細(xì)胞數(shù)據(jù)集能夠推動(dòng)人工智能模型在預(yù)測(cè)細(xì)胞行為方面的性能發(fā)生重大變化。

2024年3月,CZI的AI團(tuán)隊(duì)由Theofanis Karaletsos領(lǐng)導(dǎo)。首要任務(wù)是在舊金山生物中心舉辦一個(gè)工作坊,開始更詳細(xì)地勾勒這個(gè)論點(diǎn)。他們召集了一群頂尖的人工智能研究人員和單細(xì)胞生物學(xué)家,共同探討可能實(shí)現(xiàn)的方案。


最終,研討會(huì)上的對(duì)話幫助統(tǒng)一了每個(gè)實(shí)驗(yàn)室正在發(fā)展的想法。經(jīng)過(guò)數(shù)月的積累,這些想法被濃縮成一篇題為《如何用人工智能構(gòu)建虛擬細(xì)胞:優(yōu)先事項(xiàng)與機(jī)遇》的文章。

在引言中,作者概述了此前在細(xì)胞模擬領(lǐng)域的努力??聘ヌ?012年的“開創(chuàng)性工作”被認(rèn)為是一個(gè)重要里程碑。

但也指出了自下而上的機(jī)械方法面臨的挑戰(zhàn)。

細(xì)胞由一組多樣且極其復(fù)雜的過(guò)程組成。每個(gè)過(guò)程都跨越從原子到整個(gè)身體組織系統(tǒng)的尺度。更糟糕的是,細(xì)胞行為往往是非線性的,信號(hào)的細(xì)微差異可能導(dǎo)致下游發(fā)生巨大變化。

我們是否有可能實(shí)現(xiàn)對(duì)哺乳動(dòng)物細(xì)胞的完整自下而上的數(shù)學(xué)描述?什么時(shí)候?

相反,作者提出了另一種方法:科學(xué)與技術(shù)領(lǐng)域的兩場(chǎng)激動(dòng)人心的革命——人工智能和組學(xué)——現(xiàn)在使得直接從數(shù)據(jù)學(xué)習(xí)的細(xì)胞模型能夠構(gòu)建起來(lái)。

或許他們說(shuō)得對(duì),在幾乎所有數(shù)據(jù)充足的計(jì)算機(jī)建模領(lǐng)域,學(xué)習(xí)模型都優(yōu)于更詳細(xì)的機(jī)制模型。

考慮自然語(yǔ)言處理。數(shù)十年研究構(gòu)建了極其細(xì)致的語(yǔ)言學(xué)和語(yǔ)義模型,這些模型后來(lái)被Transformer取代。Transformer是一種通用方法,可以隨數(shù)據(jù)擴(kuò)展并計(jì)算出豐富的語(yǔ)言表示。

CZI論文中提出的論點(diǎn)是,我們應(yīng)該對(duì)細(xì)胞生物學(xué)進(jìn)行同樣的測(cè)試。但我們沒有互聯(lián)網(wǎng)數(shù)據(jù),而是基于組學(xué)數(shù)據(jù)進(jìn)行構(gòu)建。測(cè)序技術(shù)的進(jìn)步甚至超過(guò)了摩爾定律。


自人類基因組計(jì)劃以來(lái),隨著DNA測(cè)序技術(shù)的指數(shù)級(jí)進(jìn)步,我們現(xiàn)在可以制作出極其宏大的單細(xì)胞測(cè)量圖譜。與其費(fèi)盡心思地基于人類知識(shí)開發(fā)數(shù)學(xué)模型,不如直接從這些數(shù)據(jù)中學(xué)習(xí)細(xì)胞動(dòng)力學(xué)呢?

AI虛擬細(xì)胞(AIVC)方法中,我們應(yīng)重點(diǎn)利用通用學(xué)習(xí)方法捕捉每個(gè)主要細(xì)胞構(gòu)建模塊的通用表征(UR),如DNA、RNA和蛋白質(zhì)。

再說(shuō)一次,把它看作是一個(gè)大型套娃,由不同生物模型模型組成。DNA模型。RNA模型。蛋白質(zhì)模型。以及一個(gè)模型,將這些信息整合進(jìn)細(xì)胞行為快照中,結(jié)合顯微鏡、蛋白質(zhì)組學(xué)或RNA測(cè)序等數(shù)據(jù)類型。最終,將這些模型連接起來(lái),以表示多細(xì)胞相互作用。


這個(gè)策略中最反直覺的部分可能是成功應(yīng)是什么樣子。

我們會(huì)有一個(gè)細(xì)胞生物學(xué)的模型——只是我們根本無(wú)法理解它!

本質(zhì)上,我們是在用虛擬模擬體替換物理細(xì)胞。主要好處是虛擬實(shí)驗(yàn)的規(guī)模是物理實(shí)驗(yàn)無(wú)法做到的。理論上,我們可以用這些模型檢驗(yàn)數(shù)十億甚至數(shù)萬(wàn)億個(gè)假設(shè)。如果結(jié)果看起來(lái)有希望,可以在物理現(xiàn)實(shí)中得到驗(yàn)證。

像大多數(shù)觀點(diǎn)一樣,AIVC論文試圖整合許多已經(jīng)在討論中的觀點(diǎn)。許多作者已經(jīng)花費(fèi)多年時(shí)間測(cè)試相關(guān)方法。像2023年發(fā)布的通用細(xì)胞嵌入模型展示了如何將蛋白質(zhì)模型與RNA數(shù)據(jù)整合以創(chuàng)建細(xì)胞表征。其他架構(gòu)如GEARS和scGPT已經(jīng)開發(fā)出來(lái),用于模擬細(xì)胞擾動(dòng)。

核心信息是,這一研究方向是最有前景的道路。論文總結(jié)道:“我們相信,我們正邁入一個(gè)科學(xué)探索和理解的新時(shí)代。AIVC所體現(xiàn)的人工智能與生物學(xué)的融合,標(biāo)志著生物學(xué)領(lǐng)域的范式轉(zhuǎn)變。


挑戰(zhàn)仍在

非凡的主張需要非凡的證據(jù)。每當(dāng)新的建模范式出現(xiàn)時(shí),其他科學(xué)家都會(huì)立即試圖對(duì)其提出漏洞。通常,主張?jiān)胶甏?,回?yīng)越快、越大規(guī)模。

隨著AI細(xì)胞模型的出現(xiàn),第三方基準(zhǔn)和評(píng)估開始陸續(xù)出現(xiàn)。其中一些結(jié)果相當(dāng)令人驚訝。

2024年9月,一組德國(guó)經(jīng)驗(yàn)豐富的生物統(tǒng)計(jì)學(xué)家發(fā)布了一份預(yù)印本,比較了許多最早用于擾動(dòng)預(yù)測(cè)的人工智能模型與“刻意簡(jiǎn)化”的線性模型。

預(yù)測(cè)對(duì)擾動(dòng)的反應(yīng)已成為AIVC研究人員的主要關(guān)注領(lǐng)域。通過(guò)像CRISPR這樣的實(shí)驗(yàn)工具,特定基因可以被上調(diào)或下調(diào),就像打開大型細(xì)胞控制面板上的節(jié)點(diǎn)一樣。

通過(guò)RNA測(cè)序,可以根據(jù)作看到哪些基因被調(diào)高或降低。像Perturb-seq這樣的方法被發(fā)明出來(lái),以大規(guī)模實(shí)現(xiàn)這一目標(biāo)。

因此,德國(guó)實(shí)驗(yàn)室評(píng)估了模型在兩個(gè)基因同時(shí)上調(diào)時(shí),預(yù)測(cè)這些反應(yīng)的準(zhǔn)確度。

反直覺的是,簡(jiǎn)單模型的錯(cuò)誤率低于復(fù)雜的人工智能模型。


圖:基于深度學(xué)習(xí)的基因擾動(dòng)效應(yīng)預(yù)測(cè)尚未超過(guò)簡(jiǎn)單的線性基線

用于這類預(yù)測(cè)任務(wù)的人工智能模型顯然很有前景。線性基線的開發(fā)者寫道:“我們不認(rèn)為基礎(chǔ)模型在預(yù)測(cè)任務(wù)中的負(fù)面結(jié)果是反對(duì)該研究方向的理由......Transformer架構(gòu)和轉(zhuǎn)移學(xué)習(xí)范式為許多機(jī)器學(xué)習(xí)任務(wù)帶來(lái)的進(jìn)展是真實(shí)且實(shí)質(zhì)性的。

但最初的實(shí)現(xiàn)仍感覺遠(yuǎn)未達(dá)到基準(zhǔn)開發(fā)者所說(shuō)的“非凡洞見”。

詢問(wèn)了AIVC觀點(diǎn)的主要作者Yanay Rosen和Yusuf Roohani,他們?nèi)绾谓庾x這些結(jié)果。兩位研究者都坦率承認(rèn)這些早期原型模型的局限性。


Rosen還指出,在創(chuàng)建通用細(xì)胞嵌入的任務(wù)中,AI模型已經(jīng)產(chǎn)生了無(wú)法用更簡(jiǎn)單方法捕捉的結(jié)果。這些方法使得在單一共享坐標(biāo)空間中表示不同數(shù)據(jù)集、組織類型甚至物種的細(xì)胞成為可能。

最近,CZI的人工智能團(tuán)隊(duì)通過(guò)發(fā)布Transcriptformer模型,進(jìn)一步拓展了這一研究方向。該模型基于來(lái)自12個(gè)不同物種的1.12億多個(gè)細(xì)胞進(jìn)行訓(xùn)練,涵蓋了15億年的進(jìn)化距離,設(shè)計(jì)用于廣泛的預(yù)測(cè)任務(wù)。

CZI團(tuán)隊(duì)在新聞稿中寫道:“研究人員可以使用TranscriptForformer預(yù)測(cè)不同類型的細(xì)胞,細(xì)胞是否病變,以及基因之間的相互作用?!?/p>

相對(duì)于所有細(xì)胞進(jìn)行定位任務(wù),人工智能模型似乎有足夠的數(shù)據(jù)發(fā)揮作用。但在預(yù)測(cè)細(xì)胞在受擾時(shí)的變化動(dòng)態(tài)方面,現(xiàn)有數(shù)據(jù)和模型似乎不足以實(shí)現(xiàn)。

但這種情況開始改變,

Roohani目前領(lǐng)導(dǎo)Arc Institute的機(jī)器學(xué)習(xí)研究組,他對(duì)與實(shí)驗(yàn)者更緊密的融合感到非常興奮。Arc Institute是另一項(xiàng)大型科技慈善項(xiàng)目,推出了自己的虛擬細(xì)胞圖譜項(xiàng)目。主要關(guān)注點(diǎn)是大規(guī)模數(shù)據(jù)生成。

Arc團(tuán)隊(duì)發(fā)布了該研究項(xiàng)目的新結(jié)果。他們的新模型名為STATE,似乎是擾動(dòng)預(yù)測(cè)領(lǐng)域的一大進(jìn)步。你可以看到基準(zhǔn)測(cè)試開發(fā)者與方法開發(fā)者之間的互動(dòng):線性基線現(xiàn)在成為了核心。而這一次,模型似乎更有效地捕捉到“非凡洞見”。

性能提升的關(guān)鍵驅(qū)動(dòng)力來(lái)自于對(duì)數(shù)據(jù)中生物噪聲的更細(xì)致表現(xiàn)。細(xì)胞本質(zhì)上是噪聲大、異質(zhì)的系統(tǒng)——與之交互的實(shí)驗(yàn)也帶來(lái)了自身的局限。STATE利用數(shù)學(xué)來(lái)考慮可能掩蓋真實(shí)信號(hào)的生物和實(shí)驗(yàn)噪聲。

當(dāng)他們這樣做時(shí),會(huì)發(fā)生一件非常重要的事情:模型的性能似乎隨著數(shù)據(jù)的增加而顯著提升。

最近,Tahoe開源了一個(gè)龐大的數(shù)據(jù)集,涵蓋了1億個(gè)不同細(xì)胞中的6萬(wàn)次藥物擾動(dòng)——遠(yuǎn)遠(yuǎn)超過(guò)所有其他公開的單細(xì)胞數(shù)據(jù)集。經(jīng)過(guò)如此規(guī)模的數(shù)據(jù)和細(xì)胞環(huán)境多樣性的訓(xùn)練,State模型能夠推廣到更廣泛的擾動(dòng)預(yù)測(cè)。

總體而言,State的性能和靈活性為虛擬細(xì)胞模型的擴(kuò)展奠定了基礎(chǔ)。


那么,什么是虛擬細(xì)胞?讓我們先從它們不是什么說(shuō)起。

聽到這個(gè)詞,很難不想象一個(gè)細(xì)胞在旋轉(zhuǎn)三維光輝中華麗的圖形表現(xiàn)。關(guān)鍵是,每一個(gè)分子機(jī)械的表現(xiàn)都會(huì)像在真實(shí)細(xì)胞內(nèi)一樣。

科學(xué)家們還沒有在構(gòu)建這些——至少目前還沒有。

對(duì)Covert來(lái)說(shuō),更合適的類比是氣象模擬。正如他和他的研究團(tuán)隊(duì)在他們最近的觀點(diǎn)中所寫:“數(shù)值天氣預(yù)報(bào)是一項(xiàng)綜合性工作,旨在將來(lái)自全球和空間、跨越多個(gè)時(shí)間尺度的觀測(cè)數(shù)據(jù)整合到一個(gè)數(shù)學(xué)模型中,該模型既能保持全球系統(tǒng)的初始狀態(tài),還能提前幾天預(yù)測(cè)大氣變化?!?/p>

他和其他人希望建立一個(gè)能夠模擬微生物系統(tǒng)的等效數(shù)學(xué)模型。正如Morowitz

在20世紀(jì)80年代設(shè)想的那樣,這些模型中的每一個(gè)故障都可以被視為我們分子生物學(xué)更廣泛地圖中的負(fù)空間。

人工智能研究人員對(duì)這個(gè)問(wèn)題的看法不同。他們讓數(shù)據(jù)自行說(shuō)明。第一個(gè)目標(biāo)是預(yù)測(cè),而不是理解。

如果這些模型獲得了極強(qiáng)的預(yù)測(cè)能力呢?真正的工作才剛剛開始。借助儀器,生物學(xué)家能夠以實(shí)驗(yàn)室難以想象的控制大規(guī)模細(xì)胞。

隨著時(shí)間推移,這些獨(dú)特的聲音可能會(huì)融合。自下而上的機(jī)械建模工作可能會(huì)開始將人工智能方法整合進(jìn)他們的系統(tǒng)。

同樣,隨著AIVC的研究工作超越RNA,模型架構(gòu)將變得越來(lái)越復(fù)雜。具有不同生物過(guò)程不同模塊的分層系統(tǒng)將開始類似于全細(xì)胞模擬領(lǐng)域的方法。

目前,Arc Institute的目標(biāo)更簡(jiǎn)單:讓現(xiàn)有模型足夠好,讓實(shí)驗(yàn)者采納并使用它們。就像“GPT時(shí)刻”一樣。

未來(lái),細(xì)胞生物學(xué)從“90%實(shí)驗(yàn)、10%計(jì)算”,反過(guò)來(lái)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
向太太敢說(shuō)了!向華強(qiáng)今年已經(jīng)78了,但是她和向華強(qiáng)還有X生活!

向太太敢說(shuō)了!向華強(qiáng)今年已經(jīng)78了,但是她和向華強(qiáng)還有X生活!

小娛樂(lè)悠悠
2025-12-23 14:57:09
影后辛芷蕾,這張照片攝影師得加雞腿,抓拍的太到位了

影后辛芷蕾,這張照片攝影師得加雞腿,抓拍的太到位了

徐幫陽(yáng)
2025-12-23 18:33:38
1夜3筆轉(zhuǎn)會(huì)確認(rèn)!米蘭冬窗首簽,皇馬天才離隊(duì),曼城強(qiáng)援即將到位

1夜3筆轉(zhuǎn)會(huì)確認(rèn)!米蘭冬窗首簽,皇馬天才離隊(duì),曼城強(qiáng)援即將到位

阿超他的體育圈
2025-12-25 05:29:13
你老公“免死金牌”怎么來(lái)的?網(wǎng)友:跟婆婆吵多兇 都感恩一輩子

你老公“免死金牌”怎么來(lái)的?網(wǎng)友:跟婆婆吵多兇 都感恩一輩子

夜深愛雜談
2025-12-24 16:45:13
陳鐵群同志逝世

陳鐵群同志逝世

新京報(bào)政事兒
2025-12-25 10:16:35
工信部:11月我國(guó)移動(dòng)電話用戶總數(shù)減少200萬(wàn)戶

工信部:11月我國(guó)移動(dòng)電話用戶總數(shù)減少200萬(wàn)戶

南方都市報(bào)
2025-12-24 20:05:21
海南“零關(guān)稅”豪車真相:寶馬X5、保時(shí)捷卡宴鮮有符合要求車型,免稅進(jìn)口車僅限企業(yè)營(yíng)運(yùn)

海南“零關(guān)稅”豪車真相:寶馬X5、保時(shí)捷卡宴鮮有符合要求車型,免稅進(jìn)口車僅限企業(yè)營(yíng)運(yùn)

每日經(jīng)濟(jì)新聞
2025-12-23 16:32:04
逃離商場(chǎng)的“特斯拉們”,為何撐不下去了?

逃離商場(chǎng)的“特斯拉們”,為何撐不下去了?

金錯(cuò)刀
2025-12-24 10:09:57
雷軍急推YU9被質(zhì)疑,網(wǎng)友:中年人怎敢把全家托付給小米!

雷軍急推YU9被質(zhì)疑,網(wǎng)友:中年人怎敢把全家托付給小米!

熱點(diǎn)菌本君
2025-12-23 19:06:18
起底南博院長(zhǎng)徐湖平,我發(fā)現(xiàn)幾件趣事

起底南博院長(zhǎng)徐湖平,我發(fā)現(xiàn)幾件趣事

亮見
2025-12-23 15:19:40
從斬殺線到方便面

從斬殺線到方便面

美第奇效應(yīng)
2025-12-24 00:08:39
當(dāng)段奕宏和00后演員同框,一個(gè)健壯一個(gè)油頭粉面,才懂啥叫真男人

當(dāng)段奕宏和00后演員同框,一個(gè)健壯一個(gè)油頭粉面,才懂啥叫真男人

銀河史記
2025-12-24 14:32:30
一夜之間,房?jī)r(jià)的玩笑這次開大了

一夜之間,房?jī)r(jià)的玩笑這次開大了

重遠(yuǎn)投資觀
2025-12-24 12:14:19
美國(guó)要絕望!殲-20生產(chǎn)超300架已宣告停產(chǎn),理由居然是:已經(jīng)落后

美國(guó)要絕望!殲-20生產(chǎn)超300架已宣告停產(chǎn),理由居然是:已經(jīng)落后

胖福的小木屋
2025-12-24 23:49:37
男女干部戴頭套開房后續(xù):女主高清照片流出,男主六月新婚

男女干部戴頭套開房后續(xù):女主高清照片流出,男主六月新婚

沒有偏旁的常慶
2025-12-25 06:58:51
師范生的“天塌了”:江西2027年起取消教師全省統(tǒng)招,真沒崗了

師范生的“天塌了”:江西2027年起取消教師全省統(tǒng)招,真沒崗了

另子維愛讀史
2025-12-24 17:07:45
柬埔寨“生命科學(xué)院”全中文服務(wù),網(wǎng)友炸鍋:私人訂制

柬埔寨“生命科學(xué)院”全中文服務(wù),網(wǎng)友炸鍋:私人訂制

胡嚴(yán)亂語(yǔ)
2025-12-24 19:10:52
以色列已經(jīng)告訴世界:日本若敢擁核,美國(guó)并不會(huì)第一個(gè)翻臉

以色列已經(jīng)告訴世界:日本若敢擁核,美國(guó)并不會(huì)第一個(gè)翻臉

李健政觀察
2025-12-25 13:47:21
新進(jìn)展!南博前職工再曝猛料 買“贗品”神秘人扒出 倒賣流程曝光

新進(jìn)展!南博前職工再曝猛料 買“贗品”神秘人扒出 倒賣流程曝光

社會(huì)日日鮮
2025-12-24 06:20:47
2025年C919交付大跳水之謎:說(shuō)好的75架,只剩零頭?

2025年C919交付大跳水之謎:說(shuō)好的75架,只剩零頭?

矚望云霄
2025-12-24 10:30:09
2025-12-25 14:40:49
智藥局 incentive-icons
智藥局
我們更懂藥物創(chuàng)新
954文章數(shù) 170關(guān)注度
往期回顧 全部

科技要聞

屠龍少年被"招安"!英偉達(dá)平安夜豪擲200億

頭條要聞

朱孝天舉報(bào)阿信所屬公司:勾結(jié)黃牛炒票逃稅、假唱

頭條要聞

朱孝天舉報(bào)阿信所屬公司:勾結(jié)黃牛炒票逃稅、假唱

體育要聞

單賽季11冠,羽壇“安洗瑩時(shí)代”真的來(lái)了

娛樂(lè)要聞

金莎小19歲男友求婚成功!兩人雪地?fù)砦?/h3>

財(cái)經(jīng)要聞

美國(guó)未來(lái)18個(gè)月不對(duì)中國(guó)芯片加額外關(guān)稅

汽車要聞

預(yù)售31.3萬(wàn)元起 全新奧迪Q5L將于1月內(nèi)上市

態(tài)度原創(chuàng)

游戲
藝術(shù)
房產(chǎn)
健康
公開課

4G游戲塞了3G音樂(lè),這款騰訊游戲如何成了500萬(wàn)人的隨身聽?

藝術(shù)要聞

緬懷 | 著名油畫家宮立龍逝世,享年73歲

房產(chǎn)要聞

硬核!央企海口一線江景頂流紅盤,上演超預(yù)期交付!

這些新療法,讓化療不再那么痛苦

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版