国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Evo-2登上Nature:AI模型實現(xiàn)對所有生命基因組的建模和設(shè)計,甚至能從頭設(shè)計生命

0
分享至


撰文丨王聰

編輯丨王多魚

排版丨水成文

所有生命都是用 DNA 編碼信息。盡管基因組測序、合成和基因組編輯工具已經(jīng)改變了生物學(xué)研究,但我們對基因組所編碼的巨大復(fù)雜性的理解,仍不充分,無法預(yù)測許多類型的基因組變化的影響,也無法智能地構(gòu)建新的生物系統(tǒng)。

飛速發(fā)展的人工智能模型(AI Model)能夠從不同生物的基因組序列中學(xué)習(xí)、提取信息,其預(yù)測和設(shè)計能力日益增強,為我們實現(xiàn)預(yù)測生命和設(shè)計生命提供了前所未有的機會。

2026 年 3 月 4 日,Arc 研究所的Patrick HsuBrian Hie團隊聯(lián)合斯坦福大學(xué)、加州大學(xué)伯克利分校、加州大學(xué)舊金山分校以及英偉達的科學(xué)家,在國際頂尖學(xué)術(shù)期刊Nature上發(fā)表了題為:Genome modelling and design across all domains of life with Evo 2 的研究論文。

這標志著有史以來最大的生物學(xué)人工智能模型(AI model for biology)——Evo-2,經(jīng)過了同行評議后正式發(fā)表。該模型訓(xùn)練了從病毒到單細胞的細菌、古菌,再到真核生物以及多細胞的植物以及人類的生命之樹中的 12.8 萬個基因組的9.3 萬億個核苷酸,從而能夠?qū)崿F(xiàn)對所有生命域的理解、建模和設(shè)計遺傳密碼,從頭開始編寫整個染色體,甚至從頭設(shè)計生命,還能準確預(yù)測所有類型的基因突變(包括編碼基因和非編碼基因)的影響。

Evo-2 的訓(xùn)練使用了 2000 多個英偉達 H100 GPU,并得到了英偉達研究人員和工程師的合作支持。更重要的是,Evo-2 是完全開源的,在 GitHub 上共享了模型參數(shù)、訓(xùn)練代碼、推理代碼以及訓(xùn)練使用的 OpenGenome 2 數(shù)據(jù)集。世界各地的研究人員可以通過英偉達 BioNeMo 平臺免費訪問以及部署 Evo-2,從而加速對生物復(fù)雜性的探索和設(shè)計。


Evo-1

2024 年 11 月 15 日,Patrick HsuBrian Hie團隊在國際頂尖學(xué)術(shù)期刊Sciencce上發(fā)表了題為:Sequence modeling and design from molecular to genome scale with Evo 的研究論文,該論文還被選為當期封面論文。

該論文發(fā)布了首個在全基因組規(guī)模上以單核苷酸分辨率預(yù)測和生成 DNA 序列的 AI 模型——Evo。

Evo是在原核生物(細菌、古菌)和噬菌體的基因組上進行訓(xùn)練,能夠在 DNA、RNA 和蛋白質(zhì)模式下實現(xiàn)零樣本功能預(yù)測,還能夠生成長度超過百萬堿基對的具有合理基因組結(jié)構(gòu)的 DNA 序列。研究團隊使用 Evo 生成了CRISPR-Cas分子復(fù)合物和IS200/IS605轉(zhuǎn)座子,并驗證了它們的功能活性,這也是首次通過語言模型實現(xiàn)蛋白質(zhì)-RNA 和蛋白質(zhì)-DNA 協(xié)同設(shè)計的實例



Brian Hie(左)和Patrick Hsu(右)

Evo-2

所有生命都以DNA編碼信息,就像人類用語言記錄思想。盡管基因測序、合成和編輯技術(shù)已經(jīng)相當成熟,但我們?nèi)匀浑y以完全理解基因組中蘊含的復(fù)雜信息,更無法精準預(yù)測基因突變的影響或智能設(shè)計新的生物系統(tǒng)。

Evo-2的核心理念是將DNA視為一種“生命語言”,通過大規(guī)模無監(jiān)督學(xué)習(xí),讓 AI 自行掌握這種語言的語法和語義。

Evo-2 的前身 Evo 完全是在單細胞生命的基因組上進行訓(xùn)練的,而 Evo-2 進一步將其訓(xùn)練數(shù)據(jù)擴展到了生命的所有域——從細菌、古細菌、噬菌體,以及植物、動物、人類和其它單細胞和多細胞的真核生物,總計12.8 萬個全基因組和宏基因組數(shù)據(jù)的 9.3 萬億個核苷酸(包含編碼序列和非編碼序列),訓(xùn)練參數(shù)高達 400 億(Evo-2 有兩個版本,訓(xùn)練參數(shù)分別是 70 億和 400 億)。訓(xùn)練過程使用了超過 2000 張英偉達 H100 GPU,持續(xù)數(shù)月時間,規(guī)模接近頂尖通用大模型。


Evo-2 最引人注目的技術(shù)突破是其 100 萬個 token 的上下文窗口,相當于能夠一次性處理長達 100 萬堿基對的 DNA 序列。

在生物學(xué)中,許多關(guān)鍵功能依賴于長距離相互作用。例如,一個增強子可能距離它調(diào)控的基因數(shù)十萬堿基之遙,通過染色體折疊在三維空間上接觸目標基因。而傳統(tǒng)模型受限于上下文長度,難以捕捉這種長距離相互作用關(guān)系。

為了實現(xiàn)這一能力,研究團隊使用全新的StripedHyena 2架構(gòu),這是一種新的卷積混合架構(gòu),融合了輸入依賴卷積和注意力機制,相比 Transformer 架構(gòu),能夠大幅提高訓(xùn)練速度和推理效率,在處理長序列時比標準 Transformer 快了 3 倍,顯存占用也更低。


Evo-2 的模型架構(gòu)、訓(xùn)練程序、數(shù)據(jù)集和評估概述

核心能力:預(yù)測與生成的雙重突破

1、零樣本預(yù)測基因突變的影響

Evo-2 最強大的能力之一是零樣本預(yù)測——無需針對特定任務(wù)進行微調(diào),就能準確評估基因突變的功能影響。

在 ClinVar 數(shù)據(jù)庫(包含人類疾病相關(guān)變異注釋)的測試中,Evo-2 表現(xiàn)出色——

  • 編碼區(qū)單核苷酸突變:AUROC 達到 0.841,雖然略低于專門訓(xùn)練的 AlphaMissense(0.958),但作為通用模型已相當出色。

  • 非編碼區(qū)突變:表現(xiàn)尤為突出,AUROC 高達 0.987,顯著優(yōu)于其他模型。

  • 復(fù)雜變異類型:對于插入、缺失、重復(fù)等非單核苷酸突變,Evo-2 更是全面領(lǐng)先。

精準預(yù)測剪接突變

剪接是基因表達的關(guān)鍵步驟,剪接錯誤與多種疾病相關(guān)。在 SpliceVarDB 數(shù)據(jù)集(包含實驗驗證的剪接突變)上,Evo-2 在內(nèi)含子突變預(yù)測中與專業(yè)監(jiān)督模型競爭激烈,略低于 SpliceAI 和 CADD,但優(yōu)于 Pangolin;在外顯子突變預(yù)測中,雖然落后于專業(yè)模型,但超越了所有零樣本模型。

生成完整的基因組序列

除了預(yù)測,Evo-2 還能生成全新的DNA序列。研究團隊用它生成了——

  • 線粒體基因組(細胞中的能量工廠的遺傳物質(zhì))

  • 最小細菌基因組(生殖支原體)

  • 酵母染色體(真核生物,染色體長達 33 萬堿基對)。

這些生成的序列在結(jié)構(gòu)上與自然序列高度相似,rRNA、tRNA 的數(shù)量分布也接近天然基因組。


Evo-2 跨越生命域的基因組規(guī)模的生成能力

重點應(yīng)用:從臨床診斷到合成生物學(xué)

臨床基因突變解讀與精準醫(yī)療

BRCA1是著名的乳腺癌易感基因,準確預(yù)測其突變后果對風(fēng)險評估和預(yù)防策略至關(guān)重要。該研究顯示,Evo-2 在沒有針對特定任務(wù)進行訓(xùn)練(即零樣本)的情況下,能夠準確預(yù)測 BRCA1 基因的編碼區(qū)和非編碼區(qū)單核苷酸突變,這一能力擴展到相關(guān)基因 BRCA2 時同樣突出,這表明了 Evo-2 是一個有效的零樣本預(yù)測器,能夠廣泛應(yīng)用于多種類型的人類功能性基因突變評估。

合成生物學(xué)與基因組工程

Evo-2 的生成能力為合成生物學(xué)開辟了新可能。通過推理時搜索技術(shù),研究人員可以引導(dǎo)模型設(shè)計具有特定功能的 DNA 序列。例如,團隊成功設(shè)計了具有預(yù)設(shè)染色質(zhì)可及性模式的序列,甚至在表觀基因組上“寫”出了“EVO2”、“ARC”這樣的摩斯電碼。這種可控生成能力,使得定制化設(shè)計啟動子、增強子等調(diào)控元件成為可能。

基礎(chǔ)生物學(xué)研究

Evo-2 的內(nèi)部表示捕捉了多種生物學(xué)特征,包括外顯子-內(nèi)含子邊界(基因的結(jié)構(gòu)單元)、轉(zhuǎn)錄因子結(jié)合位點(基因開關(guān))、蛋白質(zhì)結(jié)構(gòu)元素(α螺旋、β折疊)、噬菌體基因組區(qū)域(細菌病毒的遺傳物質(zhì))。這些發(fā)現(xiàn)不僅驗證了模型的學(xué)習(xí)能力,也為發(fā)現(xiàn)新的功能元件提供了工具。

開放生態(tài):加速生命科學(xué)創(chuàng)新

與許多封閉的 AI 模型不同,Evo-2 實現(xiàn)了完全開源——包括模型參數(shù)、訓(xùn)練代碼、推理代碼以及 OpenGenome2 數(shù)據(jù)集。

這種開放性對生物計算領(lǐng)域是結(jié)構(gòu)性的事件。長期以來,該領(lǐng)域被工具生態(tài)割裂、數(shù)據(jù)許可復(fù)雜、基準標準不統(tǒng)一所困擾。Evo-2 的完全開源意味著它不是一個“演示模型”,而是一個可能成為標準生態(tài)的平臺。

生物學(xué)開始擁有自己的“通用底座”,研究人員可以在其基礎(chǔ)上開發(fā)各種應(yīng)用,加速整個領(lǐng)域的創(chuàng)新。

生物安全與倫理考量

值得一提的是,研究團隊在生物安全方面采取了謹慎措施,在訓(xùn)練數(shù)據(jù)中排除了能夠感染真核生物的病毒序列,以確保模型不會被濫用于設(shè)計和操縱致病性病毒。

這一策略不僅降低了潛在的生物安全風(fēng)險,也體現(xiàn)了對倫理問題的高度重視。團隊驗證了這些數(shù)據(jù)排除導(dǎo)致模型對真核病毒基因組序列的建模性能較差,表明數(shù)據(jù)排除達到了預(yù)期效果。

總的來說,Evo 系列模型為生物學(xué)建模與設(shè)計奠定了基礎(chǔ),該框架通過統(tǒng)一的表征方式整合了生物學(xué)的多尺度特征。這些能力結(jié)合大規(guī)模 DNA 操作技術(shù),或?qū)崿F(xiàn)更復(fù)雜生物功能的可編程設(shè)計。預(yù)計未來通過整合基因組序列數(shù)據(jù)與其他模態(tài)數(shù)據(jù),有望開發(fā)出能夠有效模擬健康與疾病狀態(tài)下復(fù)雜表型的模型。

Evo-2 的出現(xiàn)標志著生命科學(xué)正站在一個新時代的門檻,當 AI 不僅能讀懂基因組的“語言”,還能像作家一樣創(chuàng)作全新的生命代碼,我們對于生命的理解和設(shè)計能力將發(fā)生質(zhì)的飛躍。

論文鏈接

https://www.nature.com/articles/s41586-026-10176-5

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
周日票房回顧:《飛馳》5700萬破41億,《鏢人》2800萬穩(wěn)居第二

周日票房回顧:《飛馳》5700萬破41億,《鏢人》2800萬穩(wěn)居第二

喜歡歷史的阿繁
2026-03-09 12:21:34
貝克漢姆堅持兒子離婚,16億婚前協(xié)議導(dǎo)致和解困難

貝克漢姆堅持兒子離婚,16億婚前協(xié)議導(dǎo)致和解困難

君笙的拂兮
2026-01-26 15:51:34
國民黨謝典霖點名柯文哲黃國昌選彰化縣長,民眾黨:先尋求議員選舉合作

國民黨謝典霖點名柯文哲黃國昌選彰化縣長,民眾黨:先尋求議員選舉合作

海峽導(dǎo)報社
2026-03-09 16:54:17
騰訊版“小龍蝦WorkBuddy正式上線

騰訊版“小龍蝦WorkBuddy正式上線

第一財經(jīng)資訊
2026-03-09 15:23:29
1971年,老太太質(zhì)問周恩來我啥級別,真相一出令人肅然起敬

1971年,老太太質(zhì)問周恩來我啥級別,真相一出令人肅然起敬

棠棣分享
2026-03-05 18:11:12
美國這次認栽了,空戰(zhàn)中心被摧毀!真相炸鍋,伊朗還活捉一群美軍

美國這次認栽了,空戰(zhàn)中心被摧毀!真相炸鍋,伊朗還活捉一群美軍

探源歷史
2026-03-09 11:48:23
汪小菲和張?zhí)m發(fā)生矛盾, 馬筱梅不愿意叫孩子為"七寶兒"

汪小菲和張?zhí)m發(fā)生矛盾, 馬筱梅不愿意叫孩子為"七寶兒"

冷紫葉
2026-03-09 16:15:12
天津南開發(fā)生緊急事件

天津南開發(fā)生緊急事件

天津族
2026-03-09 07:32:07
為何張杰總是甩不掉“閏土”標簽?

為何張杰總是甩不掉“閏土”標簽?

月光作箋a
2026-03-08 08:51:21
美專家突然發(fā)現(xiàn),中國早就準備好,一旦沖突,先廢掉美軍最強戰(zhàn)力

美專家突然發(fā)現(xiàn),中國早就準備好,一旦沖突,先廢掉美軍最強戰(zhàn)力

墨印齋
2026-03-09 11:30:27
實控人夫婦廣東梅州出身,去年曾套現(xiàn)超3億元,兆威機電創(chuàng)始人李海周:堅持全球布局

實控人夫婦廣東梅州出身,去年曾套現(xiàn)超3億元,兆威機電創(chuàng)始人李海周:堅持全球布局

每日經(jīng)濟新聞
2026-03-09 15:07:11
慣子如殺子!遼寧女孩早晨遛狗導(dǎo)致全家被害,父親重傷,母親被殺

慣子如殺子!遼寧女孩早晨遛狗導(dǎo)致全家被害,父親重傷,母親被殺

深度報
2025-09-02 22:45:04
2026中國高端手機最新銷量:iPhone 17以2383.97萬臺登頂榜首

2026中國高端手機最新銷量:iPhone 17以2383.97萬臺登頂榜首

PChome電腦之家
2026-03-09 15:16:03
安徽黃山一校花,仙姿玉色,氣質(zhì)迷人, 美得讓人懷疑人生

安徽黃山一校花,仙姿玉色,氣質(zhì)迷人, 美得讓人懷疑人生

娛樂圈見解說
2026-03-08 12:42:07
伊朗用血淚換來的教訓(xùn):一旦中美開戰(zhàn),中國必須首先鎖定這一點

伊朗用血淚換來的教訓(xùn):一旦中美開戰(zhàn),中國必須首先鎖定這一點

冷峻視角下的世界
2026-02-20 07:45:35
CBA升降級方案確定,北京兩將未愈,麥考爾11日復(fù)出 新疆簽新外援

CBA升降級方案確定,北京兩將未愈,麥考爾11日復(fù)出 新疆簽新外援

中國籃壇快訊
2026-03-09 16:43:08
揭秘!外賣員幾乎不騎雅迪、愛瑪,背后原因太現(xiàn)實,全是無奈之舉

揭秘!外賣員幾乎不騎雅迪、愛瑪,背后原因太現(xiàn)實,全是無奈之舉

老特有話說
2026-03-08 15:32:40
郭廣昌徹底“甩雷”

郭廣昌徹底“甩雷”

智趣財經(jīng)
2026-03-09 11:39:56
夸梅:韋德親口說自己督促詹姆斯 但沒人敢說自己督促喬丹&科比

夸梅:韋德親口說自己督促詹姆斯 但沒人敢說自己督促喬丹&科比

硯底沉香
2026-03-09 16:45:02
14億人都不會忘卻!揭開核酸大王張核子的真面具:權(quán)力變現(xiàn)大公

14億人都不會忘卻!揭開核酸大王張核子的真面具:權(quán)力變現(xiàn)大公

大魚簡科
2026-02-07 09:52:29
2026-03-09 17:35:00
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科學(xué)研究
8987文章數(shù) 145021關(guān)注度
往期回顧 全部

科技要聞

沖上熱搜,馬化騰說沒想到“龍蝦”這么火

頭條要聞

媒體:美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

頭條要聞

媒體:美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

體育要聞

36連勝終結(jié)!大魔王也是可以戰(zhàn)勝的

娛樂要聞

姆巴佩戀情確認!與26歲新歡共度良宵

財經(jīng)要聞

亞太股市黑色星期一 這次A股有點不一樣

汽車要聞

對標奔馳小號G級 路虎小型衛(wèi)士最新消息曝光

態(tài)度原創(chuàng)

健康
旅游
親子
游戲
時尚

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

旅游要聞

廣州解鎖“影視+文旅”消費新場景

親子要聞

愛被“排卵試紙”綁架?別讓求子心切,殺死了你們的親密

《刺客信條4》重制版新細節(jié):現(xiàn)代劇情移除 海戰(zhàn)重做

春天穿夾克,短一些的更帥氣!

無障礙瀏覽 進入關(guān)懷版