AI驅(qū)動(dòng)的蛋白質(zhì)研究閉環(huán)：結(jié)構(gòu)、功能、設(shè)計(jì)的融合進(jìn)展

2025-08-30 19:21:39　來源: 集智俱樂部

北京舉報(bào)

分享至

導(dǎo)語

蛋白質(zhì)研究正處于一場由AI驅(qū)動(dòng)的深刻變革之中。從結(jié)構(gòu)預(yù)測、功能解析到從頭設(shè)計(jì)，AI工具的廣泛應(yīng)用顯著拓展了蛋白質(zhì)科學(xué)探索的深度與廣度。以AlphaFold為代表的前沿模型開創(chuàng)了蛋白質(zhì)研究的新范式，而國內(nèi)眾多團(tuán)隊(duì)的迅速崛起則進(jìn)一步推動(dòng)了數(shù)據(jù)-模型-實(shí)驗(yàn)閉環(huán)的高效形成。

在近期的中，蛋白質(zhì)研究正是分子尺度上最具活力的方向之一。本文將聚焦AI在蛋白質(zhì)領(lǐng)域的前沿進(jìn)展與代表性成果，深入探討全球特別是國內(nèi)團(tuán)隊(duì)的創(chuàng)新突破，展望計(jì)算醫(yī)學(xué)時(shí)代蛋白質(zhì)研究的未來路徑與應(yīng)用前景。

關(guān)鍵詞：蛋白質(zhì)結(jié)構(gòu)預(yù)測，功能解析，從頭設(shè)計(jì)，生成式AI，分子互作建模，定向進(jìn)化模型

郭瑞東丨作者

劉培源丨編輯

蛋白質(zhì)是生命活動(dòng)中的“基層打工人”。從DNA這個(gè)“大領(lǐng)導(dǎo)”那里領(lǐng)到任務(wù)后，再經(jīng)過RNA這一“中層”的轉(zhuǎn)錄、翻譯和修飾，最終所有具體的工作都要靠蛋白質(zhì)來完成。在巨大壓力下，蛋白質(zhì)也不得不“卷起來”：即使是相同氨基酸序列的蛋白質(zhì)，也可能呈現(xiàn)不同的結(jié)構(gòu)，并與其他蛋白或RNA互作。而一旦蛋白質(zhì)“罷工”，我們的健康也會(huì)隨之受到威脅。

就像打工人總有各種“摸魚技巧”，蛋白質(zhì)的活動(dòng)方式也并非簡單固定。以往研究者只能用冷凍電鏡等昂貴且周期長的實(shí)驗(yàn)手段，一點(diǎn)點(diǎn)積累對(duì)蛋白質(zhì)的了解，而AI的出現(xiàn)則為蛋白質(zhì)研究按下了加速鍵。本文將從結(jié)構(gòu)解析、功能預(yù)測再到蛋白設(shè)計(jì)，梳理AI驅(qū)動(dòng)蛋白質(zhì)研究的前沿進(jìn)展，并關(guān)注國內(nèi)團(tuán)隊(duì)的代表性工作。

1. 從AlphaFold

到百花齊放的國產(chǎn)結(jié)構(gòu)預(yù)測模型

2024年的諾貝爾化學(xué)獎(jiǎng)授予了開發(fā)AlphaFold的John Jumper和Demis Hassabis，以及蛋白質(zhì)設(shè)計(jì)領(lǐng)域的先驅(qū)David Baker。在以AlphaFold為代表的結(jié)構(gòu)預(yù)測模型出現(xiàn)之前，全球結(jié)構(gòu)生物學(xué)界通過實(shí)驗(yàn)手段驗(yàn)證的蛋白質(zhì)結(jié)構(gòu)（記錄在蛋白質(zhì)數(shù)據(jù)庫PDB中，截至2024年7月21日）不足24萬個(gè)；而AlphaFold數(shù)據(jù)庫（AlphaFold Database，AFDB）提供了涵蓋從細(xì)菌到人類等多個(gè)物種的超過2億個(gè)預(yù)測蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)，僅從這一數(shù)量對(duì)比就能看到AlphaFold的革命性所在。

2024 年推出的 AlphaFold 3[1]，于 2024 年 11 月對(duì)學(xué)術(shù)用途開放了代碼與權(quán)重（非商用許可，非完全開源），并提供 AlphaFold Server 在線使用。其采取了擴(kuò)散模型，能做到不僅僅預(yù)測蛋白質(zhì)在自然狀態(tài)下的靜態(tài)結(jié)構(gòu)，還能夠預(yù)測包括RNA，小分子（例如蛋白質(zhì)-配體結(jié)合、抗原-抗體復(fù)合物）的結(jié)構(gòu)，標(biāo)志著AI驅(qū)動(dòng)的結(jié)構(gòu)預(yù)測從單一蛋白質(zhì)向多分子互作網(wǎng)絡(luò)的范式轉(zhuǎn)變，這也意味著蛋白質(zhì)結(jié)構(gòu)預(yù)測將更為實(shí)用。

用一個(gè)形象的比喻說明AlphaFold2到AlphaFold3的進(jìn)步：AlphaFold2相當(dāng)于為蛋白質(zhì)拍攝了一張“證件照”，但蛋白質(zhì)真正工作時(shí)還需要與其他分子協(xié)同配合，而AlphaFold3則能預(yù)測蛋白質(zhì)工作時(shí)與其他“同事”的“合影”。不過，蛋白質(zhì)在細(xì)胞中始終處于動(dòng)態(tài)的變化之中，藥物分子能否與特定蛋白結(jié)合，往往取決于能否捕捉蛋白質(zhì)某個(gè)稍縱即逝的動(dòng)態(tài)構(gòu)象，這就要求進(jìn)一步為蛋白質(zhì)拍攝“視頻”，而這正是接下來介紹的國產(chǎn)預(yù)測模型的研究重點(diǎn)。

在結(jié)構(gòu)預(yù)測領(lǐng)域，多個(gè)國內(nèi)團(tuán)隊(duì)競相追趕。2025年3月，北京智源人工智能研究院推出了新一代的OpenComplex-2 [2]，其前作曾在蛋白質(zhì)結(jié)構(gòu)預(yù)測權(quán)威競賽CAMEO中穩(wěn)定取得領(lǐng)先成績。新一代的OpenComplex-2在功能上涵蓋了單體蛋白質(zhì)結(jié)構(gòu)預(yù)測、復(fù)合物建模（多鏈復(fù)合物結(jié)構(gòu)預(yù)測）、分子間相互作用（RNA及蛋白質(zhì)-RNA復(fù)合物）預(yù)測以及柔性對(duì)接，能在原子分辨率層面捕捉分子相互作用及其平衡構(gòu)象。此外，OpenComplex-2的計(jì)算效率相比AlphaFold更高，所需的計(jì)算資源也更少。

圖1：OpenComplex模型在蛋白質(zhì)結(jié)構(gòu)預(yù)測權(quán)威競賽CAMEO中的成績

百度飛槳團(tuán)隊(duì)于2025年7月提出了HelixFold-S1[3]，借鑒了大語言模型領(lǐng)域的test-time scaling策略，采用了一種基于接觸感知的采樣方法，能夠有效預(yù)測兩個(gè)蛋白質(zhì)分子如何結(jié)合。具體而言，HelixFold-S1會(huì)首先預(yù)測兩個(gè)蛋白質(zhì)可能在哪個(gè)區(qū)域、以何種方式結(jié)合，隨后再優(yōu)先探索具有高結(jié)合潛力的區(qū)域，通過“先鎖定目標(biāo)，再精準(zhǔn)建?！钡姆绞?，有效引導(dǎo)了結(jié)構(gòu)生成過程，顯著提高了復(fù)雜場景下預(yù)測的準(zhǔn)確率和效率。

圖2：HelixFold-S1（HF-S1）模型相比此前的HF3及其他模型，在蛋白質(zhì)-蛋白質(zhì)對(duì)接質(zhì)量評(píng)估指標(biāo)DockQ上的表現(xiàn)

南開大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院鄭偉教授團(tuán)隊(duì)與新加坡國立大學(xué)合作，于2025年在Nature Biotechnology發(fā)表了D-I-TASSER模型[4]。該模型融合了深度學(xué)習(xí)與統(tǒng)計(jì)物理能量函數(shù)力場，能夠在原子級(jí)精度預(yù)測蛋白質(zhì)結(jié)構(gòu)。蛋白質(zhì)結(jié)構(gòu)域（Domain）是復(fù)雜蛋白質(zhì)三級(jí)結(jié)構(gòu)中的基本折疊和功能單元，大約60%的原核生物蛋白質(zhì)和80%的真核生物蛋白質(zhì)都由多個(gè)結(jié)構(gòu)域（Multi-domain）組成，并且依賴結(jié)構(gòu)域之間的相互作用來實(shí)現(xiàn)更復(fù)雜的生物學(xué)功能。目前大部分蛋白質(zhì)結(jié)構(gòu)預(yù)測工具只聚焦于單個(gè)結(jié)構(gòu)域，這相當(dāng)于只能給蛋白質(zhì)拍攝“半身照”，而D-I-TASSER則能夠捕捉完整蛋白質(zhì)的全域結(jié)構(gòu)，如同拍攝“全身照”。

圖3：一個(gè)含有多個(gè)結(jié)構(gòu)域（共3個(gè)結(jié)構(gòu)域）的蛋白質(zhì)單體示意圖，不同結(jié)構(gòu)域以不同顏色標(biāo)記

TCR（T細(xì)胞受體）是免疫細(xì)胞T細(xì)胞用于抗原識(shí)別和免疫應(yīng)答的重要受體，相當(dāng)于免疫系統(tǒng)的“敵我識(shí)別”機(jī)制。合理地設(shè)計(jì)TCR的親和力，對(duì)于疫苗開發(fā)、自身免疫疾病和癌癥治療至關(guān)重要。騰訊AI Lab、清華大學(xué)深圳國際研究生院和莫納什大學(xué)合作推出了tFold-TCR模型[5]。與現(xiàn)有方法（包括AlphaFold 3）相比，tFold-TCR在預(yù)測TCR相關(guān)蛋白質(zhì)相互作用時(shí)，在DockQ指標(biāo)下預(yù)測成功率提高了約30.7%，計(jì)算速度也提升了超過25倍。這種改進(jìn)將有望加速免疫治療中對(duì)有效抗體的篩選過程。

2. 從結(jié)構(gòu)預(yù)測到功能解析

如果說蛋白質(zhì)結(jié)構(gòu)預(yù)測是在描述蛋白質(zhì)的狀態(tài)，那么生物學(xué)研究者最終關(guān)心的，是一個(gè)特定蛋白質(zhì)能夠完成哪些功能。蛋白質(zhì)功能預(yù)測的實(shí)質(zhì)在于準(zhǔn)確判定未知功能蛋白質(zhì)與已知功能蛋白質(zhì)在序列、結(jié)構(gòu)和功能等方面的相似程度。目前最常用的功能描述方式稱為基因本體（Gene Ontology, GO），包含了數(shù)萬個(gè)術(shù)語，涵蓋蛋白質(zhì)在細(xì)胞和生物體內(nèi)的各種功能與位置。隨著高通量測序技術(shù)的快速發(fā)展，已知蛋白質(zhì)序列數(shù)量迅速增加，但目前僅不到1%的蛋白質(zhì)序列通過GO分析進(jìn)行了功能注釋。

蛋白質(zhì)功能預(yù)測方法主要可分為兩類，分別是基于蛋白質(zhì)序列的方法與基于蛋白質(zhì)結(jié)構(gòu)的方法。第一類方法的代表是DeepGO-SE[6]，該方法通過近似語義蘊(yùn)含來增強(qiáng)模型的預(yù)測能力。具體而言，DeepGO-SE首先引入隱空間，使蛋白質(zhì)的嵌入表征能夠捕捉序列相似性之外的更多特征，然后再通過語義的邏輯關(guān)系，推導(dǎo)出待預(yù)測蛋白質(zhì)的功能預(yù)測結(jié)果。該方法在蛋白質(zhì)功能預(yù)測的準(zhǔn)確性上相比傳統(tǒng)基線方法有顯著提升。

圖4：DeepGO-SE的數(shù)據(jù)處理流程圖

中山大學(xué)李敏教授團(tuán)隊(duì)于25年1月在Nature Communications上發(fā)表的DPFunc[7]是基于結(jié)構(gòu)進(jìn)行蛋白功能預(yù)測的工具。該方法使用深度學(xué)習(xí)，通過引入結(jié)構(gòu)域引導(dǎo)，顯著提升了蛋白質(zhì)功能預(yù)測的準(zhǔn)確性和可解釋性。相比于基于序列相似性的方法，基于結(jié)構(gòu)的預(yù)測方法DPFunc在預(yù)測罕見功能、特定功能以及低序列相似性蛋白質(zhì)方面表現(xiàn)優(yōu)異，尤其在結(jié)構(gòu)域信息的指導(dǎo)下，顯著提升了預(yù)測準(zhǔn)確性。

圖5：DPFunc的模型架構(gòu)，包括殘基級(jí)特征學(xué)習(xí)模塊和蛋白質(zhì)功能預(yù)測模塊

那么，有沒有一種方法能夠同時(shí)利用序列相似性和結(jié)構(gòu)信息來預(yù)測蛋白質(zhì)功能呢？有的，這就是Prot2Text-V2[8]模型。Prot2Text-V2將圖神經(jīng)網(wǎng)絡(luò)（Graph Neural Network, GNN）與大型語言模型（Large Language Model, LLM）融合到同一個(gè)編碼器-解碼器框架中，有效整合了包括蛋白質(zhì)序列、結(jié)構(gòu)和文本注釋在內(nèi)的多種數(shù)據(jù)，以自由文本形式輸出蛋白質(zhì)功能預(yù)測結(jié)果，超越了傳統(tǒng)二分類或多分類的局限。Prot2Text-V2生成的預(yù)測結(jié)果，不再是類似GO術(shù)語那樣結(jié)構(gòu)化但難以理解的代碼，而是更加直觀易懂的自然語言描述。

圖6：Prot2Text-V2的處理流程示意圖

3. 從功能預(yù)測到蛋白設(shè)計(jì)

將生命過程轉(zhuǎn)化為一種工程活動(dòng)，使研究者能夠像定制樂高積木那樣，有計(jì)劃地對(duì)蛋白質(zhì)骨架及功能進(jìn)行“從頭（de novo）”設(shè)計(jì)，是蛋白質(zhì)研究的終極目標(biāo)。天然蛋白質(zhì)只占有效蛋白質(zhì)序列空間的一小部分，“蛋白質(zhì)從頭設(shè)計(jì)”能夠跳脫自然進(jìn)化的限制，從零開始拓展蛋白質(zhì)結(jié)構(gòu)、序列和功能的可能性空間，創(chuàng)造出自然界不存在的新型蛋白質(zhì)。經(jīng)過設(shè)計(jì)的蛋白質(zhì)，其定量性質(zhì)（如速率、親和力等）可調(diào)、可被任意輸入控制且具有模塊化特性，使不同蛋白質(zhì)元件能夠組合在一起實(shí)現(xiàn)多樣化的輸入/輸出功能。

圖7：蛋白質(zhì)從頭設(shè)計(jì)的優(yōu)勢，來源于文獻(xiàn)[9]

蛋白質(zhì)設(shè)計(jì)在藥物研發(fā)、綠色制造、食品安全等領(lǐng)域具有廣泛的應(yīng)用潛力。2024年諾貝爾化學(xué)獎(jiǎng)得主David Baker因其在蛋白質(zhì)設(shè)計(jì)領(lǐng)域的開創(chuàng)性研究而獲獎(jiǎng)。他提出的RFdiffusion方法[13]，能夠從頭設(shè)計(jì)并生成自然界中不存在的全新蛋白質(zhì)，例如，他的團(tuán)隊(duì)利用該方法設(shè)計(jì)的蛋白質(zhì)，已成功中和多種蛇毒中的神經(jīng)毒素。

蛋白質(zhì)中信息的流動(dòng)通常是從序列到結(jié)構(gòu)再到功能，每一步的確定都基于前一步信息的驅(qū)動(dòng)。蛋白質(zhì)設(shè)計(jì)則建立在反轉(zhuǎn)這一過程的基礎(chǔ)上：先指定目標(biāo)功能，再設(shè)計(jì)能夠?qū)崿F(xiàn)該功能的蛋白質(zhì)結(jié)構(gòu)，最終找到能折疊為該結(jié)構(gòu)的氨基酸序列。

圖8：蛋白質(zhì)設(shè)計(jì)的基本流程示意圖，來源于文獻(xiàn)[10]

目前AI在蛋白質(zhì)設(shè)計(jì)中的應(yīng)用可分為兩類。第一類方法類似用“指紋”匹配“鎖孔”：AI算法將蛋白質(zhì)結(jié)構(gòu)轉(zhuǎn)化為帶電性質(zhì)的“凹凸密碼”（如正電荷凹槽），再匹配具有互補(bǔ)電荷和結(jié)構(gòu)的小分子（如帶負(fù)電荷的凸起）。例如，設(shè)計(jì)新冠病毒刺突蛋白抑制劑時(shí)，AI算法可直接預(yù)測出能夠精準(zhǔn)嵌合病毒表面的分子形狀。這類方法能夠發(fā)現(xiàn)人類研究者難以察覺的復(fù)雜模式，但其決策過程較為“黑箱”，難以直觀解釋。

圖9：蛋白質(zhì)功能設(shè)計(jì)示意圖，來源于文獻(xiàn)[9]。(B和C) 展示設(shè)計(jì)與小分子結(jié)合的蛋白質(zhì)，經(jīng)典設(shè)計(jì)方法（B）將目標(biāo)結(jié)合位點(diǎn)嵌入已存在的蛋白骨架中，而基于人工智能的方法（C）則圍繞目標(biāo)結(jié)合位點(diǎn)生成新的蛋白質(zhì)骨架。(D–F) 展示設(shè)計(jì)與目標(biāo)蛋白（藍(lán)色形狀）結(jié)合的蛋白質(zhì)，深紅色區(qū)域?yàn)橥ㄟ^序列優(yōu)化設(shè)計(jì)的區(qū)域。

第二類方法是基于生成式AI的蛋白質(zhì)設(shè)計(jì)。這類方法使AI通過海量學(xué)習(xí)蛋白質(zhì)相互作用數(shù)據(jù)，“腦補(bǔ)”出全新的功能模塊。比如輸入一個(gè)功能需求“能夠結(jié)合鐵離子的蛋白質(zhì)”，AI即可自動(dòng)生成候選的氨基酸序列。這類方法的代表之一是ProGen[11]，該方法借鑒了ChatGPT的訓(xùn)練思路，不僅輸入已知蛋白質(zhì)的氨基酸序列，同時(shí)還輸入相應(yīng)的功能控制標(biāo)簽。ProGen能夠批量生成具有潛在特定功能的新蛋白質(zhì)序列；盡管這些序列與天然蛋白質(zhì)序列有較大差異，但其功能卻能達(dá)到甚至超過天然蛋白質(zhì)的水平。

圖10：ProGen模型的輸入、輸出及處理流程示意圖

除了上述“從頭設(shè)計(jì)”方法之外，還有一種從現(xiàn)有蛋白質(zhì)出發(fā)的設(shè)計(jì)方法。這類方法根據(jù)給定的目標(biāo)功能，提出需要調(diào)整的氨基酸序列位置與突變建議。條件生成模型（如DeepDirect[12]）便屬于這一類型，可以針對(duì)特定需求（如提高結(jié)合親和力或熱穩(wěn)定性）定制蛋白質(zhì)。DeepDirect利用對(duì)抗學(xué)習(xí)生成突變，顯著提升蛋白質(zhì)與目標(biāo)分子之間的親和力變化方向。其輸入包括蛋白質(zhì)氨基酸序列、蛋白質(zhì)結(jié)構(gòu)/輔助數(shù)據(jù)和相關(guān)的噪聲信息（如圖11a所示）。突變生成器可產(chǎn)生潛在的突變位點(diǎn)，并結(jié)合蛋白質(zhì)結(jié)構(gòu)特征，通過對(duì)抗學(xué)習(xí)機(jī)制篩選突變蛋白（如圖11b所示），引導(dǎo)親和力向預(yù)期方向變化（如圖11c所示）。DeepDirect不僅適用于蛋白質(zhì)設(shè)計(jì)，也能用于理解疾病進(jìn)化機(jī)制與蛋白質(zhì)動(dòng)力學(xué)。

圖11：DeepDirect突變生成器工作原理示意圖

EVOLVEpro[14]與DeepDirect類似，同屬于定向進(jìn)化框架模型。不同之處在于，EVOLVEpro結(jié)合了蛋白質(zhì)語言模型和少樣本主動(dòng)學(xué)習(xí)，將蛋白質(zhì)序列編碼至連續(xù)的潛在空間中，以提高活性優(yōu)化效率；隨后利用頂層回歸模型，從少量實(shí)驗(yàn)數(shù)據(jù)中學(xué)習(xí)潛在空間與蛋白質(zhì)活性之間的映射關(guān)系。EVOLVEpro通過多輪主動(dòng)學(xué)習(xí)迭代，每輪根據(jù)模型預(yù)測的活性對(duì)序列進(jìn)行排名，挑選排名靠前的序列進(jìn)行實(shí)驗(yàn)驗(yàn)證，并循環(huán)迭代，直至達(dá)到預(yù)定目標(biāo)。這相當(dāng)于在數(shù)字環(huán)境中加速蛋白質(zhì)在特定功能方向上的進(jìn)化，使研究人員能夠快速從現(xiàn)有蛋白出發(fā)，優(yōu)化其多種活性。在抗體設(shè)計(jì)應(yīng)用中，EVOLVEpro還能同時(shí)考慮多個(gè)設(shè)計(jì)需求，并賦予不同權(quán)重（如親和力權(quán)重設(shè)為表達(dá)水平的四倍）。通過多目標(biāo)優(yōu)化，EVOLVEpro優(yōu)先選出更高親和力的候選蛋白。

圖12：EVOLVEpro模型的蛋白質(zhì)設(shè)計(jì)流程圖

面對(duì)眾多蛋白質(zhì)設(shè)計(jì)工具，上海交通大學(xué)洪亮團(tuán)隊(duì)開發(fā)了VenusFactory平臺(tái)[15]，集成了超過40個(gè)前沿蛋白質(zhì)深度學(xué)習(xí)模型，可在本地啟動(dòng)Web服務(wù)快速調(diào)用。VenusFactory直接連接了RCSB PDB、UniProt、InterPro等主流公開數(shù)據(jù)庫，并通過多線程高速下載，極大提高了數(shù)據(jù)檢索效率。該平臺(tái)提供在線服務(wù)，有效降低了蛋白質(zhì)設(shè)計(jì)工具的使用門檻。

4. 小結(jié)：AI驅(qū)動(dòng)的蛋白質(zhì)研究閉環(huán)

本文的行文邏輯圍繞“提出假設(shè)—實(shí)驗(yàn)驗(yàn)證—模型優(yōu)化”的AI驅(qū)動(dòng)閉環(huán)展開。在藥物研發(fā)等應(yīng)用過程中，由于潛在的蛋白質(zhì)序列數(shù)量巨大，且蛋白質(zhì)序列稍微改變，其結(jié)構(gòu)往往會(huì)發(fā)生顯著變化，研究者無法通過實(shí)驗(yàn)手段窮舉所有可能的蛋白質(zhì)結(jié)構(gòu)。因此，研究者要么根據(jù)預(yù)期功能，通過定向進(jìn)化從已有序列逐步優(yōu)化獲得目標(biāo)蛋白質(zhì)，要么使用端到端的模型，從頭設(shè)計(jì)具有特定功能的新蛋白質(zhì)。AI工具設(shè)計(jì)出候選蛋白質(zhì)后，在進(jìn)行實(shí)驗(yàn)驗(yàn)證前，還可以先用結(jié)構(gòu)預(yù)測工具進(jìn)行初篩，再通過實(shí)驗(yàn)結(jié)果進(jìn)一步指導(dǎo)模型優(yōu)化。

近年來，在蛋白質(zhì)組學(xué)與人工智能（AI）深度融合的背景下，蛋白質(zhì)結(jié)構(gòu)預(yù)測、功能解析與從頭設(shè)計(jì)領(lǐng)域取得了一系列突破性進(jìn)展。本文回顧了近幾年的幾項(xiàng)關(guān)鍵成果：在蛋白質(zhì)結(jié)構(gòu)預(yù)測方面，AI技術(shù)加速了蛋白質(zhì)結(jié)構(gòu)的實(shí)驗(yàn)解析進(jìn)程，為罕見蛋白質(zhì)的功能解析提供了基礎(chǔ)。在蛋白質(zhì)功能預(yù)測方面，AI模型通過整合多組學(xué)數(shù)據(jù)（如轉(zhuǎn)錄組、互作組、代謝通路等）和序列特征，有效地預(yù)測蛋白質(zhì)的亞細(xì)胞定位、酶活性類別、結(jié)合位點(diǎn)以及參與的生物通路。在蛋白質(zhì)設(shè)計(jì)領(lǐng)域，AI正從“理解”邁向“創(chuàng)造”，生成式模型（如擴(kuò)散模型、變分自編碼器VAE）和結(jié)構(gòu)條件化序列設(shè)計(jì)模型（如ProteinMPNN）已成功應(yīng)用于從頭設(shè)計(jì)具有特定結(jié)構(gòu)和功能的蛋白質(zhì)。

參考文獻(xiàn)

[1] Abramson, J., Adler, J., Dunger, J., Evans, R., Green, T., Pritzel, A., Ronneberger, O., Willmore, L., Ballard, A. J., Bambrick, J., Bodenstein, S. W., Evans, D. A., Hung, C., O’Neill, M., Reiman, D., Tunyasuvunakool, K., Wu, Z., ?emgulyt?, A., Arvaniti, E., . . . Jumper, J. M. (2024). Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature, 630(8016), 493–500. https://doi.org/10.1038/s41586-024-07487-w

[2] https://www.biorxiv.org/content/10.1101/2025.05.01.651643v1

[3] Liu, L., Liu, Y., Ye, X., Zhang, S., Li, Y., Zhu, K., Xue, Y., Zhang, X., & Fang, X. (2025, July 12). Advancing Structure Prediction of Biomolecular Interaction via Contact-Guided Sampling with HelixFold-S1. arXiv.org. https://arxiv.org/abs/2507.09251

[4] Zheng, W., Wuyun, Q., Li, Y., Liu, Q., Zhou, X., Peng, C., Zhu, Y., Freddolino, L., & Zhang, Y. (2025). Deep-learning-based single-domain and multidomain protein structure prediction with D-I-TASSER. Nature Biotechnology. https://doi.org/10.1038/s41587-025-02654-4

[5] https://www.biorxiv.org/content/10.1101/2024.02.05.578892v1

[6] Kulmanov, M., Guzmán-Vega, F. J., Roggli, P. D., Lane, L., Arold, S. T., & Hoehndorf, R. (2024). Protein function prediction as approximate semantic entailment. Nature Machine Intelligence, 6(2), 220–228. https://doi.org/10.1038/s42256-024-00795-w

[7] Wang, W., Shuai, Y., Zeng, M., Fan, W., & Li, M. (2025). DPFunc: accurately predicting protein function via deep learning with domain-guided structure information. Nature Communications, 16(1). https://doi.org/10.1038/s41467-024-54816-8

[8] Fei, X., Chatzianastasis, M., Carneiro, S. A., Abdine, H., Petalidis, L. P., & Vazirgiannis, M. (2025, May 16). Prot2Text-V2: Protein Function Prediction with Multimodal Contrastive Alignment. arXiv.org. https://arxiv.org/abs/2505.11194

[9] https://www.cell.com/cell/fulltext/S0092-8674(23)01402-2

[10] Chu, A. E., Lu, T., & Huang, P. (2024). Sparks of function by de novo protein design. Nature Biotechnology, 42(2), 203–215. https://doi.org/10.1038/s41587-024-02133-2

[11] Madani, A., Krause, B., Greene, E. R., Subramanian, S., Mohr, B. P., Holton, J. M., Olmos, J. L., Xiong, C., Sun, Z. Z., Socher, R., Fraser, J. S., & Naik, N. (2023). Large language models generate functional protein sequences across diverse families. Nature Biotechnology, 41(8), 1099–1106. https://doi.org/10.1038/s41587-022-01618-2

[12] Lan, T., Su, S., Ping, P., Hutvagner, G., Liu, T., Pan, Y., & Li, J. (2024). Generating mutants of monotone affinity towards stronger protein complexes through adversarial learning. Nature Machine Intelligence, 6(3), 315–325. https://doi.org/10.1038/s42256-024-00803-z

[13] Watson, J. L., Juergens, D., Bennett, N. R., Trippe, B. L., Yim, J., Eisenach, H. E., Ahern, W., Borst, A. J., Ragotte, R. J., Milles, L. F., Wicky, B. I. M., Hanikel, N., Pellock, S. J., Courbet, A., Sheffler, W., Wang, J., Venkatesh, P., Sappington, I., Torres, S. V., . . . Baker, D. (2023). De novo design of protein structure and function with RFdiffusion. Nature, 620(7976), 1089–1100. https://doi.org/10.1038/s41586-023-06415-8

[14] Jiang, K., Yan, Z., Di Bernardo, M., Sgrizzi, S. R., Villiger, L., Kayabolen, A., Kim, B., Carscadden, J. K., Hiraizumi, M., Nishimasu, H., Gootenberg, J. S., & Abudayyeh, O. O. (2024). Rapid in silico directed evolution by a protein language model with EVOLVEpro. Science. https://doi.org/10.1126/science.adr6006

[15] Tan, Y., Liu, C., Gao, J., Wu, B., Li, M., Wang, R., Zhang, L., Yu, H., Fan, G., Hong, L., & Zhou, B. (2025, March 19). VenusFactory: a unified platform for protein engineering data retrieval and language model Fine-Tuning. arXiv.org. https://arxiv.org/abs/2503.15438

生命復(fù)雜性讀書會(huì)：

生命復(fù)雜系統(tǒng)的構(gòu)成原理

在生物學(xué)中心法則的起點(diǎn)，基因作為生命復(fù)雜系統(tǒng)的遺傳信息載體，在生命周期內(nèi)穩(wěn)定存在；而位于中心法則末端的蛋白質(zhì)，其組織構(gòu)成和時(shí)空變化的復(fù)雜性呈指數(shù)式增長。隨著分子生物學(xué)數(shù)十年來的突飛猛進(jìn)，尤其是生命組學(xué)（基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)和代謝組學(xué)等的集合）等領(lǐng)域的日新月異，當(dāng)代生命科學(xué)臨近爆發(fā)的邊緣。如此海量的數(shù)據(jù)如何幫助我們揭示宇宙中最復(fù)雜的物質(zhì)系統(tǒng)——“人體”的構(gòu)成原理和設(shè)計(jì)原理？闡釋人類發(fā)育、衰老和重大疾病的發(fā)生機(jī)制？

集智俱樂部聯(lián)合西湖大學(xué)理學(xué)院及交叉科學(xué)中心講席教授湯雷翰，國家蛋白質(zhì)科學(xué)中心（北京）副研究員常乘、李楊，香港浸會(huì)大學(xué)助理教授唐乾元，北京大學(xué)前沿交叉學(xué)科研究院研究員林一瀚，中國科學(xué)院分子細(xì)胞科學(xué)卓越創(chuàng)新中心博士后唐詩婕，共同發(fā)起，從微觀細(xì)胞尺度、介觀組織器官尺度到宏觀人體尺度，梳理生命科學(xué)領(lǐng)域中的重要問題及重要數(shù)據(jù)，由生物學(xué)家提問，希望促進(jìn)統(tǒng)計(jì)物理、機(jī)器學(xué)習(xí)方法研究者和生命科學(xué)研究者之間的深度交流，建立跨學(xué)科合作關(guān)系，激發(fā)新的研究思路和合作項(xiàng)目。讀書會(huì)目前共進(jìn)行10期，現(xiàn)在報(bào)名參與讀書會(huì)可以加入讀書會(huì)社群，觀看視頻回放，解鎖完整讀書會(huì)權(quán)限。

詳情請見：

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.