網易首頁 > 網易號 > 正文申請入駐

楊立江、高毅勤、黃艷、楊俊林等綜述：AI賦能化學生物學

2025-12-13 14:35:38　來源: 化學加網

廣東舉報

分享至

伴隨著算法、算力和數(shù)據(jù)的融合發(fā)展, 近年來人工智能(AI)取得了突破性的進展. 得益于其在化學和生命科學領域的先驅性應用探索, AI正在成為化學生物學研究的強有力工具, 并展現(xiàn)出整合學科和技術、改變化學生物學研究范式的前景和能力. 本文系統(tǒng)回顧了近年來AI在生物成像和譜學解析、生物大分子結構與功能預測、藥物發(fā)現(xiàn)、精準醫(yī)學和綠色生物制造五個重要領域的應用, 展示了AI對于化學生物學研究的推動作用. 最后, 也結合當前AI技術本身存在的不足和化學生物學研究的瓶頸, 討論了AI賦能化學生物學領域存在的挑戰(zhàn)與未來發(fā)展方向.

引言

人工智能(artificial intelligence, AI)發(fā)展已歷經60余年, 期間經歷了多次起伏, 但是近20年來, 隨著摩爾定律特別是黃氏定律(Huang's law, )1)驅動的算力提高, 互聯(lián)網和移動互聯(lián)網的崛起帶來的海量數(shù)據(jù)積累, 以及深度神經網絡算法的崛起, AI在計算機視覺、自然語言處理、自動駕駛等多個領域取得了飛速發(fā)展, 已經達到了非常成熟的應用水平, 改變著人類的生產和生活. 1)黃氏定律:以英偉達首席執(zhí)行官黃仁勛(Jensen Huang)名字命名的定律, 其預測GPU將推動AI性能實現(xiàn)逐年翻倍.

以深度學習為代表的AI算法之所以能在近年來取得重大突破, 其本質原因是在算力進步和數(shù)據(jù)累積基礎之上, 新一代的深度學習算法對高維函數(shù)處理能力的大幅提升, 而AI所表現(xiàn)出的這種強大的數(shù)據(jù)降維和表達能力不僅是進行自然語言處理和圖像識別的關鍵, 也是科學研究中處理復雜性的強有力工具, 因此AI正在引發(fā)科學研究范式的深刻變化[1]. 2024年諾貝爾化學獎和諾貝爾物理學獎均聚焦于AI與科學研究的先驅性結合. 諾貝爾化學獎, 頒發(fā)給了在蛋白質設計與蛋白質結構預測領域做出開創(chuàng)性貢獻的David Baker博士、John Jumper博士以及Demis Hassabis博士; 諾貝爾物理學獎, 授予了John J. Hopfield博士與Geoffrey Hinton博士, 以表彰他們在人工神經網絡及機器學習核心原理方面的奠基性工作. 這些殊榮所代表的不僅是對過去卓越成果的致敬, 更是對未來科學探索前沿的預告. 科學人工智能(artificial intelligence for science, 簡稱AI4S)現(xiàn)已成為AI的主戰(zhàn)場, AI與不同學科交織, 正不斷拓展科學發(fā)現(xiàn)的邊界, 并展現(xiàn)出整合學科和技術、重新定義科學研究途徑、助力抵達未知之境的前景和能力.

面對復雜的分子世界, 化學家們在長期科學探索中積累了大量的物質組成、結構、性質和轉化等實驗數(shù)據(jù), 因此化學學科也是在研究中較早引入數(shù)據(jù)驅動范式的學科. 早在20世紀70年代, Corey等[2~4]就開發(fā)了旨在幫助化學家設計復雜有機合成的合理路線的邏輯與啟發(fā)式合成分析系統(tǒng) (logic and heuristics applied to synthetic analysis, LHASA)程序, 是最早嘗試將邏輯和啟發(fā)式方法應用于有機合成規(guī)劃的系統(tǒng)之一. 隨著算力、算法和化學大數(shù)據(jù)在最近幾十年的飛速進步, 數(shù)據(jù)驅動的物質合成、逆合成分析取得了巨大的發(fā)展, 通過引入更豐富的數(shù)據(jù)和更有效的AI算法, 現(xiàn)代的合成規(guī)劃工具進一步提升了合成路徑規(guī)劃的效率和準確性[5~10]. AI的引入, 為化學學科的研究方法帶來了深刻的變革. 傳統(tǒng)的化學研究往往依賴于大量的實驗和試錯, 而AI則能夠通過數(shù)據(jù)驅動的方式, 快速篩選出有潛力的化合物或反應條件, 大大提高了研究效率[11,12]. 近來, 化學家們更是將AI模型和自動化、機器人技術相結合, 從而實現(xiàn)了從設計、實施到測試整個流程都不需要人干預的智能化自動實驗系統(tǒng). 其中具有代表性的是中國科學技術大學江俊團隊發(fā)展的數(shù)據(jù)智能驅動的機器化學家. 該系統(tǒng)可以自主讀取大量化學文獻獲取先驗化學知識, 并自主提出科學假設、設計實驗方案; 自主完成化學實驗全流程; 通過理論計算建立具備實驗反饋的理論預測模型, 并通過機器學習模型和貝葉斯優(yōu)化算法同時分析實驗數(shù)據(jù), 為下一次迭代提出新的假設, 實現(xiàn)理論與實驗數(shù)據(jù)的交融[13].

AI驅動的生命科學研究則是當前最受關注、發(fā)展最迅猛的領域之一. 從20世紀90年代啟動的“人類基因組計劃”開始, 生命科學領域就出現(xiàn)了從“實驗驅動”向“數(shù)據(jù)驅動”轉變的趨勢. 也正是高通量測序技術的發(fā)展和海量序列數(shù)據(jù)的積累, 為2021年蛋白質結構預測模型AlphaFold2[14]的橫空出世奠定了基礎. 而AlphaFold系列模型的成功則正式開啟了AI在生命科學領域廣泛應用的新時代. 2024年諾貝爾化學獎得主Demis Hassabis曾這樣說: “如果說數(shù)學是物理的語言, 那么生物可能是AI語言最完美的描述對象”. 國外的谷歌、微軟、英偉達、Meta等信息技術產業(yè)巨頭已經紛紛與生物技術企業(yè)開展合作, 加速融合布局. 美國哈佛大學、斯坦福大學、麻省理工學院等頂尖大學也已與安進、巴斯夫、拜耳、禮來等醫(yī)藥公司開展了深度學習應用方面的合作, 以驅動藥物研發(fā)和個性化醫(yī)療中的新突破.

化學生物學(chemical biology)是化學與生物學、醫(yī)學、工程等領域交叉融合的前沿學科, 通過化學理論、方法和技術研究生命現(xiàn)象的本質及調控機制. 其核心目標是利用或開發(fā)化學工具解析生物分子、細胞、組織、活體等的結構/相互作用及功能; 探索生物過程和疾病發(fā)生發(fā)展的化學基礎和調控新策略, 為生物技術、疾病診療和藥物研發(fā)等提供重要支撐. 得益于科學家在化學和生命科學領域開展的先驅性AI應用探索, AI正在成為化學生物學研究的重要工具, 賦能化學生物學研究的各個方面. AI不僅能夠通過數(shù)據(jù)驅動的方式提高研究效率, 還能夠整合和分析海量的化學和生物學數(shù)據(jù), 發(fā)現(xiàn)其中的隱藏規(guī)律和關聯(lián), 為化學生物學研究提供新的視角和思路. 這種研究方法的革新, 不僅加速了化學生物學的發(fā)展, 還推動了其與相關學科的進一步交叉融合.

AI賦能的化學生物學研究進展

本文將從AI賦能的生物成像和譜學解析、AI賦能生物大分子結構與功能預測、AI賦能藥物發(fā)現(xiàn)、AI賦能精準醫(yī)學、AI賦能綠色生物制造五個方面回顧AI技術為化學生物學研究帶來的變革. 最后我們也將討論AI賦能化學生物學領域存在的挑戰(zhàn)與未來發(fā)展方向 (圖1).

圖 1 AI在生物成像和譜學解析、生物大分子結構與功能預測、藥物發(fā)現(xiàn)、精準醫(yī)學、綠色生物制造等方面為化學生物學研究帶來變革

2.1 AI賦能生物大分子結構與功能預測

生物大分子(如蛋白質、DNA和RNA等)的結構與其功能密切相關. 準確預測生物大分子的三維結構對于理解其生物學功能、設計新型藥物以及探索疾病機制至關重要. 同時, 通過序列和結構數(shù)據(jù)預測蛋白質的功能, 為揭示新的藥物靶點提供支撐. 化學生物學不僅為預測提供實驗支撐, 而且其技術手段能夠在分子水平上對蛋白質進行修飾與調控, 為驗證預測結果、解析密碼功能機制提供直接的實驗證據(jù), 推動生命科學對遺傳信息傳遞和表達的深層認知. 近年來, AI技術的快速發(fā)展為生物大分子結構與功能預測帶來了新的機遇, 顯著提升了預測精度和效率.

2.1.1 蛋白質結構和功能預測

蛋白質是生物體內行使功能的主要生物大分子之一, 它們的結構決定了它們如何與其他分子相互作用來實現(xiàn)它們的功能. 通過確定蛋白質結構, 科學家可以繪制藍圖, 指導開發(fā)更有效的藥物. 實驗上獲得蛋白質結構常借助核磁共振(nuclear magnetic resonance, NMR)、X射線衍射(X-ray diffraction, XRD)、冷凍電子顯微鏡(cryo-electron microscopy, cryo-EM)等技術手段, 其成本高昂, 而且難以高通量獲得結構, 從而為下游基于結構的功能預測和設計增加了技術難度. 另一方面, 蛋白質分子是由基本的化學結構單元氨基酸聚合而成的復合物, 因此它的主要特性都由這些基本單元的排布序列所決定. 由此衍生的最著名的推論之一, 便是蛋白質的三維結構在很大程度上由組成它的氨基酸序列所決定. Science 雜志曾指出, 蛋白質折疊問題是人類在21世紀需要解決的125個科學前沿問題之一 [15] . 通過蛋白質結構預測破譯“第二遺傳密碼”, 是生物學中心法則尚未揭示的奧妙之一, 也是目前結構生物學面臨的一項具有挑戰(zhàn)性的重大基礎性研究課題. 科學界在過去50多年不斷地在嘗試如何從氨基酸序列出發(fā)預測對應的蛋白質的三維結構. 但是由于蛋白質的構象空間大且高度復雜, 因此這個問題極具挑戰(zhàn). 經過多年的努力, 由單序列進行結構預測取得了一些進展, 如Facebook團隊的ESM1b [16] 模型, 但其精度和可拓展性仍較為有限. 直至2021年谷歌DeepMind團隊開發(fā)了AlphaFold2 [14] (AF2)算法, 它可以僅從序列信息出發(fā), 預測出精度可與實驗方法相媲美的蛋白質三維空間結構. DeepMind團隊也與歐洲生物信息學研究所(EMBL-EBI)合作推出了AlphaFold蛋白質結構數(shù)據(jù)庫 [17] , 涵蓋了人類蛋白質組近60%氨基酸的結構位置預測, 這一成就被 Nature 等學術期刊喻為“前所未有的進步”. AF2發(fā)布不久之后, 華盛頓大學David Baker團隊也發(fā)布了RoseTTAFold [18] , 能夠以更低的計算資源消耗達到與AF2不相上下的準確度. 世界上多個團隊也都提出了自己的解決方案, 包括北京大學-昌平實驗室-華為昇思團隊的MEGA-Fold [19] 、哥倫比亞大學Mohammed AlQuraishi團隊的OpenFold [20] 以及深勢科技的UniFold [21] 等. 機器學習技術, 特別是以AF2為代表的深度學習技術, 在蛋白質結構領域的里程碑式成就的核心基礎就是相應的數(shù)據(jù)積累. 其中最直接的數(shù)據(jù)庫是幾十年來積累的蛋白質結構數(shù)據(jù)庫. 然而, 由于結構解析困難, 時至今日, 已知的蛋白結構仍然只停留在十幾萬的數(shù)量級上. 這對于機器學習, 特別是對數(shù)據(jù)量極其依賴的深度學習模型, 理論上是遠不夠的. 真正引發(fā)了AF2這樣的技術變革, 使得蛋白結構預測進入“大數(shù)據(jù)”時代的實驗技術, 是對蛋白質所對應的基因序列的高通量測序. 自然界在進化的過程中, 產生了大量序列相似, 因而結構相似的近親蛋白. 那些穩(wěn)定的, 或是具有功能的結構, 都以相對保守的序列形式在進化過程中保留了下來. 此外, 那些在三維結構上靠近的氨基酸, 在進化過程中往往會產生很強的協(xié)同突變性. 而這些被隱藏在序列中的結構秘密, 構成了現(xiàn)代機器學習模型(包括AF2)來預測蛋白三維結構的重要基礎. 目前測序方法已經實現(xiàn)了高通量化, 已收錄的蛋白序列數(shù)據(jù)也來到了幾億的數(shù)量級, 遠遠超過已知結構的數(shù)據(jù), 且仍在快速增長. 因此, 針對某一類感興趣的蛋白, 隨著人們對與它相關的蛋白序列的數(shù)據(jù)越來越豐富, 我們可以期待利用這些序列的信息越來越準確地預測其結構. 2024年, 谷歌DeepMind又取得了重大突破, 發(fā)布了蛋白質結構預測領域最新AI模型AlphaFold3 (AF3) [22] , 它不僅能夠預測蛋白質的三維結構, 還能處理蛋白質與核酸、小分子、離子等生物分子的復合物結構. AF3的關鍵優(yōu)勢之一是其準確模擬共價修飾的能力, 如鍵合配體、糖基化以及修飾的蛋白質和核酸殘基, 這種能力對于理解生物學過程背后復雜的分子機制至關重要, 有助于為疾病通路、基因組學、治療靶點、蛋白質工程及合成生物學等領域帶來新見解.

AlphaFold系列算法通過深度學習整合多序列比對與注意力機制, 突破了傳統(tǒng)結構生物學實驗的局限, 實現(xiàn)了接近實驗精度的蛋白質結構預測, 為復雜生物機制研究提供全局視角. 在病毒糖蛋白機制解析中, AlphaFold結合系統(tǒng)發(fā)育分析 [22] , 揭示了黃病毒科II類融合系統(tǒng)的保守進化起源, 及肝炎病毒屬E1E2糖蛋白的獨特結構與脊椎動物感染相關性, 為廣譜抗病毒藥物及疫苗設計奠定了分子基礎. 核孔復合體(NPC)研究中, AI建模聯(lián)合冷凍電子斷層掃描(cryo-electron tomography, cryo-ET), 構建了7000萬Da的動態(tài)支架模型, 發(fā)現(xiàn)連接核孔蛋白通過空間組織亞復合體擴大中央孔道 [23] , 揭示其構象多樣性與核質運輸調控機制, 展現(xiàn)出AI與原位技術結合解析亞細胞結構的潛力. 蛋白質遞送系統(tǒng)開發(fā)領域, AlphaFold預測了昆蟲致病細菌的發(fā)光桿菌屬毒力基因簇(photorhabdus virulence cassette, PVC)尾纖維結構 [24] , 指導工程改造使其靶向能力重編程, 以近100%的效率遞送Cas9、堿基編輯器等功能載荷至人類細胞, 驗證了其在基因治療與癌癥治療中的應用價值, 體現(xiàn)出AI逆向設計蛋白質的工程化能力. DNA復制機制研究中, 通過AlphaFold篩選互作蛋白發(fā)現(xiàn)DONSON作為支架蛋白介導脊椎動物CMG解旋酶組裝 [25] , 其突變導致的復制缺陷在小鼠模型中重現(xiàn)小頭畸形侏儒癥表型, 將CMG組裝缺陷與疾病直接關聯(lián), 加速了致病機制解析. 此外, AlphaFold還可以指導小分子藥物設計與發(fā)現(xiàn) [26] .

如前文所述, AF3可以預測蛋白質、DNA、RNA、小分子等在內的幾乎所有生物分子結構和相互作用. 而且它在結構預測的準確性方面也取得了長足的進步, 對于蛋白質與其他分子類型的相互作用, 與現(xiàn)有預測方法相比, 實現(xiàn)了至少50%的改進, 而對于一些重要的相互作用類別, AF3的預測準確度實現(xiàn)了翻倍. 但AF3也存在局限性, 包括偶爾的立體化學侵犯(stereochemical violation), 如手性誤差和原子碰撞; 對某些目標高度準確的預測可能需要生成多個預測并對其進行排序, 從而產生額外的計算成本. 另外, 實驗上通常是在低溫下研究蛋白質以確保其穩(wěn)定性, 然而范安德爾研究所的研究人員最近的研究揭示某些蛋白質對溫度非常敏感, 在體溫下結構會發(fā)生明顯變化, 從而影響其與配體的相互作用位置和方式 [27] . 而使用現(xiàn)有的AI預測模型, 如AlphaFold系列模型, 目前也只是預測靜態(tài)的蛋白質結構, 因而對于下游應用(如制藥)的作用有限. 因此, 仍然需要發(fā)展能夠捕捉和預測生物大分子生理條件下動態(tài)結構變化的方法和模型, 融合體內環(huán)境實驗技術和AI模型, 并進行交互和迭代. 也需要發(fā)展能進行高通量計算的跨尺度分子模擬技術, 進行高精度的生物大分子模擬. DeepMind團隊著眼于分子模擬, 開發(fā)了通用方法GEMS [28] , 通過對“自下而上”和“自上而下”分子片段進行訓練, 來構建用于大規(guī)模分子模擬的準確機器學習力場. 微軟研究院也提出了AI2BMD [29] 方法實現(xiàn)了對各類蛋白質分子量子化學精度的動力學模擬, 比密度泛函理論(DFT)方法模擬速度快多個數(shù)量級, 并實現(xiàn)了對各類蛋白質性質更準確的計算評估.

近年來OpenAI打造的ChatGPT的成功, 使人們看到了大語言模型(large language model, LLM)的威力. 相比于小模型數(shù)據(jù)有限、能力有瓶頸、碎片化情況嚴重, 以及缺乏規(guī)?；瘡椭坪陀楷F(xiàn)能力, AI大模型則具備多個場景通用、泛化和規(guī)?；瘡椭频戎T多優(yōu)勢. 當前的LLM在自然語言處理領域取得了顯著進展, 但在理解和生成生物序列(如蛋白質)方面仍然不夠出色. 因此, 如何利用大語言模型橋接人類語言和蛋白質語言的鴻溝是一個非常重要的問題. 在近期的一些工作中, 研究者開始使用大語言模型對齊蛋白質序列、結構和功能之間的關系, 開發(fā)了蛋白質語言模型(protein language model, PLM), 這些模型巧妙地掌握了蛋白質的基礎知識, 并能夠有效地泛化以解決各種序列-結構-功能推理問題. 例如, 在ProtChatGPT [30] 工作中, 研究者設計了將序列和結構通過適配器投射到LLM的結構, 結合用戶指定的問題生成關于蛋白質的理解. 在InstructProtein [31] 工作中, 研究者通過知識因果建模生成從微觀層面到宏觀層面的知識圖譜, 并利用大語言模型生成了許多高質量的指令, 在大語言模型上進行微調后, 可以基于蛋白質序列生成功能描述的文本, 以及利用自然語言提示生成符合要求的蛋白質序列. ESM3 [32] 采用超大生成式語言模型框架, 可以同時對序列、結構和功能進行快速預測和設計. 研究人員使用了超過31.5億條蛋白質序列、2.36億個蛋白質結構, 以及5.39億個帶有功能注釋的蛋白質數(shù)據(jù)來訓練ESM3, 該模型總共有三種不同的規(guī)模, 分別為14億、70億和980億參數(shù). 實驗表明, 隨著模型參數(shù)規(guī)模的增加, ESM3在生成能力和表示學習上的性能有顯著提升, 特別是在生成蛋白質結構時, 980億參數(shù)的模型表現(xiàn)出超越現(xiàn)有模型的強大能力. ProTokens [33] 模型實現(xiàn)了蛋白質三維(3D)結構的深度學習離散化, 證明了蛋白質的骨架3D結構可以被有效離散化成類似于氨基酸的符號, 從而借用操作在氨基酸序列上的序列比對等技術, 實現(xiàn)對3D結構的高效比對、壓縮甚至可逆表示( 圖 2 ). ProTokens模型的核心思想是將蛋白質的連續(xù)3D結構轉化為離散的“Token”表示. 這一思想源于蛋白質物理學中的亞穩(wěn)態(tài)理論. 盡管蛋白質結構在笛卡兒坐標空間中可以連續(xù)變化, 但其穩(wěn)定態(tài)的數(shù)量是可數(shù)的. 基于這一理論, 研究者提出了概率性Token化理論, 將蛋白質結構的連續(xù)分布分解為離散部分(亞穩(wěn)態(tài))和連續(xù)部分(亞穩(wěn)態(tài)內的波動). 這種方法不僅能保留蛋白質結構的關鍵信息, 還能使蛋白質結構更易于AI模型處理,為蛋白質設計開辟了新的可能性. 最近發(fā)布的ProtTeX [34] 模型也是通過結構Token化和序列Token化將蛋白質問題轉化為語言建模任務, 實現(xiàn)了蛋白功能預測、結構生成與分析、多輪鏈式推理(chain-of-thought)和定向蛋白設計. 不過, 需要強調的是, 在蛋白質功能預測研究中, 孤兒蛋白(功能未知蛋白)的預測仍是亟待解決的關鍵科學難題. 這類蛋白因缺乏功能已知的同源蛋白或明確的結構特征, 導致傳統(tǒng)的序列比對和結構預測方法效果有限. 為突破這一瓶頸, 研究人員亟需發(fā)展基于蛋白質語言模型的新型預測技術, 利用大規(guī)模預訓練模型深度挖掘蛋白質序列中隱含的功能特征. 同時, 通過將轉錄組、蛋白互作網絡、代謝通路等多組學數(shù)據(jù)整合到蛋白質語言模型中, 構建多維度的功能關聯(lián)網絡, 則有望顯著提高預測可靠性. 可以預見,通過融合人工智能模型、多組學數(shù)據(jù)整合及結構預測等多維度方法, 將有望系統(tǒng)解析未知功能蛋白的生物學機制, 從而填補當前功能注釋的空白. 未來,當更大規(guī)模、更豐富的蛋白質數(shù)據(jù)能被大語言模型所利用, 蛋白質語言模型就有可能推斷出遠遠超過人類認知極限的蛋白質潛在規(guī)律或深層結構, 從而為蛋白質科學研究開辟嶄新境界.

圖 2 基于大語言模型的ProTokens示意圖. (a) 解碼器功能: 配備解碼器的Dr. LLaMA能夠以ProTokens形式生成蛋白質3D結構, 既可根據(jù)指定的氨基酸序列提示進行結構預測, 也可根據(jù)功能需求提示完成結構設計. (b) 編碼器功能: 配備編碼器的Dr. LLaMA能對蛋白質主鏈進行逆向折疊, 推導出對應的氨基酸序列

2.1.2 RNA 結構預測

RNA的序列比對同樣可以被應用于其三維結構及結構信息預測, 但目前該領域還主要集中在二級結構預測方面, 其三維結構預測較為困難和耗時. 該領域的數(shù)據(jù)集規(guī)模相對較小, PDB單鏈RNA數(shù)目和代表性的RNA三維結構數(shù)據(jù)集包含的結構單元數(shù)均為萬量級. 對RNA結構預測, 深度學習數(shù)據(jù)增強方法可能幫助生成更多訓練數(shù)據(jù), 從而幫助構建更準確的預測模型; 也可以發(fā)展高通量分子模擬方法以幫助三維結構預測以及進行數(shù)據(jù)生成; 還可能通過實驗-計算結合的方式, 用相對少量實驗數(shù)據(jù)幫助結構建模. 2021年斯坦福大學Ron O Dror團隊用幾何深度學習開發(fā)的ARES系統(tǒng) [35] , 僅需18個已知RNA結構作為訓練數(shù)據(jù), 即可突破傳統(tǒng)深度學習的數(shù)據(jù)依賴局限, 實現(xiàn)RNA結構的精準預測. 清華大學和深圳灣實驗室團隊在RNA結構預測的數(shù)據(jù)庫和模型建設中具有較好的基礎 [ 36 ~ 38 ] , 最近香港中文大學、復旦大學等機構的研究人員則開發(fā)了一種名為RhoFold+ [39] 的深度學習方法, 用于從頭預測RNA 3D結構. 該方法基于RNA語言模型, 并在約2370萬個RNA序列上進行了預訓練, 解決了數(shù)據(jù)稀缺性的問題. RhoFold+提供了完全自動化的端到端流程, 在單鏈RNA建模方面表現(xiàn)出很高的準確性, 并具有出色的泛化能力, 能夠捕捉螺旋間夾角和二級結構等局部特征. 在RNA-Puzzles和CASP15天然RNA靶標的評估中, RhoFold+的表現(xiàn)優(yōu)于現(xiàn)有方法. 盡管RhoFold+取得了顯著的成果, 它仍然存在一些局限性, 如依賴多序列比對(multiple sequence alignment, MSA)、難以預測大型復雜RNA結構以及難以模擬RNA的動態(tài)特性和與其他分子的相互作用. 未來的研究方向包括整合探測數(shù)據(jù)、分子動力學和能量函數(shù)等方法, 以提高RhoFold+的準確性, 并增強MSA提取過程和RNA相互作用預測能力.

AI在RNA結構與功能預測研究領域實現(xiàn)了多維度突破, 構建起從基礎研究到臨床轉化的完整技術鏈條, 促進了RNA化學生物學研究. 例如, 美國國家癌癥研究所王運星團隊 [40] 針對柔性RNA結構解析難題開發(fā)了HORNET方法, 在生理條件下實現(xiàn)了單分子RNA動態(tài)構象的可視化解析. 該技術成功捕獲HIV-1 Rev響應元件RNA (RRE RNA)的五種異質構象, 揭示了其構象異質性直接影響Rev蛋白結合效率, 并設計出結合力超越天然蛋白3倍的多肽分子, 在小鼠模型中降低病毒載量90%. 又如, 加州大學Gene W Yeo團隊 [41] 構建的HydRA系統(tǒng), 實現(xiàn)了超萬級RNA結合蛋白(RBP)的精準預測. 他們進一步結合實驗發(fā)現(xiàn)了數(shù)百個新型RNA結合結構域, 并證實其功能活性, 極大拓展了RNA調控網絡的認知邊界.

2.1.3 生物大分子相互作用

DNA、RNA、蛋白質作為中心法則的三種重要分子, 細胞生命過程的實現(xiàn)依賴于DNA、RNA、蛋白質等分子之間的復雜相互作用, 目前人們對其中具體的作用形式已經有了較為豐富的認識. 蛋白質是多數(shù)細胞活動的直接執(zhí)行者, 其功能實現(xiàn)往往需要分子間相互作用, 包括但不限于蛋白-蛋白、蛋白-RNA、蛋白-DNA等類型; DNA-RNA相互作用與轉錄和轉錄調控直接相關; DNA間的遠程物理相互作用與其調控往往需要轉錄因子蛋白輔助; RNA直接參與蛋白翻譯, 還可以與DNA、蛋白質一同通過液液相分離的機制形成細胞內的無膜細胞器, 調控基因的轉錄與翻譯. 理解這些二體乃至多體相互作用不僅有助于增強對生命過程中調控關系的理解, 更有助于對這些調控關系進行干預, 從而預防或治療疾病.

基于生物計算預測蛋白間相互作用及其變化, 可以促進抗體藥物等蛋白藥物設計以及生物制藥的發(fā)展, 是研究的難點之一. 以DeepMind開發(fā)的AlphaFold-Multimer [42] 為代表的蛋白間相互作用的深度學習預測模型是近期這個方向上的重要進展, 但由于構成復合物的多條子鏈之間往往缺少共進化信息和全局模板信息, 所以目前的深度學習預測模型大多在多鏈復合物的結構預測中表現(xiàn)并不理想. 針對這一問題, Feng等 [43] 提出了一個用于蛋白復合物構象預測的通用框架——ColabDock, 它是一個由稀疏實驗約束引導的蛋白質-蛋白質對接結構預測通用框架. 通過在構象搜索過程中使用梯度反向傳播替代傳統(tǒng)蛋白對接軟件中的快速傅里葉變換, 該方法有效整合了蛋白結構預測深度學習模型的能量景觀和稀疏實驗約束, 可以自動搜索滿足兩者的構象, 同時也能容忍約束中的沖突或模糊性. 另外, ColabDock可以利用不同形式和來源的實驗約束, 而無需進一步進行大規(guī)模重新訓練或微調. 測試顯示, ColabDock不僅在具有模擬殘基和表面約束的復雜結構預測中優(yōu)于HADDOCK和ClusPro, 而且在結合核磁共振化學位移擾動和共價標記輔助的情況下也表現(xiàn)出色. 北京大學/昌平實驗室高毅勤團隊也發(fā)展了可以整合多種實驗信息輔助蛋白復合物結構預測的原創(chuàng)性方法和模型GRASP [44] (廣義約束輔助結構預測模型, generalized restraints assisted structure predictor), 通過在AI模型中引入實驗約束和分子模擬采樣, 把有限制的結構生成和強化學習結合起來. 該方法可以應用于XL-MS、NMR、共價標記(covalent labeling, CL)、深度突變掃描(deep mutational scanning, DMS)、化學位移微擾(chemical shift perturbation, CSP)、氫氘交換質譜(hydrogen-deuterium exchange mass spectrometry, HDX-MS)等多種類型的實驗約束整合, 并進行抗原-抗體等蛋白質復合物結構預測, 預測精度上超越了AlphaFold-Multimer和AlphaFold3. 更為重要的是, 該方法能夠高效利用稀疏的實驗信息實現(xiàn)蛋白相互作用組的高通量建模, 實現(xiàn)亞細胞層級的蛋白相互作用組搭建和體內動態(tài)相互作用建模, 為進一步的疫苗和抗體研發(fā)、疾病診斷、靶點發(fā)現(xiàn)和藥物設計等提供基礎.

對比蛋白-蛋白相互作用預測, 關于DNA-蛋白、DNA-DNA和DNA-RNA的相互作用研究, 目前更是困難重重. 這些問題的解決, 需要整合多尺度、多組學信息, 分類構建一系列分析技術與方法. 在同種分子層面上, 整合多種一維組學數(shù)據(jù)以對DNA層面的三維相互作用進行預測; 進一步開發(fā)蛋白間相互作用的預測模型與結合蛋白藥物的設計. 發(fā)展和整合基因組、表觀遺傳組、蛋白組等多組學數(shù)據(jù)集, 開發(fā)多模態(tài)方法, 以適應生物體系的多層級特性, 可以增進對生物大分子調控關系的理解. 這些方面的綜合性研究, 特別是將三維基因組學、表觀遺傳學和蛋白組學結合起來研究多種大分子的相互作用的工作處于起步階段, 將可能帶來重要的研究范式變革. 例如,北京大學高毅勤團隊通過分析染色質三維結構特征發(fā)現(xiàn), 染色質結構包含的基因鄰近信息可能參與指導轉錄與翻譯層面的分子互作關系, 進而構建基因調控網絡 [45] . 首先, 從DNA到RNA層面, 結直腸組織染色質三維結構中基因的鄰近關系與基因的共表達存在對應關系. 這說明正常組織染色質三維結構的長程相互作用在基因轉錄調控中可能起到了重要作用, 使得序列距離較遠的基因也能夠共享相似的轉錄環(huán)境, 包括轉錄因子和表觀遺傳信號, 從而實現(xiàn)共調控與共轉錄. 其次, 從DNA到蛋白質層面上, 他們發(fā)現(xiàn)鄰近基因翻譯出的蛋白也更傾向于具有物理相互作用. 這些發(fā)現(xiàn)拓展了對中心法則的理解, 即除了一維序列信息的傳遞, 基因間的調控關系也可以儲存在染色質三維結構中(DNA層面), 通過基因的轉錄共調控(RNA層面)從而實現(xiàn)調控下游蛋白間的相互作用(蛋白層面) [46] .

2.2 AI賦能的生物成像和譜學解析

生物成像和生物譜學解析作為化學生物學研究中的兩大核心技術, 在解析生命分子機制、動態(tài)過程及疾病機理中發(fā)揮著不可替代的作用. AI通過自動化解析、多模態(tài)整合及多尺度分子模擬, 正在重塑生物成像與譜學解析的研究邊界.

2.2.1 生物成像

生物成像技術通過高時空分辨率的成像手段, 實現(xiàn)對生物分子活性和細胞過程的實時動態(tài)觀測, 其為化學生物學研究提供了強有力的工具和方法. 自20世紀50年代至今已有多項諾貝爾獎與顯微成像技術相關, 之后成像技術發(fā)展迅猛, 新技術層出不窮. 2014年諾貝爾化學獎被授予研制出超分辨率熒光顯微鏡的三位科學家, 他們將熒光顯微成像的分辨率帶入到“納米時代”, 極大地推動了生命科學領域的研究工作 [ 47 ~ 50 ] . 然而, 超分辨顯微成像在數(shù)據(jù)采集、重建和分析中仍面臨噪聲干擾、成像速度限制、動態(tài)過程捕捉困難等挑戰(zhàn). 近年來, 得益于AI技術的快速發(fā)展, 深度學習被用于克服超分辨顯微技術的各種缺陷 [51] .

單分子定位顯微鏡(single-molecule localization microscopy, SMLM) [52] ,通過隨機激發(fā)熒光分子并定位重建來實現(xiàn)超分辨成像, 但其存在時間分辨率低、光毒性、光漂白、分子定位精度和速度低等問題. 為了提高重建速度, Nehme等 [53] 提出了深度學習驅動隨機光學重建顯微法(deep stochastic optical reconstruction microscopy, Deep-STORM), 該技術利用卷積神經網絡(convolutional neural networks, CNN) [ 54 ~ 56 ] 從SMLM的稀疏數(shù)據(jù)中重建超分辨圖像, 顯著提升了定位精度和信噪比. 接著, Li等 [57] 受Deep-STORM啟發(fā), 進一步結合遞歸神經網絡提出了深度遞歸監(jiān)督網絡(deep recurrent-supervised network)-STORM (DRSN-STORM); Speiser等 [58] 則提出了一種基于U-Net網絡的深度上下文相關(deep context dependent, DECODE) [59] 架構, 用以在單分子定位中區(qū)分真實信號與隨機噪聲; 也有研究者基于神經網絡開發(fā)了ANN-PALM [60] 、DBlink [61] 等方法來減少圖像重建所需幀數(shù), 這些方法都提高了成像速度和定位精度. 受激發(fā)射損耗顯微術(stimulated emission depletion microscopy, STED) [62] 是主流的超分辨技術之一, 它通過高斯激發(fā)光和環(huán)形光束的配合, 實現(xiàn)超分辨成像. STED實現(xiàn)超分辨的關鍵在于損耗光的功率以及受激輻射與自發(fā)熒光相互競爭中的非線性效應,淬滅光功率越強, 空間分辨率越高, 但使用強耗損光的同時會帶來光漂白、光毒性、光損傷等問題. 此外, 對于厚樣品STED的軸向分辨率仍有待提升. 為了提高成像速度, 減少光損傷, Ebrahimi等 [63] 借助U-Net和殘差通道注意力網絡(residual channel attention network, RCAN)架構 [64] 提出了多階段漸進圖像恢復(multi-stage progressive image restoration, MPRNet)的方法, 能夠使STED的像素停留時間減小1~2個數(shù)量級, 極大提升了成像速度, 進而減少了對樣品的光漂白與光損傷. 此外, 還有研究通過深度對抗網絡(deep adversarial networks, DAN)、結合單螺旋點擴散函數(shù)與深度學習算法 [ 65 , 66 ] , 進一步提升了STED的橫向和軸向分辨率. 研究者也嘗試使用深度學習將非超分辨成像技術所成圖像直接轉換為超分辨圖像. 例如, Wang等 [67] 使用生成對抗網絡(generative adversarial networks, GAN) [68] 實現(xiàn)了共聚焦圖像與STED相匹配的分辨率; Huang等 [69] 提出的雙通道注意力網絡(two-channel attention network, TCAN)提高了圖像分辨率等. AI技術正逐步重塑超分辨顯微成像的全流程: 從數(shù)據(jù)采集(實時去噪、自適應光學)、重建(分辨率突破)到分析(動態(tài)追蹤、功能解析). 未來, 隨著物理驅動AI模型、邊緣計算與跨學科方法的進一步發(fā)展, 超分辨成像將邁向更高維度(4D時空成像)、更高通量(全組織尺度)及更高智能化(自主實驗設計). 這一技術革新不僅推動基礎科學研究, 也為精準醫(yī)學診斷(如病理切片超分辨分析)和新藥研發(fā)(如單分子藥物靶點追蹤)提供了強大工具.

生物大分子的結構解析對于理解其功能和相互作用至關重要. 通過揭示生物大分子的三維結構, 研究人員能夠更深入地了解其如何參與生命過程, 如酶催化、信號傳導和基因表達等. cryo-EM [ 70 , 71 ] 是近年來在結構生物學領域最重要的生物成像技術, 被科學家稱為“諾獎助手”. 然而, 傳統(tǒng)的cryo-EM單顆粒分析重構方法往往僅生成一個靜態(tài)的三維結構, 無法進行動態(tài)構象分析. 此外, 生物大分子之所以能實現(xiàn)眾多關鍵的生物學功能, 很大程度上得益于其卓越的柔性結構特質. 然而, 正是這一柔性結構特質, 成為了研究人員對其進行高精度結構解析的主要障礙. 因此, 結構生物學領域的一個重要挑戰(zhàn)就是如何高分辨率地解析生物大分子的三維結構, 尤其是其柔性區(qū)域結構, 并通過重建其動態(tài)過程來理解其生物學功能. AI的引入為cryo-EM技術的發(fā)展帶來了新可能, 冷凍電子顯微鏡數(shù)據(jù)處理的關鍵環(huán)節(jié), 包括粒子選取、三維重建、分辨率確定、圖像銳化和模型構建等, 都可以利用AI來優(yōu)化和增強. 例如, Liu等 [72] 開發(fā)的spIsoNet技術, 通過自監(jiān)督深度學習顯著提高了生物大分子重建的質量, 增強了對齊精度和角度各向同性. 馬劍鵬團隊 [73] 發(fā)展了冷凍電鏡密度圖重構算法OPUS-DSD, 不但能夠成功地解析因傳統(tǒng)解析方法無法分辨而缺損的生物大分子(如蛋白質、核酸或蛋白質/核酸復合物等)結構, 并且能高效、精準地分辨出柔性結構域在受測樣品中的構象分布. 他們也開發(fā)了蛋白質側鏈建模技術OPUS-Rota5 [74] , 經過OPUS-Rota5側鏈修正后的結構具有更高的分子對接成功率. cryo-EM技術的持續(xù)發(fā)展使研究人員能夠研究更復雜、更具挑戰(zhàn)性的超大生物大分子機器的結構和功能. 例如, 孫飛團隊 [75] 全面介紹了利用冷凍電子顯微鏡技術對核孔復合體的研究, 特別強調了通過結合最新冷凍電子顯微鏡技術和AI建模技術實現(xiàn)亞納米分辨率的突破性進展. 顏寧團隊 [76] 則提出了一個名為CryoSeek的新策略, 將冷凍電子顯微鏡作為一種觀察工具, 結合AI輔助的自動建模和生物信息學分析, 發(fā)現(xiàn)了自然界中完全未知的新型生物實體. 在動態(tài)過程捕捉上, 具有代表性的工作是2022年北京大學毛有東團隊將AI應用于提升時間分辨冷凍電子顯微鏡的分析精度, 解析了蛋白酶體降解底物的13種中間態(tài)構象, 揭示了USP14調控的動力學機制 [77] .

結構生物學研究的未來目標是在細胞環(huán)境中進行原位結構研究, cryo-ET技術使這一目標成為現(xiàn)實, 開創(chuàng)了結構生物學的新時代. 與單顆粒分析不同, cryo-ET能夠直接對細胞切片進行成像, 并通過傾斜系列圖像重建出切片的三維結構, 從而揭示生物大分子在其天然狀態(tài)下的空間組織和相互作用. 然而, 傳統(tǒng)的cryo-ET技術同樣面臨諸多挑戰(zhàn). 例如, 由于電子束的輻射損傷, cryo-ET通常需要使用極低劑量的電子束采集數(shù)據(jù), 這會導致信噪比較低. 同時, 傾斜樣品平臺也會導致成像的對比轉移函數(shù)出現(xiàn)空間變化, 進一步限制成像的分辨率. 此外, cryo-ET的數(shù)據(jù)中保留細胞內各種分子, 這為從其中辨別分析特定分子帶來了巨大挑戰(zhàn). 更重要的是, 生物大分子在細胞內的動態(tài)行為和構象變化往往被“凍結”在某一時刻, 現(xiàn)有的cryo-ET數(shù)據(jù)分析方法也是基于靜態(tài)假設, 所以難以捕捉動態(tài)過程的細節(jié). 而結合機器學習和先進圖像處理技術, 則有望從cryo-ET數(shù)據(jù)中還原更加精細的分子結構和動態(tài)特征, 從而深入探索生物大分子在復雜生理環(huán)境中的功能機制, 以及不同大分子的協(xié)作 [78] .

AI與冷凍電鏡的協(xié)同創(chuàng)新, 不僅解決了傳統(tǒng)結構生物學的效率瓶頸, 更開啟了動態(tài)結構與復雜體系研究的新紀元. 未來, 隨著算法提升、多模態(tài)數(shù)據(jù)整合和自動化平臺的普及, 這一技術組合將在基礎科學和醫(yī)學中釋放更大潛力.

2.2.2 生物譜學解析

生物譜學技術(如質譜、核磁共振)通過高靈敏度的分子檢測, 提供生物分子的定性與定量信息, 被廣泛應用于化學生物學研究中: 質譜(mass spectrometry, MS)技術可鑒定蛋白質結構、分析磷酸化/糖基化修飾, 并實現(xiàn)蛋白質組定量; 質譜結合色譜分離技術, 被用于解析代謝物譜以揭示疾病標志物; 通過設計小分子探針干擾特定信號通路, 并結合質譜分析探針-靶標結合位點, 可以用于研究細胞壞死或自噬的調控機制.

譜學方法的應用一直受制于譜學數(shù)據(jù)的解析效率和難度, 傳統(tǒng)的人工或半自動化解析方法不僅效率低下, 而且容易引入主觀偏差, 嚴重依賴于實驗者的經驗. 深度學習模型的應用則可以極大地減少人為錯誤, 提高數(shù)據(jù)處理的速度和準確性. 例如, 清華大學陳春來團隊發(fā)展的DEBRIS [79] 方法, 通過精準識別單分子熒光軌跡的局部特征, 并允許根據(jù)實驗設計靈活調整分類標準, 實現(xiàn)了在不修改神經網絡結構的前提下, 對雙色/單色實驗條件下的穩(wěn)定和動態(tài)單分子熒光信號進行準確識別. 中國科學院大學和溫州醫(yī)科大學的研究團隊, 則通過使用拉曼光譜結合卷積神經網絡研究人體肝組織樣本, 以快速、非破壞性和無標簽的方式將癌組織與鄰近的非腫瘤組織區(qū)分開來 [80] . NMR方法是一種以原子分辨率解析更貼近蛋白質在實際環(huán)境下的溶液態(tài)構象與動態(tài)結構的方法, 然而該方法存在數(shù)據(jù)解析速度慢的問題, 平均單條蛋白需要領域專家投入至少數(shù)月, 而其中大部分時間都消耗在實驗數(shù)據(jù)的解析和歸屬上. 高毅勤團隊 [81] 發(fā)展了AI+約束結構預測模型RASP, 并在其基礎上開發(fā)了核磁共振增強光譜(nuclear overhauser enhancement spectroscopy, NOESY)自動解析方法——蛋白折疊結構輔助的共振峰指認(folding assisted peak assignment, FAAST), 實現(xiàn)了NMR數(shù)據(jù)解析時間從數(shù)月到數(shù)小時的縮短. 陳忠團隊 [82] 將物理信息嵌入仿真數(shù)據(jù)驅動的神經網絡模型中, 提出基于深度學習的多維拉普拉斯磁共振快速重建算法DLEMLR, 克服了拉普拉斯反演的病態(tài)性及提高重建譜圖的分辨率, 并將重建時間縮短至秒級. 基于質譜的蛋白質組學是蛋白質鑒定的核心技術, 但其數(shù)據(jù)處理面臨高噪聲、高維度等挑戰(zhàn). AI在質譜分析中不僅可以加速數(shù)據(jù)處理和解讀, 還通過預測模型和自動化技術革新了實驗設計和結構解析, 成為推動蛋白質組學發(fā)展的核心驅動力. 通過深度學習算法可以顯著提升數(shù)據(jù)獨立采集(data independent acquisition, DIA)的復雜譜圖解析能力, 使肽段識別數(shù)量翻倍, 減少假陽性 [83] . 利用深度學習生成預測譜庫, 輔助DIA數(shù)據(jù)分析, 也可以提高低豐度肽段的檢測靈敏度 [ 84 , 85 ] . AI也能用于預測肽段的洗脫時間、離子化效率及“proteotypic”肽段(易檢測的代表性肽段), 優(yōu)化實驗設計 [86] . 在交聯(lián)質譜(cross-linking mass spectrometry, XL-MS)中, 通過整合AlphaFold2等AI工具, 解析蛋白質相互作用網絡和結構模型, 則可以提升交聯(lián)數(shù)據(jù)的結構背景解釋 [87] .

2.3 AI賦能藥物發(fā)現(xiàn)

化學生物學研究的核心在于利用化學工具揭示生命過程的分子機制, 并直接干預這些機制以解決相關問題, 因此藥物發(fā)現(xiàn)是化學生物學的終極目標之一. 然而, 傳統(tǒng)藥物研發(fā)面臨“雙十”魔咒, 即新藥研發(fā)通常需要花費10年時間、10億美元. 如何打破這一魔咒, AI被寄予了厚望. 由于在數(shù)據(jù)降維、模式識別及生成能力上的優(yōu)勢, AI正在重塑藥物研發(fā)全流程, 有望將靶點發(fā)現(xiàn)、虛擬篩選、藥物分子從頭設計等環(huán)節(jié)的效率大大提升 [88] ( 圖 3 ).

圖 3 AI正在重塑藥物發(fā)現(xiàn)中的靶點發(fā)現(xiàn)、虛擬篩選和藥物分子從頭設計等關鍵步驟

2.3.1 靶點發(fā)現(xiàn)

在新藥研發(fā)的整個鏈條中, 一個新靶點的發(fā)現(xiàn)往往會帶動一批新藥產生, 推動臨床治療的突破. 傳統(tǒng)的藥物靶點發(fā)現(xiàn)方法主要依賴于生物學實驗、化學篩選和生物信息學分析, 旨在通過系統(tǒng)性手段揭示疾病相關分子機制并篩選潛在藥物作用靶點. 由于AI擅長分析海量復雜數(shù)據(jù)集, 在其中挖掘隱藏模式, 因而近年來AI技術正成為發(fā)現(xiàn)新靶點的利器[89,90].

(1)基于多組學數(shù)據(jù)的靶標發(fā)現(xiàn). 隨著高通量測序技術的進步, 海量的組學數(shù)據(jù)(如基因組學、轉錄組學、蛋白質組學、代謝組學等)不斷產生. 多組學數(shù)據(jù)從不同角度為研究人員提供了分子相互關聯(lián)的信息, 通過對這些大規(guī)模組學數(shù)據(jù)進行處理和分析, 可以鑒別出在與特定疾病相關的生物過程中扮演重要角色的基因或蛋白質, 從而促進藥物靶點發(fā)現(xiàn)的研究. 然而, 處理和分析這些復雜且高維組學數(shù)據(jù)極具挑戰(zhàn)性. 通過機器學習和深度學習算法來整合多組學數(shù)據(jù), 則可以從大規(guī)模組學數(shù)據(jù)集中學習潛在知識, 高效地識別關鍵生物標志物和可成藥靶點. 例如, 為了識別肌萎縮側索硬化(amyotrophic lateral sclerosis, ALS)的治療靶點, Pun等[91]結合多種基于生物信息學和深度學習的模型, 使用疾病特異性多組學和基于文本的數(shù)據(jù)進行訓練, 以優(yōu)先考慮可藥物基因, 揭示了ALS治療的18個潛在靶點. Fabris等[92]建立了一種基于深度學習的方法, 通過學習從基因或蛋白質特征中檢索到的模式來識別與多種年齡相關疾病的人類基因.

(2)基于分子-靶標識別的靶標預測. 預測并確證活性分子的靶標是闡明藥物作用機理的重要步驟. 傳統(tǒng)的靶標識別方法主要是同位素示蹤法、紫外及熒光光譜法, 效率較低. 目前常用的方法是基于基因組學和蛋白組學的高通量篩選方法, 但仍存在成本較高、實驗周期長、不具有普適性等缺點. AI可通過深度學習算法, 建立分子-靶標數(shù)據(jù)庫, 從而高效預測藥物分子的潛在靶標. 例如, Nelson等[93]提出的基于CNN和全連接神經網絡(fully connected neural network, FCNN)的端到端深度學習模型, 無需依賴手工設計的描述符, 直接從蛋白質序列(氨基酸序列)和化合物SMILES字符串中提取特征, 在藥物-靶標相互作用(drug-target interactions, DTI)預測任務中表現(xiàn)優(yōu)秀.

(3)基于生物醫(yī)藥知識圖譜的可成藥靶點發(fā)現(xiàn). 將知識圖譜技術與系統(tǒng)生物學結合構建生物醫(yī)藥知識圖譜(biomedical knowledge graphs)已開始在生物醫(yī)藥領域發(fā)揮關鍵作用. 通過與特定疾病的背景相結合, 交叉檢驗多源異質的生物醫(yī)藥數(shù)據(jù)庫(蛋白質組數(shù)據(jù)庫、蛋白質相互作用數(shù)據(jù)庫、藥物-靶點關系數(shù)據(jù)庫等), 生物醫(yī)藥知識圖譜可以獲取其中的內在關聯(lián), 加速靶點識別. 例如, Zitnik實驗室[94]開發(fā)的精準醫(yī)學知識圖譜(precision medicine knowledge graph, PrimeKG)項目, 整合了20個高質量的生物醫(yī)學資源, 涵蓋了17080種疾病、7957種藥物, 通過知識圖譜中的藥物-疾病關系可以幫助藥物研發(fā)人員識別潛在的藥物靶點和治療方案. 鄭杰課題組與合作者[95]提出了基于知識圖譜和圖神經網絡的模型KG4SL, 通過知識圖譜來揭示合成致死(synthetic lethality, SL)基因背后的生物學機理, 有望加速癌癥藥物靶點發(fā)現(xiàn).

(4)基于網絡藥理學的靶標發(fā)現(xiàn). 網絡藥理學的概念由英國藥理學家Andrew L. Hopkins于2007年首次提出[96], 其利用生物分子網絡分析方法, 選取特定節(jié)點進行新藥設計和靶點分析. 網絡藥理學突破傳統(tǒng)的“一個藥物一個靶標, 一種疾病”理念, 代表了現(xiàn)代生物醫(yī)藥研究的哲學理念與研究模式的轉變. 以系統(tǒng)生物學和網絡生物學基本理論為基礎的網絡藥理學具有整體性、系統(tǒng)性的特點, 注重網絡平衡(或魯棒性)和網絡擾動, 強調理解某個單一生物分子(如基因、mRNA或蛋白等)在生物體系中的生物學地位和動力學過程要比理解其具體生物功能更為重要, 揭示藥物作用的生物學和動力學譜要比揭示其作用的單個靶標或幾個“碎片化”靶標更重要, 對認識藥物和發(fā)現(xiàn)藥物的理念產生了深遠影響. AI非常擅長分析基因、蛋白質和通路的相互作用網絡, 以確定疾病進展的關鍵節(jié)點. 未來網絡藥理學的研究將會涉及更多的多模態(tài)數(shù)據(jù), 如基因組學、轉錄組學、蛋白質組學、代謝組學等數(shù)據(jù). 面對多維度數(shù)據(jù), 人工智能技術在這方面的應用已經開始受到廣泛關注[97~100], 未來的網絡藥理學也將借助這些技術的發(fā)展, 實現(xiàn)更加智能化和高效的分析和預測.

(5)基于生物醫(yī)藥文本挖掘的靶點發(fā)現(xiàn). 人們在生物學基礎研究和臨床研究中積累了大量數(shù)據(jù), 但這些數(shù)據(jù)“互不關聯(lián)”地分散存儲在海量的研究文獻中, 它們之間的潛在關聯(lián)難以被人類發(fā)現(xiàn). 大語言模型LLM具備理解自然語言和解析復雜科學概念的能力, 因而LLM驅動的AI方法具有強大、高效的學習分析能力, 能夠將散布在大量文獻中的關聯(lián)關系挖掘出來, 從而推動新機制、新靶點的發(fā)現(xiàn). 微軟的BioGPT[101]和英矽智能的ChatPandaGPT (集成于英矽智能的人工智能驅動的靶點發(fā)現(xiàn)和生物標志物識別平臺PandaOmics[102])就致力于能夠將疾病、基因和生物過程相互關聯(lián), 從而快速識別疾病發(fā)生和發(fā)展的生物學機制, 并發(fā)現(xiàn)潛在的藥物靶點和生物標志物. 然而, 這些模型通?；谌祟惿傻奈谋具M行訓練, 可能無法判斷輸入數(shù)據(jù)的準確性和適用性. 因此, 它們可能會無意中延續(xù)人類的偏見和先入為主的觀念. 此外, 由于這些模型嚴重依賴已發(fā)表的數(shù)據(jù), 它們在識別真正新穎靶點方面的潛力可能有限. 因此, 后續(xù)的研究中需要認識到這些局限性, 并輔以其他模型的使用, 以確保發(fā)現(xiàn)真正新穎且相關的靶點.

2.3.2 虛擬篩選

確定了靶點后, 藥物研發(fā)的后續(xù)任務基本上就是尋找一個具有臨床功效的先導化合物. 但是, 由于在化學文摘數(shù)據(jù)庫中已注冊的化合物數(shù)量超過7000萬個, 再加上其他可能存在的無窮無盡的化合物, 可以成為候選藥物的化合物數(shù)量難以統(tǒng)計, 因此如何在這么巨大的化學空間中進行搜索是一個高難度的問題. 目前, 已有許多工具和方法來幫助我們發(fā)現(xiàn)先導化合物, 它們通常可以被分為兩類: 高通量篩選(high throughput screening, HTS)和虛擬高通量篩選(virtual high throughput screening, vHTS). 盡管實驗性高通量篩選能夠考慮生物體的復雜環(huán)境并提供可靠結果, 但面對上億種配體時, 全面實驗評估所有藥物并不現(xiàn)實. 相比之下, 虛擬篩選將分子對接、虛擬化合物庫與生物靶標的結構數(shù)據(jù)相結合, 通過高通量計算評估化合物與目標靶點相互作用強弱的成本則更具可行性. 虛擬篩選主要有2種方法, 基于配體的虛擬篩選(ligand-based virtual screening, LBVS)和基于結構的虛擬篩選(structure-based virtual screening, SBVS).

當靶點信息匱乏但有已知有效藥物時, 一般可采取基于配體的虛擬篩選策略, 如定量構效關系分析或藥效團建模等方法. 而當疾病靶點蛋白明確且其三維結構及結合位點信息已知時, 基于結構的篩選策略通常是首選. 在蛋白質三維結構預測技術發(fā)展之前, 這類結構數(shù)據(jù)主要來自NMR或X射線晶體學實驗. 而如今, 諸如AlphaFold[14]、MEGA-Fold[19]和RoseTTAFold[18]等AI預測方法也能為SBVS提供蛋白質三維預測模型, 有效填補了實驗數(shù)據(jù)缺失的空白. 隨著蛋白質三維結構預測技術的進步, 越來越多的蛋白質結構信息被獲取, 有力推動了SBVS的發(fā)展[103]. 例如, Weng等[104]曾利用AlphaFold預測了當時結構未知的WSB1蛋白三維構象, 并基于該模型篩選獲得了具有高潛力的配體化合物.

在SBVS中準確預測和理解蛋白配體相互作用能夠加速藥物研發(fā)進程, 優(yōu)化藥物分子結構, 并揭示生物分子的功能機制. 近年來隨著深度學習模型的應用, 蛋白配體相互作用的研究取得了顯著進展. 蛋白配體相互作用預測主要有三類方法. 一類主要偏重互作結構的預測, 代表性方法包括EquiBind[105]、TANKBind[106]、DiffDock[107]、RoseTTAFold All-Atom[108]和AF3[22]等. 這類方法的優(yōu)點是可以獲得蛋白質與小分子復合物的較為精確的結構, 但是這類方法普遍速度慢, 不適用于高通量虛擬篩選任務, 并且也不會給出結合能的評估. 第二類方法側重于結合能的預測, 如GraphDTA[109]、PSICHIC[110]、ΔVinaRF20[111]、RTMScore[112]和InteractionGraphNet[113]等. 這類方法推理速度快, 但也存在泛化能力差或者需要大量構象采樣、使用繁瑣的缺點. 第三類方法就是在藥物篩選中廣泛應用的分子對接方法. 除了傳統(tǒng)的AutoDock[114]、AutoDock Vina[115],近年來還誕生了GNINA[116,117]、DSDP/DSDPFlex[118,119]、RosettaVS[120]、Interformer[121]和SurfDock[122]等融合了AI的方法. 這類方法可以同時獲得復合物結構和結合能, 在SBVS中最為常用. 但是目前各類SOTA方法仍然需要針對性的改進以滿足更廣泛的實際應用需求. 首先, 大部分方法單獨考慮結構預測任務與結合能預測任務, 使得兩個任務分離, 而實際應用中往往需要能夠準確預測結合能, 同時輸出可解釋相互作用細節(jié)的結構信息, 這就要求進一步開發(fā)結構預測和結合能預測一體化的綜合篩選方法. 其次, 現(xiàn)有方法的性能評估數(shù)據(jù)集單一, 測評功能單一, 使得在實際應用中泛化能力差. 最后, 現(xiàn)有方法往往無法在精度和速度上取得平衡, 因此在實際的SBVS應用中無法發(fā)揮作用. 這就需要我們發(fā)展出快速采樣聯(lián)合多精度打分的策略, 極限優(yōu)化速度與精度. 另外, 藥物分子的新穎性、選擇性和可合成性是新藥研發(fā)的關鍵, 因此近年來研究者發(fā)展了各類分子生成與設計技術, 通過結合AI、計算化學和合成生物學等方法, 顯著提升了藥物研發(fā)效率.

2.3.3 藥物分子從頭設計

藥物從頭設計(de novo drug design)是一種基于靶點結構直接構建形狀與性質互補的全新配體分子的技術. 這一方法能夠提出結構新穎且具有啟發(fā)性的先導化合物, 在藥物研發(fā)過程中具有重要的原創(chuàng)性意義. 現(xiàn)在藥物分子的概念已不限于小分子藥物, 所以藥物分子從頭設計也分為小分子藥物設計和(生物)大分子藥物設計兩大類.

(1)小分子藥物設計

據(jù)估計藥理活性化學空間中, 我們可以找到的藥物分子的個數(shù)是1060[123], 如何在這樣巨大的化學空間中進行高效搜索發(fā)現(xiàn)候選的藥物分子呢? 分子生成式模型是一個極具前景的方向. 生成式AI是AI的重要分支, 其思想是試圖學習訓練數(shù)據(jù)的概率分布, 提取有代表性的特征, 產生一個低維的連續(xù)表示, 最終通過從學習到的數(shù)據(jù)分布中采樣來生成新的數(shù)據(jù). 近年來, 由于Transformer[124]和擴散模型(diffusion models)[125~127]的發(fā)展, 使得生成式AI在復雜分布上的表現(xiàn)得到極大提升, 展現(xiàn)了強大通用性, 已經應用在了文本生成(如GPT-4o)、圖像生成(如MidJourney)和視頻生成(Sora)等領域. 2022年底OpenAI發(fā)布了ChatGPT,由于它能進行自然流暢的對話, 因此引起了生成式AI的熱潮. 而生成模型的發(fā)展也為解決分子設計難題帶來了新的思路, 當生成模型應用于生成分子時, 其本質是學習訓練集中分子的分布, 從而獲得與訓練集中的分子相似但不同的分子集合; 也可通過結合進化算法或強化學習等算法, 生成具有特定生物活性或理化性質的分子.

分子生成模型可以根據(jù)其設計目標和實現(xiàn)方式分為兩大類: 目標導向型和結構導向型. 目標導向型模型通過優(yōu)化目標函數(shù)(如藥物活性、藥代動力學性質等)來生成分子, 通常采用強化學習或潛在空間導航技術, 能夠在無結構約束下優(yōu)化分子. 例如, REINVENT[128]使用策略梯度方法對SMILES字符串生成模型進行微調, 以生成符合特定目標的分子. DeepFMPO[129]結合策略梯度和Q學習(Q-learning), 利用“執(zhí)行者-評論者”(actor-critic)方法實現(xiàn)最優(yōu)分子設計. 結構導向型模型則通過條件深度生成模型生成具有特定結構的分子, 通常用于改進現(xiàn)有化合物的結構, 以提升其性能. 例如, Delete[130]模型基于蛋白質結構和候選片段生成分子. 分子生成模型通?；谝韵聨追N深度學習架構: 變分自編碼器[131](variational autoencoder, VAE)、GAN[68]和Transformer[124]模型. 條件變分自編碼器(conditioned variational autoencoder, CVAE)[132]和連接樹變分自編碼器[133](junction tree VAE, JT-VAE)模型屬于變分自編碼器, 通過編碼和解碼過程將分子結構映射到隱空間, 然后從隱空間生成新的分子. 研究表明, 分子的SMILES表示和圖表示都可以被VAE編碼和解碼到隱空間中, 在該空間中分子不再是離散的, 而是可以解碼回離散分子表示的實值連續(xù)向量; 不同向量之間的歐幾里得距離將對應于化學相似性. GAN通過生成器和鑒別器的對抗訓練生成分子, 生成器負責生成新分子, 鑒別器則判斷生成的分子是否真實, 如MolGAN[134]模型. GenMol[135]則是一個基于Transformer的通用分子生成模型, 利用Transformer的強大編碼能力支持從頭生成和片段擴展.

雖然生成分子本身不是一項很復雜的任務, 但是如何生成化學上有效、并表現(xiàn)出我們想要的特性的結構是一個具挑戰(zhàn)性的問題. 實現(xiàn)這一目標的最初方法涉及在現(xiàn)有數(shù)據(jù)集上預訓練模型, 然后將其用于遷移學習. 通過校準數(shù)據(jù)集對模型進行調整以允許生成偏向特定屬性的結構, 之后可以使用不同的算法(如強化學習)進一步校準. 然而這種方式在化學有效性方面存在困難, 此外, 依賴預訓練數(shù)據(jù)集也會限制搜索空間并引入偏差. 擺脫預訓練的一種嘗試是使用馬爾可夫決策過程(Markov decision process, MDP)來確?；瘜W結構的有效性, 并通過深度Q學習來優(yōu)化MDP以獲得所需的屬性.

擴散模型[125~127]是近年來新興的生成模型, 在分子生成和分子設計領域取得了顯著進展. 這種模型在生成具有復雜幾何結構和物理化學屬性的分子方面表現(xiàn)優(yōu)異, 尤其在3D分子生成中展現(xiàn)了巨大潛力. 擴散模型也具有靈活性和穩(wěn)定性, 可以通過條件生成特定屬性的分子, 而且與GAN相比, 在訓練過程中不依賴對抗性訓練, 避免了模式坍縮問題. 盡管深度分子生成模型仍面臨一些挑戰(zhàn), 如合成可行性、數(shù)據(jù)質量與偏見以及多目標優(yōu)化等, 但使用AI探索化學空間已經顯示出巨大的前景. 它為我們提供了探索化學空間的新范式, 以及一種新的檢驗理論和假設的方法.

(2)大分子藥物設計

隨著分子生物學與結構生物學研究的深入, 科研人員在代謝通路解析、病理機制闡明以及大分子結構與功能研究等方面取得重大突破, 使得大分子藥物逐漸成為治療復雜疾病的關鍵武器. 相較于小分子藥物存在的半衰期短、毒性較大、靶向性差及專利易被仿制等局限, 大分子藥物展現(xiàn)出顯著優(yōu)勢: 特異性強、療效顯著、安全性高、半衰期長且仿制門檻高, 尤其在復雜系統(tǒng)性疾病治療領域具有不可替代性. 在此背景下, 大分子藥物研發(fā)正迎來快速發(fā)展期, 其發(fā)展勢頭已開始超越相對成熟的小分子藥物研發(fā)體系.

核酸類藥物(包括siRNA、mRNA、ASO、CRISPR系統(tǒng)等)通過直接調控基因表達實現(xiàn)疾病治療, 在腫瘤、遺傳病和傳染病領域展現(xiàn)出巨大潛力. 然而, 其開發(fā)面臨序列設計復雜、遞送效率低、脫靶效應顯著等挑戰(zhàn). 近年來, AI通過高通量數(shù)據(jù)建模與生成式設計, 正在重塑核酸藥物的研發(fā)范式. 2023年百度團隊開發(fā)了LinearDesign[136]算法, 使用動態(tài)規(guī)劃將mRNA序列搜索空間從指數(shù)級降低到多項式級, 僅需11min即可完成新冠mRNA疫苗序列優(yōu)化. 2024年他們又在LinearDesign算法基礎上提出了基于神經網絡的LinearDesign2[137]設計算法, 預測翻譯效率都得到了明顯提升.

另一類大分子藥物則是蛋白與多肽類分子. 設計具有定制結構和功能的蛋白質是生物工程的長期目標. 最近, 深度學習的進步使得蛋白質結構預測接近實驗精度, 這也促進了蛋白質設計的進步. 蛋白質設計與蛋白質結構預測二者其實是一體兩面的雙生問題. 眾所周知, 肽鏈會折疊成復雜的三維結構, 這種三維結構以某種方式編碼在構成肽鏈的氨基酸序列中. 也就是說, 氨基酸的線性序列決定了蛋白質的三維結構. 因為這個重要發(fā)現(xiàn), Christian Anfinsen在1972年被授予諾貝爾化學獎. 這意味著原則上我們可以根據(jù)氨基酸序列直接預測三維結構. 反之亦然, 給定一個具體的蛋白質三維結構, 理論上我們可以反推出構成這個蛋白質的氨基酸序列. 這一正一反兩個問題就是蛋白質研究的核心. 蛋白質是生命通過數(shù)十億年逐漸進化而來的, 它們就像微型機器人, 在生命體中承擔著各種各樣的重要職能. 但隨著近年來人均壽命不斷提高, 人類面臨著癌癥和神經退行性疾病等全新的挑戰(zhàn). 如果還是依靠大自然進化出全新的蛋白質來解決這些問題, 恐怕要等上數(shù)億年的時間. 但如果我們能夠按需設計出蛋白質, 便能在短時間內取得突破性成果, 這就是蛋白質設計的價值[138]. 但是一個典型的蛋白質包含100多個氨基酸構成的序列, 而氨基酸本身就有20種, 這就意味著潛在蛋白質序列組合有20100個, 顯然通過暴力計算無法完成這個任務. 而蛋白質結構預測則為蛋白設計提供了強大基礎, Baker等[139]就以trRosetta結構預測網絡為基礎提出了一種蛋白幻想設計算法[140]. 該方法首先生成一段隨機的氨基酸序列, 并將其輸入trRosetta結構預測網絡, 以預測起始殘基-殘基間距離. 這一步顯然不會生成任何有序結構. 然后, 他們在氨基酸序列空間對現(xiàn)有序列進行蒙特卡洛采樣, 并對網絡預測的殘基間距離分布與所有蛋白質的平均背景距離分布之間的對比度(KL散度)進行優(yōu)化. 以不同的隨機序列作為起點進行優(yōu)化, 可以得到不同的、跨越多種序列和結構排列的新型蛋白分子結構, 這一過程被稱為網絡幻想(network hallucination). 這項研究實際上從原理上證明了: 為結構預測而訓練出的深度神經網絡, 也可以被利用來進行蛋白質結構的從頭生成和設計. 蛋白修復設計則是另外一類方法, 如RFjointInpainting[141]算法, 其輸入端是缺失的不完整蛋白骨架, 含有部分序列和結構. 輸出端則是完整的骨架, 缺失部分的結構和序列都被修復出來. 近年提出的RF Diffusion[142]則是一種蛋白質結構擴散設計方法, 這種算法其實是受到了圖像生成算法的啟發(fā), 通過逐步去除噪聲生成一個全新的蛋白質結構. RF Diffusion模型被證明非常適合各種蛋白質設計任務, 只需在推理中添加對稱化步驟并利用RF架構的SE(3)等變性, RF Diffusion就能夠生成具有循環(huán)對稱性和點群對稱性的大型同源寡聚體組裝體. 此外, RF Diffusion能夠構建對稱的motif和非常小的motif, 如來自酶活性位點的單個殘基, 這對于蛋白幻想或RFjoint幾乎是不可能的. 最后, 該模型設計的蛋白質Binder僅以目標結構為條件, 某些目標的濕實驗室成功率高達50%.

蛋白質結構擴散設計的一個有趣的替代方案是擴散蛋白質序列. 目前, 離散變量(如氨基酸)的擴散性能比自然語言建模的自回歸或掩碼模型更差. 然而, 對于蛋白質來說, 序列擴散可以比結構擴散簡單得多, 并且存在大量的蛋白質序列功能數(shù)據(jù)(結合或酶活性), 這些數(shù)據(jù)可以潛在地用于訓練模型以對序列執(zhí)行分類器指導. 這就是ProteinGenerator[143](PG)的初衷. PG基于RoseTTAFold[18]結構預測網絡, 采用序列空間擴散模型, 從噪聲序列逐步去噪生成序列-結構對. 該模型通過迭代優(yōu)化序列和結構的聯(lián)合分布, 支持多模態(tài)約束(如氨基酸組成、二級結構)引導生成過程, 顯著提升了設計的靈活性和成功率.

另外一個重要的蛋白設計工具是ProteinMPNN[144](protein message passing neural network), 它是一種基于深度學習的圖神經網絡, 專門用于根據(jù)給定的蛋白質骨架結構預測其氨基酸序列. 該模型通過利用蛋白質的進化、功能和結構信息, 生成可能折疊成目標三維結構的氨基酸序列. ProteinMPNN基于消息傳遞神經網絡[145](Message Passing Neural Networks, MPNN)架構, 其輸入為蛋白質的三維結構(PDB格式), 模型將其表示為圖結構.模型通過節(jié)點(氨基酸)和邊(化學鍵)的交互傳遞信息, 更新節(jié)點和邊的表示. 通過隨機解碼順序生成氨基酸序列, 并利用位置耦合處理多鏈蛋白質. ProteinMPNN能夠在幾秒鐘內完成序列設計, 適合大規(guī)模蛋白質設計任務, 在多個下游任務中的成功案例證明了該方法的巨大潛力[146,147]. 但是另一方面, 對結構等信息的高度依賴等特征也對該方法的進一步發(fā)展提出了要求.

蛋白質設計領域正經歷方法論整合的重要發(fā)展階段, 各類模型(包括序列模型、結構模型以及序列-標簽模型等)的傳統(tǒng)區(qū)分正在弱化. 當前研究突破主要體現(xiàn)在三個維度[148]: 一是實現(xiàn)了結構感知模型與高性能序列模型的有機融合; 二是創(chuàng)新性地引入了自然語言處理和計算機視覺領域的技術手段, 從而獲取更為全面的蛋白質表征; 三是將生物物理原理融入機器學習框架, 顯著提升了模型的泛化能力. 在技術應用層面, 優(yōu)化后的采樣算法有效提升了生成序列的可靠性, 而新興的”自主實驗平臺”通過整合不確定性評估模型與實驗流程, 為縮短設計周期提供了新范式. 展望未來, 跨模態(tài)的統(tǒng)一設計框架將成為主流, 這種整合方案將支持高效序列生成、復雜多目標優(yōu)化, 并最終實現(xiàn)具有超自然功能的全新蛋白質創(chuàng)制.

另外值得指出, AI不僅已經在藥物發(fā)現(xiàn)的靶點發(fā)現(xiàn)、虛擬篩選和分子設計環(huán)節(jié)得到了廣泛應用, 近年來AI在藥物遞送領域的應用也取得顯著進展[149~151]. 藥物遞送系統(tǒng)在優(yōu)化藥物的藥代動力學以及藥效學表現(xiàn)方面有重要作用, 而AI技術可以賦能藥物-輔料相互作用預測、配方優(yōu)化、關鍵工藝參數(shù)預測及遞送材料高效篩選等藥物遞送系統(tǒng)的關鍵環(huán)節(jié), 系統(tǒng)性推動藥物遞送研究范式發(fā)生變革, 形成“數(shù)據(jù)驅動-模型預測-實驗驗證-臨床轉化”的新范式, 突破傳統(tǒng)藥物遞送系統(tǒng)研發(fā)周期長、成本高的限制. 例如, 王建新團隊等[152]通過“人工智能深度學習預測+實驗驗證”的交叉研究方法, 高通量篩選天然產物分子庫, 發(fā)現(xiàn)了兼具脂質膜調控與葡萄糖轉運蛋白1 (Glut1)靶向功能的天然化合物, 并構建了新型雙功能脂質體載藥系統(tǒng), 在小鼠模型中展現(xiàn)出腫瘤靶向與治療增效作用. 中國科學院上海高等研究院的團隊[153]提出了一種多模態(tài)可解釋性質預測模型, 實現(xiàn)了快速精準預測mRNA脂質納米顆粒(mRNA-LNPs)的轉染效率, 能夠快速篩選出穩(wěn)定有效的LNPs, 提高mRNA藥物遞送效率, 為多種疾病的個性化治療提供了可靠的研究方法和工具. AI技術正通過精準預測、快速篩選和優(yōu)化設計, 加速藥物遞送系統(tǒng)的開發(fā). 而AI的重要性不僅在于優(yōu)化了藥物遞送系統(tǒng)的技術細節(jié), 而是在于其重構了研究范式本身——從“試錯科學”轉向“預測科學”, 從“靜態(tài)優(yōu)化”升級為“動態(tài)演化”, 最終實現(xiàn)個性化的遞送設計, 為精準醫(yī)療和個體化治療提供了強有力的技術支撐.

2.4 AI賦能精準醫(yī)學

精準醫(yī)學以個體化診療為核心, 通過整合基因組、表型組、環(huán)境等多維度數(shù)據(jù), 實現(xiàn)疾病預防、診斷和治療的精準化. 傳統(tǒng)的醫(yī)療模式往往依賴醫(yī)生的經驗和主觀判斷, 而AI通過強大的數(shù)據(jù)分析和學習能力, 以更精確的方式處理龐大的醫(yī)學數(shù)據(jù), 識別出人眼難以察覺的細節(jié), 從而大大提高了診斷和治療的準確性[154]. 近年來, AI技術成為推動精準醫(yī)學發(fā)展的核心驅動力, 其應用已滲透至醫(yī)學影像處理、生物標志物發(fā)現(xiàn)、藥物研發(fā)、臨床決策支持及健康管理等全鏈條[155,156].

AI在醫(yī)療領域最具突破性的應用之一, 是醫(yī)學影像與數(shù)據(jù)的高效、精準分析. AI技術依托深度學習與機器學習算法, 能夠高效處理海量復雜醫(yī)療數(shù)據(jù), 精準識別傳統(tǒng)診斷方法難以捕捉的細微特征, 從而避免由于高度依賴醫(yī)生的臨床經驗與主觀判斷而造成的漏診與誤診風險, 顯著提升疾病診斷的時效性與準確性. 2024年哈佛醫(yī)學院聯(lián)合斯坦福大學、布萊根婦女醫(yī)院等國際頂尖科研機構, 在Nature雜志上發(fā)表了具有里程碑意義的癌癥診斷研究成果——CHIEF[157]模型. 該模型采用先進的弱監(jiān)督學習框架, 從海量病理圖像中提取關鍵特征, 實現(xiàn)了對19種癌癥的高效診斷, 準確率高達94%, 顯著超越傳統(tǒng)深度學習模型. 與現(xiàn)有AI方法相比, CHIEF在整體性能上實現(xiàn)了36.1%的提升, 尤其在癌癥檢測、腫瘤基因變異分析及患者生存率預測等關鍵指標上表現(xiàn)卓越. 通過智能分析病理圖像中的關鍵區(qū)域, CHIEF不僅能夠精準識別不同癌癥類型, 還可預測與癌細胞生長密切相關的基因突變, 為精準醫(yī)療的臨床實踐提供了強有力的技術支撐.

除了提高診斷的精度, AI也能通過整合醫(yī)學影像、電子病歷、基因測序等數(shù)據(jù), 對患者個體數(shù)據(jù)進行深入分析, 從而在更全面地理解患者病情的基礎上輔助醫(yī)生設計更加個性化的診療方案[158~161]. 特別是, 隨著大語言模型的興起和能力的不斷提升, LLM在醫(yī)學領域的推理能力已實現(xiàn)質的飛躍, 部分任務表現(xiàn)甚至超越人類專家. 例如, OpenAI的o1-preview模型在The New England Journal of Medicine143個臨床病理學會議(CPCs)病例測試中展現(xiàn)出卓越性能[162]: 整體診斷準確率達78.3%, 遠超傳統(tǒng)大語言模型和臨床醫(yī)生水平. 特別在鑒別診斷、診斷推理和管理推理三個關鍵維度, o1-preview表現(xiàn)出接近專家級的判斷能力. 更引人注目的是, 該模型在后續(xù)檢查方案推薦方面達到87.5%的準確率, 證實了AI在復雜臨床決策中的實用價值. 最近, 浙江大學也開發(fā)了AI病理助手OmniPT, 整合了視覺識別與自然語言處理技術, 實現(xiàn)了病理圖像的智能化快速分析, 能夠在1~3s內精確定位癌癥病灶區(qū)域, 診斷準確率突破95%. 在臨床應用方面, OmniPT在胃癌、結直腸癌及宮頸癌等多種惡性腫瘤的診斷中展現(xiàn)出卓越性能. 通過其獨特的多任務協(xié)同分析機制, 可同步完成癌癥分類、病灶分割及病變檢測等多項關鍵任務, 顯著提升了病理診斷的效率與準確性.

由于藥物療效和毒性的個體差異顯著(如治療窗窄、不良反應多), 傳統(tǒng)群體藥代動力學模型在精準用藥中存在局限性. AI能處理高維、非線性數(shù)據(jù), 挖掘真實世界用藥數(shù)據(jù)中的潛在規(guī)律, 更準確地預測血藥濃度和劑量, 優(yōu)化用藥方案[163,164]. 例如, Huang等收集了407例接受靜脈注射萬古霉素的兒童患者的血藥濃度監(jiān)測數(shù)據(jù), 以萬古霉素谷濃度為預測目標變量, 篩選出了5種具有更高相關系數(shù)的機器學習算法構建集成模型, 并獲得了最優(yōu)預測效果[165]. 研究表明, 與傳統(tǒng)藥代動力學模型相比, 該機器學習模型具有更好的擬合效果和更高的預測準確度. 該集成模型可用于萬古霉素血藥濃度預測, 尤其適用于個體差異顯著的兒童患者群體.

基于表型組數(shù)據(jù)的真實世界應用也是精準醫(yī)學的重要一環(huán). 基于表型的藥物發(fā)現(xiàn)(phenotypic drug discovery, PDD)是對基于靶點的藥物發(fā)現(xiàn)的重要補充, PDD采用與靶標無關的方法, 專注于化合物在疾病相關生物系統(tǒng)中的表型效應[166]. 這一策略利用已標注作用機制的參考化合物, 來揭示測試化合物的作用機制. 迄今為止, PDD在首創(chuàng)新藥的發(fā)現(xiàn)方面已做出重要貢獻[167]. PDD也是天然產物發(fā)現(xiàn)的主要方法, 是識別新靶點和作用機制的基礎. AI可以高效地綜合分析多維度的人體藥物反應數(shù)據(jù), 如藥代動力學(pharmacokinetics, PK)數(shù)據(jù), 藥物在不同個體中的吸收分布、代謝和排泄(absorption, distribution, metabolism, and excretion, ADME)參數(shù), 藥效動力學(pharmacodynamics, PD)數(shù)據(jù), 不同劑量藥物對靶點、細胞和整體生理系統(tǒng)的影響, 電子健康記錄(EHRs), 臨床試驗數(shù)據(jù)等, 因此, AI在表型驅動的藥物發(fā)現(xiàn)中具有重大的應用價值, 能為精準醫(yī)療和生物醫(yī)學研究的發(fā)展開辟全新路徑. 例如, 鄭明月課題組[168]開發(fā)了基于自我監(jiān)督表示學習的深度生成模型TranSiGen, 能夠通過分析細胞基因表達和化合物分子結構, 高精度重建化學誘導的轉錄譜, 從而捕獲細胞和化合物之間的復雜信息關聯(lián). 該模型在配體虛擬篩選、藥物反應預測和藥物再利用等下游任務中表現(xiàn)優(yōu)異, 尤其在胰腺癌藥物發(fā)現(xiàn)中的應用得到體外驗證, 展示了識別有效化合物的潛力. 基于表型數(shù)據(jù)和AI模型, 也可以建立健康預測與早期預警系統(tǒng), 通過多組學信息分析, 開發(fā)能夠評估個體健康風險的預測模型, 涵蓋疾病發(fā)生的早期預警. 例如, 基于基因信息、生活方式、環(huán)境暴露等因素, 預測心血管疾病、糖尿病和癌癥等的發(fā)生風險. 根據(jù)個體的表型數(shù)據(jù), 也可以利用AI開發(fā)定制化的健康管理方案, 特別是在慢性病管理、老齡化社會中的老年人健康管理等方面. 通過個性化干預, 幫助提高人群健康水平, 減輕社會醫(yī)療負擔. 更大的層面上, 基于表型組數(shù)據(jù)可以構建大數(shù)據(jù)AI分析平臺, 幫助政府進行科學的公共衛(wèi)生決策. 例如, 通過疫情數(shù)據(jù)的實時監(jiān)控和預測模型, 優(yōu)化防控策略, 提高應急響應能力.

2.5 AI賦能綠色生物制造

綠色生物制造是以生物合成化學、合成生物學、基因編輯、人工智能等前沿技術為核心, 利用酶催化反應或通過改造微生物/生物系統(tǒng)實現(xiàn)低碳、高效的生物基材料、化學品、藥物等的高效合成與生產. 其核心目標是替代傳統(tǒng)高污染、高能耗的化工工藝, 推動工業(yè)、農業(yè)、醫(yī)藥等領域的綠色轉型. 在全球生物經濟邁向高質量發(fā)展的關鍵時期, 國務院將生物制造列為未來產業(yè), 強調以科技創(chuàng)新為引擎推動產業(yè)升級, 全力構建綠色可持續(xù)的生物制造體系. 各地方政府也紛紛出臺合成生物產業(yè)專項政策, 建設“AI+生物制造”創(chuàng)新聯(lián)合體.

“生物合成化學”與“合成生物學”是生物技術與化學交叉領域中的兩個重要研究方向. 生物合成化學重點關注生命活動中物質的生物合成機制, 進而利用生物體系、生物元件等完成特定化學反應、合成特定目標分子或新功能分子. 生物合成是20世紀末隨著生命科學的發(fā)展而出現(xiàn)的合成方法, 對比化學合成, 生物合成可以實現(xiàn)高選擇性、高反應性和高經濟性, 尤其在手性中心的構筑、惰性碳的活化以及復雜天然產物的合成方面具有極大優(yōu)勢[169]. 但是, 現(xiàn)階段生物合成也存在酶元件少、酶開發(fā)難和細胞工廠設計構建難的瓶頸. 這些困難使得生物合成的靈活性遠低于化學合成, 生物合成反應還很難像化學合成一樣進行任意設計, 提高靈活性是當前生物合成研究的重要目標. 因此, 生物合成化學利用在化學合成領域成熟的化學反應機制研究方法, 探索生命體系中物質的生物合成機制就顯得格外重要. 在生物合成化學中充分結合AI和理論模擬計算來進行生命體中化學反應機理研究, 厘清生物合成機制的基礎上可以指導對于生物酶的改造以實現(xiàn)特定的化學反應的催化. 例如, 2018年諾貝爾化學獎獲得者Arnold教授, 在理解了生物酶催化機制的基礎上, 通過改造P450酶中與血紅素共價的第五配基可以使該酶催化C–B和C–Si鍵的合成反應[170,171]. AI技術的引入進一步加速了這個方向的研究進展.

合成生物學的核心技術原理是對生物系統(tǒng)進行工程化設計和改造, 通過對生物元件(如基因、蛋白質等)進行設計、組合和優(yōu)化, 構建出具有特定功能的生物系統(tǒng). 合成生物學采用的工程設計原理和工程學的可預測性來控制復雜生物系統(tǒng), 形成了一個以“設計-構建-測試-學習”(DBTL循環(huán))為核心的研發(fā)模式. 然而, 合成生物學面臨著一個巨大的挑戰(zhàn): 我們對生物系統(tǒng)的預測能力遠遠不如對物理或化學系統(tǒng)的預測, 這就造成了我們對產生相關生物表型的底層機制理解不足, 從而使我們在實踐層面無法精確地按照特定要求設計生物系統(tǒng). AI技術的出現(xiàn), 為合成生物學提供了所需的預測能力, 可以應用于合成生物學過程的各個環(huán)節(jié)[172,173]. 首先, 在催化元件的發(fā)現(xiàn)、設計和改造環(huán)節(jié)AI展現(xiàn)了強大的潛力[174], 其可以被應用于蛋白質功能和酶活性注釋、酶的從頭設計、酶的選擇性改造以及酶的穩(wěn)定性改造等. 雖然UniProt數(shù)據(jù)庫中已收錄了約2.5億條蛋白質序列, 但其中約99.7%的蛋白質序列缺乏功能注釋. 如果能夠準確地為這些蛋白質添加功能注釋, 就可以獲得大量多樣化的候選對象作為酶工程的起點加以探索. 利用機器學習分類模型可以全面整合蛋白質序列與結構特征, 從而能夠更精確地預測蛋白的具體功能[175,176]. 最近, 美國伊利諾伊大學香檳分校的研究團隊[177]開發(fā)了一種名為基于對比學習的酶功能注釋(contrastive learning enabled enzyme annotation, CLEAN)的機器學習算法, 通過對比學習框架能夠對未經研究的酶類實現(xiàn)準確、可靠且高靈敏度的酶功能預測, 準確率達87%, 遠超傳統(tǒng)方法(40%). 酶功能注釋工作未來的一個重點是對于混雜活性的標注, 混雜活性既可能表現(xiàn)為對新底物保持相似的化學反應, 也可能表現(xiàn)為完全不同的反應類型, 通常是酶進化出非天然活性的起點. 而混雜活性難以檢測, 或尚未經過實驗驗證, 因此通過實驗測定來更新酶功能數(shù)據(jù)庫至關重要. 此外, 借助基于生成式預訓練架構的大型語言模型(LLM)對文獻進行文本挖掘, 也有望通過提取尚未納入現(xiàn)有數(shù)據(jù)庫的科學文獻知識, 發(fā)現(xiàn)缺失標簽并更新已有數(shù)據(jù)庫. 盡管通過注釋已知蛋白質序列可以發(fā)現(xiàn)許多功能性酶, 但生成自然界中從未出現(xiàn)過的全新序列同樣具有重要意義——這些序列可能帶來前所未有的性質組合, 甚至催生出非天然活性. AI憑借其強大的數(shù)據(jù)驅動學習能力和在未知空間的探索能力正在幫助科學家們以前所未有的精度和效率設計蛋白酶, 并達到提高產量和改進功能等目標[178]. 總的來說, 蛋白酶的AI設計方法可分為兩大類: (1) 純序列生成; (2) 結構設計, 即尋找能夠折疊成特定結構或骨架的序列. 在純序列生成方面, 蛋白質語言模型(PLMs)可通過給定已知酶家族作為條件, 生成具有該功能的新序列, 而無需直接考慮結構. 例如, Naik等[179]開發(fā)的ProGen模型能夠在大規(guī)模蛋白質家族中生成具有可預測功能的蛋白質序列, 針對五個不同溶菌酶家族進行微調生成的人工蛋白的催化效率與天然溶菌酶相當, 而與天然蛋白的序列同源性最低僅為31.4%. Zelezniak等[180]基于生成對抗網絡模型提出了ProteinGAN模型, 直接從生物序列中學習潛在的氨基酸關系, 并產生具有天然生化特性的新的功能蛋白序列, 在對蘋果酸脫氫酶(MDH)進行序列設計時, 顯示出了24% (13/55)的設計成功率. 而在結構設計方面, 則可以利用2.3.3小節(jié)中介紹的蛋白質結構生成和設計工具直接設計所需的酶骨架. 例如, Kao等[181]就采用ProteinMPNN設計了序列發(fā)散的泛素變體, 這些變體對E3泛素-蛋白連接酶Rsp5外部位點的HECT結構域具有高親和力, 并且在這些變體中鑒定出了幾個具有更高的蛋白質產量、保持高熱穩(wěn)定性和增強的結合親和力的成功設計. 最近, Baker團隊[182]利用AI從頭設計了具有復雜活性位點的絲氨酸水解酶, 其能夠加快一個四步化學反應, 并且催化效率是之前設計的水解酶催化效率的6萬倍, 在酶工程領域具有里程碑意義. 除了可進行蛋白酶設計, AI也可以促進蛋白酶的改造和定向進化. 例如, 司同團隊[183]整合機器學習與貝葉斯優(yōu)化算法指導自動化實驗迭代, 實現(xiàn)了蛋白質突變空間的高效探索, 成功將鼠李糖酯合酶RhlA進行了改造, 使其對C8底物的特異性提高了4.8倍. Alper等則采用基于3D卷積神經網絡架構的MutCompute算法[184], 成功對PETase塑料降解酶進行了工程化改造, 開發(fā)出高效變體Fast-PETase. 實驗數(shù)據(jù)顯示, 該酶在50℃條件下僅需48h即可將未處理的聚對苯二甲酸乙二醇酯(PET)包裝材料降解, 更突破性地實現(xiàn)了塑料降解產物的再聚合, 為塑料污染治理提供了創(chuàng)新解決方案[185]. 洪亮團隊[186]開發(fā)的Prime模型可以通過小樣本干濕迭代在≤100個濕實驗數(shù)據(jù), 數(shù)月內實現(xiàn)多款蛋白質的定向進化, 部分蛋白產品已經落地產業(yè)化. 除了酶工程, AI還可以優(yōu)化整個代謝途徑, 甚至是復雜的生物回路系統(tǒng), 在代謝工程領域展現(xiàn)出了強大的應用前景[187]. AI驅動的代謝通路發(fā)掘與優(yōu)化是近年來合成生物學和代謝工程領域最活躍的交叉前沿之一. 由于細胞代謝網絡具有高度復雜性, 傳統(tǒng)設計方法通常依賴文獻檢索、代謝建模和啟發(fā)式分析, 這些方法受限于計算吞吐量, 難以從海量的代謝反應及調控網絡中高效篩選最優(yōu)改造靶點. AI驅動的集成建模方法為這一挑戰(zhàn)提供了新思路, 其能夠在代謝網絡建模中同時整合動力學特性、調控機制、替代模型結構及參數(shù)集合等多維因素[188]. 機器學習平臺作為高通量分析工具, 也日益廣泛地應用于大規(guī)模代謝數(shù)據(jù)篩選, 推動數(shù)據(jù)驅動的生物合成途徑優(yōu)化與微生物產能提升. 例如, EcoSynther[189]平臺利用支持向量回歸和前饋神經網絡, 僅兩輪DBTL即將檸檬烯產量提升60%以上; BioAutoMata[190]平臺用貝葉斯優(yōu)化番茄紅素途徑,產量比隨機篩選高77%; 這些研究都驗證了AI在代謝工程中的高效優(yōu)化能力. 合成生物學領域內, 人們在掌握目標產物的代謝路徑后, 需要進行基因層面的設計, 利用CRISPR等基因編輯技術將目標基因導入, 以實現(xiàn)目標產物的表達. 基因回路的設計對于精確的基因調控至關重要[191]. 目前, AI工具在這一過程中扮演著越來越重要的角色[192]. 下一步, 科學家需要開發(fā)DNA-蛋白多模態(tài)預訓練模型, 并基于此研發(fā)蛋白質改造、代謝通路改造、底盤菌改造的干濕迭代的小樣本學習方法, 徹底顛覆合成生物學靠專家經驗+大量濕實驗試錯效率低下的研究范式. 取而代之的是AI主導、配合少量濕實驗就能實現(xiàn)合成生物學全場景的應用, 包括單個生物元件(如酶)、代謝通路, 乃至底盤細胞...

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.