深度科學(xué)| 人工智能如何加速酰胺偶聯(lián)反應(yīng)，促進藥物研發(fā)

2025-09-10 11:19:37　來源: 原子量

重慶舉報

分享至

摘要：

“酰胺偶聯(lián)反應(yīng)是藥物發(fā)現(xiàn)和合成化學(xué)領(lǐng)域中最為關(guān)鍵的轉(zhuǎn)化之一，廣泛應(yīng)用于各種藥物分子的合成。然而，由于反應(yīng)條件空間的廣闊性和復(fù)雜性，如何高效地推薦最佳反應(yīng)條件一直是一個巨大的挑戰(zhàn)。該研究通過結(jié)合高通量實驗（HTE）平臺和嵌入“中間知識”的機器學(xué)習(xí)模型，顯著提升了酰胺偶聯(lián)反應(yīng)產(chǎn)率預(yù)測的準確性和模型的泛化能力。”

背景介紹

酰胺偶聯(lián)反應(yīng)（Amide coupling reaction）不僅僅是化學(xué)實驗室里的一個普通反應(yīng)，更是藥物發(fā)現(xiàn)和合成化學(xué)領(lǐng)域中不可或缺的“基石”。我們?nèi)粘Ｉ钪惺褂玫脑S多藥物，從抗癌藥到抗生素，從心血管藥物到神經(jīng)系統(tǒng)藥物，它們的分子結(jié)構(gòu)中都可能含有酰胺鍵。酰胺鍵就像是分子世界的“骨架”，將不同的功能單元連接起來，形成具有特定生物活性的復(fù)雜分子。因此，高效、精準地構(gòu)建酰胺鍵，對于藥物的研發(fā)和生產(chǎn)至關(guān)重要。

圖1. 酰胺偶聯(lián)反應(yīng)

然而，一個酰胺偶聯(lián)反應(yīng)的成功與否，往往取決于一系列復(fù)雜的反應(yīng)條件，包括偶聯(lián)試劑、堿、溶劑、反應(yīng)溫度和反應(yīng)時間等。這些條件組合起來，形成了一個龐大而復(fù)雜的“條件空間”。對于化學(xué)家而言，如何在如此廣闊的條件空間中，快速而準確地找到最佳的反應(yīng)條件，以獲得高產(chǎn)率和高選擇性的目標產(chǎn)物，一直是一個令人頭疼的難題。傳統(tǒng)的做法是依靠化學(xué)家的經(jīng)驗和大量的試錯實驗。這種方法不僅耗時耗力，而且效率低下，尤其是在面對新型底物或具有挑戰(zhàn)性的反應(yīng)時，往往會陷入漫長的實驗篩選過程，嚴重阻礙了藥物研發(fā)的進程。該研究巧妙地結(jié)合了高通量實驗（High-Throughput Experimentation, HTE）平臺和一種創(chuàng)新的“中間知識嵌入”策略（圖2），顯著提升了酰胺偶聯(lián)反應(yīng)產(chǎn)率預(yù)測模型的性能。

圖2. 酰胺偶聯(lián)反應(yīng)條件推薦研究

圖文解析

1.數(shù)據(jù)基石：高通量實驗（HTE）與數(shù)據(jù)質(zhì)量的挑戰(zhàn)

任何成功的機器學(xué)習(xí)模型，都離不開高質(zhì)量的數(shù)據(jù)。在化學(xué)反應(yīng)預(yù)測領(lǐng)域，數(shù)據(jù)的質(zhì)量和多樣性直接決定了模型的準確性和泛化能力。傳統(tǒng)的化學(xué)反應(yīng)數(shù)據(jù)主要來源于文獻報道。然而，文獻數(shù)據(jù)往往存在諸多局限性：首先，文獻通常只報道成功的、高產(chǎn)率的反應(yīng)，而對低產(chǎn)率甚至失敗的反應(yīng)鮮有提及，這導(dǎo)致數(shù)據(jù)集存在嚴重的“成功偏倚”，使得模型難以學(xué)習(xí)到反應(yīng)失敗的原因和邊界條件。其次，不同實驗室的實驗條件、操作規(guī)程以及數(shù)據(jù)記錄方式存在差異，導(dǎo)致數(shù)據(jù)一致性差，難以直接用于機器學(xué)習(xí)模型的訓(xùn)練（圖3）。此外，文獻數(shù)據(jù)往往缺乏對反應(yīng)條件空間的系統(tǒng)性探索，難以全面覆蓋各種可能的反應(yīng)組合。

圖3多條件模型工作流程示意圖，以甲胺與乙酸反應(yīng)為例

為了克服這些挑戰(zhàn)，高通量實驗（High-Throughput Experimentation, HTE）應(yīng)運而生。HTE是一種通過自動化和并行化技術(shù)，在短時間內(nèi)進行大量實驗的方法。它能夠系統(tǒng)地探索反應(yīng)條件空間，生成大規(guī)模、一致且包含成功與失敗案例的實驗數(shù)據(jù)。這篇研究正是利用了其內(nèi)部的高通量實驗平臺，系統(tǒng)地收集了酰胺偶聯(lián)反應(yīng)的產(chǎn)率數(shù)據(jù)。最終，他們收集了超過47000個產(chǎn)率數(shù)據(jù)點，構(gòu)建了一個豐富而多樣的數(shù)據(jù)集（圖3），為后續(xù)機器學(xué)習(xí)模型的訓(xùn)練奠定了堅實的基礎(chǔ)。

圖4. 用SMiles ARbitrary Target Specification（SMARTS）語法編寫的反應(yīng)模板

2.智能預(yù)測：多條件模型開發(fā)與“中間知識”的魔力

有了高質(zhì)量的數(shù)據(jù)，接下來就是構(gòu)建能夠準確預(yù)測反應(yīng)產(chǎn)率的機器學(xué)習(xí)模型。在這項研究中，研究人員探索了多種機器學(xué)習(xí)算法和深度學(xué)習(xí)方法，包括XGBoost、支持向量機（SVM）、隨機森林、AutoGluon以及基于Transformer的深度學(xué)習(xí)模型Yield-BERT和T5-Chem。這些模型的目標都是從反應(yīng)物的結(jié)構(gòu)和反應(yīng)條件中學(xué)習(xí)規(guī)律，從而預(yù)測反應(yīng)的產(chǎn)率。為了更嚴格地評估模型的性能，該研究采用了三種不同級別的測試集（圖5）：

（1）隨機劃分（Random Split）：這是最常見的劃分方式，數(shù)據(jù)集被隨機分成訓(xùn)練集和測試集。雖然簡單，但如前所述，其評估結(jié)果可能過于樂觀。

（2）部分底物新穎性（Partial Substrate Novelty）：在這種劃分中，測試集中的反應(yīng)至少有一個底物是模型在訓(xùn)練時未曾見過的。這使得評估更具挑戰(zhàn)性，更能反映模型在面對部分新穎情況時的表現(xiàn)。

（3）完全底物新穎性（Full Substrate Novelty）：這是最嚴格的評估方式，測試集中的所有底物組合都是模型在訓(xùn)練時完全未曾見過的。這種劃分最能模擬真實世界中化學(xué)家需要預(yù)測全新反應(yīng)產(chǎn)率的場景，也是衡量模型泛化能力的關(guān)鍵指標。

圖5. 三個級別測試集的示意圖：隨機拆分、部分底物新穎性和完全新穎性測試

研究結(jié)果顯示，在隨機劃分和部分底物新穎性測試集上，模型的表現(xiàn)相對較好，但在完全底物新穎性測試集上，模型的性能普遍有所下降（圖5）。這促使研究人員思考，如何才能進一步提升模型在面對完全新穎底物時的泛化能力。

為了解決這一難題，研究團隊提出了一種創(chuàng)新的策略，在機器學(xué)習(xí)模型中嵌入反應(yīng)中間體知識（Intermediate Knowledge Embedding）。他們觀察到，在酰胺偶聯(lián)反應(yīng)中，酸在與偶聯(lián)試劑作用后，會形成一個活化的中間體，這個中間體才是真正與胺反應(yīng)的關(guān)鍵。傳統(tǒng)的機器學(xué)習(xí)模型通常只關(guān)注反應(yīng)物和最終產(chǎn)物，而忽略了反應(yīng)過程中形成的中間體。研究人員認為，如果能將這些“中間知識”融入到模型中，模型就能更好地理解反應(yīng)機理，從而更準確地預(yù)測產(chǎn)率。

他們選擇了六種常用的酰胺偶聯(lián)反應(yīng)條件，并為每種條件設(shè)計了特定的SMARTS（SMILES ARbitrary Target Specification）模板，用于描述酸轉(zhuǎn)化為活化中間體的過程。結(jié)果令人振奮，嵌入中間知識的模型性能顯著提升，尤其是在完全底物新穎性測試集上。例如，在HATU和TBTU條件下，模型的R2值（一個衡量模型擬合優(yōu)度的指標，越接近1表示擬合越好）分別從0.69和0.71飆升至0.86和0.84（圖6）。這意味著模型在理解反應(yīng)的本質(zhì)方面取得了重大突破，能夠更準確地預(yù)測全新反應(yīng)的產(chǎn)率。

圖6.（a）使用HATU作為活化試劑將酸轉(zhuǎn)化為中間SMARTS模式，以及（b）所選單條件模型工作流程的示意圖

3.模型的泛化能力與實際應(yīng)用：從預(yù)測到推薦

該研究通過化學(xué)信息數(shù)據(jù)庫（如SciFinder）篩選了大量與藥物發(fā)現(xiàn)和生物研究相關(guān)的酰胺偶聯(lián)反應(yīng)，并確保這些反應(yīng)的底物組合與他們自己的HTE數(shù)據(jù)集完全不同。這意味著模型在預(yù)測這些外部文獻反應(yīng)的產(chǎn)率時，是真正面對“陌生”的挑戰(zhàn)。結(jié)果令人鼓舞：即使在面對這些全新的外部數(shù)據(jù)時，嵌入中間知識的BERT模型依然表現(xiàn)出色，R2值達到了0.71，平均絕對誤差（MAE）為7%，均方根誤差（RMSE）為10%（圖7和圖8）?？紤]到訓(xùn)練數(shù)據(jù)集的規(guī)模（約400個底物對），這樣的性能已經(jīng)非常強大，并且研究人員指出，隨著更多數(shù)據(jù)的加入，模型的泛化能力有望進一步提升。

圖7. 257個外部文獻反應(yīng)示例的預(yù)測產(chǎn)率與實驗產(chǎn)率

總而言之，這項研究不僅構(gòu)建了一個高性能的酰胺偶聯(lián)反應(yīng)產(chǎn)率預(yù)測模型，更重要的是，它通過引入“中間知識”和嚴格的評估方法，顯著提升了模型的泛化能力和實際應(yīng)用價值。它從單純的“預(yù)測”走向了更具指導(dǎo)意義的“推薦”，為化學(xué)家提供了強大的智能工具，有望加速新藥的發(fā)現(xiàn)和開發(fā)進程。

圖8. 一些外部文獻反應(yīng)實例的預(yù)測結(jié)果

總結(jié)

這項研究揭示了“中間知識”在提升模型性能和泛化能力方面所扮演的關(guān)鍵角色。它證明復(fù)雜化學(xué)反應(yīng)體系中，僅僅依靠輸入和輸出數(shù)據(jù)進行模式識別是遠遠不夠的。將化學(xué)反應(yīng)的內(nèi)在機理，如中間體的形成和轉(zhuǎn)化，以結(jié)構(gòu)化的方式嵌入到機器學(xué)習(xí)模型中，能夠極大地增強模型的理解能力和預(yù)測精度。這為未來化學(xué)人工智能的發(fā)展指明了方向：即從純粹的數(shù)據(jù)驅(qū)動走向數(shù)據(jù)與知識雙輪驅(qū)動，構(gòu)建更具解釋性、更符合化學(xué)直覺的智能模型。

參考文獻

Chonghuan Zhang, Qianghua Lin, Chenxi Yang, Yaxian Kong, Zhunzhun Yu and Kuangbiao Liao Intermediate knowledge enhanced the performance of the amide coupling yield prediction model. Chemical Science, 2025, 16, 11809-11822.

聲明：

1. 版權(quán)：推送內(nèi)容僅供學(xué)習(xí)交流分享使用，無任何商業(yè)用途，如有侵權(quán)，請聯(lián)系后臺刪除或修改，感謝支持。

2. 投稿：非常歡迎各位老師在公眾號上介紹課題組前沿或經(jīng)典研究成果！后臺或郵箱聯(lián)系即可！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.