国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

深度科學(xué)| 人工智能如何加速酰胺偶聯(lián)反應(yīng),促進藥物研發(fā)

0
分享至

摘要:

酰胺偶聯(lián)反應(yīng)是藥物發(fā)現(xiàn)和合成化學(xué)領(lǐng)域中最為關(guān)鍵的轉(zhuǎn)化之一,廣泛應(yīng)用于各種藥物分子的合成。然而,由于反應(yīng)條件空間的廣闊性和復(fù)雜性,如何高效地推薦最佳反應(yīng)條件一直是一個巨大的挑戰(zhàn)。該研究通過結(jié)合高通量實驗(HTE)平臺和嵌入“中間知識”的機器學(xué)習(xí)模型,顯著提升了酰胺偶聯(lián)反應(yīng)產(chǎn)率預(yù)測的準確性和模型的泛化能力。

01

背景介紹

酰胺偶聯(lián)反應(yīng)(Amide coupling reaction)不僅僅是化學(xué)實驗室里的一個普通反應(yīng),更是藥物發(fā)現(xiàn)和合成化學(xué)領(lǐng)域中不可或缺的“基石”。我們?nèi)粘I钪惺褂玫脑S多藥物,從抗癌藥到抗生素,從心血管藥物到神經(jīng)系統(tǒng)藥物,它們的分子結(jié)構(gòu)中都可能含有酰胺鍵。酰胺鍵就像是分子世界的“骨架”,將不同的功能單元連接起來,形成具有特定生物活性的復(fù)雜分子。因此,高效、精準地構(gòu)建酰胺鍵,對于藥物的研發(fā)和生產(chǎn)至關(guān)重要。

1. 酰胺偶聯(lián)反應(yīng)

然而,一個酰胺偶聯(lián)反應(yīng)的成功與否,往往取決于一系列復(fù)雜的反應(yīng)條件,包括偶聯(lián)試劑、堿、溶劑、反應(yīng)溫度和反應(yīng)時間等。這些條件組合起來,形成了一個龐大而復(fù)雜的“條件空間”。對于化學(xué)家而言,如何在如此廣闊的條件空間中,快速而準確地找到最佳的反應(yīng)條件,以獲得高產(chǎn)率和高選擇性的目標產(chǎn)物,一直是一個令人頭疼的難題。傳統(tǒng)的做法是依靠化學(xué)家的經(jīng)驗和大量的試錯實驗。這種方法不僅耗時耗力,而且效率低下,尤其是在面對新型底物或具有挑戰(zhàn)性的反應(yīng)時,往往會陷入漫長的實驗篩選過程,嚴重阻礙了藥物研發(fā)的進程。該研究巧妙地結(jié)合了高通量實驗(High-Throughput Experimentation, HTE)平臺和一種創(chuàng)新的“中間知識嵌入”策略(圖2),顯著提升了酰胺偶聯(lián)反應(yīng)產(chǎn)率預(yù)測模型的性能。

2. 酰胺偶聯(lián)反應(yīng)條件推薦研究

02

圖文解析

1.數(shù)據(jù)基石:高通量實驗(HTE)與數(shù)據(jù)質(zhì)量的挑戰(zhàn)

任何成功的機器學(xué)習(xí)模型,都離不開高質(zhì)量的數(shù)據(jù)。在化學(xué)反應(yīng)預(yù)測領(lǐng)域,數(shù)據(jù)的質(zhì)量和多樣性直接決定了模型的準確性和泛化能力。傳統(tǒng)的化學(xué)反應(yīng)數(shù)據(jù)主要來源于文獻報道。然而,文獻數(shù)據(jù)往往存在諸多局限性:首先,文獻通常只報道成功的、高產(chǎn)率的反應(yīng),而對低產(chǎn)率甚至失敗的反應(yīng)鮮有提及,這導(dǎo)致數(shù)據(jù)集存在嚴重的“成功偏倚”,使得模型難以學(xué)習(xí)到反應(yīng)失敗的原因和邊界條件。其次,不同實驗室的實驗條件、操作規(guī)程以及數(shù)據(jù)記錄方式存在差異,導(dǎo)致數(shù)據(jù)一致性差,難以直接用于機器學(xué)習(xí)模型的訓(xùn)練(圖3)。此外,文獻數(shù)據(jù)往往缺乏對反應(yīng)條件空間的系統(tǒng)性探索,難以全面覆蓋各種可能的反應(yīng)組合。

3多條件模型工作流程示意圖,以甲胺與乙酸反應(yīng)為例

為了克服這些挑戰(zhàn),高通量實驗(High-Throughput Experimentation, HTE)應(yīng)運而生。HTE是一種通過自動化和并行化技術(shù),在短時間內(nèi)進行大量實驗的方法。它能夠系統(tǒng)地探索反應(yīng)條件空間,生成大規(guī)模、一致且包含成功與失敗案例的實驗數(shù)據(jù)。這篇研究正是利用了其內(nèi)部的高通量實驗平臺,系統(tǒng)地收集了酰胺偶聯(lián)反應(yīng)的產(chǎn)率數(shù)據(jù)。最終,他們收集了超過47000個產(chǎn)率數(shù)據(jù)點,構(gòu)建了一個豐富而多樣的數(shù)據(jù)集(圖3),為后續(xù)機器學(xué)習(xí)模型的訓(xùn)練奠定了堅實的基礎(chǔ)。

4. 用SMiles ARbitrary Target Specification(SMARTS)語法編寫的反應(yīng)模板

2.智能預(yù)測:多條件模型開發(fā)與中間知識的魔力

有了高質(zhì)量的數(shù)據(jù),接下來就是構(gòu)建能夠準確預(yù)測反應(yīng)產(chǎn)率的機器學(xué)習(xí)模型。在這項研究中,研究人員探索了多種機器學(xué)習(xí)算法和深度學(xué)習(xí)方法,包括XGBoost、支持向量機(SVM)、隨機森林、AutoGluon以及基于Transformer的深度學(xué)習(xí)模型Yield-BERT和T5-Chem。這些模型的目標都是從反應(yīng)物的結(jié)構(gòu)和反應(yīng)條件中學(xué)習(xí)規(guī)律,從而預(yù)測反應(yīng)的產(chǎn)率。為了更嚴格地評估模型的性能,該研究采用了三種不同級別的測試集(圖5):

(1)隨機劃分(Random Split):這是最常見的劃分方式,數(shù)據(jù)集被隨機分成訓(xùn)練集和測試集。雖然簡單,但如前所述,其評估結(jié)果可能過于樂觀。

(2)部分底物新穎性(Partial Substrate Novelty):在這種劃分中,測試集中的反應(yīng)至少有一個底物是模型在訓(xùn)練時未曾見過的。這使得評估更具挑戰(zhàn)性,更能反映模型在面對部分新穎情況時的表現(xiàn)。

(3)完全底物新穎性(Full Substrate Novelty):這是最嚴格的評估方式,測試集中的所有底物組合都是模型在訓(xùn)練時完全未曾見過的。這種劃分最能模擬真實世界中化學(xué)家需要預(yù)測全新反應(yīng)產(chǎn)率的場景,也是衡量模型泛化能力的關(guān)鍵指標。

5. 三個級別測試集的示意圖:隨機拆分、部分底物新穎性和完全新穎性測試

研究結(jié)果顯示,在隨機劃分和部分底物新穎性測試集上,模型的表現(xiàn)相對較好,但在完全底物新穎性測試集上,模型的性能普遍有所下降(圖5)。這促使研究人員思考,如何才能進一步提升模型在面對完全新穎底物時的泛化能力。

為了解決這一難題,研究團隊提出了一種創(chuàng)新的策略,在機器學(xué)習(xí)模型中嵌入反應(yīng)中間體知識(Intermediate Knowledge Embedding)。他們觀察到,在酰胺偶聯(lián)反應(yīng)中,酸在與偶聯(lián)試劑作用后,會形成一個活化的中間體,這個中間體才是真正與胺反應(yīng)的關(guān)鍵。傳統(tǒng)的機器學(xué)習(xí)模型通常只關(guān)注反應(yīng)物和最終產(chǎn)物,而忽略了反應(yīng)過程中形成的中間體。研究人員認為,如果能將這些“中間知識”融入到模型中,模型就能更好地理解反應(yīng)機理,從而更準確地預(yù)測產(chǎn)率。

他們選擇了六種常用的酰胺偶聯(lián)反應(yīng)條件,并為每種條件設(shè)計了特定的SMARTS(SMILES ARbitrary Target Specification)模板,用于描述酸轉(zhuǎn)化為活化中間體的過程。結(jié)果令人振奮,嵌入中間知識的模型性能顯著提升,尤其是在完全底物新穎性測試集上。例如,在HATU和TBTU條件下,模型的R2值(一個衡量模型擬合優(yōu)度的指標,越接近1表示擬合越好)分別從0.69和0.71飆升至0.86和0.84(圖6)。這意味著模型在理解反應(yīng)的本質(zhì)方面取得了重大突破,能夠更準確地預(yù)測全新反應(yīng)的產(chǎn)率。

6.(a)使用HATU作為活化試劑將酸轉(zhuǎn)化為中間SMARTS模式,以及(b)所選單條件模型工作流程的示意圖

3.模型的泛化能力與實際應(yīng)用:從預(yù)測到推薦

該研究通過化學(xué)信息數(shù)據(jù)庫(如SciFinder)篩選了大量與藥物發(fā)現(xiàn)和生物研究相關(guān)的酰胺偶聯(lián)反應(yīng),并確保這些反應(yīng)的底物組合與他們自己的HTE數(shù)據(jù)集完全不同。這意味著模型在預(yù)測這些外部文獻反應(yīng)的產(chǎn)率時,是真正面對“陌生”的挑戰(zhàn)。結(jié)果令人鼓舞:即使在面對這些全新的外部數(shù)據(jù)時,嵌入中間知識的BERT模型依然表現(xiàn)出色,R2值達到了0.71,平均絕對誤差(MAE)為7%,均方根誤差(RMSE)為10%(圖7和圖8)??紤]到訓(xùn)練數(shù)據(jù)集的規(guī)模(約400個底物對),這樣的性能已經(jīng)非常強大,并且研究人員指出,隨著更多數(shù)據(jù)的加入,模型的泛化能力有望進一步提升。

7. 257個外部文獻反應(yīng)示例的預(yù)測產(chǎn)率與實驗產(chǎn)率

總而言之,這項研究不僅構(gòu)建了一個高性能的酰胺偶聯(lián)反應(yīng)產(chǎn)率預(yù)測模型,更重要的是,它通過引入“中間知識”和嚴格的評估方法,顯著提升了模型的泛化能力和實際應(yīng)用價值。它從單純的“預(yù)測”走向了更具指導(dǎo)意義的“推薦”,為化學(xué)家提供了強大的智能工具,有望加速新藥的發(fā)現(xiàn)和開發(fā)進程。

8. 一些外部文獻反應(yīng)實例的預(yù)測結(jié)果

03

總結(jié)

這項研究揭示了“中間知識”在提升模型性能和泛化能力方面所扮演的關(guān)鍵角色。它證明復(fù)雜化學(xué)反應(yīng)體系中,僅僅依靠輸入和輸出數(shù)據(jù)進行模式識別是遠遠不夠的。將化學(xué)反應(yīng)的內(nèi)在機理,如中間體的形成和轉(zhuǎn)化,以結(jié)構(gòu)化的方式嵌入到機器學(xué)習(xí)模型中,能夠極大地增強模型的理解能力和預(yù)測精度。這為未來化學(xué)人工智能的發(fā)展指明了方向:即從純粹的數(shù)據(jù)驅(qū)動走向數(shù)據(jù)與知識雙輪驅(qū)動,構(gòu)建更具解釋性、更符合化學(xué)直覺的智能模型。

參考文獻

Chonghuan Zhang, Qianghua Lin, Chenxi Yang, Yaxian Kong, Zhunzhun Yu and Kuangbiao Liao Intermediate knowledge enhanced the performance of the amide coupling yield prediction model. Chemical Science, 2025, 16, 11809-11822.

聲明:

1. 版權(quán):推送內(nèi)容僅供學(xué)習(xí)交流分享使用,無任何商業(yè)用途,如有侵權(quán),請聯(lián)系后臺刪除或修改,感謝支持。

2. 投稿:非常歡迎各位老師在公眾號上介紹課題組前沿或經(jīng)典研究成果!后臺或郵箱聯(lián)系即可!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
俄媒:中俄在等美軍動手,特朗普一旦下令開打,第一時間沖進火海

俄媒:中俄在等美軍動手,特朗普一旦下令開打,第一時間沖進火海

流年恰似繁花汐
2026-04-03 05:15:44
風(fēng)向徹底變了!西方媒體集體改口:中國,無需再向世界證明什么

風(fēng)向徹底變了!西方媒體集體改口:中國,無需再向世界證明什么

樂天閑聊
2026-03-26 03:40:35
Anthropic "開源"了一份 Agent Infra 創(chuàng)業(yè)的工具書

Anthropic "開源"了一份 Agent Infra 創(chuàng)業(yè)的工具書

硅星人
2026-04-02 09:54:43
李亞鵬談張雪機車奪冠眼眶濕潤:我也是資深車迷 騎了20多年車

李亞鵬談張雪機車奪冠眼眶濕潤:我也是資深車迷 騎了20多年車

快科技
2026-04-03 14:31:37
西方正制造一個可怕的共識:對華戰(zhàn)爭,可無視道德底線和倫理原則

西方正制造一個可怕的共識:對華戰(zhàn)爭,可無視道德底線和倫理原則

老范談史
2026-03-31 18:35:14
亨通光電股價創(chuàng)下歷史新高

亨通光電股價創(chuàng)下歷史新高

證券時報
2026-04-03 15:54:05
伊朗再亮王牌!抵抗之弧發(fā)起反擊,導(dǎo)彈從天而降,美以噩夢開始

伊朗再亮王牌!抵抗之弧發(fā)起反擊,導(dǎo)彈從天而降,美以噩夢開始

興史興談
2026-04-03 04:32:35
粉底液將軍事件再升級!網(wǎng)友懷疑反華勢力入侵,張凌赫恐被當炮灰

粉底液將軍事件再升級!網(wǎng)友懷疑反華勢力入侵,張凌赫恐被當炮灰

千言娛樂記
2026-04-02 12:32:24
80年陳云建議陳錫聯(lián)辭職,陳錫聯(lián)猛拍桌:讓我干啥,我絕無二話!

80年陳云建議陳錫聯(lián)辭職,陳錫聯(lián)猛拍桌:讓我干啥,我絕無二話!

抽象派大師
2026-03-25 12:04:28
《紐約時報》為美國登月挽尊,NASA局長承認:中國可能更快登月

《紐約時報》為美國登月挽尊,NASA局長承認:中國可能更快登月

共工之錨
2026-04-03 18:46:27
印度尿素徹底告急求中國,中方直言:先把拖欠的百億舊賬結(jié)清

印度尿素徹底告急求中國,中方直言:先把拖欠的百億舊賬結(jié)清

我不叫阿哏
2026-04-03 14:25:42
已介入調(diào)查!北冰洋果汁NFC“一盒只加一滴”引爭議

已介入調(diào)查!北冰洋果汁NFC“一盒只加一滴”引爭議

齊魯壹點
2026-04-03 10:51:30
俄防空軍司令奧特羅申科墜亡!烏克蘭摧毀克里米亞空軍基地

俄防空軍司令奧特羅申科墜亡!烏克蘭摧毀克里米亞空軍基地

項鵬飛
2026-04-03 20:59:53
琿烏高速松原至吉林段暴雪引發(fā)多車連環(huán)撞,有車主被困超1小時,多個高速入口關(guān)閉

琿烏高速松原至吉林段暴雪引發(fā)多車連環(huán)撞,有車主被困超1小時,多個高速入口關(guān)閉

深圳晚報
2026-04-03 20:55:29
農(nóng)村開始“翻舊賬”了!村村全覆蓋,這3類人躲都躲不掉

農(nóng)村開始“翻舊賬”了!村村全覆蓋,這3類人躲都躲不掉

三農(nóng)雷哥
2026-03-08 20:45:46
摩洛哥足協(xié)主席:我們有充分論據(jù),塞內(nèi)加爾退賽已獲官方確認

摩洛哥足協(xié)主席:我們有充分論據(jù),塞內(nèi)加爾退賽已獲官方確認

林子說事
2026-04-03 08:36:50
兩性關(guān)系,男人要明白:女人無論多大年齡,都有這樣一個需求

兩性關(guān)系,男人要明白:女人無論多大年齡,都有這樣一個需求

笑飲孤鴻非
2026-03-27 23:36:11
實錘!日本祖先真相大白:徐福傳說被科學(xué)擊碎,千年信仰轟然倒塌

實錘!日本祖先真相大白:徐福傳說被科學(xué)擊碎,千年信仰轟然倒塌

行者聊官
2026-04-03 11:10:44
多納魯馬在意大利世界杯失利后發(fā)表感性聲明

多納魯馬在意大利世界杯失利后發(fā)表感性聲明

綠茵情報局
2026-04-03 16:06:37
綠豆立大功!中農(nóng)大證實:綠豆降膽固醇、減肝脂肪,改善脂肪肝

綠豆立大功!中農(nóng)大證實:綠豆降膽固醇、減肝脂肪,改善脂肪肝

思思夜話
2026-04-01 11:52:19
2026-04-04 04:12:50
原子量 incentive-icons
原子量
探索科學(xué)魅力,實踐科技創(chuàng)新;分享化學(xué)奇趣,服務(wù)知識交流。
78文章數(shù) 11關(guān)注度
往期回顧 全部

科技要聞

5萬輛庫存車,給了特斯拉一記重拳

頭條要聞

伊朗:美飛行員跳傘在伊境內(nèi)落地 美方曾試圖營救未果

頭條要聞

伊朗:美飛行員跳傘在伊境內(nèi)落地 美方曾試圖營救未果

體育要聞

被NBA選中20年后,他重新回到籃球場

娛樂要聞

夏克立官宣再婚當爸?否認婚內(nèi)出軌

財經(jīng)要聞

專家稱長期攝入“飄香劑”存在健康隱患

汽車要聞

你介意和遠房親戚長得很像嗎?

態(tài)度原創(chuàng)

教育
藝術(shù)
健康
本地
公開課

教育要聞

教育部:義務(wù)教育學(xué)校嚴禁設(shè)立重點班、實驗班、快慢班

藝術(shù)要聞

她的作品藏著絕世美女,看看你能認出幾個!

干細胞抗衰4大誤區(qū),90%的人都中招

本地新聞

跟著歌聲游安徽,聽古村回響

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版