国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

EDBench發(fā)布,AI驅(qū)動(dòng)分子建模邁入「電子級(jí)」時(shí)代

0
分享至



作者 | 論文團(tuán)隊(duì)

編輯 | ScienceAI

在藥物設(shè)計(jì)、新材料開發(fā)等領(lǐng)域,精確模擬分子行為至關(guān)重要。傳統(tǒng)的機(jī)器學(xué)習(xí)力場(chǎng)將分子視為由原子核和化學(xué)鍵構(gòu)成的“骨架”,卻忽略了真正決定分子性質(zhì)的“靈魂”——電子

電子密度,這一量子化學(xué)中的核心物理量,描述了電子在空間中的分布概率,從根本上決定了分子的能量、反應(yīng)活性等所有性質(zhì)。然而,通過量子化學(xué)計(jì)算獲取電子密度數(shù)據(jù)成本極高,嚴(yán)重阻礙了該方向的研究。

近日,湖南大學(xué)/國(guó)家超算長(zhǎng)沙中心聯(lián)合寧波東方理工大學(xué)、香港科技大學(xué)(廣州)AIMS Lab、華東師范大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)等團(tuán)隊(duì)在國(guó)際頂會(huì)NeurIPS 2025(神經(jīng)信息處理系統(tǒng)大會(huì),AI領(lǐng)域頂會(huì))上發(fā)布研究成果——大規(guī)模電子密度泛函數(shù)據(jù)集EDbench

這個(gè)涵蓋336萬分子的“電子密度數(shù)據(jù)庫(kù)”,首次填補(bǔ)了“電子級(jí)分子建模”的大規(guī)模數(shù)據(jù)空白,讓AI預(yù)測(cè)分子性質(zhì)的精度和效率實(shí)現(xiàn)雙重突破,有望加速新藥研發(fā)、新材料設(shè)計(jì)等關(guān)鍵領(lǐng)域的進(jìn)程。



論文主頁(yè):https://hongxinxiang.github.io/projects/EDBench/

為什么電子密度是分子建模的“終極密碼”?

在量子化學(xué)中,分子的一切性質(zhì)都藏在“電子分布”里,這是Hohenberg-Kohn定理的核心結(jié)論。打個(gè)比方:如果把分子比作“智能手機(jī)”,傳統(tǒng)AI分子建模(MLFFs)只關(guān)注“硬件零件(原子)”的排列,卻忽略了“操作系統(tǒng)(電子)”的邏輯;而電子密度(ED)就是“操作系統(tǒng)的源代碼”,能直接解鎖分子的“底層功能”。



圖(a)展示了從原子級(jí)到電子級(jí)的MLFF范式升級(jí),其中電子密度(ED)是描述電子空間分布的量子力學(xué)中的基本物理量,可以提供分子系統(tǒng)更細(xì)致的物理表示,但是長(zhǎng)期以來,獲取ED數(shù)據(jù)堪稱“兩難”:

  • 實(shí)驗(yàn)測(cè)量(如X射線衍射)依賴千萬級(jí)設(shè)備,單種分子的ED數(shù)據(jù)需數(shù)月才能獲??;
  • 理論計(jì)算(DFT)雖通用,但算一個(gè)小分子要245秒,想攢“百萬級(jí)數(shù)據(jù)集”需單核心連續(xù)計(jì)算23年。

這就導(dǎo)致AI分子建模始終卡在“原子級(jí)”——比如預(yù)測(cè)藥物分子與靶點(diǎn)的結(jié)合活性時(shí),傳統(tǒng)模型只能通過“原子間距”間接推斷,卻看不到“電子富集區(qū)”的真實(shí)作用,精度往往差強(qiáng)人意。

EDBench數(shù)據(jù)集:規(guī)模與質(zhì)量的雙重突破

本論文中,EDBench的建成正好解決了該領(lǐng)域長(zhǎng)期存在的“數(shù)據(jù)荒”問題,該數(shù)據(jù)集的創(chuàng)建并不是“簡(jiǎn)單攢數(shù)據(jù)”,而是“精度、規(guī)模、實(shí)用性”的多重考量。



1.規(guī)模突破:336萬分子的“算力攻堅(jiān)”

從細(xì)節(jié)角度來看,圖(b)展示了數(shù)據(jù)集構(gòu)建中的DFT計(jì)算流程,該流程是通過自洽場(chǎng)(SCF)迭代來實(shí)現(xiàn)的,從宏觀角度來看,EDBench基于PCQM4Mv2數(shù)據(jù)集構(gòu)建,涵蓋3,359,472個(gè)類藥分子,規(guī)模超同類成果:

  • 材料領(lǐng)域經(jīng)典ED數(shù)據(jù)MP僅含12萬條數(shù)據(jù),且無量子性質(zhì)標(biāo)注;
  • 藥物領(lǐng)域最大電子相關(guān)數(shù)據(jù)集?2DFT雖有190萬條,但不含直接ED分布(僅密度矩陣)。

更重要的是,EDBench輸出的是CUBE格式的3D電子密度云圖——相當(dāng)于給每個(gè)分子拍了“電子CT”,能直接看到電子在原子周圍的富集程度。

2.精度控制:從泛函到基組的“定制化方案”

為了讓ED數(shù)據(jù)符合真實(shí)量子規(guī)律,團(tuán)隊(duì)基于圖(c)中Jacob’s ladder做了三重優(yōu)化:



  • 泛函選擇:選用B3LYP混合泛函——這是量子化學(xué)的“萬金油”,在合成化學(xué)、藥物研發(fā)等領(lǐng)域經(jīng)過驗(yàn)證,能平衡電子相關(guān)性描述與計(jì)算效率;
  • 基組適配:普通分子用6-31G基組,含硫分子追加6-31+G基組——因?yàn)榱蛟拥碾娮与x域性強(qiáng),普通基組會(huì)低估其ED分布;
  • 自旋適配:自動(dòng)切換RHF/UHF參考波函數(shù)——閉殼層分子(如甲烷)用RHF,開殼層分子(如氧分子)用UHF,避免自旋污染導(dǎo)致的誤差。

3.標(biāo)注維度:AI建模的“全要素養(yǎng)料”

EDBench不止提供ED數(shù)據(jù),還同步輸出6類能量成分(核排斥能、交換關(guān)聯(lián)能等)、7種軌道能量(HOMO-2至LUMO+3)、4類偶極矩(X/Y/Z分量及模長(zhǎng))。這種“多維度標(biāo)注”正是AI突破“單任務(wù)擬合”的關(guān)鍵——例如,模型可通過“ED分布→軌道能量→反應(yīng)活性”的鏈?zhǔn)綄W(xué)習(xí),實(shí)現(xiàn)更本質(zhì)的性質(zhì)預(yù)測(cè)。

三大基準(zhǔn)任務(wù):驗(yàn)證AI的“電子理解能力”

為避免數(shù)據(jù)集“只存不用”,團(tuán)隊(duì)設(shè)計(jì)了覆蓋ED核心應(yīng)用場(chǎng)景的基準(zhǔn)任務(wù),均采用scaffold split(OOD泛化性測(cè)試),直擊AI建模的真實(shí)痛點(diǎn)。

1.量子性質(zhì)預(yù)測(cè):ED比原子特征強(qiáng)在哪?

4個(gè)子任務(wù)中,X-3D(點(diǎn)云模型)的表現(xiàn)印證了ED的優(yōu)勢(shì):

  • ED5-OE(軌道能量預(yù)測(cè)):HOMO能量MAE僅0.0198 eV,較原子級(jí)模型(MAE≈0.03 eV)精度提升34%——因?yàn)檐壍滥芰颗c局部ED分布直接相關(guān),AI能快速捕捉“電子富集區(qū)”的微觀特征;
  • ED5-OCS(開/閉殼層分類):AUPR達(dá)61.54%,解決了傳統(tǒng)模型“分不清電子態(tài)”的核心難題——開殼層分子(如自由基)的ED分布呈“不對(duì)稱性”,AI能通過這種特征精準(zhǔn)分類。

2.跨模態(tài)檢索:“結(jié)構(gòu)-密度”雙向?qū)R的突破

ED5-MER任務(wù)中,模型需實(shí)現(xiàn)“分子結(jié)構(gòu)→ED”和“ED→分子結(jié)構(gòu)”的雙向檢索,這對(duì)藥物虛擬篩選、材料逆設(shè)計(jì)至關(guān)重要。



圖中清晰展示:EquiformerV2(分子結(jié)構(gòu)編碼器)+X-3D(ED編碼器)的組合表現(xiàn)最優(yōu),ED→MS檢索Top-1準(zhǔn)確率達(dá)78.71%,MS→ED達(dá)78.36%。這意味著:給一張實(shí)驗(yàn)測(cè)得的電子云圖,AI能精準(zhǔn)匹配對(duì)應(yīng)的分子結(jié)構(gòu);反之,輸入分子結(jié)構(gòu)也能快速生成ED分布,為“電子驅(qū)動(dòng)的逆設(shè)計(jì)”奠定基礎(chǔ)。

3. ED生成:1.8萬倍提速的“DFT平替方案”

團(tuán)隊(duì)提出HGEGNN異構(gòu)圖模型(將原子與電子作為雙類型節(jié)點(diǎn)),輸入分子結(jié)構(gòu)即可生成ED:

  • 速度:0.013秒/分子,較DFT(245秒/分子)提速18907倍;
  • 質(zhì)量:生成ED的Pearson相關(guān)達(dá)99.2%,且用于下游能量預(yù)測(cè)時(shí),MAE較DFT原始數(shù)據(jù)降低11%(209.29→186.38)——AI生成的ED因過濾了DFT計(jì)算的噪聲,反而更適合模型學(xué)習(xí)。

生成ED的質(zhì)量“反超”DFT?

上述HGEGNN異構(gòu)圖模型引出了一個(gè)顛覆性發(fā)現(xiàn):AI生成ED數(shù)據(jù),在下游任務(wù)中表現(xiàn)竟優(yōu)于DFT原始數(shù)據(jù)。

團(tuán)隊(duì)用HGEGNN生成3組ED數(shù)據(jù)(G#1、G#2、G#3),替換ED5-EC任務(wù)中的DFT數(shù)據(jù),訓(xùn)練PointVector模型后發(fā)現(xiàn):生成數(shù)據(jù)的平均MAE從209.29降至186.38,相對(duì)提升11%。



圖中藍(lán)色柱DFT數(shù)據(jù)的模型表現(xiàn),綠色柱為AI生成數(shù)據(jù)的表現(xiàn)——這并非說明AI生成的ED“更符合物理真實(shí)”,而是其“更平滑的分布”更契合深度學(xué)習(xí)模型的歸納偏好,減少了DFT計(jì)算中的數(shù)值噪聲,為“高效-高精度建模”提供了新思路。

參數(shù)玄機(jī):閾值與采樣點(diǎn)如何影響性能?

ED數(shù)據(jù)的“高維度”(百萬級(jí)采樣點(diǎn))可能導(dǎo)致模型效率低下,團(tuán)隊(duì)通過消融實(shí)驗(yàn)找到最優(yōu)參數(shù)。



左圖(a)顯示:隨著ED閾值ρτ從0.05增至0.2,PointVector在ED5-EC任務(wù)的MAE從346.36降至209.29;但ρτ超過0.2后,性能反而下降——因?yàn)檫^高的閾值會(huì)過濾掉化學(xué)鍵附近的低密度電子(化學(xué)活性區(qū)),這提示:ρτ=0.2是“信息保留與效率”的黃金平衡點(diǎn)。

對(duì)AI for Science的啟示:從“擬合”到“理解”

EDBench的價(jià)值遠(yuǎn)超“一個(gè)數(shù)據(jù)集”:它首次證明了“電子級(jí)表征”在AI建模中的可行性,為幾何深度學(xué)習(xí)(GDL)開辟了新方向——過去GDL聚焦“原子間對(duì)稱關(guān)系”,現(xiàn)在可轉(zhuǎn)向“電子密度的空間連續(xù)性”建模。

目前,EDBench的全部數(shù)據(jù)(含CUBE格式電子云圖)、代碼及可視化工具已通過哈佛Dataverse開放:

https://dataverse.harvard.edu/dataverse/EDBench

正如團(tuán)隊(duì)通訊作者所言:“EDBench”不是終點(diǎn),而是讓AI“看懂電子”的起點(diǎn)——當(dāng)模型能真正理解電子分布,新藥研發(fā)、新材料設(shè)計(jì)才有可能從“試錯(cuò)”走向“預(yù)測(cè)”。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美國(guó)、德國(guó)、法國(guó)、韓國(guó)、英國(guó)等國(guó)媒體紛紛把目光轉(zhuǎn)向了中國(guó)武漢

美國(guó)、德國(guó)、法國(guó)、韓國(guó)、英國(guó)等國(guó)媒體紛紛把目光轉(zhuǎn)向了中國(guó)武漢

扶蘇聊歷史
2025-12-16 18:18:18
還沒打委內(nèi)瑞拉,美先炸第3國(guó),美軍不宣而戰(zhàn),100枚導(dǎo)彈連夜空襲

還沒打委內(nèi)瑞拉,美先炸第3國(guó),美軍不宣而戰(zhàn),100枚導(dǎo)彈連夜空襲

影孖看世界
2025-12-20 20:47:49
為了防止其它國(guó)家給柬埔寨運(yùn)輸武器彈藥,泰國(guó)直接封鎖了泰國(guó)灣!

為了防止其它國(guó)家給柬埔寨運(yùn)輸武器彈藥,泰國(guó)直接封鎖了泰國(guó)灣!

荊楚寰宇文樞
2025-12-17 22:13:04
第一批免簽去俄羅斯的中產(chǎn)傻眼了

第一批免簽去俄羅斯的中產(chǎn)傻眼了

風(fēng)向觀察
2025-12-16 18:26:08
青島國(guó)企出大事了!母女實(shí)名舉報(bào)......

青島國(guó)企出大事了!母女實(shí)名舉報(bào)......

膠州西南鄉(xiāng)
2025-12-19 16:50:42
絲芭傳媒再發(fā)文:要求鞠婧祎方立刻停止侵權(quán)抹黑,將就其和關(guān)聯(lián)人涂某某等涉嫌嚴(yán)重經(jīng)濟(jì)犯罪行為,向相關(guān)監(jiān)管機(jī)構(gòu)實(shí)名舉報(bào)

絲芭傳媒再發(fā)文:要求鞠婧祎方立刻停止侵權(quán)抹黑,將就其和關(guān)聯(lián)人涂某某等涉嫌嚴(yán)重經(jīng)濟(jì)犯罪行為,向相關(guān)監(jiān)管機(jī)構(gòu)實(shí)名舉報(bào)

極目新聞
2025-12-18 11:17:51
大連一公園里,有人竟踩在這東西上玩耍、拍照……

大連一公園里,有人竟踩在這東西上玩耍、拍照……

環(huán)球網(wǎng)資訊
2025-12-20 08:58:08
4年1.86億!左膝半月板撕裂!頂薪合同砸手里了

4年1.86億!左膝半月板撕裂!頂薪合同砸手里了

籃球教學(xué)論壇
2025-12-20 10:46:16
日本暴發(fā)疫情

日本暴發(fā)疫情

中國(guó)基金報(bào)
2025-12-20 20:20:31
3連冠!谷愛凌創(chuàng)歷史,被外國(guó)網(wǎng)友批評(píng):享受美國(guó)福利卻代表中國(guó)

3連冠!谷愛凌創(chuàng)歷史,被外國(guó)網(wǎng)友批評(píng):享受美國(guó)福利卻代表中國(guó)

侃球熊弟
2025-12-19 19:28:01
又貴又難喝的“液體黃金”,成中產(chǎn)新寵?

又貴又難喝的“液體黃金”,成中產(chǎn)新寵?

中國(guó)新聞周刊
2025-12-20 20:47:03
中國(guó)不丹爭(zhēng)議地區(qū)加速收回,4500 平方公里,中國(guó)建村固邊難擋

中國(guó)不丹爭(zhēng)議地區(qū)加速收回,4500 平方公里,中國(guó)建村固邊難擋

墨蘭史書
2025-12-12 02:05:03
乾隆長(zhǎng)曾孫與幼曾孫相差83歲,一個(gè)生于乾隆32年,一個(gè)活到1905年

乾隆長(zhǎng)曾孫與幼曾孫相差83歲,一個(gè)生于乾隆32年,一個(gè)活到1905年

芊芊之言
2025-12-20 00:51:32
打敗美元的不是人民幣,而是電動(dòng)汽車?7成石油進(jìn)口的我們沒退路

打敗美元的不是人民幣,而是電動(dòng)汽車?7成石油進(jìn)口的我們沒退路

今日美食分享
2025-12-20 15:58:16
馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個(gè)孩子

馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個(gè)孩子

豐譚筆錄
2025-12-12 11:16:23
人民日?qǐng)?bào)鐘聲:警惕日本“欺騙式外交”故伎重施

人民日?qǐng)?bào)鐘聲:警惕日本“欺騙式外交”故伎重施

新京報(bào)
2025-12-20 13:04:02
山師一女生宿舍6人全員保研上岸!都是“雙一流”大學(xué)!

山師一女生宿舍6人全員保研上岸!都是“雙一流”大學(xué)!

齊魯壹點(diǎn)
2025-12-20 17:13:20
76歲陳百祥官宣接受安樂死,父母離世,與妻子結(jié)婚50年無兒無女

76歲陳百祥官宣接受安樂死,父母離世,與妻子結(jié)婚50年無兒無女

一娛三分地
2025-12-17 20:09:14
家門口遇害案兇手死緩 法院透露依據(jù),為正當(dāng)防衛(wèi)劃出清晰邊界

家門口遇害案兇手死緩 法院透露依據(jù),為正當(dāng)防衛(wèi)劃出清晰邊界

元爸體育
2025-12-21 04:40:32
33分5板6助4帽,隊(duì)史第一人!你再這么打下去,擺爛要變成爭(zhēng)冠了

33分5板6助4帽,隊(duì)史第一人!你再這么打下去,擺爛要變成爭(zhēng)冠了

鍋?zhàn)踊@球
2025-12-20 13:00:07
2025-12-21 06:23:00
ScienceAI incentive-icons
ScienceAI
關(guān)注人工智能與其他前沿技術(shù)
1185文章數(shù) 221關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來

頭條要聞

高市早苗擔(dān)心被邊緣化 要趕在特朗普訪華前行動(dòng)

頭條要聞

高市早苗擔(dān)心被邊緣化 要趕在特朗普訪華前行動(dòng)

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會(huì)陣容曝光,豪華陣仗

財(cái)經(jīng)要聞

求解“地方財(cái)政困難”

汽車要聞

嵐圖推進(jìn)L3量產(chǎn)測(cè)試 已完成11萬公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

時(shí)尚
本地
房產(chǎn)
親子
旅游

最顯腿細(xì)的騎士靴,誰穿誰是腿精

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

房產(chǎn)要聞

廣州有態(tài)度,一座國(guó)際化社區(qū)給出的城市答案

親子要聞

張柏芝小兒子罕見露臉,網(wǎng)友驚呼太像媽媽,三個(gè)兒子各有千秋

旅游要聞

不止紅墻白雪!故宮淡季爆火,藏著中國(guó)文旅升級(jí)的大信號(hào)

無障礙瀏覽 進(jìn)入關(guān)懷版