国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

NeurIPS 2025 | 用蛋白質(zhì)動態(tài)詞表“搭積木”,ProDVa高效組裝可折疊新蛋白

0
分享至

本文提出"蛋白質(zhì)動態(tài)詞表"機(jī)制,融合深度生成模型與天然蛋白片段結(jié)構(gòu)先驗(yàn),在功能導(dǎo)向設(shè)計(jì)中同步提升結(jié)構(gòu)可折疊性與功能對齊度。相比SOTA模型,ProDVa僅使用0.04%訓(xùn)練數(shù)據(jù)即可生成更多可穩(wěn)定折疊的序列,且性能幾乎無損。當(dāng)前評估基于計(jì)算模擬,尚未經(jīng)濕實(shí)驗(yàn)驗(yàn)證,未來需跨領(lǐng)域合作推進(jìn)。


論文標(biāo)題: Protein Design with Dynamic Protein Vocabulary 論文鏈接: https://arxiv.org/pdf/2505.18966 代碼鏈接: https://github.com/sornkL/ProDVa

基于功能的蛋白質(zhì)設(shè)計(jì)任務(wù)(function-guided protein design)旨在根據(jù)功能描述或關(guān)鍵詞,生成符合的蛋白質(zhì)序列。其核心挑戰(zhàn)在于,如何確保從蛋白質(zhì)序列龐大空間中設(shè)計(jì)的序列既滿足給定功能,也能正確折疊成穩(wěn)定的 3D 結(jié)構(gòu)(即可折疊性好)。

近年來,蛋白質(zhì)語言模型(PLMs)在該任務(wù)上展現(xiàn)了巨大潛力,可以根據(jù)上下文描述以氨基酸為詞元生成符合功能的全新蛋白質(zhì)序列。但是,PLMs 面臨兩個核心挑戰(zhàn):

  1. 20 種標(biāo)準(zhǔn)氨基酸(以及分詞器自動切分的連續(xù)片段)構(gòu)成的詞元缺乏明確的生物學(xué)意義;

  2. 解碼生成的蛋白質(zhì)序列雖然符合給定功能,但可折疊性差。

現(xiàn)代生物信息學(xué)既存在 SwissProt [1] 等經(jīng)過大規(guī)模專家標(biāo)注且濕實(shí)驗(yàn)實(shí)證的蛋白質(zhì)數(shù)據(jù)庫,也存在 InterPro [2][3] 等工具能夠提取完整序列中包含的功能片段。例如,LLDELLQKGYGLGSGISL 天然蛋白質(zhì)片段(IPR30659)已被實(shí)證為一個 SecY 保守位點(diǎn)(conserved site)。

受傳統(tǒng)蛋白質(zhì)設(shè)計(jì)借鑒已知天然結(jié)構(gòu)的啟發(fā),來自華東師范大學(xué)、復(fù)旦大學(xué)、中國電信人工智能研究院(TeleAI)的研究團(tuán)隊(duì)提出了一個新問題:PLMs 能否在設(shè)計(jì)過程中充分利用天然蛋白質(zhì)功能片段來得到功能易滿足、結(jié)構(gòu)更合理的新蛋白質(zhì)?

LLMs 動態(tài)詞表生成技術(shù) [4] 首先將任意短語表征嵌入靜態(tài)詞表的語義空間,然后在每個解碼時刻自由選擇生成詞元(對應(yīng)氨基酸 Token)或一整個短語(對應(yīng)天然功能片段)。

結(jié)合該技術(shù),本文提出了新型 PLM 架構(gòu) ProDVa,根據(jù)文本功能描述,動態(tài)地從蛋白質(zhì)數(shù)據(jù)庫中檢索功能相近的氨基酸序列,通過構(gòu)建對應(yīng)的蛋白質(zhì)動態(tài)詞表(Dynamic Protein Vocabulary)設(shè)計(jì)滿足要求功能的蛋白質(zhì)。

一、思路驗(yàn)證:天然片段是提升結(jié)構(gòu)穩(wěn)定性的關(guān)鍵

作者首先通過一個簡單實(shí)驗(yàn)驗(yàn)證核心直覺:蛋白質(zhì)由 20 種標(biāo)準(zhǔn)氨基酸組成,其中連續(xù)的功能子序列(如結(jié)構(gòu)域、活性位點(diǎn)等)被稱為片段(fragment),它們往往決定結(jié)構(gòu)與功能。

實(shí)驗(yàn)發(fā)現(xiàn),即便將天然蛋白質(zhì)片段隨機(jī)插入到隨機(jī)生成的氨基酸序列中(Random+),所得序列在自然蛋白的分布與可折疊性上均顯著優(yōu)于完全隨機(jī)生成(Random)。


(a) 不同方法生成的蛋白質(zhì)在ESM C embedding空間中的UMAP可視化,灰色表示天然蛋白質(zhì)的分布。(b) pLDDT (predicted Local Distance Difference Test)性能對比,該指標(biāo)衡量單個殘基局部結(jié)構(gòu)的預(yù)測準(zhǔn)確度。 (c) PAE (Predicted Aligned Error)性能對比,該指標(biāo)評估不同殘基之間相對位置的預(yù)測準(zhǔn)確度。黃色散點(diǎn)(Random+)比紅色散點(diǎn)(Random)分布更廣,更接近天然蛋白質(zhì),且在結(jié)構(gòu)評估指標(biāo)上表現(xiàn)顯著更好。

這有力證明了:采用天然片段協(xié)助設(shè)計(jì)極具潛力。進(jìn)一步,在實(shí)際應(yīng)用中,如何按照用戶需要,有目的地選擇和拼接這些天然片段,是 ProDVa 關(guān)注的核心問題。

二、蛋白質(zhì)動態(tài)詞表實(shí)現(xiàn)智能組裝

為了實(shí)現(xiàn)對蛋白質(zhì)片段的智能組裝,ProDVa 包含三個核心組件:

  1. 文本語言模型 (Text Language Model):理解用戶輸入的自然語言功能描述。

  2. 蛋白質(zhì)語言模型 (Protein Language Model):根據(jù)輸入功能描述,自回歸地設(shè)計(jì)氨基酸序列。

  3. 片段編碼器 (Fragment Encoder):理解天然蛋白質(zhì)片段的表示。

核心創(chuàng)新在于蛋白質(zhì)動態(tài)詞表(Dynamic Protein Vocabulary)。傳統(tǒng) PLMs 的詞表僅含 20 種標(biāo)準(zhǔn)氨基酸或分詞器自動切分的連續(xù)片段,而 ProDVa 在生成時可動態(tài)引入由天然片段組成的臨時詞表。推理流程如下:

  1. 根據(jù)功能描述,從支持文檔庫檢索最相似的 K 個蛋白質(zhì);

  2. 提取其中的功能片段形成任務(wù)相關(guān)的候選集;

  3. 生成時,模型可在每一步選擇生成單個氨基酸 Token,或直接生成一個完整片段。

為讓模型正確使用片段,訓(xùn)練中引入三個目標(biāo):

  1. 下一個 Token/片段預(yù)測:保證序列生成連貫;

  2. 片段類型預(yù)測:區(qū)分結(jié)構(gòu)域、活性位點(diǎn)等類型,讓編碼器理解片段的生物學(xué)意義;

  3. 片段描述匹配:通過對比學(xué)習(xí),使片段表示與功能描述在向量空間中對齊。

三、實(shí)驗(yàn)結(jié)果

在基于功能關(guān)鍵詞和復(fù)雜文本描述的兩類蛋白質(zhì)設(shè)計(jì)任務(wù)中,ProDVa 均表現(xiàn)優(yōu)異:

  1. 結(jié)構(gòu)可折疊性顯著提升:與SOTA 模型 Pinal 相比,pLDDT > 70 的比例提升 7.38%,PAE < 10 的比例提升 9.62%,意味著生成的蛋白質(zhì)更可能折疊成穩(wěn)定的 3D 結(jié)構(gòu)。

  2. 高效的數(shù)據(jù)利用能力:在功能對齊性能幾乎不損失(ProTrek Score 差0.1%)的情況下,訓(xùn)練數(shù)據(jù)量僅為 Pinal 的 0.04%(約 71.2 萬對),顯著降低訓(xùn)練成本。

  1. 通用性強(qiáng):在無條件生成任務(wù)中,同樣優(yōu)于所有基線,相比 SOTA 模型 Pinal,pLDDT > 70 的比例提升 22.76%,PAE < 10 的比例提升 11.81%。

四、總結(jié)與展望

本文提出了“蛋白質(zhì)動態(tài)詞表”這一新機(jī)制,將深度生成模型與天然蛋白質(zhì)片段的結(jié)構(gòu)先驗(yàn)相結(jié)合,在基于功能的蛋白質(zhì)設(shè)計(jì)任務(wù)中顯著提升了結(jié)構(gòu)可折疊性,同時保持高功能對齊度。

相比現(xiàn)有 SOTA 模型,ProDVa 在僅使用 0.04% 訓(xùn)練數(shù)據(jù)的情況下,幾乎不降低功能對齊性能,卻能生成更多可穩(wěn)定折疊的蛋白質(zhì)序列。

當(dāng)然,當(dāng)前所有評估方法都是使用計(jì)算機(jī)模擬的指標(biāo)進(jìn)行衡量,尚未通過濕實(shí)驗(yàn)驗(yàn)證其是否真的能在生物體內(nèi)發(fā)揮預(yù)想的功能。我們期待未來更多跨領(lǐng)域合作推動其落地與驗(yàn)證。

參考文獻(xiàn)

[1] Amos Bairoch and Rolf Apweiler. The swiss-prot protein sequence database and its supplement trembl in 2000. Nucleic acids research, 28(1):45–48, 2000.

[2] Matthias Blum, Antonina Andreeva, Laise Cavalcanti Florentino, Sara Rocio Chuguransky, Tiago Grego, Emma Hobbs, Beatriz Lazaro Pinto, Ailsa Orr, Typhaine Paysan-Lafosse, Irina Ponamareva, et al. Interpro: the protein sequence classification resource in 2025. Nucleic Acids Research, 53(D1):D444–D456, 2025.

[3] Philip Jones, David Binns, Hsin-Yu Chang, Matthew Fraser, Weizhong Li, Craig McAnulla, Hamish McWilliam, John Maslen, Alex Mitchell, Gift Nuka, et al. Interproscan 5: genome-scale protein function classification. Bioinformatics, 30(9):1236–1240, 2014.

[4] Yanting Liu, Tao Ji, Changzhi Sun, Yuanbin Wu, and Xiaoling Wang. Generation with dynamic vocabulary. arXiv preprint arXiv:2410.08481, 2024.

來源:公眾號【PaperWeekly】

llustration From IconScout By IconScout Store

-The End-

本周上新!

掃碼觀看!

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:

bp@thejiangmen.com


點(diǎn)擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
茅臺渠道新政落地

茅臺渠道新政落地

第一財經(jīng)資訊
2026-03-13 15:16:38
保姆偷拿了家里2瓶茅臺去賣,我沒揭穿只辭退了她,臨走時她指了指舊皮鞋,我一看瞬間癱坐在地

保姆偷拿了家里2瓶茅臺去賣,我沒揭穿只辭退了她,臨走時她指了指舊皮鞋,我一看瞬間癱坐在地

今夜有個好故事
2026-03-11 17:26:56
【最新】南充市嘉陵區(qū)財政局一級主任科員何革生接受紀(jì)律審查和監(jiān)察調(diào)查

【最新】南充市嘉陵區(qū)財政局一級主任科員何革生接受紀(jì)律審查和監(jiān)察調(diào)查

南部微生活
2026-03-13 19:25:30
58歲那英改走顏值路線?過度醫(yī)美變化大到認(rèn)不出,這是要鬧哪出?

58歲那英改走顏值路線?過度醫(yī)美變化大到認(rèn)不出,這是要鬧哪出?

鋒哥與八卦哥
2026-01-25 13:26:51
滴滴發(fā)布財報:2025年GTV達(dá)4508億元,同比增長14.8%|公司頭條

滴滴發(fā)布財報:2025年GTV達(dá)4508億元,同比增長14.8%|公司頭條

北青網(wǎng)-北京青年報
2026-03-13 18:53:08
75歲有8個男朋友?凌晨在北京去世?劉曉慶身上的標(biāo)簽太離譜了

75歲有8個男朋友?凌晨在北京去世?劉曉慶身上的標(biāo)簽太離譜了

可樂談情感
2026-03-13 00:08:39
女排張常寧身高193,一身休閑裝照片,看起來眉眼清秀,十分明亮

女排張常寧身高193,一身休閑裝照片,看起來眉眼清秀,十分明亮

草莓解說體育
2026-03-13 17:56:09
高市早苗宣布:不管國際油價怎么變,日本油價將鎖定在170日元左右

高市早苗宣布:不管國際油價怎么變,日本油價將鎖定在170日元左右

風(fēng)向觀察
2026-03-12 16:00:02
萬萬沒想到!兩會最火提案不是醫(yī)療和就業(yè),而是霍啟剛的這一舉動

萬萬沒想到!兩會最火提案不是醫(yī)療和就業(yè),而是霍啟剛的這一舉動

瀲滟晴方DAY
2026-03-05 18:42:38
女籃世預(yù)賽最殘酷一夜!亞洲4隊(duì)三隊(duì)遭慘?。褐腥諠№n國卻贏了

女籃世預(yù)賽最殘酷一夜!亞洲4隊(duì)三隊(duì)遭慘?。褐腥諠№n國卻贏了

籃球快餐車
2026-03-13 05:44:27
CCTV5直播,中國女籃大戰(zhàn)非洲勁旅,實(shí)力優(yōu)勢明顯,勝負(fù)懸念不大

CCTV5直播,中國女籃大戰(zhàn)非洲勁旅,實(shí)力優(yōu)勢明顯,勝負(fù)懸念不大

中國籃壇快訊
2026-03-13 07:00:09
4名中國游客在亞庇浮潛時救下溺水韓國女生,當(dāng)事人:不用記住是誰救了她,只要知道是中國人伸出援手就夠了

4名中國游客在亞庇浮潛時救下溺水韓國女生,當(dāng)事人:不用記住是誰救了她,只要知道是中國人伸出援手就夠了

揚(yáng)子晚報
2026-03-12 14:39:42
神操作再現(xiàn),單卡3090 起跑!Claude-4.6-Opus蒸餾Qwen3.5-27B

神操作再現(xiàn),單卡3090 起跑!Claude-4.6-Opus蒸餾Qwen3.5-27B

Ai學(xué)習(xí)的老章
2026-03-12 22:32:11
數(shù)名醫(yī)生叮囑:只要做過腸息肉切除手術(shù),術(shù)后患者一定關(guān)注這4點(diǎn)

數(shù)名醫(yī)生叮囑:只要做過腸息肉切除手術(shù),術(shù)后患者一定關(guān)注這4點(diǎn)

蜉蝣說
2026-03-13 15:02:38
高市早苗捅下馬蜂窩!日本爆發(fā)混亂,數(shù)萬人走上街頭,國會被圍

高市早苗捅下馬蜂窩!日本爆發(fā)混亂,數(shù)萬人走上街頭,國會被圍

命運(yùn)自認(rèn)幽默
2026-03-12 18:38:25
伊朗革命衛(wèi)隊(duì)已經(jīng)事實(shí)獨(dú)立

伊朗革命衛(wèi)隊(duì)已經(jīng)事實(shí)獨(dú)立

難得君
2026-03-04 12:29:04
張凌赫搭檔女演員cp感排名:白鹿第三,田曦薇第二,榜首是她

張凌赫搭檔女演員cp感排名:白鹿第三,田曦薇第二,榜首是她

星星沒有你亮
2026-03-13 06:21:50
戰(zhàn)略運(yùn)輸機(jī)來了,最大載重125噸,中國運(yùn)40,已成定局?

戰(zhàn)略運(yùn)輸機(jī)來了,最大載重125噸,中國運(yùn)40,已成定局?

萬里繁華
2026-03-13 11:37:55
4輪不勝后!廣東隊(duì)做出重大決定,放棄張皓嘉,杜鋒面臨下課!

4輪不勝后!廣東隊(duì)做出重大決定,放棄張皓嘉,杜鋒面臨下課!

緋雨兒
2026-03-13 14:14:52
香港"第一美人"近況曝光:守寡16年,63歲無兒無女,現(xiàn)狀讓人意外

香港"第一美人"近況曝光:守寡16年,63歲無兒無女,現(xiàn)狀讓人意外

傲傲講歷史
2026-03-10 11:53:42
2026-03-13 20:39:00
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

龍蝦熱卷到AI硬件 “無腦”硬件或被淘汰

頭條要聞

特朗普鼓動油輪"大膽"過霍爾木茲海峽:伊朗沒有海軍

頭條要聞

特朗普鼓動油輪"大膽"過霍爾木茲海峽:伊朗沒有海軍

體育要聞

叕戰(zhàn)奧運(yùn),張雨霏要做回“小將”

娛樂要聞

小S復(fù)工錄制 感謝賈永婕陪大S走到最后

財經(jīng)要聞

2月M2同增9% 前兩個月存款增加9.26萬億

汽車要聞

置換補(bǔ)貼價8.68萬 五菱繽果S 525km旗艦款上市

態(tài)度原創(chuàng)

親子
家居
本地
房產(chǎn)
公開課

親子要聞

萌娃對老媽的年齡感到震驚,他的話太逗了

家居要聞

藝術(shù)之家 法式優(yōu)雅

本地新聞

坐標(biāo)北京,過敏季反向遷徒

房產(chǎn)要聞

不容易??!??诮K于又要賣地了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版