国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

西湖大學(xué)發(fā)布SaprotHub,讓生物學(xué)家輕松訓(xùn)練調(diào)用蛋白質(zhì)語言模型

0
分享至



作者 | 論文團(tuán)隊(duì)

編輯 | ScienceAI

如同人類擁有語言,生命世界也有一套由氨基酸序列構(gòu)成的「分子語言」—— 蛋白質(zhì) 。近年來,人工智能領(lǐng)域的蛋白質(zhì)語言模型(PLMs)展現(xiàn)出解碼這套語言的強(qiáng)大能力,能夠精準(zhǔn)預(yù)測蛋白質(zhì)的結(jié)構(gòu)與功能。

然而,這些尖端模型的訓(xùn)練與使用,往往需要深厚的機(jī)器學(xué)習(xí)專業(yè)知識和編程能力,這在 AI 開發(fā)者與廣大生物學(xué)家之間形成了一道鴻溝。

為了打破這一壁壘,西湖大學(xué)原發(fā)杰團(tuán)隊(duì)首先提出了一種新穎的蛋白質(zhì)表征方法 —— 將蛋白質(zhì)一維序列與三維結(jié)構(gòu)相結(jié)合形成「結(jié)構(gòu)感知」詞匯表并據(jù)此訓(xùn)練出了蛋白質(zhì)語言大模型 Saprot。

在此基礎(chǔ)上,團(tuán)隊(duì)進(jìn)一步推出了 SaprotHub 開源平臺 。該平臺旨在將 Saprot 等一系列先進(jìn)蛋白質(zhì)語言模型的能力開放給生命科學(xué)領(lǐng)域研究者,它也是開放蛋白質(zhì)模型聯(lián)盟(Open Protein Modeling Consortium, OPMC)為推動(dòng)全球科研協(xié)作、共建開源社區(qū)而邁出的關(guān)鍵第一步。

這項(xiàng)研究成果已于近期發(fā)表在國際頂尖期刊《自然?生物技術(shù)》(Nature Biotechnology)上,論文題為《Democratizing Protein Language Model Training, Sharing and Collaboration》。



論文地址:https://www.nature.com/articles/s41587-025-02859-7

蛋白質(zhì)研究的挑戰(zhàn):從模型「孤島」到協(xié)作「藍(lán)?!?/p>

蛋白質(zhì)是生命活動(dòng)的基石,而近年來,以 AlphaFold2 為代表的蛋白質(zhì)語言模型(PLMs)在預(yù)測蛋白質(zhì)結(jié)構(gòu)與功能方面取得了革命性突破。然而,這些強(qiáng)大的 AI 工具如同精密的專業(yè)設(shè)備,其訓(xùn)練和部署通常需要深厚的機(jī)器學(xué)習(xí)知識,這為廣大從事實(shí)驗(yàn)研究的生物學(xué)家設(shè)置了難以逾越的技術(shù)鴻溝。從復(fù)雜的編程環(huán)境配置,到海量數(shù)據(jù)的預(yù)處理,再到模型訓(xùn)練和評估,整個(gè)流程充滿了挑戰(zhàn)。這不僅限制了 AI 技術(shù)的普及,也減緩了其在醫(yī)藥、生物技術(shù)等領(lǐng)域的創(chuàng)新應(yīng)用進(jìn)程。



圖 1. Saprot 模型架構(gòu)

SaprotHub:三大支柱構(gòu)建的開源協(xié)作新范式

為了應(yīng)對這一挑戰(zhàn),團(tuán)隊(duì)構(gòu)建了以 SaprotHub 為核心的一站式解決方案,它不僅是一個(gè)平臺,更是一個(gè)融合了前沿 AI 大模型技術(shù)、開源工具和全球社區(qū)的完整生態(tài)系統(tǒng):

  • 核心引擎 — Saprot 語言模型:Saprot 是本項(xiàng)工作的基石。它開創(chuàng)性地提出了一種「結(jié)構(gòu)感知」(Structure-Aware)詞匯表,將蛋白質(zhì)的一維氨基酸序列與其三維局部結(jié)構(gòu)信息進(jìn)行聯(lián)合編碼,從而構(gòu)建出一種全新的蛋白質(zhì)「語言」。同時(shí),研究團(tuán)隊(duì)基于 AlphaFold2 預(yù)測的數(shù)千萬個(gè)蛋白質(zhì)結(jié)構(gòu),采用了 64 塊 NVIDIA A100 GPU,經(jīng)過數(shù)月訓(xùn)練完成了 Saprot 模型的訓(xùn)練。其性能在數(shù)十項(xiàng)蛋白質(zhì)功能預(yù)測任務(wù)中得到了充分驗(yàn)證,并成功超越了如 ESM-2 等業(yè)界頂尖模型。自發(fā)布以來,Saprot 模型在學(xué)術(shù)界與工業(yè)界獲得了廣泛的關(guān)注和應(yīng)用。相關(guān)論文被引用已超過 200 次,模型累計(jì)下載量逾 70 萬次,并獲得了大量來自社區(qū)的真實(shí)生物實(shí)驗(yàn)驗(yàn)證,彰顯了其作為基礎(chǔ)模型的影響力。值得一提的是,Saprot 于 2024 年 5 月登頂 ProteinGym 蛋白質(zhì)突變效應(yīng)預(yù)測排行榜,并在此后近半年的時(shí)間里持續(xù)排名第一。
  • 開源工具 — 「一鍵式」蛋白質(zhì)語言模型訓(xùn)練平臺 ColabSaprot:為了將 Saprot 的能力釋放給生命科學(xué)領(lǐng)域的研究者,團(tuán)隊(duì)基于免費(fèi)的 Google Colab 云平臺,通過數(shù)月開發(fā),上萬行的代碼編寫,實(shí)現(xiàn)了 ColabSaprot「一鍵式」開源訓(xùn)練平臺。它將原本需要編寫繁瑣代碼才能進(jìn)行的蛋白質(zhì)語言模型微調(diào)、功能預(yù)測等任務(wù),簡化為用戶在網(wǎng)頁上的幾次鼠標(biāo)點(diǎn)擊,讓不具備編程背景的生物學(xué)家也能輕松訓(xùn)練前沿蛋白質(zhì)語言模型,實(shí)現(xiàn)從想法到驗(yàn)證的快速迭代 。為了方便研究者快速上手,團(tuán)隊(duì)錄制了詳細(xì)的教程視頻,涵蓋了從模型訓(xùn)練到使用等各個(gè)方面。

ColabSaprot鏈接:https://colab.research.google.com/github/westlake-repl/SaprotHub/blob/main/colab/SaprotHub_v2.ipynb

教程鏈接:

https://www.bilibili.com/video/BV1Y1i9YBEhv

https://www.youtube.com/watch?v=nmLtjlCI_7M



圖 2. ColabSaprot 在線平臺,具備細(xì)致的操作介紹以及簡易的使用步驟

  • 全球協(xié)作 — OPMC 成員共建的開放社區(qū):SaprotHub 不僅僅是蛋白質(zhì)語言模型的共享中心,更是開放蛋白質(zhì)模型聯(lián)盟(OPMC)理念的先行者。該聯(lián)盟匯聚了來自西湖大學(xué)、麻省理工學(xué)院(MIT)、首爾大學(xué)、哈佛大學(xué)、慕尼黑工業(yè)大學(xué)、微軟等全球數(shù)十家頂尖科研機(jī)構(gòu)的研究力量 ,旨在共同推進(jìn)蛋白質(zhì)領(lǐng)域的蓬勃發(fā)展。為了實(shí)現(xiàn)開源共建的良性生態(tài),團(tuán)隊(duì)采用低秩適應(yīng)矩陣(LoRA)的方式保存模型權(quán)重,并建立了 SaprotHub 模型與數(shù)據(jù)倉庫。通過將 ColabSaprot 開源平臺與 SaprotHub 進(jìn)行無縫耦合,OPMC 成員和全球研究者可以便捷地分享、下載和迭代模型。目前,SaprotHub 已經(jīng)存儲了數(shù)十種不同類型的蛋白質(zhì)訓(xùn)練數(shù)據(jù)集以及可供研究者直接預(yù)測的蛋白質(zhì)語言模型。為了方便研究者快速檢索,團(tuán)隊(duì)針對性地開發(fā)了相應(yīng)的搜索引擎,允許研究者根據(jù)關(guān)鍵詞直接檢索到相關(guān)的數(shù)據(jù)和模型。

SaprotHub 模型與數(shù)據(jù)倉庫:https://huggingface.co/SaProtHub

搜索引擎:https://huggingface.co/spaces/SaProtHub/SaprotHub-search



圖 3. SaprotHub 利用 LoRA 技術(shù)存儲模型權(quán)重,實(shí)現(xiàn)模型的便利共享

從虛擬到現(xiàn)實(shí):計(jì)算機(jī)模擬性能驗(yàn)證與多項(xiàng)濕實(shí)驗(yàn)驗(yàn)證

SaprotHub 的價(jià)值不僅在于其便捷性,更在于其預(yù)測準(zhǔn)確性。在團(tuán)隊(duì)開展的用戶研究中,12 位沒有 AI 背景的生物學(xué)研究者使用該平臺,取得了與 AI 研究者相媲美的成果。



圖 4. 生物研究者利用平臺能夠訓(xùn)練出和 AI 研究者相媲美的成果

更進(jìn)一步,平臺預(yù)測的有效性在一系列生物濕實(shí)驗(yàn)中得到了驗(yàn)證:

  • 工業(yè)酶改造:一家生物技術(shù)公司利用 ColabSaprot 對一種工業(yè)用木聚糖酶進(jìn)行改造,成功將酶的活性提升了 2.55 倍。
  • 基因編輯工具優(yōu)化:研究人員利用該平臺對 TDG 基因編輯工具進(jìn)行優(yōu)化,預(yù)測出的多個(gè)新版本在實(shí)驗(yàn)中展現(xiàn)出翻倍的編輯效率。
  • 熒光蛋白設(shè)計(jì):平臺還被用于設(shè)計(jì)更亮的綠色熒光蛋白(GFP),其中一個(gè)新設(shè)計(jì)的蛋白,其熒光亮度達(dá)到了原始版本的 8 倍以上。

這些成功案例證明,SaprotHub 能夠?qū)?AI 的預(yù)測能力轉(zhuǎn)化為現(xiàn)實(shí)世界中的生物學(xué)功能突破。

核心突破

1.全新蛋白質(zhì)語言模型:發(fā)布了具備技術(shù)創(chuàng)新(結(jié)構(gòu)感知詞匯表)的 Saprot 蛋白質(zhì)語言大模型。其在 14 項(xiàng)基準(zhǔn)測試中性能超越了 ESM-2 等現(xiàn)有經(jīng)典模型,已在該領(lǐng)域展現(xiàn)了其作為基礎(chǔ)模型的影響力。

2.開源協(xié)作范式:作為開放蛋白質(zhì)模型聯(lián)盟(OPMC)的第一步,匯聚了來自 MIT、哈佛、牛津、首爾大學(xué)等全球頂尖機(jī)構(gòu)的智慧,為蛋白質(zhì)領(lǐng)域建立了集模型訓(xùn)練、分享、合作、迭代于一體的開源社區(qū)平臺。

3.蛋白質(zhì)語言模型技術(shù)民主化:通過「一鍵式」的 ColabSaprot 工具,將先進(jìn)蛋白質(zhì)語言模型的復(fù)雜訓(xùn)練和使用流程民主化,賦能全球不具備編程背景的生物學(xué)家,使其從 AI 的「使用者」轉(zhuǎn)變?yōu)椤竸?chuàng)造者」和「貢獻(xiàn)者」。

4.真實(shí)場景驗(yàn)證:平臺的有效性在工業(yè)酶改造、基因編輯工具優(yōu)化等多個(gè)真實(shí)的濕實(shí)驗(yàn)場景中得到驗(yàn)證,展示了其通過計(jì)算機(jī)模擬輔助現(xiàn)實(shí)生物學(xué)突破的能力。

結(jié)語與展望

SaprotHub 的發(fā)布,不止是提供了一個(gè)工具。它以一個(gè)創(chuàng)新的自研蛋白質(zhì)語言模型(Saprot)為基礎(chǔ),通過開源平臺(ColabSaprot)來催化一個(gè)全球性的科研協(xié)作網(wǎng)絡(luò)(OPMC)。這為 AI 輔助的生命科學(xué)研究提供了一種可持續(xù)發(fā)展的「開源、共建、共享」模式。目前,該生態(tài)已進(jìn)一步集成了 ESM-2、ProtT5 等更多業(yè)界主流模型 ,開啟了蛋白質(zhì)科學(xué)的「大航海時(shí)代」。

西湖大學(xué)原發(fā)杰實(shí)驗(yàn)室現(xiàn)有 2026 年博士研究生招生名額,有意向者可將個(gè)人簡歷(含教育背景、科研經(jīng)歷、成果證明等)及相關(guān)材料投遞至指定郵箱,郵件主題請注明「2026 博士申請 + 姓名」。

投遞郵箱:yuanfajie@westlake.edu.cn

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
普京參觀圖-160制造廠,亮家底:確實(shí)夠中國至少追趕二十年

普京參觀圖-160制造廠,亮家底:確實(shí)夠中國至少追趕二十年

我心縱橫天地間
2025-12-20 21:21:26
中央明確規(guī)定:從明年起,將對普通高中進(jìn)行擴(kuò)招。

中央明確規(guī)定:從明年起,將對普通高中進(jìn)行擴(kuò)招。

百態(tài)人間
2025-12-18 05:00:04
直接發(fā)錢!楊瀚森下放召回不僅報(bào)銷機(jī)票,還有餐補(bǔ)150美元

直接發(fā)錢!楊瀚森下放召回不僅報(bào)銷機(jī)票,還有餐補(bǔ)150美元

懂球帝
2025-12-21 03:56:07
水貨實(shí)錘?才一年就全面下滑,這可是狀元啊,老鷹虧大發(fā)了

水貨實(shí)錘?才一年就全面下滑,這可是狀元啊,老鷹虧大發(fā)了

球童無忌
2025-12-20 23:40:16
女CEO剛上任就開除我,晚上她竟在我家,我爸:這是你未來媳婦兒

女CEO剛上任就開除我,晚上她竟在我家,我爸:這是你未來媳婦兒

蕭竹輕語
2025-12-18 15:34:55
就在剛剛 白俄總統(tǒng)盧卡申科正式表態(tài):中國正在實(shí)現(xiàn)革命性突破,

就在剛剛 白俄總統(tǒng)盧卡申科正式表態(tài):中國正在實(shí)現(xiàn)革命性突破,

忠于法紀(jì)
2025-12-20 10:15:15
1-0!隊(duì)長讓點(diǎn)12.9億豪門3連勝重返榜首 英超領(lǐng)頭羊4小時(shí)兩度易主

1-0!隊(duì)長讓點(diǎn)12.9億豪門3連勝重返榜首 英超領(lǐng)頭羊4小時(shí)兩度易主

狍子歪解體壇
2025-12-21 06:05:23
27歲“咪神”疑因性感晚裝走咣惹禍,傳已被節(jié)目組踢出局

27歲“咪神”疑因性感晚裝走咣惹禍,傳已被節(jié)目組踢出局

粵睇先生
2025-12-21 01:14:58
江暢同志突發(fā)心梗,不幸逝世

江暢同志突發(fā)心梗,不幸逝世

新京報(bào)政事兒
2025-12-20 22:27:40
動(dòng)真格了!新華社對王莉的舉報(bào)起作用,范某被停職,結(jié)果大快人心

動(dòng)真格了!新華社對王莉的舉報(bào)起作用,范某被停職,結(jié)果大快人心

林子說事
2025-12-20 11:13:54
大爆冷!國羽世界第1被淘汰,劉圣書譚寧1:2韓國,女雙全軍覆沒

大爆冷!國羽世界第1被淘汰,劉圣書譚寧1:2韓國,女雙全軍覆沒

國乒二三事
2025-12-20 19:46:07
震驚!有茅臺經(jīng)銷商單批出貨虧損超30萬,網(wǎng)傳浙江有黃牛開始掃樓

震驚!有茅臺經(jīng)銷商單批出貨虧損超30萬,網(wǎng)傳浙江有黃牛開始掃樓

火山詩話
2025-12-20 12:02:08
突然,集體跳水!特朗普,最新宣布!

突然,集體跳水!特朗普,最新宣布!

證券時(shí)報(bào)
2025-12-20 19:51:03
53年金日成訪華,周總理罕見發(fā)脾氣,拍桌子道:把王明貴給我叫來

53年金日成訪華,周總理罕見發(fā)脾氣,拍桌子道:把王明貴給我叫來

云霄紀(jì)史觀
2025-12-21 02:02:44
挖角成功!曝云南玉昆引進(jìn)申花2將,昔日主力門將在列

挖角成功!曝云南玉昆引進(jìn)申花2將,昔日主力門將在列

體壇鑒春秋
2025-12-20 16:40:13
朱孝天嫉妒心藏不住了!公開嘲諷阿信“又老又丑”,評論區(qū)已淪陷

朱孝天嫉妒心藏不住了!公開嘲諷阿信“又老又丑”,評論區(qū)已淪陷

楓塵余往逝
2025-12-20 20:24:53
大量浙江游客涌入沈陽,打著旅游幌子不去旅游不吃美食,為啥來

大量浙江游客涌入沈陽,打著旅游幌子不去旅游不吃美食,為啥來

另子維愛讀史
2025-11-29 07:53:16
心痛!30歲男銷售確認(rèn)死亡,目擊者講述事發(fā)經(jīng)過,車主懵了

心痛!30歲男銷售確認(rèn)死亡,目擊者講述事發(fā)經(jīng)過,車主懵了

魔都姐姐雜談
2025-12-20 09:19:55
網(wǎng)友評南博事件:我不相信有人能為這幅畫謀劃近40年

網(wǎng)友評南博事件:我不相信有人能為這幅畫謀劃近40年

映射生活的身影
2025-12-20 16:36:14
4天5條人命,中國不再忍耐,聯(lián)大下通牒:塔利班若再裝傻后果自負(fù)

4天5條人命,中國不再忍耐,聯(lián)大下通牒:塔利班若再裝傻后果自負(fù)

春秋論娛
2025-12-18 07:11:35
2025-12-21 06:28:49
ScienceAI incentive-icons
ScienceAI
關(guān)注人工智能與其他前沿技術(shù)
1185文章數(shù) 221關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來

頭條要聞

高市早苗擔(dān)心被邊緣化 要趕在特朗普訪華前行動(dòng)

頭條要聞

高市早苗擔(dān)心被邊緣化 要趕在特朗普訪華前行動(dòng)

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會(huì)陣容曝光,豪華陣仗

財(cái)經(jīng)要聞

求解“地方財(cái)政困難”

汽車要聞

嵐圖推進(jìn)L3量產(chǎn)測試 已完成11萬公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

時(shí)尚
本地
房產(chǎn)
旅游
軍事航空

最顯腿細(xì)的騎士靴,誰穿誰是腿精

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

房產(chǎn)要聞

廣州有態(tài)度,一座國際化社區(qū)給出的城市答案

旅游要聞

不止紅墻白雪!故宮淡季爆火,藏著中國文旅升級的大信號

軍事要聞

澤連斯基:前線局勢愈發(fā)艱難

無障礙瀏覽 進(jìn)入關(guān)懷版