国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

DeepSeek論文發(fā)表16天后,國內(nèi)團(tuán)隊(duì)已經(jīng)寫出了模型的“生物字典”

0
分享至

*內(nèi)容來源:機(jī)器之心、測序中國微信公眾號(hào)

今年1月,DeepSeek發(fā)布了一項(xiàng)名為Engram(條件記憶)的技術(shù),在大模型圈子里掀起不小波瀾。

它的核心思想很簡單:別讓模型死記硬背常識(shí),直接給它一個(gè)“外掛記憶庫”。

具體做法是:把常見的詞語組合(N-gram),比如“人工智能”、“光合作用”,預(yù)先存進(jìn)一個(gè)哈希表,模型需要時(shí)查表即可,省下大量算力專注推理。

這個(gè)思路,能不能用在其他領(lǐng)域的模型訓(xùn)推上?答案是:能,且效果驚人。

就在Engram論文發(fā)布僅16天后,同樣位于杭州的一支研發(fā)團(tuán)隊(duì),推出GengramGenomic Engram)模塊,把“外掛字典”搬進(jìn)了基因組世界



  • 代碼鏈接:

    https://github.com/zhejianglab/Gengram

  • 模型鏈接:

    https://huggingface.co/ZhejiangLab/Gengram

  • 論文鏈接:

    https://arxiv.org/abs/2601.22203

傳統(tǒng)方法的困境:

為每個(gè)堿基“重復(fù)造輪子”

當(dāng)前,主流的基因組基礎(chǔ)模型,如Deepmind的AlphaGenome等,普遍采用一種叫“單堿基分詞”的策略,也就是把DNA序列拆成一個(gè)個(gè)單獨(dú)的字母(A/T/C/G)來處理。

這聽起來非常符合生物學(xué)邏輯,并且操作精度更高,然而代價(jià)也是巨大的。

首先是效率低下。要識(shí)別一個(gè)關(guān)鍵功能片段(比如啟動(dòng)子或剪接位點(diǎn)),模型得靠多層注意力機(jī)制,從零開始“拼湊”出像“TATAAAA”這樣的經(jīng)典堿基組合(Motif)。

其次是容易迷失。在動(dòng)輒幾萬甚至幾十萬堿基的長序列中,模型常?!爸灰姌淠?,不見森林”,何況人類的基因組是一串長達(dá)30億字符的連續(xù)序列。

用更容易理解的方式來打個(gè)比方:人類學(xué)習(xí)“魑魅魍魎”時(shí),一眼就能理解這是個(gè)成語。但傳統(tǒng)的基因組模型卻得先分析每個(gè)“鬼”字究竟是什么鬼……既要區(qū)分又要預(yù)測,最終結(jié)果就是既費(fèi)力,又不準(zhǔn)。

Gengram是怎么工作的?

Gengram的核心邏輯承襲自Engram:將“靜態(tài)的Motif識(shí)別”與“動(dòng)態(tài)的上下文推理”進(jìn)行解耦處理。

Gengram預(yù)先構(gòu)建了一個(gè)可微分的哈希表,存儲(chǔ)所有長度為1到6的DNA片段(稱為k-mer,如“ATG”、“CGTA”)對應(yīng)的語義向量。這些k-mer很多就是已知的生物學(xué)功能單元(比如轉(zhuǎn)錄因子結(jié)合位點(diǎn)),相當(dāng)于給AI配了一本《基因組學(xué)實(shí)用短語手冊》。

與其他領(lǐng)域相比,DNA只有4個(gè)字母(A/T/C/G)及少量未知堿基(N)構(gòu)成,整個(gè)字符集極小。Gengram無需承擔(dān)復(fù)雜的Tokenizer壓縮負(fù)擔(dān),查表速度極快,幾乎不增加計(jì)算開銷。

事實(shí)上,由于功能重要性不同,并非所有Motif都需要這本“字典”的加持。為此,Gengram引入了動(dòng)態(tài)門控機(jī)制。

模型可以結(jié)合上下文語境自主決定何時(shí)“查字典”:在遇到外顯子、啟動(dòng)子等關(guān)鍵Motif區(qū)域時(shí)激活檢索功能;在通過非編碼背景區(qū)域時(shí)關(guān)閉檢索,依賴推理,優(yōu)化資源。

經(jīng)團(tuán)隊(duì)測試,這個(gè)門控目前已經(jīng)掌握了“什么時(shí)候該查詢參考資料,什么時(shí)候該獨(dú)立思考”的判斷能力。

小模塊,大提升

事實(shí)上,Gengram只是一個(gè)僅約2000萬參數(shù)的輕量化插件,對于百億級規(guī)模的模型來說微不足道,但它帶來的性能提升卻令人振奮。

在8k和32k兩個(gè)上下文版本中,同等訓(xùn)練設(shè)定下,應(yīng)用了Gengram的模型幾乎在所有任務(wù)里領(lǐng)先未應(yīng)用的版本。

其中,剪接位點(diǎn)預(yù)測AUC提升了16.1%(從0.776到0.901),表觀遺傳預(yù)測任務(wù)(H3K36me3)AUC提升了22.6%(從0.656到0.804)。

這種跨越式的性能飛躍,賦予了模型驚人的數(shù)據(jù)杠桿效應(yīng)。

在與多款主流DNA基礎(chǔ)模型的橫向測評中,集成Gengram的模型僅需極小規(guī)模的訓(xùn)練數(shù)據(jù),和較小的激活參數(shù)量,便能在核心任務(wù)上媲美乃至超越訓(xùn)練數(shù)據(jù)規(guī)模領(lǐng)先其數(shù)十倍的公開模型,大幅提升了模型訓(xùn)練的數(shù)據(jù)能效比。

同時(shí),Gengram展現(xiàn)出了卓越的通用適配能力,能夠跨越Dense(稠密)與MoE(混合專家)等不同模型架構(gòu)實(shí)現(xiàn)無縫部署。


跨稀疏度負(fù)載均衡:在Top-2/128、64和32專家配置下,使用與不使用Gengram模塊的負(fù)載均衡損失曲線對比,表明其在多種稀疏度設(shè)置下均能實(shí)現(xiàn)穩(wěn)定性能

此外,模型開始“涌現(xiàn)”出對DNA物理本質(zhì)的理解。

當(dāng)團(tuán)隊(duì)為Gengram局部聚合窗口測試窗口大小策略時(shí),結(jié)果顯示:窗口大小參數(shù)設(shè)置為21bp時(shí),其性能達(dá)到峰值

為什么偏偏是21?

因?yàn)镈NA雙螺旋結(jié)構(gòu)每10.5個(gè)堿基對旋轉(zhuǎn)一圈,而21個(gè)堿基對正好對應(yīng)兩個(gè)完整的螺旋周期。這意味著,每相隔21bp的堿基在物理空間上其實(shí)位于螺旋的同一側(cè),具備相似的生化環(huán)境和特征。

換句話說,Gengram在沒有學(xué)習(xí)過任何結(jié)構(gòu)生物學(xué)知識(shí)的前提下,通過計(jì)算自己悟到了DNA序列信息和空間相位規(guī)律。


DNA雙螺旋結(jié)構(gòu)示意圖展示了B型DNA的結(jié)構(gòu)參數(shù),DNA雙螺旋每10.5個(gè)堿基對旋轉(zhuǎn)一圈


不同Gengram窗口大小下的驗(yàn)證損失,由此選擇了21寬度的窗口

范式啟示:

Gengram為AI科學(xué)模型提供新探索路徑

Gengram的成功,遠(yuǎn)不止于解決基因組建模的特定難題。它更像一個(gè)精巧的概念驗(yàn)證,為如何構(gòu)建新一代懂科學(xué)的AI探索了一種新的模式。

從“暴力記憶”到“結(jié)構(gòu)化知識(shí)外掛”:效率范式的轉(zhuǎn)變。傳統(tǒng)AI模型增強(qiáng)能力主要靠擴(kuò)張參數(shù)與數(shù)據(jù),本質(zhì)是讓網(wǎng)絡(luò)更費(fèi)力地“記住”一切。Gengram則將領(lǐng)域內(nèi)確鑿的、結(jié)構(gòu)化的先驗(yàn)知識(shí)(如功能Motif)做成一個(gè)輕量、可查詢的外部知識(shí)庫。這讓核心模型能從繁瑣的模式記憶中解脫,專注于更高級的上下文推理與組合創(chuàng)新。這預(yù)示著,未來科學(xué)基礎(chǔ)模型的架構(gòu),可能是“通用模型核心+多個(gè)領(lǐng)域?qū)S貌寮钡膮f(xié)同形態(tài)。

“歸納偏置”注入:生物物理規(guī)律的“硬編碼”通過將B型DNA雙螺旋每10.5個(gè)堿基完成一個(gè)旋轉(zhuǎn)周期(即約21bp的雙圈周期)這一結(jié)構(gòu)特性,顯式轉(zhuǎn)化為模型內(nèi)部的局部窗口機(jī)制,Gengram成功地將這種物理空間相位的周期性作為先驗(yàn)知識(shí)注入模型,使其能夠捕捉特定相位的立體化學(xué)模式和蛋白質(zhì)綁定偏好。

可解釋性的內(nèi)生設(shè)計(jì):讓AI的“思維過程”透明化。模型不再僅僅進(jìn)行隱式的統(tǒng)計(jì)擬合,而是通過顯式的Hash查詢和門控記憶通路,在淺層即展現(xiàn)出對TATA-box、poly(T)等關(guān)鍵功能基元的高度敏感性,其內(nèi)部殘差強(qiáng)度的峰值與基因組功能邊界精準(zhǔn)對齊,實(shí)現(xiàn)了從“黑盒計(jì)算”向“具備生物學(xué)認(rèn)知足跡”的演進(jìn)。

解決長程依賴的新路徑:從局部最優(yōu)到全局洞察實(shí)驗(yàn)證明,Gengram使得僅在8K長度上訓(xùn)練的模型,卻獲得了處理32K長序列的優(yōu)異能力。這為基因調(diào)控元件預(yù)測、表觀遺傳學(xué)分析、跨物種進(jìn)化分析以及復(fù)雜的多組學(xué)建模等復(fù)雜長序列問題,開辟了精細(xì)化局部感知驅(qū)動(dòng)全局理解的新途徑。

Gengram建立了一種將領(lǐng)域特有規(guī)律轉(zhuǎn)化為顯式架構(gòu)約束的創(chuàng)新范式,證明了通過精細(xì)化的局部結(jié)構(gòu)化感知可以有效彌補(bǔ)標(biāo)稱上下文長度的局限,實(shí)現(xiàn)低成本且高效的長程依賴建模。

低調(diào)的Genos Team

Gengram的發(fā)布,讓人們將目光投向了杭州AI版圖的另一塊重要拼圖Genos團(tuán)隊(duì)。這支低調(diào)的團(tuán)隊(duì)結(jié)合了華大生命科學(xué)研究院的組學(xué)大數(shù)據(jù)經(jīng)驗(yàn),與之江實(shí)驗(yàn)室的計(jì)算和模型能力。這種交叉創(chuàng)新壁壘,這是單純的 計(jì)算機(jī)科學(xué)團(tuán)隊(duì)或 生命科學(xué)團(tuán)隊(duì) 無法比擬的優(yōu)勢。

論文里的實(shí)驗(yàn),大多基于人類基因組基礎(chǔ)模型Genos實(shí)現(xiàn),Genos是研發(fā)團(tuán)隊(duì)于去年10月發(fā)布的,從可公開獲取的信息來看,Genos多數(shù)指標(biāo)都超越了當(dāng)前的業(yè)界頂流Evo-2。目前,Genos已應(yīng)用于華大基因面向遺傳病臨床檢測的大語言模型GeneT,助力提高遺傳病分析解讀的水平。

如果說DeepSeek證明了通用AI的極限,那么Genos團(tuán)隊(duì)則用行動(dòng)展示了當(dāng)AI深度對齊生物學(xué)邏輯時(shí),我們離真正讀懂“生命之書”又近了一大步。


讓我知道你“在看”

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
敢不敢爆料自己比較炸裂的瓜?網(wǎng)友:從高二到大學(xué)被一個(gè)姐姐包養(yǎng)

敢不敢爆料自己比較炸裂的瓜?網(wǎng)友:從高二到大學(xué)被一個(gè)姐姐包養(yǎng)

解讀熱點(diǎn)事件
2026-03-11 00:05:09
魔獸宣布退役!在NBA打了18年一共賺到多少錢?退休金又有多少?

魔獸宣布退役!在NBA打了18年一共賺到多少錢?退休金又有多少?

鍋?zhàn)踊@球
2026-03-13 09:56:22
又一個(gè)跨海超級工程,要來了!或?qū)⒊蔀椤爸袊铋L跨海大橋”

又一個(gè)跨海超級工程,要來了!或?qū)⒊蔀椤爸袊铋L跨海大橋”

國是直通車
2026-03-13 20:22:10
偉偉道來 | 伊朗降溫美以升級,戰(zhàn)爭進(jìn)入第二階段

偉偉道來 | 伊朗降溫美以升級,戰(zhàn)爭進(jìn)入第二階段

經(jīng)濟(jì)觀察報(bào)
2026-03-09 16:20:16
默多克95歲壽宴,鄧文迪帶兩女兒坐主桌!20年布局繼承千億資產(chǎn)

默多克95歲壽宴,鄧文迪帶兩女兒坐主桌!20年布局繼承千億資產(chǎn)

商務(wù)范
2026-03-13 14:50:39
超真實(shí)人體建模!姿勢任君選 男女各個(gè)部位一覽無余

超真實(shí)人體建模!姿勢任君選 男女各個(gè)部位一覽無余

游民星空
2026-03-11 17:15:29
中方最擔(dān)心的事情發(fā)生了,伊朗越過紅線,秘密武器直逼以方心臟

中方最擔(dān)心的事情發(fā)生了,伊朗越過紅線,秘密武器直逼以方心臟

青煙小先生
2026-03-11 10:29:39
女子坐飛機(jī)被拒后續(xù):損失超3萬,航司說法可笑,網(wǎng)友曝更多黑料

女子坐飛機(jī)被拒后續(xù):損失超3萬,航司說法可笑,網(wǎng)友曝更多黑料

青梅侃史啊
2026-03-13 07:34:24
免費(fèi)都沒人要?南沙大面積「甘蔗」滯銷,市民可自采!

免費(fèi)都沒人要?南沙大面積「甘蔗」滯銷,市民可自采!

南沙部落
2026-03-13 09:52:25
陳冠鋒、梁小靜奪冠;劉峽君、金若宣刷新PB,莫家蝶「跨項(xiàng)」交答卷!

陳冠鋒、梁小靜奪冠;劉峽君、金若宣刷新PB,莫家蝶「跨項(xiàng)」交答卷!

馬拉松跑步健身
2026-03-13 22:02:44
真正的喜歡是藏不住的愛意,而愛意,就是在不起眼的細(xì)節(jié)里

真正的喜歡是藏不住的愛意,而愛意,就是在不起眼的細(xì)節(jié)里

加油丁小文
2026-03-08 09:00:09
半路殺出個(gè)“程咬金”,天津女排意外闖進(jìn)四強(qiáng)讓對手大感意外!

半路殺出個(gè)“程咬金”,天津女排意外闖進(jìn)四強(qiáng)讓對手大感意外!

格斗聯(lián)盟王大錘
2026-03-13 14:41:55
中產(chǎn)破防了!被阿里131億賤賣的“超市之王”,擠滿了韓國人

中產(chǎn)破防了!被阿里131億賤賣的“超市之王”,擠滿了韓國人

財(cái)經(jīng)八卦
2026-03-12 20:57:59
女籃慘敗后聲音不斷!宮魯鳴去留成焦點(diǎn),籃協(xié)深夜發(fā)聲

女籃慘敗后聲音不斷!宮魯鳴去留成焦點(diǎn),籃協(xié)深夜發(fā)聲

林子說事
2026-03-13 11:00:09
免費(fèi)變收費(fèi),乘客卻增加了!上海打網(wǎng)約公交車的人越來越多了,票價(jià)1元,不用擠公交、也不用站站停

免費(fèi)變收費(fèi),乘客卻增加了!上海打網(wǎng)約公交車的人越來越多了,票價(jià)1元,不用擠公交、也不用站站停

新聞晨報(bào)隨申Hi
2026-03-13 22:00:09
西方終于想通了,只要中國愿意,美軍或?qū)⑹コ掷m(xù)戰(zhàn)斗能力

西方終于想通了,只要中國愿意,美軍或?qū)⑹コ掷m(xù)戰(zhàn)斗能力

全金貓眼
2026-03-14 07:20:19
猶太人來自何方?中國史書的記載顛覆從前的認(rèn)知!

猶太人來自何方?中國史書的記載顛覆從前的認(rèn)知!

牛馬搞笑
2026-03-13 14:54:23
成都德云社開業(yè),李伯清未被邀請引爭議

成都德云社開業(yè),李伯清未被邀請引爭議

科學(xué)發(fā)掘
2026-03-14 06:09:37
在醫(yī)院你遭遇過最羞恥的事是什么?網(wǎng)友:一個(gè)比一個(gè)炸裂啊

在醫(yī)院你遭遇過最羞恥的事是什么?網(wǎng)友:一個(gè)比一個(gè)炸裂啊

解讀熱點(diǎn)事件
2026-02-04 00:05:07
小楊阿姨硬氣了!直言去不了臺(tái)灣也沒事,直播賣貨躺著都能掙錢!

小楊阿姨硬氣了!直言去不了臺(tái)灣也沒事,直播賣貨躺著都能掙錢!

小娛樂悠悠
2026-03-14 08:43:22
2026-03-14 09:48:49
華大集團(tuán)BGI
華大集團(tuán)BGI
基因科技造福人類
2213文章數(shù) 1968關(guān)注度
往期回顧 全部

科技要聞

李想為何暫放“執(zhí)念”?

頭條要聞

牛彈琴:美以公開威脅要刺殺 伊朗領(lǐng)導(dǎo)層罕見集體現(xiàn)身

頭條要聞

牛彈琴:美以公開威脅要刺殺 伊朗領(lǐng)導(dǎo)層罕見集體現(xiàn)身

體育要聞

叕戰(zhàn)奧運(yùn),張雨霏要做回“小將”

娛樂要聞

廣電總局公布演員將用姓氏筆畫定番位

財(cái)經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實(shí)力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

房產(chǎn)
教育
手機(jī)
藝術(shù)
家居

房產(chǎn)要聞

不容易?。『?诮K于又要賣地了!

教育要聞

北京通州實(shí)行“校長上講臺(tái)”制度,校長是否上課的理性辨析

手機(jī)要聞

國內(nèi)第一個(gè)手機(jī)版龍蝦!小米Xiaomi miclaw開啟封測用戶申請

藝術(shù)要聞

毛澤東的書法究竟需不需要天賦?看鄧寶珊的信揭曉真相!

家居要聞

藝術(shù)之家 法式優(yōu)雅

無障礙瀏覽 進(jìn)入關(guān)懷版