網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

對話百圖生科張曉明：奪冠是厚積薄發(fā)，虛擬細胞的“AlphaFold時刻”將在3–5年內到來

2025-12-19 18:43:06　來源: 智藥局

四川舉報

分享至

2020年，李彥宏牽頭，跨界成立了百圖生科。

憑借近30年來對AI賦能生命科學的持續(xù)關注，李彥宏堅信，計算能力的提高、基因測序成本的下降，會為生命科學研究帶來新的可能。

而在當時，對于這樣一家“另類”公司，行業(yè)里看熱鬧的很多，看懂的并不多。

出乎很多人意料的是，正是這家初創(chuàng)，在短短數(shù)年間，創(chuàng)造了中國乃至世界AIForLifeScience的奇跡。

2022年和2023年，公司先后發(fā)布xTrimo V1、V2，實現(xiàn)了世界首個千億參數(shù)的生命科學基礎大模型，參數(shù)量較第二名高7倍以上，在數(shù)十個任務上超越行業(yè)達到SOTA水平。

2024年，全新一代生命科學基礎大模型xTrimo V3誕生，參數(shù)拓展至2100億，覆蓋蛋白質、DNA、RNA等七大生命科學主流模態(tài)，在200余個任務中取得SOTA水平。

而傳奇還在繼續(xù)。

近日落幕的全球首屆虛擬細胞挑戰(zhàn)賽（Virtual Cell Challenge）上，百圖生科憑借自主研發(fā)的模型xTrimoSCPerturb，從來自全球114個國家、1200余支隊伍中脫穎而出，奪得冠軍。

面對這一結果，百圖生科副總裁、AI研發(fā)負責人張曉明并不特別驚訝，早在四年之前，百圖生科就已布局虛擬細胞，此次奪冠正是多年深厚積累的回報。

“我們這次參賽并沒有投入特別多額外精力”，張曉明說。

虛擬細胞并非全新概念，但近年來隨著多組學數(shù)據(jù)快速增長以及AI技術的突破，這一領域正醞釀著新一輪爆發(fā)。

展望未來，張曉明認為，虛擬細胞的“AlphaFold時刻”有望在未來3–5年內到來，這個領域與AI蛋白質一樣，有望改變研究范式，具備沖擊諾獎的潛力。

從更大的視角來看，百圖生科構建的多尺度、跨模態(tài)的生命科學基礎模型體系日漸完善。張曉明將其比作“點亮一棵圣誕樹”：從底層分子尺度逐步向上擴展至細胞、組織、器官。

這是一件極具想象力的壯舉，同時也伴隨著巨大的挑戰(zhàn)。

現(xiàn)實中，高質量的數(shù)據(jù)極度稀缺，跨尺度機制尚不清晰，從算法創(chuàng)新到實驗驗證的轉化鏈條既漫長又復雜，令許多科技巨頭知難而退。

針對這些根本性挑戰(zhàn)，百圖生科正逐一探索破解之道，并已在多個具體應用場景中獲得了驗證，贏得了跨國藥企、Biotech等客戶們的高度認可。

百圖生科的發(fā)展歷程，是中國科技企業(yè)在前沿交叉領域中，以長期技術深耕推動范式變革的一個樣本。

透過這篇10000字的訪談，一項前沿技術、一家創(chuàng)新公司、一個新興產(chǎn)業(yè)的輪廓更加清晰。

以下是我們與百圖生科副總裁、AI研發(fā)負責人張曉明的對話。

張世晨：首先恭喜百圖生科獲得全球首屆虛擬細胞挑戰(zhàn)賽的冠軍，參加本屆大賽，團隊最大的收獲是什么？奪得冠軍在你們的預期之中嗎？

張曉明：說實話奪冠超出了我們的預期，因為比賽有很多不確定性，并且全球的競爭對手們都挺強的。

但我們一開始就堅信會取得不錯的成績，因為盡管虛擬細胞挑戰(zhàn)賽今年才首次舉辦，但百圖在該方向上的技術積累始于四年前。早在2021年，我們就已啟動單細胞預訓練大模型的研發(fā)，并著手構建用于靶點擾動預測的專用模型。我們還建立了專門的細胞實驗室，來進行數(shù)據(jù)生產(chǎn)與實驗驗證，形成了模型迭代的閉環(huán)能力。

相較于榮譽，我們最大的收獲是進一步堅定了我們對整體技術戰(zhàn)略方向的判斷，也明確了我們在全球的技術身位，證明了百圖在多業(yè)務并發(fā)的前提下，仍然擁有一支能夠攻堅前沿科研高峰的技術團隊。如果用一個詞來概括這次感受的話，那就是“技術自信”。

張世晨：提到虛擬細胞，很多人還會覺得非常陌生，但其實虛擬細胞并不是一個新鮮的概念，你覺得這個領域再度火熱，與之前有什么不同？

張曉明：虛擬細胞是通過計算的方式，構建一個可以運行、模擬和預測的細胞系統(tǒng)。現(xiàn)在這個概念特別火，背后是AI的推動。

AI虛擬細胞（AIVC）的做法是這樣的：它把基因組、轉錄組、蛋白組等這些多組學數(shù)據(jù)整合起來，建立起一個多模態(tài)、多尺度的統(tǒng)一模型。有了這個模型，就可以模擬各種擾動——比如用藥、敲除某個基因——然后看細胞會怎么反應。更重要的是，它還能結合機制推理和生成式AI，去“預測”出那些尚未被實驗觀測到的細胞狀態(tài)。

說白了，就是用AI來模擬細胞。而一旦我們能把細胞模擬精準，下一步就可以模擬組織、器官。

百圖生科在大模型上的技術布局，和AI虛擬細胞在理念上其實是高度契合的，這也正是我們布局虛擬細胞的原因。

張世晨：虛擬細胞到底能對生物醫(yī)藥帶來什么影響？

張曉明：有了虛擬細胞之后，我覺得藥物研發(fā)范式會發(fā)生根本性的變革，帶來幾個顛覆性影響。

第一，藥物研發(fā)的周期會大幅縮短。

因為虛擬細胞可以在計算空間里完成上千萬次的細胞擾動和機制驗證，直接突破了傳統(tǒng)實驗在通量和成本上的瓶頸。以前可能要花幾個月才能做完的實驗驗證，現(xiàn)在可能幾天、甚至幾小時內就能模擬出來，而且成本也大大降低。

第二，創(chuàng)新藥物的發(fā)現(xiàn)能力會大幅提升。

有了這么高效的“搜索引擎”，我們就可以在超大的化學和生物分子空間里去探索，甚至能找到自然界里根本不存在的分子。這樣一來，不僅能更快地找到新藥，還能發(fā)現(xiàn)一些具有全新作用機制、價值巨大的候選藥物。

第三，可以設計出更復雜、更精準的創(chuàng)新療法。

虛擬細胞的系統(tǒng)框架支持跨尺度、跨時間序列的治療策略設計，過去我們可能只能在某一個分子或某一個細胞層面做干預，那現(xiàn)在我們可以在不同尺度、不同時間序列中設計藥物的組合。最終讓治療策略可以從原來的“單點作用”，進化成一種跨通路、跨細胞、甚至是跨時空的聯(lián)合干預方案。

第四，也是特別關鍵的一點：它能夠幫助跨越藥物研發(fā)中從臨床前到臨床階段的“死亡之谷”。

虛擬細胞再進一步，發(fā)展成虛擬組織、虛擬器官，那么很多原本要等到臨床階段才能驗證的問題——比如毒性、耐藥性等等——其實都可以提前在虛擬系統(tǒng)里預演。

這就相當于在AI里先跑一遍臨床試驗，大幅提高進入真實臨床階段的藥物質量，從而顯著降低后期失敗率和整體研發(fā)成本。

歸根結底，所有這些改變，最終都是為了讓更多的疾病可以被治愈。

張世晨：2024年，百圖發(fā)布了學術版單細胞大規(guī)?；A模型scFoundation，這一重要成果對百圖、對行業(yè)有怎樣的意義？

張曉明：scFoundation的發(fā)布，其實是百圖生科大模型家族版圖中非常關鍵的一塊拼圖。它標志著我們從原來的分子尺度（比如蛋白質）預訓練，正式升級到了細胞尺度的大規(guī)模預訓練。

scFoundation也為后續(xù)構建多模態(tài)、跨尺度的統(tǒng)一模型架構打下了基礎，這項成果已經(jīng)成為我們在AI虛擬細胞中的技術底座。依托它，我們在細胞領域快速構建了包括擾動預測在內的一批效果領先的下游任務模型，并在靶點發(fā)現(xiàn)等實際業(yè)務場景中取得了不錯的進展。

同時，我們已經(jīng)把模型能力和實驗驗證相結合，借助“干濕閉環(huán)”進行持續(xù)迭代和升級。

對整個行業(yè)來說，我們已經(jīng)把scFoundation 的推理能力對外開放，并且開源了它的推理代碼。

這樣一來，就能幫助更多團隊更快地邁入“單細胞預訓練”時代——讓正在快速增長的單細胞多組學數(shù)據(jù)，能夠被更高效地分析、更充分地利用。

scFoundation已成為AI虛擬細胞發(fā)展的一個重要成果，在很多前沿研究中都能看到它的身影。

張世晨：百圖本次參賽的xTrimoSCPerturb模型有哪些核心創(chuàng)新點？相較于其他模型最重要的突破是什么？

張曉明：這是一個非常好的問題。我們這次參賽的模型叫xTrimoSCPerturb，它是一個基于單細胞預訓練構建的擾動預測模型。

它之所以能取得這么好的效果，一個關鍵原因在于：它用到了百圖生科內部尚未對外發(fā)布的xTrimo v4中的兩個全新基礎大模型。

一個是scFoundation的2.0版本。相比上一代，它在模型架構、訓練數(shù)據(jù)規(guī)模和訓練策略上都做了全面優(yōu)化，因此對細胞狀態(tài)和基因表達的表征能力更強。

另一個是我們自研的下一代蛋白質預訓練大模型——xTrimoProteinNext。它能對擾動所涉及的蛋白質序列進行更深層次的理解。

基于這兩個模型，xTrimoSCPerturb實際上構建了一個跨模態(tài)的擾動預測系統(tǒng)。

同時，我們還對擾動數(shù)據(jù)集進行了更精細、更嚴格的質量控制，確保模型能充分吸收大量高質量擾動數(shù)據(jù)中的關鍵信號，并以此指導訓練過程。

可以說，上述創(chuàng)新構成了我們和其他參賽隊伍之間最核心的差異點。

張世晨：訓練xTrimoSCPerturb，百圖用了多久？

張曉明：我們這次參賽并沒有投入特別多額外精力。一個重要的原因在于我們前期已經(jīng)有比較扎實的技術積累——比如scFoundation 2.0和xTrimoProteinNext。

這些底層的高質量、高精度的表征模型，在我們參賽之前就已經(jīng)準備好了。所以比賽期間，我們只需要在這些現(xiàn)成的基礎上，快速構建并訓練一個擾動預測模型就行。

張世晨：本次挑戰(zhàn)賽前三名中除了百圖都是來自高校的團隊，您怎么看學術界和產(chǎn)業(yè)界在虛擬細胞這個領域上的思路差異？各自的側重點有什么不同？

張曉明：如果從發(fā)展階段來看，虛擬細胞目前確實還處于一個以前沿學術探索為主、產(chǎn)業(yè)落地為輔的中間階段。不過有意思的是，在底層技術原理和基礎模型構建的思路上，學術界和產(chǎn)業(yè)界的理解正在越來越趨近。

產(chǎn)業(yè)界因為有明確的業(yè)務落地需求，所以在任務定義、數(shù)據(jù)選擇和模型訓練的整個鏈路中，會更強調清晰的業(yè)務導向。也因此，產(chǎn)業(yè)界通常會優(yōu)先尋找那些能夠形成小閉環(huán)的場景，先跑通、再迭代——通過局部模型的快速驗證和優(yōu)化，一步步夯實能力，最終把整個虛擬細胞的鏈條推向真正可落地、可規(guī)?；瘧玫臓顟B(tài)。

而學術界則更傾向于盡快覆蓋虛擬細胞在不同尺度、不同模態(tài)上的建模能力，哪怕某些環(huán)節(jié)之間的機制推導還不完全連貫，或者暫時無法形成完整閉環(huán)。這種“先鋪開、再填空”的策略，有助于在早期科研布局中搶占先機。

張世晨：您覺得目前虛擬細胞在技術路徑上，是還處于發(fā)散階段，還是已經(jīng)開始出現(xiàn)一些收斂的趨勢了？

張曉明：我覺得虛擬細胞在不同尺度上，其實呈現(xiàn)出不同的狀態(tài)。

比如在分子尺度，大家的技術路徑已經(jīng)比較清晰，理念也相對接近，共識度比較高。

到了細胞尺度，雖然整體還在同一個大的技術方向里，但已經(jīng)開始出現(xiàn)一些分化，會在具體的小方向上做不同的嘗試。

而一旦超出單個細胞，進入細胞間相互作用、微環(huán)境這些層面，不確定性就明顯增加了，方法也開始出現(xiàn)明顯差異。

再往上，到了組織甚至器官層面，目前幾乎還沒有形成清晰的大模型構建路徑。可以說，整個技術路線是從底層到上層，越往上越發(fā)散，在不確定性中逐步探索。

張世晨：百圖怎么定義虛擬細胞的“AlphaFold時刻”，以及我們離這個時刻還有多遠？

張曉明：AlphaFold解決的是一個困擾生物學界幾十年的難題——蛋白質折疊。它不僅預測效率極高，更難得的是，在高效率的同時達到了實驗精度的水平。

所以我們說“AlphaFold時刻”，其實是因為：這是AI第一次在一個明確、可量化、可驗證的生物任務上，實現(xiàn)了質變式的突破，并真正重塑了整個領域的科研與工程范式。

那么對于虛擬細胞來說，我認為，當一個虛擬細胞模型能夠在計算機中持續(xù)、可重復地模擬細胞在關鍵生物學過程中的真實行為，并且這些模擬結果能在實驗中被系統(tǒng)性地驗證——那么，就可以說是虛擬細胞的“AlphaFold時刻”到來了。

目前來看，無論是學術界還是產(chǎn)業(yè)界，大家對這個愿景是有高度共識的，也在積極投入。而技術本身也正在快速演進。

從算法上看，目前生命科學基礎大模型的能力在不斷提升，正快速覆蓋從分子、細胞到組織的不同尺度和多模態(tài)數(shù)據(jù)，模型性能也在持續(xù)增強；并且大家不再只依賴純數(shù)據(jù)驅動的大模型，而是開始把真實的生物機制融入到模型架構和訓練過程中，讓AI 更“懂”生物學。

從數(shù)據(jù)上看，生命科學數(shù)據(jù)本身還在指數(shù)級增長，這和其他領域（比如通用語言模型）很不一樣——我們有非常扎實的數(shù)據(jù)基礎。

更重要的是，行業(yè)對虛擬細胞的態(tài)度，已經(jīng)從“想試試看”變成了“戰(zhàn)略必選項”。

當然，目前全鏈路的虛擬細胞產(chǎn)業(yè)落地還比較少，但在一些局部場景已經(jīng)出現(xiàn)了成功的驗證案例，這對整個領域是很大的鼓舞。

如果按照現(xiàn)在的趨勢發(fā)展下去，我們預計虛擬細胞的“AlphaFold時刻”有望在未來3到5年內到來。

當然，如果我們把愿景放得更遠——比如最終實現(xiàn)虛擬器官——那可能還需要更長時間。

AlphaFold獲得了2024年諾貝爾化學獎，我們也有理由相信，一旦虛擬細胞真正迎來它的“AlphaFold時刻”，同樣會催生諾獎級別的突破。

張世晨：百圖是全球極少數(shù)將虛擬細胞落地產(chǎn)業(yè)應用的公司之一，從探索走向落地，這個過程中最大的障礙是什么？百圖又做了哪些努力？

張曉明：我們總結下來，主要有兩大挑戰(zhàn)：

第一個是數(shù)據(jù)本身的復雜性。

生命科學的數(shù)據(jù)本質上是多組學的——包括基因組、轉錄組、蛋白組等等，而且還是多尺度的：從分子、細胞，到組織、器官，甚至時間維度和空間位置。要在這樣一個高維、異構、稀疏的體系中，把不同來源、不同尺度的數(shù)據(jù)在時間和空間上完全對齊，目前幾乎是不可能的。

雖然局部可能有對齊的數(shù)據(jù)集，但覆蓋全尺度、高質量、大規(guī)模的對齊數(shù)據(jù)仍然極度稀缺。尤其是系統(tǒng)性的擾動數(shù)據(jù)，不僅少，分布也很稀疏。

這構成了虛擬細胞技術落地最基礎、也最現(xiàn)實的瓶頸。

第二個是技術到應用的轉化鏈路太長。

虛擬細胞的整個技術鏈條本身就很長，而一旦要對接真實產(chǎn)業(yè)場景，比如藥物研發(fā)，這個鏈條就更長了。

很難指望一步到位實現(xiàn)從科研到應用的跨越。因此，必須先構建一個小而閉環(huán)的驗證路徑，在有限尺度內完成“預測→實驗驗證→反饋優(yōu)化”的迭代，再逐步擴展到更復雜的模態(tài)和尺度。

針對這兩個挑戰(zhàn)，百圖在過去幾年做了兩方面關鍵嘗試：

首先，在數(shù)據(jù)層面，我們構建了一個跨模態(tài)、跨組學、跨尺度的生命科學知識圖譜。

通過這張圖，不同來源的數(shù)據(jù)——哪怕原始格式完全不同——也能基于生物學關系相互連接，在邏輯上形成一張“可互通”的全景網(wǎng)絡。同時，我們還建立了一個多組學、多模態(tài)的高維向量索引矩陣，讓不同類型的數(shù)據(jù)能在統(tǒng)一的表征空間里進行對齊、檢索、排序和關聯(lián)。這相當于為虛擬細胞打下了一個可計算、可擴展的數(shù)據(jù)底座。

其次，在系統(tǒng)層面，我們打造了單細胞領域的“干濕閉環(huán)”能力。

具體來說，就是用大模型做擾動預測，然后立刻通過自有細胞實驗室進行高通量實驗驗證，再把結果反饋回模型進行迭代優(yōu)化。這個閉環(huán)目前主要在單細胞尺度運行，但我們正在逐步擴展到跨尺度、跨模態(tài)的場景。

正是通過這樣的“小閉環(huán)起步、持續(xù)擴展”的策略，我們才有可能一步步把虛擬細胞從一個科研概念，變成真正能驅動藥物研發(fā)等產(chǎn)業(yè)價值的技術引擎。

張世晨：當百圖用虛擬細胞賦能跨國藥企和Biotech時，客戶的反應如何？

張曉明：反應來說，變化還是蠻大的。

最早我們跟客戶溝通時，更多是向他們解釋什么是虛擬細胞，這項技術能帶來哪些業(yè)務價值，特別是在靶點發(fā)現(xiàn)、藥物設計等關鍵環(huán)節(jié)可能產(chǎn)生的變革。我們也會結合具體場景，詳細說明從技術到落地的路徑規(guī)劃。

但隨著技術不斷成熟，尤其是我們在實際項目中跑通了一些驗證閉環(huán)之后，客戶的認知和態(tài)度發(fā)生了很大轉變。現(xiàn)在，很多海內外客戶非常看好這項技術的落地前景，甚至明確提出：希望利用虛擬細胞，為自己打造一套全新的研發(fā)引擎。

相應地，我們的溝通方式也變了——不再是“要不要用”，而是“為什么是我們”?？蛻魰钊氲貑枺耗銈兊募夹g到底領先在哪里？這其實反映出一個關鍵變化：客戶對虛擬細胞技術本身的認同感越來越強。

張世晨：從蛋白質、DNA、RNA到虛擬細胞，構建覆蓋多生物層級的跨模態(tài)基礎模型體系，是一項極其復雜且全球范圍內都極為稀缺的能力。百圖是如何系統(tǒng)性規(guī)劃并逐步實現(xiàn)這一技術體系的？

張曉明：百圖的大模型體系建設，其實是按照不同生物尺度和不同數(shù)據(jù)模態(tài)，一步一步系統(tǒng)性布局的。同時，在推進過程中，我們也始終結合產(chǎn)業(yè)落地的實際節(jié)奏，確保技術既能前沿，又能實用。

我們的起點是蛋白質。因為蛋白質在抗體藥物等研發(fā)場景中具有最直接的業(yè)務價值，所以首先構建了我們在分子尺度上的第一個預訓練大模型、也是業(yè)內規(guī)模最大的蛋白質大模型——xTrimoProtein。

隨后，我們拓展到了支持超長序列的基因組大模型xTrimoDNA以及集理解與生成于一體的大模型xTrimoRNA。

因為中心法則的存在，對蛋白質、DNA、RNA的建模，能夠幫助增強我們對分子尺度不同模態(tài)的理解，提升了下游任務性能。

到了細胞尺度，我們構建了單細胞預訓練大模型scFoundation，并在此基礎上開發(fā)了擾動預測模型 xTrimoSCPerturb。

可以說，目前我們已經(jīng)初步搭建起一個從分子到細胞、從序列到功能、從靜態(tài)表征到動態(tài)擾動的跨尺度、跨模態(tài)基礎模型體系。而在這過程中，我們也把越來越多的生物機制深度融入到模型之中，更好地提升理解和推理能力。

張世晨：展望未來，這套生命科學基礎大模型體系會有怎樣的想象空間？比如，我們是否可以期待一個真正打通底層、覆蓋所有生物分子乃至整個生命系統(tǒng)的“統(tǒng)一生物大模型”？

張曉明：我覺得是完全可以期待的。打比方來說，整個生命科學大模型體系就像一棵正在被點亮的圣誕樹：最底層是分子尺度——我們已經(jīng)逐步構建了DNA、RNA 和蛋白質的預訓練大模型；往上一層是細胞尺度——通過 scFoundation 這樣的單細胞大模型，我們開始理解細胞的狀態(tài)與行為；再往上，我們會繼續(xù)構建細胞間相互作用的模型，然后是組織、器官。

這就是一個從底層到高層、逐層點亮的過程。而在這個過程中，我們不僅會在同一尺度內，把每個單模態(tài)的模型與其具體應用場景結合起來，形成可落地的小閉環(huán)；還會推動同一尺度下不同模態(tài)之間的協(xié)同，比如整合基因組、轉錄組和蛋白組數(shù)據(jù)，構建多模態(tài)融合的閉環(huán)能力；更進一步，我們也在探索跨尺度、跨模態(tài)的“干濕結合”閉環(huán)，并緊密對接真實的產(chǎn)業(yè)需求，真正實現(xiàn)技術到價值的轉化。

張世晨：在生物領域，跨尺度建模是相當困難的，百圖有哪些好的經(jīng)驗？

張曉明：這次虛擬細胞（VC）挑戰(zhàn)賽中的模型，其實就是一個典型的跨模態(tài)、跨尺度的建模范例。

我們的模型xTrimoSCPerturb 同時融合了兩個關鍵部分：一方面，它調用了蛋白質預訓練大模型（xTrimoProtein），對擾動所涉及的靶點蛋白進行分子尺度的深度表征；另一方面，它又基于 scFoundation 這個單細胞大模型，在細胞尺度上進行模擬。

換句話說，這個模型本質上是在分子尺度和細胞尺度之間架起了一座橋梁——通過聯(lián)合兩種不同尺度、不同模態(tài)的表征能力，實現(xiàn)了更精準的擾動預測。

我們認為，這種能夠在尺度之間建立有效連接的“橋梁型”模型，正是解決生物領域跨尺度建模難題的一個關鍵思路。未來我們也會沿著這個方向，繼續(xù)探索更多跨尺度的協(xié)同方法。

張世晨：百圖過往的實踐已驗證了Scaling Law（規(guī)模法則）在生命科學領域的有效性，而最近AI圈關于ScalingLaw面臨瓶頸的討論越來越多，您是否也觀察到類似的趨勢正在生命科學領域出現(xiàn)？百圖是如何應對的？

張曉明：關于Scaling Law的討論，確實在通用大模型領域已經(jīng)變得非常緊迫，但在生命科學領域，我覺得還是很不一樣的。

因為生命科學的數(shù)據(jù)仍在爆發(fā)式增長。這背后是新一代組學和測序技術的快速進步。比如，單細胞測序的成本在過去十年里從每個細胞幾美元降到了幾美分，而整體數(shù)據(jù)量則增長了近一萬倍。

這意味著，我們離“數(shù)據(jù)飽和”還非常遙遠，Scaling Law在生物領域的瓶頸，至少在可預見的未來，還會來得更晚一些。

但是，通用大模型領域對Scaling Law瓶頸的反思，其實也幫我們提前做了預警。所以百圖現(xiàn)在的策略是“兩手抓”：

一方面，我們仍然在積極擁抱Scaling Law 的紅利——繼續(xù)擴大數(shù)據(jù)規(guī)模、模型參數(shù)，只要數(shù)據(jù)還在高速增長，這一法則就依然有效。但另一方面，我們也在主動探索Scaling Law的“范式升級”，不再只依賴“更大更多”的訓練，而是把重點逐步從訓練階段延伸到推理階段。

更重要的是，生物數(shù)據(jù)本身具有天然的結構和高維性，不像自然語言那樣需要經(jīng)過人類語言的壓縮和簡化。

通用大模型看到的世界，其實是被“翻譯”成人類語言后的版本，存在信息損失；而我們的模型直接處理的是 DNA 序列、RNA 表達譜、蛋白質結構等原始生物信號——這是生命系統(tǒng)最本真的語言。

因此，我們其實在嘗試一件更根本的事：在超高維的微觀尺度上，構建一個盡可能完整的針對生命體的世界模型。

張世晨：按照科學問題和工程問題的劃分，目前看虛擬細胞更像是一個科學問題。那AI蛋白質呢？是不是已經(jīng)變成了一類工程問題？

張曉明：我覺得答案是肯定的。

相比虛擬細胞，AI蛋白質的研發(fā)路徑已經(jīng)非常清晰，落地節(jié)奏也日趨成熟。AI在這里能發(fā)揮的價值，既具體又可衡量。

舉個例子，我們現(xiàn)在可以用蛋白質生成式大模型進行de novo（從頭）蛋白設計。這些設計出的分子，很多已經(jīng)遠遠超出了自然界已知蛋白的空間——這意味著我們能發(fā)現(xiàn)大量傳統(tǒng)實驗方法根本觸及不到的全新候選藥物。

這只是一個起點。在此基礎上，AI還能對每一個設計出的蛋白序列，同時預測多個關鍵屬性——比如親和力、穩(wěn)定性、表達量等。通過這種多目標聯(lián)合優(yōu)化，我們在進入實驗階段之前，就已經(jīng)篩掉大量低潛力分子，只把綜合表現(xiàn)最優(yōu)的一小部分送進濕實驗。

這就解決了傳統(tǒng)藥物研發(fā)中的一個老大難問題：過去常常是先花大量時間優(yōu)化親和力，結果到后期才發(fā)現(xiàn)表達量太低、成藥性差，不得不推倒重來。而現(xiàn)在，我們在設計初期就把這些工程化屬性一并考慮進去，大幅提升了整體成功率。

不僅如此，實驗驗證產(chǎn)生的高質量反饋數(shù)據(jù)，又能回流到模型中，驅動下一輪迭代——形成一個高效、可重復、可擴展的“干濕閉環(huán)”。

所以整體來看，AI蛋白質已經(jīng)不再是“能不能做”的問題，而是“如何做得更快、更好、更省”的工程實踐。

張世晨：本次挑戰(zhàn)賽前三名均為華人團隊，您如何看待這一現(xiàn)象？有哪些因素，促成了中國團隊在AI+生命科學的領先實力？

張曉明：確實，這次比賽的前三名都是華人團隊。雖然比賽結果有一定偶然性，但我覺得這背后并非純粹巧合，而是長期積累和沉淀的必然結果，有這么幾個因素：

首先，中國在生命科學數(shù)據(jù)和前沿技術上的投入非常扎實。近年來，國內在大規(guī)模組學數(shù)據(jù)（比如單細胞測序、空間轉錄組等）的采集能力上快速提升，以高通量實驗平臺為代表的基礎設施為構建高質量、大規(guī)模的生物數(shù)據(jù)底座打下了堅實基礎。

其次，中國在AI大模型領域的發(fā)展勢頭強勁，人才儲備深厚。這一點從國際頂級AI 會議就能看出來——華人作者的占比持續(xù)攀升。

同時，生物產(chǎn)業(yè)在中國正處于高速發(fā)展階段，生物制造、生物醫(yī)藥對AI驅動的新范式有強烈需求，為AI+生命科學提供了天然的快車道。

最后，也是特別重要的一點：AI原生的跨學科人才正在快速崛起?，F(xiàn)在加入科研和產(chǎn)業(yè)一線的年輕一代，很多都是既熟悉AI，又系統(tǒng)學習了生物學知識。

這種既懂AI又懂生命科學的復合型背景，讓他們能真正打通兩個領域的語言，在科研探索和工程落地中不斷帶來突破。我相信，這樣的優(yōu)勢還會在未來持續(xù)放大。

張世晨：百圖始終秉持著科技普惠的價值觀，在推動技術開源和生態(tài)共建方面做了很多工作，未來，百圖還將會有哪些舉措？

張曉明：百圖從構建生命科學基礎大模型起，我們就堅信一個理念：這些底層能力必須走向普惠。

只有當整個行業(yè)都基于大模型的技術底座去創(chuàng)新，上層應用才能加速發(fā)展；而應用端的反饋，又會反哺底層模型持續(xù)迭代——形成一個正向循環(huán)，這樣才能真正賦能產(chǎn)業(yè)。

為此，我們已經(jīng)做了大量開源實踐：無論是蛋白質大模型還是單細胞大模型，我們都已開放源代碼和推理能力。這些開源項目收到了大量開發(fā)者和科研團隊的積極反饋，也幫助我們不斷優(yōu)化模型性能。

不少客戶正是從使用我們的開源模型起步，在內部場景中驗證效果后，逐步建立起對百圖技術的信任，并進一步拓展到業(yè)務合作?？梢哉f，開源不僅是一種分享，更是信任與合作的起點。

面向未來，我們想要打造生命科學發(fā)現(xiàn)的“操作系統(tǒng)”。在這個系統(tǒng)之上，構建數(shù)據(jù)-模型-實驗的全鏈路閉環(huán)能力，嘗試打造一個智能體（Agent）驅動的開放生態(tài)。

在這個生態(tài)中，研究者在便捷調用各類組件的同時，也能貢獻自己的智慧，一起來豐富這個生態(tài)。

我們尤其期待在抗體/蛋白設計、合成生物學等場景，與全球伙伴展開更深度的技術與生態(tài)合作。通過共建共享，一起推動生命科學發(fā)現(xiàn)進入一個更智能、更高效的新階段。

張世晨：科研智能體也是目前非?；馃岬念I域，您怎么看待它的發(fā)展？

張曉明：我覺得它的未來空間非常巨大，但要真正落地，必須建立在一個高質量、全鏈路、且基于生物機制的AI體系之上。

比如，我們之前在知識領域發(fā)布了“發(fā)現(xiàn)助手”，它能幫助用戶高效搜索海量文獻，深入分析某個靶點的研究潛力，甚至自動生成生信分析代碼。這其實是在研究前端提供深度洞察的能力。

未來還有很多工作要做。比如，要實現(xiàn)由智能體驅動的蛋白質設計，這個智能體不僅需要調用強大的生成式大模型來設計分子，還要在多個關鍵屬性上進行多目標協(xié)同優(yōu)化。并且，它得能自動規(guī)劃并驅動后續(xù)的濕實驗，獲取高質量的驗證數(shù)據(jù)，并將這些反饋用于模型的閉環(huán)迭代。

整個過程涉及大量子智能體的緊密協(xié)作，而每一個子智能體所依賴的底層模型，都必須具備足夠高的精度和可靠性，才能最終支撐起端到端的、真正智能化的生命科學發(fā)現(xiàn)流程。

當下的智能體其實很多還停留在用語言驅動工具的階段，但在生命科學領域，工具本身的智能化才是關鍵。

張世晨：過去，生命科學由90%的濕實驗和10%的計算構成，由此催生了市場龐大的生物試劑和實驗設備市場，有觀點認為，未來這一比例將發(fā)生逆轉，變成90%計算+10%濕實驗，您如何看待這一趨勢？

張曉明：我認同這一轉變正在發(fā)生。過去，生命科學是以濕實驗為主，AI或計算部分更多是輔助角色，只在少數(shù)環(huán)節(jié)提供支持，所以才形成了“90%濕實驗 + 10%計算”的格局。

但隨著AI的快速發(fā)展，整個研發(fā)范式正在發(fā)生根本性轉變?，F(xiàn)在，濕實驗的核心目的越來越聚焦于驗證AI設計的效果。甚至很多時候，我們做濕實驗并不是為了直接產(chǎn)出最終答案，而是為了獲取高質量反饋數(shù)據(jù)，用來迭代和優(yōu)化模型。

長遠來看，隨著虛擬細胞技術不斷深入，未來我們可能不僅能模擬單個細胞，還能構建虛擬組織、虛擬器官。到那時，連臨床前乃至部分臨床階段的驗證，都有可能在數(shù)字系統(tǒng)中完成。這樣一來，濕實驗在整個研發(fā)鏈條中的角色，就會從“主導”逐漸轉變?yōu)椤拜o助”，其從屬性會越來越明顯。

所以，計算與實驗比例的此消彼長，是一個必然演進的方向。這個過程或許需要時間，但它一定會發(fā)生。

張世晨：回看您在AI+生命科學領域的經(jīng)歷，一路走來，最大的感悟是什么？

張曉明：我是從2022年開始從通用AI切入AI for Life Science，到現(xiàn)在差不多三年時間?；乜催@段旅程，最大的感受是：我們對 AI 的認知，經(jīng)歷了一個典型的“成長曲線”。

一開始，大家充滿熱情，覺得AI似乎能解決一切科學難題。但很快，現(xiàn)實給了我們一課，面對生命系統(tǒng)的極端復雜性，AI很難直接攻克那些挑戰(zhàn)，于是進入一段反思甚至有些低谷的階段。

而走到今天，我們終于開始精準地知道AI 能解決什么問題、能解決到什么程度，更重要的是，清楚下一步該做什么技術布局，才能讓AI真正發(fā)揮價值。

簡單說，就是從“以為AI無所不能”，到“懷疑AI幾乎什么都不能”，再到如今“知道它能做什么，并且知道如何讓它做得更多”。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.