網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

巴勒斯坦Brains Build Research團(tuán)隊(duì)的模塊化AI突破

2026-04-13 21:42:38　來(lái)源: 至頂AI實(shí)驗(yàn)室

北京舉報(bào)

分享至

這項(xiàng)由巴勒斯坦Brains Build Research團(tuán)隊(duì)主導(dǎo)的研究發(fā)表于2026年4月，論文編號(hào)為arXiv:2604.01152v1，提出了一種名為"Brainstacks"的革命性架構(gòu)。有興趣深入了解的讀者可以通過(guò)該編號(hào)查詢完整論文。

目前的大語(yǔ)言模型就像一個(gè)巨大的圖書(shū)館，所有的書(shū)籍都混在一起，想要添加新書(shū)就必須重新整理整個(gè)圖書(shū)館。當(dāng)你想讓AI既能寫(xiě)代碼又能回答醫(yī)學(xué)問(wèn)題時(shí)，通常需要把所有訓(xùn)練數(shù)據(jù)混合在一起重新訓(xùn)練，這不僅耗時(shí)費(fèi)力，還容易讓模型"忘記"之前學(xué)會(huì)的技能。

研究團(tuán)隊(duì)開(kāi)發(fā)的Brainstacks系統(tǒng)徹底改變了這種局面。它就像建造一棟智能公寓樓，每個(gè)專(zhuān)業(yè)技能都住在獨(dú)立的房間里，需要的時(shí)候可以靈活調(diào)用不同房間的專(zhuān)家來(lái)協(xié)作解決問(wèn)題。更神奇的是，當(dāng)需要新技能時(shí)，只需要添加新房間，而不會(huì)影響其他房間里的專(zhuān)家。

這項(xiàng)研究最令人震驚的發(fā)現(xiàn)是：醫(yī)學(xué)問(wèn)題的最佳解決方案竟然不是調(diào)用醫(yī)學(xué)專(zhuān)家，而是讓聊天專(zhuān)家和數(shù)學(xué)專(zhuān)家聯(lián)手合作，成功率達(dá)到97%。這完全顛覆了人們對(duì)AI學(xué)習(xí)的理解，原來(lái)AI學(xué)習(xí)的不是具體知識(shí)，而是可以跨領(lǐng)域使用的思維能力。

一、模塊化AI的誕生：從單體巨獸到靈活積木

傳統(tǒng)的AI訓(xùn)練就像烘焙一個(gè)巨大的蛋糕，所有原料必須一次性混合烘烤。一旦想要改變口味，就必須重新制作整個(gè)蛋糕。這種方式存在三個(gè)致命問(wèn)題：首先，添加新技能需要從頭開(kāi)始訓(xùn)練，就像重新烘焙整個(gè)蛋糕一樣耗時(shí)耗力；其次，無(wú)法單獨(dú)移除或更新某項(xiàng)技能，就像無(wú)法從烘焙好的蛋糕中單獨(dú)取出某種原料；最后，模型會(huì)對(duì)所有輸入使用全部技能，就像用治療心臟病的藥物來(lái)治療感冒一樣不合適。

Brainstacks的解決方案就像開(kāi)設(shè)一家專(zhuān)業(yè)餐廳，每個(gè)廚師都專(zhuān)精某種菜系，并且可以根據(jù)顧客需求靈活組合不同廚師來(lái)制作菜品。這個(gè)系統(tǒng)的核心是"冷凍的MoE-LoRA堆棧"，聽(tīng)起來(lái)很復(fù)雜，但本質(zhì)就像冷凍保存專(zhuān)業(yè)廚師的技能。每當(dāng)訓(xùn)練完成一個(gè)領(lǐng)域的技能后，就將其"冷凍"保存，確保這些技能永遠(yuǎn)不會(huì)退化或遺忘。

這種架構(gòu)有五個(gè)關(guān)鍵組件協(xié)同工作。首先是MoE-LoRA構(gòu)建模塊，就像一個(gè)智能分配器，能夠在四個(gè)專(zhuān)家中選擇最合適的兩個(gè)來(lái)處理每個(gè)具體任務(wù)，并且采用4位量化技術(shù)大幅減少內(nèi)存占用。其次是內(nèi)循環(huán)系統(tǒng)，通過(guò)"殘差提升"技術(shù)讓多個(gè)專(zhuān)家疊加工作，第一個(gè)專(zhuān)家處理主要問(wèn)題，第二個(gè)專(zhuān)家處理第一個(gè)專(zhuān)家遺漏的細(xì)節(jié)，如此反復(fù)直到達(dá)到最佳效果。

外循環(huán)系統(tǒng)負(fù)責(zé)按照精心設(shè)計(jì)的順序訓(xùn)練不同領(lǐng)域，就像學(xué)習(xí)語(yǔ)言一樣，先掌握基本語(yǔ)法再學(xué)習(xí)專(zhuān)業(yè)詞匯。接下來(lái)是零空間投影技術(shù)，這是一個(gè)數(shù)學(xué)上的巧妙設(shè)計(jì)，確保新技能的訓(xùn)練不會(huì)干擾已有技能，就像在已有的房間旁邊建造新房間時(shí)，不會(huì)影響原有房間的結(jié)構(gòu)。最后是結(jié)果導(dǎo)向的元路由器，這個(gè)智能調(diào)度系統(tǒng)通過(guò)實(shí)際測(cè)試發(fā)現(xiàn)最佳的技能組合方式，而不是簡(jiǎn)單地按照標(biāo)簽分類(lèi)。

研究團(tuán)隊(duì)還進(jìn)行了兩個(gè)邊界實(shí)驗(yàn)來(lái)驗(yàn)證架構(gòu)的適用性。一個(gè)是在隨機(jī)初始化的模型上進(jìn)行預(yù)訓(xùn)練實(shí)驗(yàn)，測(cè)試架構(gòu)是否需要預(yù)訓(xùn)練基礎(chǔ)；另一個(gè)是領(lǐng)域強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)，驗(yàn)證這種堆疊方式是否與后續(xù)的對(duì)齊訓(xùn)練兼容。

二、技術(shù)核心：讓AI專(zhuān)家學(xué)會(huì)協(xié)作的秘密

MoE-LoRA構(gòu)建模塊是整個(gè)系統(tǒng)的基礎(chǔ)，它的工作原理就像一個(gè)智能餐廳的點(diǎn)菜系統(tǒng)。當(dāng)客戶下單時(shí)，系統(tǒng)不是讓所有廚師都參與制作，而是從四個(gè)專(zhuān)業(yè)廚師中選擇最合適的兩個(gè)來(lái)協(xié)作完成菜品。每個(gè)專(zhuān)家都由兩個(gè)低秩矩陣組成，就像每個(gè)廚師都有自己的專(zhuān)用工具箱，這些工具通過(guò)特殊的縮放因子進(jìn)行優(yōu)化，確保新加入的廚師不會(huì)在一開(kāi)始就破壞菜品質(zhì)量。

系統(tǒng)采用了Shazeer風(fēng)格的噪聲路由機(jī)制，這就像給點(diǎn)菜系統(tǒng)增加一些隨機(jī)性，防止總是選擇同樣的廚師組合。在訓(xùn)練期間，系統(tǒng)會(huì)故意引入一些"噪聲"來(lái)鼓勵(lì)嘗試不同的專(zhuān)家組合，就像鼓勵(lì)顧客偶爾嘗試新的菜品搭配一樣。在實(shí)際使用時(shí)，這種噪聲會(huì)被關(guān)閉，確保系統(tǒng)選擇最可靠的專(zhuān)家組合。

更令人印象深刻的是，這個(gè)系統(tǒng)應(yīng)用到了transformer的全部七個(gè)關(guān)鍵部分，包括注意力機(jī)制的四個(gè)投影（查詢、鍵、值、輸出）和前饋網(wǎng)絡(luò)的三個(gè)投影（門(mén)控、上升、下降）。這相當(dāng)于給餐廳的每個(gè)工作環(huán)節(jié)都配備了專(zhuān)業(yè)團(tuán)隊(duì)，從接待客人、準(zhǔn)備原料到烹飪和擺盤(pán)，每個(gè)步驟都有專(zhuān)門(mén)的專(zhuān)家負(fù)責(zé)。

堆疊式管理層負(fù)責(zé)協(xié)調(diào)所有專(zhuān)家的工作。它就像一個(gè)經(jīng)驗(yàn)豐富的餐廳經(jīng)理，知道如何將不同專(zhuān)家的技能組合起來(lái)。已經(jīng)"冷凍"的專(zhuān)家技能被永久保存，不再改變，就像資深廚師的經(jīng)典菜譜一樣穩(wěn)定可靠。只有當(dāng)前正在訓(xùn)練的專(zhuān)家會(huì)接受新的學(xué)習(xí)和調(diào)整。為了節(jié)省資源，已冷凍的專(zhuān)家平時(shí)存儲(chǔ)在CPU內(nèi)存中，只有需要時(shí)才臨時(shí)調(diào)用到GPU進(jìn)行計(jì)算。

三、雙環(huán)訓(xùn)練：內(nèi)外兼修的學(xué)習(xí)策略

Brainstacks采用了一種獨(dú)特的雙環(huán)訓(xùn)練策略，就像培養(yǎng)一個(gè)全能運(yùn)動(dòng)員，既要在單項(xiàng)技能上精益求精，又要在不同項(xiàng)目間找到最佳組合。內(nèi)環(huán)專(zhuān)注于單個(gè)領(lǐng)域的深度優(yōu)化，外環(huán)則負(fù)責(zé)跨領(lǐng)域的協(xié)調(diào)發(fā)展。

內(nèi)環(huán)的"殘差提升"技術(shù)特別巧妙。第一個(gè)專(zhuān)家學(xué)會(huì)了領(lǐng)域的基礎(chǔ)技能后被冷凍保存，然后添加第二個(gè)專(zhuān)家來(lái)學(xué)習(xí)第一個(gè)專(zhuān)家沒(méi)有掌握的細(xì)節(jié)。這就像學(xué)習(xí)鋼琴，第一遍練習(xí)掌握基本旋律，第二遍練習(xí)加入情感表達(dá)，第三遍練習(xí)完善技巧細(xì)節(jié)。每一輪都在前一輪的基礎(chǔ)上補(bǔ)充完善，而不是重新開(kāi)始。

這種方法的效果非常顯著。在聊天領(lǐng)域的測(cè)試中，單個(gè)專(zhuān)家的表現(xiàn)會(huì)在某個(gè)水平上停滯不前，但通過(guò)殘差提升，系統(tǒng)能夠突破這個(gè)"天花板"，在三輪訓(xùn)練后實(shí)現(xiàn)2.4%的相對(duì)改進(jìn)。每一輪都會(huì)增加約5300萬(wàn)個(gè)參數(shù)的專(zhuān)家網(wǎng)絡(luò)，這些專(zhuān)家學(xué)會(huì)了前面專(zhuān)家遺漏的技能點(diǎn)。

系統(tǒng)還配備了智能監(jiān)控機(jī)制，就像健身教練一樣監(jiān)督訓(xùn)練過(guò)程。當(dāng)發(fā)現(xiàn)某輪訓(xùn)練的改進(jìn)幅度小于預(yù)設(shè)閾值（0.002）時(shí)，系統(tǒng)會(huì)自動(dòng)停止繼續(xù)添加專(zhuān)家，避免浪費(fèi)資源。同時(shí)，最佳狀態(tài)回調(diào)機(jī)制會(huì)持續(xù)監(jiān)控訓(xùn)練質(zhì)量，一旦發(fā)現(xiàn)性能下降就立即恢復(fù)到之前的最佳狀態(tài)，確保每個(gè)被冷凍的專(zhuān)家都是高質(zhì)量的。

外環(huán)的訓(xùn)練順序經(jīng)過(guò)精心設(shè)計(jì)，就像學(xué)習(xí)語(yǔ)言一樣遵循從基礎(chǔ)到高級(jí)的規(guī)律。聊天技能作為第一個(gè)訓(xùn)練領(lǐng)域，為所有后續(xù)技能提供指令遵循和輸出格式化的基礎(chǔ)能力。代碼技能緊隨其后，引入結(jié)構(gòu)化和程序性思維模式。數(shù)學(xué)技能在第三位，受益于代碼的計(jì)算思維和聊天的解釋結(jié)構(gòu)。醫(yī)學(xué)技能排在第四位，能夠運(yùn)用前面學(xué)到的數(shù)學(xué)計(jì)算、聊天交流和代碼邏輯。推理技能最后訓(xùn)練，作為綜合所有前述領(lǐng)域的元技能。

四、零空間投影：確保技能永不沖突的數(shù)學(xué)魔法

零空間投影技術(shù)是Brainstacks最精妙的設(shè)計(jì)之一，它就像在一個(gè)多維空間中為每個(gè)專(zhuān)家劃分專(zhuān)屬領(lǐng)域，確保他們永遠(yuǎn)不會(huì)相互干擾。這種技術(shù)的數(shù)學(xué)原理雖然復(fù)雜，但可以用一個(gè)簡(jiǎn)單的比喻來(lái)理解：假設(shè)整個(gè)技能空間是一張巨大的畫(huà)布，每個(gè)領(lǐng)域的專(zhuān)家都在上面作畫(huà)，零空間投影就是確保每個(gè)專(zhuān)家只能在自己的區(qū)域作畫(huà)，不會(huì)覆蓋其他專(zhuān)家的作品。

具體實(shí)現(xiàn)過(guò)程就像考古學(xué)家的精確發(fā)掘工作。系統(tǒng)首先運(yùn)行400個(gè)來(lái)自已訓(xùn)練領(lǐng)域的驗(yàn)證樣本，收集所有已凍結(jié)專(zhuān)家在每一層的輸出增量。這些數(shù)據(jù)被組織成矩陣形式，然后通過(guò)奇異值分解（SVD）技術(shù)找出主要的64個(gè)方向，這些方向代表了已有專(zhuān)家占用的"空間"。

接下來(lái)的投影過(guò)程就像建筑師在設(shè)計(jì)新房間時(shí)避開(kāi)已有的承重墻。當(dāng)新專(zhuān)家產(chǎn)生輸出時(shí)，系統(tǒng)會(huì)計(jì)算這個(gè)輸出與已有專(zhuān)家方向的重疊部分，然后將這部分完全移除，確保新專(zhuān)家只能在剩余的"空白區(qū)域"發(fā)揮作用。這種約束是通過(guò)純粹的線性代數(shù)實(shí)現(xiàn)的硬約束，不是軟性的正則化懲罰，因此能夠提供數(shù)學(xué)上的嚴(yán)格保證。

這種方法在TinyLlama和Gemma 3 12B的實(shí)驗(yàn)中都證明了其有效性。對(duì)于Gemma 3 12B的3840維隱藏空間，每個(gè)領(lǐng)域占用64個(gè)方向只使用了1.7%的空間，理論上可以支持50多個(gè)領(lǐng)域而不出現(xiàn)容量問(wèn)題。在更大規(guī)模的模型中，比如70B參數(shù)的模型通常有8192維隱藏空間，可以支持超過(guò)100個(gè)領(lǐng)域的共存。

實(shí)驗(yàn)數(shù)據(jù)顯示，使用零空間投影后，所有領(lǐng)域的干擾都顯著減少。在代碼訓(xùn)練完成后，聊天領(lǐng)域的驗(yàn)證損失從1.507降低到1.477。在醫(yī)學(xué)訓(xùn)練后，醫(yī)學(xué)領(lǐng)域本身的改進(jìn)最為顯著，損失減少了0.116。數(shù)學(xué)訓(xùn)練后，所有四個(gè)領(lǐng)域都受益，其中數(shù)學(xué)領(lǐng)域自身改進(jìn)最大，損失減少了0.143，相當(dāng)于12.1%的相對(duì)改進(jìn)。

五、元路由器：發(fā)現(xiàn)跨領(lǐng)域協(xié)作的智能調(diào)度員

元路由器是整個(gè)Brainstacks系統(tǒng)中最具創(chuàng)新性的組件，它的工作方式完全顛覆了傳統(tǒng)的分類(lèi)思維。傳統(tǒng)方法就像圖書(shū)管理員，看到醫(yī)學(xué)書(shū)就放到醫(yī)學(xué)區(qū)，看到編程書(shū)就放到計(jì)算機(jī)區(qū)。但元路由器更像一個(gè)經(jīng)驗(yàn)豐富的私人導(dǎo)師，它不關(guān)心問(wèn)題的表面標(biāo)簽，而是測(cè)試哪種技能組合能最好地解決具體問(wèn)題。

這個(gè)路由器的架構(gòu)相當(dāng)精巧，包含約200萬(wàn)個(gè)參數(shù)的神經(jīng)網(wǎng)絡(luò)，能夠接收提示的深層語(yǔ)義特征。它使用中間層和最后層隱藏狀態(tài)的加權(quán)平均作為輸入，權(quán)重比例為0.45和0.55，就像結(jié)合短期記憶和長(zhǎng)期理解來(lái)做決策。網(wǎng)絡(luò)內(nèi)部采用學(xué)習(xí)查詢注意力機(jī)制獲取全局上下文，然后通過(guò)交叉注意力機(jī)制為每個(gè)領(lǐng)域生成專(zhuān)門(mén)的上下文表示。

最關(guān)鍵的是，這個(gè)路由器輸出獨(dú)立的sigmoid概率而不是傳統(tǒng)的softmax分布。這意味著它可以同時(shí)激活多個(gè)領(lǐng)域進(jìn)行協(xié)作，就像一個(gè)指揮家可以讓小提琴、鋼琴和大提琴同時(shí)演奏，而不是只能選擇其中一種樂(lè)器。每個(gè)領(lǐng)域都有獨(dú)立的激活概率，從0到1之間任意取值，真正實(shí)現(xiàn)了跨領(lǐng)域組合。

元路由器的訓(xùn)練過(guò)程是整個(gè)研究最令人驚嘆的部分。研究團(tuán)隊(duì)開(kāi)發(fā)了"結(jié)果發(fā)現(xiàn)"機(jī)制，對(duì)每個(gè)提示-答案對(duì)進(jìn)行詳盡的組合測(cè)試。系統(tǒng)首先計(jì)算基礎(chǔ)模型的損失，然后測(cè)試所有五個(gè)領(lǐng)域的單獨(dú)性能，接著貪婪搜索最佳的領(lǐng)域組合，每次添加能夠顯著降低損失（超過(guò)0.01閾值）的領(lǐng)域。對(duì)于推理領(lǐng)域，系統(tǒng)采用軟增強(qiáng)策略，只要添加推理能帶來(lái)任何改進(jìn)就將目標(biāo)設(shè)為0.5而不是1.0，避免低估其微妙貢獻(xiàn)。

訓(xùn)練目標(biāo)巧妙地融合了發(fā)現(xiàn)的最優(yōu)組合（80%權(quán)重）和原始標(biāo)簽（20%權(quán)重），使用二元交叉熵?fù)p失和置信度邊際懲罰，推動(dòng)預(yù)測(cè)向明確的是非決策靠攏。訓(xùn)練數(shù)據(jù)按照唯一提示進(jìn)行分割，防止數(shù)據(jù)泄露，經(jīng)過(guò)8個(gè)周期的余弦學(xué)習(xí)率調(diào)度。最佳檢查點(diǎn)通過(guò)綜合評(píng)分選擇：50%單領(lǐng)域頂級(jí)準(zhǔn)確率，35%混合集匹配率，減去15%驗(yàn)證BCE損失。

六、震撼發(fā)現(xiàn)：AI學(xué)的是思維模式而非具體知識(shí)

這項(xiàng)研究最令人震撼的發(fā)現(xiàn)完全顛覆了人們對(duì)AI學(xué)習(xí)本質(zhì)的理解。當(dāng)研究團(tuán)隊(duì)測(cè)試醫(yī)學(xué)問(wèn)題的最佳解決方案時(shí)，結(jié)果讓所有人大跌眼鏡：97%的醫(yī)學(xué)問(wèn)題最好的解決方案不是使用醫(yī)學(xué)專(zhuān)家，而是讓聊天專(zhuān)家和數(shù)學(xué)專(zhuān)家聯(lián)手合作。這就像發(fā)現(xiàn)治療疾病最好的醫(yī)生不是專(zhuān)業(yè)醫(yī)生，而是一個(gè)善于溝通的數(shù)學(xué)家。

研究團(tuán)隊(duì)仔細(xì)驗(yàn)證了這個(gè)結(jié)果的可靠性。他們確認(rèn)UltraFeedback數(shù)據(jù)集中沒(méi)有醫(yī)學(xué)閃卡內(nèi)容，GSM8K數(shù)據(jù)集中也沒(méi)有臨床內(nèi)容，完全排除了數(shù)據(jù)泄露的可能性。那么，從未接觸過(guò)醫(yī)學(xué)數(shù)據(jù)的聊天和數(shù)學(xué)專(zhuān)家為什么能在醫(yī)學(xué)問(wèn)題上表現(xiàn)出色呢？答案令人深思：這些專(zhuān)家學(xué)會(huì)的不是具體的醫(yī)學(xué)知識(shí)，而是可遷移的認(rèn)知能力。

聊天專(zhuān)家掌握了清晰的答案結(jié)構(gòu)化、指令遵循和解釋格式化能力，這些技能不局限于閑聊對(duì)話，而是普適的交流能力。數(shù)學(xué)專(zhuān)家學(xué)會(huì)了數(shù)值推理和逐步計(jì)算能力，這種能力同樣適用于醫(yī)學(xué)中的劑量計(jì)算和定量分析。代碼專(zhuān)家掌握了程序性邏輯、順序分解和結(jié)構(gòu)化輸出，這種思維模式在處理任何需要邏輯推理的問(wèn)題時(shí)都很有用。

推理專(zhuān)家更是特殊，它從不獨(dú)立工作，總是與其他專(zhuān)家組合，100%表現(xiàn)出跨領(lǐng)域特性。它學(xué)會(huì)了思維鏈分解，這是一種元認(rèn)知能力，能夠增強(qiáng)任何其他專(zhuān)家的表現(xiàn)。

這個(gè)發(fā)現(xiàn)徹底重新定義了微調(diào)的本質(zhì)。傳統(tǒng)觀念認(rèn)為微調(diào)是在向模型注入領(lǐng)域知識(shí)，就像往圖書(shū)館添加新書(shū)。但Brainstacks的證據(jù)表明，微調(diào)實(shí)際上是在注入可組合的認(rèn)知能力，這些能力恰好通過(guò)特定領(lǐng)域的訓(xùn)練數(shù)據(jù)被激發(fā)出來(lái)，但本質(zhì)上是跨領(lǐng)域通用的思維工具。

為了進(jìn)一步驗(yàn)證這個(gè)發(fā)現(xiàn)，研究團(tuán)隊(duì)進(jìn)行了一個(gè)控制實(shí)驗(yàn)。他們使用PSN v2架構(gòu)，在只訓(xùn)練過(guò)兒童故事的基礎(chǔ)模型上測(cè)試相同現(xiàn)象。這個(gè)基礎(chǔ)模型從未見(jiàn)過(guò)Python語(yǔ)法、醫(yī)學(xué)術(shù)語(yǔ)或數(shù)學(xué)符號(hào)。當(dāng)系統(tǒng)正確激活代碼專(zhuān)家處理"編寫(xiě)Python函數(shù)反轉(zhuǎn)字符串"的請(qǐng)求時(shí)，模型產(chǎn)生了令人驚訝的輸出：雖然使用的完全是兒童故事的詞匯，但展現(xiàn)出了Python函數(shù)的結(jié)構(gòu)模式，包括def關(guān)鍵字、縮進(jìn)塊和冒號(hào)語(yǔ)句。

這個(gè)結(jié)果徹底排除了預(yù)訓(xùn)練基礎(chǔ)模型已有代碼知識(shí)的影響。TinyStories基礎(chǔ)模型沒(méi)有任何Python訓(xùn)練數(shù)據(jù)，但代碼能力塊學(xué)會(huì)了代碼的結(jié)構(gòu)模式，并通過(guò)唯一可用的詞匯表達(dá)出來(lái)。這獨(dú)立證實(shí)了核心發(fā)現(xiàn)：領(lǐng)域?qū)＜揖幋a的是可遷移的認(rèn)知原語(yǔ)，而不是領(lǐng)域特定的知識(shí)。

七、跨領(lǐng)域協(xié)作：AI的隱式工具使用能力

當(dāng)推理領(lǐng)域作為最后一個(gè)訓(xùn)練項(xiàng)目，推理提示路由到聊天、代碼和推理的組合時(shí)，這些專(zhuān)家不是在執(zhí)行順序工具調(diào)用，而是在同一隱藏狀態(tài)上并行工作。代碼專(zhuān)家學(xué)會(huì)的結(jié)構(gòu)化邏輯注意力模式在隱藏狀態(tài)中處于活躍狀態(tài)，同時(shí)推理專(zhuān)家驅(qū)動(dòng)逐步生成過(guò)程。

這種現(xiàn)象可以理解為"知識(shí)即思維"而非"知識(shí)即行動(dòng)"。傳統(tǒng)工具使用在詞元級(jí)別操作，生成工具調(diào)用指令、接收響應(yīng)、然后繼續(xù)。Brainstacks在表征級(jí)別操作，模型的內(nèi)部隱藏狀態(tài)同時(shí)被多個(gè)專(zhuān)家塑造，產(chǎn)生隱式能力組合，無(wú)需顯式的工具使用訓(xùn)練。

這種發(fā)現(xiàn)對(duì)理解AI的能力組合機(jī)制具有重要意義。元路由器通過(guò)損失測(cè)量發(fā)現(xiàn)這些組合，而不是通過(guò)手工制作的工具描述，表明智能體能力選擇可以作為損失最小化的涌現(xiàn)特性出現(xiàn)在凍結(jié)能力模塊上。

研究團(tuán)隊(duì)觀察到的三階段結(jié)果最清楚地證明了元路由器的必要性。在聊天領(lǐng)域完成2個(gè)專(zhuān)家后，生成質(zhì)量完美，神經(jīng)網(wǎng)絡(luò)解釋連貫，反轉(zhuǎn)字符串產(chǎn)生正確的s[::-1]，醫(yī)學(xué)癥狀包含正確術(shù)語(yǔ)，數(shù)學(xué)計(jì)算產(chǎn)生60公里每小時(shí)的準(zhǔn)確答案。

但在10個(gè)專(zhuān)家未門(mén)控狀態(tài)下，出現(xiàn)了災(zāi)難性退化。數(shù)學(xué)專(zhuān)家的激進(jìn)思維模式開(kāi)始主導(dǎo)輸出，反轉(zhuǎn)字符串觸發(fā)關(guān)于排列的數(shù)學(xué)推理，訓(xùn)練速度問(wèn)題產(chǎn)生關(guān)于極限和變量的無(wú)意義輸出，500毫克/3劑量的醫(yī)學(xué)問(wèn)題產(chǎn)生關(guān)于"可能解決方案"的混亂漫談。10個(gè)同時(shí)激活的專(zhuān)家的幅度累積淹沒(méi)了連貫輸出。

而在應(yīng)用元路由器后，生成質(zhì)量恢復(fù)正常。非數(shù)學(xué)提示關(guān)閉數(shù)學(xué)專(zhuān)家，非代碼提示關(guān)閉代碼專(zhuān)家。路由器的sigmoid輸出選擇性地激活相關(guān)領(lǐng)域?qū)＜?，防止跨領(lǐng)域干擾，同時(shí)在有益時(shí)保留跨領(lǐng)域組合能力，比如BMI計(jì)算會(huì)激活醫(yī)學(xué)1.0、數(shù)學(xué)1.0、聊天0.59。

八、實(shí)驗(yàn)驗(yàn)證：從理論到實(shí)踐的全面測(cè)試

研究團(tuán)隊(duì)在兩個(gè)不同規(guī)模的模型上進(jìn)行了全面驗(yàn)證：TinyLlama-1.1B（4個(gè)領(lǐng)域，9個(gè)專(zhuān)家）和Gemma 3 12B IT（5個(gè)領(lǐng)域，10個(gè)專(zhuān)家）。實(shí)驗(yàn)設(shè)計(jì)非常嚴(yán)密，既驗(yàn)證了單個(gè)組件的有效性，也測(cè)試了整個(gè)系統(tǒng)的綜合性能。

首先驗(yàn)證MoE-LoRA構(gòu)建塊的基礎(chǔ)性能。在TinyLlama-1.1B上，使用4位量化，對(duì)比了MoE-LoRA（4個(gè)專(zhuān)家，rank=16，總共53.6M參數(shù)）與參數(shù)匹配的單一LoRA（rank=64，50.5M參數(shù)）。兩者使用完全相同的超參數(shù)：批次大小16，400步，學(xué)習(xí)率2×10??。結(jié)果顯示MoE-LoRA實(shí)現(xiàn)了略低的最終驗(yàn)證損失（0.872 vs 0.874），盡管訓(xùn)練損失看起來(lái)更高，但這是因?yàn)檩o助負(fù)載平衡損失被加到交叉熵?fù)p失中的偽象。

更重要的發(fā)現(xiàn)是收斂速度：MoE-LoRA在驗(yàn)證損失每步方面收斂快2.5倍，在約160步時(shí)達(dá)到單一LoRA 400步的最終性能。雖然MoE-LoRA訓(xùn)練慢2倍（20.2分鐘 vs 9.5分鐘），這是由于每詞元路由計(jì)算和4專(zhuān)家評(píng)估的開(kāi)銷(xiāo)，但更快的收斂提供了訓(xùn)練效率優(yōu)勢(shì)。

TinyLlama多領(lǐng)域持續(xù)學(xué)習(xí)實(shí)驗(yàn)訓(xùn)練了4個(gè)領(lǐng)域：聊天（tatsu-lab/alpaca，約52K樣本）、代碼（python_code_instructions_18k_alpaca，約18K樣本）、醫(yī)學(xué)（medalpaca閃卡，約33K樣本）、數(shù)學(xué)（GSM8K，約7.3K樣本）。內(nèi)環(huán)殘差提升最多3輪，外環(huán)持續(xù)堆疊，零空間投影使用200個(gè)樣本和32個(gè)頂級(jí)方向。

訓(xùn)練結(jié)果顯示了內(nèi)環(huán)殘差提升的持續(xù)效果：聊天領(lǐng)域3個(gè)專(zhuān)家（損失：2.587→1.305→1.303），代碼顯示最戲劇性改進(jìn)（0.953→0.505→0.493），醫(yī)學(xué)和數(shù)學(xué)各訓(xùn)練2輪。高原檢測(cè)（最小損失增量0.002）正確終止了代碼、醫(yī)學(xué)和數(shù)學(xué)的第3輪，其中進(jìn)一步的專(zhuān)家將提供可忽略的收益。

為了驗(yàn)證零空間投影的效果，研究團(tuán)隊(duì)比較了有無(wú)零空間保護(hù)的運(yùn)行。在所有訓(xùn)練階段，零空間投影持續(xù)減少了先前訓(xùn)練領(lǐng)域的干擾。醫(yī)學(xué)訓(xùn)練后，最大的單次改進(jìn)在醫(yī)學(xué)本身（-0.116），聊天顯示小幅減少（-0.015），代碼基本不變（+0.002）。數(shù)學(xué)訓(xùn)練后，所有四個(gè)領(lǐng)域都受益：聊天-0.061，代碼-0.060，醫(yī)學(xué)-0.082，數(shù)學(xué)-0.143。

九、大規(guī)模驗(yàn)證：在Gemma 3 12B上的突破性表現(xiàn)

研究團(tuán)隊(duì)將Brainstacks擴(kuò)展到更大規(guī)模的Gemma 3 12B IT模型，這是一個(gè)已經(jīng)經(jīng)過(guò)指令調(diào)優(yōu)的高能力基礎(chǔ)模型。在這種情況下，Brainstacks的價(jià)值不是教授模型新知識(shí)，而是提供結(jié)構(gòu)化的能力增強(qiáng)，讓12B參數(shù)中包含但無(wú)法可靠激活的能力得以發(fā)揮。

實(shí)驗(yàn)配置采用4位NF4量化，SDPA注意力，在Colab G4 96GB上運(yùn)行。五個(gè)領(lǐng)域包括：聊天（Nemotron v2 + UltraFeedback + Daring-Anteater，約40K樣本）、代碼（Python 18k + Nemotron代碼 + OpenCodeReasoning + OpenThoughts代碼過(guò)濾，約48K）、數(shù)學(xué)（GSM8K + OpenMathReasoning CoT + NuminaMath + Nemotron數(shù)學(xué)，約53K）、醫(yī)學(xué)（MedQA USMLE + medical-o1-reasoning-SFT + PubMedQA，約20K）、推理（OpenThoughts-114k + Nemotron STEM + Sky-T1 + OpenMathReasoning工具集成，約50K）。

訓(xùn)練過(guò)程中出現(xiàn)了一些有趣的現(xiàn)象。聊天領(lǐng)域訓(xùn)練2個(gè)專(zhuān)家，驗(yàn)證損失1.021，第2個(gè)專(zhuān)家在首次評(píng)估時(shí)從1.02飆升到2.64，BestStackCallback正確觸發(fā)早停和權(quán)重恢復(fù)。代碼和數(shù)學(xué)領(lǐng)域訓(xùn)練順利，但數(shù)學(xué)訓(xùn)練后生成質(zhì)量出現(xiàn)退化：數(shù)學(xué)專(zhuān)家從OpenMathReasoning和NuminaMath學(xué)會(huì)了激進(jìn)的思維推理模式，在非數(shù)學(xué)提示上壓倒了聊天和代碼專(zhuān)家。

醫(yī)學(xué)領(lǐng)域的訓(xùn)練經(jīng)歷了數(shù)據(jù)集迭代。初始使用medalpaca閃卡由于短小重復(fù)樣本在50步內(nèi)過(guò)擬合，被替換為MedQA（多選題，強(qiáng)制推理）、medical-o1-reasoning（思維鏈）和PubMedQA（研究多樣性），最終驗(yàn)證損失1.38。

推理領(lǐng)域作為元技能訓(xùn)練，但數(shù)據(jù)敏感性很高：OpenThoughts在格式上嚴(yán)重類(lèi)似代碼，后來(lái)導(dǎo)致元路由器將推理信號(hào)與代碼信號(hào)混淆。這直接促成了從v1到v2路由器的迭代改進(jìn)。

零基線評(píng)估測(cè)試顯示了混合結(jié)果，但關(guān)鍵觀察是路由系統(tǒng)在任何基準(zhǔn)上都沒(méi)有災(zāi)難性退化。在200樣本的限制下，差異0.02-0.03落在采樣噪聲范圍內(nèi)，但元路由器的選擇性門(mén)控保持了基礎(chǔ)模型性能，同時(shí)增加了領(lǐng)域特定能力。

十、技術(shù)局限與未來(lái)展望：模塊化AI的挑戰(zhàn)與機(jī)遇

盡管Brainstacks展現(xiàn)了令人印象深刻的性能，但研究團(tuán)隊(duì)誠(chéng)實(shí)地指出了幾個(gè)重要局限性。首先是推理開(kāi)銷(xiāo)，每個(gè)詞元都要流過(guò)所有加載的凍結(jié)專(zhuān)家，每次從CPU傳輸一個(gè)專(zhuān)家。對(duì)于10個(gè)專(zhuān)家、每個(gè)567MB的配置，這為每個(gè)生成步驟增加了延遲。生產(chǎn)部署將受益于持久GPU駐留、內(nèi)核融合或潛在空間壓縮技術(shù)。

隱藏維度容量上限是另一個(gè)考慮因素。每個(gè)領(lǐng)域聲明64個(gè)零空間方向，消耗Gemma 3 12B IT的3840維空間的約1.7%。在50個(gè)以上領(lǐng)域時(shí)，容量可能成為問(wèn)題，盡管在70B+模型規(guī)模（8192隱藏維）下，超過(guò)100個(gè)領(lǐng)域可以共存。

路由器訓(xùn)練數(shù)據(jù)敏感性通過(guò)v1到v2推理迭代暴露出來(lái)，顯示元路由器的質(zhì)量嚴(yán)重依賴于匹配訓(xùn)練數(shù)據(jù)特征與每個(gè)領(lǐng)域?qū)＜业膶W(xué)習(xí)信號(hào)。推理數(shù)據(jù)中的代碼類(lèi)格式污染了路由信號(hào)，直到用純語(yǔ)言來(lái)源替換。

預(yù)訓(xùn)練基礎(chǔ)需求通過(guò)PSN實(shí)驗(yàn)得到確認(rèn)，該系統(tǒng)需要具有連貫隱藏狀態(tài)幾何的預(yù)訓(xùn)練基礎(chǔ)模型。在隨機(jī)初始化權(quán)重上堆疊MoE-LoRA產(chǎn)生較差結(jié)果，因?yàn)樾拚龥](méi)有有用的表征空間可供細(xì)化。

然而，這些局限性也指向了激動(dòng)人心的未來(lái)方向。研究團(tuán)隊(duì)提出了"自擴(kuò)展LLM"概念，當(dāng)所有領(lǐng)域得分低于門(mén)控閾值時(shí)，元路由器的sigmoid輸出提供自然的間隙檢測(cè)器。這種不確定性信號(hào)成為自主能力獲取的觸發(fā)器：系統(tǒng)識(shí)別能力缺口，使用工具搜索和策劃領(lǐng)域特定訓(xùn)練數(shù)據(jù)，訓(xùn)練新的MoE-LoRA專(zhuān)家，重新訓(xùn)練元路由器整合新領(lǐng)域。

分區(qū)子空間網(wǎng)絡(luò)概念解決了預(yù)訓(xùn)練基礎(chǔ)需求，提出在預(yù)訓(xùn)練期間物理分割殘差流本身。每個(gè)領(lǐng)域階段將通過(guò)構(gòu)造聲明隱藏維度的專(zhuān)用切片，跨子空間注意力實(shí)現(xiàn)領(lǐng)域間組合。與事后糾正現(xiàn)有表征空間的Brainstacks不同，PSN將從初始化開(kāi)始將模塊化結(jié)構(gòu)構(gòu)建到基礎(chǔ)模型幾何中。

LatentMoE壓縮方向特別實(shí)用。每個(gè)領(lǐng)域?qū)＜耶?dāng)前在全隱藏維度操作，但LatentMoE可以將隱藏狀態(tài)投影到小潛在空間進(jìn)行路由和專(zhuān)家計(jì)算，然后投影回來(lái)，將每專(zhuān)家內(nèi)存減少約16倍，從Gemma 3 12B上的567MB減少到約35MB。

最令人興奮的可能是超位置LLM原則的實(shí)現(xiàn)：一個(gè)模型根據(jù)提示呈現(xiàn)不同領(lǐng)域能力，按需加載專(zhuān)業(yè)知識(shí)，GPU內(nèi)存與磁盤(pán)上存在的總領(lǐng)域?qū)＜覕?shù)量無(wú)關(guān)。醫(yī)院加載基礎(chǔ)+醫(yī)學(xué)專(zhuān)家，律師事務(wù)所加載基礎(chǔ)+法律專(zhuān)家，相同基礎(chǔ)模型，不同能力，無(wú)需重新訓(xùn)練。

這項(xiàng)研究從根本上重新定義了我們對(duì)AI學(xué)習(xí)和能力組合的理解。通過(guò)證明領(lǐng)域?qū)＜揖幋a可轉(zhuǎn)移的認(rèn)知原語(yǔ)而非領(lǐng)域特定知識(shí)，Brainstacks為可擴(kuò)展、模塊化AI系統(tǒng)鋪平了道路，其中能力是貨幣：一次訓(xùn)練，永久凍結(jié)，任意組合。這種范式轉(zhuǎn)變可能會(huì)重塑大型語(yǔ)言模型的設(shè)計(jì)、組合和擴(kuò)展方式，從單體架構(gòu)走向真正的模塊化智能系統(tǒng)。

說(shuō)到底，Brainstacks的真正突破不僅僅是技術(shù)架構(gòu)，而是對(duì)AI學(xué)習(xí)本質(zhì)的重新理解。它告訴我們，AI系統(tǒng)學(xué)會(huì)的不是孤立的知識(shí)片段，而是可以跨領(lǐng)域遷移的思維工具。這種發(fā)現(xiàn)讓我們重新思考如何構(gòu)建更智能、更靈活的AI系統(tǒng)，也為未來(lái)的AI發(fā)展指明了一個(gè)全新的方向。當(dāng)AI能夠像人類(lèi)一樣將不同領(lǐng)域的思維方式巧妙組合時(shí)，我們或許正在見(jiàn)證通用人工智能的早期形態(tài)。

Q&A

Q1：Brainstacks系統(tǒng)是如何實(shí)現(xiàn)零遺忘的？

A：Brainstacks通過(guò)兩個(gè)關(guān)鍵機(jī)制實(shí)現(xiàn)零遺忘：首先是"冷凍"技術(shù)，一旦某個(gè)領(lǐng)域的專(zhuān)家訓(xùn)練完成就永久凍結(jié)其參數(shù)，就像把專(zhuān)家技能保存在冰箱里永不變質(zhì)；其次是零空間投影技術(shù)，用數(shù)學(xué)方法確保新專(zhuān)家的訓(xùn)練不會(huì)影響已有專(zhuān)家占用的"空間"，就像在已有房間旁邊建新房間時(shí)不會(huì)影響原房間結(jié)構(gòu)。

Q2：為什么醫(yī)學(xué)問(wèn)題用聊天和數(shù)學(xué)專(zhuān)家解決效果更好？

A：這個(gè)發(fā)現(xiàn)顛覆了傳統(tǒng)認(rèn)知。研究發(fā)現(xiàn)AI學(xué)習(xí)的不是具體知識(shí)而是認(rèn)知能力：聊天專(zhuān)家掌握了清晰的指令遵循和解釋能力，數(shù)學(xué)專(zhuān)家學(xué)會(huì)了數(shù)值推理和逐步計(jì)算，這些通用思維工具組合起來(lái)處理醫(yī)學(xué)問(wèn)題比單純的醫(yī)學(xué)專(zhuān)家更有效，就像一個(gè)善于溝通的數(shù)學(xué)家有時(shí)比專(zhuān)業(yè)醫(yī)生更能解釋醫(yī)學(xué)計(jì)算問(wèn)題。

Q3：Brainstacks系統(tǒng)能應(yīng)用到現(xiàn)有的AI模型上嗎？

A：目前Brainstacks需要在具有良好預(yù)訓(xùn)練基礎(chǔ)的模型上使用，比如Gemma 3 12B或TinyLlama這樣已經(jīng)訓(xùn)練好的模型。它不能直接應(yīng)用到隨機(jī)初始化的模型上，因?yàn)樾枰A(chǔ)模型提供穩(wěn)定的表征空間。不過(guò)研究團(tuán)隊(duì)正在開(kāi)發(fā)新的架構(gòu)，讓這種模塊化能力從模型訓(xùn)練一開(kāi)始就內(nèi)置進(jìn)去。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.