中科院讓AI大模型學(xué)會"分層思考"，底層神經(jīng)元也能獨(dú)當(dāng)一面了

2025-12-26 18:20:01　來源: 至頂AI實(shí)驗(yàn)室

北京舉報(bào)

分享至

說起人工智能，我們通常把它當(dāng)作一個(gè)整體來看待——輸入問題，輸出答案，就像一個(gè)黑盒子一樣神秘。但中科院自動化研究所的研究團(tuán)隊(duì)卻有了一個(gè)顛覆性的發(fā)現(xiàn)：原來AI大模型內(nèi)部其實(shí)暗藏著許多"小助手"，每一層神經(jīng)網(wǎng)絡(luò)都在悄悄地做著自己的決策。這項(xiàng)由譚雨橋、王旻政、何世柱等研究者完成的工作發(fā)表于2024年12月，論文編號為arXiv:2512.19673v1，為我們揭開了大模型內(nèi)部推理機(jī)制的神秘面紗。

這個(gè)發(fā)現(xiàn)就像是發(fā)現(xiàn)了一個(gè)公司里每個(gè)部門其實(shí)都有自己的小決策權(quán)，而不是所有決定都必須等到最高層才能拍板。研究團(tuán)隊(duì)通過深入分析發(fā)現(xiàn)，大模型內(nèi)部的每一層網(wǎng)絡(luò)都能形成自己的"內(nèi)部策略"，就像一個(gè)多層管理結(jié)構(gòu)，每層都在為最終的決策貢獻(xiàn)自己的智慧。更令人驚訝的是，不同的模型家族在內(nèi)部推理模式上竟然存在顯著差異，這就像不同公司有著截然不同的管理風(fēng)格一樣。

基于這些發(fā)現(xiàn)，研究團(tuán)隊(duì)提出了一種全新的訓(xùn)練方法——"自底向上策略優(yōu)化"（BuPO）。這種方法不再像傳統(tǒng)方式那樣把模型當(dāng)作一個(gè)整體來訓(xùn)練，而是先從底層開始逐步優(yōu)化，讓每一層都學(xué)會更好的推理能力。就像培養(yǎng)一個(gè)團(tuán)隊(duì)，不是只培訓(xùn)老板，而是讓每個(gè)員工都變得更專業(yè)，最終整個(gè)團(tuán)隊(duì)的表現(xiàn)自然會提升。

一、揭秘大模型內(nèi)部的"多重人格"

傳統(tǒng)的訓(xùn)練方法把大模型看作一個(gè)統(tǒng)一的整體，就像把一個(gè)復(fù)雜的交響樂團(tuán)當(dāng)作一個(gè)單獨(dú)的樂手來指揮。但研究團(tuán)隊(duì)發(fā)現(xiàn)，這樣做其實(shí)忽略了模型內(nèi)部豐富的層次結(jié)構(gòu)。每個(gè)Transformer層都像樂團(tuán)中的不同聲部，雖然最終要合奏出美妙的樂章，但每個(gè)聲部都有自己獨(dú)特的作用和表現(xiàn)方式。

研究團(tuán)隊(duì)巧妙地利用了Transformer架構(gòu)中的殘差連接特性，就像剝洋蔥一樣，把每一層的貢獻(xiàn)都分離出來。他們發(fā)現(xiàn)，通過將每一層的隱藏狀態(tài)與最終的輸出矩陣結(jié)合，可以構(gòu)造出所謂的"內(nèi)部層策略"和"內(nèi)部模塊策略"。這就像是給交響樂團(tuán)的每個(gè)聲部都配上了麥克風(fēng)，讓我們能夠聽清楚每個(gè)部分在演奏什么。

更有趣的是，研究團(tuán)隊(duì)還定義了兩種不同粒度的內(nèi)部策略。內(nèi)部層策略關(guān)注的是每一層的整體貢獻(xiàn)，就像評估一個(gè)部門的總體表現(xiàn)。而內(nèi)部模塊策略則更加細(xì)致，分別關(guān)注自注意力機(jī)制和前饋網(wǎng)絡(luò)這兩個(gè)核心組件的作用，就像分別評估部門里銷售團(tuán)隊(duì)和技術(shù)團(tuán)隊(duì)的表現(xiàn)。

通過這種分解方式，研究團(tuán)隊(duì)能夠清晰地看到信息是如何在模型內(nèi)部層層傳遞的。他們發(fā)現(xiàn)，早期的層主要負(fù)責(zé)"探索"，保持高度的不確定性來廣泛搜索可能的答案方向。而后期的層則專注于"收斂"，逐步縮小搜索范圍，最終鎖定最佳答案。這個(gè)過程就像偵探破案，先廣撒網(wǎng)收集線索，然后逐步縮小嫌疑范圍，最終鎖定真兇。

二、不同模型的"思維風(fēng)格"大不相同

研究團(tuán)隊(duì)對比了目前最流行的幾個(gè)大模型家族，包括Qwen系列和Llama系列，結(jié)果發(fā)現(xiàn)了令人驚訝的差異。這些差異就像不同文化背景的人有著截然不同的思維方式一樣明顯。

Qwen系列模型，特別是最新的Qwen3，展現(xiàn)出了一種漸進(jìn)式的推理模式，研究者稱之為"探索-整合-收斂"（EIC）模式。這種模式非常像人類的思考過程：剛開始時(shí)大腦會發(fā)散性地思考各種可能性（探索階段），然后整理和組織這些想法（整合階段），最后聚焦到最佳答案（收斂階段）。具體來說，Qwen3的前饋網(wǎng)絡(luò)在前幾層會增加不確定性來擴(kuò)大搜索空間，中間層保持相對穩(wěn)定來整合信息，最后幾層則迅速收斂到最終答案。

相比之下，Llama系列模型的行為模式就像一個(gè)"急性子"。它們在大部分層中都保持相對較高的探索性，只在最后幾層突然"剎車"收斂到答案。這種模式雖然也能得到正確答案，但缺乏中間的整合階段，就像一個(gè)人思考問題時(shí)缺少深度加工的過程。

研究團(tuán)隊(duì)還分析了不同模塊的具體行為。自注意力機(jī)制在不同模型中的表現(xiàn)也各有特色。Qwen3的自注意力模塊始終保持正向的熵變，說明它在持續(xù)擴(kuò)大信息整合的范圍。而Llama模型的自注意力則表現(xiàn)得更加保守，變化幅度較小。

這些發(fā)現(xiàn)不僅有助于理解不同模型的內(nèi)在機(jī)制，也解釋了為什么某些模型在后續(xù)訓(xùn)練中表現(xiàn)更好。擁有漸進(jìn)式推理模式的模型似乎更容易吸收新知識，就像一個(gè)有條理的學(xué)習(xí)者比混亂的學(xué)習(xí)者更容易掌握新技能。

三、從底層開始的全新訓(xùn)練思路

基于對內(nèi)部推理機(jī)制的深入理解，研究團(tuán)隊(duì)提出了一個(gè)革命性的訓(xùn)練方法——自底向上策略優(yōu)化（BuPO）。這種方法顛覆了傳統(tǒng)的"一刀切"訓(xùn)練方式，轉(zhuǎn)而采用分層優(yōu)化的策略。

傳統(tǒng)的訓(xùn)練方法就像教一個(gè)合唱團(tuán)唱歌時(shí)，只給整個(gè)團(tuán)隊(duì)一個(gè)總體評價(jià)。而BuPO方法則像是先訓(xùn)練各個(gè)聲部，讓每個(gè)聲部都掌握好自己的部分，然后再協(xié)調(diào)整體效果。具體來說，BuPO會先選擇某個(gè)關(guān)鍵的內(nèi)部層進(jìn)行針對性訓(xùn)練，讓這一層學(xué)會更好的推理能力，然后再訓(xùn)練整個(gè)模型。

研究團(tuán)隊(duì)發(fā)現(xiàn)，這種方法的關(guān)鍵在于選擇合適的"起點(diǎn)層"。通過分析不同層的熵變化模式，他們確定了最適合作為起點(diǎn)的層。對于Qwen系列模型，最佳起點(diǎn)通常是那些展現(xiàn)正向熵變化的層，也就是仍在進(jìn)行探索性思考的層。對于Llama系列，則選擇那些開始顯示收斂跡象但仍保持一定探索性的層。

更有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)了內(nèi)部策略優(yōu)化的一個(gè)重要現(xiàn)象：當(dāng)對某個(gè)內(nèi)部層進(jìn)行優(yōu)化時(shí)，該層會被迫提前捕獲高層次的推理信息。這就像讓公司的中層管理者提前具備了高層戰(zhàn)略思維能力，從而為后續(xù)的整體優(yōu)化奠定了更好的基礎(chǔ)。

但這種方法也有其微妙之處。研究團(tuán)隊(duì)發(fā)現(xiàn)，過度的內(nèi)部層優(yōu)化會導(dǎo)致模型性能崩潰，就像過度訓(xùn)練會讓運(yùn)動員受傷一樣。因此，他們確定了最佳的訓(xùn)練步數(shù)，通常在20-30步之間，既能獲得底層優(yōu)化的好處，又避免了過度擬合的風(fēng)險(xiǎn)。

四、實(shí)驗(yàn)證明新方法確實(shí)更有效

為了驗(yàn)證這種新方法的效果，研究團(tuán)隊(duì)在多個(gè)復(fù)雜的數(shù)學(xué)推理任務(wù)上進(jìn)行了全面測試。這些測試就像是給不同訓(xùn)練方法培養(yǎng)出來的學(xué)生安排同樣的考試，看誰的成績更好。

實(shí)驗(yàn)涵蓋了四個(gè)主要的數(shù)學(xué)推理基準(zhǔn)：MATH、AMC23、AIME24和AIME25。這些測試從不同角度考察模型的推理能力，就像綜合性考試既有選擇題又有解答題一樣全面。研究團(tuán)隊(duì)比較了BuPO方法與傳統(tǒng)的PPO、GRPO、Reinforce++和RLOO等方法的表現(xiàn)。

結(jié)果令人印象深刻。在Qwen3-4B模型上，BuPO方法在AIME24測試中獲得了4.69分的提升，在AIME25中獲得了2.30分的提升。這種提升幅度在AI訓(xùn)練領(lǐng)域已經(jīng)算是相當(dāng)顯著的改進(jìn)了。更重要的是，這種提升在不同規(guī)模的模型上都能穩(wěn)定復(fù)現(xiàn)，從4B參數(shù)的小模型到8B參數(shù)的大模型都展現(xiàn)出了一致的改進(jìn)。

Llama系列模型的結(jié)果同樣令人鼓舞。在經(jīng)過中期訓(xùn)練優(yōu)化的Llama-OctoThinker模型上，BuPO方法平均獲得了1.01到3.68分的提升。這證明了新方法的通用性，不僅適用于特定的模型架構(gòu)，而是一個(gè)更普遍適用的訓(xùn)練策略。

研究團(tuán)隊(duì)還進(jìn)行了更深入的分析來理解這些改進(jìn)的來源。他們發(fā)現(xiàn)，BuPO訓(xùn)練后的模型在推理過程中表現(xiàn)出更穩(wěn)定的熵動態(tài)變化，這意味著模型的"思考"過程變得更加有條理和高效。同時(shí)，底層的特征表示也變得更加豐富，為后續(xù)層的處理提供了更好的基礎(chǔ)。

五、方法背后的深層機(jī)理

研究團(tuán)隊(duì)不滿足于僅僅證明新方法有效，他們還深入探索了這種改進(jìn)背后的具體機(jī)理。通過詳細(xì)的分析，他們發(fā)現(xiàn)了幾個(gè)關(guān)鍵的現(xiàn)象。

首先，當(dāng)對某個(gè)內(nèi)部層進(jìn)行優(yōu)化時(shí)，該層的隱藏狀態(tài)與最終層表示的相似度會顯著增加。這就像是讓中層管理者的思維水平接近高層領(lǐng)導(dǎo)，使得信息傳遞變得更加順暢。這種現(xiàn)象表明，底層優(yōu)化確實(shí)能夠提升整個(gè)網(wǎng)絡(luò)的表示質(zhì)量。

其次，研究團(tuán)隊(duì)觀察到了一個(gè)有趣的訓(xùn)練動態(tài)。在BuPO訓(xùn)練的早期階段，模型的熵會先增加后減少，形成一個(gè)"先發(fā)散再收斂"的模式。這種模式類似于人類學(xué)習(xí)新技能時(shí)的過程：剛開始時(shí)會嘗試各種方法（發(fā)散），然后逐漸找到最有效的方式（收斂）。

研究團(tuán)隊(duì)還發(fā)現(xiàn)，不同訓(xùn)練階段的作用機(jī)制也不相同。在內(nèi)部層優(yōu)化階段，主要是提升了模型的"基礎(chǔ)推理能力"，就像給學(xué)生打好了數(shù)學(xué)基礎(chǔ)。而在后續(xù)的整體優(yōu)化階段，則是在這個(gè)更好的基礎(chǔ)上進(jìn)一步提升整體表現(xiàn)，就像在扎實(shí)的基礎(chǔ)上學(xué)習(xí)更高級的解題技巧。

值得注意的是，這種改進(jìn)并不是簡單的參數(shù)調(diào)整，而是涉及到了模型內(nèi)部信息流的根本性改變。通過分析殘差連接的貢獻(xiàn)模式，研究團(tuán)隊(duì)發(fā)現(xiàn)BuPO訓(xùn)練后的模型在信息整合方面變得更加高效，各層之間的協(xié)作也更加緊密。

更令人驚喜的是，這種方法的改進(jìn)效果在更多樣本的情況下會進(jìn)一步放大。當(dāng)研究團(tuán)隊(duì)測試Pass@K指標(biāo)（即生成K個(gè)答案中至少有一個(gè)正確的概率）時(shí)，發(fā)現(xiàn)BuPO方法在K值較大時(shí)優(yōu)勢更加明顯。這說明新方法不僅提高了單次推理的準(zhǔn)確性，還提升了模型探索多種解決方案的能力。

說到底，這項(xiàng)研究最重要的貢獻(xiàn)在于改變了我們訓(xùn)練AI模型的思維方式。以前我們把模型看作一個(gè)黑盒子，現(xiàn)在我們知道了這個(gè)盒子里有著復(fù)雜而有序的內(nèi)部結(jié)構(gòu)。通過理解和利用這些內(nèi)部結(jié)構(gòu)，我們能夠設(shè)計(jì)出更有效的訓(xùn)練策略，讓AI變得更聰明、更可靠。

這種"分層思考"的訓(xùn)練理念可能會推廣到更多的AI應(yīng)用領(lǐng)域。無論是自然語言處理、圖像識別還是其他復(fù)雜任務(wù)，理解和優(yōu)化模型的內(nèi)部推理過程都可能帶來顯著的性能提升。對于普通用戶來說，這意味著未來的AI助手會變得更加智能和可信，能夠提供更準(zhǔn)確的答案和更合理的解釋。

當(dāng)然，這項(xiàng)研究也提出了新的問題和挑戰(zhàn)。如何自動選擇最佳的內(nèi)部優(yōu)化策略，如何在不同類型的任務(wù)中應(yīng)用這些發(fā)現(xiàn)，以及如何將這些技術(shù)擴(kuò)展到更大規(guī)模的模型，都是值得進(jìn)一步探索的方向。不過可以肯定的是，這種"自底向上"的優(yōu)化思路為AI技術(shù)的發(fā)展開辟了一條新的道路，有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過論文編號arXiv:2512.19673v1查詢完整的研究報(bào)告。

Q&A

Q1：什么是大模型的內(nèi)部策略？

A：內(nèi)部策略是指大模型每一層神經(jīng)網(wǎng)絡(luò)都能形成自己的決策能力，就像公司里每個(gè)部門都有自己的小決策權(quán)。研究團(tuán)隊(duì)發(fā)現(xiàn)通過分析每層的輸出，可以看到模型內(nèi)部的"多重人格"，每層都在為最終答案貢獻(xiàn)自己的智慧。

Q2：自底向上策略優(yōu)化方法與傳統(tǒng)訓(xùn)練有什么區(qū)別？

A：傳統(tǒng)方法把整個(gè)模型當(dāng)作一個(gè)整體來訓(xùn)練，而BuPO方法先從底層開始逐步優(yōu)化每一層的推理能力，然后再訓(xùn)練整個(gè)模型。這就像培養(yǎng)團(tuán)隊(duì)時(shí)不只培訓(xùn)老板，而是讓每個(gè)員工都變得更專業(yè)，最終整體表現(xiàn)自然提升。

Q3：為什么Qwen和Llama模型的推理模式不同？

A：Qwen系列特別是Qwen3展現(xiàn)出漸進(jìn)式的"探索-整合-收斂"模式，很像人類思考過程。而Llama系列更像"急性子"，大部分時(shí)候保持探索性，只在最后突然收斂。這些差異影響了它們在后續(xù)訓(xùn)練中的表現(xiàn)，擁有漸進(jìn)式推理的模型更容易吸收新知識。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.