国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

中科院讓AI大模型學(xué)會"分層思考",底層神經(jīng)元也能獨(dú)當(dāng)一面了

0
分享至


說起人工智能,我們通常把它當(dāng)作一個(gè)整體來看待——輸入問題,輸出答案,就像一個(gè)黑盒子一樣神秘。但中科院自動化研究所的研究團(tuán)隊(duì)卻有了一個(gè)顛覆性的發(fā)現(xiàn):原來AI大模型內(nèi)部其實(shí)暗藏著許多"小助手",每一層神經(jīng)網(wǎng)絡(luò)都在悄悄地做著自己的決策。這項(xiàng)由譚雨橋、王旻政、何世柱等研究者完成的工作發(fā)表于2024年12月,論文編號為arXiv:2512.19673v1,為我們揭開了大模型內(nèi)部推理機(jī)制的神秘面紗。

這個(gè)發(fā)現(xiàn)就像是發(fā)現(xiàn)了一個(gè)公司里每個(gè)部門其實(shí)都有自己的小決策權(quán),而不是所有決定都必須等到最高層才能拍板。研究團(tuán)隊(duì)通過深入分析發(fā)現(xiàn),大模型內(nèi)部的每一層網(wǎng)絡(luò)都能形成自己的"內(nèi)部策略",就像一個(gè)多層管理結(jié)構(gòu),每層都在為最終的決策貢獻(xiàn)自己的智慧。更令人驚訝的是,不同的模型家族在內(nèi)部推理模式上竟然存在顯著差異,這就像不同公司有著截然不同的管理風(fēng)格一樣。

基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)提出了一種全新的訓(xùn)練方法——"自底向上策略優(yōu)化"(BuPO)。這種方法不再像傳統(tǒng)方式那樣把模型當(dāng)作一個(gè)整體來訓(xùn)練,而是先從底層開始逐步優(yōu)化,讓每一層都學(xué)會更好的推理能力。就像培養(yǎng)一個(gè)團(tuán)隊(duì),不是只培訓(xùn)老板,而是讓每個(gè)員工都變得更專業(yè),最終整個(gè)團(tuán)隊(duì)的表現(xiàn)自然會提升。

一、揭秘大模型內(nèi)部的"多重人格"

傳統(tǒng)的訓(xùn)練方法把大模型看作一個(gè)統(tǒng)一的整體,就像把一個(gè)復(fù)雜的交響樂團(tuán)當(dāng)作一個(gè)單獨(dú)的樂手來指揮。但研究團(tuán)隊(duì)發(fā)現(xiàn),這樣做其實(shí)忽略了模型內(nèi)部豐富的層次結(jié)構(gòu)。每個(gè)Transformer層都像樂團(tuán)中的不同聲部,雖然最終要合奏出美妙的樂章,但每個(gè)聲部都有自己獨(dú)特的作用和表現(xiàn)方式。

研究團(tuán)隊(duì)巧妙地利用了Transformer架構(gòu)中的殘差連接特性,就像剝洋蔥一樣,把每一層的貢獻(xiàn)都分離出來。他們發(fā)現(xiàn),通過將每一層的隱藏狀態(tài)與最終的輸出矩陣結(jié)合,可以構(gòu)造出所謂的"內(nèi)部層策略"和"內(nèi)部模塊策略"。這就像是給交響樂團(tuán)的每個(gè)聲部都配上了麥克風(fēng),讓我們能夠聽清楚每個(gè)部分在演奏什么。

更有趣的是,研究團(tuán)隊(duì)還定義了兩種不同粒度的內(nèi)部策略。內(nèi)部層策略關(guān)注的是每一層的整體貢獻(xiàn),就像評估一個(gè)部門的總體表現(xiàn)。而內(nèi)部模塊策略則更加細(xì)致,分別關(guān)注自注意力機(jī)制和前饋網(wǎng)絡(luò)這兩個(gè)核心組件的作用,就像分別評估部門里銷售團(tuán)隊(duì)和技術(shù)團(tuán)隊(duì)的表現(xiàn)。

通過這種分解方式,研究團(tuán)隊(duì)能夠清晰地看到信息是如何在模型內(nèi)部層層傳遞的。他們發(fā)現(xiàn),早期的層主要負(fù)責(zé)"探索",保持高度的不確定性來廣泛搜索可能的答案方向。而后期的層則專注于"收斂",逐步縮小搜索范圍,最終鎖定最佳答案。這個(gè)過程就像偵探破案,先廣撒網(wǎng)收集線索,然后逐步縮小嫌疑范圍,最終鎖定真兇。

二、不同模型的"思維風(fēng)格"大不相同

研究團(tuán)隊(duì)對比了目前最流行的幾個(gè)大模型家族,包括Qwen系列和Llama系列,結(jié)果發(fā)現(xiàn)了令人驚訝的差異。這些差異就像不同文化背景的人有著截然不同的思維方式一樣明顯。

Qwen系列模型,特別是最新的Qwen3,展現(xiàn)出了一種漸進(jìn)式的推理模式,研究者稱之為"探索-整合-收斂"(EIC)模式。這種模式非常像人類的思考過程:剛開始時(shí)大腦會發(fā)散性地思考各種可能性(探索階段),然后整理和組織這些想法(整合階段),最后聚焦到最佳答案(收斂階段)。具體來說,Qwen3的前饋網(wǎng)絡(luò)在前幾層會增加不確定性來擴(kuò)大搜索空間,中間層保持相對穩(wěn)定來整合信息,最后幾層則迅速收斂到最終答案。

相比之下,Llama系列模型的行為模式就像一個(gè)"急性子"。它們在大部分層中都保持相對較高的探索性,只在最后幾層突然"剎車"收斂到答案。這種模式雖然也能得到正確答案,但缺乏中間的整合階段,就像一個(gè)人思考問題時(shí)缺少深度加工的過程。

研究團(tuán)隊(duì)還分析了不同模塊的具體行為。自注意力機(jī)制在不同模型中的表現(xiàn)也各有特色。Qwen3的自注意力模塊始終保持正向的熵變,說明它在持續(xù)擴(kuò)大信息整合的范圍。而Llama模型的自注意力則表現(xiàn)得更加保守,變化幅度較小。

這些發(fā)現(xiàn)不僅有助于理解不同模型的內(nèi)在機(jī)制,也解釋了為什么某些模型在后續(xù)訓(xùn)練中表現(xiàn)更好。擁有漸進(jìn)式推理模式的模型似乎更容易吸收新知識,就像一個(gè)有條理的學(xué)習(xí)者比混亂的學(xué)習(xí)者更容易掌握新技能。

三、從底層開始的全新訓(xùn)練思路

基于對內(nèi)部推理機(jī)制的深入理解,研究團(tuán)隊(duì)提出了一個(gè)革命性的訓(xùn)練方法——自底向上策略優(yōu)化(BuPO)。這種方法顛覆了傳統(tǒng)的"一刀切"訓(xùn)練方式,轉(zhuǎn)而采用分層優(yōu)化的策略。

傳統(tǒng)的訓(xùn)練方法就像教一個(gè)合唱團(tuán)唱歌時(shí),只給整個(gè)團(tuán)隊(duì)一個(gè)總體評價(jià)。而BuPO方法則像是先訓(xùn)練各個(gè)聲部,讓每個(gè)聲部都掌握好自己的部分,然后再協(xié)調(diào)整體效果。具體來說,BuPO會先選擇某個(gè)關(guān)鍵的內(nèi)部層進(jìn)行針對性訓(xùn)練,讓這一層學(xué)會更好的推理能力,然后再訓(xùn)練整個(gè)模型。

研究團(tuán)隊(duì)發(fā)現(xiàn),這種方法的關(guān)鍵在于選擇合適的"起點(diǎn)層"。通過分析不同層的熵變化模式,他們確定了最適合作為起點(diǎn)的層。對于Qwen系列模型,最佳起點(diǎn)通常是那些展現(xiàn)正向熵變化的層,也就是仍在進(jìn)行探索性思考的層。對于Llama系列,則選擇那些開始顯示收斂跡象但仍保持一定探索性的層。

更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)了內(nèi)部策略優(yōu)化的一個(gè)重要現(xiàn)象:當(dāng)對某個(gè)內(nèi)部層進(jìn)行優(yōu)化時(shí),該層會被迫提前捕獲高層次的推理信息。這就像讓公司的中層管理者提前具備了高層戰(zhàn)略思維能力,從而為后續(xù)的整體優(yōu)化奠定了更好的基礎(chǔ)。

但這種方法也有其微妙之處。研究團(tuán)隊(duì)發(fā)現(xiàn),過度的內(nèi)部層優(yōu)化會導(dǎo)致模型性能崩潰,就像過度訓(xùn)練會讓運(yùn)動員受傷一樣。因此,他們確定了最佳的訓(xùn)練步數(shù),通常在20-30步之間,既能獲得底層優(yōu)化的好處,又避免了過度擬合的風(fēng)險(xiǎn)。

四、實(shí)驗(yàn)證明新方法確實(shí)更有效

為了驗(yàn)證這種新方法的效果,研究團(tuán)隊(duì)在多個(gè)復(fù)雜的數(shù)學(xué)推理任務(wù)上進(jìn)行了全面測試。這些測試就像是給不同訓(xùn)練方法培養(yǎng)出來的學(xué)生安排同樣的考試,看誰的成績更好。

實(shí)驗(yàn)涵蓋了四個(gè)主要的數(shù)學(xué)推理基準(zhǔn):MATH、AMC23、AIME24和AIME25。這些測試從不同角度考察模型的推理能力,就像綜合性考試既有選擇題又有解答題一樣全面。研究團(tuán)隊(duì)比較了BuPO方法與傳統(tǒng)的PPO、GRPO、Reinforce++和RLOO等方法的表現(xiàn)。

結(jié)果令人印象深刻。在Qwen3-4B模型上,BuPO方法在AIME24測試中獲得了4.69分的提升,在AIME25中獲得了2.30分的提升。這種提升幅度在AI訓(xùn)練領(lǐng)域已經(jīng)算是相當(dāng)顯著的改進(jìn)了。更重要的是,這種提升在不同規(guī)模的模型上都能穩(wěn)定復(fù)現(xiàn),從4B參數(shù)的小模型到8B參數(shù)的大模型都展現(xiàn)出了一致的改進(jìn)。

Llama系列模型的結(jié)果同樣令人鼓舞。在經(jīng)過中期訓(xùn)練優(yōu)化的Llama-OctoThinker模型上,BuPO方法平均獲得了1.01到3.68分的提升。這證明了新方法的通用性,不僅適用于特定的模型架構(gòu),而是一個(gè)更普遍適用的訓(xùn)練策略。

研究團(tuán)隊(duì)還進(jìn)行了更深入的分析來理解這些改進(jìn)的來源。他們發(fā)現(xiàn),BuPO訓(xùn)練后的模型在推理過程中表現(xiàn)出更穩(wěn)定的熵動態(tài)變化,這意味著模型的"思考"過程變得更加有條理和高效。同時(shí),底層的特征表示也變得更加豐富,為后續(xù)層的處理提供了更好的基礎(chǔ)。

五、方法背后的深層機(jī)理

研究團(tuán)隊(duì)不滿足于僅僅證明新方法有效,他們還深入探索了這種改進(jìn)背后的具體機(jī)理。通過詳細(xì)的分析,他們發(fā)現(xiàn)了幾個(gè)關(guān)鍵的現(xiàn)象。

首先,當(dāng)對某個(gè)內(nèi)部層進(jìn)行優(yōu)化時(shí),該層的隱藏狀態(tài)與最終層表示的相似度會顯著增加。這就像是讓中層管理者的思維水平接近高層領(lǐng)導(dǎo),使得信息傳遞變得更加順暢。這種現(xiàn)象表明,底層優(yōu)化確實(shí)能夠提升整個(gè)網(wǎng)絡(luò)的表示質(zhì)量。

其次,研究團(tuán)隊(duì)觀察到了一個(gè)有趣的訓(xùn)練動態(tài)。在BuPO訓(xùn)練的早期階段,模型的熵會先增加后減少,形成一個(gè)"先發(fā)散再收斂"的模式。這種模式類似于人類學(xué)習(xí)新技能時(shí)的過程:剛開始時(shí)會嘗試各種方法(發(fā)散),然后逐漸找到最有效的方式(收斂)。

研究團(tuán)隊(duì)還發(fā)現(xiàn),不同訓(xùn)練階段的作用機(jī)制也不相同。在內(nèi)部層優(yōu)化階段,主要是提升了模型的"基礎(chǔ)推理能力",就像給學(xué)生打好了數(shù)學(xué)基礎(chǔ)。而在后續(xù)的整體優(yōu)化階段,則是在這個(gè)更好的基礎(chǔ)上進(jìn)一步提升整體表現(xiàn),就像在扎實(shí)的基礎(chǔ)上學(xué)習(xí)更高級的解題技巧。

值得注意的是,這種改進(jìn)并不是簡單的參數(shù)調(diào)整,而是涉及到了模型內(nèi)部信息流的根本性改變。通過分析殘差連接的貢獻(xiàn)模式,研究團(tuán)隊(duì)發(fā)現(xiàn)BuPO訓(xùn)練后的模型在信息整合方面變得更加高效,各層之間的協(xié)作也更加緊密。

更令人驚喜的是,這種方法的改進(jìn)效果在更多樣本的情況下會進(jìn)一步放大。當(dāng)研究團(tuán)隊(duì)測試Pass@K指標(biāo)(即生成K個(gè)答案中至少有一個(gè)正確的概率)時(shí),發(fā)現(xiàn)BuPO方法在K值較大時(shí)優(yōu)勢更加明顯。這說明新方法不僅提高了單次推理的準(zhǔn)確性,還提升了模型探索多種解決方案的能力。

說到底,這項(xiàng)研究最重要的貢獻(xiàn)在于改變了我們訓(xùn)練AI模型的思維方式。以前我們把模型看作一個(gè)黑盒子,現(xiàn)在我們知道了這個(gè)盒子里有著復(fù)雜而有序的內(nèi)部結(jié)構(gòu)。通過理解和利用這些內(nèi)部結(jié)構(gòu),我們能夠設(shè)計(jì)出更有效的訓(xùn)練策略,讓AI變得更聰明、更可靠。

這種"分層思考"的訓(xùn)練理念可能會推廣到更多的AI應(yīng)用領(lǐng)域。無論是自然語言處理、圖像識別還是其他復(fù)雜任務(wù),理解和優(yōu)化模型的內(nèi)部推理過程都可能帶來顯著的性能提升。對于普通用戶來說,這意味著未來的AI助手會變得更加智能和可信,能夠提供更準(zhǔn)確的答案和更合理的解釋。

當(dāng)然,這項(xiàng)研究也提出了新的問題和挑戰(zhàn)。如何自動選擇最佳的內(nèi)部優(yōu)化策略,如何在不同類型的任務(wù)中應(yīng)用這些發(fā)現(xiàn),以及如何將這些技術(shù)擴(kuò)展到更大規(guī)模的模型,都是值得進(jìn)一步探索的方向。不過可以肯定的是,這種"自底向上"的優(yōu)化思路為AI技術(shù)的發(fā)展開辟了一條新的道路,有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過論文編號arXiv:2512.19673v1查詢完整的研究報(bào)告。

Q&A

Q1:什么是大模型的內(nèi)部策略?

A:內(nèi)部策略是指大模型每一層神經(jīng)網(wǎng)絡(luò)都能形成自己的決策能力,就像公司里每個(gè)部門都有自己的小決策權(quán)。研究團(tuán)隊(duì)發(fā)現(xiàn)通過分析每層的輸出,可以看到模型內(nèi)部的"多重人格",每層都在為最終答案貢獻(xiàn)自己的智慧。

Q2:自底向上策略優(yōu)化方法與傳統(tǒng)訓(xùn)練有什么區(qū)別?

A:傳統(tǒng)方法把整個(gè)模型當(dāng)作一個(gè)整體來訓(xùn)練,而BuPO方法先從底層開始逐步優(yōu)化每一層的推理能力,然后再訓(xùn)練整個(gè)模型。這就像培養(yǎng)團(tuán)隊(duì)時(shí)不只培訓(xùn)老板,而是讓每個(gè)員工都變得更專業(yè),最終整體表現(xiàn)自然提升。

Q3:為什么Qwen和Llama模型的推理模式不同?

A:Qwen系列特別是Qwen3展現(xiàn)出漸進(jìn)式的"探索-整合-收斂"模式,很像人類思考過程。而Llama系列更像"急性子",大部分時(shí)候保持探索性,只在最后突然收斂。這些差異影響了它們在后續(xù)訓(xùn)練中的表現(xiàn),擁有漸進(jìn)式推理的模型更容易吸收新知識。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
重要調(diào)整!珠海公立醫(yī)療機(jī)構(gòu),明起執(zhí)行!

重要調(diào)整!珠海公立醫(yī)療機(jī)構(gòu),明起執(zhí)行!

珠海發(fā)布
2025-12-31 20:11:06
羅永浩科技春晚遲到50分鐘后現(xiàn)身,200多萬網(wǎng)友在線圍觀,本人發(fā)聲:出現(xiàn)了一些狀況,后續(xù)會解釋

羅永浩科技春晚遲到50分鐘后現(xiàn)身,200多萬網(wǎng)友在線圍觀,本人發(fā)聲:出現(xiàn)了一些狀況,后續(xù)會解釋

極目新聞
2025-12-30 20:28:55
厲害了!湖南這 5 個(gè)縣即將代表中國走向世界!快看有沒有你老家

厲害了!湖南這 5 個(gè)縣即將代表中國走向世界!快看有沒有你老家

健身狂人
2025-12-31 15:22:52
領(lǐng)導(dǎo)根本不在意你干了多少活,只在意這3點(diǎn):一、有沒有及時(shí)匯報(bào);二、有沒有做出成效;三、能不能讓人放心

領(lǐng)導(dǎo)根本不在意你干了多少活,只在意這3點(diǎn):一、有沒有及時(shí)匯報(bào);二、有沒有做出成效;三、能不能讓人放心

德魯克博雅管理
2025-12-21 17:01:41
遼寧四連敗陷困境:是傷病不可抗力,還是教練組與外援選擇失當(dāng)?

遼寧四連敗陷困境:是傷病不可抗力,還是教練組與外援選擇失當(dāng)?

漫川舟船
2026-01-01 03:49:14
他唯一的缺點(diǎn)就是身高太矮,不然世界上就有十全十美的人了

他唯一的缺點(diǎn)就是身高太矮,不然世界上就有十全十美的人了

韓馳
2025-12-31 23:00:00
【公告精選】多家公司年度盈利預(yù)計(jì)翻倍;立訊精密擬10億元—20億元回購股份

【公告精選】多家公司年度盈利預(yù)計(jì)翻倍;立訊精密擬10億元—20億元回購股份

證券時(shí)報(bào)e公司
2025-12-31 23:51:11
從腳抽筋到去世,僅僅一晚!這起悲劇,給所有人敲響了警鐘

從腳抽筋到去世,僅僅一晚!這起悲劇,給所有人敲響了警鐘

讀懂世界歷史
2025-12-24 21:45:32
住建部已摸清國內(nèi)房子數(shù)量,過剩嚴(yán)重到什么情況?樓市或迎來變局

住建部已摸清國內(nèi)房子數(shù)量,過剩嚴(yán)重到什么情況?樓市或迎來變局

搬磚營Z
2025-12-31 14:00:37
花生再次被關(guān)注!調(diào)查發(fā)現(xiàn):糖尿病常吃花生,不過半年或有6好處

花生再次被關(guān)注!調(diào)查發(fā)現(xiàn):糖尿病常吃花生,不過半年或有6好處

展望云霄
2025-11-29 13:56:58
核桃竟是腎臟殺手?醫(yī)生含淚苦勸:4種堅(jiān)果貪嘴,可能加速腎衰竭

核桃竟是腎臟殺手?醫(yī)生含淚苦勸:4種堅(jiān)果貪嘴,可能加速腎衰竭

看世界的人
2025-11-29 13:58:28
福原愛不再沉默,公開當(dāng)年離婚真相,在婆家處處忍耐,精神出問題

福原愛不再沉默,公開當(dāng)年離婚真相,在婆家處處忍耐,精神出問題

眼底星碎
2025-12-31 02:40:23
為什么成功人士的精力都非常旺盛?網(wǎng)友:幾乎不管任何瑣碎的事情

為什么成功人士的精力都非常旺盛?網(wǎng)友:幾乎不管任何瑣碎的事情

另子維愛讀史
2025-12-29 17:29:04
“饅頭臉”混進(jìn)央視劇,真實(shí)顏值嚇人,張鐸演技再好,也帶不動!

“饅頭臉”混進(jìn)央視劇,真實(shí)顏值嚇人,張鐸演技再好,也帶不動!

付老師種植技術(shù)團(tuán)隊(duì)
2025-12-31 22:27:12
“元旦吃3樣,子孫后代旺”,是指哪3樣?今天元旦,別忘了吃

“元旦吃3樣,子孫后代旺”,是指哪3樣?今天元旦,別忘了吃

簡食記工作號
2026-01-01 00:16:47
2026新年寄語100句,一起為新年干杯,望所愿皆成,所行皆坦!

2026新年寄語100句,一起為新年干杯,望所愿皆成,所行皆坦!

趴窗看雨的小龜
2025-12-29 08:55:05
更炸裂的來了,南博的水太深

更炸裂的來了,南博的水太深

亮見
2025-12-22 14:34:33
緊急送醫(yī),李弘權(quán)送醫(yī),曬住院照片,原因曝光,或缺席對陣遼寧

緊急送醫(yī),李弘權(quán)送醫(yī),曬住院照片,原因曝光,或缺席對陣遼寧

樂聊球
2025-12-31 09:09:06
女主持車禍去世,年僅38歲!好友透露其被“老頭樂”撞倒

女主持車禍去世,年僅38歲!好友透露其被“老頭樂”撞倒

深圳晚報(bào)
2025-12-31 08:14:08
新婚夜,新郎被咯得生痛,掀開被子一看,先勃然大怒后喜不自勝

新婚夜,新郎被咯得生痛,掀開被子一看,先勃然大怒后喜不自勝

書寫傳奇
2025-12-28 09:19:49
2026-01-01 05:16:49
至頂AI實(shí)驗(yàn)室 incentive-icons
至頂AI實(shí)驗(yàn)室
一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
895文章數(shù) 151關(guān)注度
往期回顧 全部

科技要聞

老羅,演砸了,也封神了?

頭條要聞

日企代表團(tuán)推遲原定訪華行程 外交部回應(yīng)

頭條要聞

日企代表團(tuán)推遲原定訪華行程 外交部回應(yīng)

體育要聞

羅馬諾:國米和巴薩再次就轉(zhuǎn)會聯(lián)系了坎塞洛的團(tuán)隊(duì)

娛樂要聞

官宣才兩天就翻車?七七被連環(huán)爆料

財(cái)經(jīng)要聞

高培勇:分配制度改革是提振消費(fèi)的抓手

汽車要聞

凱迪拉克純電中型SUV 售價(jià)不足24萬/33寸曲面屏

態(tài)度原創(chuàng)

教育
數(shù)碼
手機(jī)
家居
本地

教育要聞

“2025中國教師報(bào)課堂改革十大樣本”發(fā)布

數(shù)碼要聞

三星將在CES 2026發(fā)布廚房家電陣容,首次將谷歌Gemini塞進(jìn)冰箱

手機(jī)要聞

三星Galaxy S26 Ultra:藥丸相機(jī)島+圓角邊框,配置細(xì)節(jié)也清晰了

家居要聞

無形有行 自然與靈感詩意

本地新聞

即將過去的2025年,對重慶的影響竟然如此深遠(yuǎn)

無障礙瀏覽 進(jìn)入關(guān)懷版