国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大模型長(zhǎng)腦子了?研究發(fā)現(xiàn)LLM中層會(huì)自發(fā)模擬人腦進(jìn)化

0
分享至


來源:機(jī)器之心

編輯:Panda

生物智能與人工智能的演化路徑截然不同,但它們是否遵循某些共同的計(jì)算原理?

最近,來自帝國(guó)理工學(xué)院、華為諾亞方舟實(shí)驗(yàn)室等機(jī)構(gòu)的研究人員發(fā)表了一篇新論文。該研究指出,大型語言模型(LLM)在學(xué)習(xí)過程中會(huì)自發(fā)演化出一種協(xié)核心(Synergistic Core)結(jié)構(gòu),有些類似于生物的大腦。


  • 論文標(biāo)題:A Brain-like Synergistic Core in LLMs Drives Behaviour and Learning

  • 論文地址:https://arxiv.org/abs/2601.06851


研究團(tuán)隊(duì)利用部分信息分解(Partial Information Decomposition, PID)框架,對(duì) Gemma、Llama、Qwen 和 DeepSeek 等模型進(jìn)行了深度剖析。

他們發(fā)現(xiàn),這些模型的中層表現(xiàn)出極強(qiáng)的協(xié)同處理能力,而底層和頂層則更偏向于冗余處理。

協(xié)同與冗余:LLM 的內(nèi)部架構(gòu)

研究團(tuán)隊(duì)將大型語言模型視為分布式信息處理系統(tǒng),其核心實(shí)驗(yàn)設(shè)計(jì)旨在量化模型內(nèi)部組件之間交互的本質(zhì)。為了實(shí)現(xiàn)這一目標(biāo),研究者選取了 Gemma 3、Llama 3、Qwen 3 8B 以及 DeepSeek V2 Lite Chat 等多種具有代表性的模型系列進(jìn)行對(duì)比分析。

實(shí)驗(yàn)方法與量化指標(biāo)

在實(shí)驗(yàn)過程中,研究者向模型輸入了涵蓋語法糾錯(cuò)、邏輯推理、常識(shí)問答等 6 個(gè)類別的認(rèn)知任務(wù)提示詞。

針對(duì)每一個(gè)提示詞,模型會(huì)生成一段 100 個(gè) Token 的回答,實(shí)驗(yàn)設(shè)備則同步記錄下每一層中所有注意力頭或?qū)<夷K的激活值。

具體而言,研究人員計(jì)算了這些輸出向量的 L2 范數(shù),以此作為該單元在特定時(shí)間步的激活強(qiáng)度數(shù)據(jù)。

基于這些時(shí)間序列數(shù)據(jù),研究團(tuán)隊(duì)?wèi)?yīng)用了整合信息分解(Integrated Information Decomposition, ID)框架。

這一框架能夠?qū)⒆⒁饬︻^對(duì)之間的交互分解為「持續(xù)性協(xié)同」和「持續(xù)性冗余」等不同原子項(xiàng)。

通過對(duì)所有注意力頭對(duì)的協(xié)同值和冗余值進(jìn)行排名并求差,研究者得到了一個(gè)關(guān)鍵指標(biāo):協(xié)同-冗余秩(Synergy-Redundancy Rank)。該指標(biāo)能夠清晰地標(biāo)示出模型組件在處理信息時(shí),究竟是傾向于進(jìn)行獨(dú)立的信號(hào)聚合,還是在進(jìn)行跨單元的深度集成。

跨模型的空間分布規(guī)律

實(shí)驗(yàn)數(shù)據(jù)揭示了一個(gè)在不同架構(gòu)模型中高度一致的空間組織規(guī)律。在歸一化后的模型層深圖中,協(xié)同分布呈現(xiàn)出顯著的「倒 U 型」曲線 :


  • 冗余外周(Redundant Periphery):模型的早期層(靠近輸入端)和末期層(靠近輸出端)表現(xiàn)出極低的協(xié)同秩,信息處理以冗余模式為主。在早期層,這反映了模型在進(jìn)行基本的解詞元化(Detokenization)和局部特征提??;而在末期層,則對(duì)應(yīng)著 Token 預(yù)測(cè)和輸出格式化的過程。

  • 協(xié)同核心(Synergistic Core):模型的中層則展現(xiàn)出極高的協(xié)同秩,形成了核心處理區(qū)。例如,在對(duì) Gemma 3 4B 的熱圖分析中,中間層的注意力頭之間表現(xiàn)出密集且強(qiáng)烈的協(xié)同交互,這正是模型進(jìn)行高級(jí)語義集成和抽象推理的區(qū)域。

架構(gòu)差異與一致性

值得注意的是,這種「協(xié)同核心」的涌現(xiàn)并不依賴于特定的技術(shù)實(shí)現(xiàn)。

在 DeepSeek V2 Lite 模型中,研究者即使是以「專家模塊」而非「注意力頭」作為分析單位,依然觀察到了相同的空間分布特征。

這種跨架構(gòu)的收斂性表明,協(xié)同處理可能是實(shí)現(xiàn)高級(jí)智能的一種計(jì)算必然,而非單純的工程巧合。

這種組織模式與人腦的生理結(jié)構(gòu)形成了精確的映射:人腦的感官和運(yùn)動(dòng)區(qū)域同樣表現(xiàn)出高冗余性,而負(fù)責(zé)復(fù)雜認(rèn)知功能的聯(lián)合皮層則處于高協(xié)同的「全局工作空間」中心。

智能的涌現(xiàn):學(xué)習(xí)驅(qū)動(dòng)而非架構(gòu)使然

一個(gè)關(guān)鍵的問題在于:這種結(jié)構(gòu)是 Transformer 架構(gòu)自帶的,還是通過學(xué)習(xí)習(xí)得的?

研究人員通過分析 Pythia 1B 模型的訓(xùn)練過程發(fā)現(xiàn),在隨機(jī)初始化的網(wǎng)絡(luò)中,這種「倒 U 型」的協(xié)同分布并不存在。隨著訓(xùn)練步數(shù)的增加,這種組織架構(gòu)才逐漸穩(wěn)定形成。


這意味著,協(xié)同核心是大模型獲得能力的標(biāo)志性產(chǎn)物。

在拓?fù)湫再|(zhì)上,協(xié)同核心具有極高的「全局效率」,有利于信息的快速集成;而冗余外周則表現(xiàn)出更強(qiáng)的「模塊化」,適用于專門化處理。這種特征再次與人類大腦的網(wǎng)絡(luò)架構(gòu)形成了精確的平行關(guān)系。

協(xié)同核心的功能驗(yàn)證

為了驗(yàn)證協(xié)同核心是否真的驅(qū)動(dòng)了模型行為,研究團(tuán)隊(duì)進(jìn)行了兩類干預(yù)實(shí)驗(yàn):消融實(shí)驗(yàn)和微調(diào)實(shí)驗(yàn)。

消融實(shí)驗(yàn):研究發(fā)現(xiàn),消融那些高協(xié)同性的節(jié)點(diǎn),會(huì)導(dǎo)致模型出現(xiàn)災(zāi)難性的性能下降和行為背離,其影響遠(yuǎn)超隨機(jī)消融或消融冗余節(jié)點(diǎn)。這證明協(xié)同核心是模型智能的核心驅(qū)動(dòng)力。


微調(diào)實(shí)驗(yàn):在強(qiáng)化學(xué)習(xí)微調(diào)(RL FT)場(chǎng)景下,僅針對(duì)協(xié)同核心進(jìn)行訓(xùn)練,獲得的性能提升顯著優(yōu)于針對(duì)冗余核心或隨機(jī)子集的訓(xùn)練。有趣的是,在監(jiān)督微調(diào)(SFT)中這種差異并不明顯。研究者認(rèn)為,這反映了 RL 促進(jìn)通用化而 SFT 更多傾向于記憶的特性。


結(jié)語

這項(xiàng)研究為大模型的可解釋性開辟了新路徑。它表明,我們可以從「自上而下」的信息論視角來理解模型,而不僅僅是「自下而上」地尋找特定的電路。

對(duì)于 AI 領(lǐng)域,識(shí)別協(xié)同核心有助于設(shè)計(jì)更高效的壓縮算法,或者通過更有針對(duì)性的參數(shù)更新來加速訓(xùn)練。對(duì)于神經(jīng)科學(xué),這提供了一種計(jì)算上的驗(yàn)證,預(yù)示著協(xié)同回路在強(qiáng)化學(xué)習(xí)和知識(shí)遷移中可能扮演著至關(guān)重要的角色。

大模型雖然基于硅基芯片和反向傳播算法,但在追求智能的過程中,它們似乎不約而同地走向了與生物大腦相似的組織模式。這種智能演化的趨同性,或許正是我們揭開通用智能奧秘的關(guān)鍵線索。

閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問歐米伽研究所的“未來知識(shí)庫(kù)”

https://wx.zsxq.com/group/454854145828


未來知識(shí)庫(kù)是“ 歐米伽 未來研究所”建立的在線知識(shí)庫(kù)平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢(shì)。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
又有2名間諜被抓!潛藏中國(guó)17年,境外滲透曝光,泄密細(xì)節(jié)驚人

又有2名間諜被抓!潛藏中國(guó)17年,境外滲透曝光,泄密細(xì)節(jié)驚人

快看張同學(xué)
2026-02-24 19:23:29
中核集團(tuán)的顧軍被查了。最讓人脊背發(fā)涼的是他的第一個(gè)身份

中核集團(tuán)的顧軍被查了。最讓人脊背發(fā)涼的是他的第一個(gè)身份

南權(quán)先生
2026-02-02 16:05:36
首次曝光!小米機(jī)器人給小米汽車安裝車標(biāo):一氣呵成 還會(huì)先撕膜

首次曝光!小米機(jī)器人給小米汽車安裝車標(biāo):一氣呵成 還會(huì)先撕膜

快科技
2026-03-02 15:23:16
16GB+1TB!新機(jī)官宣:3月2日,正式全球首秀!

16GB+1TB!新機(jī)官宣:3月2日,正式全球首秀!

科技堡壘
2026-02-28 11:38:10
人民軍隊(duì)歷史上,軍委秘書長(zhǎng)和總參謀長(zhǎng),誰的權(quán)力更大?

人民軍隊(duì)歷史上,軍委秘書長(zhǎng)和總參謀長(zhǎng),誰的權(quán)力更大?

舊書卷里的長(zhǎng)安
2026-03-02 23:36:10
記者:曼城愿5000萬出售皇馬目標(biāo)!切爾西年度虧損3.55億創(chuàng)紀(jì)錄!

記者:曼城愿5000萬出售皇馬目標(biāo)!切爾西年度虧損3.55億創(chuàng)紀(jì)錄!

足球偵探
2026-03-02 18:25:22
輸給中國(guó)男籃后,陳盈駿接受采訪,他獨(dú)夸一人,確實(shí)非常有格局!

輸給中國(guó)男籃后,陳盈駿接受采訪,他獨(dú)夸一人,確實(shí)非常有格局!

現(xiàn)代小青青慕慕
2026-03-02 11:36:31
近距離看46歲董璇,滿臉橫肉嘴歪,跟張維伊不搭,比劉曉慶狀態(tài)差

近距離看46歲董璇,滿臉橫肉嘴歪,跟張維伊不搭,比劉曉慶狀態(tài)差

白面書誏
2026-02-14 18:06:47
1960年,鄧華被免職后離開軍區(qū),帶走兩支手槍,陳錫聯(lián)為何不敢阻攔?

1960年,鄧華被免職后離開軍區(qū),帶走兩支手槍,陳錫聯(lián)為何不敢阻攔?

源溯歷史
2025-12-17 15:36:20
伊朗強(qiáng)援已到!以色列集結(jié)十萬大軍,關(guān)鍵時(shí)刻,普京對(duì)中國(guó)做承諾

伊朗強(qiáng)援已到!以色列集結(jié)十萬大軍,關(guān)鍵時(shí)刻,普京對(duì)中國(guó)做承諾

長(zhǎng)星寄明月
2026-03-02 18:54:51
伊朗用“霍拉姆沙赫爾-4”導(dǎo)彈發(fā)動(dòng)第十波攻勢(shì)

伊朗用“霍拉姆沙赫爾-4”導(dǎo)彈發(fā)動(dòng)第十波攻勢(shì)

新華社
2026-03-02 15:40:20
伊朗貨幣崩盤,2個(gè)月暴跌30倍,1美元可兌130萬伊朗里亞爾

伊朗貨幣崩盤,2個(gè)月暴跌30倍,1美元可兌130萬伊朗里亞爾

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-03-02 19:25:30
狂轟49+8+6+6搶斷!火箭舊將爆發(fā),2場(chǎng)得分超40,斯通底薪可簽他

狂轟49+8+6+6搶斷!火箭舊將爆發(fā),2場(chǎng)得分超40,斯通底薪可簽他

熊哥愛籃球
2026-03-02 12:19:43
我要讓所有的美國(guó)導(dǎo)彈打不到中國(guó)!

我要讓所有的美國(guó)導(dǎo)彈打不到中國(guó)!

安安說
2026-03-02 13:54:39
突發(fā)!伊朗伊斯法罕核設(shè)施和空軍基地附近傳出巨大爆炸聲

突發(fā)!伊朗伊斯法罕核設(shè)施和空軍基地附近傳出巨大爆炸聲

每日經(jīng)濟(jì)新聞
2026-03-03 01:07:05
“看到新家,整個(gè)人都懵了!”上海小伙動(dòng)遷分房“不喜反憂”,相關(guān)部門回應(yīng)→

“看到新家,整個(gè)人都懵了!”上海小伙動(dòng)遷分房“不喜反憂”,相關(guān)部門回應(yīng)→

新民晚報(bào)
2026-03-02 18:59:35
老虎為何不敢動(dòng)大熊貓?護(hù)林員爆料:軟萌是偽裝,惹到?jīng)]好果子吃

老虎為何不敢動(dòng)大熊貓?護(hù)林員爆料:軟萌是偽裝,惹到?jīng)]好果子吃

史行途
2026-03-01 11:03:02
“國(guó)家隊(duì)”提前買進(jìn)!這些行業(yè)具備潛力!

“國(guó)家隊(duì)”提前買進(jìn)!這些行業(yè)具備潛力!

證券市場(chǎng)周刊
2026-03-02 20:18:40
特朗普天塌了,伊朗導(dǎo)彈帶拐彎,炸毀3艘油輪,直接轟塌美大使館

特朗普天塌了,伊朗導(dǎo)彈帶拐彎,炸毀3艘油輪,直接轟塌美大使館

荷蘭豆愛健康
2026-03-02 20:41:45
鈞正平發(fā)文:中國(guó)人民永遠(yuǎn)都要保持居安思危的清醒

鈞正平發(fā)文:中國(guó)人民永遠(yuǎn)都要保持居安思危的清醒

閃電新聞
2026-03-02 12:29:06
2026-03-03 02:16:49
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4555文章數(shù) 37413關(guān)注度
往期回顧 全部

科技要聞

蘋果中國(guó)官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

中國(guó)留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

頭條要聞

中國(guó)留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

家居
旅游
房產(chǎn)
健康
軍事航空

家居要聞

萬物互聯(lián) 享科技福祉

旅游要聞

熱度飆升!非遺、冰雪…禹州元宵“文旅大餐”承包圓滿佳節(jié)!

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫?,又有書包大盤殺出!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

軍事要聞

美國(guó)中央司令部透露對(duì)伊朗動(dòng)武全部武器裝備清單

無障礙瀏覽 進(jìn)入關(guān)懷版