国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

MI-Peaks用互信息追蹤,首次捕捉大模型推理“信息高峰”

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。

你肯定見過大模型在解題時「裝模作樣」地輸出:「Hmm…」、「Wait, let me think」、「Therefore…」這些看似「人類化」的思考詞。但一個靈魂拷問始終存在:這些詞真的代表模型在「思考」,還是僅僅為了「表演」更像人類而添加的語言裝飾?是模型的「頓悟時刻」,還是純粹的「煙霧彈」?

來自中國人民大學高瓴人工智能學院、上海人工智能實驗室、倫敦大學學院(UCL)和大連理工大學的聯(lián)合研究團隊,在最新論文中首次利用信息論這把「手術(shù)刀」,精準解剖了大模型內(nèi)部的推理動態(tài),給出了令人信服的答案:當這些「思考詞」出現(xiàn)的瞬間,模型大腦(隱空間)中關于正確答案的信息量,會突然飆升數(shù)倍!

這絕非偶然裝飾,而是真正的「信息高峰」與「決策拐點」!更酷的是,基于這一發(fā)現(xiàn),研究者提出了無需額外訓練就能顯著提升模型推理性能的簡單方法,代碼已開源已上線始智AI-wisemodel開源社區(qū),歡迎使用。


代碼地址

https://wisemodel.cn/codes/actor/MI-Peaks/intro

01.

揭秘大模型推理軌跡“信息高峰”

研究者們追蹤了像 DeepSeek-R1 系列蒸餾模型、QwQ 這類擅長推理的大模型在解題時的「腦電波」(隱空間表征)。他們測量每一步的「腦電波」與最終正確答案的互信息(Mutual Information, MI),并觀察這些互信息如何演繹變化。

驚人現(xiàn)象出現(xiàn)了:模型推理并非勻速「爬坡」,而是存在劇烈的「信息脈沖」!在特定步驟,互信息值會突然、顯著地飆升,形成顯著的「互信息峰值」(MI Peaks)現(xiàn)象。這些峰值點稀疏但關鍵,如同黑暗推理路徑上突然點亮的強光路標!


這意味著什么?直覺上,這些互信息峰值點處的表征,模型大腦中那一刻的狀態(tài),蘊含了更多指向正確答案的最關鍵信息!

進一步地,研究者通過理論分析證明(定理 1 & 2),推理過程中積累的互信息越高,模型最終回答錯誤概率的上界和下界就越緊,換言之,回答正確的概率就越高!



既然互信息峰值的現(xiàn)象較為普遍地出現(xiàn)在推理模型(LRMs)中,那么非推理模型(non-reasoning LLMs)上也會表現(xiàn)出類似的現(xiàn)象嗎?


為了探索這一問題,研究者選取了 DeepSeek-R1-Distill 系列模型和其對應的非推理模型進行實驗。如上圖橙色線所示,在非推理模型的推理過程中,互信息往往表現(xiàn)出更小的波動,體現(xiàn)出明顯更弱的互信息峰值現(xiàn)象,且互信息的數(shù)值整體上更小。

這表明在經(jīng)過推理能力強化訓練后,推理模型一方面似乎整體在表征中編碼了更多關于正確答案的信息,另一方面催生了互信息峰值現(xiàn)象的出現(xiàn)!

02.

“思考詞匯”=“信息高峰”的語言化身

那么,這些互信息峰值點處的表征,到底蘊含著怎樣的語義信息?

神奇的是,當研究者把這些「信息高峰」時刻的「腦電波」翻譯回人能看懂的語言(解碼到詞匯空間)時,發(fā)現(xiàn)它們最常對應的,恰恰是那些標志性的「思考詞」:

  • 反思/停頓型:「Hmm」、「Wait」…

  • 邏輯/過渡型:「Therefore」、「So」…

  • 行動型:「Let」、「First」…


例如,研究者隨機摘取了一些模型輸出: 「Wait, let me think differently. Let’s denote...,」 「Hmm, so I must have made a mistake somewhere. Let me double-check my calculations. First, ...」

研究團隊將這些在互信息峰值點頻繁出現(xiàn)、承載關鍵信息并在語言上推動模型思考的詞匯命名為「思考詞匯」(thinking tokens)。它們不是可有可無的裝飾,而是信息高峰在語言層面的「顯靈」,可能在模型推理路徑上扮演著關鍵路標或決策點的角色!

為了證明這些 tokens 的關鍵性,研究者進行了干預實驗,即在模型推理時抑制這些思考詞匯的生成。

實錘驗證:實驗結(jié)果顯示,抑制思考詞匯的生成會顯著影響模型在數(shù)學推理數(shù)據(jù)集(如 GSM8K、MATH、AIME24)上的性能;相比之下,隨機屏蔽相同數(shù)量的其他普通詞匯,對性能影響甚微。這表明這些存在于互信息峰值點處的思考詞匯,確實對模型有效推理具有至關重要的作用!


03.

無需訓練,巧用“信息高峰”提升推理性能

理解了「信息高峰」和「思考詞匯」的奧秘,研究者提出了兩種無需額外訓練即可提升現(xiàn)有 LRMs 推理性能的實用方法。


應用一:表征訓話


啟發(fā):既然 MI 峰值點的表征蘊含豐富信息,何不讓模型「多咀嚼消化」一下?

方法:在模型推理過程中,當檢測到生成了思考詞匯時,不急于讓其立刻輸出,而是將其對應的表征重新輸入到模型中進行額外一輪計算,讓模型充分挖掘利用表征中的豐富信息。

效果:在多個數(shù)學推理基準(GSM8K、MATH500、AIME24)上,RR 方法一致地提升了 LRMs 的推理性能。例如,在極具挑戰(zhàn)性的 AIME24 上,DeepSeek-R1-Distill-LLaMA-8B 的準確率相對提升了 20%!這表明讓模型更充分地利用這些高信息量的「頓悟」表征,能有效解鎖其推理潛力。


應用二:基于思考詞匯的測試時拓展


啟發(fā):在推理時如果允許模型生成更多 token(增加計算預算),如何引導模型進行更有效的「深度思考」,而不是漫無目的地延伸?

方法:受啟發(fā)于前人工作,作者在模型完成初始推理輸出后,如果還有 token 預算,則強制模型以「思考詞匯」開頭(如「Therefore」、「So」、「Wait」、「Hmm」等)繼續(xù)生成后續(xù)內(nèi)容,引導模型在額外計算資源下進行更深入的推理。

效果:當 token 預算增加時,TTTS 能持續(xù)穩(wěn)定地提升模型的推理性能。如圖所示,在 GSM8K 和 MATH500 數(shù)據(jù)集上,在相同的 Token 預算下,TTTS 持續(xù)優(yōu)于原始模型。在 AIME24 數(shù)據(jù)集上,盡管原始模型的性能在早期提升得較快,但當 token 預算達到 4096 后,模型性能就到達了瓶頸期;而 TTTS 引導下的模型,其性能隨著 Token 預算的增加而持續(xù)提升,并在預算達到 6144 后超越了原始模型。

04.

總結(jié)

這項研究首次揭示了 LRMs 推理過程中的動態(tài)機制:通過互信息動態(tài)追蹤,首次清晰觀測到 LRMs 推理過程中的互信息峰值(MI Peaks)現(xiàn)象,為理解模型「黑箱」推理提供了創(chuàng)新視角和實證基礎。

進一步地,研究者發(fā)現(xiàn)這些互信息峰值處的 token 對應的是表達思考、反思等的「思考詞匯」(Thinking Tokens),并通過干預實驗驗證了這些 token 對模型推理性能具有至關重要的影響。

最后,受啟發(fā)于對上述現(xiàn)象的理解和分析,研究者提出了兩種簡單有效且無需訓練的方法來提升 LRMs 的推理性能,即表征循環(huán)(Representation Recycling - RR)和基于思考詞匯的測試時擴展(Thinking Token based Test-time Scaling - TTTS)。

研究者希望這篇工作可以為深入理解 LRMs 的推理機制提供新的視角,并進一步提出可行的方案來進一步推升模型的推理能力。

劉勇,中國人民大學,長聘副教授,博士生導師,國家級高層次青年人才。長期從事機器學習基礎理論研究,共發(fā)表論文 100 余篇,其中以第一作者/通訊作者發(fā)表頂級期刊和會議論文近 50 篇,涵蓋機器學習領域頂級期刊 JMLR、IEEE TPAMI、Artificial Intelligence 和頂級會議 ICML、NeurIPS 等。

編輯:成蘊年

----- END -----


wisemodel相關:

系列模型:

關于wisemodel更多

1

歡迎持續(xù)關注和支持

開源社區(qū)建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關注wisemodel.cn開源社區(qū)動態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領域相關的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術(shù)實踐、應用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核?、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學會協(xié)會、聯(lián)盟、基金會等,還有投資機構(gòu)、科技媒體等,共同參與建設AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
官宣了!國足比賽央視CCTV5 直播 周末又能看申花跟海港王牌了

官宣了!國足比賽央視CCTV5 直播 周末又能看申花跟海港王牌了

80后體育大蜀黍
2026-03-26 20:24:35
難怪莫迪政府那么急,中國再不伸出援手,印度幾億人吃飯都成問題

難怪莫迪政府那么急,中國再不伸出援手,印度幾億人吃飯都成問題

主宰穩(wěn)場
2026-03-27 10:27:31
CBA最新排名:青島準絕殺廣州重返前8 北控主場不敵同曦送溫暖

CBA最新排名:青島準絕殺廣州重返前8 北控主場不敵同曦送溫暖

狼叔評論
2026-03-26 22:22:04
北京日報沒有錯,樂山公交車廣告就是封建糟粕

北京日報沒有錯,樂山公交車廣告就是封建糟粕

書寫者
2026-03-26 19:54:21
再戰(zhàn)熱火!騎士3人繼續(xù)缺席,但阿倫將復出,哈登迎期待的結(jié)局

再戰(zhàn)熱火!騎士3人繼續(xù)缺席,但阿倫將復出,哈登迎期待的結(jié)局

巴叔GO聊體育
2026-03-27 11:20:37
《紅樓夢》成就的3段姻緣,對對恩愛到白頭,活成愛情最好的模樣

《紅樓夢》成就的3段姻緣,對對恩愛到白頭,活成愛情最好的模樣

上官晚安
2026-03-26 06:48:44
保姆偷拿我兩瓶茅臺,我辭退未揭穿,臨走她指我舊鞋,剪開后我懵了...

保姆偷拿我兩瓶茅臺,我辭退未揭穿,臨走她指我舊鞋,剪開后我懵了...

感覺會火
2026-03-26 12:06:22
周杰倫繼續(xù)割韭菜!網(wǎng)友一針見血:他唯一和華流關系最大的是割大陸韭菜

周杰倫繼續(xù)割韭菜!網(wǎng)友一針見血:他唯一和華流關系最大的是割大陸韭菜

爆角追蹤
2026-03-26 08:56:24
戲都沒演明白還當評委,自己都沒拿過獎,坐在評審團位置不心虛嗎

戲都沒演明白還當評委,自己都沒拿過獎,坐在評審團位置不心虛嗎

娛樂圈筆娛君
2026-03-25 10:46:06
28歲上海女健身教練確診艾滋病,痛苦坦言:早有異常,當時沒重視

28歲上海女健身教練確診艾滋病,痛苦坦言:早有異常,當時沒重視

鬼菜生活
2026-03-26 17:57:13
從歐爾班行為,看北約當年拒絕俄羅斯的遠見

從歐爾班行為,看北約當年拒絕俄羅斯的遠見

民間胡扯老哥
2026-03-23 18:53:38
以色列打擊伊朗政權(quán)基礎設施

以色列打擊伊朗政權(quán)基礎設施

吉刻新聞
2026-03-27 11:09:33
晚清首富盛宣懷:家有兩女傭,一個生了宋美齡,另一個生了趙一荻

晚清首富盛宣懷:家有兩女傭,一個生了宋美齡,另一個生了趙一荻

曹焋解說
2026-03-20 21:05:34
張雪峰私下真面目曝光!員工閨蜜爆料:和鏡頭里完全兩樣

張雪峰私下真面目曝光!員工閨蜜爆料:和鏡頭里完全兩樣

寒律
2026-03-27 07:40:18
40分鐘連挨4輪導彈!以色列遭美國背叛?中方:支持巴勒斯坦建國

40分鐘連挨4輪導彈!以色列遭美國背叛?中方:支持巴勒斯坦建國

史智文道
2026-03-27 10:19:09
新冷空氣抵達,惠州將有強對流天氣!

新冷空氣抵達,惠州將有強對流天氣!

南方都市報
2026-03-27 09:56:14
取顆耳朵里的沙子,自閉癥男孩被醫(yī)生勸退:我們不接這樣的孩子

取顆耳朵里的沙子,自閉癥男孩被醫(yī)生勸退:我們不接這樣的孩子

大米和小米
2026-03-26 19:04:26
人民英雄紀念碑開工后,林徽因詢問碑文誰寫,彭真:周總理字不賴

人民英雄紀念碑開工后,林徽因詢問碑文誰寫,彭真:周總理字不賴

棠棣分享
2026-03-26 10:47:57
女子深夜打車回家,發(fā)現(xiàn)司機繞路她準備報警,司機:你仔細看后面

女子深夜打車回家,發(fā)現(xiàn)司機繞路她準備報警,司機:你仔細看后面

千秋文化
2026-02-12 20:06:26
脂肪瘤——父親鉆研一生的方子,我用了40年,效果出眾,送給有緣人

脂肪瘤——父親鉆研一生的方子,我用了40年,效果出眾,送給有緣人

神奇故事
2026-03-23 23:51:03
2026-03-27 11:40:49
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
466文章數(shù) 14關注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產(chǎn)力

頭條要聞

男孩被搶走17年后找到生母 對"命好"的弟弟感情微妙

頭條要聞

男孩被搶走17年后找到生母 對"命好"的弟弟感情微妙

體育要聞

近29戰(zhàn)23勝!這支黃蜂有多強?

娛樂要聞

張雪峰靈堂內(nèi)景曝光,四周擺滿了鮮花

財經(jīng)要聞

很反常!油價向上,黃金向下

汽車要聞

與眾08,金標大眾不能輸?shù)囊粦?zhàn)

態(tài)度原創(chuàng)

藝術(shù)
本地
親子
游戲
公開課

藝術(shù)要聞

2025“殊相”——中國油畫學會創(chuàng)作研修作品展 | 作品選刊(一)

本地新聞

救命,這只醬板鴨已經(jīng)在我手機復仇了一萬遍

親子要聞

童心繪夢 愛滿病房

緊急救火!《博德3》推送百兆熱補丁 修復炸檔與崩潰

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版