国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

人大&騰訊團(tuán)隊(duì)用信息論揭示:什么時(shí)候該想、什么時(shí)候別想

0
分享至



本文的第一作者雍希賢是來(lái)中國(guó)人民大學(xué)的博士生,研究方向聚焦于 Humanoid AI,LLM Coginition & Reasoning。通訊作者為中國(guó)人民大學(xué)的周驍副教授以及騰訊天衍實(shí)驗(yàn)室的吳賢。

當(dāng)前,大模型的「推理能力」幾乎成為行業(yè)最熱詞。o1、R1、QwQ 類強(qiáng)化學(xué)習(xí)(RL)推理模型,讓模型會(huì)「想」、會(huì)解析復(fù)雜問(wèn)題,甚至能像人一樣寫長(zhǎng)長(zhǎng)的推理過(guò)程(Chain-of-Thought,CoT),在數(shù)學(xué)、邏輯與常識(shí)等領(lǐng)域任務(wù)中展現(xiàn)出強(qiáng)大的多步推理能力。

看上去很強(qiáng),但問(wèn)題也隨之出現(xiàn):

  • 這些模型真的需要思考那么久嗎?
  • 長(zhǎng)推理鏈條,是幫助模型正確,還是讓它越繞越遠(yuǎn)?

如果你用過(guò)這些模型,就會(huì)感受到:

很多題模型似乎「一眼就能猜中八成」,但它還是堅(jiān)持把推理寫到幾百、幾千 token,有時(shí)甚至越寫越亂、越想越錯(cuò)。

來(lái)自中國(guó)人民大學(xué)、騰訊 Jarvis Lab、西湖大學(xué)的研究團(tuán)隊(duì),看到了這背后的核心:

當(dāng)前大模型的「推理機(jī)制」其實(shí)非常低效,甚至常常在自我制造噪聲。

于是研究團(tuán)隊(duì)從另一個(gè)視角切入 ——信息論

通過(guò)「熵(entropy)」與「互信息(mutual information)」等底層信息指標(biāo),重新衡量模型思考的價(jià)值。

最終,他們提出了一個(gè)極其實(shí)用的機(jī)制:Adaptive Think——讓模型在「自信夠了」時(shí)自動(dòng)停止推理

不用訓(xùn)練,用現(xiàn)有模型就能直接部署。

這項(xiàng)工作已被 NeurIPS 2025 選為 Spotlight。



  • 論文標(biāo)題: Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens
  • 論文鏈接:https://arxiv.org/abs/2505.18237
  • 代碼地址:https://github.com/chicosirius/think-or-not

首先,研究團(tuán)隊(duì)借鑒了香農(nóng)提出的通信三層模型,從技術(shù)、語(yǔ)義和實(shí)踐三個(gè)維度觀察大模型「過(guò)度思考」的本質(zhì)。



圖 1:基于 Shannon & Weaver 通信模型,研究發(fā)現(xiàn)推理過(guò)長(zhǎng)不僅信息增益逐漸減弱,還可能帶來(lái)偏差并降低最終準(zhǔn)確率。

  • 在技術(shù)層面(Technical Level),長(zhǎng)推理鏈就像在一個(gè)噪聲信道里不斷添加冗余比特。適度的冗余可以增強(qiáng)魯棒性,但一旦超過(guò)模型的「推理容量」,額外的推理反而可能會(huì)帶來(lái)錯(cuò)誤的積累和偏差。
  • 在語(yǔ)義層面(Semantic Level),每一步推理應(yīng)該減少答案的不確定性。但結(jié)果顯示,隨著推理鏈延長(zhǎng),單步推理帶來(lái)的信息增益迅速遞減,冗余步驟更多地在制造噪聲,而不是幫助模型更接近正確答案。
  • 在實(shí)踐層面(Pragmatic Level),更長(zhǎng)的推理鏈并不一定帶來(lái)更好的結(jié)果。跨多個(gè)任務(wù)和模型,推理長(zhǎng)度的增加常常導(dǎo)致邊際收益下降,甚至出現(xiàn)「思考越久、答得越差」的情況。同時(shí),冗長(zhǎng)的推理鏈帶來(lái)更多 token 消耗、更高延遲和更大算力開(kāi)銷,使得長(zhǎng)推理在實(shí)際應(yīng)用中既昂貴又不可靠。

模型推理為什么會(huì)「越想越偏」?

為了進(jìn)一步量化模型「思考效率」,研究團(tuán)隊(duì)從兩個(gè)層面構(gòu)建了一個(gè)系統(tǒng)評(píng)價(jià)框架。

1. 全局視角:InfoBias(信息偏差)

將模型的推理鏈與理想推理路徑比對(duì),使用互信息估計(jì)偏差:

偏差越大,說(shuō)明模型「越想越偏」。

在 GSM8K 數(shù)據(jù)集上的實(shí)驗(yàn)清晰地展示了這一規(guī)律:錯(cuò)誤答案往往伴隨更長(zhǎng)的推理鏈和更高的 InfoBias。越是錯(cuò)誤的答案,模型往往輸出更多的 token。



圖 2:在 GSM8K 數(shù)據(jù)集上,不同模型的平均推理長(zhǎng)度與歸一化后的每個(gè) token 信息偏差關(guān)系。

2. 局部視角:InfoGain(信息增益)

定義每個(gè)推理步驟降低答案空間熵的量:



如果某一步?jīng)]降低不確定性,說(shuō)明它提供的不是「有效推理」,而是「填充字?jǐn)?shù)」。

實(shí)驗(yàn)分析表明,模型在推理過(guò)程中表現(xiàn)出逐步降低不確定性和提高對(duì)正確答案的信心的趨勢(shì),即有效推理可以逐步過(guò)濾不確定性并增強(qiáng)預(yù)測(cè)。

即使在推理開(kāi)始前,模型在知識(shí)密集型任務(wù)上也顯示出初始直覺(jué)偏向正確答案,而不同任務(wù)的推理動(dòng)態(tài)存在差異



圖 3:QwQ-32B 在不同推理基準(zhǔn)下的不確定性動(dòng)態(tài)

Adaptive Think

讓模型「有必要才深思,無(wú)必要就直答」

在發(fā)現(xiàn)過(guò)度思考可能降低推理效率后,研究團(tuán)隊(duì)提出了Adaptive Think策略。其核心理念是通過(guò)熵來(lái)衡量模型在推理過(guò)程中的不確定性,并在模型達(dá)到足夠置信度時(shí)主動(dòng)終止推理。

讓模型進(jìn)行「自我監(jiān)控式推理」

在這一框架下,每完成一步推理,模型都會(huì)計(jì)算答案分布的平均熵。當(dāng)熵低于預(yù)設(shè)閾值 α 時(shí),表明模型已經(jīng)具備較高的自信,此時(shí)即可停止推理并輸出答案。該機(jī)制使模型能夠根據(jù)任務(wù)難度靈活調(diào)整思考深度:

  • 對(duì)于簡(jiǎn)單的常識(shí)類問(wèn)題,僅需少量推理步驟即可得到答案,從而節(jié)省計(jì)算資源;
  • 對(duì)于復(fù)雜的數(shù)學(xué)或邏輯問(wèn)題,則會(huì)繼續(xù)深入推理,直至置信度達(dá)到足夠高的水平才終止。



圖 4:四種思考方式的示意圖

該策略體現(xiàn)了模型對(duì)自身信心的動(dòng)態(tài)感知能力,使其能夠在不同任務(wù)類型間自適應(yīng)調(diào)整推理深度,從而兼顧速度與可靠性。

實(shí)驗(yàn)結(jié)果

更準(zhǔn)、更省、更快

最后,研究團(tuán)隊(duì)在 8 個(gè)大模型(包括 5 個(gè)非推理和 3 個(gè)推理模型)、6 個(gè)不同推理類型的 benchmark 上進(jìn)行了完整評(píng)估。

在數(shù)學(xué)任務(wù) GSM8K 與 AIME2025 上,Adaptive Think 在保持準(zhǔn)確率的同時(shí),將平均 Token 消耗減少了一半以上(40.01%-68.25)。例如,在 QwQ-32B 模型上,相比傳統(tǒng)的 Vanilla Think 模式,Adaptive Think 在 AIME2025 上將 Token 使用量減少了 68.25%,而準(zhǔn)確率還提高了 0.93%。這說(shuō)明模型本身早早就「知道正確答案」,冗余的只是大量驗(yàn)證性推理。



表 1:在兩個(gè)數(shù)學(xué)推理基準(zhǔn)上的性能與效率對(duì)比

在知識(shí)、邏輯、常識(shí)等任務(wù)上,Adaptive Think 同樣表現(xiàn)優(yōu)異。在 MMLU-Pro、CommonsenseQA、ProntoQA、MuSR 等多個(gè)數(shù)據(jù)集上觀察到:QwQ-32B 的平均準(zhǔn)確率提升 1.23%,平均 token 減少 42.52%。

在 CommonsenseQA 這種靠直覺(jué)的任務(wù)最顯著,DeepSeek-R1-32B 模型采用 Adaptive Think 后,準(zhǔn)確率幾乎不變,但 Token 消耗減少了超過(guò) 80%。這表明對(duì)于依賴常識(shí)直覺(jué)的問(wèn)題,Adaptive Think 能夠快速終止冗余推理,極大地提升效率



表 2:在知識(shí)、邏輯、常識(shí)推理基準(zhǔn)上的性能與效率對(duì)比

這些實(shí)驗(yàn)驗(yàn)證了一個(gè)關(guān)鍵結(jié)論:大模型的長(zhǎng)推理鏈并非必要,很多時(shí)候它們只需要「少想幾步」

什么時(shí)候應(yīng)該「多想」,

什么時(shí)候應(yīng)該「少想」?

研究團(tuán)隊(duì)進(jìn)一步分析不同任務(wù)的「推理需求」,例如:

  • 數(shù)學(xué)題(AIME2025)→ 需要更深的推理鏈
  • 常識(shí)題(CQA)→ 模型幾乎一開(kāi)始就知道正確答案
  • 多步軟推理(MuSR)→ 有效推理集中在前半段



圖 5&6:Adaptive Think 輸出 token 數(shù)量與題目難度的關(guān)系(左);閾值 α 對(duì)準(zhǔn)確率和 token 數(shù)量的影響,揭示了 推理性能與計(jì)算效率之間的權(quán)衡(右)。

這意味著:

真正成熟的推理大模型,不是輸出固定長(zhǎng)度的推理,而是能夠「自動(dòng)匹配任務(wù)難度」。

總結(jié)

這篇論文給我們帶來(lái)一個(gè)很重要的理念:AI 推理的未來(lái)不在「更長(zhǎng)」,而在「更聰明」

未來(lái)的大模型應(yīng)該:1)在需要深度邏輯時(shí)能推理得足夠嚴(yán)謹(jǐn);2)在只需直覺(jué)判斷時(shí)不浪費(fèi) token;3)能動(dòng)態(tài)適應(yīng)任務(wù)難度;4)在推理過(guò)程中實(shí)時(shí)自我評(píng)估,隨時(shí)剎車。

這項(xiàng)工作既解釋了「為什么模型會(huì)過(guò)度推理」,也告訴我們「如何簡(jiǎn)單有效地解決」。

如果說(shuō)強(qiáng)化學(xué)習(xí)讓模型學(xué)會(huì)了「怎么想」,那么 Adaptive Think 讓模型學(xué)會(huì)了 「想多久」。

這是推理大模型走向成熟的關(guān)鍵一步。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
42歲沈佳妮健身照,腰臀比封神,終于懂朱亞文為啥說(shuō)生理性喜歡

42歲沈佳妮健身照,腰臀比封神,終于懂朱亞文為啥說(shuō)生理性喜歡

瓜農(nóng)娟姐
2025-12-12 20:46:55
烏克蘭最高拉達(dá)會(huì)場(chǎng)爆發(fā)激烈斗毆,女議員封鎖演講臺(tái),要求烏軍總司令必須下臺(tái),稱其“前線謊報(bào)軍情致人死亡”

烏克蘭最高拉達(dá)會(huì)場(chǎng)爆發(fā)激烈斗毆,女議員封鎖演講臺(tái),要求烏軍總司令必須下臺(tái),稱其“前線謊報(bào)軍情致人死亡”

揚(yáng)子晚報(bào)
2025-12-17 09:34:45
TVB播出最新外購(gòu)劇,兩大港星時(shí)隔25年再續(xù)前緣!

TVB播出最新外購(gòu)劇,兩大港星時(shí)隔25年再續(xù)前緣!

TVB劇評(píng)社
2025-12-19 20:59:51
WCBA首勝新疆!“更好的盛帆還在后面!”

WCBA首勝新疆!“更好的盛帆還在后面!”

湖報(bào)體育
2025-12-19 23:53:33
隨著CBA廣東97-94險(xiǎn)勝?gòu)V州,一戰(zhàn)打出8個(gè)意想不到和3個(gè)真事實(shí)!

隨著CBA廣東97-94險(xiǎn)勝?gòu)V州,一戰(zhàn)打出8個(gè)意想不到和3個(gè)真事實(shí)!

田先生籃球
2025-12-19 21:59:18
1996年甲A聯(lián)賽最佳陣容

1996年甲A聯(lián)賽最佳陣容

K唐伯虎
2025-12-19 08:07:59
李光耀:新加坡七成是華人,除非打倒我,否則漢語(yǔ)永遠(yuǎn)不能成國(guó)語(yǔ)

李光耀:新加坡七成是華人,除非打倒我,否則漢語(yǔ)永遠(yuǎn)不能成國(guó)語(yǔ)

老范談史
2025-12-18 21:26:11
普京否認(rèn)對(duì)烏克蘭平民死亡負(fù)責(zé):這場(chǎng)戰(zhàn)爭(zhēng)不是我們發(fā)動(dòng)的

普京否認(rèn)對(duì)烏克蘭平民死亡負(fù)責(zé):這場(chǎng)戰(zhàn)爭(zhēng)不是我們發(fā)動(dòng)的

桂系007
2025-12-19 22:56:27
現(xiàn)在是12月19號(hào)深夜,剛剛傳來(lái)6個(gè)驚天大消息,要來(lái)大動(dòng)作了嗎?

現(xiàn)在是12月19號(hào)深夜,剛剛傳來(lái)6個(gè)驚天大消息,要來(lái)大動(dòng)作了嗎?

股市皆大事
2025-12-19 21:23:56
澳大利亞奪槍救人男子在病床上獲贈(zèng)250萬(wàn)澳元支票,約合人民幣1160萬(wàn)元

澳大利亞奪槍救人男子在病床上獲贈(zèng)250萬(wàn)澳元支票,約合人民幣1160萬(wàn)元

極目新聞
2025-12-19 11:04:25
四川盆地首個(gè)致密油田誕生!

四川盆地首個(gè)致密油田誕生!

環(huán)球網(wǎng)資訊
2025-12-19 20:36:05
觸目驚心!柬埔寨電詐窩點(diǎn)繳獲物資曝光,別再信海外高薪了!

觸目驚心!柬埔寨電詐窩點(diǎn)繳獲物資曝光,別再信海外高薪了!

老特有話說(shuō)
2025-12-19 23:20:46
湘潭一村民組開(kāi)會(huì)決議將“外嫁女”所得法院執(zhí)行款項(xiàng)從其親屬頭上扣除,村支書:對(duì)決議不知情,未簽字批準(zhǔn)

湘潭一村民組開(kāi)會(huì)決議將“外嫁女”所得法院執(zhí)行款項(xiàng)從其親屬頭上扣除,村支書:對(duì)決議不知情,未簽字批準(zhǔn)

紅星新聞
2025-12-20 00:33:11
蘋果首款折疊屏手機(jī)展開(kāi)尺寸逼近iPad mini,或成2026年最“寬”手機(jī)

蘋果首款折疊屏手機(jī)展開(kāi)尺寸逼近iPad mini,或成2026年最“寬”手機(jī)

環(huán)球網(wǎng)資訊
2025-12-18 12:45:08
賣房到底有多慘?又有人虧了50%賣,還帶裝修…

賣房到底有多慘?又有人虧了50%賣,還帶裝修…

慧翔百科
2025-11-17 12:16:38
外媒:美民主黨議員限制特朗普對(duì)委開(kāi)戰(zhàn)努力受挫

外媒:美民主黨議員限制特朗普對(duì)委開(kāi)戰(zhàn)努力受挫

參考消息
2025-12-18 20:53:09
固態(tài)電池出現(xiàn)變數(shù),安全測(cè)試全軍覆沒(méi)?

固態(tài)電池出現(xiàn)變數(shù),安全測(cè)試全軍覆沒(méi)?

環(huán)球零碳
2025-12-17 21:22:14
邱毅:流傳的屠殺中國(guó)人的日本軍官照片是高市早苗祖父高市利彥!

邱毅:流傳的屠殺中國(guó)人的日本軍官照片是高市早苗祖父高市利彥!

南權(quán)先生
2025-12-16 16:22:32
時(shí)隔近10年,南京樓面地價(jià)紀(jì)錄被刷新!河西名品城地塊溢價(jià)成交,樓面價(jià)45325元/㎡

時(shí)隔近10年,南京樓面地價(jià)紀(jì)錄被刷新!河西名品城地塊溢價(jià)成交,樓面價(jià)45325元/㎡

新浪財(cái)經(jīng)
2025-12-19 12:48:51
泰國(guó)空襲柬埔寨,沖突事件再升級(jí)!約80萬(wàn)人被迫離開(kāi)家園

泰國(guó)空襲柬埔寨,沖突事件再升級(jí)!約80萬(wàn)人被迫離開(kāi)家園

7號(hào)觀察室
2025-12-20 01:50:43
2025-12-20 04:56:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142513關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來(lái)

頭條要聞

普京:俄方愿在烏克蘭選舉期間暫時(shí)停止打擊

頭條要聞

普京:俄方愿在烏克蘭選舉期間暫時(shí)停止打擊

體育要聞

“惡龍”埃托奧,正在毀滅喀麥隆足球

娛樂(lè)要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

日元加息,恐慌來(lái)了?貨幣三國(guó)殺

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

時(shí)尚
本地
房產(chǎn)
親子
家居

痛經(jīng)的女性,正在猛灌中男“保健酒”

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

房產(chǎn)要聞

廣州有態(tài)度,一座國(guó)際化社區(qū)給出的城市答案

親子要聞

寶媽必學(xué),為什么教孩子不舒服的觸摸要拒絕是錯(cuò)誤的?

家居要聞

高端私宅 理想隱居圣地

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版