騰訊AI團隊突破：讓AI學會自我指導，解決智能推理的根本難題

2025-12-19 17:50:18　來源: 科技行者

北京舉報

分享至

這項由騰訊AI實驗室的梁振文、陸斯迪、俞文浩、基山·帕納甘蒂、周宇君、米海濤和俞棟等人共同完成的研究發(fā)表于2025年12月，論文編號為arXiv:2512.15687v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。這個研究團隊中還有一位來自圣母大學的研究人員周宇君，形成了產(chǎn)學研的有力合作。

當我們教孩子解決數(shù)學題時，通常會鼓勵他們嘗試不同的方法。如果一個孩子總是用同一種方式解題，即使答案正確，我們也會擔心他的思維過于狹窄。同樣的問題也困擾著人工智能的訓練過程。目前的AI模型在學習推理時，就像那個只會一種解題方法的孩子，容易陷入思維定勢。

騰訊的研究團隊發(fā)現(xiàn)了一個關鍵問題：現(xiàn)有的AI訓練方法在鼓勵模型探索新思路時，采用的策略就像是盲人摸象。這些方法要么簡單地增加輸出的隨機性，要么依賴外部的評判標準來衡量多樣性，但都沒有真正理解AI模型內部是如何學習和更新的。這就好比一個教練在指導運動員訓練時，從來不觀察運動員的肌肉反應和身體狀態(tài)，只是盲目地要求運動員做各種不同的動作。

研究團隊提出了一個革命性的想法：讓AI模型觀察自己的"思考過程"，根據(jù)自己的學習需求來指導探索方向。他們開發(fā)了一種叫做G?RL（梯度引導強化學習）的新方法。這個方法的核心思想是，AI模型可以通過分析自己的"神經(jīng)反應"來判斷不同的解題路徑是否能提供新的學習價值。

一、AI探索學習的困境：為什么現(xiàn)有方法像在黑暗中摸索

要理解這項研究的突破性，我們需要先了解AI模型是如何學習推理的。當AI模型學習解決數(shù)學題時，它會生成多個不同的解答，然后根據(jù)這些解答的正確性來調整自己的"思維模式"。這個過程類似于學生做練習題后老師批改并給出指導。

然而，傳統(tǒng)的訓練方法存在一個根本缺陷。它們在鼓勵AI生成多樣化答案時，使用的標準與AI實際的學習機制是脫節(jié)的。比如，有些方法會簡單地增加AI輸出的隨機性，這就像要求學生在考試時隨機選擇答案一樣，表面上看起來很多樣，但對真正的學習毫無幫助。

另一些方法則依賴外部的語義相似度模型來評判答案的多樣性。這種做法的問題在于，外部評判器對"多樣性"的理解與AI模型的內在學習需求并不一致。就像一個不懂音樂的人試圖指導音樂家練習一樣，可能會認為兩首曲子聽起來很不同，但實際上它們在音樂理論上可能沒有本質區(qū)別。

更關鍵的是，這些方法都忽略了AI學習的本質機制。AI模型的學習過程實際上是通過調整內部參數(shù)來改善表現(xiàn)，這些參數(shù)的調整方向被稱為"梯度"。如果兩個看似不同的答案實際上引導模型朝著相同的方向調整參數(shù)，那么從學習效果來看，它們就是冗余的。這就像兩條看起來不同的路徑，如果最終都通向同一個目的地，對于旅行者來說實際價值是相同的。

研究團隊通過深入分析發(fā)現(xiàn)，傳統(tǒng)方法產(chǎn)生的"多樣化"答案中，很多在優(yōu)化空間中實際上是高度相似的，這導致AI模型的學習過程缺乏真正有效的探索，容易陷入局部最優(yōu)解，就像一個人總是走同一條路上班，永遠不知道是否有更好的路線。

二、G?RL方法的核心創(chuàng)新：讓AI成為自己的探索指南

G?RL方法的突破在于它讓AI模型能夠"內視"自己的學習過程，根據(jù)自己的梯度信息來指導探索方向。這個概念可以用一個生動的比喻來理解：傳統(tǒng)方法就像讓一個盲人在陌生環(huán)境中探索，只能依靠外人的指導，而G?RL則給了這個人一套內在的感知系統(tǒng)，讓他能夠感受到不同路徑對自己身體的影響，從而做出更明智的選擇。

具體來說，G?RL方法的工作原理是這樣的：當AI模型生成一個答案時，研究團隊設計了一種方法來提取這個答案對應的"梯度特征"，這個特征可以理解為答案對模型參數(shù)調整方向的影響程度。這個提取過程非常巧妙，它只需要利用模型正常推理過程中已經(jīng)計算的信息，不需要額外的計算負擔，就像在汽車行駛過程中順便記錄路面狀況一樣。

在獲得每個答案的梯度特征后，G?RL會比較同一組答案之間的特征相似性。如果一個答案的梯度特征與其他正確答案的特征高度相似，說明這個答案在學習價值上是冗余的，就像一首歌的不同版本，雖然聽起來可能略有不同，但給人的情感體驗基本相同。相反，如果一個答案的梯度特征與其他答案正交或相反，說明它能為模型提供全新的學習信息，就像在音樂創(chuàng)作中加入了全新的和弦進行。

G?RL方法還設計了一個巧妙的獎勵調節(jié)機制。對于正確答案，如果其梯度特征顯示出高度的新穎性，系統(tǒng)會給予額外的獎勵，鼓勵模型繼續(xù)探索這類解題路徑。對于錯誤答案，如果其梯度特征與正確答案接近，說明這個錯誤可能是"接近正確"的，系統(tǒng)會減輕懲罰，避免模型完全放棄這個有潛力的思路。反之，如果錯誤答案的梯度特征與正確答案相差甚遠，說明這可能是完全錯誤的方向，系統(tǒng)會加重懲罰。

這種機制的精妙之處在于它實現(xiàn)了自適應的探索指導。就像一個經(jīng)驗豐富的老師，能夠根據(jù)學生的具體表現(xiàn)給出針對性的指導，既鼓勵有價值的創(chuàng)新嘗試，又及時糾正明顯的錯誤方向。

三、實驗驗證：在多個數(shù)學推理任務上的卓越表現(xiàn)

為了驗證G?RL方法的有效性，研究團隊在多個具有挑戰(zhàn)性的數(shù)學推理任務上進行了全面測試。這些測試就像是給AI學生安排了從基礎到高級的各種數(shù)學考試，包括MATH500、AMC、AIME24、AIME25等知名數(shù)學競賽數(shù)據(jù)集，還包括GPQA和MMLUpro等綜合推理任務。

實驗采用了兩個不同規(guī)模的Qwen3基礎模型：1.7B和4B參數(shù)版本。這種對比設計就像是同時測試小學生和中學生的學習效果，能夠驗證方法在不同能力水平上的普適性。

在最關鍵的單次答題準確率（pass@1）指標上，G?RL方法在所有測試任務上都取得了顯著提升。在1.7B模型上，AIME25任務的單次準確率從基礎方法的4.6%提升到7.5%，這個63%的相對提升是相當顯著的。在更大的4B模型上，AIME25的單次準確率更是從17.5%提升到20.1%。這種提升不僅在數(shù)字上令人印象深刻，更重要的是它表明AI模型真正學會了更有效的推理方法。

在多樣性采樣方面，G?RL方法也表現(xiàn)出色。maj@16指標衡量的是在16次嘗試中通過多數(shù)投票得出正確答案的能力，這類似于讓學生同時用多種方法解決問題，然后選擇最可信的答案。在這個指標上，G?RL在AIME25任務中將4B模型的表現(xiàn)從23.9%提升到29.0%，顯示出該方法不僅提高了單次答題的質量，還增強了模型生成互補性解答的能力。

特別值得關注的是訓練動態(tài)分析。研究團隊發(fā)現(xiàn)，與傳統(tǒng)的熵獎勵方法相比，G?RL方法能夠更快地提升準確率，同時保持合理的響應長度增長。這表明G?RL鼓勵的是有意義的推理擴展，而不是簡單的詞匯堆砌。傳統(tǒng)方法往往會導致熵值的無控制增長，就像學生為了顯示思考過程而寫出冗長但無用的解答，而G?RL則能引導模型產(chǎn)生既詳細又有針對性的推理。

四、探索幾何的深層分析：發(fā)現(xiàn)AI學習的隱藏模式

研究團隊進行了一項特別有趣的幾何分析，來理解G?RL方法為什么如此有效。他們分析了不同方法生成的答案在梯度空間中的分布模式，這項分析就像是觀察學生解題思路在思維地圖上的分布情況。

分析結果揭示了一個令人震驚的發(fā)現(xiàn)：傳統(tǒng)的GRPO方法生成的答案雖然在語義上看起來多樣，但在梯度空間中卻高度聚集，平均余弦相似度高達0.208。這意味著這些看似不同的答案實際上都在推動模型朝著相同的方向學習，就像多個學生用不同的表述方式說同一件事。

更關鍵的是，研究團隊發(fā)現(xiàn)了梯度空間中"負相似度"的重要性。當兩個答案的梯度特征呈現(xiàn)負相似度時，意味著它們在優(yōu)化空間中指向相反的方向，這種對立能夠為模型提供更全面的學習信號。傳統(tǒng)GRPO方法中只有5.9%的答案對存在負相似度，而G?RL方法將這個比例大幅提升到28.1%，增加了近5倍。

這個發(fā)現(xiàn)的深層含義非常重要。在機器學習中，互相對立的梯度方向能夠幫助模型避免陷入局部最優(yōu)解，就像在登山時，如果只知道一個方向是向上的，可能會錯過真正的山頂，但如果能夠從多個相反的角度觀察地形，就更容易找到全局最優(yōu)路徑。

令人驚訝的是，G?RL方法在大幅增加梯度多樣性的同時，實際上保持了更高的語義一致性。在外部語義編碼器的評估中，G?RL生成的答案平均語義相似度為0.769，高于傳統(tǒng)方法的0.738。這表明G?RL方法能夠在保持主題相關性和邏輯連貫性的前提下，最大化學習價值的多樣性。這種平衡就像一個優(yōu)秀的音樂家，能夠在保持音樂主題統(tǒng)一的同時，運用豐富多樣的變奏技巧。

五、理論洞察：重新理解AI探索的本質

G?RL方法的成功不僅在于實驗結果，更在于它揭示了AI探索學習的深層理論原理。研究團隊通過嚴格的數(shù)學分析證明了一個重要觀點：AI模型的所有參數(shù)更新都可以分解為通過最后一層特征的線性變換，這意味著最后一層的梯度特征實際上是整個網(wǎng)絡學習信號的關鍵瓶頸。

這個發(fā)現(xiàn)可以用一個水管系統(tǒng)來比喻：雖然整個供水系統(tǒng)有很多管道和閥門，但如果有一個關鍵的主管道控制著水流方向，那么通過監(jiān)控這個主管道的水流模式，就能了解整個系統(tǒng)的工作狀態(tài)。在AI模型中，最后一層就是這樣的主管道，它的梯度特征反映了整個網(wǎng)絡的學習趨勢。

基于這個理論基礎，G?RL方法不是簡單地增加輸出的表面多樣性，而是在優(yōu)化的根本層面上引導探索。這種方法解決了一個長期存在的問題：如何在稀疏獎勵環(huán)境中進行有效的信用分配。在數(shù)學推理任務中，答案要么完全正確，要么完全錯誤，沒有中間狀態(tài)。這種二元獎勵使得傳統(tǒng)方法難以區(qū)分不同正確答案的學習價值。

G?RL通過梯度引導的獎勵調節(jié)機制，實現(xiàn)了更精細的信用分配。即使在相同的正確性類別中，不同答案也會根據(jù)其對學習的貢獻程度獲得不同的權重。這就像一個明智的老師，不僅會表揚答對題目的學生，還會特別鼓勵那些用創(chuàng)新方法解題的學生，因為這些創(chuàng)新思路對整個班級的學習都有更大價值。

六、方法的實用性：簡單高效的工程實現(xiàn)

G?RL方法的另一個重要優(yōu)勢是其實現(xiàn)的簡潔性。整個梯度特征提取過程都可以在模型的正常前向推理過程中完成，不需要額外的反向傳播計算。這種設計就像在汽車行駛過程中順便記錄油耗信息一樣，不會增加額外的計算負擔。

具體的實現(xiàn)過程可以分解為幾個簡單步驟：首先，在模型生成每個詞匯時，系統(tǒng)會記錄最后一層的激活狀態(tài)和詞匯概率分布；然后，通過簡單的矩陣運算計算每個位置的梯度特征；最后，將所有位置的特征加權聚合成序列級別的特征向量。整個過程的計算開銷微不足道，主要消耗在于幾次矩陣-向量乘法運算。

在訓練框架方面，G?RL可以無縫集成到現(xiàn)有的強化學習流水線中。它只是修改了優(yōu)勢函數(shù)的計算方式，保留了PPO（近端策略優(yōu)化）的所有穩(wěn)定性保證和KL散度控制機制。這種設計使得研究人員和工程師可以在最小的代碼修改下體驗G?RL的效果，大大降低了技術采用的門檻。

研究團隊還特別注意了獎勵縮放的穩(wěn)定性。他們將梯度引導的獎勵因子限制在一個有界范圍內，并對最終獎勵進行裁剪，確保訓練過程的穩(wěn)定性。這種保守的設計哲學體現(xiàn)了工程實踐中的重要原則：在追求性能提升的同時，絕不能犧牲系統(tǒng)的穩(wěn)定性和可預測性。

七、更廣泛的適用性：從數(shù)學推理到通用推理

雖然G?RL方法在數(shù)學推理任務上得到了充分驗證，但研究團隊也測試了其在更廣泛推理任務上的表現(xiàn)。在GPQA（研究生級物理、化學、生物問題）和MMLUpro（大規(guī)模多任務理解）等綜合性任務上，G?RL同樣展現(xiàn)出穩(wěn)定的性能提升。

在GPQA任務中，G?RL將單次準確率從37.4%提升到38.7%，16次采樣的通過率從88.9%提升到89.2%。雖然這些提升看起來相對較小，但考慮到GPQA任務的高難度（這些是研究生水平的科學問題），任何性能提升都是值得重視的。更重要的是，這些結果證明了G?RL方法的通用性，它不僅適用于純數(shù)學問題，也能處理需要科學知識和推理能力的復合任務。

在MMLUpro這個包含多個學科領域的大規(guī)�；鶞蕼y試中，G?RL獲得了58.47%的微平均準確率，超過了所有基線方法。這個結果特別有意義，因為它表明梯度引導的探索策略能夠在不同類型的推理任務中都產(chǎn)生積極效果，而不是局限于特定的問題域。

這種廣泛的適用性源于G?RL方法的根本設計理念：它不依賴于特定任務的先驗知識，而是通過觀察模型自身的學習動態(tài)來指導探索。這種任務無關的特性使得G?RL具有很強的可遷移性，就像一種通用的學習策略，無論是學習數(shù)學、物理還是其他學科，都能發(fā)揮作用。

八、未來影響：重塑AI訓練的新范式

G?RL方法的意義遠超其具體的技術實現(xiàn)，它代表了AI訓練范式的一個重要轉向：從外部指導的探索轉向內在驅動的自主學習。這種轉變的深遠影響可能會在多個層面上顯現(xiàn)出來。

在技術層面，G?RL為探索導向的強化學習開辟了新的研究方向。傳統(tǒng)的探索方法主要關注行為空間或狀態(tài)空間的多樣性，而G?RL則直接在優(yōu)化空間中進行探索指導。這種"元優(yōu)化"的思路可能會啟發(fā)更多創(chuàng)新方法，就像開辟了一個全新的研究領域。

在實際應用層面，G?RL方法的成功可能會推動AI系統(tǒng)在各種復雜推理任務中的表現(xiàn)提升。無論是科學研究、工程設計還是創(chuàng)意工作，都需要AI系統(tǒng)具備探索創(chuàng)新解決方案的能力。G?RL提供的自主探索機制可能會讓AI在這些領域中表現(xiàn)得更加出色。

從更宏觀的角度看，G?RL體現(xiàn)了AI系統(tǒng)走向真正自主學習的一個重要步驟。當AI能夠理解和指導自己的學習過程時，它就具備了一種類似于人類自我反思和自我改進的能力。這種能力的發(fā)展可能會是通向更高級人工智能的關鍵環(huán)節(jié)。

當然，這項研究也帶來了新的思考。如果AI系統(tǒng)能夠越來越好地指導自己的學習過程，那么人類在AI發(fā)展中的角色會如何變化？如何確保這種自主學習的AI系統(tǒng)與人類價值觀保持一致？這些問題需要整個AI研究社區(qū)的持續(xù)關注和研究。

說到底，G?RL方法的真正價值不僅在于它解決了當前AI訓練中的一個具體問題，更在于它展示了一種全新的思考AI學習的方式。它告訴我們，最好的探索指導可能不來自外部的啟發(fā)式方法，而是來自AI系統(tǒng)對自身學習過程的深度理解。這種洞察可能會深刻影響未來AI系統(tǒng)的設計和訓練方式，推動整個領域向更加智能和自主的方向發(fā)展。

對于普通人來說，這項研究意味著未來的AI助手可能會具備更強的學習和適應能力，能夠在面對新問題時主動探索最佳解決方案，而不是簡單地重復已知的模式。這將使AI在教育、科研、創(chuàng)作等需要創(chuàng)新思維的領域發(fā)揮更大的作用，為人類社會帶來更多價值。研究團隊的這項工作為我們展現(xiàn)了AI發(fā)展的一個新的可能方向，值得持續(xù)關注其后續(xù)發(fā)展和應用。

Q&A

Q1：G?RL方法是什么，它解決了什么問題？

A：G?RL（梯度引導強化學習）是騰訊AI實驗室開發(fā)的一種新型AI訓練方法。它解決了現(xiàn)有AI訓練中探索方式不夠智能的問題——傳統(tǒng)方法要么簡單增加隨機性，要么依賴外部判斷，都無法真正理解AI內部的學習需求。G?RL讓AI觀察自己的"學習反應"，根據(jù)這些信息來指導自己應該探索哪些新的解題思路。

Q2：G?RL方法在實驗中的表現(xiàn)如何？

A：G?RL在多個數(shù)學推理任務上都取得了顯著提升。在最困難的AIME25數(shù)學競賽題目中，它將AI的單次答題準確率從17.5%提升到20.1%，多數(shù)投票準確率從23.9%提升到29.0%。更重要的是，它讓AI生成的不同解法在學習價值上真正多樣化，相互對立的解題思路增加了近5倍。

Q3：普通人能從G?RL方法的發(fā)展中獲得什么好處？

A：G?RL方法代表了AI學習能力的重要進步，未來基于此技術的AI助手將具備更強的自主學習和問題解決能力。在教育領域，AI可能會提供更多樣化的解題思路；在科研和創(chuàng)作中，AI將能夠主動探索創(chuàng)新方案而非簡單重復已知模式。這將讓AI在需要創(chuàng)新思維的各種任務中為人類提供更有價值的幫助。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.