中國人民大學(xué)團隊找到了讓AI訓(xùn)練"抄近道"的方法

2026-04-21 22:04:30　來源: 科技行者

天津舉報

分享至

這項由中國人民大學(xué)高嶺人工智能學(xué)院與中國礦業(yè)大學(xué)（北京）聯(lián)合開展的研究，以預(yù)印本形式于2026年4月發(fā)表，論文編號為arXiv:2604.11446。研究的核心問題是：訓(xùn)練一個強大的推理AI，真的需要一步一步走完全程嗎？

要說清楚這項研究在做什么，先得聊聊AI是怎么"變聰明"的。現(xiàn)在最流行的方法叫做"強化學(xué)習(xí)"——給AI出一道數(shù)學(xué)題，讓它自己嘗試，答對了就獎勵，答錯了就懲罰，就這樣反復(fù)練習(xí)幾百次，AI的解題能力會顯著提升。這個過程有個專業(yè)名字叫RLVR（基于可驗證獎勵的強化學(xué)習(xí)），DeepSeek、OpenAI的o1等近年最火的推理模型，都是靠這套方法練出來的。

問題也隨之而來。這種訓(xùn)練方式極其耗費計算資源。每一輪練習(xí)，AI都要生成大量嘗試性答案，這就像讓一個學(xué)生每道題都要寫八份不同的解題草稿，然后才能從中學(xué)習(xí)——代價驚人。隨著模型越來越大、問題越來越復(fù)雜，這筆"學(xué)費"正在變得難以承受。

中國人民大學(xué)的研究團隊換了一個思路：既然我們能觀察到AI在訓(xùn)練過程中"參數(shù)"（可以理解為AI大腦內(nèi)部的各種旋鈕和開關(guān)）如何變化，能不能根據(jù)前幾步的變化趨勢，直接預(yù)測未來某步的參數(shù)狀態(tài)，從而跳過中間大量重復(fù)的訓(xùn)練步驟？

這個想法并非沒有先例。此前已有研究者嘗試過"線性外推"的方法——觀察參數(shù)按某個方向變化，然后用直線延伸來預(yù)測未來。然而，該團隊在仔細研究了AI訓(xùn)練過程中參數(shù)的實際變化軌跡后發(fā)現(xiàn)，這些軌跡根本不是一條直線，而是彎彎曲曲的曲線。依靠畫直線來猜曲線終點，誤差自然難以避免。

基于這個發(fā)現(xiàn)，研究團隊提出了一套名為NExt（非線性低秩軌跡外推）的新框架。這套方法的核心思路是：不用直線，改用一個專門訓(xùn)練的"軌跡預(yù)測器"來捕捉參數(shù)變化的真實彎曲規(guī)律，然后做更準(zhǔn)確的預(yù)測跳躍。

實驗結(jié)果表明，NExt只需要250步訓(xùn)練，就能達到傳統(tǒng)方法跑400步才能達到的效果，整體訓(xùn)練時間縮短了約37.5%。對于一個3B參數(shù)的模型，訓(xùn)練時間從18.7小時壓縮到了11.7小時。

一、AI訓(xùn)練為什么這么"費錢"

理解這項研究的價值，先要理解這個"費錢"到底費在哪里。

當(dāng)我們讓AI做強化學(xué)習(xí)時，每訓(xùn)練一步，大致需要經(jīng)歷這樣一個循環(huán)：給AI出一道題，AI生成多個解答（通常是8個甚至更多），評分系統(tǒng)判斷哪些對哪些錯，然后根據(jù)這些結(jié)果更新AI的參數(shù)，告訴它"這種思路更好，那種思路要避免"。

每次更新參數(shù)，AI內(nèi)部成千上萬個矩陣（可以把每個矩陣想象成一張巨大的數(shù)字表格，記錄著神經(jīng)網(wǎng)絡(luò)的連接強度）都會發(fā)生微小的改變。一個7B參數(shù)的模型，其內(nèi)部有數(shù)以億計的參數(shù)需要管理。訓(xùn)練400步，就意味著要重復(fù)這個龐大的循環(huán)400次。

計算量最大的環(huán)節(jié)恰恰是生成答案這一步。生成一個完整的解題過程，AI需要逐字逐詞地輸出，每輸出一個詞都要調(diào)用整個模型進行一次計算。生成8份草稿，就是8次這樣的計算。對于能寫出幾百字推理過程的復(fù)雜問題，這個代價是相當(dāng)可觀的。

研究團隊因此提出了一個根本性的問題：這400步訓(xùn)練是否每一步都不可或缺？參數(shù)從起點到終點的變化，是否存在某種可以提前預(yù)知的規(guī)律，讓我們能夠"預(yù)見未來"，直接跳到更靠近終點的位置，再從那里繼續(xù)訓(xùn)練？

二、大腦里的"主導(dǎo)方向"：低秩子空間究竟是什么

要解釋這項研究，必須先講一個關(guān)鍵概念——低秩子空間，尤其是其中最簡單的"秩-1子空間"。

假設(shè)AI的某一層參數(shù)是一張1000行×1000列的數(shù)字表格，共100萬個數(shù)。要描述這張表格從訓(xùn)練前到某個時間點"變化了多少"，就需要另一張同樣大小的差值表格（研究中稱為"參數(shù)差異矩陣"，即?W）。100萬個數(shù)，存儲和計算都很麻煩。

數(shù)學(xué)家很早就發(fā)現(xiàn)，很多這樣的差異矩陣具有一個特點：雖然它有100萬個數(shù)，但這些數(shù)之間有很強的規(guī)律性，可以用更少的信息來近似描述。最極端的情況是：整張表格幾乎可以由一列數(shù)字和一行數(shù)字的乘積來表達——這就是"秩-1近似"。一列1000個數(shù)加一行1000個數(shù)，只需要2000個數(shù)，就能近似還原一張100萬元素的表格，信息壓縮了500倍。

這個"一列一行"所定義的方向，就叫做"秩-1子空間"，它代表著參數(shù)變化最主要、最集中的那個方向。可以把它理解為：雖然AI的大腦在訓(xùn)練中有無數(shù)細微的調(diào)整，但最核心的變化實際上是朝著某一個主導(dǎo)方向在移動。

研究團隊想知道的是：在RLVR訓(xùn)練過程中，這個主導(dǎo)方向究竟有多"主導(dǎo)"？隨著訓(xùn)練的進行，它的影響力是在增強還是減弱？它的變化規(guī)律是直線還是曲線？

三、兩個關(guān)鍵發(fā)現(xiàn)：LoRA讓主導(dǎo)方向更強，但軌跡是彎曲的

研究團隊做了一系列實驗來回答上面的問題，得出了兩個重要結(jié)論，這兩個結(jié)論共同構(gòu)成了NExt方法的理論基礎(chǔ)。

第一個發(fā)現(xiàn)關(guān)于"主導(dǎo)方向有多強"。研究者用一個叫做"能量比"的指標(biāo)來衡量這個主導(dǎo)方向的影響力——簡單說，就是這個主導(dǎo)方向的變化量，占到參數(shù)總變化量的百分比。如果這個比例接近100%，說明參數(shù)變化幾乎全部集中在一個方向上，低秩近似非常精準(zhǔn)；如果接近0%，說明變化非常分散，低秩近似誤差會很大。

實驗發(fā)現(xiàn)，在訓(xùn)練早期，這個能量比會逐漸升高——說明隨著訓(xùn)練推進，參數(shù)變化越來越集中。更重要的是，當(dāng)使用一種叫做LoRA（低秩適配）的參數(shù)高效微調(diào)方法時，這個能量比會比全參數(shù)微調(diào)高得多。

LoRA是一種訓(xùn)練技巧：不直接修改模型的全部參數(shù)，而是在原始參數(shù)旁邊附加一個小的"適配器"（兩個小矩陣的乘積），只訓(xùn)練這個小適配器。因為適配器本身結(jié)構(gòu)就是低秩的，所以用LoRA訓(xùn)練出來的參數(shù)變化，天然就會更集中在低秩方向上。這就像用一支筆在紙上寫字，筆跡會自然地集中在某些筆畫方向上，而不是隨機涂抹。

這個發(fā)現(xiàn)意味著：用LoRA做RLVR訓(xùn)練，參數(shù)變化會更容易被低秩近似所捕捉，后續(xù)的預(yù)測工作因此更準(zhǔn)確。

第二個發(fā)現(xiàn)關(guān)于"主導(dǎo)方向如何隨時間變化"。研究者用前10個檢查點（訓(xùn)練過程中定期保存的參數(shù)快照）來預(yù)測后5個檢查點的主導(dǎo)方向，使用的是最簡單的線性回歸——也就是假設(shè)變化是勻速直線運動，根據(jù)過去的軌跡畫一條直線推測未來。

結(jié)果令人意外：超過50%的參數(shù)對應(yīng)的主導(dǎo)方向，用線性預(yù)測的效果非常差（R?小于0），有相當(dāng)一部分甚至更差（R?小于-0.5）。R?是衡量預(yù)測質(zhì)量的指標(biāo)，R?為1表示預(yù)測完美，R?為0表示預(yù)測毫無價值，R?為負數(shù)則意味著比"直接用平均值來猜"還要糟糕。

這說明參數(shù)主導(dǎo)方向的演化路徑本質(zhì)上是彎曲的，不能用直線來描述。此前那些依賴線性外推的方法，在預(yù)測遠期參數(shù)時會出現(xiàn)系統(tǒng)性偏差，把模型推向一個偏離最優(yōu)方向的錯誤狀態(tài)。

四、NExt如何工作：一個三步走的預(yù)測方案

基于上述兩個發(fā)現(xiàn)，研究團隊設(shè)計了NExt框架。整個流程可以分為三個階段，下面逐一解釋。

第一階段是"收集訓(xùn)練軌跡"。用LoRA方法對AI進行RLVR訓(xùn)練，在前150步中每10步保存一次參數(shù)快照，共保存15個檢查點。然后，對相鄰檢查點之間的參數(shù)差異、當(dāng)前檢查點與起點之間的參數(shù)差異，以及跨越多步的參數(shù)差異，分別進行計算，并對每個差異矩陣提取其秩-1近似（一個數(shù)值σ、一列向量u、一行向量v）。這三類差異在論文中分別被稱為"局部差異"、"全局差異"和"目標(biāo)差異"。

局部差異反映的是模型最近一步的變化趨勢，類似于"最近在往哪個方向走"；全局差異反映的是從訓(xùn)練起點到現(xiàn)在的累積變化，類似于"總體上已經(jīng)走了多遠、朝著什么方向"；目標(biāo)差異則是預(yù)測器需要學(xué)習(xí)的"答案"，代表著未來若干步后參數(shù)會變化多少。

經(jīng)過秩-1壓縮后，每個參數(shù)矩陣的差異不再是一張龐大的表格，而是三個向量（u、v和一個標(biāo)量σ），參數(shù)量從O(n×m)降低到了O(n+m)，大幅減少了計算開銷。

第二階段是"訓(xùn)練軌跡預(yù)測器"。預(yù)測器是一個相對輕量的神經(jīng)網(wǎng)絡(luò)，采用編碼器-解碼器結(jié)構(gòu)：兩個獨立的編碼器分別處理全局差異和局部差異的向量信息，將它們編碼成隱藏表示；然后將兩個隱藏表示拼接，送入解碼器，輸出預(yù)測的目標(biāo)差異向量。

訓(xùn)練預(yù)測器時，輸入是歷史軌跡中各個檢查點的全局差異和局部差異，輸出目標(biāo)是對應(yīng)的目標(biāo)差異，使用L1損失（絕對值誤差之和）來優(yōu)化。選擇L1而非L2（均方誤差）的原因是：L2在誤差較小時梯度會變得很小，不利于訓(xùn)練收斂；L1則不存在這個問題。

為了保證預(yù)測質(zhì)量，研究者還加入了兩個工程細節(jié)：對預(yù)測出的u和v向量進行歸一化處理（確保它們是單位向量，因為SVD分解得到的奇異向量本來就應(yīng)該是單位向量）；以及將相同維度的向量批量拼接處理，充分利用GPU的并行計算能力加速訓(xùn)練和推理。

第三階段是"預(yù)測并延伸"。訓(xùn)練完預(yù)測器后，對最后一個檢查點的全局差異和局部差異進行提取，送入預(yù)測器得到預(yù)測的目標(biāo)差異向量，重建成預(yù)測的差異矩陣?W，然后用公式 W = W + α·?W 更新模型參數(shù)，其中α是一個"延伸系數(shù)"，默認設(shè)置為1.5。

這里的延伸系數(shù)起到了"適度放大預(yù)測步幅"的作用——預(yù)測器預(yù)測的是訓(xùn)練50步后的狀態(tài)，乘以α=1.5相當(dāng)于讓跳躍更遠一些，直接逼近更靠后的訓(xùn)練效果。得到外推后的模型參數(shù)，再從這個新起點繼續(xù)做100步RLVR訓(xùn)練，最終完成整個NExt流程，總計只需250步。

五、實驗結(jié)果：數(shù)字背后的真實差距

研究團隊在四個不同規(guī)模的模型（1.5B、3B、7B、14B參數(shù)，均為Qwen2.5系列）上進行了系統(tǒng)測試，評估任務(wù)包括五個數(shù)學(xué)競賽題集：AIME2024、AIME2025、AMC2023、Minerva和OlymMATH（簡單版）。

以7B模型為例，傳統(tǒng)GRPO方法（全參數(shù)微調(diào)）訓(xùn)練250步后，五個任務(wù)的平均準(zhǔn)確率為23.1%，訓(xùn)練400步后提升到24.0%；使用NExt只需250步，平均準(zhǔn)確率達到24.2%，不僅超過了400步全參數(shù)訓(xùn)練，也超過了250步和400步的LoRA訓(xùn)練（分別為22.1%和23.5%）。

對比同樣做了RLVR參數(shù)外推的競爭方法，差距更為明顯。AlphaRL在7B模型上250步訓(xùn)練后平均準(zhǔn)確率只有21.6%，RL-Extra是22.7%，而NExt是24.2%。兩個競爭方法都使用了線性外推策略，實驗結(jié)果的差距直接印證了"參數(shù)軌跡是彎曲的，線性假設(shè)會帶來偏差"這一核心論斷。

研究者還專門引入了一個綜合衡量指標(biāo)——增量成本效益比（ICER），計算方式是"訓(xùn)練步數(shù)除以性能提升量再乘以100%"，數(shù)值越低表示每花一份資源能獲得的性能提升越大。NExt在7B模型上的ICER為49.0，而GRPO全參數(shù)250步為62.5、AlphaRL為100.0。

在資源消耗的直接對比上，用4×A800服務(wù)器測試，3B模型的GRPO訓(xùn)練需要18.7小時，NExt只需11.7小時；1.5B模型從12小時降到7.4小時，均實現(xiàn)了約37.5%的時間節(jié)省。特別值得注意的是，NExt新引入的SVD計算、預(yù)測器訓(xùn)練和外推操作，在整體時間中占比極小，幾乎可以忽略不計，節(jié)省的時間完全來自減少了RLVR訓(xùn)練步數(shù)。

14B模型的表現(xiàn)同樣出色。傳統(tǒng)GRPO400步平均準(zhǔn)確率為27.7%，而NExt只需250步就達到28.3%，ICER僅為33.3，是所有方法中效率最高的。

六、穩(wěn)健性驗證：方法的邊界和適用范圍

一項好的方法必須經(jīng)得起各種條件下的檢驗，研究團隊為此設(shè)計了多組補充實驗。

關(guān)于延伸系數(shù)α的敏感性，研究者測試了α從0.5到4.0的八個取值。當(dāng)α在0.5到2.5之間時，模型性能相當(dāng)穩(wěn)定，始終好于外推前的狀態(tài)，說明方法對這個超參數(shù)不敏感；當(dāng)α超過2.5后，性能開始出現(xiàn)波動，α極大時性能可能下降。這個現(xiàn)象同時也從側(cè)面證明了線性外推的局限性：用純線性方法放大步長，不穩(wěn)定性會隨之迅速增加，而NExt的預(yù)測-延伸結(jié)構(gòu)能在一定程度上緩解這個問題。

消融實驗中，研究團隊逐一"拆掉"NExt的不同組件來測試每部分的貢獻。去掉LoRA改用全參數(shù)微調(diào)（保持其他設(shè)置不變），性能明顯下降，證實了LoRA對提升秩-1子空間主導(dǎo)性的實際作用。去掉全局差異（只用局部差異做預(yù)測），或者去掉局部差異（只用全局差異），性能都會下降，而且后續(xù)再做RLVR訓(xùn)練也無法完全彌補。這說明兩類信息缺一不可：全局差異提供了訓(xùn)練積累的方向感，局部差異提供了當(dāng)前變化的即時信息，二者結(jié)合才能準(zhǔn)確估計未來的變化趨勢。

關(guān)于算法普適性，研究團隊將NExt與兩種不同的RLVR算法（RLOO和REINFORCE++）結(jié)合測試。以3B模型為例，RLOO傳統(tǒng)訓(xùn)練400步平均準(zhǔn)確率為27.3%，接入NExt后250步達到28.5%；REINFORCE++傳統(tǒng)400步為26.5%，NExt250步達到27.9%。兩種算法下NExt都表現(xiàn)出同樣的加速效果，證明該方法不依賴于具體RL算法的特性，可以作為通用加速模塊使用。

關(guān)于任務(wù)遷移能力，研究團隊還在MMLU-Pro（涵蓋生物、商業(yè)、化學(xué)、計算機科學(xué)、經(jīng)濟、工程、健康、歷史、法律、數(shù)學(xué)、哲學(xué)、物理、心理、其他等14個學(xué)科的多選題綜合測試）和GPQA Diamond（研究生級別的科學(xué)知識問答）上進行了測試。在MMLU-Pro上，NExt在250步內(nèi)就能達到GRPO 400步的平均水準(zhǔn)，并在多個子領(lǐng)域（如數(shù)學(xué)、化學(xué)、心理學(xué)等）超過所有基線方法。在GPQA任務(wù)上，NExt在獲得相近甚至更好準(zhǔn)確率的同時，GPU小時數(shù)明顯低于傳統(tǒng)RLVR，外推步驟本身消耗的算力極小。這些結(jié)果表明，NExt的加速效果并不局限于數(shù)學(xué)推理，可以推廣到更廣泛的知識密集型任務(wù)。

七、與同類方法的核心差異

研究團隊在論文中整理了一張對比表，將NExt與其他參數(shù)外推方法系統(tǒng)對比。在這之前已經(jīng)有多種外推方法存在，但它們可以歸為幾類不同的路線。

WSM和MAEC主要用于預(yù)訓(xùn)練階段，前者通過合并多個檢查點的權(quán)重來獲得更平穩(wěn)的優(yōu)化軌跡，后者專門識別并外推模型中的關(guān)鍵神經(jīng)元，兩者都依賴線性組合。DARE是SFT階段的方法，通過隨機丟棄一部分參數(shù)后進行線性外推，降低對原始知識的干擾。Greedy Soup同樣用于SFT，將多個微調(diào)版本的參數(shù)做線性平均。

專為RLVR設(shè)計的AlphaRL和RL-Extra，是NExt最直接的競爭對手。AlphaRL對全參數(shù)進行訓(xùn)練，然后對秩-1子空間進行線性外推；RL-Extra對全參數(shù)進行線性外推。兩者的共同缺陷是對線性假設(shè)的依賴。ExPO則應(yīng)用于對齊階段，同樣是全參數(shù)的線性外推。

NExt在這張表里的獨特之處體現(xiàn)在兩個維度：訓(xùn)練時只優(yōu)化LoRA適配器而非全部參數(shù)，外推時使用非線性預(yù)測器而非線性公式。這兩個設(shè)計分別對應(yīng)前文所述的兩個核心發(fā)現(xiàn)：LoRA能放大秩-1子空間的主導(dǎo)性，非線性預(yù)測能更準(zhǔn)確地捕捉彎曲的演化軌跡。

說到底，這項研究做的事情用一句話概括就是：以前人們以為AI訓(xùn)練過程中參數(shù)的變化是走直路，所以用尺子量了前幾步，然后順著直線預(yù)測終點；NExt發(fā)現(xiàn)這條路其實是彎的，于是訓(xùn)練了一個能感知彎度的預(yù)測工具，預(yù)測得更準(zhǔn)，跳躍的也更遠。

37.5%的時間節(jié)省，對個人研究者來說可能意味著幾天的等待變成了幾個小時；對大型研究機構(gòu)來說，則意味著每次訓(xùn)練都能節(jié)省可觀的電費和算力成本。更重要的是，這套方法揭示了一個此前被忽視的事實：AI在強化學(xué)習(xí)訓(xùn)練中，內(nèi)部參數(shù)的變化并非單調(diào)線性，而是有著更豐富的非線性結(jié)構(gòu)，這個結(jié)構(gòu)是可以被學(xué)習(xí)和利用的。

有興趣深入了解技術(shù)細節(jié)的讀者，可以通過arXiv編號2604.11446查閱完整論文，代碼已在GitHub上的RUCAIBox/NExt倉庫公開發(fā)布。

Q&A

Q1：NExt方法的"延伸系數(shù)α"設(shè)為多少比較合適，太大或太小有什么影響？

A：根據(jù)實驗結(jié)果，延伸系數(shù)α在0.5到2.5之間時，模型性能相當(dāng)穩(wěn)定，而且都能好于外推前的狀態(tài)。論文中默認使用α=1.5。當(dāng)α超過2.5后，性能開始出現(xiàn)波動，α極大時模型表現(xiàn)甚至可能變差。這是因為延伸系數(shù)本質(zhì)上是在做線性放大，放大倍數(shù)過大時線性外推的不穩(wěn)定性就會暴露出來。所以實際使用時建議選1.0到2.0之間，不要設(shè)得太激進。

Q2：NExt中的"秩-1子空間"為什么能代表參數(shù)變化的主要信息？

A：參數(shù)差異矩陣經(jīng)過奇異值分解（SVD）后，會得到一系列按重要性排序的"方向"。秩-1子空間對應(yīng)其中最重要的那個方向，它的"能量比"（即這個方向的變化量占總變化量的比例）在LoRA訓(xùn)練過程中會持續(xù)升高，表明參數(shù)變化越來越集中在這一個方向上。用秩-1近似，參數(shù)量從O(n×m)壓縮到O(n+m)，信息損失卻很小，因此既高效又準(zhǔn)確。

Q3：NExt適用于哪些AI訓(xùn)練場景，只能用于數(shù)學(xué)推理任務(wù)嗎？

A：不局限于數(shù)學(xué)推理。論文在MMLU-Pro（14個學(xué)科的綜合知識測試）和GPQA Diamond（研究生級別科學(xué)問答）上同樣驗證了NExt的有效性，均能在更少訓(xùn)練步數(shù)內(nèi)達到傳統(tǒng)方法的效果。此外，NExt也不依賴特定的強化學(xué)習(xí)算法，與GRPO、RLOO、REINFORCE++都能兼容，屬于通用的訓(xùn)練加速模塊，理論上可以應(yīng)用于任何基于RLVR范式的LLM訓(xùn)練場景。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.