網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

復(fù)旦提出簡(jiǎn)單指標(biāo)，找出推理蒸餾中真正有教學(xué)價(jià)值的數(shù)據(jù)

2026-01-28 14:00:43　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

什么樣的思維鏈，能「教會(huì)」學(xué)生更好地推理？

許多人都有這樣的學(xué)習(xí)體驗(yàn)：內(nèi)容過于熟悉，難以帶來新的收獲；內(nèi)容過于陌生，又往往超出理解能力，難以消化吸收。

類似的現(xiàn)象同樣出現(xiàn)在大語言模型的推理蒸餾中。來自能力更強(qiáng)的教師模型的思維鏈，可能過于晦澀，學(xué)生模型難以掌握其推理模式；而與學(xué)生認(rèn)知相近的教師模型，其推理軌跡又常常缺乏新信息，難以帶來實(shí)質(zhì)提升。

因此，要獲得理想的蒸餾效果，關(guān)鍵在于為不同學(xué)生模型選擇恰好合適的數(shù)據(jù)，在「熟悉」與「陌生」之間找到最佳平衡。然而，現(xiàn)有基于概率的篩選或度量方法（如 Perplexity）難以刻畫這種細(xì)粒度的適配關(guān)系。

那么，是否存在一種直觀且易于計(jì)算的數(shù)據(jù)適配度指標(biāo)，能夠量化這種平衡？

來自復(fù)旦大學(xué)和上海人工智能實(shí)驗(yàn)室的研究者提出了一種簡(jiǎn)單而有效的度量方法，Rank-Surprisal Ratio (RSR)：

RSR 從學(xué)生模型的視角出發(fā)，綜合考慮樣本的信息量與對(duì)齊程度，旨在找出那些既足夠「新」，又未超出學(xué)生認(rèn)知邊界的推理數(shù)據(jù)。

在大規(guī)模蒸餾實(shí)驗(yàn)中，RSR 與學(xué)生模型后訓(xùn)練性能的相關(guān)性高達(dá) 0.86，并且可以直接用于篩選推理軌跡以及選擇教師模型，無需實(shí)際訓(xùn)練即可找到更合適的思維鏈數(shù)據(jù)。

論文鏈接：https://arxiv.org/pdf/2601.14249
代碼鏈接：https://github.com/UmeanNever/RankSurprisalRatio

反直覺的現(xiàn)象

長(zhǎng)思維鏈（CoT）的生成被普遍認(rèn)為是大模型推理能力的核心。相應(yīng)地，包含長(zhǎng)思維鏈的推理軌跡常被視為高質(zhì)量的監(jiān)督信號(hào)，可以用于有監(jiān)督微調(diào)（SFT）訓(xùn)練學(xué)生模型，或助力強(qiáng)化學(xué)習(xí)的冷啟動(dòng)。

但越來越多的實(shí)驗(yàn)呈現(xiàn)出一個(gè)反直覺現(xiàn)象：教師模型越強(qiáng)，學(xué)生模型未必學(xué)得越好。

在這篇工作中，作者系統(tǒng)性地構(gòu)建了 11 個(gè) teacher（教師模型）× 5 個(gè) student（學(xué)生模型）的蒸餾實(shí)驗(yàn)，覆蓋從 4B 到 671B 的主流推理模型。結(jié)果顯示：

teacher 的參數(shù)規(guī)模、推理準(zhǔn)確率與 student 的推理提升相關(guān)性很弱；
同一個(gè) teacher 的數(shù)據(jù)在不同 student 上的訓(xùn)練效果差異顯著；
跨模型家族的 teacher（如 GPT-OSS → Qwen）往往效果更差；
推理數(shù)據(jù)是否「適合」當(dāng)前 student 是關(guān)鍵。

表一：蒸餾實(shí)驗(yàn)結(jié)果，在多個(gè)數(shù)學(xué) benchmark 上評(píng)測(cè) student 模型使用 teacher 數(shù)據(jù)訓(xùn)練后的性能。

現(xiàn)有數(shù)據(jù)篩選方法的問題

當(dāng)前主流的數(shù)據(jù)篩選或評(píng)估方法，大多依賴一個(gè)信號(hào)：student 模型生成該數(shù)據(jù)的概率（perplexity /log-likelihood/surprisal），認(rèn)為 student 覺得「自然」的數(shù)據(jù)就更容易學(xué)。

但問題在于：

太「自然」的推理數(shù)據(jù)，往往信息增量有限；
真正有價(jià)值的推理數(shù)據(jù)，恰恰是 student 尚未充分掌握的部分。

這就引出了論文試圖解決的核心矛盾 ——Informative Alignment Challenge：如何在提供新知識(shí)的 informativeness 與符合學(xué)生當(dāng)前認(rèn)知的 alignment 之間取得平衡？

關(guān)鍵洞察

「絕對(duì)陌生 (Absolute unfamiliarity) + 相對(duì)熟悉 (Relative familiarity)」的推理數(shù)據(jù)最有學(xué)習(xí)價(jià)值

面對(duì)看似難以兼顧的「熟悉 - 陌生」的平衡，作者從 token 級(jí)別重新審視 student 的預(yù)測(cè)分布，提出一個(gè)直觀、但之前被忽略的視角：

Informativeness 關(guān)注的是當(dāng)前 token 在概率層面的絕對(duì)陌生度，可由 Surprisal（?log p / 負(fù)對(duì)數(shù)似然）刻畫；
Alignment 關(guān)注的是當(dāng)前 token對(duì)比其它候選 token 的相對(duì)熟悉度，可由 Rank（在詞表預(yù)測(cè)中的名次）衡量。

在這一視角下，一個(gè) token 可以同時(shí)滿足：

被 student 生成的概率不高（informative）
但在候選詞表中排名靠前（aligned）

因此，informativeness 與 alignment 并非天然沖突。恰恰是同時(shí)滿足這兩點(diǎn)的 token，構(gòu)成了最適合 student 學(xué)習(xí)的推理數(shù)據(jù)。

圖一：Rank-Surprisal Ratio 的設(shè)計(jì)動(dòng)機(jī) —— 合適的推理數(shù)據(jù)應(yīng)當(dāng)兼顧 informativeness 與 alignment

直觀的指標(biāo)：Rank-Surprisal Ratio

基于前文在 token 級(jí)別的觀察，以及相關(guān)仿真分析與數(shù)學(xué)推導(dǎo)，論文提出了一個(gè)形式上極其簡(jiǎn)潔的樣本級(jí)指標(biāo)：

直覺解釋：

分子（Rank）越小，表示當(dāng)前樣本越符合 student 的行為模式，對(duì)齊程度（alignment）越高；
分母（Surprisal）越大，表示當(dāng)前樣本提供的信息量越充分，信息性（informativeness）越強(qiáng)；
RSR 越小 → 信息量與對(duì)齊程度的平衡越好。

在實(shí)現(xiàn)上：

僅需對(duì) student 進(jìn)行一次前向計(jì)算；
不依賴 verifier 或額外測(cè)試數(shù)據(jù)；
融合了 rank clipping 與 surprisal 加權(quán)平均機(jī)制，在極端情況下具有更好的數(shù)值穩(wěn)定性。

實(shí)驗(yàn)：與訓(xùn)練效果的相關(guān)性

作者將 RSR 與多種已有指標(biāo)進(jìn)行了對(duì)比，包括 teacher 模型及訓(xùn)練數(shù)據(jù)的若干統(tǒng)計(jì)量、常用的數(shù)據(jù)質(zhì)量評(píng)估方法、基于概率的指標(biāo)，以及其他基于 student 模型計(jì)算的指標(biāo)。

實(shí)驗(yàn)結(jié)果在 5 個(gè) student 模型上高度一致：RSR 與 student 模型后訓(xùn)練性能的 Spearman 相關(guān)系數(shù)平均達(dá)到 0.86，顯著高于其它指標(biāo)。

表二：不同指標(biāo)與模型后訓(xùn)練推理性能之間的相關(guān)性

在實(shí)際場(chǎng)景中的應(yīng)用

場(chǎng)景 1：Trajectory Selection (選擇最合適的推理軌跡數(shù)據(jù)）

在該場(chǎng)景中，針對(duì)訓(xùn)練集中的每一道題目，作者從多個(gè) teacher 模型生成的 33 條候選思維鏈中，依據(jù)不同指標(biāo)選擇一條最合適的推理軌跡，從而構(gòu)建用于訓(xùn)練 student 的推理數(shù)據(jù)集。
實(shí)驗(yàn)結(jié)果表明，基于 Rank-Surprisal Ratio 篩選得到的數(shù)據(jù)，在不同 student 模型上訓(xùn)練后均取得了最優(yōu)的推理性能，優(yōu)于其它方法。

表三：不同數(shù)據(jù)篩選方法的后訓(xùn)練性能

場(chǎng)景 2：Teacher Selection（選擇最合適的教師模型）

在該場(chǎng)景中，作者僅使用每個(gè) teacher 模型生成的 200 條推理軌跡來估計(jì)其與不同 student 的適配程度，從而模擬實(shí)際蒸餾前的 teacher 選擇過程。
實(shí)驗(yàn)結(jié)果顯示，RSR 能穩(wěn)定選出接近 oracle（真實(shí)最優(yōu)）的 teacher 模型，整體表現(xiàn)優(yōu)于其它方法。

表三：不同 teacher 模型選擇方法的表現(xiàn)

結(jié)語

這項(xiàng)工作重新審視了推理蒸餾中一個(gè)看似簡(jiǎn)單卻難以回答的的問題：什么樣的推理軌跡能「教會(huì)」student 更好地推理。通過將 token 的相對(duì)熟悉度（rank）與絕對(duì)信息量（surprisal）結(jié)合，Rank-Surprisal Ratio 給出了一個(gè)直觀、易于計(jì)算、且在大規(guī)模實(shí)驗(yàn)中被驗(yàn)證有效的答案。

更重要的是，RSR 并不依賴額外的評(píng)估數(shù)據(jù)或驗(yàn)證器，而是直接從 student 的視角出發(fā)刻畫數(shù)據(jù)價(jià)值。這使它不僅是一個(gè)分析工具，也具備作為實(shí)際數(shù)據(jù)工程指標(biāo)的潛力。

向前看，這種「informative alignment」的視角或許可以進(jìn)一步擴(kuò)展到：

更通用的 reasoning 任務(wù)（如 code、tool use）；
推理軌跡的重寫與合成，而不僅是選擇；
以及與 On-policy Distillation、RL 結(jié)合的動(dòng)態(tài)數(shù)據(jù)調(diào)度。

當(dāng)推理模型的瓶頸逐漸從「規(guī)?！罐D(zhuǎn)向「數(shù)據(jù)的高效利用」，理解哪些思維過程真正具有教學(xué)價(jià)值，可能將成為下一階段 post-training 的關(guān)鍵問題。

作者介紹

楊宇銘，復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室博士生，導(dǎo)師為張奇教授。本科畢業(yè)于復(fù)旦大學(xué)數(shù)學(xué)系，碩士畢業(yè)于密歇根大學(xué)統(tǒng)計(jì)學(xué)系。博士階段前曾在微軟擔(dān)任數(shù)據(jù)科學(xué)家。研究方向?yàn)樽匀徽Z言處理與大語言模型，作為第一作者或共同第一作者在 ACL、EMNLP、NeurIPS 等頂級(jí)會(huì)議發(fā)表多篇論文。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.