国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Thinking Machines 發(fā)布又一神作「在線策略蒸餾」 ,LLM后訓(xùn)練效率飆升50-100倍

0
分享至


Mira 的THINKING MACHINES又整了一個(gè)大活,開源了一個(gè)非常牛逼的的LLM后訓(xùn)練方法:On-Policy Distillation (在線策略蒸餾)

這是博客文章:

https://thinkingmachines.ai/blog/on-policy-distillation/


簡(jiǎn)單來說在線策略蒸餾巧妙地結(jié)合了兩種主流后訓(xùn)練范式的優(yōu)點(diǎn):它既有強(qiáng)化學(xué)習(xí)等在線策略方法的相關(guān)性和可靠性,能夠讓模型從自身的錯(cuò)誤中學(xué)習(xí);又具備監(jiān)督微調(diào) (SFT) 等離線策略 (Off-policy) 方法的數(shù)據(jù)效率,通過密集的監(jiān)督信號(hào)加速學(xué)習(xí)過程

在線策略蒸餾是一種兼具性能與成本效益的強(qiáng)大技術(shù),尤其適用于為小型、專業(yè)化的模型賦予前沿能力,例如在數(shù)學(xué)推理和企業(yè)知識(shí)個(gè)性化等場(chǎng)景中。它通過將一個(gè)更強(qiáng)大的教師模型用作過程獎(jiǎng)勵(lì)模型,在不犧牲訓(xùn)練穩(wěn)定性的前提下,極大地提升了訓(xùn)練效率,并為模型的持續(xù)學(xué)習(xí)和個(gè)性化定制開辟了新的可能性

特別值得一提的是THINKING MACHINES這個(gè)在線策略蒸餾方法在最新的實(shí)踐中使用 自家的Tinker訓(xùn)練 API,復(fù)制了 Qwen3 的結(jié)果,即在推理基準(zhǔn)上通過在線策略蒸餾實(shí)現(xiàn)同等性能,而成本僅為 RL 的一小部分,比如數(shù)學(xué)推理能力計(jì)算成本降低了驚人的 9 到 30 倍。而在線策略蒸餾方法綜合計(jì)算效率提高了恐怖的50到100倍

個(gè)人感覺這個(gè)在線策略蒸餾是解決 RL“通過吸管汲取監(jiān)督信號(hào),”(由大神karpathy 創(chuàng)造的概念,可以看我之前的文章)的一個(gè)潛在方向,感興趣的繼續(xù)往下看

以下是詳細(xì)解讀

模型的后訓(xùn)練:在強(qiáng)化學(xué)習(xí)與監(jiān)督微調(diào)之間的權(quán)衡

語(yǔ)言模型,特別是大型語(yǔ)言模型,其強(qiáng)大的專業(yè)領(lǐng)域能力并非一蹴而就,而是通過一系列精心設(shè)計(jì)的訓(xùn)練階段堆疊而成的。這個(gè)過程大致可以分為三個(gè)核心階段:

預(yù)訓(xùn)練 (Pre-training): 這是模型學(xué)習(xí)基礎(chǔ)能力的階段。通過處理海量的文本數(shù)據(jù),模型掌握了語(yǔ)言的使用規(guī)律、廣泛的推理能力和基礎(chǔ)的世界知識(shí)

中訓(xùn)練 (Mid-training): 這個(gè)階段旨在向模型注入特定的領(lǐng)域知識(shí)。例如,通過訓(xùn)練代碼、醫(yī)療數(shù)據(jù)庫(kù)或公司內(nèi)部文檔,讓模型成為特定領(lǐng)域的專家

后訓(xùn)練 (Post-training): 這是最后也是至關(guān)重要的一步,旨在引導(dǎo)模型產(chǎn)生特定的、有用的行為,比如遵循指令、解決數(shù)學(xué)問題或進(jìn)行流暢的對(duì)話

在后訓(xùn)練階段,我們通常面臨兩種主要的訓(xùn)練范式選擇:在線策略 (On-policy) 訓(xùn)練和離線策略 (Off-policy) 訓(xùn)練。這兩種方法各有優(yōu)劣,理解它們的差異是理解在線策略蒸餾價(jià)值的關(guān)鍵

在線策略訓(xùn)練 (On-policy training) 的典型代表是強(qiáng)化學(xué)習(xí) (Reinforcement learning, RL)。在這種模式下,學(xué)生模型自行生成完整的行為序列,稱為 rollout。然后,系統(tǒng)會(huì)根據(jù)這個(gè)序列的最終結(jié)果給予一個(gè)獎(jiǎng)勵(lì)。例如,在解決數(shù)學(xué)問題 What is 5 + (2 x 3)? 時(shí),學(xué)生模型可能會(huì)生成錯(cuò)誤的計(jì)算過程 5 + 2 is 7, and 7 x 3 is 21。由于最終答案 21 是錯(cuò)誤的,系統(tǒng)會(huì)給予一個(gè)零獎(jiǎng)勵(lì)或負(fù)獎(jiǎng)勵(lì)。這種方法的優(yōu)點(diǎn)在于,模型直接從自己產(chǎn)生的樣本中學(xué)習(xí),能夠更直接地學(xué)會(huì)避免自己常犯的錯(cuò)誤。然而,它的主要缺點(diǎn)是獎(jiǎng)勵(lì)信號(hào)極其稀疏。模型只知道最終結(jié)果是錯(cuò)的,但無(wú)法得知錯(cuò)誤究竟出在哪一步:是運(yùn)算順序錯(cuò)了,還是算術(shù)本身出錯(cuò)了?這種反饋的稀疏性導(dǎo)致強(qiáng)化學(xué)習(xí)的效率在許多應(yīng)用中都非常低下,因?yàn)樗诿總€(gè)訓(xùn)練回合中只能學(xué)到固定數(shù)量的信息,而與解決問題所需的token數(shù)量無(wú)關(guān)

離線策略訓(xùn)練 (Off-policy training) 則依賴于一個(gè)外部數(shù)據(jù)源。最常見的形式是監(jiān)督微調(diào) (Supervised fine-tuning, SFT) 和知識(shí)蒸餾 (Distillation)。在這種模式下,我們使用一個(gè)強(qiáng)大的、已經(jīng)驗(yàn)證過能力的教師模型來生成大量高質(zhì)量的、帶有正確步驟的示例。學(xué)生模型的目標(biāo)是學(xué)習(xí)模仿這些教師軌跡。例如,對(duì)于同一個(gè)數(shù)學(xué)問題,教師模型會(huì)生成正確的步驟 2 x 3 equals 6, add 5 to get 11。學(xué)生模型在訓(xùn)練時(shí),會(huì)被鼓勵(lì)在每一步都生成與教師模型相同的token。這種方法的優(yōu)點(diǎn)是提供了密集的監(jiān)督信號(hào),學(xué)生在每一步都能得到明確的指導(dǎo),學(xué)習(xí)效率很高。然而,它的核心缺陷在于,學(xué)生只在教師模型經(jīng)常遇到的上下文中學(xué)習(xí)。一旦學(xué)生在實(shí)際應(yīng)用中犯了一個(gè)教師從未犯過的早期錯(cuò)誤,它就會(huì)進(jìn)入一個(gè)完全陌生的狀態(tài),導(dǎo)致后續(xù)錯(cuò)誤不斷累積和放大,即復(fù)合誤差 (Compounding error)。此外,研究發(fā)現(xiàn),學(xué)生模型有時(shí)只會(huì)模仿教師的風(fēng)格和自信度,而未必能學(xué)到其真正的知識(shí)準(zhǔn)確性

為了更形象地理解這兩種方法的困境,我們可以用學(xué)習(xí)下棋來類比:


在線策略的強(qiáng)化學(xué)習(xí) 就像自己和自己下棋,沒有任何指導(dǎo)。你只有在整盤棋下完后,通過輸贏這一個(gè)信號(hào)來學(xué)習(xí)。雖然反饋直接與你的行為相關(guān),但你很難知道究竟是哪幾步棋導(dǎo)致了最終的勝負(fù)

離線策略的蒸餾 就像觀看特級(jí)大師的棋局錄像。你看到的是最高水平的棋步,但這些棋步都發(fā)生在普通玩家?guī)缀跤肋h(yuǎn)不會(huì)遇到的復(fù)雜棋局狀態(tài)下。你很難將這些學(xué)習(xí)應(yīng)用到自己的實(shí)戰(zhàn)中

顯然,我們需要一種方法,既能像在線策略一樣讓模型在自己的棋局中學(xué)習(xí),又能像離線策略一樣,在每一步棋后都能得到大師級(jí)的密集指導(dǎo)。這,正是在線策略蒸餾 (On-policy distillation) 旨在解決的問題

在線策略蒸餾:結(jié)合兩種范式的最佳實(shí)踐

在線策略蒸餾的核心思想非常直觀:它將在線策略的自主探索與離線策略的密集監(jiān)督結(jié)合起來,創(chuàng)造了一個(gè)“兩全其美”的訓(xùn)練框架。其工作流程旨在讓學(xué)生模型在自己生成的軌跡上學(xué)習(xí),但每一步都由一個(gè)更強(qiáng)大的教師模型進(jìn)行細(xì)致的評(píng)分和指導(dǎo)。

該方法具體的工作流程可以分解為以下幾個(gè)步驟,其實(shí)現(xiàn)通?;诂F(xiàn)有的強(qiáng)化學(xué)習(xí)腳本:

1.初始化教師客戶端: 首先,我們需要一個(gè)高性能的教師模型。這個(gè)模型可以是規(guī)模更大、能力更強(qiáng)的通用模型,也可以是經(jīng)過專門訓(xùn)練的專家模型。在實(shí)現(xiàn)上,我們?yōu)檫@個(gè)教師模型創(chuàng)建一個(gè)獨(dú)立的客戶端,它只負(fù)責(zé)計(jì)算概率,而不需要進(jìn)行反向傳播更新梯度

2.學(xué)生模型采樣軌跡: 與標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)一樣,我們讓學(xué)生模型根據(jù)給定的提示 (Prompt) 自主生成一系列完整的回答或行為序列 (Rollouts)。在生成過程中,我們會(huì)記錄下學(xué)生模型在每一步選擇每個(gè)token的對(duì)數(shù)概率(logprobs)

3.教師模型計(jì)算獎(jiǎng)勵(lì): 這一步是在線策略蒸餾的關(guān)鍵。我們將學(xué)生模型生成的軌跡,原封不動(dòng)地交給教師模型。教師模型會(huì)對(duì)這個(gè)軌跡的每一個(gè)token進(jìn)行評(píng)估,計(jì)算出在相同的上下文下,它自己生成這個(gè)token的對(duì)數(shù)概率。然后,通過學(xué)生和教師的對(duì)數(shù)概率之差,我們可以計(jì)算出兩者在每一步的分歧 (Divergence)。

4.使用分歧作為獎(jiǎng)勵(lì)進(jìn)行訓(xùn)練: 我們將這個(gè)逐詞計(jì)算出的分歧作為獎(jiǎng)勵(lì)信號(hào),來更新學(xué)生模型。具體來說,我們使用負(fù)的逆向KL散度 (Negative reverse KL divergence) 作為優(yōu)勢(shì)函數(shù)。逆向KL散度 是衡量學(xué)生策略分布與教師策略分布差異的指標(biāo)。當(dāng)學(xué)生模型的行為與教師模型一致時(shí),KL散度為零;當(dāng)學(xué)生模型的選擇與教師模型的期望相差甚遠(yuǎn)時(shí),KL散度會(huì)變得很大,從而產(chǎn)生一個(gè)強(qiáng)烈的負(fù)面獎(jiǎng)勵(lì)(懲罰)。學(xué)生模型的目標(biāo)就是通過訓(xùn)練,最小化這個(gè)KL散度

這種方法使用的損失函數(shù),即逆向KL散度,具有兩個(gè)非常優(yōu)秀的特性:

不可被利用: 在傳統(tǒng)的強(qiáng)化學(xué)習(xí)中,獎(jiǎng)勵(lì)模型可能會(huì)被利用(Reward hacking),即模型學(xué)會(huì)用一些投機(jī)取巧的方式獲得高分,但并未真正掌握任務(wù)。而逆向KL散度直接與教師模型的期望行為掛鉤,低KL散度總是意味著學(xué)生的行為更接近教師的期望,不存在被利用的空間

模式尋求: 它會(huì)驅(qū)使學(xué)生模型學(xué)習(xí)教師模型那種特定的、高質(zhì)量的行為模式,而不是在多個(gè)次優(yōu)選擇之間搖擺不定,從而使學(xué)習(xí)過程更加穩(wěn)定和聚焦。

讓我們通過一個(gè)具體的例子來理解這個(gè)過程。在一個(gè)需要物理常識(shí)的數(shù)學(xué)問題中,學(xué)生模型 Qwen3-4B-Instruct-2507 忽略了“冰塊在煎鍋里會(huì)融化”這一關(guān)鍵物理背景,錯(cuò)誤地將其當(dāng)作純數(shù)學(xué)計(jì)算,并得出答案20。教師模型 Qwen3-235B-A22B-Instruct-2507 則能正確理解問題并給出正確答案0。在對(duì)學(xué)生的錯(cuò)誤軌跡進(jìn)行評(píng)分時(shí),教師模型會(huì)重點(diǎn)懲罰那些引導(dǎo)學(xué)生走向錯(cuò)誤方向的關(guān)鍵分叉詞元 (Forking tokens)。例如,當(dāng)學(xué)生開始寫下 Note: The ice cubes are not removed during the process... 這樣的錯(cuò)誤假設(shè)時(shí),這些詞元會(huì)獲得非常高的KL散度(即非常大的懲罰)。相比之下,學(xué)生在錯(cuò)誤邏輯下推導(dǎo)出的最終答案20,由于在給定錯(cuò)誤前提的情況下是可預(yù)測(cè)的,所以受到的懲罰反而不大。這表明,在線策略蒸餾能夠精準(zhǔn)地識(shí)別并糾正導(dǎo)致思維鏈走偏的根本原因

總而言之,在線策略蒸餾通過讓教師模型對(duì)學(xué)生的每一步進(jìn)行打分,將強(qiáng)化學(xué)習(xí)中稀疏的、滯后的最終獎(jiǎng)勵(lì),轉(zhuǎn)化為了密集的、即時(shí)的過程獎(jiǎng)勵(lì)。這不僅極大地提升了訓(xùn)練的計(jì)算效率,也讓模型能夠更精確地學(xué)習(xí)如何從錯(cuò)誤中恢復(fù),從而克服了傳統(tǒng)離線策略蒸純粹模仿所帶來的復(fù)合誤差問題

應(yīng)用案例一:高效實(shí)現(xiàn)數(shù)學(xué)推理能力的遷移Qwen3-32B -> Qwen3-8B-Base

為了驗(yàn)證在線策略蒸餾在實(shí)際任務(wù)中的效果,首先將其應(yīng)用于訓(xùn)練模型的數(shù)學(xué)推理能力。實(shí)驗(yàn)的目標(biāo)是將一個(gè)強(qiáng)大的教師模型 (Qwen3-32B) 的推理能力,高效地遷移到一個(gè)較小的學(xué)生模型 (Qwen3-8B-Base) 上。實(shí)驗(yàn)使用了數(shù)學(xué)競(jìng)賽基準(zhǔn) AIME'24 來衡量模型的性能

所有實(shí)驗(yàn)都從一個(gè)共同的起點(diǎn)開始:學(xué)生模型首先通過離線策略蒸餾,即在教師模型生成的 OpenThoughts-3 數(shù)據(jù)集上進(jìn)行監(jiān)督微調(diào) (SFT),完成了中訓(xùn)練。在訓(xùn)練了40萬(wàn)個(gè)樣本后,學(xué)生模型在 AIME'24 上的得分達(dá)到了 60%。此時(shí),研究人員們比較了三種不同的后訓(xùn)練方法,以將模型性能從 60% 提升到 70%

1.繼續(xù)離線策略蒸餾 (SFT): 這是最直接的方法。根據(jù)已有的訓(xùn)練數(shù)據(jù),性能的提升與訓(xùn)練樣本數(shù)量的對(duì)數(shù)呈線性關(guān)系。通過外推這條曲線,研究人員估計(jì),要達(dá)到 70% 的分?jǐn)?shù),大約需要額外訓(xùn)練 200 萬(wàn)個(gè)樣本。這是一個(gè)非常巨大的計(jì)算開銷,并且其前提是性能增長(zhǎng)不會(huì)提前停滯

2.強(qiáng)化學(xué)習(xí):根據(jù) Qwen3 團(tuán)隊(duì)的技術(shù)報(bào)告,在一個(gè)相似的SFT初始化模型之上,通過強(qiáng)化學(xué)習(xí)將性能提升到 67.6%,花費(fèi)了 17,920 個(gè) GPU 小時(shí)。這個(gè)成本與訓(xùn)練 200 萬(wàn)個(gè)SFT樣本的成本大致相當(dāng)

3.在線策略蒸餾 :從 60% 的檢查點(diǎn)開始,在線策略蒸餾僅用了大約 150 個(gè)訓(xùn)練步驟就達(dá)到了 70% 的目標(biāo)分?jǐn)?shù)。為了更公平地比較計(jì)算成本,將所有操作都轉(zhuǎn)換為了浮點(diǎn)運(yùn)算次數(shù) (FLOPs)。結(jié)果顯示:

與外推到 200 萬(wàn)樣本的SFT相比,在線策略蒸餾的計(jì)算成本降低了 9 到 30 倍

成本降低的范圍取決于如何計(jì)算SFT的教師成本。如果SFT數(shù)據(jù)集是現(xiàn)成的,只考慮學(xué)生的訓(xùn)練成本,那么成本降低約 9 倍

如果考慮到在實(shí)際應(yīng)用中,SFT數(shù)據(jù)集也需要由教師模型生成,即將教師模型的采樣成本也計(jì)算在內(nèi),那么總成本降低可以達(dá)到 30 倍

如果從 GPU 小時(shí)的角度看,由于教師模型計(jì)算對(duì)數(shù)概率 (log-probs) 的過程可以高效并行化,實(shí)際節(jié)省的時(shí)間成本可能更接近 18 倍


這個(gè)案例有力地證明了在線策略蒸餾在計(jì)算效率上的巨大優(yōu)勢(shì)。它用遠(yuǎn)低于傳統(tǒng)SFT或RL的成本,實(shí)現(xiàn)了同等甚至更好的性能提升。這種效率的來源在于,它摒棄了RL中效率低下的試錯(cuò)搜索過程,也避免了SFT中因數(shù)據(jù)分布不匹配而造成的大量冗余訓(xùn)練。通過讓教師模型直接對(duì)學(xué)生模型自身產(chǎn)生的、最需要被糾正的行為進(jìn)行密集指導(dǎo),每一份計(jì)算資源都用在了刀刃上,從而實(shí)現(xiàn)了性能的快速飛躍。這對(duì)于在有限的計(jì)算預(yù)算下,訓(xùn)練出高性能的專用模型具有極其重要的現(xiàn)實(shí)意義

應(yīng)用案例二:在個(gè)性化定制中恢復(fù)被模型遺忘的行為:Qwen3-8B

在線策略蒸餾的另一個(gè)強(qiáng)大應(yīng)用場(chǎng)景是模型個(gè)性化 (Personalization) 與 持續(xù)學(xué)習(xí) (Continual learning)。在實(shí)際應(yīng)用中,我們常常需要讓一個(gè)已經(jīng)具備通用能力(如遵循指令)的模型,去學(xué)習(xí)新的、私有的領(lǐng)域知識(shí)(如公司內(nèi)部文檔)。然而,這個(gè)過程常常伴隨著一個(gè)棘手的問題:災(zāi)難性遺忘 。即在學(xué)習(xí)新知識(shí)的過程中,模型會(huì)逐漸忘記原有的重要能力

研究人員設(shè)計(jì)了一個(gè)實(shí)驗(yàn)來模擬這個(gè)場(chǎng)景:目標(biāo)是創(chuàng)建一個(gè)內(nèi)部企業(yè)助理。這個(gè)助理需要滿足兩個(gè)要求:

1.知識(shí)性: 能夠準(zhǔn)確回答基于公司內(nèi)部文檔的問題(通過 internal QA 進(jìn)行評(píng)估)

2.指令遵循: 保持強(qiáng)大的通用對(duì)話和指令遵循能力(通過 IF-eval 進(jìn)行評(píng)估)

實(shí)驗(yàn)的起點(diǎn)是一個(gè)經(jīng)過后訓(xùn)練的 Qwen3-8B 模型,它在 IF-eval 上表現(xiàn)出色(得分 85%),但對(duì)內(nèi)部文檔一無(wú)所知(得分 18%)

首先,研究人員嘗試了傳統(tǒng)的中訓(xùn)練方法 (Mid-training):將內(nèi)部文檔數(shù)據(jù)和通用的聊天數(shù)據(jù)混合起來,對(duì)模型進(jìn)行監(jiān)督微調(diào) (SFT)。實(shí)驗(yàn)發(fā)現(xiàn):

增加內(nèi)部文檔的比例可以顯著提升模型的知識(shí)水平,當(dāng)文檔數(shù)據(jù)占 100% 時(shí),internal QA 得分可以達(dá)到 43%

然而,這個(gè)過程對(duì)指令遵循能力的破壞是巨大的。即使混合了 30% 的聊天數(shù)據(jù)來試圖維持原有能力,IF-eval 的分?jǐn)?shù)依然會(huì)大幅下降。在只用文檔數(shù)據(jù)訓(xùn)練時(shí),IF-eval 分?jǐn)?shù)會(huì)從 85% 暴跌至 45%

無(wú)論數(shù)據(jù)混合比例如何,只要開始微調(diào),IF-eval 性能就會(huì)下降,并且無(wú)法完全恢復(fù)。即使使用 LoRA 這種旨在限制參數(shù)更新范圍的技術(shù),也同樣會(huì)面臨知識(shí)學(xué)得更少、行為忘得一樣多的困境

這表明,通過SFT的方式來注入新知識(shí),很容易破壞模型經(jīng)過復(fù)雜(且昂貴)的RL訓(xùn)練才獲得的精細(xì)行為。此時(shí),在線策略蒸餾展現(xiàn)了其作為能力恢復(fù)工具的獨(dú)特價(jià)值

在模型已經(jīng)通過微調(diào)學(xué)習(xí)了內(nèi)部知識(shí)(例如,使用 70% 文檔和 30% 聊天數(shù)據(jù)進(jìn)行訓(xùn)練,此時(shí) internal QA 得分為 36%,IF-eval 下降至 79%)之后,研究人員進(jìn)行了第二階段的訓(xùn)練:

教師模型:使用訓(xùn)練開始前的、原始的 Qwen3-8B 模型作為教師

訓(xùn)練數(shù)據(jù):使用通用的指令遵循數(shù)據(jù)集 Tulu3 的提示 (prompts)

訓(xùn)練方法:在線策略蒸餾

這個(gè)階段的目標(biāo)非常純粹:讓學(xué)生模型重新學(xué)習(xí)并恢復(fù)它被遺忘的指令遵循能力,而教師就是過去的自己。結(jié)果非常驚人:

經(jīng)過在線策略蒸餾后,模型的 IF-eval 分?jǐn)?shù)從 79%恢復(fù)到了 83%,幾乎回到了最初的水平

更重要的是,這個(gè)恢復(fù)過程沒有損害它新學(xué)到的知識(shí)。internal QA 的分?jǐn)?shù)甚至還略有提升,從 36% 增加到了 41%,這可能是因?yàn)榛謴?fù)聊天能力和更好地理解知識(shí)之間存在正向遷移


這個(gè)案例深刻地揭示了在線策略蒸餾在模型生命周期管理中的巨大潛力。我們可以構(gòu)想一種交替訓(xùn)練 (Phase-alternating)的模式:首先通過微調(diào)注入新的領(lǐng)域知識(shí),然后通過在線策略蒸餾來“喚醒”和恢復(fù)模型可能被遺忘的通用能力。這使得模型可以在不回歸基礎(chǔ)性能的前提下,持續(xù)不斷地學(xué)習(xí)和適應(yīng)新數(shù)據(jù),為實(shí)現(xiàn)真正的終身學(xué)習(xí)AI助理提供了一條切實(shí)可行的技術(shù)路徑

深度解析:在線策略蒸餾為何如此高效

在線策略蒸餾之所以能夠在多個(gè)任務(wù)中展現(xiàn)出遠(yuǎn)超傳統(tǒng)方法的效率,其背后有多重深層原因。它不僅是一種技術(shù)上的融合,更在信息論和學(xué)習(xí)理論層面帶來了根本性的改變。

密集的監(jiān)督信號(hào)極大提升了信息效率

強(qiáng)化學(xué)習(xí) (RL) 的信息效率極低。從信息論的角度看,每次RL的訓(xùn)練回合 (Episode) 無(wú)論長(zhǎng)短,最終的成功或失敗只能為模型提供大約 O(1) 比特的信息。相比之下,蒸餾是逐詞 (per-token) 進(jìn)行監(jiān)督的。如果一個(gè)軌跡有 N 個(gè)詞元,那么在線策略蒸餾在每個(gè)回合中就能提供 O(N) 比特的信息。這意味著在處理長(zhǎng)序列任務(wù)時(shí),兩者的信息效率差距可以是成百上千倍。對(duì)比實(shí)驗(yàn)顯示,從零開始訓(xùn)練數(shù)學(xué)能力,在線策略蒸餾達(dá)到與RL相同的性能水平,所需的梯度步數(shù)少了 7-10 倍,綜合計(jì)算效率提升了 50-100 倍。這證明了密集的過程監(jiān)督 (Process supervision) 相對(duì)于稀疏的結(jié)果監(jiān)督 (Outcome supervision) 在學(xué)習(xí)效率上的壓倒性優(yōu)勢(shì)

高效的數(shù)據(jù)復(fù)用能力

在數(shù)據(jù)稀缺的場(chǎng)景下,我們希望能夠反復(fù)利用已有的訓(xùn)練數(shù)據(jù)。然而,用RL在同一個(gè)提示 (prompt) 上進(jìn)行多輪訓(xùn)練,模型很容易陷入對(duì)最終答案的死記硬背,而不是學(xué)習(xí)通用的解題策略。在線策略蒸餾則不同,它的目標(biāo)是學(xué)習(xí)教師模型在每一步的完整概率分布,而不僅僅是最終的那一條成功路徑。這使得我們可以用同一個(gè)提示生成大量不同的軌跡,并對(duì)它們進(jìn)行訓(xùn)練,模型依然能夠?qū)W習(xí)到穩(wěn)健的、可泛化的策略。實(shí)驗(yàn)表明,僅使用一個(gè)訓(xùn)練提示,通過多輪次的在線策略蒸餾,學(xué)生模型的性能也能達(dá)到與使用大量數(shù)據(jù)訓(xùn)練的教師模型相近的水平,這展現(xiàn)了其卓越的數(shù)據(jù)效率

學(xué)習(xí)的本質(zhì):從搜索到直接教學(xué)

我們可以將后訓(xùn)練過程理解為在不同層面的空間中進(jìn)行搜索。預(yù)訓(xùn)練是在高維的參數(shù)空間中進(jìn)行搜索,尋找一組能夠編碼世界知識(shí)的權(quán)重,這個(gè)過程極其耗費(fèi)計(jì)算資源。而強(qiáng)化學(xué)習(xí)則可以被看作是在語(yǔ)義策略空間 (Space of semantic strategies)中進(jìn)行搜索。它通過隨機(jī)采樣,不斷“偶然發(fā)現(xiàn)”新的、有效的行為策略,然后通過獎(jiǎng)勵(lì)信號(hào)來強(qiáng)化這些策略。這個(gè)搜索的過程同樣是昂貴且低效的。

在線策略蒸餾則為這個(gè)學(xué)習(xí)過程提供了一條捷徑。它跳過了漫長(zhǎng)的搜索階段。一旦教師模型(通過其自身的訓(xùn)練或搜索)已經(jīng)找到了一個(gè)優(yōu)秀的策略,蒸餾就可以像一位老師直接傳授知識(shí)一樣,將這個(gè)策略高效地“教”給學(xué)生模型。我們無(wú)需再花費(fèi)大量計(jì)算去復(fù)現(xiàn)教師模型曾經(jīng)走過的所有中間彎路,而可以直接學(xué)習(xí)最終的、最優(yōu)的策略

作為持續(xù)學(xué)習(xí)的理想工具

在線策略蒸餾天然適合持續(xù)學(xué)習(xí)任務(wù)。傳統(tǒng)的SFT,即使用模型自己生成的樣本進(jìn)行訓(xùn)練,也會(huì)因?yàn)椴蓸优蔚碾S機(jī)性而導(dǎo)致模型狀態(tài)偏離初始分布,隨著時(shí)間推移,這種訓(xùn)練會(huì)退化為離線策略訓(xùn)練,從而引發(fā)性能衰退。而在線策略蒸餾中,教師模型是固定不變的。這為學(xué)生模型的學(xué)習(xí)提供了一個(gè)穩(wěn)定的“錨點(diǎn)”或“引力中心”。無(wú)論學(xué)生模型如何探索,它始終會(huì)被拉回到教師模型的行為軌道上,從而保證了學(xué)習(xí)過程的穩(wěn)定收斂,避免了在自我學(xué)習(xí)中出現(xiàn)性能退化的問題。這使得在線策略蒸餾成為在不斷變化的環(huán)境中保持模型能力和知識(shí)更新的強(qiáng)大工具

參考:

https://thinkingmachines.ai/blog/on-policy-distillation/

https://github.com/thinking-machines-lab/tinker-cookbook/tree/main/tinker_cookbook/recipes/distillation

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
世預(yù)賽風(fēng)云:中國(guó)男籃逆轉(zhuǎn)、日本送韓國(guó)連敗,積分榜大洗牌!

世預(yù)賽風(fēng)云:中國(guó)男籃逆轉(zhuǎn)、日本送韓國(guó)連敗,積分榜大洗牌!

江湖散客
2026-03-02 01:12:12
太慘烈,天津老牌設(shè)計(jì)院裁員超千人!

太慘烈,天津老牌設(shè)計(jì)院裁員超千人!

黯泉
2026-03-01 21:28:38
哈梅內(nèi)伊身亡細(xì)節(jié)公開!美以對(duì)伊朗發(fā)動(dòng)“斬首式”打擊,沖突走向難料

哈梅內(nèi)伊身亡細(xì)節(jié)公開!美以對(duì)伊朗發(fā)動(dòng)“斬首式”打擊,沖突走向難料

上觀新聞
2026-03-01 11:17:06
上海電影院現(xiàn)場(chǎng)被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

上海電影院現(xiàn)場(chǎng)被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

天天熱點(diǎn)見聞
2026-03-01 04:39:01
哈梅內(nèi)伊遇害,伊朗會(huì)怎么報(bào)復(fù)?

哈梅內(nèi)伊遇害,伊朗會(huì)怎么報(bào)復(fù)?

紅星新聞
2026-03-01 11:51:17
淚目!21歲少年的最后成全:停藥救母,把遺憾藏進(jìn)未赴的海邊之約

淚目!21歲少年的最后成全:停藥救母,把遺憾藏進(jìn)未赴的海邊之約

行者聊官
2026-02-28 16:06:40
剛剛開盤,直線大跳水!石油、黃金、美聯(lián)儲(chǔ)降息,大變局!霍爾木茲海峽,傳來大消息

剛剛開盤,直線大跳水!石油、黃金、美聯(lián)儲(chǔ)降息,大變局!霍爾木茲海峽,傳來大消息

新浪財(cái)經(jīng)
2026-03-01 15:27:22
新加坡大滿貫,莫雷加德犀利銳評(píng)樊振東,句句不提球技卻一針見血

新加坡大滿貫,莫雷加德犀利銳評(píng)樊振東,句句不提球技卻一針見血

清衣渡a
2026-03-01 15:00:09
樓市走到現(xiàn)在,有一種“預(yù)感”越來越強(qiáng)烈了!或超出很多人的想象

樓市走到現(xiàn)在,有一種“預(yù)感”越來越強(qiáng)烈了!或超出很多人的想象

阿離家居
2026-03-01 16:25:00
89歲朱逢博:丈夫病逝18年,她跟著兒子養(yǎng)老

89歲朱逢博:丈夫病逝18年,她跟著兒子養(yǎng)老

細(xì)品名人
2026-03-01 07:42:37
中國(guó)男籃贏球卻仿佛回到了老路!楊毅:不理解身高竟比中國(guó)臺(tái)北低

中國(guó)男籃贏球卻仿佛回到了老路!楊毅:不理解身高竟比中國(guó)臺(tái)北低

理工男評(píng)籃球
2026-03-01 19:03:40
美媒感慨:若不是中國(guó)還在反抗特朗普,幾乎全世界都向他投降了

美媒感慨:若不是中國(guó)還在反抗特朗普,幾乎全世界都向他投降了

悅心知足
2026-02-21 23:03:46
一人睡遍整個(gè)娛樂圈?司曉迪打響了2026年第一炮

一人睡遍整個(gè)娛樂圈?司曉迪打響了2026年第一炮

閱毒君
2026-01-05 07:05:06
哈梅內(nèi)衣同志犧牲細(xì)節(jié)曝光,40骨干一起帶走

哈梅內(nèi)衣同志犧牲細(xì)節(jié)曝光,40骨干一起帶走

難得君
2026-03-01 21:11:01
世紀(jì)斬首:哈梅內(nèi)伊之死,如何徹底改寫中東與全球安全未來?

世紀(jì)斬首:哈梅內(nèi)伊之死,如何徹底改寫中東與全球安全未來?

國(guó)是直通車
2026-03-01 13:18:09
難怪伊朗如此瘋狂反擊,真相大白:原來哈梅內(nèi)伊一開始就被炸死了

難怪伊朗如此瘋狂反擊,真相大白:原來哈梅內(nèi)伊一開始就被炸死了

狗子的愛好
2026-03-01 22:59:21
伊朗外交部聲明!

伊朗外交部聲明!

環(huán)球時(shí)報(bào)國(guó)際
2026-02-28 22:46:42
被兒子當(dāng)眾吐槽后,張?zhí)m徹底蔫了!前幾天笑盈盈 如今滿眼都是委屈

被兒子當(dāng)眾吐槽后,張?zhí)m徹底蔫了!前幾天笑盈盈 如今滿眼都是委屈

阿廢冷眼觀察所
2026-03-02 01:14:08
伊朗外長(zhǎng):美以打完后,愿重啟談判

伊朗外長(zhǎng):美以打完后,愿重啟談判

觀察者網(wǎng)
2026-03-01 08:39:35
伊朗殺瘋了!強(qiáng)盜進(jìn)瓷器店,把科威特、迪拜、巴林一頓狂轟濫炸

伊朗殺瘋了!強(qiáng)盜進(jìn)瓷器店,把科威特、迪拜、巴林一頓狂轟濫炸

我心縱橫天地間
2026-03-01 19:56:37
2026-03-02 05:12:49
AI寒武紀(jì) incentive-icons
AI寒武紀(jì)
專注于人工智能,科技領(lǐng)域
1034文章數(shù) 396關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

特朗普警告伊朗“不要報(bào)復(fù)” 伊朗外長(zhǎng)回應(yīng)

頭條要聞

特朗普警告伊朗“不要報(bào)復(fù)” 伊朗外長(zhǎng)回應(yīng)

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財(cái)經(jīng)要聞

中東局勢(shì)升級(jí) 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計(jì)交付超159萬(wàn)輛

態(tài)度原創(chuàng)

本地
時(shí)尚
數(shù)碼
教育
公開課

本地新聞

津南好·四時(shí)總相宜

今年春天最流行的4件衛(wèi)衣,照著穿就很好看

數(shù)碼要聞

曝蘋果WWDC 26將推Core AI框架取代Core ML并公布多項(xiàng)AI功能

教育要聞

初中階段的分化,從習(xí)慣悄悄開始

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版