国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

后訓(xùn)練中的RL已死?MIT新算法挑戰(zhàn)傳統(tǒng)后訓(xùn)練思維,謝賽寧轉(zhuǎn)發(fā)

0
分享至



機(jī)器之心編輯部

在當(dāng)前的 LLM 開發(fā)中,后訓(xùn)練階段通常被視為賦予模型特定能力的關(guān)鍵環(huán)節(jié)。傳統(tǒng)的觀點(diǎn)認(rèn)為,模型必須通過強(qiáng)化學(xué)習(xí)(如 PPO、GRPO 或 RLHF)和進(jìn)化策略(ES)等算法,在反復(fù)的迭代和梯度優(yōu)化過程中調(diào)整權(quán)重,才能在特定任務(wù)上達(dá)到理想的性能。

然而,MIT CSAIL 的研究人員 Yulu Gan 和 Phillip Isola 在他們最新發(fā)布的論文中對這一傳統(tǒng)認(rèn)知發(fā)起了挑戰(zhàn)。他們提出了一種名為RandOpt的新方法,通過簡單的隨機(jī)擾動和集成來突破傳統(tǒng)后訓(xùn)練的限制。



  • 論文標(biāo)題:Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights
  • 論文地址:https://arxiv.org/pdf/2603.12228

這一發(fā)現(xiàn)對大模型參數(shù)空間的理解具有顛覆性意義。早在 2001 年,Schmidhuber 等人提出「隨機(jī)猜測」不能算作一種有效的學(xué)習(xí)算法,認(rèn)為「優(yōu)秀的解決方案在權(quán)重空間中的分布必須極其稀疏」。然而,Gan 和 Isola 的研究揭示了一個反直覺的現(xiàn)象:在完成預(yù)訓(xùn)練后,LLM 模型的權(quán)重空間實際上形成了一個密集的「神經(jīng)叢林」(Neural Thickets),這一狀態(tài)促使簡單的隨機(jī)采樣就能發(fā)現(xiàn)有效的解決方案。



論文指出,預(yù)訓(xùn)練模型不僅僅是后訓(xùn)練的「起點(diǎn)」,其權(quán)重空間內(nèi)已潛藏著大量任務(wù)專家。隨著模型規(guī)模的增大,這些專家在權(quán)重空間中的分布密度急劇增加,足以讓隨機(jī)擾動和集成方法有效捕捉優(yōu)越的解決方案。

基于這一理論,RandOpt 算法的操作方式非常簡單:只需向預(yù)訓(xùn)練模型添加單步的高斯噪聲(無需任何迭代、學(xué)習(xí)率或梯度計算),并對多個擾動后的模型副本進(jìn)行集成。實驗結(jié)果表明,僅憑這一極簡的操作,模型就能夠在數(shù)學(xué)推理、代碼生成等復(fù)雜任務(wù)中達(dá)到,甚至超越 PPO 或 GRPO 等傳統(tǒng)后訓(xùn)練方法的性能。

通過這一創(chuàng)新方法,RandOpt 為后訓(xùn)練的簡化提供了新的可能,展示了預(yù)訓(xùn)練模型本身已隱含了豐富的任務(wù)專家,后訓(xùn)練過程更多是選擇和集成這些專家,而非從零開始訓(xùn)練新能力。

這篇論文一經(jīng)發(fā)布便在 AI 社區(qū)引發(fā)了轟動,不僅迅速登上 alphaXiv 榜單第二,其作者在 X 上的宣傳帖子也獲得了近 50 萬的瀏覽量和極高的互動,謝賽寧也轉(zhuǎn)發(fā)了該工作。







許多從業(yè)者和研究人員驚呼:「強(qiáng)化學(xué)習(xí)在后訓(xùn)練就死了?」「強(qiáng)化學(xué)習(xí)泡沫破裂?」。





盡管有人對其在細(xì)粒度對齊任務(wù)上的泛化能力持保留態(tài)度,但這種極簡算法背后所揭示的參數(shù)空間現(xiàn)象,無疑迫使我們重新思考預(yù)訓(xùn)練與后訓(xùn)練的本質(zhì)關(guān)系。

預(yù)訓(xùn)練權(quán)重的「叢林效應(yīng)」

論文指出,模型規(guī)模決定了這些專家在參數(shù)空間中的分布形態(tài):

  • 小模型(大海撈針機(jī)制):未經(jīng)過充分訓(xùn)練或規(guī)模較小的模型,在其初始權(quán)重附近的優(yōu)秀解決方案密度極低。它們處于「大海撈針」的狀態(tài),發(fā)現(xiàn)有效解必須依賴梯度下降等結(jié)構(gòu)化的多步搜索算法。
  • 大模型(神經(jīng)叢林機(jī)制):大型且經(jīng)過充分預(yù)訓(xùn)練的模型,其預(yù)訓(xùn)練權(quán)重周圍密集地分布著大量能提升特定任務(wù)性能的專家。在這種狀態(tài)下,僅靠隨機(jī)采樣就足以快速找到有潛力的適應(yīng)性模型。



小模型(左)的大海撈針機(jī)制與大模型(右)的神經(jīng)叢林機(jī)制示意圖。大模型周圍充滿了代碼專家、數(shù)學(xué)專家等特定任務(wù)的解決方案集。

為了量化這一現(xiàn)象,研究測量了兩個核心指標(biāo):

  • 解決方案密度:隨機(jī)擾動能使基礎(chǔ)模型性能提升特定幅度的概率。實驗表明,這種密度呈現(xiàn)出明顯的縮放定律:模型參數(shù)規(guī)模越大,其性能越好,周圍高質(zhì)量解決方案的密度就越高。
  • 解決方案多樣性:這些隨機(jī)采樣出的好模型是「專才」而不是「通才」。一個擾動如果在一個特定任務(wù)上大幅提升了性能,往往會降低在其他任務(wù)上的性能。論文引入了「光譜不一致性」指標(biāo)來衡量,發(fā)現(xiàn)隨著模型規(guī)模增加,解決方案的多樣性也單調(diào)增加,這意味著大模型周圍的專家在能力上越來越互補(bǔ)且互不重疊。

為了直觀展示神經(jīng)叢林的存在,研究團(tuán)隊對參數(shù)量從 0.5B 到 32B 的 Qwen2.5 預(yù)訓(xùn)練模型注入了 1000 個隨機(jī)權(quán)重擾動,并通過隨機(jī)投影技術(shù)將其準(zhǔn)確率景觀可視化到了二維平面上。



實驗清晰地呈現(xiàn)了 Scaling Law:隨著模型規(guī)模的擴(kuò)大,景觀中代表更高準(zhǔn)確率的「紅色區(qū)域」(即任務(wù)改善區(qū)域)顯著增多并變得更加密集。

簡而言之,大模型所處的參數(shù)空間不僅是一個寬闊的平原,其周圍更是一個布滿不同任務(wù)局部最優(yōu)解的「盆地」。

那么,究竟是什么導(dǎo)致了這種奇特的「神經(jīng)叢林」的涌現(xiàn)?

1D 信號預(yù)測實驗揭示了這一現(xiàn)象的根本原因。研究者使用多層感知機(jī)(MLP)對混合的一維信號(如正弦波、方波等)進(jìn)行自回歸預(yù)測的預(yù)訓(xùn)練。通過對比不同預(yù)訓(xùn)練策略,實驗揭示了三個階段:

  • 無預(yù)訓(xùn)練(大海撈針期):在隨機(jī)初始化下,微小的權(quán)重擾動對模型功能幾乎沒有影響,好的解決方案距離極遠(yuǎn),隨機(jī)采樣完全失效。
  • 單一任務(wù)預(yù)訓(xùn)練(高原期):如果只在單一信號(如僅線性函數(shù))上預(yù)訓(xùn)練,模型在測試該任務(wù)時已經(jīng)達(dá)到性能天花板(處于平緩的極小值處),但周圍的權(quán)重沒有展現(xiàn)出任何功能多樣性,隨機(jī)猜測無法帶來額外收益。
  • 混合多任務(wù)預(yù)訓(xùn)練(叢林誕生期):只有當(dāng)模型在多種不同的信號類型上進(jìn)行過混合預(yù)訓(xùn)練后,參數(shù)空間才會孕育出能在不同方向上擬合不同信號的「專家叢林」。



1D 信號預(yù)測實驗展示了三種機(jī)制。只有在「混合信號預(yù)訓(xùn)練」下(圖 b),權(quán)重擾動才會炸開成形態(tài)各異的函數(shù)預(yù)測,形成神經(jīng)叢林。

這也解釋了為什么在海量混合數(shù)據(jù)上預(yù)訓(xùn)練的大語言模型,會天然自帶一片生機(jī)勃勃的「專家叢林」。

RandOpt 算法:單步、無梯度、極致并行

基于「密度高」且「多樣性強(qiáng)」的神經(jīng)叢林現(xiàn)象,作者探索了一種極其簡單且完全并行的后訓(xùn)練算法RandOpt。作者將其定義為:單步、無梯度、無學(xué)習(xí)率、無迭代、完全并行。



RandOpt 的操作避開了所有序列化的梯度更新,主要分為兩個階段:

  • 訓(xùn)練(隨機(jī)猜測與檢查):算法從標(biāo)準(zhǔn)高斯分布中采樣出 N 個隨機(jī)種子和對應(yīng)的噪聲尺度,將其直接加到基礎(chǔ)模型的權(quán)重上,生成 N 個擾動后的模型副本。隨后,讓這些模型在一個小的訓(xùn)練集(或驗證集)上運(yùn)行,并根據(jù)得分選出表現(xiàn)最好的 Top-K 個模型。
  • 推理(預(yù)測集成):在面對測試輸入時,算法利用篩選出的 K 個模型分別生成預(yù)測,最終通過多數(shù)投票機(jī)制聚合這些預(yù)測,得出最終答案。



RandOpt 性能與基礎(chǔ)模型規(guī)模的關(guān)系。圖表顯示,如果從頭開始使用 RandOpt(不進(jìn)行預(yù)訓(xùn)練),性能幾乎為零;而對于經(jīng)過預(yù)訓(xùn)練的模型,在參數(shù)量達(dá)到約 1.5B 時,RandOpt 的性能提升開始迎來爆發(fā)。

這種機(jī)制的一個關(guān)鍵特性是它完全不需要計算梯度,也不涉及任何序列化的優(yōu)化步驟,所有的模型生成和評估都可以完全并行處理。

RandOpt 與傳統(tǒng)方法的對比

這種看似「簡單粗暴」的方法,在實際基準(zhǔn)測試中展現(xiàn)出了驚人的戰(zhàn)斗力。研究團(tuán)隊在跨越 0.5B 到 8B 參數(shù)規(guī)模的多個模型(Qwen、Llama、OLMo3)上,對數(shù)學(xué)推理(Countdown、GSM8K 等)、代碼生成(MBPP)、創(chuàng)意寫作(ROCStories)以及化學(xué)(USPTO)任務(wù)進(jìn)行了全面測試。

在消耗相同訓(xùn)練 FLOPs(浮點(diǎn)運(yùn)算次數(shù))的前提下,RandOpt(通常設(shè)置 K=50)在絕大多數(shù)設(shè)定中不僅追平,甚至超越了 PPO、GRPO 和 ES 等標(biāo)準(zhǔn)后訓(xùn)練方法。

此外,RandOpt 在訓(xùn)練時間(Wall-clock time)上具有顛覆性的優(yōu)勢。傳統(tǒng)基準(zhǔn)方法需要運(yùn)行數(shù)百個序列化更新步驟(時間復(fù)雜度為 O(T)),而 RandOpt 的訓(xùn)練步驟是 O(1)。論文指出,在一組包含 200 個 GH200 GPU 的集群上使用 RandOpt 訓(xùn)練 OLMo-3-7B-Instruct 模型,設(shè)定 N=2000 和 K=50,僅需 3.2 分鐘即可完成,并在 Countdown 任務(wù)上達(dá)到 70% 的準(zhǔn)確率。

不僅是語言模型,RandOpt 同樣適用于視覺語言模型(VLM)。在凍結(jié)視覺編碼器、僅擾動語言模型權(quán)重的情況下,RandOpt 將 3B 參數(shù)的 Qwen2.5-VL-Instruct 模型在 GQA 視覺推理數(shù)據(jù)集上的準(zhǔn)確率提升了 12.4%。



提升究竟來自哪里?代價又是什么?

為了驗證模型能力的真實來源,作者在 GSM8K 數(shù)據(jù)集上對性能提升進(jìn)行了細(xì)致的錯誤歸因分解。

數(shù)據(jù)表明,對于集成后達(dá)到 86.7% 準(zhǔn)確率的 RandOpt(K=50),其提升中有19.0% 來源于「格式叢林」(Format Thicket)(即基礎(chǔ)模型算對了,但輸出格式不符合嚴(yán)苛的評估要求,擾動模型修正了格式);更重要的是,有12.3% 來源于真實的「推理叢林」(Reasoning Thicket)(即基礎(chǔ)模型原本算錯,而擾動后的模型真正學(xué)會了正確的推理并得出正確答案)。這一結(jié)果有力地證明了,神經(jīng)叢林中確實存在著掌握不同實質(zhì)性技能的專家,而不僅僅是表面的格式微調(diào)。

不僅如此,這種叢林現(xiàn)象在文本到圖像生成領(lǐng)域(如 Stable Diffusion XL 模型)中表現(xiàn)為「色彩叢林」(Color Thickets)。某些參數(shù)空間的局部區(qū)域會優(yōu)先生成具有特定調(diào)色板(如藍(lán)色或黃色主導(dǎo))或視覺風(fēng)格的圖像,展現(xiàn)出了極高的生成多樣性。



RandOpt 在推理時需要進(jìn)行 K 次前向傳播,這對實際部署是不利的。為了解決這一問題,研究者提出了一種蒸餾方案:他們利用 RandOpt 篩選出的 Top-50 模型生成數(shù)萬條包含推理軌跡的響應(yīng),然后從中挑選出基礎(chǔ)模型容易出錯的「困難樣本」。接著,只對基礎(chǔ)模型進(jìn)行兩輪監(jiān)督微調(diào)。

實驗結(jié)果令人振奮:在 GSM8K 上,蒸餾后的單一模型性能(84.3%)與龐大的集成模型(87.1%)極為接近,而這個蒸餾過程的計算成本僅占 RandOpt 訓(xùn)練成本的約 2%。

更多細(xì)節(jié)請參見原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
SpaceX新實驗曝光:一枚小飛行器,瞄準(zhǔn)星艦最危險那一刻

SpaceX新實驗曝光:一枚小飛行器,瞄準(zhǔn)星艦最危險那一刻

三體引力波
2026-03-28 12:47:53
當(dāng)年恒大冰泉鋪滿超市,許家印都可以和農(nóng)夫山泉掰手腕,為何大敗

當(dāng)年恒大冰泉鋪滿超市,許家印都可以和農(nóng)夫山泉掰手腕,為何大敗

小武侃風(fēng)云
2026-03-19 01:59:23
有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
伊朗、胡塞武裝、黎巴嫩真主黨同步襲擊以色列,畫面曝光:胡塞武裝遠(yuǎn)程無人機(jī)侵入埃拉特上空,黎巴嫩真主黨導(dǎo)彈擊中以軍坦克并引發(fā)大火

伊朗、胡塞武裝、黎巴嫩真主黨同步襲擊以色列,畫面曝光:胡塞武裝遠(yuǎn)程無人機(jī)侵入埃拉特上空,黎巴嫩真主黨導(dǎo)彈擊中以軍坦克并引發(fā)大火

大象新聞
2026-03-29 12:45:17
越南成品油價格大幅下調(diào)

越南成品油價格大幅下調(diào)

緬甸中文網(wǎng)
2026-03-27 13:37:49
39歲蕭敬騰和老婆現(xiàn)身巴塞羅那街頭,顏值比較一般,還沒路人帥

39歲蕭敬騰和老婆現(xiàn)身巴塞羅那街頭,顏值比較一般,還沒路人帥

TVB的四小花
2026-03-29 15:20:31
惡魔檢察官蔣英庫 8 年殺 21 人,滅口同行,2001 年被槍決伏法

惡魔檢察官蔣英庫 8 年殺 21 人,滅口同行,2001 年被槍決伏法

有書
2026-02-13 21:45:04
委內(nèi)瑞拉石油,引爆美方4個煉油廠,特朗普做的孽,終于來了報應(yīng)

委內(nèi)瑞拉石油,引爆美方4個煉油廠,特朗普做的孽,終于來了報應(yīng)

阿握聊事
2026-03-28 12:27:56
這是國足的水平?U19數(shù)據(jù)全面碾壓澳大利亞!主教練上場教訓(xùn)隊員

這是國足的水平?U19數(shù)據(jù)全面碾壓澳大利亞!主教練上場教訓(xùn)隊員

越嶺尋蹤
2026-03-28 16:23:12
《隱身的名字》葛文君到死都不知道,柏庶為殺她布了十幾年的局

《隱身的名字》葛文君到死都不知道,柏庶為殺她布了十幾年的局

慫熊劇場
2026-03-29 08:17:43
向隊傷無大礙!三大主力怒贊朝鮮節(jié)奏快 蓉城新星太強(qiáng) 木塔快廢了

向隊傷無大礙!三大主力怒贊朝鮮節(jié)奏快 蓉城新星太強(qiáng) 木塔快廢了

刀鋒體育
2026-03-29 10:38:44
苦盡甘來!明天開始好運(yùn)根本藏不住的3個生肖,越主動驚喜越多!

苦盡甘來!明天開始好運(yùn)根本藏不住的3個生肖,越主動驚喜越多!

毅談生肖
2026-03-29 11:42:41
她曾擔(dān)任中紀(jì)委副書記,離休16年后仍驕傲的說:我辦的案都是鐵案

她曾擔(dān)任中紀(jì)委副書記,離休16年后仍驕傲的說:我辦的案都是鐵案

明月清風(fēng)閣
2026-03-28 13:25:06
全球行駛里程最長特斯拉刷新紀(jì)錄 100萬公里后的樣子

全球行駛里程最長特斯拉刷新紀(jì)錄 100萬公里后的樣子

3DM游戲
2026-03-28 11:36:04
必須感謝米盧!邵佳一:態(tài)度決定一切,這是我的教練告訴我的!

必須感謝米盧!邵佳一:態(tài)度決定一切,這是我的教練告訴我的!

邱澤云
2026-03-29 14:51:16
根據(jù)俄領(lǐng)導(dǎo)人的提議,俄羅斯寡頭們“自愿”為特別軍事行動捐款

根據(jù)俄領(lǐng)導(dǎo)人的提議,俄羅斯寡頭們“自愿”為特別軍事行動捐款

山河路口
2026-03-28 16:19:41
國足2-0爆冷僅一夜,贏球傳遍全球3大洲:5大國家媒體盛贊和驚訝

國足2-0爆冷僅一夜,贏球傳遍全球3大洲:5大國家媒體盛贊和驚訝

劉哥談體育
2026-03-29 14:37:28
這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

情感大頭說說
2026-03-29 14:19:10
691輛!中國車在澳洲掀翻日本28年統(tǒng)治,比亞迪卻不是最大的贏家

691輛!中國車在澳洲掀翻日本28年統(tǒng)治,比亞迪卻不是最大的贏家

李子櫥
2026-03-29 12:00:17
拉里賈尼是怎么被找到的?

拉里賈尼是怎么被找到的?

百年歷史老號
2026-03-28 20:30:44
2026-03-29 15:52:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12620文章數(shù) 142599關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認(rèn)xAI"建錯了",11位創(chuàng)始人均離職

頭條要聞

美軍地面戰(zhàn)"數(shù)周速決"方案披露 欲復(fù)刻"42天滅伊"神話

頭條要聞

美軍地面戰(zhàn)"數(shù)周速決"方案披露 欲復(fù)刻"42天滅伊"神話

體育要聞

絕殺衛(wèi)冕冠軍后,他單手指天把勝利獻(xiàn)給父親

娛樂要聞

張凌赫事件持續(xù)升級!官方點(diǎn)名怒批

財經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達(dá)/華為新一代座艙

態(tài)度原創(chuàng)

房產(chǎn)
數(shù)碼
藝術(shù)
公開課
軍事航空

房產(chǎn)要聞

首日430組來訪,單日120組認(rèn)籌!??谑讉€真四代,徹底爆了!

數(shù)碼要聞

OPPO Pad mini打造小屏旗艦巔峰!搭載 8.8 英寸 2.8K 高刷屏+驍龍 8 Gen5

藝術(shù)要聞

2025江南如畫——中國油畫作品展 | 入選作品選刊(二)

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美兩棲攻擊艦載3500名增援到達(dá)

無障礙瀏覽 進(jìn)入關(guān)懷版