国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

后訓(xùn)練中的RL已死?MIT新算法挑戰(zhàn)傳統(tǒng)后訓(xùn)練思維,謝賽寧轉(zhuǎn)發(fā)

0
分享至



機器之心編輯部

在當前的 LLM 開發(fā)中,后訓(xùn)練階段通常被視為賦予模型特定能力的關(guān)鍵環(huán)節(jié)。傳統(tǒng)的觀點認為,模型必須通過強化學(xué)習(xí)(如 PPO、GRPO 或 RLHF)和進化策略(ES)等算法,在反復(fù)的迭代和梯度優(yōu)化過程中調(diào)整權(quán)重,才能在特定任務(wù)上達到理想的性能。

然而,MIT CSAIL 的研究人員 Yulu Gan 和 Phillip Isola 在他們最新發(fā)布的論文中對這一傳統(tǒng)認知發(fā)起了挑戰(zhàn)。他們提出了一種名為RandOpt的新方法,通過簡單的隨機擾動和集成來突破傳統(tǒng)后訓(xùn)練的限制。



  • 論文標題:Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights
  • 論文地址:https://arxiv.org/pdf/2603.12228

這一發(fā)現(xiàn)對大模型參數(shù)空間的理解具有顛覆性意義。早在 2001 年,Schmidhuber 等人提出「隨機猜測」不能算作一種有效的學(xué)習(xí)算法,認為「優(yōu)秀的解決方案在權(quán)重空間中的分布必須極其稀疏」。然而,Gan 和 Isola 的研究揭示了一個反直覺的現(xiàn)象:在完成預(yù)訓(xùn)練后,LLM 模型的權(quán)重空間實際上形成了一個密集的「神經(jīng)叢林」(Neural Thickets),這一狀態(tài)促使簡單的隨機采樣就能發(fā)現(xiàn)有效的解決方案。



論文指出,預(yù)訓(xùn)練模型不僅僅是后訓(xùn)練的「起點」,其權(quán)重空間內(nèi)已潛藏著大量任務(wù)專家。隨著模型規(guī)模的增大,這些專家在權(quán)重空間中的分布密度急劇增加,足以讓隨機擾動和集成方法有效捕捉優(yōu)越的解決方案。

基于這一理論,RandOpt 算法的操作方式非常簡單:只需向預(yù)訓(xùn)練模型添加單步的高斯噪聲(無需任何迭代、學(xué)習(xí)率或梯度計算),并對多個擾動后的模型副本進行集成。實驗結(jié)果表明,僅憑這一極簡的操作,模型就能夠在數(shù)學(xué)推理、代碼生成等復(fù)雜任務(wù)中達到,甚至超越 PPO 或 GRPO 等傳統(tǒng)后訓(xùn)練方法的性能。

通過這一創(chuàng)新方法,RandOpt 為后訓(xùn)練的簡化提供了新的可能,展示了預(yù)訓(xùn)練模型本身已隱含了豐富的任務(wù)專家,后訓(xùn)練過程更多是選擇和集成這些專家,而非從零開始訓(xùn)練新能力。

這篇論文一經(jīng)發(fā)布便在 AI 社區(qū)引發(fā)了轟動,不僅迅速登上 alphaXiv 榜單第二,其作者在 X 上的宣傳帖子也獲得了近 50 萬的瀏覽量和極高的互動,謝賽寧也轉(zhuǎn)發(fā)了該工作。







許多從業(yè)者和研究人員驚呼:「強化學(xué)習(xí)在后訓(xùn)練就死了?」「強化學(xué)習(xí)泡沫破裂?」。





盡管有人對其在細粒度對齊任務(wù)上的泛化能力持保留態(tài)度,但這種極簡算法背后所揭示的參數(shù)空間現(xiàn)象,無疑迫使我們重新思考預(yù)訓(xùn)練與后訓(xùn)練的本質(zhì)關(guān)系。

預(yù)訓(xùn)練權(quán)重的「叢林效應(yīng)」

論文指出,模型規(guī)模決定了這些專家在參數(shù)空間中的分布形態(tài):

  • 小模型(大海撈針機制):未經(jīng)過充分訓(xùn)練或規(guī)模較小的模型,在其初始權(quán)重附近的優(yōu)秀解決方案密度極低。它們處于「大海撈針」的狀態(tài),發(fā)現(xiàn)有效解必須依賴梯度下降等結(jié)構(gòu)化的多步搜索算法。
  • 大模型(神經(jīng)叢林機制):大型且經(jīng)過充分預(yù)訓(xùn)練的模型,其預(yù)訓(xùn)練權(quán)重周圍密集地分布著大量能提升特定任務(wù)性能的專家。在這種狀態(tài)下,僅靠隨機采樣就足以快速找到有潛力的適應(yīng)性模型。



小模型(左)的大海撈針機制與大模型(右)的神經(jīng)叢林機制示意圖。大模型周圍充滿了代碼專家、數(shù)學(xué)專家等特定任務(wù)的解決方案集。

為了量化這一現(xiàn)象,研究測量了兩個核心指標:

  • 解決方案密度:隨機擾動能使基礎(chǔ)模型性能提升特定幅度的概率。實驗表明,這種密度呈現(xiàn)出明顯的縮放定律:模型參數(shù)規(guī)模越大,其性能越好,周圍高質(zhì)量解決方案的密度就越高。
  • 解決方案多樣性:這些隨機采樣出的好模型是「專才」而不是「通才」。一個擾動如果在一個特定任務(wù)上大幅提升了性能,往往會降低在其他任務(wù)上的性能。論文引入了「光譜不一致性」指標來衡量,發(fā)現(xiàn)隨著模型規(guī)模增加,解決方案的多樣性也單調(diào)增加,這意味著大模型周圍的專家在能力上越來越互補且互不重疊。

為了直觀展示神經(jīng)叢林的存在,研究團隊對參數(shù)量從 0.5B 到 32B 的 Qwen2.5 預(yù)訓(xùn)練模型注入了 1000 個隨機權(quán)重擾動,并通過隨機投影技術(shù)將其準確率景觀可視化到了二維平面上。



實驗清晰地呈現(xiàn)了 Scaling Law:隨著模型規(guī)模的擴大,景觀中代表更高準確率的「紅色區(qū)域」(即任務(wù)改善區(qū)域)顯著增多并變得更加密集。

簡而言之,大模型所處的參數(shù)空間不僅是一個寬闊的平原,其周圍更是一個布滿不同任務(wù)局部最優(yōu)解的「盆地」。

那么,究竟是什么導(dǎo)致了這種奇特的「神經(jīng)叢林」的涌現(xiàn)?

1D 信號預(yù)測實驗揭示了這一現(xiàn)象的根本原因。研究者使用多層感知機(MLP)對混合的一維信號(如正弦波、方波等)進行自回歸預(yù)測的預(yù)訓(xùn)練。通過對比不同預(yù)訓(xùn)練策略,實驗揭示了三個階段:

  • 無預(yù)訓(xùn)練(大海撈針期):在隨機初始化下,微小的權(quán)重擾動對模型功能幾乎沒有影響,好的解決方案距離極遠,隨機采樣完全失效。
  • 單一任務(wù)預(yù)訓(xùn)練(高原期):如果只在單一信號(如僅線性函數(shù))上預(yù)訓(xùn)練,模型在測試該任務(wù)時已經(jīng)達到性能天花板(處于平緩的極小值處),但周圍的權(quán)重沒有展現(xiàn)出任何功能多樣性,隨機猜測無法帶來額外收益。
  • 混合多任務(wù)預(yù)訓(xùn)練(叢林誕生期):只有當模型在多種不同的信號類型上進行過混合預(yù)訓(xùn)練后,參數(shù)空間才會孕育出能在不同方向上擬合不同信號的「專家叢林」。



1D 信號預(yù)測實驗展示了三種機制。只有在「混合信號預(yù)訓(xùn)練」下(圖 b),權(quán)重擾動才會炸開成形態(tài)各異的函數(shù)預(yù)測,形成神經(jīng)叢林。

這也解釋了為什么在海量混合數(shù)據(jù)上預(yù)訓(xùn)練的大語言模型,會天然自帶一片生機勃勃的「專家叢林」。

RandOpt 算法:單步、無梯度、極致并行

基于「密度高」且「多樣性強」的神經(jīng)叢林現(xiàn)象,作者探索了一種極其簡單且完全并行的后訓(xùn)練算法RandOpt。作者將其定義為:單步、無梯度、無學(xué)習(xí)率、無迭代、完全并行。



RandOpt 的操作避開了所有序列化的梯度更新,主要分為兩個階段:

  • 訓(xùn)練(隨機猜測與檢查):算法從標準高斯分布中采樣出 N 個隨機種子和對應(yīng)的噪聲尺度,將其直接加到基礎(chǔ)模型的權(quán)重上,生成 N 個擾動后的模型副本。隨后,讓這些模型在一個小的訓(xùn)練集(或驗證集)上運行,并根據(jù)得分選出表現(xiàn)最好的 Top-K 個模型。
  • 推理(預(yù)測集成):在面對測試輸入時,算法利用篩選出的 K 個模型分別生成預(yù)測,最終通過多數(shù)投票機制聚合這些預(yù)測,得出最終答案。



RandOpt 性能與基礎(chǔ)模型規(guī)模的關(guān)系。圖表顯示,如果從頭開始使用 RandOpt(不進行預(yù)訓(xùn)練),性能幾乎為零;而對于經(jīng)過預(yù)訓(xùn)練的模型,在參數(shù)量達到約 1.5B 時,RandOpt 的性能提升開始迎來爆發(fā)。

這種機制的一個關(guān)鍵特性是它完全不需要計算梯度,也不涉及任何序列化的優(yōu)化步驟,所有的模型生成和評估都可以完全并行處理。

RandOpt 與傳統(tǒng)方法的對比

這種看似「簡單粗暴」的方法,在實際基準測試中展現(xiàn)出了驚人的戰(zhàn)斗力。研究團隊在跨越 0.5B 到 8B 參數(shù)規(guī)模的多個模型(Qwen、Llama、OLMo3)上,對數(shù)學(xué)推理(Countdown、GSM8K 等)、代碼生成(MBPP)、創(chuàng)意寫作(ROCStories)以及化學(xué)(USPTO)任務(wù)進行了全面測試。

在消耗相同訓(xùn)練 FLOPs(浮點運算次數(shù))的前提下,RandOpt(通常設(shè)置 K=50)在絕大多數(shù)設(shè)定中不僅追平,甚至超越了 PPO、GRPO 和 ES 等標準后訓(xùn)練方法。

此外,RandOpt 在訓(xùn)練時間(Wall-clock time)上具有顛覆性的優(yōu)勢。傳統(tǒng)基準方法需要運行數(shù)百個序列化更新步驟(時間復(fù)雜度為 O(T)),而 RandOpt 的訓(xùn)練步驟是 O(1)。論文指出,在一組包含 200 個 GH200 GPU 的集群上使用 RandOpt 訓(xùn)練 OLMo-3-7B-Instruct 模型,設(shè)定 N=2000 和 K=50,僅需 3.2 分鐘即可完成,并在 Countdown 任務(wù)上達到 70% 的準確率。

不僅是語言模型,RandOpt 同樣適用于視覺語言模型(VLM)。在凍結(jié)視覺編碼器、僅擾動語言模型權(quán)重的情況下,RandOpt 將 3B 參數(shù)的 Qwen2.5-VL-Instruct 模型在 GQA 視覺推理數(shù)據(jù)集上的準確率提升了 12.4%。



提升究竟來自哪里?代價又是什么?

為了驗證模型能力的真實來源,作者在 GSM8K 數(shù)據(jù)集上對性能提升進行了細致的錯誤歸因分解。

數(shù)據(jù)表明,對于集成后達到 86.7% 準確率的 RandOpt(K=50),其提升中有19.0% 來源于「格式叢林」(Format Thicket)(即基礎(chǔ)模型算對了,但輸出格式不符合嚴苛的評估要求,擾動模型修正了格式);更重要的是,有12.3% 來源于真實的「推理叢林」(Reasoning Thicket)(即基礎(chǔ)模型原本算錯,而擾動后的模型真正學(xué)會了正確的推理并得出正確答案)。這一結(jié)果有力地證明了,神經(jīng)叢林中確實存在著掌握不同實質(zhì)性技能的專家,而不僅僅是表面的格式微調(diào)。

不僅如此,這種叢林現(xiàn)象在文本到圖像生成領(lǐng)域(如 Stable Diffusion XL 模型)中表現(xiàn)為「色彩叢林」(Color Thickets)。某些參數(shù)空間的局部區(qū)域會優(yōu)先生成具有特定調(diào)色板(如藍色或黃色主導(dǎo))或視覺風(fēng)格的圖像,展現(xiàn)出了極高的生成多樣性。



RandOpt 在推理時需要進行 K 次前向傳播,這對實際部署是不利的。為了解決這一問題,研究者提出了一種蒸餾方案:他們利用 RandOpt 篩選出的 Top-50 模型生成數(shù)萬條包含推理軌跡的響應(yīng),然后從中挑選出基礎(chǔ)模型容易出錯的「困難樣本」。接著,只對基礎(chǔ)模型進行兩輪監(jiān)督微調(diào)。

實驗結(jié)果令人振奮:在 GSM8K 上,蒸餾后的單一模型性能(84.3%)與龐大的集成模型(87.1%)極為接近,而這個蒸餾過程的計算成本僅占 RandOpt 訓(xùn)練成本的約 2%。

更多細節(jié)請參見原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
南京女教師停職風(fēng)波反轉(zhuǎn)!大批家長發(fā)聲力挺,懇請恢復(fù)崗位與聲譽

南京女教師停職風(fēng)波反轉(zhuǎn)!大批家長發(fā)聲力挺,懇請恢復(fù)崗位與聲譽

火山詩話
2026-03-26 06:37:23
航天少帥譚瑞松被判死緩 不執(zhí)行死刑和終身監(jiān)禁

航天少帥譚瑞松被判死緩 不執(zhí)行死刑和終身監(jiān)禁

小鹿姐姐情感說
2026-03-26 02:23:54
特朗普:伊朗在談判但不敢明說,其領(lǐng)導(dǎo)人怕被自己人干掉!伊外長:與美“交流信息”?,沒談判!美媒:萬斯將前往巴基斯坦討論停戰(zhàn)

特朗普:伊朗在談判但不敢明說,其領(lǐng)導(dǎo)人怕被自己人干掉!伊外長:與美“交流信息”?,沒談判!美媒:萬斯將前往巴基斯坦討論停戰(zhàn)

每日經(jīng)濟新聞
2026-03-26 09:53:08
大快人心!伊朗強硬派海軍將領(lǐng)斃命,中東總算少個攪局的刺頭

大快人心!伊朗強硬派海軍將領(lǐng)斃命,中東總算少個攪局的刺頭

老馬拉車莫少裝
2026-03-25 20:25:12
張雪峰去世事件升級!很多人連夜下單AED,有店鋪一天銷售100多臺

張雪峰去世事件升級!很多人連夜下單AED,有店鋪一天銷售100多臺

火山詩話
2026-03-26 07:32:38
伊朗稱正在搜捕逃亡美軍

伊朗稱正在搜捕逃亡美軍

界面新聞
2026-03-25 23:21:14
東契奇43分7助攻湖人戰(zhàn)勝步行者,勒布朗23分9板9助里夫斯25分

東契奇43分7助攻湖人戰(zhàn)勝步行者,勒布朗23分9板9助里夫斯25分

湖人崛起
2026-03-26 09:32:48
美軍稱林肯號航母繼續(xù)對伊朗作戰(zhàn)

美軍稱林肯號航母繼續(xù)對伊朗作戰(zhàn)

界面新聞
2026-03-26 10:03:25
張雪峰去世真相!網(wǎng)友:偌大的公司靠他個人ip養(yǎng)活,早死是必然的

張雪峰去世真相!網(wǎng)友:偌大的公司靠他個人ip養(yǎng)活,早死是必然的

火山詩話
2026-03-25 09:18:58
伊朗發(fā)動第81波行動,打擊以色列70多處目標!內(nèi)塔尼亞胡:48小時內(nèi)盡可能多摧毀伊朗軍工設(shè)施;伊朗外長:以將美國推向沖突,沒有談判余地

伊朗發(fā)動第81波行動,打擊以色列70多處目標!內(nèi)塔尼亞胡:48小時內(nèi)盡可能多摧毀伊朗軍工設(shè)施;伊朗外長:以將美國推向沖突,沒有談判余地

每日經(jīng)濟新聞
2026-03-26 08:26:06
聯(lián)大認定“奴隸制”為最嚴重反人類罪:123票贊成,美國、以色列、阿根廷共3票反對

聯(lián)大認定“奴隸制”為最嚴重反人類罪:123票贊成,美國、以色列、阿根廷共3票反對

都市快報橙柿互動
2026-03-26 07:59:37
中方駁斥“闖館事件”日方荒謬說法:你見過未經(jīng)允許持刀進入使館同大使交談的先例嗎?

中方駁斥“闖館事件”日方荒謬說法:你見過未經(jīng)允許持刀進入使館同大使交談的先例嗎?

環(huán)球網(wǎng)資訊
2026-03-26 07:09:09
參加世界杯,每人先交1.5萬刀!特朗普政策影響多個世界杯參賽國

參加世界杯,每人先交1.5萬刀!特朗普政策影響多個世界杯參賽國

全景體育V
2026-03-26 08:16:09
可能出大事了,四名軍工系統(tǒng)院士被除名,釋放的信號讓人不敢細想

可能出大事了,四名軍工系統(tǒng)院士被除名,釋放的信號讓人不敢細想

張嘴說財經(jīng)
2026-03-25 23:07:05
周杰倫的INS被網(wǎng)友沖爆,新歌MV里手表調(diào)到“83”,疑用舊戀情炒作賣新唱片

周杰倫的INS被網(wǎng)友沖爆,新歌MV里手表調(diào)到“83”,疑用舊戀情炒作賣新唱片

回旋鏢
2026-03-25 20:38:44
1000億背后的陽謀:拼多多利用中國制造的優(yōu)勢,要狂掃國外市場

1000億背后的陽謀:拼多多利用中國制造的優(yōu)勢,要狂掃國外市場

風(fēng)向觀察
2026-03-25 20:46:14
曝信達證券所長猥褻員工,長得很老實,女方顏值出眾,合影曝光

曝信達證券所長猥褻員工,長得很老實,女方顏值出眾,合影曝光

180視角
2026-03-25 17:34:12
社評:親身了解中國,美國官員急需補上的一課

社評:親身了解中國,美國官員急需補上的一課

環(huán)球網(wǎng)資訊
2026-03-26 00:05:09
我就不信張一山?jīng)]有后悔過嗎?這么美的前任拱手讓出去了

我就不信張一山?jīng)]有后悔過嗎?這么美的前任拱手讓出去了

喜歡歷史的阿繁
2026-03-26 09:20:58
是什么,讓這個日本自衛(wèi)官竟敢對中國大使館舉刀?

是什么,讓這個日本自衛(wèi)官竟敢對中國大使館舉刀?

環(huán)球時報國際
2026-03-26 00:13:51
2026-03-26 10:51:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12598文章數(shù) 142593關(guān)注度
往期回顧 全部

科技要聞

硅谷因AI大裁員?一線工程師戳破真相

頭條要聞

上海36歲女子嫁23歲小伙 拿千萬元房產(chǎn)99%份額"閃離"

頭條要聞

上海36歲女子嫁23歲小伙 拿千萬元房產(chǎn)99%份額"閃離"

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰遺產(chǎn)分割復(fù)雜!是否立遺囑成關(guān)鍵

財經(jīng)要聞

黃仁勛:芯片公司的時代已經(jīng)結(jié)束了

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

游戲
藝術(shù)
教育
房產(chǎn)
公開課

這能IGN 8分?卡普空經(jīng)典大作重制后口碑竟然暴漲

藝術(shù)要聞

哪一座橋不是風(fēng)景?

教育要聞

ISAR選修課丨重磅古典占星預(yù)測課程:整合6大預(yù)測技法,從入門到實戰(zhàn)

房產(chǎn)要聞

41億!259畝!建學(xué)?!齺嗊@個大城更,最新方案曝光!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版