国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

<samp id="sqwko"><kbd id="sqwko"></kbd></samp>

<table id="sqwko"><dl id="sqwko"></dl></table>

<samp id="sqwko"></samp>

<del id="22ka6"><abbr id="22ka6"></abbr></del>

<samp id="22ka6"><em id="22ka6"></em></samp>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

天下苦「調參」久矣！MIT師生推出全新RandOpt算法

2026-03-16 15:08:31　來源: 量子位

北京舉報

0

分享至

只需向模型添加高斯噪聲，性能就能比肩甚至超越GRPO/PPO等經典調參算法。

MIT新論文向大家都在頭疼的“調參”開炮了！

為了將預訓練模型變成某一任務領域專家，無數人夜以繼日，紛紛掉發(fā)。

然而現在，一對來自MIT的師生用一篇新論文告訴大家：

不用復雜調參，隨機改改參數再整合結果，模型效果就能和GRPO/PPO等專業(yè)調參方法差不多。

在這篇論文誕生前，我們熟悉的論調是：專家模型是訓練出來的。

甭管是靠梯度下降還是強化學習，都得一步一個腳印慢慢優(yōu)化參數。

但這篇論文卻揭示，專家模型早就存在，只是藏在權重空間里，預訓練模型的真實形態(tài)be like：

專家模型像灌木一樣密密麻麻長在周圍。（即論文提到的“Neural Thickets（神經叢林）”現象）

△注：以上為AI生成，非論文內容

就是說，只要在預訓練權重附近稍微擾動一下參數，就可能“碰到”一個新的任務專家。

基于此，作者進一步提出了一種非常簡單的方法RandOpt：

只需向大語言模型添加高斯噪聲（單步操作——無需迭代、無需學習率、無需梯度），然后將它們集成起來，就能在數學推理、編程、寫作和化學任務上取得與標準GRPO/PPO相當甚至更優(yōu)的性能。

而且作者發(fā)現，模型越大，效果越好。

預訓練模型周圍藏著“神經叢林”

簡單來說，論文給出了一個反直覺的結論——

預訓練模型周圍早就存在大量“專家模型”。

在權重空間里，能解決不同任務的模型并不是零散分布的，而是密集地“長”在預訓練權重附近。

所以理論上，并不一定需要復雜的訓練過程，只要在這片區(qū)域里多試幾次，就有機會找到表現不錯的任務專家。

聽到這里，估計很多人的反應是：啊這，難道這不就是靠猜、靠試嗎？

沒錯，還真就是靠猜。

一直以來，隨機猜測都被認為是不夠靠譜的機器學習算法，比如隨機猜出ChatGPT的參數向量，概率幾乎為零。

但論文發(fā)現，到了預訓練模型這里情況就變了——

模型權重周圍，能提升任務表現的參數擾動變得很密集，所以隨機猜測也能找到有效改進方案。

在論文中，作者對預訓練的Qwen2.5模型（0.5B~32B）施加了1000次隨機權重擾動，并通過隨機投影將其投影到二維平面。

結果發(fā)現，模型越大，周圍“高精度區(qū)域”越密集；小模型擾動后大多性能下降（藍色區(qū)域），而大模型周圍隨處可見性能提升的“專家”（紅色區(qū)域）。

換言之，模型越大，這種擾動效果越明顯、越起作用。

而且需要注意，這些隨機擾動最后帶來的不是“全能選手”，而是“偏科戰(zhàn)神”。

實驗顯示，沒有任何一個隨機改動能讓模型在所有任務上都實現提升。例如，某一個改動能讓模型數學算得更準，但寫代碼會變菜；另一個改動能讓模型化學題做得好，但寫故事不行。

并且同樣的，模型越大，這種偏科越明顯。

至于模型為啥會出現這種“周圍偷偷藏一堆高手”的現象，論文也通過一個極簡實驗給出了初步解釋。

他們選用了結構最簡單、最容易看懂的1D信號自回歸模型，讓其學習預測一段時間序列信號的下一個數值。

結果出現了三種情況：

無預訓練：不論怎么添加擾動，模型周圍都完全找不到可以提升性能的改動，隨機猜測無意義；
單一任務預訓練：模型只能把經過預訓練的任務做到極致，參數周圍不會冒出其他優(yōu)質改動；
多任務混合預訓練：模型參數周圍瞬間布滿能提升性能的擾動，隨便加個小改動，就能解鎖擅長某類信號預測的專項能力，成功復刻“神經叢林”的密集狀態(tài)。

由此論文得出核心結論，“神經叢林”現象的誕生，關鍵就在于大模型的海量多任務預訓練。

換言之，正因為底子夠足，所以周圍很容易找到可以隨機擾動的“專家”。

啟發(fā)了RandOpt算法

而上述研究，也啟發(fā)論文作者提出了一種新的算法，RandOpt。

RandOpt的運行機制可以分成簡單兩步：隨機找高手+組隊投票。

“隨機找高手”就和前面提到的類似，給預訓練模型的參數隨機做N次擾動，然后就會得到N個“新版本模型”。

再用少量驗證數據簡單測一測這些模型，我們就能找出其中表現最好的K個。

拿到這K個模型后，接下來進入實戰(zhàn)推理階段——

讓這K個“高手”各自回答問題，最后按“少數服從多數”的原則決定最終結果。

整個過程有兩個值得注意的點：

一是在添加擾動sigmas（即噪聲強度）時，RandOpt會嘗試不同強度的噪聲（比如小擾動、中擾動、大擾動），以確保能找到各種類型的專家。

二是這N個模型可以同時在多塊GPU上運行，速度很快。

當然了，論文也試著用不同模型測試了這一新算法。

初步結果顯示，對于純語言大模型，在數學、編程、寫故事、化學等任務上，RandOpt的準確率和現在主流的專業(yè)調參方法（PPO/GRPO/ES）差不多，有的甚至更高。

而對視覺-語言模型來說， RandOpt的提升作用則更加明顯，準確率直接從56.6%漲到69.0%。

與此同時，除了語言和視覺-語言模型，論文也在圖像擴散模型中觀察到了類似的“神經叢林”現象——

參數空間的某些特定區(qū)域會傾向于生成具有特定色調或視覺風格的圖像。

以及論文作者提醒，RandOp在以下情況下效果更佳：

隨機改的次數越多，挑的“高手”越厲害。
模型越大，RandOpt效果越好。

論文作者介紹

最后介紹一下這項研究的兩位作者。

Yulu Gan，北大工程碩士，目前是MIT計算機科學與人工智能實驗室（CSAIL）的博士生。

此前曾在微軟實習，研究方向主要為多模態(tài)大語言模型、推理、多智能體系統以及AI for science。

另一位作者Phillip Isola是他的導師，現任MIT電子工程與計算機科學系副教授。

Phillip Isola在加州大學伯克利分校做完博士后研究后，曾在2017年以技術人員的身份加入OpenAI。

不過干了不到一年，后面又去谷歌當了一年訪問學者。

再然后就是回到讀研時的母校MIT，任教至今。

Phillip Isola的主要研究方向為AI基礎理論和計算機視覺，曾參與提出pix2pix、LPIPS感知損失等經典工作，谷歌學術論文被引量超10w+。

通過本次研究，師徒二人想重新告訴大家：

是時候重新認識預訓練模型了，它不只是“一個能用的模型”，更是“一堆高手的集合”。

只要預訓練做得足夠好，后續(xù)想讓模型干好具體任務，根本不用復雜調參，像RandOpt這樣隨機改改、組隊投票就行，省時間省算力。

不過缺點也很明顯，大致呢有下面這幾個：

依賴優(yōu)質預訓練，這是一個基本大前提。
模型只能基于預訓練數據找改進，無法讓模型學會新技能。
K越大效果越好，但推理時要跑K個模型，雖然蒸餾能緩解，但蒸餾不適用于所有場景（比如生成式任務）。
只適合有明確答案的任務，像寫故事、設計分子這種結構化生成任務，還需要進一步改進集成方式。

目前相關論文和代碼已公開，感興趣可以繼續(xù)關注。

論文：
https://arxiv.org/pdf/2603.12228
GitHub：
https://github.com/sunrainyg/RandOpt
項目主頁：
https://thickets.mit.edu/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

后訓練中的RL已死？MIT新算法挑戰(zhàn)傳統后訓練思維，謝賽寧轉發(fā)

機器之心Pro 2026-03-16 14:15:20
1 跟貼 1
關于AI和基礎科研的三個問題

DeepTech深科技 2026-03-15 18:17:12
28 跟貼 28

鷹和龍：iRobot，被驚醒的美國夢

鈦媒體APP 2025-12-19 08:46:13
0 跟貼 0

多模態(tài)預訓練，才是大模型的下一條路？Yann LeCun、謝賽寧參與

機器之心Pro 2026-03-09 11:53:58
0 跟貼 0
對話南理工楊劍飛：機器人走進家庭之前，必須先學會如何與人共處

DeepTech深科技 2025-12-28 18:38:06
0 跟貼 0

別顧著吃315的瓜！大廠打響「數據保衛(wèi)戰(zhàn)」：三張底牌破解AI投毒

雷科技 2026-03-17 01:02:45
0 跟貼 0

以太之心發(fā)布Aeloon（伊龍），超低Token消耗重塑智能體普惠價值｜公司動態(tài)

鈦媒體APP 2026-03-16 20:58:10
0 跟貼 0
當AI進入真實世界：Hitch Open在F1賽道開啟物理智能時代

鈦媒體APP 2026-03-16 21:09:46
0 跟貼 0

英偉達發(fā)布DLSS 5，黃仁勛高呼圖形學的GPT時刻來了

華爾街見聞官方 2026-03-17 03:41:46
0 跟貼 0
大模型解剖圖火了，30多個開源模型架構差異一目了然，還可接入AI

DeepTech深科技 2026-03-16 17:33:15
0 跟貼 0
物理AI的「原生」時刻：原力靈機發(fā)布具身大模型DM0

機器之心Pro 2026-03-11 16:32:04
0 跟貼 0
ICLR 2026北京論文分享會啟動，直擊「AI龍蝦」、世界模型新范式

機器之心Pro 2026-03-16 18:37:26
0 跟貼 0
「不作秀」的科沃斯機器人，如何實現具身智能未來？

愛范兒 2026-03-16 17:47:47
0 跟貼 0
AI手機的分水嶺來了：豆包、千問、Gemini走出了三條路

雷科技 2026-03-17 00:44:03
0 跟貼 0
山東省競賽題：同學們以為簡單，越做越糊涂了

大力小學數學 2026-03-14 18:46:00
0 跟貼 0
MIT新方法讓兩顆芯片共享唯一“指紋”，重寫硬件安全規(guī)則

DeepTech深科技 2026-02-25 17:32:10
0 跟貼 0
MIT團隊用深度學習預測心衰走向，準確率超過87%

DeepTech深科技 2026-03-16 13:16:02
0 跟貼 0
阿里Qwen、上交大等提出預訓練動態(tài)數據選擇范式OPUS

機器之心Pro 2026-03-16 18:27:37
0 跟貼 0
理論學的好不代表實戰(zhàn)就厲害

薇薇影視 2026-03-13 08:58:29
1 跟貼 1
根據愛因斯坦的理論，瞬移到6500萬光年外，就能看見恐龍滅絕？

觀察宇宙 2026-03-13 21:00:00
0 跟貼 0
五年級思考題，a×a+a=240，坑娃題

大力小學數學 2026-03-15 14:08:00
0 跟貼 0
北京中考數學，分式方程

大力小學數學 2026-03-12 09:53:00
0 跟貼 0
女子24萬"撿漏"二手車無法過戶原車主可遠程監(jiān)控車輛

極目新聞 2026-03-16 10:20:23
6955 跟貼 6955
清華團隊：1.5B 模型新基線！用「最笨」的 RL 配方達到頂尖性能

機器之心Pro 2025-11-13 14:56:23
0 跟貼 0
多地連夜通報315曝光問題

北京日報 2026-03-16 07:56:20
8678 跟貼 8678
模型飛機試飛，鏡頭一轉發(fā)現事不簡單，美女吃了熊心豹子膽

夏正經 2026-03-16 17:01:08
1 跟貼 1
強行計算根號21，一招走天下

大力小學數學 2026-03-14 10:45:00
0 跟貼 0
掌握數形結合，六年級數學不再難！

奧數輕松學 2026-03-14 16:10:36
6 跟貼 6
祖墳冒青煙的反面教材有哪些？網友：智商這東西不能遺傳的

帶你感受人間冷暖 2026-03-17 00:40:03
0 跟貼 0
600年前城磚上出現“劉德華”？南京官方回應

澎湃新聞 2026-03-14 20:02:09
2712 跟貼 2712
兩位清華校友創(chuàng)業(yè)：獲谷歌、英偉達系投資人押注，要把機器人數據采集成本降50倍丨36氪首發(fā)

36氪 2026-03-16 09:20:06
0 跟貼 0
臺灣省中考數學，不小心就出錯，+3×（-5）×（-2）

大力小學數學 2026-03-13 06:19:00
0 跟貼 0
小學數學，用打包法輕松解決年齡問題！

秒懂奧數李菁老師 2026-03-16 17:13:03
4 跟貼 4
紅會醫(yī)院一個院區(qū)兩個支具室，醫(yī)生推薦購買的產品不僅貴，還查不到掛網信息｜315支具調查（2）

大風新聞 2026-03-16 07:34:14
155 跟貼 155
GEO已死，AEO是答案

虎嗅APP 2026-03-16 23:40:15
0 跟貼 0
顏寧，去了這所985！

超級數學建模 2026-03-16 22:32:03
2 跟貼 2
博主在外婆家中翻出2016年的巧克力

極目新聞 2026-03-16 07:01:32
1409 跟貼 1409
漂白泡椒雞爪的重慶曾巧食品已停業(yè)3天，工人：用不知名液體浸泡泡椒，雞爪加工后會變白凈，我們也不吃它

極目新聞 2026-03-16 15:19:54
140 跟貼 140
Momenta不選VLA選世界模型，大眾首發(fā)！曹旭東：傳感器第三重要

智能車參考 2026-03-16 23:19:52
0 跟貼 0
無需訓練、即插即用，這個解碼方法讓模型學會謹慎思考

DeepTech深科技 2026-02-23 20:21:48
0 跟貼 0

美宜佳1天被查出140萬支假煙，回應稱加盟商所為，煙草局殺伐果斷

美宜佳1天被查出140萬支假煙，回應稱加盟商所為，煙草局殺伐果斷

潮鹿逐夢

2026-03-15 21:58:48

遼寧一市政協副主席涉嫌嚴重違紀違法，正接受紀委監(jiān)委紀律審查和監(jiān)察調查。

遼寧一市政協副主席涉嫌嚴重違紀違法，正接受紀委監(jiān)委紀律審查和監(jiān)察調查。

大閩門戶

2026-03-16 21:05:55

“鹿哈”凌達樂帶貨的牛肚產品存在衛(wèi)生問題，啟動賠付預計賠償26.9億元

“鹿哈”凌達樂帶貨的牛肚產品存在衛(wèi)生問題，啟動賠付預計賠償26.9億元

閃電新聞

2026-03-16 16:45:59

存款100萬，在2026年只能算是“困難戶”？最新財富等級表出爐

存款100萬，在2026年只能算是“困難戶”？最新財富等級表出爐

小白鴿財經

2026-03-16 09:05:02

雪上加霜！中國女足VS澳大利亞隊，又1主力將缺席比賽，原因曝光

雪上加霜！中國女足VS澳大利亞隊，又1主力將缺席比賽，原因曝光

何老師呀

2026-03-16 20:47:11

央視坐實！成本2元售價19800元！不少人受騙，趕緊別用了

央視坐實！成本2元售價19800元！不少人受騙，趕緊別用了

番外行

2026-03-10 08:01:42

國民黨內大地震，馬英九發(fā)免責聲明，要和蕭旭岑斷絕關系？不簡單

國民黨內大地震，馬英九發(fā)免責聲明，要和蕭旭岑斷絕關系？不簡單

林子說事

2026-03-16 15:58:44

許家印大兒子月領4100萬躺平，二兒子替父頂罪蹲號子，女兒開跑車

許家印大兒子月領4100萬躺平，二兒子替父頂罪蹲號子，女兒開跑車

歷史偉人錄

2026-03-15 20:20:22

金門發(fā)出重磅消息，賴清德要后背發(fā)涼，大陸幾十年努力終究沒白費

金門發(fā)出重磅消息，賴清德要后背發(fā)涼，大陸幾十年努力終究沒白費

觀星賞月

2026-03-16 21:03:51

藍莓再次成為關注對象！醫(yī)生提醒：吃藍莓時，千萬多留意這幾點

藍莓再次成為關注對象！醫(yī)生提醒：吃藍莓時，千萬多留意這幾點

健身狂人

2026-03-14 15:19:49

伊朗亮出最猛大殺器！“泥石”導彈打擊以色列，一晚上炸傷2個人

伊朗亮出最猛大殺器！“泥石”導彈打擊以色列，一晚上炸傷2個人

阿庫財經

2026-03-17 01:54:29

庫尼亞：我總是跟胖虎說再留一年吧，他讓我學到了很多

庫尼亞：我總是跟胖虎說再留一年吧，他讓我學到了很多

懂球帝

2026-03-16 21:20:30

你有多年后反應過來的事嗎？網友：第一個就很炸裂啊，可以判刑了

你有多年后反應過來的事嗎？網友：第一個就很炸裂啊，可以判刑了

解讀熱點事件

2026-03-17 00:05:06

女子泰國遇害后續(xù)：工作不堪示人，丈夫毫不知情，嫌疑人身份曝光

女子泰國遇害后續(xù)：工作不堪示人，丈夫毫不知情，嫌疑人身份曝光

愛寫的櫻桃

2026-03-15 13:00:42

實探被3·15曝光漂白雞爪的成都企業(yè)：正鏟除大門銘牌，標語寫著“質量決定生存”

實探被3·15曝光漂白雞爪的成都企業(yè)：正鏟除大門銘牌，標語寫著“質量決定生存”

極目新聞

2026-03-16 16:25:56

美容院老板娘大實話：脫了衣服，女人的差距根本不在臉上！

美容院老板娘大實話：脫了衣服，女人的差距根本不在臉上！

夜深愛雜談

2026-03-08 21:28:24

偉偉道來 | 特朗普會投入地面部隊嗎？

偉偉道來 | 特朗普會投入地面部隊嗎？

經濟觀察報

2026-03-16 13:51:33

“中超神童”被盯上了！南美球探：習慣低頭帶球，閱讀比賽稚嫩

“中超神童”被盯上了！南美球探：習慣低頭帶球，閱讀比賽稚嫩

足球大腕

2026-03-16 20:32:31

A股：剛剛，大消息傳來，利好這三大板塊，或將進入新一輪大周期

A股：剛剛，大消息傳來，利好這三大板塊，或將進入新一輪大周期

另子維愛讀史

2026-03-16 21:28:23

損失慘重：阿聯酋空軍薩博全球之眼預警機機庫被摧毀！

損失慘重：阿聯酋空軍薩博全球之眼預警機機庫被摧毀！

勝研集

2026-03-16 06:05:35

追蹤人工智能動態(tài)

12291文章數 176413關注度

往期回顧全部

科技要聞

“龍蝦”當道，五位養(yǎng)蝦人探討人類出路

頭條要聞

馬拉松冠軍選手沖線時被攔停并強行帶離賽道本人發(fā)文

頭條要聞

馬拉松冠軍選手沖線時被攔停并強行帶離賽道本人發(fā)文

體育要聞

那個送老奶奶去醫(yī)院的球員成了隊史第一人

娛樂要聞

姚晨曹郁發(fā)離婚聲明多年前已結束婚姻

財經要聞

梁文鋒推遲V4，是為根治龍蝦的健忘癥？

汽車要聞

大眾全球首款9系旗艦SUV 上汽大眾ID.ERA 9X首秀

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

時尚

房產

數碼

游戲

教育要聞

高考地理中的熱點火山

祝賀廣大師生周一不再要求穿禮服了?。。?/a>

“這個顏色”今天春天又火了！這樣穿好看又減齡

房產要聞

操作真強！保利三亞，十年臘肉盤，要大規(guī)模商改住了！

數碼要聞

蘋果AirPods Max 2首發(fā)即享國補199元起換新再減300元

PS5版《星空》26小時后開預購！kun哥再次強調

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<strike id="4624q"><abbr id="4624q"></abbr></strike><samp id="4624q"><em id="4624q"></em></samp>