国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

天下苦「調參」久矣!MIT師生推出全新RandOpt算法

0
分享至

只需向模型添加高斯噪聲,性能就能比肩甚至超越GRPO/PPO等經典調參算法。

MIT新論文向大家都在頭疼的“調參”開炮了!

為了將預訓練模型變成某一任務領域專家,無數人夜以繼日,紛紛掉發(fā)。

然而現在,一對來自MIT的師生用一篇新論文告訴大家:

不用復雜調參,隨機改改參數再整合結果,模型效果就能和GRPO/PPO等專業(yè)調參方法差不多。



在這篇論文誕生前,我們熟悉的論調是:專家模型是訓練出來的。

甭管是靠梯度下降還是強化學習,都得一步一個腳印慢慢優(yōu)化參數。

但這篇論文卻揭示,專家模型早就存在,只是藏在權重空間里,預訓練模型的真實形態(tài)be like:

專家模型像灌木一樣密密麻麻長在周圍。(即論文提到的“Neural Thickets(神經叢林)”現象)



△注:以上為AI生成,非論文內容

就是說,只要在預訓練權重附近稍微擾動一下參數,就可能“碰到”一個新的任務專家。

基于此,作者進一步提出了一種非常簡單的方法RandOpt

  • 只需向大語言模型添加高斯噪聲(單步操作——無需迭代、無需學習率、無需梯度),然后將它們集成起來,就能在數學推理、編程、寫作和化學任務上取得與標準GRPO/PPO相當甚至更優(yōu)的性能。



而且作者發(fā)現,模型越大,效果越好。

預訓練模型周圍藏著“神經叢林”

簡單來說,論文給出了一個反直覺的結論——

預訓練模型周圍早就存在大量“專家模型”。

在權重空間里,能解決不同任務的模型并不是零散分布的,而是密集地“長”在預訓練權重附近。

所以理論上,并不一定需要復雜的訓練過程,只要在這片區(qū)域里多試幾次,就有機會找到表現不錯的任務專家。

聽到這里,估計很多人的反應是:啊這,難道這不就是靠猜、靠試嗎?

沒錯,還真就是靠猜。

一直以來,隨機猜測都被認為是不夠靠譜的機器學習算法,比如隨機猜出ChatGPT的參數向量,概率幾乎為零。

但論文發(fā)現,到了預訓練模型這里情況就變了——

模型權重周圍,能提升任務表現的參數擾動變得很密集,所以隨機猜測也能找到有效改進方案。



在論文中,作者對預訓練的Qwen2.5模型(0.5B~32B)施加了1000次隨機權重擾動,并通過隨機投影將其投影到二維平面。

結果發(fā)現,模型越大,周圍“高精度區(qū)域”越密集;小模型擾動后大多性能下降(藍色區(qū)域),而大模型周圍隨處可見性能提升的“專家”(紅色區(qū)域)。

換言之,模型越大,這種擾動效果越明顯、越起作用。



而且需要注意,這些隨機擾動最后帶來的不是“全能選手”,而是“偏科戰(zhàn)神”。

實驗顯示,沒有任何一個隨機改動能讓模型在所有任務上都實現提升。例如,某一個改動能讓模型數學算得更準,但寫代碼會變菜;另一個改動能讓模型化學題做得好,但寫故事不行。

并且同樣的,模型越大,這種偏科越明顯。



至于模型為啥會出現這種“周圍偷偷藏一堆高手”的現象,論文也通過一個極簡實驗給出了初步解釋。

他們選用了結構最簡單、最容易看懂的1D信號自回歸模型,讓其學習預測一段時間序列信號的下一個數值。

結果出現了三種情況:

  • 無預訓練:不論怎么添加擾動,模型周圍都完全找不到可以提升性能的改動,隨機猜測無意義;
  • 單一任務預訓練:模型只能把經過預訓練的任務做到極致,參數周圍不會冒出其他優(yōu)質改動;
  • 多任務混合預訓練:模型參數周圍瞬間布滿能提升性能的擾動,隨便加個小改動,就能解鎖擅長某類信號預測的專項能力,成功復刻“神經叢林”的密集狀態(tài)。



由此論文得出核心結論,“神經叢林”現象的誕生,關鍵就在于大模型的海量多任務預訓練。

換言之,正因為底子夠足,所以周圍很容易找到可以隨機擾動的“專家”。

啟發(fā)了RandOpt算法

而上述研究,也啟發(fā)論文作者提出了一種新的算法,RandOpt

RandOpt的運行機制可以分成簡單兩步:隨機找高手+組隊投票。

“隨機找高手”就和前面提到的類似,給預訓練模型的參數隨機做N次擾動,然后就會得到N個“新版本模型”。

再用少量驗證數據簡單測一測這些模型,我們就能找出其中表現最好的K個。

拿到這K個模型后,接下來進入實戰(zhàn)推理階段——

讓這K個“高手”各自回答問題,最后按“少數服從多數”的原則決定最終結果。

整個過程有兩個值得注意的點:

一是在添加擾動sigmas(即噪聲強度)時,RandOpt會嘗試不同強度的噪聲(比如小擾動、中擾動、大擾動),以確保能找到各種類型的專家。

二是這N個模型可以同時在多塊GPU上運行,速度很快。



當然了,論文也試著用不同模型測試了這一新算法。

初步結果顯示,對于純語言大模型,在數學、編程、寫故事、化學等任務上,RandOpt的準確率和現在主流的專業(yè)調參方法(PPO/GRPO/ES)差不多,有的甚至更高。



而對視覺-語言模型來說, RandOpt的提升作用則更加明顯,準確率直接從56.6%漲到69.0%。



與此同時,除了語言和視覺-語言模型,論文也在圖像擴散模型中觀察到了類似的“神經叢林”現象——

參數空間的某些特定區(qū)域會傾向于生成具有特定色調或視覺風格的圖像。



以及論文作者提醒,RandOp在以下情況下效果更佳:

  • 隨機改的次數越多,挑的“高手”越厲害。
  • 模型越大,RandOpt效果越好。

論文作者介紹

最后介紹一下這項研究的兩位作者。



Yulu Gan,北大工程碩士,目前是MIT計算機科學與人工智能實驗室(CSAIL)的博士生。

此前曾在微軟實習,研究方向主要為多模態(tài)大語言模型、推理、多智能體系統以及AI for science。



另一位作者Phillip Isola是他的導師,現任MIT電子工程與計算機科學系副教授。

Phillip Isola在加州大學伯克利分校做完博士后研究后,曾在2017年以技術人員的身份加入OpenAI。

不過干了不到一年,后面又去谷歌當了一年訪問學者。

再然后就是回到讀研時的母校MIT,任教至今。

Phillip Isola的主要研究方向為AI基礎理論和計算機視覺,曾參與提出pix2pix、LPIPS感知損失等經典工作,谷歌學術論文被引量超10w+。



通過本次研究,師徒二人想重新告訴大家:

是時候重新認識預訓練模型了,它不只是“一個能用的模型”,更是“一堆高手的集合”。

只要預訓練做得足夠好,后續(xù)想讓模型干好具體任務,根本不用復雜調參,像RandOpt這樣隨機改改、組隊投票就行,省時間省算力。



不過缺點也很明顯,大致呢有下面這幾個:

  • 依賴優(yōu)質預訓練,這是一個基本大前提。
  • 模型只能基于預訓練數據找改進,無法讓模型學會新技能。
  • K越大效果越好,但推理時要跑K個模型,雖然蒸餾能緩解,但蒸餾不適用于所有場景(比如生成式任務)。
  • 只適合有明確答案的任務,像寫故事、設計分子這種結構化生成任務,還需要進一步改進集成方式。



目前相關論文和代碼已公開,感興趣可以繼續(xù)關注。

論文:
https://arxiv.org/pdf/2603.12228
GitHub:
https://github.com/sunrainyg/RandOpt
項目主頁:
https://thickets.mit.edu/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美宜佳1天被查出140萬支假煙,回應稱加盟商所為,煙草局殺伐果斷

美宜佳1天被查出140萬支假煙,回應稱加盟商所為,煙草局殺伐果斷

潮鹿逐夢
2026-03-15 21:58:48
遼寧一市政協副主席涉嫌嚴重違紀違法,正接受紀委監(jiān)委紀律審查和監(jiān)察調查。

遼寧一市政協副主席涉嫌嚴重違紀違法,正接受紀委監(jiān)委紀律審查和監(jiān)察調查。

大閩門戶
2026-03-16 21:05:55
“鹿哈”凌達樂帶貨的牛肚產品存在衛(wèi)生問題,啟動賠付預計賠償26.9億元

“鹿哈”凌達樂帶貨的牛肚產品存在衛(wèi)生問題,啟動賠付預計賠償26.9億元

閃電新聞
2026-03-16 16:45:59
存款100萬,在2026年只能算是“困難戶”?最新財富等級表出爐

存款100萬,在2026年只能算是“困難戶”?最新財富等級表出爐

小白鴿財經
2026-03-16 09:05:02
雪上加霜!中國女足VS澳大利亞隊,又1主力將缺席比賽,原因曝光

雪上加霜!中國女足VS澳大利亞隊,又1主力將缺席比賽,原因曝光

何老師呀
2026-03-16 20:47:11
央視坐實!成本2元售價19800元!不少人受騙,趕緊別用了

央視坐實!成本2元售價19800元!不少人受騙,趕緊別用了

番外行
2026-03-10 08:01:42
國民黨內大地震,馬英九發(fā)免責聲明,要和蕭旭岑斷絕關系?不簡單

國民黨內大地震,馬英九發(fā)免責聲明,要和蕭旭岑斷絕關系?不簡單

林子說事
2026-03-16 15:58:44
許家印大兒子月領4100萬躺平,二兒子替父頂罪蹲號子,女兒開跑車

許家印大兒子月領4100萬躺平,二兒子替父頂罪蹲號子,女兒開跑車

歷史偉人錄
2026-03-15 20:20:22
金門發(fā)出重磅消息,賴清德要后背發(fā)涼,大陸幾十年努力終究沒白費

金門發(fā)出重磅消息,賴清德要后背發(fā)涼,大陸幾十年努力終究沒白費

觀星賞月
2026-03-16 21:03:51
藍莓再次成為關注對象!醫(yī)生提醒:吃藍莓時,千萬多留意這幾點

藍莓再次成為關注對象!醫(yī)生提醒:吃藍莓時,千萬多留意這幾點

健身狂人
2026-03-14 15:19:49
伊朗亮出最猛大殺器!“泥石”導彈打擊以色列,一晚上炸傷2個人

伊朗亮出最猛大殺器!“泥石”導彈打擊以色列,一晚上炸傷2個人

阿庫財經
2026-03-17 01:54:29
庫尼亞:我總是跟胖虎說再留一年吧,他讓我學到了很多

庫尼亞:我總是跟胖虎說再留一年吧,他讓我學到了很多

懂球帝
2026-03-16 21:20:30
你有多年后反應過來的事嗎?網友:第一個就很炸裂啊,可以判刑了

你有多年后反應過來的事嗎?網友:第一個就很炸裂啊,可以判刑了

解讀熱點事件
2026-03-17 00:05:06
女子泰國遇害后續(xù):工作不堪示人,丈夫毫不知情,嫌疑人身份曝光

女子泰國遇害后續(xù):工作不堪示人,丈夫毫不知情,嫌疑人身份曝光

愛寫的櫻桃
2026-03-15 13:00:42
實探被3·15曝光漂白雞爪的成都企業(yè):正鏟除大門銘牌,標語寫著“質量決定生存”

實探被3·15曝光漂白雞爪的成都企業(yè):正鏟除大門銘牌,標語寫著“質量決定生存”

極目新聞
2026-03-16 16:25:56
美容院老板娘大實話:脫了衣服,女人的差距根本不在臉上!

美容院老板娘大實話:脫了衣服,女人的差距根本不在臉上!

夜深愛雜談
2026-03-08 21:28:24
偉偉道來 | 特朗普會投入地面部隊嗎?

偉偉道來 | 特朗普會投入地面部隊嗎?

經濟觀察報
2026-03-16 13:51:33
“中超神童”被盯上了!南美球探:習慣低頭帶球,閱讀比賽稚嫩

“中超神童”被盯上了!南美球探:習慣低頭帶球,閱讀比賽稚嫩

足球大腕
2026-03-16 20:32:31
A股:剛剛,大消息傳來,利好這三大板塊,或將進入新一輪大周期

A股:剛剛,大消息傳來,利好這三大板塊,或將進入新一輪大周期

另子維愛讀史
2026-03-16 21:28:23
損失慘重:阿聯酋空軍薩博全球之眼預警機機庫被摧毀!

損失慘重:阿聯酋空軍薩博全球之眼預警機機庫被摧毀!

勝研集
2026-03-16 06:05:35
2026-03-17 04:20:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12291文章數 176413關注度
往期回顧 全部

科技要聞

“龍蝦”當道,五位養(yǎng)蝦人探討人類出路

頭條要聞

馬拉松冠軍選手沖線時被攔停并強行帶離賽道 本人發(fā)文

頭條要聞

馬拉松冠軍選手沖線時被攔停并強行帶離賽道 本人發(fā)文

體育要聞

那個送老奶奶去醫(yī)院的球員 成了隊史第一人

娛樂要聞

姚晨曹郁發(fā)離婚聲明 多年前已結束婚姻

財經要聞

梁文鋒推遲V4,是為根治龍蝦的健忘癥?

汽車要聞

大眾全球首款9系旗艦SUV 上汽大眾ID.ERA 9X首秀

態(tài)度原創(chuàng)

教育
時尚
房產
數碼
游戲

教育要聞

高考地理中的熱點火山

“這個顏色”今天春天又火了!這樣穿好看又減齡

房產要聞

操作真強!保利三亞,十年臘肉盤,要大規(guī)模商改住了!

數碼要聞

蘋果AirPods Max 2首發(fā)即享國補199元起 換新再減300元

PS5版《星空》26小時后開預購!kun哥再次強調

無障礙瀏覽 進入關懷版