国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

7B模型超越DeepSeek-R1:模仿人類教師,弱模型也能教出強推理LLM

0
分享至

不圓 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

Thinking模式當(dāng)?shù)?,教師模型也該學(xué)會“啟發(fā)式”教學(xué)了——

由Transformer作者之一Llion Jones創(chuàng)立的明星AI公司Sakana AI,帶著他們的新方法來了!

這個方法要求教師模型像優(yōu)秀的人類教師一樣,根據(jù)已知解決方案輸出清晰的逐步解釋,而不再是從頭開始自己解決。



用Sanaka AI的新方法訓(xùn)練出的7B小模型,在傳授推理技能方面,比671B的DeepSeek-R1還要有效。

訓(xùn)練比自己大3倍的學(xué)生模型也不在話下。



對此有網(wǎng)友評價:我們剛剛才意識到,最好的老師不是房間里最聰明的人。





像人類老師一樣



許多高級推理模型,如DeepSeek-R1,遵循兩階段的訓(xùn)練過程:首先訓(xùn)練教師模型,然后使用其輸出訓(xùn)練學(xué)生模型,最終產(chǎn)品為學(xué)生模型。

傳統(tǒng)上,這些教師模型通過昂貴的強化學(xué)習(xí)(RL)進行訓(xùn)練,模型必須從頭學(xué)習(xí)解決復(fù)雜問題,只有在得到正確答案時才會獲得獎勵:

先讓教師模型得到問題的答案,再把答案仔細過濾并重新用作學(xué)生模型的訓(xùn)練數(shù)據(jù)。



這種方法緩慢、昂貴且往往過于偏狹,過于依賴教師模型自身能力。因為教師模型拿到的僅僅只有問題,它們需要自己思考給出結(jié)果。

而Sanaka AI的新方法不再通過解決問題來教學(xué),而是讓新的強化學(xué)習(xí)教師(RLTs)“學(xué)會教學(xué)”

要求它們根據(jù)已知解決方案輸出清晰的逐步解釋,就像優(yōu)秀的人類教師一樣。



就像一位好教師不需要重新發(fā)現(xiàn)數(shù)學(xué)定理來解釋它們一樣,RLTs在輸入提示中既獲得問題的內(nèi)容,也獲得每個問題的正確答案。

它們的任務(wù)是提供有助于學(xué)生模型學(xué)習(xí)的、逐步的詳細解釋,從而連接這些知識點。如果學(xué)生模型能夠根據(jù)教師對問題的解釋輕松理解正確解決方案,那么這就是RLTs做得好的信號。

也就是說,對RLTs的獎勵不再是能自己解決問題,而是能解釋對學(xué)生模型有多有幫助。



Sanaka AI的新方法解決了傳統(tǒng)方法中的兩個問題:

首先,新方法的訓(xùn)練循環(huán)使教師訓(xùn)練與其真正目的(為學(xué)生進行蒸餾/冷啟動提供幫助)保持一致,從而大大提高了效率。

其次,將問題和正確答案同時輸入RLT,能幫助原本無法獨立解決問題的小型模型學(xué)會教學(xué)。

這些特性使Sanaka AI的新方法能更快、更經(jīng)濟、更有效地訓(xùn)練出具有強大推理能力的學(xué)生模型。

小型教師模型的“不合理但有效”

為了驗證新方法的有效性,Sanaka AI用新方法訓(xùn)練了一個7B的RLT小模型作為教學(xué)模型與此前最先進的方法進行比較。

競爭方法使用規(guī)模更大的模型,如DeepSeek-R1和QwQ,并結(jié)合GPT-4o-mini等工具在用于訓(xùn)練學(xué)生模型之前清理其輸出,以獲得額外幫助。



結(jié)果發(fā)現(xiàn):使用相同的Qwen2.5學(xué)生模型、相同的問題以及相同的評估設(shè)置,RLT以遠少的計算量取得了比DeepSeek-R1和QwQ更好的效果。

把學(xué)生模型的規(guī)模擴大,結(jié)果同樣令人驚訝:7B的RLT成功訓(xùn)練了一個32B的學(xué)生模型,其規(guī)模是自己四倍以上,并取得了優(yōu)異的成果。

Sanaka AI的新方法還可以和傳統(tǒng)RL方法相輔相成:



上圖展示了在2024年美國邀請數(shù)學(xué)考試(AIME)、競賽數(shù)學(xué)和研究生級問答基準(zhǔn)(GPQA)上的平均性能。

新方法和傳統(tǒng)RL方法聯(lián)合使用,使RLT獲得了改進性能,并補充了傳統(tǒng)RL方法在問題解決方面的應(yīng)用。

用作起點時,RLT幫助學(xué)生模型達到了更高的性能水平。

從成本角度來看,差異非常顯著:使用RLT訓(xùn)練32B的學(xué)生模型僅需單個計算節(jié)點一天時間,而傳統(tǒng)RL方法在相同硬件上需要數(shù)月。

一項定性分析揭示了RLTs提供的解釋與Deepseek-R1的蒸餾軌跡之間存在一些差異:



Deepseek-R1的輸出常常依賴于外部工具,例如計算器、網(wǎng)絡(luò)上的討論以及玩梗,包括一些具有誤導(dǎo)性的內(nèi)容。

相比之下,RLT提供的解釋避免了令人困惑的語言,并增加了額外的邏輯步驟來幫助學(xué)生。

這些直觀的改進能夠轉(zhuǎn)化為學(xué)生語言模型的改進學(xué)習(xí),像人類專家一樣簡潔且清晰。

參考鏈接:
https://x.com/SakanaAILabs/status/1936965841188425776
博客:https://sakana.ai/rlt
論文:https://arxiv.org/abs/2506.08388
代碼:github.com/SakanaAI/RLT

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
太戳人!泰國駐華使館評論區(qū)被“感謝”刷屏,網(wǎng)友花式鼓勵太可愛

太戳人!泰國駐華使館評論區(qū)被“感謝”刷屏,網(wǎng)友花式鼓勵太可愛

胡嚴(yán)亂語
2025-12-19 15:39:54
西方媒體:哪怕中國全力以赴,也不可能按時建成這樣龐大的工程

西方媒體:哪怕中國全力以赴,也不可能按時建成這樣龐大的工程

樂天閑聊
2025-12-20 10:59:49
賴清德再度胡作非為!“大法官”違規(guī)裁決,動搖臺灣法治根基

賴清德再度胡作非為!“大法官”違規(guī)裁決,動搖臺灣法治根基

海峽導(dǎo)報社
2025-12-20 07:52:03
湖北??!新一輪大范圍雨雪已定,明天21號天氣,暴雪大雪分布如下

湖北??!新一輪大范圍雨雪已定,明天21號天氣,暴雪大雪分布如下

另子維愛讀史
2025-12-20 16:36:11
張本智和錯誤言論曝光!日本留學(xué)生:他不是中國人,別對他有期望

張本智和錯誤言論曝光!日本留學(xué)生:他不是中國人,別對他有期望

念洲
2025-12-20 07:29:33
剛剛獲悉!中國正告古特雷斯,聯(lián)合國會費不是白交,正義絕不能缺席

剛剛獲悉!中國正告古特雷斯,聯(lián)合國會費不是白交,正義絕不能缺席

小影的娛樂
2025-12-20 10:28:36
南京不少市民反映導(dǎo)航失靈?高德回應(yīng):信號干擾源導(dǎo)致定位異常

南京不少市民反映導(dǎo)航失靈?高德回應(yīng):信號干擾源導(dǎo)致定位異常

極目新聞
2025-12-18 15:26:27
77年我把公社會計肚子搞大,她被調(diào)回省再沒消息,我以為緣分盡了

77年我把公社會計肚子搞大,她被調(diào)回省再沒消息,我以為緣分盡了

蕭竹輕語
2025-12-11 18:42:00
廣東宏遠VS青島男籃!杜鋒拒絕輸球,麥考爾上演首秀,央視直播

廣東宏遠VS青島男籃!杜鋒拒絕輸球,麥考爾上演首秀,央視直播

體壇瞎白話
2025-12-20 11:10:45
剎車失靈時速115狂奔490公里司機發(fā)聲:4個半小時高度緊張,害怕車多有急彎,油盡下車后渾身發(fā)抖無法說話

剎車失靈時速115狂奔490公里司機發(fā)聲:4個半小時高度緊張,害怕車多有急彎,油盡下車后渾身發(fā)抖無法說話

極目新聞
2025-12-19 13:12:07
本田將暫停在華工廠生產(chǎn)

本田將暫停在華工廠生產(chǎn)

第一財經(jīng)資訊
2025-12-18 13:51:09
北京一男子,因“挑戰(zhàn)全網(wǎng)最牛朱頂紅”走紅,網(wǎng)友:是要卷上天?

北京一男子,因“挑戰(zhàn)全網(wǎng)最牛朱頂紅”走紅,網(wǎng)友:是要卷上天?

觀察鑒娛
2025-12-19 08:35:51
大量網(wǎng)友相信強力磁鐵可讓燃氣表變慢,專家:竊氣嚴(yán)重可刑事處罰

大量網(wǎng)友相信強力磁鐵可讓燃氣表變慢,專家:竊氣嚴(yán)重可刑事處罰

映射生活的身影
2025-12-20 03:39:27
誰的老公是這3生肖,命是不一般的好,錢財不缺,誰嫁誰幸福

誰的老公是這3生肖,命是不一般的好,錢財不缺,誰嫁誰幸福

人閒情事
2025-12-20 13:55:17
天氣 | 天津最新雪情預(yù)報!

天氣 | 天津最新雪情預(yù)報!

天津廣播
2025-12-20 18:59:28
劉亦菲在家玩自拍!不料被鏡子“出賣”了,網(wǎng)友直呼:好女人??!

劉亦菲在家玩自拍!不料被鏡子“出賣”了,網(wǎng)友直呼:好女人??!

小欣欣聊體育
2025-12-18 20:44:37
“這樣廉價的母愛,還是別曬了”,家長給女兒補襪子,被網(wǎng)友群嘲

“這樣廉價的母愛,還是別曬了”,家長給女兒補襪子,被網(wǎng)友群嘲

妍妍教育日記
2025-12-18 18:55:22
笑抽了!小姐姐網(wǎng)上買了件環(huán)保皮草,穿上把自己丑笑了,評論離譜

笑抽了!小姐姐網(wǎng)上買了件環(huán)保皮草,穿上把自己丑笑了,評論離譜

有趣的火烈鳥
2025-12-19 19:49:14
關(guān)于楊蘭蘭,終于破解出幾條她的關(guān)鍵信息

關(guān)于楊蘭蘭,終于破解出幾條她的關(guān)鍵信息

熱點菌本君
2025-10-01 17:24:05
海南封關(guān)后進口車價腰斬,120多萬卡宴只要60萬?個人消費者無法購買零關(guān)稅進口車

海南封關(guān)后進口車價腰斬,120多萬卡宴只要60萬?個人消費者無法購買零關(guān)稅進口車

大象新聞
2025-12-20 14:01:05
2025-12-20 19:16:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11884文章數(shù) 176340關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時刻"還未到來

頭條要聞

司機稱轎車剎車失靈狂奔490公里 網(wǎng)友質(zhì)疑"自導(dǎo)自演"

頭條要聞

司機稱轎車剎車失靈狂奔490公里 網(wǎng)友質(zhì)疑"自導(dǎo)自演"

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

戚薇女兒大變樣,10歲就進入“尷尬期”

財經(jīng)要聞

求解“地方財政困難”

汽車要聞

嵐圖推進L3量產(chǎn)測試 已完成11萬公里實際道路驗證

態(tài)度原創(chuàng)

教育
健康
房產(chǎn)
本地
親子

教育要聞

開考第一天!華師陪你暖心上岸!

這些新療法,讓化療不再那么痛苦

房產(chǎn)要聞

廣州有態(tài)度,一座國際化社區(qū)給出的城市答案

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

親子要聞

寶藍和妹妹爭搶裙子,寶藍爸爸用縫紉機做了一模一樣的,太棒了!

無障礙瀏覽 進入關(guān)懷版