国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

讓AI學習效率飆升50倍的秘密:在線策略蒸餾

0
分享至


想象一下,你在教一個學生寫作文。

傳統(tǒng)做法是:你給他十篇范文,讓他照著學。

這叫“模仿學習”。

但很快你發(fā)現(xiàn)——當他真正面對一個沒見過的題目時,立刻就懵了。

于是你換了種方法。讓他自己寫,然后你在旁邊指出每一個句子的優(yōu)劣、邏輯是否通順、語氣是否合適。

這種“邊寫邊教”的方式,更像真正的學習。

這,正是Thinking Machines Lab最新研究《On-Policy Distillation》的核心靈感所在。(原文鏈接:https://thinkingmachines.ai/blog/on-policy-distillation/)
它提出了一種全新的 AI 訓練方式——讓模型在“自己行動”的軌跡上,被實時指導、被動態(tài)優(yōu)化。
這聽起來簡單,卻可能改寫整個大模型的訓練范式。

一、為什么是他們:從 OpenAI 走出的“思考機器”

Thinking Machines Lab 是 Mira Murati(前 OpenAI CTO)離職后創(chuàng)辦的新實驗室。
她和團隊成員 John Schulman、Barret Zoph 都是推動 ChatGPT 與強化學習革命的關(guān)鍵人物。
他們的研究方向有一個共同點:讓模型更懂得“如何學習”。

這篇論文的作者 Kevin Lu、John Schulman、Horace He 等人,延續(xù)了他們在 RLHF(人類反饋強化學習)和蒸餾訓練上的積累。

他們在問一個根本問題——

“AI的學習方式是不是錯了?”

二、舊方法的瓶頸:AI其實是在“死記硬背”

當我們說“訓練一個大模型”,其實是兩步:

讓模型看大量人類寫的文本(稱為SFT:監(jiān)督微調(diào))。

再通過RLHF(強化學習)讓它學會“人類喜歡的回答方式”。

問題在于——這兩步并不協(xié)調(diào)。

SFT 教的是“模仿舊答案”;RLHF 強調(diào)“探索新答案”。

前者像“死記硬背”,后者像“自我實踐”。

模型經(jīng)常在兩者之間搖擺:要么過度順從人類樣本,要么冒進地亂試。

三、新方法:讓模型“邊干邊學”

Thinking Machines Lab 提出的On-Policy Distillation(政策內(nèi)蒸餾),
是想把這兩種學習方式“融合”成一種更自然的狀態(tài)。

傳統(tǒng)蒸餾(Distillation)是:

老師(大模型)寫出一份完美答案,學生照著學。

而他們的新方法是:

學生自己先寫一遍,老師實時給出每一步的分數(shù)、建議、改進方向。

這個過程在強化學習里叫On-Policy——模型在“自己生成的軌跡”上學習,而不是在別人給的現(xiàn)成答案上學習。
于是,模型學到的不再是“理想的句子”,而是“如何自己到達理想的句子”。

可以把它理解為:

不再教模型“結(jié)論”,而是教它“思考的路徑”。

四、核心創(chuàng)新:從“獎勵”到“打分”

RLHF 的本質(zhì)是“獎勵”(Reward):模型生成一整段答案,評審模型給它一個分。

但這有個問題——只有整段結(jié)束后才能反饋,太慢了。

On-Policy Distillation把反饋粒度縮小到“每個token”(每一個生成的字詞)。
就像作文老師不再只給你打總分,而是逐句標注“這里句式優(yōu)美”“這里邏輯混亂”。
這種“密集監(jiān)督”(dense supervision)方式讓學習效率成倍提升。

論文作者形象地稱之為“用微鏡頭監(jiān)督AI的思考過程”。

五、結(jié)果:更快、更穩(wěn)、更便宜

他們用這個方法訓練模型后,

在 AIME’24 數(shù)學基準測試上,性能超過了傳統(tǒng) RLHF 模型。

同時算力需求更低、訓練更穩(wěn)定、結(jié)果更可復現(xiàn)。

一句話總結(jié)就是:

以前我們靠“懲罰與獎勵”教AI做人,
現(xiàn)在我們靠“示范與糾錯”教AI成長。

六、為什么重要:AI 訓練的“學習論轉(zhuǎn)向”

在更宏觀的層面,這篇論文揭示的是AI學習方式的哲學轉(zhuǎn)折。
過去幾年我們用海量數(shù)據(jù)喂模型,希望它靠統(tǒng)計規(guī)律“模仿人類”。
但 Thinking Machines 團隊認為,真正的智能不在模仿,而在于反思自己的行為。

“On-Policy Distillation” 讓 AI 有機會在自己的軌跡上打磨自己——

這讓“自我改進型智能體”(self-improving agent)成為現(xiàn)實的一步。

未來,當你的AI助手能在每天的任務中積累經(jīng)驗、吸收教訓、變得越來越懂你,

也許正是這種“on-policy”學習在默默起作用。

七、所以呢?

在AI訓練的世界里,思維方式的改變往往比算力更值錢
Thinking Machines Lab 的這篇論文不是在造一個更大的模型,
而是在重新定義“學習”這件事的意義。

當AI開始自己教自己,

我們也許正見證著“智能的第二次覺醒”——

第一次是機器學會說話,

第二次,是它學會思考“我為什么這么說”。

整理:周華香

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中國的優(yōu)勢!哈佛教授:不要高估中國,因為美或許已控制其命脈

中國的優(yōu)勢!哈佛教授:不要高估中國,因為美或許已控制其命脈

輿圖看世界
2026-02-06 09:30:03
中國造就是強!法軍用了都說好,宗申三蹦子機動性遠超軍用越野車

中國造就是強!法軍用了都說好,宗申三蹦子機動性遠超軍用越野車

鷹眼Defence
2026-03-01 18:39:48
破防了!原來只要失業(yè),所有人都一樣!網(wǎng)友:人都快抑郁了

破防了!原來只要失業(yè),所有人都一樣!網(wǎng)友:人都快抑郁了

另子維愛讀史
2026-01-16 21:03:12
火到人民日報!四川9歲男孩一段話引全網(wǎng)沸騰,他說了什么?

火到人民日報!四川9歲男孩一段話引全網(wǎng)沸騰,他說了什么?

冒泡泡的魚兒
2026-03-01 11:07:11
2-0!AC米蘭踢瘋了!復仇升班馬,意甲近3輪首勝

2-0!AC米蘭踢瘋了!復仇升班馬,意甲近3輪首勝

體育世界
2026-03-01 22:52:51
美媒:全球其他人都不知道時,色情網(wǎng)站提前38分公布愛潑斯坦死訊

美媒:全球其他人都不知道時,色情網(wǎng)站提前38分公布愛潑斯坦死訊

小影的娛樂
2026-03-01 21:40:01
90年代蔣方良希望葬在蔣經(jīng)國旁邊,方智怡:沒地方讓你葬在他旁邊

90年代蔣方良希望葬在蔣經(jīng)國旁邊,方智怡:沒地方讓你葬在他旁邊

近史談
2026-03-01 11:05:01
北宋的包拯包青天,他的官職到底有多大?相當于今天的什么級別?

北宋的包拯包青天,他的官職到底有多大?相當于今天的什么級別?

歷史甄有趣
2026-02-28 19:15:03
西方軍事專家:不同于其他大國,中國是全世界最完美的超級大國

西方軍事專家:不同于其他大國,中國是全世界最完美的超級大國

小莜讀史
2026-01-12 19:33:52
36萬億美債壓頂,中國拒不接盤!特朗普決定“弄死”大債主!

36萬億美債壓頂,中國拒不接盤!特朗普決定“弄死”大債主!

毒sir財經(jīng)
2025-10-12 20:07:17
特朗普苦等4天中方終于回信,對美開出兩大條件,做不到訪華免談

特朗普苦等4天中方終于回信,對美開出兩大條件,做不到訪華免談

安珈使者啊
2026-03-01 12:15:35
突發(fā)!臺灣56歲女主持吳中純?nèi)ナ?,昏?天被家人拔管,死因曝光

突發(fā)!臺灣56歲女主持吳中純?nèi)ナ?,昏?天被家人拔管,死因曝光

嫹筆牂牂
2026-03-01 09:38:14
中國男籃兩連勝升至小組第三,將迎生死戰(zhàn),楊瀚森王俊杰回歸?

中國男籃兩連勝升至小組第三,將迎生死戰(zhàn),楊瀚森王俊杰回歸?

飛克體育
2026-03-01 19:31:05
椰樹太顛了!代言人婚紗照成網(wǎng)紅打卡地,“土味營銷”天花板!

椰樹太顛了!代言人婚紗照成網(wǎng)紅打卡地,“土味營銷”天花板!

LOGO研究所
2026-03-01 11:19:49
72歲潘虹:我以晚年托起耄耋母親的晚年

72歲潘虹:我以晚年托起耄耋母親的晚年

細品名人
2026-02-27 05:51:54
溫州知名醫(yī)院被查!1名醫(yī)生被罰

溫州知名醫(yī)院被查!1名醫(yī)生被罰

住溫網(wǎng)
2026-02-28 10:16:15
被稱為“中國最大忽悠”的賈躍亭,似乎要翻身了。

被稱為“中國最大忽悠”的賈躍亭,似乎要翻身了。

流蘇晚晴
2026-02-19 16:19:47
伊朗外交部發(fā)言人稱伊朗最高領(lǐng)袖和總統(tǒng)“安然無恙”

伊朗外交部發(fā)言人稱伊朗最高領(lǐng)袖和總統(tǒng)“安然無恙”

澎湃新聞
2026-03-01 05:25:03
男籃官方曬賽后動態(tài)!繼偉興奮慶祝,郭振明開心,趙睿更衣室哭了

男籃官方曬賽后動態(tài)!繼偉興奮慶祝,郭振明開心,趙睿更衣室哭了

籃球資訊達人
2026-03-01 21:14:36
快訊:美以發(fā)動新一輪空襲

快訊:美以發(fā)動新一輪空襲

環(huán)球時報國際
2026-03-01 10:34:17
2026-03-02 00:04:49
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
243文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

媒體:美以能精準"斬首"背后 摩薩德的"手筆"令人咋舌

頭條要聞

媒體:美以能精準"斬首"背后 摩薩德的"手筆"令人咋舌

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

游戲
本地
親子
公開課
軍事航空

《寶可夢》新游熱銷登頂!模擬建造休閑風

本地新聞

津南好·四時總相宜

親子要聞

保護孩子寶媽必學,什么是無記憶創(chuàng)傷?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗前總統(tǒng)內(nèi)賈德遇襲身亡

無障礙瀏覽 進入關(guān)懷版