国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

讓AI學習效率飆升50倍的秘密:在線策略蒸餾

0
分享至


想象一下,你在教一個學生寫作文。

傳統(tǒng)做法是:你給他十篇范文,讓他照著學。

這叫“模仿學習”。

但很快你發(fā)現(xiàn)——當他真正面對一個沒見過的題目時,立刻就懵了。

于是你換了種方法。讓他自己寫,然后你在旁邊指出每一個句子的優(yōu)劣、邏輯是否通順、語氣是否合適。

這種“邊寫邊教”的方式,更像真正的學習。

這,正是Thinking Machines Lab最新研究《On-Policy Distillation》的核心靈感所在。(原文鏈接:https://thinkingmachines.ai/blog/on-policy-distillation/)
它提出了一種全新的 AI 訓練方式——讓模型在“自己行動”的軌跡上,被實時指導、被動態(tài)優(yōu)化。
這聽起來簡單,卻可能改寫整個大模型的訓練范式。

一、為什么是他們:從 OpenAI 走出的“思考機器”

Thinking Machines Lab 是 Mira Murati(前 OpenAI CTO)離職后創(chuàng)辦的新實驗室。
她和團隊成員 John Schulman、Barret Zoph 都是推動 ChatGPT 與強化學習革命的關鍵人物。
他們的研究方向有一個共同點:讓模型更懂得“如何學習”。

這篇論文的作者 Kevin Lu、John Schulman、Horace He 等人,延續(xù)了他們在 RLHF(人類反饋強化學習)和蒸餾訓練上的積累。

他們在問一個根本問題——

“AI的學習方式是不是錯了?”

二、舊方法的瓶頸:AI其實是在“死記硬背”

當我們說“訓練一個大模型”,其實是兩步:

讓模型看大量人類寫的文本(稱為SFT:監(jiān)督微調(diào))。

再通過RLHF(強化學習)讓它學會“人類喜歡的回答方式”。

問題在于——這兩步并不協(xié)調(diào)。

SFT 教的是“模仿舊答案”;RLHF 強調(diào)“探索新答案”。

前者像“死記硬背”,后者像“自我實踐”。

模型經(jīng)常在兩者之間搖擺:要么過度順從人類樣本,要么冒進地亂試。

三、新方法:讓模型“邊干邊學”

Thinking Machines Lab 提出的On-Policy Distillation(政策內(nèi)蒸餾)
是想把這兩種學習方式“融合”成一種更自然的狀態(tài)。

傳統(tǒng)蒸餾(Distillation)是:

老師(大模型)寫出一份完美答案,學生照著學。

而他們的新方法是:

學生自己先寫一遍,老師實時給出每一步的分數(shù)、建議、改進方向。

這個過程在強化學習里叫On-Policy——模型在“自己生成的軌跡”上學習,而不是在別人給的現(xiàn)成答案上學習。
于是,模型學到的不再是“理想的句子”,而是“如何自己到達理想的句子”。

可以把它理解為:

不再教模型“結論”,而是教它“思考的路徑”。

四、核心創(chuàng)新:從“獎勵”到“打分”

RLHF 的本質是“獎勵”(Reward):模型生成一整段答案,評審模型給它一個分。

但這有個問題——只有整段結束后才能反饋,太慢了。

On-Policy Distillation把反饋粒度縮小到“每個token”(每一個生成的字詞)。
就像作文老師不再只給你打總分,而是逐句標注“這里句式優(yōu)美”“這里邏輯混亂”。
這種“密集監(jiān)督”(dense supervision)方式讓學習效率成倍提升。

論文作者形象地稱之為“用微鏡頭監(jiān)督AI的思考過程”。

五、結果:更快、更穩(wěn)、更便宜

他們用這個方法訓練模型后,

在 AIME’24 數(shù)學基準測試上,性能超過了傳統(tǒng) RLHF 模型。

同時算力需求更低、訓練更穩(wěn)定、結果更可復現(xiàn)。

一句話總結就是:

以前我們靠“懲罰與獎勵”教AI做人,
現(xiàn)在我們靠“示范與糾錯”教AI成長。

六、為什么重要:AI 訓練的“學習論轉向”

在更宏觀的層面,這篇論文揭示的是AI學習方式的哲學轉折。
過去幾年我們用海量數(shù)據(jù)喂模型,希望它靠統(tǒng)計規(guī)律“模仿人類”。
但 Thinking Machines 團隊認為,真正的智能不在模仿,而在于反思自己的行為。

“On-Policy Distillation” 讓 AI 有機會在自己的軌跡上打磨自己——

這讓“自我改進型智能體”(self-improving agent)成為現(xiàn)實的一步。

未來,當你的AI助手能在每天的任務中積累經(jīng)驗、吸收教訓、變得越來越懂你,

也許正是這種“on-policy”學習在默默起作用。

七、所以呢?

在AI訓練的世界里,思維方式的改變往往比算力更值錢。
Thinking Machines Lab 的這篇論文不是在造一個更大的模型,
而是在重新定義“學習”這件事的意義。

當AI開始自己教自己,

我們也許正見證著“智能的第二次覺醒”——

第一次是機器學會說話,

第二次,是它學會思考“我為什么這么說”。

整理:周華香

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
4月車市暴跌真相:消費者為什么不買車了?

4月車市暴跌真相:消費者為什么不買車了?

小李子體育
2026-04-22 12:39:36
爭議拉滿!亞馬爾直接表態(tài):姆巴佩維尼修斯,不是世界最佳

爭議拉滿!亞馬爾直接表態(tài):姆巴佩維尼修斯,不是世界最佳

體育閑話說
2026-04-21 21:26:06
剖析項英犧牲真相:為何多次拒絕毛澤東北上命令?因自己兩個私心

剖析項英犧牲真相:為何多次拒絕毛澤東北上命令?因自己兩個私心

阿胡
2025-04-20 11:05:46
TVB女星周末澳門開唱感緊張,自爆彩排前發(fā)生食物中毒

TVB女星周末澳門開唱感緊張,自爆彩排前發(fā)生食物中毒

TVB劇評社
2026-04-22 23:54:07
性侵崔麗麗主管2年前已卸任公司負責人

性侵崔麗麗主管2年前已卸任公司負責人

雷達財經(jīng)
2026-04-22 10:27:08
失業(yè)后在小縣城的兩年發(fā)現(xiàn),打麻將和性生活才是普通人底色!

失業(yè)后在小縣城的兩年發(fā)現(xiàn),打麻將和性生活才是普通人底色!

黯泉
2026-04-01 17:44:20
驚天揭秘!中南醫(yī)院女醫(yī)護與權色交易的背后真相!

驚天揭秘!中南醫(yī)院女醫(yī)護與權色交易的背后真相!

人生錄
2026-04-22 11:49:14
女教師賣自拍淫穢視頻獲利24萬,將自己裸體視頻與和他人的性愛視頻通過發(fā)送鏈接,出售給他人觀看

女教師賣自拍淫穢視頻獲利24萬,將自己裸體視頻與和他人的性愛視頻通過發(fā)送鏈接,出售給他人觀看

觀威海
2026-03-22 07:59:02
香港豪門“壞女孩”去世:襲警、毆打父母,她的一生比電影還離譜

香港豪門“壞女孩”去世:襲警、毆打父母,她的一生比電影還離譜

云舟史策
2026-03-12 12:40:43
這才是真正的高人(非常經(jīng)典)

這才是真正的高人(非常經(jīng)典)

尚曦讀史
2026-04-13 08:30:06
破案了!馬寧被驅逐真相出爐,沙特媒體造謠實錘!

破案了!馬寧被驅逐真相出爐,沙特媒體造謠實錘!

綠茵舞著
2026-04-22 10:40:23
毛主席雖活了83歲,保健醫(yī)生卻說:其實毛主席不具備長壽條件

毛主席雖活了83歲,保健醫(yī)生卻說:其實毛主席不具備長壽條件

冰語歷史
2026-03-07 00:46:39
日本自衛(wèi)隊坦克炸膛已致3人死亡,什么是坦克炸膛?原因是什么?

日本自衛(wèi)隊坦克炸膛已致3人死亡,什么是坦克炸膛?原因是什么?

之乎者也小魚兒
2026-04-21 15:25:57
全AI生成電影引熱議,出品方九紫源:演員的臉是否已授權還不能透露

全AI生成電影引熱議,出品方九紫源:演員的臉是否已授權還不能透露

新京報
2026-04-22 15:02:09
15 分鐘破萬單!問界M6上市,25.98萬起!

15 分鐘破萬單!問界M6上市,25.98萬起!

小南看車
2026-04-22 23:11:03
羅曼太空望遠鏡提前完工,NASA計劃9月發(fā)射

羅曼太空望遠鏡提前完工,NASA計劃9月發(fā)射

NASA愛好者
2026-04-23 01:28:03
配合走私車輛出境?理想汽車法務部回應

配合走私車輛出境?理想汽車法務部回應

第一財經(jīng)資訊
2026-04-22 22:48:43
伊朗軍艦軍演返航時遭美軍擊沉致87死,幸存船員講述細節(jié):那里并非戰(zhàn)區(qū),事先沒有收到任何警告,他們的目標是殺人

伊朗軍艦軍演返航時遭美軍擊沉致87死,幸存船員講述細節(jié):那里并非戰(zhàn)區(qū),事先沒有收到任何警告,他們的目標是殺人

每日經(jīng)濟新聞
2026-04-22 00:08:27
健身房罵人后續(xù):大媽追到大廳繼續(xù)罵,正面曝光已社死,老底被扒

健身房罵人后續(xù):大媽追到大廳繼續(xù)罵,正面曝光已社死,老底被扒

荷蘭豆愛健康
2026-04-21 15:48:45
采訪了100個娶了小三的男人,他們幾乎都說了同一句話,讓人恍然

采訪了100個娶了小三的男人,他們幾乎都說了同一句話,讓人恍然

千秋文化
2026-04-15 20:18:32
2026-04-23 02:39:00
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
272文章數(shù) 37關注度
往期回顧 全部

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠

頭條要聞

伊朗:特朗普“又說謊了”

頭條要聞

伊朗:特朗普“又說謊了”

體育要聞

網(wǎng)易傳媒再度簽約法國隊和阿根廷隊

娛樂要聞

蜜雪冰城泰國代言人 被扒出辱華黑歷史

財經(jīng)要聞

醫(yī)院專家號"秒空"!警方牽出黑色產(chǎn)業(yè)鏈

汽車要聞

純電續(xù)航301km+激光雷達 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

家居
房產(chǎn)
旅游
游戲
公開課

家居要聞

極簡繪夢 克制和諧

房產(chǎn)要聞

官宣!今年9月起,廣州中小學“重點班”將成歷史!

旅游要聞

“運上行”周五首航

曝次世代Xbox主機性能炸裂!是PS6兩倍 將顛覆市場

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版