国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

中科院和新加坡國(guó)大聯(lián)手:讓AI學(xué)會(huì)"聰明偷懶"

0
分享至

這項(xiàng)由中國(guó)科學(xué)院自動(dòng)化研究所基礎(chǔ)模型研究中心聯(lián)合新加坡國(guó)立大學(xué)、騰訊等機(jī)構(gòu)開(kāi)展的研究發(fā)表于2026年,論文編號(hào)為arXiv:2604.02288v1。有興趣深入了解的讀者可以通過(guò)該編號(hào)查詢完整論文。這項(xiàng)突破性研究解決了一個(gè)困擾AI訓(xùn)練領(lǐng)域的難題:如何讓大型語(yǔ)言模型既能快速學(xué)會(huì)復(fù)雜推理,又能保持長(zhǎng)期穩(wěn)定的學(xué)習(xí)效果。


當(dāng)前的AI訓(xùn)練就像教學(xué)生做數(shù)學(xué)題,面臨著兩難選擇。傳統(tǒng)的獎(jiǎng)勵(lì)式訓(xùn)練方法就像給學(xué)生打分?jǐn)?shù)——答對(duì)了就給高分,答錯(cuò)了就給低分。這種方法很穩(wěn)定,就像一位嚴(yán)格但公正的老師,能讓學(xué)生穩(wěn)步提升。但問(wèn)題是這種方法太粗糙了,就好比老師只會(huì)說(shuō)"這道題做錯(cuò)了",但不會(huì)指出具體哪一步出了問(wèn)題,學(xué)生學(xué)習(xí)起來(lái)自然比較慢。

為了解決這個(gè)問(wèn)題,研究人員開(kāi)發(fā)了一種叫做"自蒸餾"的方法。這就像讓學(xué)生自己當(dāng)老師,在知道正確答案的情況下,重新審視自己的解題過(guò)程,逐步糾正每一個(gè)細(xì)節(jié)錯(cuò)誤。這種方法確實(shí)能讓學(xué)生快速改進(jìn),因?yàn)樗峁┝朔浅>唧w的指導(dǎo)——不僅知道哪里錯(cuò)了,還知道每一步應(yīng)該怎么做。然而,這種方法有個(gè)致命缺陷:隨著訓(xùn)練時(shí)間延長(zhǎng),學(xué)生會(huì)變得越來(lái)越不穩(wěn)定,甚至出現(xiàn)嚴(yán)重的學(xué)習(xí)倒退。

研究團(tuán)隊(duì)深入分析后發(fā)現(xiàn),自蒸餾方法的不穩(wěn)定性源于兩個(gè)根本問(wèn)題。首先是"好學(xué)生也被過(guò)度糾正"的問(wèn)題。當(dāng)一個(gè)學(xué)生已經(jīng)把題目做對(duì)了,卻還要求他按照另一個(gè)同樣正確但方法不同的答案來(lái)調(diào)整自己的解題思路,這就會(huì)造成混亂。就像兩個(gè)廚師都能做出美味的紅燒肉,但如果強(qiáng)迫一個(gè)廚師完全按照另一個(gè)廚師的方法來(lái)做,反而可能破壞他原本的手藝。

其次是"老師能力下降"的問(wèn)題。在自蒸餾過(guò)程中,AI既是學(xué)生也是老師。隨著訓(xùn)練進(jìn)行,"學(xué)生AI"和"老師AI"的能力差距逐漸縮小,老師提供的指導(dǎo)變得越來(lái)越模糊和不確定。這就像一個(gè)剛學(xué)會(huì)開(kāi)車(chē)的人去教另一個(gè)新手,指導(dǎo)質(zhì)量自然會(huì)大打折扣。

基于這些洞察,研究團(tuán)隊(duì)提出了一種巧妙的解決方案:樣本路由策略優(yōu)化方法(SRPO)。這個(gè)方法的核心思想是"因材施教"——對(duì)于不同類(lèi)型的學(xué)習(xí)情況,采用最適合的指導(dǎo)方式。

具體來(lái)說(shuō),SRPO就像一個(gè)智能的學(xué)習(xí)管理系統(tǒng)。當(dāng)AI成功解決了一個(gè)問(wèn)題時(shí),系統(tǒng)會(huì)使用傳統(tǒng)的獎(jiǎng)勵(lì)式方法給予鼓勵(lì)和強(qiáng)化,就像對(duì)優(yōu)秀學(xué)生說(shuō)"做得很好,繼續(xù)保持"。這樣既不會(huì)造成混亂,又能穩(wěn)固正確的學(xué)習(xí)成果。

但當(dāng)AI犯錯(cuò)時(shí),系統(tǒng)會(huì)立即切換到詳細(xì)的逐步糾錯(cuò)模式。這時(shí)就像請(qǐng)來(lái)了一位經(jīng)驗(yàn)豐富的老師,不僅告訴學(xué)生答案是錯(cuò)的,還會(huì)具體指出每一個(gè)步驟的問(wèn)題所在,并演示正確的解決方法。這種針對(duì)性的指導(dǎo)能夠快速幫助AI改正錯(cuò)誤。

更巧妙的是,研究團(tuán)隊(duì)還開(kāi)發(fā)了一套"信心評(píng)估機(jī)制"。由于在訓(xùn)練后期,AI老師的指導(dǎo)質(zhì)量會(huì)下降,系統(tǒng)會(huì)自動(dòng)檢測(cè)這些指導(dǎo)的可靠程度。當(dāng)發(fā)現(xiàn)指導(dǎo)內(nèi)容不夠確定時(shí),系統(tǒng)會(huì)降低這些建議的權(quán)重;而對(duì)于那些明確、可靠的指導(dǎo),系統(tǒng)會(huì)給予更高的重視。這就像學(xué)生學(xué)會(huì)了判斷老師建議的質(zhì)量,對(duì)于模糊不清的建議保持謹(jǐn)慎,對(duì)于明確有用的建議重點(diǎn)吸收。

研究團(tuán)隊(duì)在五個(gè)不同的基準(zhǔn)測(cè)試中驗(yàn)證了這種方法的效果,涵蓋了化學(xué)、物理、生物、材料科學(xué)和工具使用等多個(gè)領(lǐng)域。測(cè)試使用了兩種不同規(guī)模的AI模型:40億參數(shù)和80億參數(shù)的Qwen3模型。

實(shí)驗(yàn)結(jié)果令人印象深刻。在80億參數(shù)的模型上,SRPO方法將平均準(zhǔn)確率提升到了77.4%,相比傳統(tǒng)獎(jiǎng)勵(lì)方法的74.0%提升了3.4個(gè)百分點(diǎn),相比純自蒸餾方法的71.1%提升了6.3個(gè)百分點(diǎn)。在40億參數(shù)的模型上,改進(jìn)效果更加顯著,平均準(zhǔn)確率達(dá)到74.2%,分別比兩種基準(zhǔn)方法提升了4.5和7.5個(gè)百分點(diǎn)。

更重要的是,SRPO成功地結(jié)合了兩種方法的優(yōu)勢(shì)。在訓(xùn)練初期,它展現(xiàn)出與自蒸餾方法相當(dāng)?shù)目焖賹W(xué)習(xí)能力;而在長(zhǎng)期訓(xùn)練中,它保持了傳統(tǒng)獎(jiǎng)勵(lì)方法的穩(wěn)定性,避免了性能倒退的問(wèn)題。

研究還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:隨著訓(xùn)練進(jìn)行,需要詳細(xì)糾錯(cuò)的錯(cuò)誤樣本逐漸減少,而能夠直接給予獎(jiǎng)勵(lì)的正確樣本越來(lái)越多。這意味著SRPO能夠自動(dòng)調(diào)節(jié)兩種學(xué)習(xí)模式的比重,在早期更多地進(jìn)行糾錯(cuò),在后期更多地進(jìn)行強(qiáng)化,實(shí)現(xiàn)了一種自適應(yīng)的學(xué)習(xí)策略。

在計(jì)算效率方面,SRPO也表現(xiàn)出色。雖然在訓(xùn)練初期由于需要更多的詳細(xì)指導(dǎo)而稍微增加了計(jì)算開(kāi)銷(xiāo),但隨著訓(xùn)練進(jìn)行,這種開(kāi)銷(xiāo)逐漸減少。在長(zhǎng)期訓(xùn)練中,SRPO的每步計(jì)算時(shí)間比傳統(tǒng)方法減少了多達(dá)17.2%。

此外,研究團(tuán)隊(duì)還發(fā)現(xiàn)SRPO訓(xùn)練出的AI在回答問(wèn)題時(shí)保持了適中的詳細(xì)程度。傳統(tǒng)獎(jiǎng)勵(lì)方法容易產(chǎn)生過(guò)于冗長(zhǎng)的答案,而純自蒸餾方法則容易產(chǎn)生過(guò)于簡(jiǎn)短的答案,這種過(guò)度簡(jiǎn)化可能會(huì)丟失重要的推理步驟。SRPO很好地平衡了這兩個(gè)極端,生成的答案既不啰嗦也不過(guò)于簡(jiǎn)略。

這項(xiàng)研究的意義不僅僅在于技術(shù)層面的突破,更在于它提供了一種新的思路來(lái)理解AI學(xué)習(xí)。就像人類(lèi)教育中需要因材施教一樣,AI訓(xùn)練也需要根據(jù)不同情況采用最合適的方法。SRPO證明了通過(guò)智能地組合不同的學(xué)習(xí)策略,可以獲得比單獨(dú)使用任何一種策略更好的效果。

從更廣泛的角度來(lái)看,這項(xiàng)研究為未來(lái)開(kāi)發(fā)更強(qiáng)大、更可靠的AI系統(tǒng)提供了重要啟示。隨著AI系統(tǒng)變得越來(lái)越復(fù)雜,如何有效地訓(xùn)練它們成為了關(guān)鍵挑戰(zhàn)。SRPO展示的"智能路由"思想可能會(huì)在更多場(chǎng)景中得到應(yīng)用,幫助我們構(gòu)建既高效又穩(wěn)定的AI學(xué)習(xí)系統(tǒng)。

研究團(tuán)隊(duì)也指出了未來(lái)的發(fā)展方向。他們希望將這種方法擴(kuò)展到能夠提供更豐富反饋信息的環(huán)境中,讓AI能夠從更多樣化的學(xué)習(xí)信號(hào)中受益。這可能會(huì)進(jìn)一步提升AI的學(xué)習(xí)效率和最終性能。

說(shuō)到底,這項(xiàng)研究解決了AI訓(xùn)練中的一個(gè)根本矛盾:快速學(xué)習(xí)與長(zhǎng)期穩(wěn)定之間的取舍。通過(guò)巧妙的設(shè)計(jì),研究團(tuán)隊(duì)證明了我們不必在速度和穩(wěn)定性之間做出選擇,而是可以同時(shí)擁有兩者的優(yōu)勢(shì)。這種"既要又要"的解決方案,為AI技術(shù)的進(jìn)一步發(fā)展開(kāi)辟了新的可能性。對(duì)于普通人來(lái)說(shuō),這意味著未來(lái)的AI助手將能夠更快地學(xué)會(huì)新技能,同時(shí)保持長(zhǎng)期穩(wěn)定可靠的性能,為我們的日常生活和工作提供更好的支持。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)arXiv:2604.02288v1查詢完整的研究論文。

Q&A

Q1:SRPO方法是如何解決AI訓(xùn)練中速度和穩(wěn)定性矛盾的?

A:SRPO采用"因材施教"的策略,對(duì)AI做對(duì)的題目用傳統(tǒng)獎(jiǎng)勵(lì)方法鼓勵(lì),對(duì)做錯(cuò)的題目用詳細(xì)糾錯(cuò)方法指導(dǎo)。這樣既保持了快速學(xué)習(xí)能力,又避免了長(zhǎng)期訓(xùn)練中的不穩(wěn)定問(wèn)題,就像給不同水平的學(xué)生安排最適合的教學(xué)方式。

Q2:樣本路由策略優(yōu)化方法相比傳統(tǒng)方法提升了多少性能?

A:在五個(gè)基準(zhǔn)測(cè)試中,SRPO將80億參數(shù)模型的平均準(zhǔn)確率提升到77.4%,比傳統(tǒng)GRPO方法高出3.4個(gè)百分點(diǎn),比自蒸餾SDPO方法高出6.3個(gè)百分點(diǎn)。同時(shí)還將計(jì)算成本降低了17.2%,實(shí)現(xiàn)了性能和效率的雙重提升。

Q3:為什么自蒸餾方法在長(zhǎng)期訓(xùn)練中會(huì)變得不穩(wěn)定?

A:自蒸餾方法的不穩(wěn)定主要源于兩個(gè)問(wèn)題:一是對(duì)已經(jīng)正確的答案進(jìn)行過(guò)度糾正,造成學(xué)習(xí)混亂;二是隨著訓(xùn)練進(jìn)行,AI老師的指導(dǎo)質(zhì)量逐漸下降,提供的建議越來(lái)越模糊不確定,最終導(dǎo)致學(xué)習(xí)效果倒退。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
看到如今的伊朗,才懂左宗棠當(dāng)年多偉大!沒(méi)有他,西北或無(wú)險(xiǎn)可守

看到如今的伊朗,才懂左宗棠當(dāng)年多偉大!沒(méi)有他,西北或無(wú)險(xiǎn)可守

賤議你讀史
2026-04-17 01:48:21
降壓藥飯前吃還是飯后吃?再三提醒:牢記3個(gè)原則,否則等于白吃

降壓藥飯前吃還是飯后吃?再三提醒:牢記3個(gè)原則,否則等于白吃

DrX說(shuō)
2026-04-22 14:55:06
乘聯(lián)分會(huì):4月1-19日全國(guó)乘用車(chē)市場(chǎng)零售62.7萬(wàn)輛 同比下降26%

乘聯(lián)分會(huì):4月1-19日全國(guó)乘用車(chē)市場(chǎng)零售62.7萬(wàn)輛 同比下降26%

財(cái)聯(lián)社
2026-04-22 16:38:09
中國(guó)鐵礦石談判大獲全勝!“鎖喉”必和必拓:不降價(jià)?那就別賣(mài)了

中國(guó)鐵礦石談判大獲全勝!“鎖喉”必和必拓:不降價(jià)?那就別賣(mài)了

動(dòng)漫里的童話
2026-04-22 05:35:55
4月22日俄烏:兩個(gè)意義非凡的軍事行動(dòng)

4月22日俄烏:兩個(gè)意義非凡的軍事行動(dòng)

山河路口
2026-04-22 18:15:08
安徽省交通控股集團(tuán)有限公司黨委委員盛明宏接受審查調(diào)查

安徽省交通控股集團(tuán)有限公司黨委委員盛明宏接受審查調(diào)查

界面新聞
2026-04-22 17:07:51
4月21日俄烏最新:俄羅斯創(chuàng)造的神話

4月21日俄烏最新:俄羅斯創(chuàng)造的神話

西樓飲月
2026-04-21 20:24:18
五連敗切爾西徹底崩盤(pán)!主帥放豪言:6年合同在手,絕不下課!

五連敗切爾西徹底崩盤(pán)!主帥放豪言:6年合同在手,絕不下課!

田先生籃球
2026-04-22 06:57:15
連虧5年,越虧越多!知名超市學(xué)胖東來(lái)效果不佳,去年關(guān)店414家,巨虧9.57億元,最新市值僅35億元

連虧5年,越虧越多!知名超市學(xué)胖東來(lái)效果不佳,去年關(guān)店414家,巨虧9.57億元,最新市值僅35億元

每日經(jīng)濟(jì)新聞
2026-04-22 18:31:06
36億罰單背后,30名被開(kāi)除員工的代價(jià)

36億罰單背后,30名被開(kāi)除員工的代價(jià)

慕容律師
2026-04-21 22:31:56
穆鐵柱的最后一天:在家中蹬自行車(chē)健身,突然兩眼一黑癱倒在地

穆鐵柱的最后一天:在家中蹬自行車(chē)健身,突然兩眼一黑癱倒在地

大運(yùn)河時(shí)空
2026-04-21 16:30:03
曾經(jīng)那些真實(shí)的特供,超出普通人的想象…

曾經(jīng)那些真實(shí)的特供,超出普通人的想象…

深度報(bào)
2026-04-21 22:56:47
火箭丟了G2后,烏度卡全方位甩鍋,杜蘭特主動(dòng)攬責(zé),申京自我反思

火箭丟了G2后,烏度卡全方位甩鍋,杜蘭特主動(dòng)攬責(zé),申京自我反思

萌蘭聊個(gè)球
2026-04-22 17:47:03
2032奧運(yùn)主辦地確定,結(jié)果吃驚全球,奧運(yùn)格局將重塑

2032奧運(yùn)主辦地確定,結(jié)果吃驚全球,奧運(yùn)格局將重塑

天馬幸福的人生
2026-04-22 06:41:59
NBA官方:亞歷山大當(dāng)選年度最佳關(guān)鍵球員 多項(xiàng)關(guān)鍵數(shù)據(jù)聯(lián)盟第一

NBA官方:亞歷山大當(dāng)選年度最佳關(guān)鍵球員 多項(xiàng)關(guān)鍵數(shù)據(jù)聯(lián)盟第一

羅說(shuō)NBA
2026-04-22 06:18:26
炸翻全球軍界!沙特怒砸120億買(mǎi)斷中國(guó)神裝,美軍徹底被踢出局

炸翻全球軍界!沙特怒砸120億買(mǎi)斷中國(guó)神裝,美軍徹底被踢出局

風(fēng)信子的花
2026-04-21 14:31:44
男子買(mǎi)彩票中了5340萬(wàn) 偷偷轉(zhuǎn)給別的女人2100萬(wàn) 前妻起訴返還 法院判了

男子買(mǎi)彩票中了5340萬(wàn) 偷偷轉(zhuǎn)給別的女人2100萬(wàn) 前妻起訴返還 法院判了

閃電新聞
2026-04-21 10:35:14
當(dāng)年張柏芝抱著lucas后面居然是大s,到現(xiàn)在才發(fā)現(xiàn),真美呀

當(dāng)年張柏芝抱著lucas后面居然是大s,到現(xiàn)在才發(fā)現(xiàn),真美呀

可樂(lè)談情感
2026-04-22 00:14:41
解決掉提問(wèn)的人,問(wèn)題就解決了?北師大“神操作”火了

解決掉提問(wèn)的人,問(wèn)題就解決了?北師大“神操作”火了

虔青
2026-04-20 14:07:53
有錢(qián)真能改變?nèi)说纳顔峥淳W(wǎng)友講述父親有錢(qián)沒(méi)錢(qián)真實(shí)現(xiàn)狀,驚呆了

有錢(qián)真能改變?nèi)说纳顔峥淳W(wǎng)友講述父親有錢(qián)沒(méi)錢(qián)真實(shí)現(xiàn)狀,驚呆了

侃神評(píng)故事
2026-04-22 11:15:03
2026-04-22 19:40:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒(méi)有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國(guó)道歉

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國(guó)道歉

體育要聞

網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

娛樂(lè)要聞

復(fù)婚無(wú)望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長(zhǎng)停火期限

汽車(chē)要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬(wàn)起

態(tài)度原創(chuàng)

本地
家居
數(shù)碼
教育
軍事航空

本地新聞

春色滿城關(guān)不?。座N梅浪漫盛放,吳山藏了一片四月雪

家居要聞

極簡(jiǎn)繪夢(mèng) 克制和諧

數(shù)碼要聞

Beats發(fā)布3米USB-C數(shù)據(jù)線:售229元 最高240W快充

教育要聞

【媒體聚焦】南方工報(bào) | 廣東省教育研究院走進(jìn)湛江開(kāi)展教研幫扶

軍事要聞

特朗普宣布延長(zhǎng)?;?伊朗表態(tài)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版