国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

俄亥俄州立大學(xué)破解AI難題:讓人工智能像人類一樣探索多條思路

0
分享至


當(dāng)我們解決一個(gè)復(fù)雜數(shù)學(xué)題時(shí),往往不會(huì)只用一種方法。有時(shí)我們用代數(shù),有時(shí)用幾何,有時(shí)甚至?xí)L試一些看似"笨拙"但有效的方法。然而,目前的人工智能在推理時(shí)卻容易陷入單一思路的陷阱。這項(xiàng)由俄亥俄州立大學(xué)、凱斯西儲(chǔ)大學(xué)、香港中文大學(xué)等多所知名院校聯(lián)合完成的研究,于2026年2月發(fā)表,論文編號(hào)為arXiv:2602.19895v1,為我們展示了一種全新的AI訓(xùn)練方法——DSDR(雙尺度多樣性正則化),它能讓AI像人類一樣保持思維的多樣性和探索精神。

要理解這個(gè)突破的重要性,我們可以把AI的學(xué)習(xí)過程比作訓(xùn)練一個(gè)學(xué)生解決數(shù)學(xué)問題。傳統(tǒng)的訓(xùn)練方法就像一個(gè)過分嚴(yán)格的老師,一旦學(xué)生找到了一種正確的解題方法,老師就會(huì)讓學(xué)生反復(fù)練習(xí)這種方法,直到學(xué)生完全掌握。表面上看這很有效,學(xué)生的正確率會(huì)快速提升。但問題在于,當(dāng)學(xué)生遇到稍微不同的題目時(shí),他們可能就束手無策了,因?yàn)樗麄冎粫?huì)那一種固化的解題套路。

這正是當(dāng)前AI推理系統(tǒng)面臨的核心問題。在強(qiáng)化學(xué)習(xí)的訓(xùn)練過程中,AI系統(tǒng)往往會(huì)很快找到一些能夠得到正確答案的推理路徑,然后就死死抓住這些路徑不放。雖然這能讓AI在訓(xùn)練數(shù)據(jù)上表現(xiàn)出色,但當(dāng)面對新的、稍有不同的問題時(shí),AI的表現(xiàn)就會(huì)大打折扣。更糟糕的是,這種"思維僵化"會(huì)讓AI失去發(fā)現(xiàn)更優(yōu)解法的能力。

研究團(tuán)隊(duì)發(fā)現(xiàn),這個(gè)問題的根源在于現(xiàn)有的訓(xùn)練方法只關(guān)注"是否正確"這個(gè)單一維度。當(dāng)AI找到正確答案后,系統(tǒng)就會(huì)強(qiáng)化這種行為模式,而忽視了培養(yǎng)AI探索不同解法的能力。這就好比我們只獎(jiǎng)勵(lì)學(xué)生答對題目,而不鼓勵(lì)他們嘗試不同的解題思路。長此以往,學(xué)生自然會(huì)變得思路狹窄。

為了解決這個(gè)問題,研究團(tuán)隊(duì)設(shè)計(jì)了一套名為DSDR的新訓(xùn)練框架。這個(gè)框架的核心思想是在兩個(gè)不同的層面上培養(yǎng)AI的多樣性思維。第一個(gè)層面叫做"全局多樣性",就像鼓勵(lì)學(xué)生掌握多種不同的解題策略。當(dāng)AI找到多種正確的解題路徑時(shí),系統(tǒng)會(huì)特別獎(jiǎng)勵(lì)那些與其他路徑差異較大的新穎方法,而不是一味強(qiáng)化最常用的那種方法。

第二個(gè)層面叫做"局部多樣性",這更像是鼓勵(lì)學(xué)生在使用某種解題策略時(shí)保持靈活性。即使是同一種基本方法,也可以有不同的具體表達(dá)方式。比如解一個(gè)方程,雖然都用代數(shù)方法,但可以先移項(xiàng)后合并同類項(xiàng),也可以先合并同類項(xiàng)后移項(xiàng)。這種細(xì)節(jié)上的多樣性能讓AI的推理過程更加穩(wěn)健,不容易因?yàn)槟硞€(gè)特定步驟的小變化而整個(gè)崩潰。

DSDR的精妙之處在于它將這兩個(gè)層面巧妙地結(jié)合起來。系統(tǒng)會(huì)優(yōu)先在那些全局上比較獨(dú)特的解法路徑中加強(qiáng)局部多樣性的培養(yǎng)。這就像一個(gè)聰明的老師,會(huì)特別關(guān)注那些有創(chuàng)新思路的學(xué)生,鼓勵(lì)他們在保持創(chuàng)新特色的同時(shí),也要學(xué)會(huì)靈活運(yùn)用這些創(chuàng)新方法。

具體來說,DSDR系統(tǒng)在訓(xùn)練過程中會(huì)做這樣幾件事情。首先,它會(huì)分析AI生成的所有正確解答,識(shí)別出哪些解法在語義和公式層面都比較獨(dú)特。語義層面的分析就像理解兩個(gè)解法的基本思路是否不同,而公式層面的分析則關(guān)注具體使用的數(shù)學(xué)表達(dá)式是否有差異。系統(tǒng)會(huì)給那些既在語義上新穎,又在公式上有特色的解法更高的"創(chuàng)新獎(jiǎng)勵(lì)"。

接著,系統(tǒng)會(huì)根據(jù)每個(gè)解法的獨(dú)特程度,為它們分配不同強(qiáng)度的"靈活性訓(xùn)練"。那些獲得高創(chuàng)新獎(jiǎng)勵(lì)的解法會(huì)接受更多的局部變化訓(xùn)練,讓AI學(xué)會(huì)用多種細(xì)微不同的方式來表達(dá)同一個(gè)解題思路。這種訓(xùn)練不會(huì)改變解法的核心邏輯,但會(huì)讓AI在表達(dá)這個(gè)解法時(shí)更加游刃有余。

為了驗(yàn)證DSDR的效果,研究團(tuán)隊(duì)在多個(gè)數(shù)學(xué)推理任務(wù)上進(jìn)行了大規(guī)模實(shí)驗(yàn)。他們使用了不同規(guī)模的語言模型,從15億參數(shù)的小模型到40億參數(shù)的大模型,在各種具有挑戰(zhàn)性的數(shù)學(xué)競賽題目上測試了新方法的表現(xiàn)。

實(shí)驗(yàn)結(jié)果令人印象深刻。在美國數(shù)學(xué)競賽AIME的2024年和2025年題目上,使用DSDR訓(xùn)練的AI模型表現(xiàn)顯著優(yōu)于傳統(tǒng)方法。更重要的是,當(dāng)研究人員測試AI生成多個(gè)答案時(shí)的表現(xiàn)時(shí)(這被稱為pass@k測試),DSDR展現(xiàn)出了明顯的優(yōu)勢。這意味著DSDR不僅能讓AI找到正確答案,還能讓AI掌握多種解題方法,從而在面對復(fù)雜問題時(shí)有更多的"備選方案"。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:DSDR訓(xùn)練出來的AI在生成答案時(shí)展現(xiàn)出了更高的多樣性,但這種多樣性并不是隨機(jī)的噪音,而是有意義的不同解法。當(dāng)他們讓GPT模型評估這些解答的多樣性時(shí)發(fā)現(xiàn),DSDR生成的解答在邏輯多樣性、公式多樣性和語義多樣性三個(gè)維度上都明顯超過了傳統(tǒng)方法,同時(shí)保持了很高的正確率。

在訓(xùn)練過程的動(dòng)態(tài)分析中,研究人員觀察到了DSDR的另一個(gè)優(yōu)勢。傳統(tǒng)方法訓(xùn)練的AI會(huì)快速收斂到少數(shù)幾種解法上,然后就停止探索了。而DSDR訓(xùn)練的AI在整個(gè)訓(xùn)練過程中都保持著探索新解法的動(dòng)力,同時(shí)避免了過度探索導(dǎo)致的性能不穩(wěn)定。這種平衡是通過精心設(shè)計(jì)的獎(jiǎng)勵(lì)機(jī)制實(shí)現(xiàn)的:系統(tǒng)只獎(jiǎng)勵(lì)那些能得到正確答案的多樣性探索,而不會(huì)鼓勵(lì)純粹的隨機(jī)嘗試。

研究團(tuán)隊(duì)還深入分析了DSDR在不同類型數(shù)學(xué)問題上的表現(xiàn)差異。他們發(fā)現(xiàn),在那些有多種可行解法的問題上,DSDR的優(yōu)勢最為明顯。這符合直覺:當(dāng)問題本身就有多樣化的解決路徑時(shí),能夠掌握多種方法的AI自然會(huì)表現(xiàn)更好。但即使在解法相對單一的問題上,DSDR仍然顯示出了優(yōu)勢,這說明即使是在看似只有一種解法的情況下,細(xì)節(jié)層面的靈活性仍然很重要。

從技術(shù)實(shí)現(xiàn)的角度來看,DSDR的設(shè)計(jì)體現(xiàn)了深刻的理論洞察。研究團(tuán)隊(duì)從信息論的角度證明了全局多樣性和局部多樣性確實(shí)對應(yīng)著推理過程中的兩個(gè)不同維度。全局多樣性對應(yīng)的是不同推理模式之間的切換能力,而局部多樣性對應(yīng)的是在同一推理模式內(nèi)的表達(dá)靈活性。這兩個(gè)維度是互補(bǔ)的,需要協(xié)同培養(yǎng)才能達(dá)到最佳效果。

研究還從數(shù)學(xué)上證明了DSDR的安全性。一個(gè)自然的擔(dān)憂是,過分追求多樣性會(huì)不會(huì)損害AI的準(zhǔn)確性?研究團(tuán)隊(duì)通過嚴(yán)格的理論分析證明,只要多樣性獎(jiǎng)勵(lì)的強(qiáng)度控制在合適的范圍內(nèi),DSDR就能在不損害準(zhǔn)確性的前提下顯著提升多樣性。這為實(shí)際應(yīng)用提供了重要的理論保障。

在超參數(shù)敏感性分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)DSDR在相當(dāng)大的參數(shù)范圍內(nèi)都能保持穩(wěn)定的性能。這說明這種方法有良好的實(shí)用性,不需要過分精細(xì)的調(diào)參就能在不同的應(yīng)用場景中發(fā)揮作用。這對于實(shí)際部署來說是一個(gè)重要的優(yōu)勢。

DSDR方法的意義遠(yuǎn)不止于提升數(shù)學(xué)推理的性能。它代表了AI訓(xùn)練理念的一個(gè)重要轉(zhuǎn)變:從單純追求"找到正確答案"轉(zhuǎn)向"掌握多種解決問題的能力"。這種轉(zhuǎn)變對于構(gòu)建更加通用、更加可靠的AI系統(tǒng)具有深遠(yuǎn)意義。

在實(shí)際應(yīng)用中,這種能力的價(jià)值是顯而易見的。一個(gè)掌握了多種推理方法的AI系統(tǒng)在面對新問題時(shí)會(huì)更加從容。即使它最熟悉的方法在新情況下不適用,它還有其他的備選方案。這種"思維韌性"對于AI系統(tǒng)在復(fù)雜多變的真實(shí)環(huán)境中穩(wěn)定工作至關(guān)重要。

值得注意的是,DSDR的設(shè)計(jì)原則也為AI安全研究提供了新的思路。一個(gè)思維僵化的AI系統(tǒng)可能會(huì)在面對對抗性攻擊時(shí)表現(xiàn)出脆弱性,因?yàn)楣粽咧恍枰业揭环N破壞其固定推理模式的方法。而一個(gè)掌握多樣化推理能力的系統(tǒng)則更難被單一攻擊方式完全擊垮。

當(dāng)然,DSDR方法也不是萬能的。研究團(tuán)隊(duì)誠實(shí)地指出了這種方法的局限性。首先,培養(yǎng)多樣性需要更多的計(jì)算資源和訓(xùn)練時(shí)間。其次,在某些對效率要求極高的應(yīng)用場景中,可能不需要這種程度的多樣性。此外,如何在更復(fù)雜的推理任務(wù)中應(yīng)用DSDR原則,仍然需要進(jìn)一步的研究。

從更宏觀的角度看,這項(xiàng)研究反映了AI領(lǐng)域一個(gè)重要的發(fā)展趨勢:從追求單一指標(biāo)的優(yōu)化轉(zhuǎn)向追求綜合能力的提升。這種轉(zhuǎn)變不僅體現(xiàn)在推理任務(wù)上,也在其他AI應(yīng)用領(lǐng)域得到了體現(xiàn)。未來的AI系統(tǒng)很可能需要在多個(gè)維度上都具備良好的性能,而不是僅僅在某一個(gè)特定任務(wù)上表現(xiàn)出色。

DSDR的成功也啟發(fā)我們思考人類教育的一些原理。優(yōu)秀的教育從來不是讓學(xué)生死記硬背標(biāo)準(zhǔn)答案,而是培養(yǎng)學(xué)生獨(dú)立思考、靈活應(yīng)變的能力。同樣地,優(yōu)秀的AI訓(xùn)練方法也應(yīng)該注重培養(yǎng)AI系統(tǒng)的綜合能力,而不是僅僅追求在特定測試集上的高分。

展望未來,研究團(tuán)隊(duì)計(jì)劃在更多類型的推理任務(wù)上驗(yàn)證DSDR的有效性,包括邏輯推理、常識(shí)推理等領(lǐng)域。他們也在探索如何將DSDR的核心思想應(yīng)用到其他類型的AI任務(wù)中,比如創(chuàng)意寫作、代碼生成等。這些努力可能會(huì)為構(gòu)建更加智能、更加可靠的AI系統(tǒng)開辟新的道路。

對于關(guān)注AI發(fā)展的讀者來說,這項(xiàng)研究提供了一個(gè)重要的啟示:AI的智能化不僅僅體現(xiàn)在能否找到正確答案,更體現(xiàn)在是否能夠以多樣化的方式思考問題。隨著AI技術(shù)在各行各業(yè)的深入應(yīng)用,這種"思維多樣性"將成為區(qū)分優(yōu)秀AI系統(tǒng)和平庸AI系統(tǒng)的重要標(biāo)準(zhǔn)。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過arXiv:2602.19895v1查閱完整論文。

Q&A

Q1:DSDR訓(xùn)練方法是什么?

A:DSDR是雙尺度多樣性正則化的縮寫,是一種新的AI訓(xùn)練方法。它通過在全局和局部兩個(gè)層面培養(yǎng)AI的思維多樣性,讓AI像人類一樣掌握多種解決問題的方法,而不是死板地使用單一套路。

Q2:DSDR比傳統(tǒng)AI訓(xùn)練方法好在哪里?

A:DSDR能讓AI掌握多種推理方法,在面對新問題時(shí)更加靈活。實(shí)驗(yàn)顯示,DSDR訓(xùn)練的AI在數(shù)學(xué)競賽題目上表現(xiàn)更好,特別是在需要生成多個(gè)解答的測試中優(yōu)勢明顯,同時(shí)保持了高準(zhǔn)確率。

Q3:DSDR方法會(huì)不會(huì)影響AI的準(zhǔn)確性?

A:不會(huì)。研究團(tuán)隊(duì)通過嚴(yán)格的理論分析證明,只要參數(shù)設(shè)置合理,DSDR在提升多樣性的同時(shí)不會(huì)損害準(zhǔn)確性。實(shí)驗(yàn)結(jié)果也證實(shí)了這一點(diǎn),DSDR在提升解題多樣性的同時(shí)保持了很高的正確率。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
奧迪A5L拆車:不管信不信,留給你買燃油車的時(shí)間不多了!

奧迪A5L拆車:不管信不信,留給你買燃油車的時(shí)間不多了!

大飆車
2026-01-17 14:49:50
黃巢兵敗被殺,10余名姬妾被俘,唐僖宗報(bào)復(fù)有多狠?史官都不敢寫

黃巢兵敗被殺,10余名姬妾被俘,唐僖宗報(bào)復(fù)有多狠?史官都不敢寫

掠影后有感
2026-03-01 10:09:20
若不出意外,2026年上半年開始,一半家庭都可能面臨“四大難題”

若不出意外,2026年上半年開始,一半家庭都可能面臨“四大難題”

貓叔東山再起
2026-03-01 12:40:03
上海富人家保姆狂偷戶主奢侈品,監(jiān)控流出評論區(qū)嚇傻了

上海富人家保姆狂偷戶主奢侈品,監(jiān)控流出評論區(qū)嚇傻了

不二表姐
2026-02-24 22:17:15
14年兒子坐馬航失聯(lián),多年后父親收到回信,堅(jiān)信兒子去了平行世界

14年兒子坐馬航失聯(lián),多年后父親收到回信,堅(jiān)信兒子去了平行世界

來科點(diǎn)譜
2026-02-17 11:05:42
反轉(zhuǎn)!內(nèi)賈德大難不死,伊朗反擊不設(shè)限,特朗普:美軍將死傷更多

反轉(zhuǎn)!內(nèi)賈德大難不死,伊朗反擊不設(shè)限,特朗普:美軍將死傷更多

阿芒娛樂說
2026-03-02 20:43:10
贏球僅1天,中國男籃壞消息傳來:將失去1個(gè)主場,沖4連勝難了

贏球僅1天,中國男籃壞消息傳來:將失去1個(gè)主場,沖4連勝難了

墨印齋
2026-03-02 19:24:09
港口被搶,李嘉誠清倉英國電網(wǎng),他用百億學(xué)費(fèi),換回一個(gè)殘酷真相

港口被搶,李嘉誠清倉英國電網(wǎng),他用百億學(xué)費(fèi),換回一個(gè)殘酷真相

村里一枝花人
2026-03-02 15:04:49
深圳男子突發(fā)心絞痛,人送到醫(yī)院心臟就停了!停跳整整兩天!醫(yī)生用ECMO搶回一命!罪魁禍?zhǔn)子质撬?>
    </a>
        <h3>
      <a href=深圳晚報(bào)
2026-03-02 21:00:39
美國精英想不通:為什么每次要打壓中國時(shí),總有意外發(fā)生?

美國精英想不通:為什么每次要打壓中國時(shí),總有意外發(fā)生?

聚焦真實(shí)瞬間
2026-01-26 10:19:09
中美一旦開戰(zhàn),美軍將全面轟炸中國?基辛格曾稱:中美正走向懸崖

中美一旦開戰(zhàn),美軍將全面轟炸中國?基辛格曾稱:中美正走向懸崖

李健政觀察
2026-03-02 12:49:07
河南洛陽一女子過年離家,智能馬桶17天耗水超200噸,當(dāng)事人:馬桶晝夜不停自動(dòng)工作

河南洛陽一女子過年離家,智能馬桶17天耗水超200噸,當(dāng)事人:馬桶晝夜不停自動(dòng)工作

黃河新聞網(wǎng)呂梁
2026-02-28 14:27:42
警惕!阿托伐他汀是好藥,但不可和4種藥聯(lián)用,否則不治病或致命

警惕!阿托伐他汀是好藥,但不可和4種藥聯(lián)用,否則不治病或致命

醫(yī)學(xué)科普匯
2026-03-02 19:45:03
以色列股市開盤大漲!美股指期貨走低

以色列股市開盤大漲!美股指期貨走低

證券時(shí)報(bào)e公司
2026-03-02 17:52:33
隨著一場奪冠 斯諾克最新排名:丁俊暉升第14 趙心童第5中國一哥

隨著一場奪冠 斯諾克最新排名:丁俊暉升第14 趙心童第5中國一哥

削桐作琴
2026-03-02 17:17:08
俄軍已經(jīng)動(dòng)了,中國幫不幫伊朗?中方三句話,沒一句是美國想聽的

俄軍已經(jīng)動(dòng)了,中國幫不幫伊朗?中方三句話,沒一句是美國想聽的

李健政觀察
2026-03-02 21:30:52
真相大白!王曼昱丟冠原因曝光,是打不過莎莎嗎?張繼科早有預(yù)言

真相大白!王曼昱丟冠原因曝光,是打不過莎莎嗎?張繼科早有預(yù)言

曹說體育
2026-03-01 22:16:15
汪小菲和張?zhí)m矛盾升級(jí)!張?zhí)m哭完不敢對鏡頭,大S當(dāng)年真沒說錯(cuò)他

汪小菲和張?zhí)m矛盾升級(jí)!張?zhí)m哭完不敢對鏡頭,大S當(dāng)年真沒說錯(cuò)他

夏末moent
2026-03-02 08:43:40
美以伊最新發(fā)聲

美以伊最新發(fā)聲

看看新聞Knews
2026-03-02 16:59:09
56歲大媽心梗離世,醫(yī)生:吃他汀時(shí)除了牛奶,這6種食物盡量少碰

56歲大媽心梗離世,醫(yī)生:吃他汀時(shí)除了牛奶,這6種食物盡量少碰

岐黃傳人孫大夫
2026-02-28 22:15:03
2026-03-02 22:11:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7408文章數(shù) 553關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

伊朗公布最新戰(zhàn)況 通報(bào)還披露內(nèi)塔尼亞胡行蹤

頭條要聞

伊朗公布最新戰(zhàn)況 通報(bào)還披露內(nèi)塔尼亞胡行蹤

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

時(shí)尚
本地
旅游
房產(chǎn)
親子

推廣|| 春天第一雙鞋!暴走不累、搭遍好看小裙子

本地新聞

津南好·四時(shí)總相宜

旅游要聞

AI 復(fù)活千年文物,元宵文旅再出圈

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫#钟袝蟊P殺出!

親子要聞

姐姐比弟弟大6歲,有個(gè)弟弟真好,能給姐姐撐腰了

無障礙瀏覽 進(jìn)入關(guān)懷版