俄亥俄州立大學(xué)破解AI難題：讓人工智能像人類一樣探索多條思路

2026-03-02 15:17:13　來源: 科技行者

天津舉報(bào)

分享至

當(dāng)我們解決一個(gè)復(fù)雜數(shù)學(xué)題時(shí)，往往不會(huì)只用一種方法。有時(shí)我們用代數(shù)，有時(shí)用幾何，有時(shí)甚至?xí)L試一些看似"笨拙"但有效的方法。然而，目前的人工智能在推理時(shí)卻容易陷入單一思路的陷阱。這項(xiàng)由俄亥俄州立大學(xué)、凱斯西儲(chǔ)大學(xué)、香港中文大學(xué)等多所知名院校聯(lián)合完成的研究，于2026年2月發(fā)表，論文編號(hào)為arXiv:2602.19895v1，為我們展示了一種全新的AI訓(xùn)練方法——DSDR（雙尺度多樣性正則化），它能讓AI像人類一樣保持思維的多樣性和探索精神。

要理解這個(gè)突破的重要性，我們可以把AI的學(xué)習(xí)過程比作訓(xùn)練一個(gè)學(xué)生解決數(shù)學(xué)問題。傳統(tǒng)的訓(xùn)練方法就像一個(gè)過分嚴(yán)格的老師，一旦學(xué)生找到了一種正確的解題方法，老師就會(huì)讓學(xué)生反復(fù)練習(xí)這種方法，直到學(xué)生完全掌握。表面上看這很有效，學(xué)生的正確率會(huì)快速提升。但問題在于，當(dāng)學(xué)生遇到稍微不同的題目時(shí)，他們可能就束手無策了，因?yàn)樗麄冎粫?huì)那一種固化的解題套路。

這正是當(dāng)前AI推理系統(tǒng)面臨的核心問題。在強(qiáng)化學(xué)習(xí)的訓(xùn)練過程中，AI系統(tǒng)往往會(huì)很快找到一些能夠得到正確答案的推理路徑，然后就死死抓住這些路徑不放。雖然這能讓AI在訓(xùn)練數(shù)據(jù)上表現(xiàn)出色，但當(dāng)面對新的、稍有不同的問題時(shí)，AI的表現(xiàn)就會(huì)大打折扣。更糟糕的是，這種"思維僵化"會(huì)讓AI失去發(fā)現(xiàn)更優(yōu)解法的能力。

研究團(tuán)隊(duì)發(fā)現(xiàn)，這個(gè)問題的根源在于現(xiàn)有的訓(xùn)練方法只關(guān)注"是否正確"這個(gè)單一維度。當(dāng)AI找到正確答案后，系統(tǒng)就會(huì)強(qiáng)化這種行為模式，而忽視了培養(yǎng)AI探索不同解法的能力。這就好比我們只獎(jiǎng)勵(lì)學(xué)生答對題目，而不鼓勵(lì)他們嘗試不同的解題思路。長此以往，學(xué)生自然會(huì)變得思路狹窄。

為了解決這個(gè)問題，研究團(tuán)隊(duì)設(shè)計(jì)了一套名為DSDR的新訓(xùn)練框架。這個(gè)框架的核心思想是在兩個(gè)不同的層面上培養(yǎng)AI的多樣性思維。第一個(gè)層面叫做"全局多樣性"，就像鼓勵(lì)學(xué)生掌握多種不同的解題策略。當(dāng)AI找到多種正確的解題路徑時(shí)，系統(tǒng)會(huì)特別獎(jiǎng)勵(lì)那些與其他路徑差異較大的新穎方法，而不是一味強(qiáng)化最常用的那種方法。

第二個(gè)層面叫做"局部多樣性"，這更像是鼓勵(lì)學(xué)生在使用某種解題策略時(shí)保持靈活性。即使是同一種基本方法，也可以有不同的具體表達(dá)方式。比如解一個(gè)方程，雖然都用代數(shù)方法，但可以先移項(xiàng)后合并同類項(xiàng)，也可以先合并同類項(xiàng)后移項(xiàng)。這種細(xì)節(jié)上的多樣性能讓AI的推理過程更加穩(wěn)健，不容易因?yàn)槟硞€(gè)特定步驟的小變化而整個(gè)崩潰。

DSDR的精妙之處在于它將這兩個(gè)層面巧妙地結(jié)合起來。系統(tǒng)會(huì)優(yōu)先在那些全局上比較獨(dú)特的解法路徑中加強(qiáng)局部多樣性的培養(yǎng)。這就像一個(gè)聰明的老師，會(huì)特別關(guān)注那些有創(chuàng)新思路的學(xué)生，鼓勵(lì)他們在保持創(chuàng)新特色的同時(shí)，也要學(xué)會(huì)靈活運(yùn)用這些創(chuàng)新方法。

具體來說，DSDR系統(tǒng)在訓(xùn)練過程中會(huì)做這樣幾件事情。首先，它會(huì)分析AI生成的所有正確解答，識(shí)別出哪些解法在語義和公式層面都比較獨(dú)特。語義層面的分析就像理解兩個(gè)解法的基本思路是否不同，而公式層面的分析則關(guān)注具體使用的數(shù)學(xué)表達(dá)式是否有差異。系統(tǒng)會(huì)給那些既在語義上新穎，又在公式上有特色的解法更高的"創(chuàng)新獎(jiǎng)勵(lì)"。

接著，系統(tǒng)會(huì)根據(jù)每個(gè)解法的獨(dú)特程度，為它們分配不同強(qiáng)度的"靈活性訓(xùn)練"。那些獲得高創(chuàng)新獎(jiǎng)勵(lì)的解法會(huì)接受更多的局部變化訓(xùn)練，讓AI學(xué)會(huì)用多種細(xì)微不同的方式來表達(dá)同一個(gè)解題思路。這種訓(xùn)練不會(huì)改變解法的核心邏輯，但會(huì)讓AI在表達(dá)這個(gè)解法時(shí)更加游刃有余。

為了驗(yàn)證DSDR的效果，研究團(tuán)隊(duì)在多個(gè)數(shù)學(xué)推理任務(wù)上進(jìn)行了大規(guī)模實(shí)驗(yàn)。他們使用了不同規(guī)模的語言模型，從15億參數(shù)的小模型到40億參數(shù)的大模型，在各種具有挑戰(zhàn)性的數(shù)學(xué)競賽題目上測試了新方法的表現(xiàn)。

實(shí)驗(yàn)結(jié)果令人印象深刻。在美國數(shù)學(xué)競賽AIME的2024年和2025年題目上，使用DSDR訓(xùn)練的AI模型表現(xiàn)顯著優(yōu)于傳統(tǒng)方法。更重要的是，當(dāng)研究人員測試AI生成多個(gè)答案時(shí)的表現(xiàn)時(shí)（這被稱為pass@k測試），DSDR展現(xiàn)出了明顯的優(yōu)勢。這意味著DSDR不僅能讓AI找到正確答案，還能讓AI掌握多種解題方法，從而在面對復(fù)雜問題時(shí)有更多的"備選方案"。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：DSDR訓(xùn)練出來的AI在生成答案時(shí)展現(xiàn)出了更高的多樣性，但這種多樣性并不是隨機(jī)的噪音，而是有意義的不同解法。當(dāng)他們讓GPT模型評估這些解答的多樣性時(shí)發(fā)現(xiàn)，DSDR生成的解答在邏輯多樣性、公式多樣性和語義多樣性三個(gè)維度上都明顯超過了傳統(tǒng)方法，同時(shí)保持了很高的正確率。

在訓(xùn)練過程的動(dòng)態(tài)分析中，研究人員觀察到了DSDR的另一個(gè)優(yōu)勢。傳統(tǒng)方法訓(xùn)練的AI會(huì)快速收斂到少數(shù)幾種解法上，然后就停止探索了。而DSDR訓(xùn)練的AI在整個(gè)訓(xùn)練過程中都保持著探索新解法的動(dòng)力，同時(shí)避免了過度探索導(dǎo)致的性能不穩(wěn)定。這種平衡是通過精心設(shè)計(jì)的獎(jiǎng)勵(lì)機(jī)制實(shí)現(xiàn)的：系統(tǒng)只獎(jiǎng)勵(lì)那些能得到正確答案的多樣性探索，而不會(huì)鼓勵(lì)純粹的隨機(jī)嘗試。

研究團(tuán)隊(duì)還深入分析了DSDR在不同類型數(shù)學(xué)問題上的表現(xiàn)差異。他們發(fā)現(xiàn)，在那些有多種可行解法的問題上，DSDR的優(yōu)勢最為明顯。這符合直覺：當(dāng)問題本身就有多樣化的解決路徑時(shí)，能夠掌握多種方法的AI自然會(huì)表現(xiàn)更好。但即使在解法相對單一的問題上，DSDR仍然顯示出了優(yōu)勢，這說明即使是在看似只有一種解法的情況下，細(xì)節(jié)層面的靈活性仍然很重要。

從技術(shù)實(shí)現(xiàn)的角度來看，DSDR的設(shè)計(jì)體現(xiàn)了深刻的理論洞察。研究團(tuán)隊(duì)從信息論的角度證明了全局多樣性和局部多樣性確實(shí)對應(yīng)著推理過程中的兩個(gè)不同維度。全局多樣性對應(yīng)的是不同推理模式之間的切換能力，而局部多樣性對應(yīng)的是在同一推理模式內(nèi)的表達(dá)靈活性。這兩個(gè)維度是互補(bǔ)的，需要協(xié)同培養(yǎng)才能達(dá)到最佳效果。

研究還從數(shù)學(xué)上證明了DSDR的安全性。一個(gè)自然的擔(dān)憂是，過分追求多樣性會(huì)不會(huì)損害AI的準(zhǔn)確性？研究團(tuán)隊(duì)通過嚴(yán)格的理論分析證明，只要多樣性獎(jiǎng)勵(lì)的強(qiáng)度控制在合適的范圍內(nèi)，DSDR就能在不損害準(zhǔn)確性的前提下顯著提升多樣性。這為實(shí)際應(yīng)用提供了重要的理論保障。

在超參數(shù)敏感性分析中，研究團(tuán)隊(duì)發(fā)現(xiàn)DSDR在相當(dāng)大的參數(shù)范圍內(nèi)都能保持穩(wěn)定的性能。這說明這種方法有良好的實(shí)用性，不需要過分精細(xì)的調(diào)參就能在不同的應(yīng)用場景中發(fā)揮作用。這對于實(shí)際部署來說是一個(gè)重要的優(yōu)勢。

DSDR方法的意義遠(yuǎn)不止于提升數(shù)學(xué)推理的性能。它代表了AI訓(xùn)練理念的一個(gè)重要轉(zhuǎn)變：從單純追求"找到正確答案"轉(zhuǎn)向"掌握多種解決問題的能力"。這種轉(zhuǎn)變對于構(gòu)建更加通用、更加可靠的AI系統(tǒng)具有深遠(yuǎn)意義。

在實(shí)際應(yīng)用中，這種能力的價(jià)值是顯而易見的。一個(gè)掌握了多種推理方法的AI系統(tǒng)在面對新問題時(shí)會(huì)更加從容。即使它最熟悉的方法在新情況下不適用，它還有其他的備選方案。這種"思維韌性"對于AI系統(tǒng)在復(fù)雜多變的真實(shí)環(huán)境中穩(wěn)定工作至關(guān)重要。

值得注意的是，DSDR的設(shè)計(jì)原則也為AI安全研究提供了新的思路。一個(gè)思維僵化的AI系統(tǒng)可能會(huì)在面對對抗性攻擊時(shí)表現(xiàn)出脆弱性，因?yàn)楣粽咧恍枰业揭环N破壞其固定推理模式的方法。而一個(gè)掌握多樣化推理能力的系統(tǒng)則更難被單一攻擊方式完全擊垮。

當(dāng)然，DSDR方法也不是萬能的。研究團(tuán)隊(duì)誠實(shí)地指出了這種方法的局限性。首先，培養(yǎng)多樣性需要更多的計(jì)算資源和訓(xùn)練時(shí)間。其次，在某些對效率要求極高的應(yīng)用場景中，可能不需要這種程度的多樣性。此外，如何在更復(fù)雜的推理任務(wù)中應(yīng)用DSDR原則，仍然需要進(jìn)一步的研究。

從更宏觀的角度看，這項(xiàng)研究反映了AI領(lǐng)域一個(gè)重要的發(fā)展趨勢：從追求單一指標(biāo)的優(yōu)化轉(zhuǎn)向追求綜合能力的提升。這種轉(zhuǎn)變不僅體現(xiàn)在推理任務(wù)上，也在其他AI應(yīng)用領(lǐng)域得到了體現(xiàn)。未來的AI系統(tǒng)很可能需要在多個(gè)維度上都具備良好的性能，而不是僅僅在某一個(gè)特定任務(wù)上表現(xiàn)出色。

DSDR的成功也啟發(fā)我們思考人類教育的一些原理。優(yōu)秀的教育從來不是讓學(xué)生死記硬背標(biāo)準(zhǔn)答案，而是培養(yǎng)學(xué)生獨(dú)立思考、靈活應(yīng)變的能力。同樣地，優(yōu)秀的AI訓(xùn)練方法也應(yīng)該注重培養(yǎng)AI系統(tǒng)的綜合能力，而不是僅僅追求在特定測試集上的高分。

展望未來，研究團(tuán)隊(duì)計(jì)劃在更多類型的推理任務(wù)上驗(yàn)證DSDR的有效性，包括邏輯推理、常識(shí)推理等領(lǐng)域。他們也在探索如何將DSDR的核心思想應(yīng)用到其他類型的AI任務(wù)中，比如創(chuàng)意寫作、代碼生成等。這些努力可能會(huì)為構(gòu)建更加智能、更加可靠的AI系統(tǒng)開辟新的道路。

對于關(guān)注AI發(fā)展的讀者來說，這項(xiàng)研究提供了一個(gè)重要的啟示：AI的智能化不僅僅體現(xiàn)在能否找到正確答案，更體現(xiàn)在是否能夠以多樣化的方式思考問題。隨著AI技術(shù)在各行各業(yè)的深入應(yīng)用，這種"思維多樣性"將成為區(qū)分優(yōu)秀AI系統(tǒng)和平庸AI系統(tǒng)的重要標(biāo)準(zhǔn)。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過arXiv:2602.19895v1查閱完整論文。

Q&A

Q1：DSDR訓(xùn)練方法是什么？

A：DSDR是雙尺度多樣性正則化的縮寫，是一種新的AI訓(xùn)練方法。它通過在全局和局部兩個(gè)層面培養(yǎng)AI的思維多樣性，讓AI像人類一樣掌握多種解決問題的方法，而不是死板地使用單一套路。

Q2：DSDR比傳統(tǒng)AI訓(xùn)練方法好在哪里？

A：DSDR能讓AI掌握多種推理方法，在面對新問題時(shí)更加靈活。實(shí)驗(yàn)顯示，DSDR訓(xùn)練的AI在數(shù)學(xué)競賽題目上表現(xiàn)更好，特別是在需要生成多個(gè)解答的測試中優(yōu)勢明顯，同時(shí)保持了高準(zhǔn)確率。

Q3：DSDR方法會(huì)不會(huì)影響AI的準(zhǔn)確性？

A：不會(huì)。研究團(tuán)隊(duì)通過嚴(yán)格的理論分析證明，只要參數(shù)設(shè)置合理，DSDR在提升多樣性的同時(shí)不會(huì)損害準(zhǔn)確性。實(shí)驗(yàn)結(jié)果也證實(shí)了這一點(diǎn)，DSDR在提升解題多樣性的同時(shí)保持了很高的正確率。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.