上海AI實(shí)驗(yàn)室攜手多家頂尖院校：讓AI像數(shù)學(xué)奧賽銀牌選手一樣思考

2025-12-30 23:15:07　來源: 至頂AI實(shí)驗(yàn)室

北京舉報

分享至

當(dāng)你面對一道復(fù)雜的數(shù)學(xué)題時，可能會在草稿紙上反復(fù)推演、列出各種可能的解題思路，甚至要花費(fèi)數(shù)小時才能找到答案。而對于那些參加國際數(shù)學(xué)奧林匹克競賽的頂尖選手來說，他們不僅要在有限時間內(nèi)解決這些"變態(tài)"難題，還要保證推理過程的嚴(yán)密性?，F(xiàn)在，來自上海人工智能實(shí)驗(yàn)室、上海交通大學(xué)、香港中文大學(xué)等多家頂尖研究機(jī)構(gòu)的科學(xué)家們，成功讓人工智能也具備了這樣的超強(qiáng)數(shù)學(xué)推理能力。

這項(xiàng)由上海人工智能實(shí)驗(yàn)室的高松陽、顧雨哲、張文偉等研究人員領(lǐng)導(dǎo)的突破性研究，發(fā)表于2025年12月的arXiv預(yù)印本平臺（論文編號：arXiv:2512.10739v1）。他們開發(fā)出了一個名為Intern-S1-MO的數(shù)學(xué)推理智能體，這個AI系統(tǒng)在國際數(shù)學(xué)奧林匹克2025年的非幾何題目中取得了26分（滿分35分），達(dá)到了銀牌選手的水平。更令人驚訝的是，它還在中國數(shù)學(xué)奧林匹克2025年的正式比賽中獲得了102分（滿分126分），超越了金牌門檻的78分。

要理解這項(xiàng)成就的意義，我們可以回想一下自己做數(shù)學(xué)題的過程。當(dāng)遇到特別復(fù)雜的問題時，你可能會先嘗試一種方法，發(fā)現(xiàn)行不通后再換另一種思路，有時還需要借助一些已知的定理或公式作為"墊腳石"。問題是，現(xiàn)有的AI模型就像是只有一頁紙的答題本，當(dāng)題目需要大量推理步驟時，這一頁紙很快就不夠用了。

研究團(tuán)隊(duì)面臨的核心挑戰(zhàn)是，傳統(tǒng)的大型語言模型雖然在數(shù)學(xué)推理方面已經(jīng)相當(dāng)出色，但它們受到"上下文長度"的嚴(yán)重限制。用通俗的話說，就像人的短期記憶容量有限一樣，這些模型一次只能"記住"和處理固定長度的信息。對于那些需要多步驟復(fù)雜推理的奧數(shù)級別題目，這個限制就成了致命弱點(diǎn)。當(dāng)前最先進(jìn)的推理模型通常只能處理6萬到12萬個"詞匯單位"，但解決國際數(shù)學(xué)奧林匹克級別的問題往往需要更長的思考過程。

為了突破這個瓶頸，研究團(tuán)隊(duì)創(chuàng)造性地設(shè)計(jì)了一個多智能體協(xié)作系統(tǒng)。如果把傳統(tǒng)AI比作一個獨(dú)自埋頭解題的學(xué)生，那么Intern-S1-MO就像是一個由三個專業(yè)角色組成的"學(xué)習(xí)小組"：推理者、總結(jié)者和驗(yàn)證者。推理者負(fù)責(zé)探索各種可能的解題路徑，總結(jié)者將復(fù)雜的推理過程提煉成簡潔的"引理"（可以理解為解題過程中發(fā)現(xiàn)的小結(jié)論），而驗(yàn)證者則檢查這些推理步驟是否正確。

這個系統(tǒng)最巧妙的地方在于它的"記憶管理"機(jī)制。就像一個經(jīng)驗(yàn)豐富的數(shù)學(xué)家會在解題過程中記錄下有用的中間結(jié)論，Intern-S1-MO會將每輪推理中獲得的有價值信息壓縮成簡潔的引理，存儲在一個"引理庫"中。這樣，即使單次推理的"紙張"用完了，系統(tǒng)也能通過查閱這個引理庫來繼續(xù)深入思考，有效地突破了傳統(tǒng)模型的上下文長度限制。

更進(jìn)一步，研究團(tuán)隊(duì)還開發(fā)了一個名為OREAL-H的強(qiáng)化學(xué)習(xí)框架來訓(xùn)練這個多智能體系統(tǒng)。這就像是為這個"學(xué)習(xí)小組"設(shè)計(jì)了一套科學(xué)的訓(xùn)練方法，讓它們能夠從解題經(jīng)驗(yàn)中不斷學(xué)習(xí)和改進(jìn)。傳統(tǒng)的強(qiáng)化學(xué)習(xí)往往只關(guān)注最終答案的對錯，但OREAL-H更加聰明，它會分析整個解題過程，識別出哪些推理步驟是有價值的，哪些是無效的，從而給予相應(yīng)的獎勵或懲罰。

這種訓(xùn)練方式的巧妙之處在于它引入了"引理依賴圖"的概念。簡單來說，就是系統(tǒng)會分析不同引理之間的邏輯關(guān)系，就像繪制一張"知識地圖"，標(biāo)明哪些小結(jié)論能夠?qū)蜃罱K的正確答案。通過這種方式，系統(tǒng)能夠更準(zhǔn)確地評估每個推理步驟的價值，從而優(yōu)化整體的解題策略。

在驗(yàn)證環(huán)節(jié)，研究團(tuán)隊(duì)采用了一個創(chuàng)新的"貝葉斯共軛獎勵"機(jī)制來處理過程驗(yàn)證中的不確定性。這聽起來很復(fù)雜，但其實(shí)原理很簡單。當(dāng)判斷一個推理步驟是否正確時，驗(yàn)證器可能會出錯。為了減少這種誤判的影響，系統(tǒng)會進(jìn)行多次獨(dú)立驗(yàn)證，然后根據(jù)統(tǒng)計(jì)學(xué)原理計(jì)算一個"可信度分?jǐn)?shù)"。這就像是請多個老師來判作業(yè)，然后綜合他們的意見得出最終評價，這樣比單個判斷更加可靠。

研究團(tuán)隊(duì)在多個權(quán)威數(shù)學(xué)競賽數(shù)據(jù)集上測試了Intern-S1-MO的性能，結(jié)果令人印象深刻。在美國數(shù)學(xué)邀請賽（AIME2025）中，系統(tǒng)達(dá)到了96.6%的通過率，在哈佛-麻省理工數(shù)學(xué)競賽（HMMT2025）中獲得了95%的分?jǐn)?shù)，在中國數(shù)學(xué)奧林匹克初賽（CNMO2025）中得到232.4分（滿分260分）。這些成績不僅超越了當(dāng)前最先進(jìn)的AI模型，在某些測試中甚至超過了人類專家的平均水平。

更值得一提的是，為了驗(yàn)證系統(tǒng)在真實(shí)環(huán)境下的表現(xiàn)，研究團(tuán)隊(duì)讓Intern-S1-MO正式參加了中國數(shù)學(xué)奧林匹克2025年的比賽，完全按照人類選手的標(biāo)準(zhǔn)進(jìn)行評判。最終，系統(tǒng)獲得了102分（滿分126分），遠(yuǎn)超金牌門檻，證明了其在實(shí)際應(yīng)用中的可靠性。

這項(xiàng)研究的技術(shù)創(chuàng)新主要體現(xiàn)在三個方面。首先是多輪分層推理的架構(gòu)設(shè)計(jì)，通過引理庫的維護(hù)實(shí)現(xiàn)了對傳統(tǒng)模型上下文限制的突破。這就像是給AI配備了一個可擴(kuò)展的"外部大腦"，能夠存儲和調(diào)用任意數(shù)量的中間推理結(jié)果。其次是OREAL-H強(qiáng)化學(xué)習(xí)框架，它能夠同時優(yōu)化推理能力和整體系統(tǒng)性能，實(shí)現(xiàn)了更加精準(zhǔn)的過程監(jiān)督。最后是創(chuàng)新的驗(yàn)證機(jī)制，通過多智能體協(xié)作和貝葉斯統(tǒng)計(jì)方法，大大提高了推理過程的可靠性。

從實(shí)驗(yàn)結(jié)果的詳細(xì)分析來看，系統(tǒng)的優(yōu)勢在復(fù)雜度較高的題目中表現(xiàn)得更加明顯。在相對標(biāo)準(zhǔn)的競賽題目中，Intern-S1-MO與現(xiàn)有先進(jìn)模型的差距較小，但在需要構(gòu)建新穎證明路徑和綜合輔助引理的高難度題目中，它展現(xiàn)出了明顯的優(yōu)勢。這正是因?yàn)樗軌蚓S持跨輪次的邏輯狀態(tài)，有效模擬了人類專家使用"草稿紙"進(jìn)行復(fù)雜推理的過程。

研究團(tuán)隊(duì)還進(jìn)行了細(xì)致的消融實(shí)驗(yàn)，逐步驗(yàn)證了系統(tǒng)各個組件的貢獻(xiàn)。結(jié)果顯示，從單輪推理到多輪推理的改進(jìn)帶來了顯著提升，引理驗(yàn)證機(jī)制進(jìn)一步提高了可靠性，而過程驗(yàn)證和OREAL-H訓(xùn)練框架則在此基礎(chǔ)上實(shí)現(xiàn)了更大的性能飛躍。這些發(fā)現(xiàn)為未來的系統(tǒng)優(yōu)化提供了明確的方向。

當(dāng)然，這個系統(tǒng)也有其局限性。研究團(tuán)隊(duì)坦誠地指出，在某些需要高度創(chuàng)造性洞察或"靈感閃現(xiàn)"的題目上，Intern-S1-MO仍然存在困難。這些題目往往需要一些非系統(tǒng)化的思維跳躍，這正是當(dāng)前AI技術(shù)的邊界所在。此外，系統(tǒng)的計(jì)算成本相對較高，需要大量的并行搜索和驗(yàn)證過程，這在實(shí)際應(yīng)用中可能成為一個制約因素。

這項(xiàng)研究的意義遠(yuǎn)超數(shù)學(xué)競賽本身。它展示了AI在復(fù)雜推理任務(wù)中的巨大潛力，為構(gòu)建能夠進(jìn)行深度思考的智能系統(tǒng)提供了新的技術(shù)路徑。在教育領(lǐng)域，這樣的系統(tǒng)可以作為高水平的數(shù)學(xué)教學(xué)助手，幫助學(xué)生理解復(fù)雜的數(shù)學(xué)概念和證明過程。在科學(xué)研究中，它可能協(xié)助研究人員處理那些需要大量邏輯推理的理論問題。

更重要的是，這項(xiàng)工作為AI的認(rèn)知能力發(fā)展開辟了新的方向。通過多智能體協(xié)作和分層記憶管理，研究團(tuán)隊(duì)證明了AI不必局限于單一模型的上下文限制，而可以通過系統(tǒng)級的架構(gòu)創(chuàng)新來實(shí)現(xiàn)更強(qiáng)大的認(rèn)知能力。這種思路對于構(gòu)建真正能夠進(jìn)行深度思考和長期規(guī)劃的AI系統(tǒng)具有重要的啟發(fā)意義。

歸根結(jié)底，Intern-S1-MO的成功證明了一個重要觀點(diǎn)：AI的智能水平不僅取決于單個模型的能力，更在于如何巧妙地組織和協(xié)調(diào)這些能力。就像一個優(yōu)秀的交響樂團(tuán)，每個樂手的技藝固然重要，但真正動人的音樂來自于精心編排的協(xié)作。在這個案例中，推理者、總結(jié)者和驗(yàn)證者的完美配合，創(chuàng)造出了超越單個組件能力總和的集體智慧。

這項(xiàng)研究也為我們思考AI的未來發(fā)展提供了新的視角。與其一味追求更大、更強(qiáng)的單一模型，或許我們更應(yīng)該關(guān)注如何設(shè)計(jì)更加智能的系統(tǒng)架構(gòu)，讓AI能夠像人類一樣進(jìn)行分步驟、多層次的深度思考。畢竟，人類的認(rèn)知優(yōu)勢往往不在于處理信息的速度，而在于能夠靈活地組織思維過程，在復(fù)雜問題面前保持條理清晰的推理能力。

對于關(guān)注AI技術(shù)發(fā)展的普通讀者來說，這項(xiàng)研究傳達(dá)了一個重要信息：我們正在逐步接近能夠在復(fù)雜認(rèn)知任務(wù)中與人類專家相媲美的AI系統(tǒng)。雖然目前這些技術(shù)主要還停留在研究階段，但它們展現(xiàn)出的潛力預(yù)示著未來AI在教育、科研、工程設(shè)計(jì)等需要深度推理的領(lǐng)域?qū)l(fā)揮越來越重要的作用。同時，這也提醒我們需要思考如何在AI能力快速提升的時代，重新定義人類的獨(dú)特價值和AI的合理邊界。

Q&A

Q1：Intern-S1-MO是什么？

A：Intern-S1-MO是由上海人工智能實(shí)驗(yàn)室開發(fā)的數(shù)學(xué)推理智能體，它采用多智能體協(xié)作系統(tǒng)，包含推理者、總結(jié)者和驗(yàn)證者三個角色，能夠解決國際數(shù)學(xué)奧林匹克級別的超高難度數(shù)學(xué)題。

Q2：這個AI系統(tǒng)為什么能突破傳統(tǒng)模型的限制？

A：傳統(tǒng)AI模型受限于上下文長度，就像只有一頁紙的答題本。Intern-S1-MO通過引理庫機(jī)制將復(fù)雜推理過程中的有價值信息壓縮成簡潔結(jié)論并存儲，相當(dāng)于給AI配備了可擴(kuò)展的"外部大腦"。

Q3：OREAL-H強(qiáng)化學(xué)習(xí)框架有什么特別之處？

A：OREAL-H不僅關(guān)注最終答案對錯，還會分析整個解題過程，通過引理依賴圖識別有價值的推理步驟，并采用貝葉斯共軛獎勵機(jī)制處理驗(yàn)證中的不確定性，讓系統(tǒng)從解題經(jīng)驗(yàn)中持續(xù)學(xué)習(xí)改進(jìn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.