国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

上海AI實(shí)驗(yàn)室攜手多家頂尖院校:讓AI像數(shù)學(xué)奧賽銀牌選手一樣思考

0
分享至


當(dāng)你面對一道復(fù)雜的數(shù)學(xué)題時,可能會在草稿紙上反復(fù)推演、列出各種可能的解題思路,甚至要花費(fèi)數(shù)小時才能找到答案。而對于那些參加國際數(shù)學(xué)奧林匹克競賽的頂尖選手來說,他們不僅要在有限時間內(nèi)解決這些"變態(tài)"難題,還要保證推理過程的嚴(yán)密性?,F(xiàn)在,來自上海人工智能實(shí)驗(yàn)室、上海交通大學(xué)、香港中文大學(xué)等多家頂尖研究機(jī)構(gòu)的科學(xué)家們,成功讓人工智能也具備了這樣的超強(qiáng)數(shù)學(xué)推理能力。

這項(xiàng)由上海人工智能實(shí)驗(yàn)室的高松陽、顧雨哲、張文偉等研究人員領(lǐng)導(dǎo)的突破性研究,發(fā)表于2025年12月的arXiv預(yù)印本平臺(論文編號:arXiv:2512.10739v1)。他們開發(fā)出了一個名為Intern-S1-MO的數(shù)學(xué)推理智能體,這個AI系統(tǒng)在國際數(shù)學(xué)奧林匹克2025年的非幾何題目中取得了26分(滿分35分),達(dá)到了銀牌選手的水平。更令人驚訝的是,它還在中國數(shù)學(xué)奧林匹克2025年的正式比賽中獲得了102分(滿分126分),超越了金牌門檻的78分。

要理解這項(xiàng)成就的意義,我們可以回想一下自己做數(shù)學(xué)題的過程。當(dāng)遇到特別復(fù)雜的問題時,你可能會先嘗試一種方法,發(fā)現(xiàn)行不通后再換另一種思路,有時還需要借助一些已知的定理或公式作為"墊腳石"。問題是,現(xiàn)有的AI模型就像是只有一頁紙的答題本,當(dāng)題目需要大量推理步驟時,這一頁紙很快就不夠用了。

研究團(tuán)隊(duì)面臨的核心挑戰(zhàn)是,傳統(tǒng)的大型語言模型雖然在數(shù)學(xué)推理方面已經(jīng)相當(dāng)出色,但它們受到"上下文長度"的嚴(yán)重限制。用通俗的話說,就像人的短期記憶容量有限一樣,這些模型一次只能"記住"和處理固定長度的信息。對于那些需要多步驟復(fù)雜推理的奧數(shù)級別題目,這個限制就成了致命弱點(diǎn)。當(dāng)前最先進(jìn)的推理模型通常只能處理6萬到12萬個"詞匯單位",但解決國際數(shù)學(xué)奧林匹克級別的問題往往需要更長的思考過程。

為了突破這個瓶頸,研究團(tuán)隊(duì)創(chuàng)造性地設(shè)計(jì)了一個多智能體協(xié)作系統(tǒng)。如果把傳統(tǒng)AI比作一個獨(dú)自埋頭解題的學(xué)生,那么Intern-S1-MO就像是一個由三個專業(yè)角色組成的"學(xué)習(xí)小組":推理者、總結(jié)者和驗(yàn)證者。推理者負(fù)責(zé)探索各種可能的解題路徑,總結(jié)者將復(fù)雜的推理過程提煉成簡潔的"引理"(可以理解為解題過程中發(fā)現(xiàn)的小結(jié)論),而驗(yàn)證者則檢查這些推理步驟是否正確。

這個系統(tǒng)最巧妙的地方在于它的"記憶管理"機(jī)制。就像一個經(jīng)驗(yàn)豐富的數(shù)學(xué)家會在解題過程中記錄下有用的中間結(jié)論,Intern-S1-MO會將每輪推理中獲得的有價值信息壓縮成簡潔的引理,存儲在一個"引理庫"中。這樣,即使單次推理的"紙張"用完了,系統(tǒng)也能通過查閱這個引理庫來繼續(xù)深入思考,有效地突破了傳統(tǒng)模型的上下文長度限制。

更進(jìn)一步,研究團(tuán)隊(duì)還開發(fā)了一個名為OREAL-H的強(qiáng)化學(xué)習(xí)框架來訓(xùn)練這個多智能體系統(tǒng)。這就像是為這個"學(xué)習(xí)小組"設(shè)計(jì)了一套科學(xué)的訓(xùn)練方法,讓它們能夠從解題經(jīng)驗(yàn)中不斷學(xué)習(xí)和改進(jìn)。傳統(tǒng)的強(qiáng)化學(xué)習(xí)往往只關(guān)注最終答案的對錯,但OREAL-H更加聰明,它會分析整個解題過程,識別出哪些推理步驟是有價值的,哪些是無效的,從而給予相應(yīng)的獎勵或懲罰。

這種訓(xùn)練方式的巧妙之處在于它引入了"引理依賴圖"的概念。簡單來說,就是系統(tǒng)會分析不同引理之間的邏輯關(guān)系,就像繪制一張"知識地圖",標(biāo)明哪些小結(jié)論能夠?qū)蜃罱K的正確答案。通過這種方式,系統(tǒng)能夠更準(zhǔn)確地評估每個推理步驟的價值,從而優(yōu)化整體的解題策略。

在驗(yàn)證環(huán)節(jié),研究團(tuán)隊(duì)采用了一個創(chuàng)新的"貝葉斯共軛獎勵"機(jī)制來處理過程驗(yàn)證中的不確定性。這聽起來很復(fù)雜,但其實(shí)原理很簡單。當(dāng)判斷一個推理步驟是否正確時,驗(yàn)證器可能會出錯。為了減少這種誤判的影響,系統(tǒng)會進(jìn)行多次獨(dú)立驗(yàn)證,然后根據(jù)統(tǒng)計(jì)學(xué)原理計(jì)算一個"可信度分?jǐn)?shù)"。這就像是請多個老師來判作業(yè),然后綜合他們的意見得出最終評價,這樣比單個判斷更加可靠。

研究團(tuán)隊(duì)在多個權(quán)威數(shù)學(xué)競賽數(shù)據(jù)集上測試了Intern-S1-MO的性能,結(jié)果令人印象深刻。在美國數(shù)學(xué)邀請賽(AIME2025)中,系統(tǒng)達(dá)到了96.6%的通過率,在哈佛-麻省理工數(shù)學(xué)競賽(HMMT2025)中獲得了95%的分?jǐn)?shù),在中國數(shù)學(xué)奧林匹克初賽(CNMO2025)中得到232.4分(滿分260分)。這些成績不僅超越了當(dāng)前最先進(jìn)的AI模型,在某些測試中甚至超過了人類專家的平均水平。

更值得一提的是,為了驗(yàn)證系統(tǒng)在真實(shí)環(huán)境下的表現(xiàn),研究團(tuán)隊(duì)讓Intern-S1-MO正式參加了中國數(shù)學(xué)奧林匹克2025年的比賽,完全按照人類選手的標(biāo)準(zhǔn)進(jìn)行評判。最終,系統(tǒng)獲得了102分(滿分126分),遠(yuǎn)超金牌門檻,證明了其在實(shí)際應(yīng)用中的可靠性。

這項(xiàng)研究的技術(shù)創(chuàng)新主要體現(xiàn)在三個方面。首先是多輪分層推理的架構(gòu)設(shè)計(jì),通過引理庫的維護(hù)實(shí)現(xiàn)了對傳統(tǒng)模型上下文限制的突破。這就像是給AI配備了一個可擴(kuò)展的"外部大腦",能夠存儲和調(diào)用任意數(shù)量的中間推理結(jié)果。其次是OREAL-H強(qiáng)化學(xué)習(xí)框架,它能夠同時優(yōu)化推理能力和整體系統(tǒng)性能,實(shí)現(xiàn)了更加精準(zhǔn)的過程監(jiān)督。最后是創(chuàng)新的驗(yàn)證機(jī)制,通過多智能體協(xié)作和貝葉斯統(tǒng)計(jì)方法,大大提高了推理過程的可靠性。

從實(shí)驗(yàn)結(jié)果的詳細(xì)分析來看,系統(tǒng)的優(yōu)勢在復(fù)雜度較高的題目中表現(xiàn)得更加明顯。在相對標(biāo)準(zhǔn)的競賽題目中,Intern-S1-MO與現(xiàn)有先進(jìn)模型的差距較小,但在需要構(gòu)建新穎證明路徑和綜合輔助引理的高難度題目中,它展現(xiàn)出了明顯的優(yōu)勢。這正是因?yàn)樗軌蚓S持跨輪次的邏輯狀態(tài),有效模擬了人類專家使用"草稿紙"進(jìn)行復(fù)雜推理的過程。

研究團(tuán)隊(duì)還進(jìn)行了細(xì)致的消融實(shí)驗(yàn),逐步驗(yàn)證了系統(tǒng)各個組件的貢獻(xiàn)。結(jié)果顯示,從單輪推理到多輪推理的改進(jìn)帶來了顯著提升,引理驗(yàn)證機(jī)制進(jìn)一步提高了可靠性,而過程驗(yàn)證和OREAL-H訓(xùn)練框架則在此基礎(chǔ)上實(shí)現(xiàn)了更大的性能飛躍。這些發(fā)現(xiàn)為未來的系統(tǒng)優(yōu)化提供了明確的方向。

當(dāng)然,這個系統(tǒng)也有其局限性。研究團(tuán)隊(duì)坦誠地指出,在某些需要高度創(chuàng)造性洞察或"靈感閃現(xiàn)"的題目上,Intern-S1-MO仍然存在困難。這些題目往往需要一些非系統(tǒng)化的思維跳躍,這正是當(dāng)前AI技術(shù)的邊界所在。此外,系統(tǒng)的計(jì)算成本相對較高,需要大量的并行搜索和驗(yàn)證過程,這在實(shí)際應(yīng)用中可能成為一個制約因素。

這項(xiàng)研究的意義遠(yuǎn)超數(shù)學(xué)競賽本身。它展示了AI在復(fù)雜推理任務(wù)中的巨大潛力,為構(gòu)建能夠進(jìn)行深度思考的智能系統(tǒng)提供了新的技術(shù)路徑。在教育領(lǐng)域,這樣的系統(tǒng)可以作為高水平的數(shù)學(xué)教學(xué)助手,幫助學(xué)生理解復(fù)雜的數(shù)學(xué)概念和證明過程。在科學(xué)研究中,它可能協(xié)助研究人員處理那些需要大量邏輯推理的理論問題。

更重要的是,這項(xiàng)工作為AI的認(rèn)知能力發(fā)展開辟了新的方向。通過多智能體協(xié)作和分層記憶管理,研究團(tuán)隊(duì)證明了AI不必局限于單一模型的上下文限制,而可以通過系統(tǒng)級的架構(gòu)創(chuàng)新來實(shí)現(xiàn)更強(qiáng)大的認(rèn)知能力。這種思路對于構(gòu)建真正能夠進(jìn)行深度思考和長期規(guī)劃的AI系統(tǒng)具有重要的啟發(fā)意義。

歸根結(jié)底,Intern-S1-MO的成功證明了一個重要觀點(diǎn):AI的智能水平不僅取決于單個模型的能力,更在于如何巧妙地組織和協(xié)調(diào)這些能力。就像一個優(yōu)秀的交響樂團(tuán),每個樂手的技藝固然重要,但真正動人的音樂來自于精心編排的協(xié)作。在這個案例中,推理者、總結(jié)者和驗(yàn)證者的完美配合,創(chuàng)造出了超越單個組件能力總和的集體智慧。

這項(xiàng)研究也為我們思考AI的未來發(fā)展提供了新的視角。與其一味追求更大、更強(qiáng)的單一模型,或許我們更應(yīng)該關(guān)注如何設(shè)計(jì)更加智能的系統(tǒng)架構(gòu),讓AI能夠像人類一樣進(jìn)行分步驟、多層次的深度思考。畢竟,人類的認(rèn)知優(yōu)勢往往不在于處理信息的速度,而在于能夠靈活地組織思維過程,在復(fù)雜問題面前保持條理清晰的推理能力。

對于關(guān)注AI技術(shù)發(fā)展的普通讀者來說,這項(xiàng)研究傳達(dá)了一個重要信息:我們正在逐步接近能夠在復(fù)雜認(rèn)知任務(wù)中與人類專家相媲美的AI系統(tǒng)。雖然目前這些技術(shù)主要還停留在研究階段,但它們展現(xiàn)出的潛力預(yù)示著未來AI在教育、科研、工程設(shè)計(jì)等需要深度推理的領(lǐng)域?qū)l(fā)揮越來越重要的作用。同時,這也提醒我們需要思考如何在AI能力快速提升的時代,重新定義人類的獨(dú)特價值和AI的合理邊界。

Q&A

Q1:Intern-S1-MO是什么?

A:Intern-S1-MO是由上海人工智能實(shí)驗(yàn)室開發(fā)的數(shù)學(xué)推理智能體,它采用多智能體協(xié)作系統(tǒng),包含推理者、總結(jié)者和驗(yàn)證者三個角色,能夠解決國際數(shù)學(xué)奧林匹克級別的超高難度數(shù)學(xué)題。

Q2:這個AI系統(tǒng)為什么能突破傳統(tǒng)模型的限制?

A:傳統(tǒng)AI模型受限于上下文長度,就像只有一頁紙的答題本。Intern-S1-MO通過引理庫機(jī)制將復(fù)雜推理過程中的有價值信息壓縮成簡潔結(jié)論并存儲,相當(dāng)于給AI配備了可擴(kuò)展的"外部大腦"。

Q3:OREAL-H強(qiáng)化學(xué)習(xí)框架有什么特別之處?

A:OREAL-H不僅關(guān)注最終答案對錯,還會分析整個解題過程,通過引理依賴圖識別有價值的推理步驟,并采用貝葉斯共軛獎勵機(jī)制處理驗(yàn)證中的不確定性,讓系統(tǒng)從解題經(jīng)驗(yàn)中持續(xù)學(xué)習(xí)改進(jìn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
早就想打!日媒首次爆料:中國雙航母出動時日軍戰(zhàn)機(jī)已做戰(zhàn)斗準(zhǔn)備

早就想打!日媒首次爆料:中國雙航母出動時日軍戰(zhàn)機(jī)已做戰(zhàn)斗準(zhǔn)備

詩意世界
2025-08-21 13:13:50
《用武之地》還是《匿殺》?元旦五部電影,哪部都不想看

《用武之地》還是《匿殺》?元旦五部電影,哪部都不想看

影視口碑榜
2025-12-31 17:31:30
史上最快暴富!90后中國小伙,10天狂賺數(shù)百億……

史上最快暴富!90后中國小伙,10天狂賺數(shù)百億……

功夫財(cái)經(jīng)
2025-12-31 08:26:37
凱迪拉克多款車型推限時優(yōu)惠 全新CT5售19.99萬元起

凱迪拉克多款車型推限時優(yōu)惠 全新CT5售19.99萬元起

太平洋汽車
2025-12-31 15:14:35
1956年不愿被提及的羅源灣空戰(zhàn),原志愿軍王牌飛行員被擊落犧牲

1956年不愿被提及的羅源灣空戰(zhàn),原志愿軍王牌飛行員被擊落犧牲

興趣知識
2025-12-31 02:34:52
娛樂圈真是一個圈!白百何老公不要的前妻,竟在張繼科那光芒四射

娛樂圈真是一個圈!白百何老公不要的前妻,竟在張繼科那光芒四射

凡知
2025-12-05 04:58:03
普京險遭"斬首",24小時后,4國收到特殊來信,中方對烏措辭變了

普京險遭"斬首",24小時后,4國收到特殊來信,中方對烏措辭變了

阿器談史
2026-01-01 06:39:11
失業(yè)的人越來越多了

失業(yè)的人越來越多了

曹多魚的財(cái)經(jīng)世界
2025-12-24 14:56:20
庫里獲專屬榮譽(yù)!擁有自己名字命名立交樞紐 調(diào)侃想把路牌偷回家

庫里獲專屬榮譽(yù)!擁有自己名字命名立交樞紐 調(diào)侃想把路牌偷回家

羅說NBA
2026-01-01 06:32:32
他判刑13年至死未平反,10萬人送行墓前立百碑,百姓說不能忘了他

他判刑13年至死未平反,10萬人送行墓前立百碑,百姓說不能忘了他

來科點(diǎn)譜
2025-12-10 09:03:06
從無視陳夢握手,到2次投訴后輩蒯曼,國乒某名將的風(fēng)評越來越差

從無視陳夢握手,到2次投訴后輩蒯曼,國乒某名將的風(fēng)評越來越差

譚顳愛搞笑
2025-12-30 21:35:03
陳方“痛并快樂著”,新賽季女排人才井噴,整體實(shí)力不降反升!

陳方“痛并快樂著”,新賽季女排人才井噴,整體實(shí)力不降反升!

吳锎旅行ing
2026-01-01 05:34:53
劉亦菲在家玩自拍!不料被鏡子“出賣”了,網(wǎng)友直呼:好女人??!

小欣欣聊體育
2025-12-18 20:44:37

“半價版”理想L9,配置高的嚇人,續(xù)航2000km,4月上市,不火都難

“半價版”理想L9,配置高的嚇人,續(xù)航2000km,4月上市,不火都難

隔壁說車?yán)贤?/span>
2025-12-30 06:09:51
數(shù)千輛“巨無霸”,每天綿延幾公里!滬上公路引發(fā)“安全之憂”,相關(guān)部門回應(yīng)

數(shù)千輛“巨無霸”,每天綿延幾公里!滬上公路引發(fā)“安全之憂”,相關(guān)部門回應(yīng)

新民晚報
2025-12-30 19:23:40
3大國家保密中成藥:中風(fēng)急救、心??祻?fù),心血管的護(hù)身符!

3大國家保密中成藥:中風(fēng)急救、心??祻?fù),心血管的護(hù)身符!

展望云霄
2025-12-25 21:39:14
跨年晚會現(xiàn)場,演員李川求婚錘娜麗莎

跨年晚會現(xiàn)場,演員李川求婚錘娜麗莎

瀟湘晨報
2025-12-31 23:29:09
周蘇紅:前夫癱瘓后,再嫁富豪仍照顧前夫,如今女兒認(rèn)前夫當(dāng)干爹

周蘇紅:前夫癱瘓后,再嫁富豪仍照顧前夫,如今女兒認(rèn)前夫當(dāng)干爹

籃球看比賽
2025-12-31 11:58:00
卡扎菲次子賽義夫:被囚6年,前女友不離不棄,最終將其解救出獄

卡扎菲次子賽義夫:被囚6年,前女友不離不棄,最終將其解救出獄

小熊侃史
2025-12-31 11:57:54
因長得像中國人,印度男青年在街頭被圍毆打死!

因長得像中國人,印度男青年在街頭被圍毆打死!

荊楚寰宇文樞
2025-12-31 21:59:57
2026-01-01 07:36:49
至頂AI實(shí)驗(yàn)室 incentive-icons
至頂AI實(shí)驗(yàn)室
一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
895文章數(shù) 151關(guān)注度
往期回顧 全部

科技要聞

老羅,演砸了,也封神了?

頭條要聞

土耳其宣布對持普通護(hù)照中國公民免簽

頭條要聞

土耳其宣布對持普通護(hù)照中國公民免簽

體育要聞

羅馬諾:內(nèi)馬爾與桑托斯就續(xù)約達(dá)成協(xié)議,合同期至2026年12月

娛樂要聞

官宣才兩天就翻車?七七被連環(huán)爆料

財(cái)經(jīng)要聞

高培勇:分配制度改革是提振消費(fèi)的抓手

汽車要聞

凱迪拉克純電中型SUV 售價不足24萬/33寸曲面屏

態(tài)度原創(chuàng)

本地
親子
手機(jī)
健康
公開課

本地新聞

即將過去的2025年,對重慶的影響竟然如此深遠(yuǎn)

親子要聞

新西蘭小小傘液體鈣,讓每一滴營養(yǎng)都化為成長動力

手機(jī)要聞

真我GT8 Pro評測體驗(yàn):4K檔最全能的“守門員”?春節(jié)開黑首選

元旦舉家出行,注意防流感

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版