国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

NVIDIA突破:超長推理鏈訓(xùn)練實(shí)現(xiàn)AI數(shù)學(xué)推理滿分

0
分享至


這項(xiàng)由NVIDIA公司W(wǎng)ei Du、Shubham Toshniwal等研究團(tuán)隊(duì)開展的突破性研究于2025年12月發(fā)表在arXiv預(yù)印本平臺,論文編號為arXiv:2512.15489v1。該研究構(gòu)建了迄今為止最大規(guī)模的數(shù)學(xué)推理數(shù)據(jù)集Nemotron-Math,包含高達(dá)7500萬條數(shù)學(xué)解題推理軌跡,讓AI模型在數(shù)學(xué)競賽中達(dá)到了前所未有的100%滿分成績。

要理解這項(xiàng)研究的重要性,我們可以把AI學(xué)數(shù)學(xué)比作培養(yǎng)一個(gè)超級數(shù)學(xué)天才。以往的AI訓(xùn)練就像讓學(xué)生只看標(biāo)準(zhǔn)答案學(xué)習(xí),而Nemotron-Math則是讓AI觀察千萬個(gè)不同風(fēng)格的數(shù)學(xué)老師如何詳細(xì)講解同一道題。有些老師講得簡潔明了,有些老師會展開每一個(gè)細(xì)節(jié),還有些老師會邊講邊用計(jì)算器驗(yàn)證每一步。通過觀察這些豐富多樣的解題過程,AI不僅學(xué)會了答案,更重要的是學(xué)會了思考的方法。

該研究團(tuán)隊(duì)使用了目前最先進(jìn)的gpt-oss-120b推理模型作為"超級老師",讓它以高、中、低三種不同的推理深度來解答數(shù)學(xué)題目。每種深度都分為兩個(gè)版本:純文字推理和結(jié)合Python編程工具的推理。這就像讓一位頂尖數(shù)學(xué)教授用六種不同的教學(xué)風(fēng)格來講解每道題目,確保學(xué)生能從多個(gè)角度理解數(shù)學(xué)問題的本質(zhì)。

研究團(tuán)隊(duì)精心篩選了347000道數(shù)學(xué)題目,這些題目來源于兩個(gè)互補(bǔ)的數(shù)據(jù)源。首先是85000道來自藝術(shù)解題社區(qū)(AoPS)的競賽級數(shù)學(xué)題,這些題目嚴(yán)謹(jǐn)規(guī)范,代表了數(shù)學(xué)競賽的最高水準(zhǔn)。另外262000道題目則來自StackExchange數(shù)學(xué)論壇,這些是真實(shí)用戶在學(xué)習(xí)中遇到的各種數(shù)學(xué)問題,更接近日常數(shù)學(xué)應(yīng)用的多樣性。這種組合就像同時(shí)準(zhǔn)備標(biāo)準(zhǔn)化考試和解決實(shí)際生活中的數(shù)學(xué)問題,讓AI的數(shù)學(xué)能力更加全面。

一、多模式推理:讓AI用六種方式學(xué)數(shù)學(xué)

傳統(tǒng)的AI數(shù)學(xué)訓(xùn)練就像讓學(xué)生只看一種解題方法,而Nemotron-Math的創(chuàng)新之處在于提供了六種截然不同的學(xué)習(xí)方式。高推理模式就像最詳細(xì)的數(shù)學(xué)輔導(dǎo)書,每一步都有詳盡的解釋和驗(yàn)證,生成的解題過程可以長達(dá)128000個(gè)字符,相當(dāng)于一篇詳細(xì)的數(shù)學(xué)論文。中等推理模式則像標(biāo)準(zhǔn)的教科書解答,既有邏輯又不過分冗長。低推理模式類似于快速的解題技巧,直接給出核心步驟。

更有趣的是,每種推理模式都分為兩個(gè)版本:純文字推理和工具輔助推理。純文字推理就像傳統(tǒng)的紙筆計(jì)算,完全依靠邏輯推導(dǎo)。而工具輔助推理則像現(xiàn)代數(shù)學(xué)家的工作方式,會調(diào)用Python編程來驗(yàn)證計(jì)算、繪制圖形、進(jìn)行復(fù)雜的數(shù)值分析。這種結(jié)合讓AI不僅學(xué)會了數(shù)學(xué)思維,還掌握了現(xiàn)代數(shù)學(xué)研究的工具使用方法。

研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣現(xiàn)象:工具輔助推理版本的解題軌跡通常比純文字版本更長。這是因?yàn)楫?dāng)AI使用Python工具時(shí),它會進(jìn)行更多的驗(yàn)證和探索性計(jì)算,就像一個(gè)謹(jǐn)慎的數(shù)學(xué)家會多次檢驗(yàn)自己的結(jié)果。這種自我驗(yàn)證的習(xí)慣讓AI的解題更加可靠,也讓學(xué)習(xí)過程更加深入。

為了確保數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)采用了嚴(yán)格的篩選標(biāo)準(zhǔn)。他們讓gpt-oss-120b為每道題目生成16個(gè)不同的解答,然后檢查這些解答的正確率。如果一道題目的正確率超過80%,就認(rèn)為這道題目對模型來說太簡單了,不足以提供有價(jià)值的學(xué)習(xí)信號,因此會被剔除。這個(gè)篩選過程就像挑選合適難度的練習(xí)題,確保AI既不會因?yàn)轭}目太難而無所適從,也不會因?yàn)轭}目太簡單而學(xué)不到東西。

二、數(shù)據(jù)來源的巧妙平衡:競賽嚴(yán)謹(jǐn)性與現(xiàn)實(shí)多樣性的結(jié)合

Nemotron-Math數(shù)據(jù)集的構(gòu)建體現(xiàn)了研究團(tuán)隊(duì)對數(shù)學(xué)學(xué)習(xí)本質(zhì)的深刻理解。他們認(rèn)識到,僅僅依靠標(biāo)準(zhǔn)化的競賽題目雖然能保證嚴(yán)謹(jǐn)性,但可能會讓AI的數(shù)學(xué)能力過于狹窄。因此,他們采用了雙源策略,巧妙平衡了學(xué)術(shù)嚴(yán)謹(jǐn)性和現(xiàn)實(shí)應(yīng)用的多樣性。

AoPS來源的85000道題目代表了數(shù)學(xué)競賽的精華。這些題目經(jīng)過數(shù)學(xué)競賽專家的精心設(shè)計(jì),涵蓋了代數(shù)、幾何、數(shù)論和組合數(shù)學(xué)等核心領(lǐng)域。每道題目都有明確的標(biāo)準(zhǔn)答案,解題過程需要嚴(yán)密的邏輯推理。這些題目就像經(jīng)典的數(shù)學(xué)教材習(xí)題,為AI提供了扎實(shí)的數(shù)學(xué)基礎(chǔ)訓(xùn)練。

相比之下,StackExchange數(shù)學(xué)論壇的262000道題目則更加貼近現(xiàn)實(shí)。這些題目來自真實(shí)用戶的提問,包含了各種不規(guī)范的表述、實(shí)際應(yīng)用背景和跨領(lǐng)域的數(shù)學(xué)問題。有些可能是工程師在設(shè)計(jì)中遇到的優(yōu)化問題,有些可能是學(xué)生在學(xué)習(xí)中的困惑,還有些可能是研究者在探索新領(lǐng)域時(shí)的數(shù)學(xué)疑問。這種多樣性讓AI學(xué)會了處理各種"不完美"的數(shù)學(xué)問題,更好地適應(yīng)真實(shí)世界的應(yīng)用場景。

研究團(tuán)隊(duì)特別注意了數(shù)據(jù)預(yù)處理的細(xì)節(jié)。他們首先過濾掉了以證明為主要目標(biāo)的題目,因?yàn)檫@類題目的答案往往不是數(shù)值或表達(dá)式,而是整個(gè)證明過程,難以進(jìn)行標(biāo)準(zhǔn)化的正確性檢驗(yàn)。接著,他們使用先進(jìn)的AI模型來檢測和清除與公開基準(zhǔn)測試重疊的題目,確保訓(xùn)練數(shù)據(jù)不會"泄露"測試答案。這種嚴(yán)格的數(shù)據(jù)清洗過程保證了實(shí)驗(yàn)結(jié)果的可信度。

在答案驗(yàn)證方面,研究團(tuán)隊(duì)采用了一個(gè)創(chuàng)新的策略。對于每道題目,他們會生成多個(gè)不同的解答,然后使用AI判官來評估這些解答是否與參考答案一致。如果原始的參考答案與所有AI解答都不匹配,他們會用AI解答的多數(shù)投票結(jié)果來替換原始答案。這種做法基于一個(gè)合理的假設(shè):如果多個(gè)獨(dú)立的AI解答都得出了相同的結(jié)果,而這個(gè)結(jié)果與原始答案不同,那么很可能是原始答案有誤。通過人工抽查驗(yàn)證,他們發(fā)現(xiàn)這種替換確實(shí)提高了答案的準(zhǔn)確性。

三、創(chuàng)新的分桶訓(xùn)練策略:讓超長文本訓(xùn)練變得高效可行

訓(xùn)練AI處理超長數(shù)學(xué)推理文本面臨著巨大的計(jì)算挑戰(zhàn)。Nemotron-Math中的推理軌跡長度變化極大,從幾千字符到128000字符不等,這就像要求一個(gè)學(xué)生同時(shí)適應(yīng)短篇閱讀和長篇學(xué)術(shù)論文。如果始終按照最長文本的標(biāo)準(zhǔn)來配置計(jì)算資源,就會造成嚴(yán)重的浪費(fèi),因?yàn)榇蟛糠钟?xùn)練時(shí)間都在處理相對較短的文本。

研究團(tuán)隊(duì)提出的分桶訓(xùn)練策略就像是為不同長度的文本準(zhǔn)備了不同規(guī)格的教室。他們將訓(xùn)練數(shù)據(jù)按照文本長度分為四個(gè)"桶":16K以下、16K-32K、32K-64K和64K以上。訓(xùn)練過程從最短的文本開始,逐步增加到最長的文本,每個(gè)階段都使用最適合當(dāng)前文本長度的并行計(jì)算配置。

這種策略的巧妙之處在于充分利用了訓(xùn)練數(shù)據(jù)的分布特點(diǎn)。統(tǒng)計(jì)顯示,大部分推理軌跡都集中在較短的長度范圍內(nèi),只有很少比例的文本達(dá)到了超長長度。因此,訓(xùn)練的大部分時(shí)間都可以在高效的短文本配置下完成,只有最后階段才需要使用昂貴的長文本配置。這就像在建造一座大廈時(shí),大部分工作都在地面進(jìn)行,只有最后才需要高空作業(yè)的特殊設(shè)備。

具體來說,當(dāng)處理16K長度的文本時(shí),系統(tǒng)可以使用優(yōu)化的并行配置,每個(gè)訓(xùn)練步驟只需要18秒。如果強(qiáng)行使用適配128K長度文本的配置來處理這些短文本,每個(gè)步驟的時(shí)間會增加到25秒。雖然單看起來差異不大,但考慮到訓(xùn)練過程中有數(shù)百萬個(gè)這樣的步驟,累積的時(shí)間節(jié)省就非常可觀了。研究團(tuán)隊(duì)通過詳細(xì)的計(jì)時(shí)分析發(fā)現(xiàn),這種分桶策略能夠?qū)崿F(xiàn)2-3倍的訓(xùn)練速度提升。

然而,這種策略也帶來了一些需要注意的問題。當(dāng)訓(xùn)練進(jìn)入最長文本階段時(shí),由于中等和低推理模式的文本很少達(dá)到128K長度,訓(xùn)練數(shù)據(jù)主要由高推理模式的文本組成。如果不加注意,AI可能會過度偏向于生成冗長詳細(xì)的推理過程,失去根據(jù)需要調(diào)整推理深度的能力。為了解決這個(gè)問題,研究團(tuán)隊(duì)在最后階段特意加入了一定比例的中等和低推理模式數(shù)據(jù),確保AI能夠保持多樣化的推理風(fēng)格。

四、實(shí)驗(yàn)驗(yàn)證:全方位超越現(xiàn)有最佳數(shù)據(jù)集

為了驗(yàn)證Nemotron-Math數(shù)據(jù)集的效果,研究團(tuán)隊(duì)進(jìn)行了全面的對比實(shí)驗(yàn)。他們選擇了當(dāng)前最受認(rèn)可的OpenMathReasoning數(shù)據(jù)集作為基準(zhǔn),這個(gè)數(shù)據(jù)集此前被認(rèn)為是數(shù)學(xué)推理訓(xùn)練的金標(biāo)準(zhǔn)。為了確保比較的公平性,研究團(tuán)隊(duì)精心設(shè)計(jì)了對照實(shí)驗(yàn),使用相同的50000道AoPS題目,確保兩個(gè)數(shù)據(jù)集在問題難度和分布上完全一致。

實(shí)驗(yàn)結(jié)果令人印象深刻。在使用Qwen3-30B-A3B模型進(jìn)行高推理模式訓(xùn)練后,Nemotron-Math數(shù)據(jù)集在所有測試基準(zhǔn)上都顯著超越了OpenMathReasoning。在AIME25競賽中,準(zhǔn)確率從OpenMathReasoning的59.38%提升到了77.08%,在HMMT-24-25競賽中從49.30%提升到了63.17%。這種提升不是微小的改進(jìn),而是實(shí)質(zhì)性的飛躍,相當(dāng)于將一個(gè)數(shù)學(xué)競賽選手從地區(qū)水平提升到了國家級水平。

更有意思的是混合數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果。研究團(tuán)隊(duì)創(chuàng)建了一個(gè)包含50%Nemotron-Math和50%OpenMathReasoning的混合數(shù)據(jù)集,結(jié)果表明這種混合比純粹使用OpenMathReasoning效果更好,但仍然不如純粹使用Nemotron-Math。這個(gè)發(fā)現(xiàn)說明Nemotron-Math的推理模式確實(shí)比傳統(tǒng)方法更加有效,甚至少量的傳統(tǒng)數(shù)據(jù)都可能稀釋其效果。

研究團(tuán)隊(duì)還專門測試了StackExchange數(shù)學(xué)數(shù)據(jù)的貢獻(xiàn)。他們構(gòu)建了兩個(gè)版本的數(shù)據(jù)集:僅包含AoPS題目的版本和包含50% StackExchange題目的版本。結(jié)果顯示,在傳統(tǒng)的數(shù)學(xué)競賽基準(zhǔn)上,兩個(gè)版本的表現(xiàn)相當(dāng),說明增加StackExchange數(shù)據(jù)不會損害競賽表現(xiàn)。但在HLE-Math這個(gè)更接近實(shí)際應(yīng)用的基準(zhǔn)上,包含StackExchange數(shù)據(jù)的版本表現(xiàn)明顯更好,證明了數(shù)據(jù)多樣性對于提升AI泛化能力的重要作用。

五、模型規(guī)模實(shí)驗(yàn):小模型同樣受益顯著

一個(gè)特別有價(jià)值的發(fā)現(xiàn)是Nemotron-Math數(shù)據(jù)集對不同規(guī)模模型的普遍有效性。研究團(tuán)隊(duì)同時(shí)測試了Qwen3-8B(80億參數(shù))和Qwen3-30B-A3B(300億參數(shù))兩個(gè)模型,發(fā)現(xiàn)它們在使用Nemotron-Math訓(xùn)練后都達(dá)到了相似的最終性能水平。

這個(gè)結(jié)果打破了"只有大模型才能處理復(fù)雜推理"的常見認(rèn)知。通過觀察訓(xùn)練過程曲線,研究團(tuán)隊(duì)發(fā)現(xiàn)兩個(gè)不同規(guī)模的模型展現(xiàn)出了幾乎相同的學(xué)習(xí)動(dòng)態(tài):它們以相似的速度改進(jìn),在相似的訓(xùn)練節(jié)點(diǎn)達(dá)到收斂,最終的準(zhǔn)確率也非常接近。這說明高質(zhì)量的推理數(shù)據(jù)能夠讓較小的模型也發(fā)揮出接近大模型的推理能力。

在最具挑戰(zhàn)性的高推理模式配合Python工具使用的設(shè)置下,無論是80億參數(shù)的Qwen3-8B還是300億參數(shù)的Qwen3-30B-A3B,都在AIME24和AIME25競賽中達(dá)到了100%的maj@16準(zhǔn)確率。這意味著當(dāng)AI被要求對每道題目生成16個(gè)不同的解答時(shí),在這16個(gè)解答中總是能找到正確答案。這種一致的優(yōu)異表現(xiàn)表明,Nemotron-Math數(shù)據(jù)集的訓(xùn)練效果不依賴于特定的模型架構(gòu)或參數(shù)規(guī)模,而是普遍適用的。

這個(gè)發(fā)現(xiàn)對于AI應(yīng)用具有重要的實(shí)踐意義。它表明組織和個(gè)人不需要投資昂貴的超大模型,通過合適的數(shù)據(jù)和訓(xùn)練方法,相對較小的模型也能達(dá)到世界級的數(shù)學(xué)推理水平。這大大降低了高級AI數(shù)學(xué)能力的應(yīng)用門檻,讓更多的研究機(jī)構(gòu)和教育組織能夠受益于這項(xiàng)技術(shù)。

六、工具集成推理的突破:讓AI像人類數(shù)學(xué)家一樣工作

Nemotron-Math數(shù)據(jù)集的一個(gè)重要?jiǎng)?chuàng)新是大規(guī)模集成了Python工具使用。這不僅僅是簡單的計(jì)算輔助,而是模擬了現(xiàn)代數(shù)學(xué)研究的真實(shí)工作流程。就像專業(yè)的數(shù)學(xué)家會使用計(jì)算軟件來驗(yàn)證推導(dǎo)、繪制圖形、進(jìn)行數(shù)值實(shí)驗(yàn)一樣,訓(xùn)練后的AI模型學(xué)會了在推理過程中主動(dòng)調(diào)用編程工具。

在工具集成推理模式下,AI不再是被動(dòng)地進(jìn)行符號推導(dǎo),而是會主動(dòng)編寫Python代碼來驗(yàn)證每一步計(jì)算。比如在解決幾何問題時(shí),AI可能會編寫代碼來繪制圖形,直觀地理解問題的空間關(guān)系。在處理概率統(tǒng)計(jì)問題時(shí),AI會進(jìn)行蒙特卡洛模擬來驗(yàn)證理論推導(dǎo)的正確性。在代數(shù)問題中,AI會使用符號計(jì)算庫來處理復(fù)雜的表達(dá)式變換。

這種工具集成帶來了顯著的性能提升。在所有測試基準(zhǔn)中,使用Python工具的版本都大幅超越了純文字推理的版本。在AIME25競賽中,Qwen3-30B-A3B模型在高推理模式下,純文字版本的準(zhǔn)確率為84.79%,而工具集成版本達(dá)到了96%。這種提升不僅體現(xiàn)在準(zhǔn)確率上,更重要的是體現(xiàn)在推理過程的可靠性和可驗(yàn)證性上。

研究團(tuán)隊(duì)發(fā)現(xiàn),工具集成推理生成的軌跡通常比純文字推理更長,這是因?yàn)锳I會進(jìn)行更多的中間驗(yàn)證和探索性計(jì)算。這種"verbose but verified"的特點(diǎn)讓AI的推理過程更加透明和可信。教育工作者可以觀察AI的完整推理過程,了解每一步的邏輯依據(jù)和計(jì)算驗(yàn)證,這為AI輔助數(shù)學(xué)教學(xué)提供了新的可能性。

七、長文本推理能力的突破:處理128K字符的完整推理鏈

傳統(tǒng)的AI模型在處理超長文本時(shí)往往會遇到性能瓶頸,但Nemotron-Math訓(xùn)練出的模型能夠穩(wěn)定處理長達(dá)128000字符的推理軌跡。這相當(dāng)于一篇詳細(xì)的學(xué)術(shù)論文的長度,包含了完整的問題分析、方法探索、計(jì)算過程、結(jié)果驗(yàn)證和總結(jié)反思。

這種超長推理能力開辟了全新的應(yīng)用場景。AI不再局限于給出簡潔的答案,而是能夠像人類專家一樣進(jìn)行深入的數(shù)學(xué)探索。在處理復(fù)雜的奧林匹克數(shù)學(xué)題時(shí),AI可能會嘗試多種不同的解題策略,詳細(xì)分析每種方法的優(yōu)缺點(diǎn),甚至在某個(gè)方向遇到困難時(shí)回頭嘗試其他路徑。這種完整的探索過程為學(xué)習(xí)者提供了寶貴的思維模型。

研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)驗(yàn)證了長文本推理的有效性。他們發(fā)現(xiàn),當(dāng)允許AI生成更長的推理軌跡時(shí),解題的成功率會顯著提高。這不是因?yàn)槿唛L本身有價(jià)值,而是因?yàn)楦浞值耐评磉^程能夠減少邏輯錯(cuò)誤和計(jì)算失誤。就像人類數(shù)學(xué)家在處理復(fù)雜問題時(shí)會進(jìn)行詳細(xì)的草稿推演一樣,AI通過長文本推理獲得了更可靠的問題解決能力。

長文本推理還帶來了另一個(gè)重要優(yōu)勢:自我糾錯(cuò)能力。在推理過程中,AI經(jīng)常會發(fā)現(xiàn)之前步驟的錯(cuò)誤并主動(dòng)進(jìn)行修正。這種自我監(jiān)控和糾錯(cuò)的能力是高水平數(shù)學(xué)推理的重要特征,也是Nemotron-Math訓(xùn)練的一個(gè)重要成果。

八、對比實(shí)驗(yàn)揭示的深層規(guī)律:推理模式的層次化效應(yīng)

通過對高、中、低三種推理模式的系統(tǒng)比較,研究團(tuán)隊(duì)發(fā)現(xiàn)了一些有趣的規(guī)律。高推理模式確實(shí)在所有基準(zhǔn)測試中都表現(xiàn)最佳,但中等推理模式在某些情況下顯示出了更好的效率-效果平衡。低推理模式雖然準(zhǔn)確率相對較低,但生成速度快,適合需要快速響應(yīng)的應(yīng)用場景。

這種層次化的推理能力讓AI系統(tǒng)具備了類似人類的適應(yīng)性。就像人在面對不同難度的數(shù)學(xué)問題時(shí)會自動(dòng)調(diào)整思考深度一樣,經(jīng)過Nemotron-Math訓(xùn)練的AI也能夠根據(jù)需要選擇合適的推理模式。簡單問題可以使用快速的低推理模式,復(fù)雜問題則可以調(diào)用深度的高推理模式。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了推理模式與問題類型之間的有趣關(guān)聯(lián)。幾何問題往往從工具集成推理中獲益更多,因?yàn)閳D形繪制和可視化分析對于幾何推理非常重要。代數(shù)問題則在不同推理模式下的表現(xiàn)差異相對較小,說明代數(shù)推理更多依賴于符號操作的邏輯性。組合數(shù)學(xué)問題最能體現(xiàn)高推理模式的優(yōu)勢,因?yàn)檫@類問題往往需要多步驟的案例分析和復(fù)雜的計(jì)數(shù)論證。

九、訓(xùn)練效率的工程突破:讓超算資源物盡其用

Nemotron-Math項(xiàng)目不僅在AI能力上實(shí)現(xiàn)了突破,在訓(xùn)練工程方面也做出了重要貢獻(xiàn)。傳統(tǒng)的長文本AI訓(xùn)練面臨著嚴(yán)重的資源浪費(fèi)問題:為了處理最長的文本,整個(gè)訓(xùn)練過程都必須使用最大規(guī)模的并行配置,即使在處理短文本時(shí)也是如此。這就像為了偶爾運(yùn)輸大件貨物而始終使用最大型的卡車,造成了巨大的成本浪費(fèi)。

分桶訓(xùn)練策略徹底改變了這種狀況。通過將訓(xùn)練數(shù)據(jù)按照長度進(jìn)行分組,并為每個(gè)長度范圍設(shè)計(jì)最優(yōu)的并行配置,研究團(tuán)隊(duì)實(shí)現(xiàn)了2-3倍的訓(xùn)練速度提升。這種提升不是通過更快的硬件或更多的計(jì)算資源實(shí)現(xiàn)的,而是通過更聰明的資源利用策略。

具體的優(yōu)化效果令人印象深刻。在處理16K長度的文本時(shí),優(yōu)化配置下的訓(xùn)練步驟耗時(shí)18秒,而固定使用128K配置則需要25秒?紤]到16K長度的數(shù)據(jù)占總訓(xùn)練數(shù)據(jù)的很大比例,這種單步優(yōu)化的累積效應(yīng)非常顯著。在整個(gè)訓(xùn)練過程中,這種策略節(jié)省了數(shù)百小時(shí)的計(jì)算時(shí)間,相當(dāng)于節(jié)省了數(shù)萬美元的云計(jì)算費(fèi)用。

這種工程創(chuàng)新的意義不僅在于成本節(jié)約,更在于使超長文本AI訓(xùn)練變得更加可行。許多研究機(jī)構(gòu)和公司之前可能因?yàn)橛?jì)算成本過高而無法嘗試長文本AI研究,現(xiàn)在通過這種優(yōu)化策略,他們也能夠進(jìn)行相關(guān)的探索。這降低了高級AI研究的門檻,有助于整個(gè)領(lǐng)域的加速發(fā)展。

十、基準(zhǔn)測試的全面勝利:從競賽到實(shí)際應(yīng)用的跨越

Nemotron-Math的優(yōu)異表現(xiàn)不僅體現(xiàn)在傳統(tǒng)的數(shù)學(xué)競賽基準(zhǔn)上,更重要的是在多樣化的評估場景中都取得了顯著進(jìn)步。研究團(tuán)隊(duì)精心選擇了兩類互補(bǔ)的基準(zhǔn)測試:Comp-Math-24-25代表嚴(yán)格的競賽數(shù)學(xué),HLE-Math代表開放域的實(shí)際數(shù)學(xué)應(yīng)用。這種雙重評估確保了AI能力的全面性和實(shí)用性。

在競賽類基準(zhǔn)測試中,訓(xùn)練后的模型在AIME24、AIME25和HMMT-24-25三個(gè)頂級數(shù)學(xué)競賽中都達(dá)到了驚人的成績。特別是在最高難度的配置下(高推理模式+Python工具),兩個(gè)不同規(guī)模的模型都在AIME24和AIME25中達(dá)到了100% maj@16準(zhǔn)確率。這意味著AI在這些被認(rèn)為極其困難的數(shù)學(xué)競賽中達(dá)到了完美表現(xiàn),超越了絕大多數(shù)人類數(shù)學(xué)天才的水平。

在實(shí)際應(yīng)用導(dǎo)向的HLE-Math基準(zhǔn)上,結(jié)果同樣令人鼓舞。雖然絕對準(zhǔn)確率相對較低(這是因?yàn)镠LE-Math涵蓋了極其廣泛的數(shù)學(xué)領(lǐng)域和應(yīng)用場景),但包含StackExchange數(shù)據(jù)的模型版本顯著超越了僅用競賽數(shù)據(jù)訓(xùn)練的版本。這個(gè)結(jié)果驗(yàn)證了數(shù)據(jù)多樣性對于AI泛化能力的重要作用:真實(shí)世界的數(shù)學(xué)問題往往比標(biāo)準(zhǔn)競賽題目更加多樣和不規(guī)范,需要AI具備更強(qiáng)的適應(yīng)性。

特別值得注意的是maj@k指標(biāo)的優(yōu)異表現(xiàn)。這個(gè)指標(biāo)測量的是AI在生成多個(gè)候選答案時(shí)命中正確答案的能力,更接近實(shí)際應(yīng)用中的使用方式。在實(shí)踐中,用戶可以要求AI為每個(gè)問題生成幾個(gè)不同的解答,然后選擇最合理的一個(gè)。Nemotron-Math訓(xùn)練的模型在這種設(shè)置下表現(xiàn)卓越,為實(shí)際部署提供了可靠的保障。

說到底,Nemotron-Math項(xiàng)目的成功不僅僅是技術(shù)指標(biāo)的突破,更是對AI數(shù)學(xué)推理能力認(rèn)知的重新定義。這項(xiàng)研究證明了通過精心設(shè)計(jì)的數(shù)據(jù)和訓(xùn)練方法,AI可以達(dá)到甚至超越頂尖人類數(shù)學(xué)家的推理水平。更重要的是,這種能力是可復(fù)現(xiàn)和可擴(kuò)展的,為AI在教育、科研和工程應(yīng)用中發(fā)揮更大作用奠定了基礎(chǔ)。

研究團(tuán)隊(duì)承諾將公開所有的數(shù)據(jù)、代碼和訓(xùn)練好的模型,這種開放態(tài)度將加速整個(gè)AI數(shù)學(xué)推理領(lǐng)域的發(fā)展。其他研究者可以基于這些資源進(jìn)行進(jìn)一步的改進(jìn)和應(yīng)用探索,形成良性的技術(shù)生態(tài)。對于教育工作者來說,這意味著他們很快就能獲得世界級的AI數(shù)學(xué)助手,為學(xué)生提供個(gè)性化的數(shù)學(xué)輔導(dǎo)和練習(xí)反饋。對于科研工作者來說,這樣的AI系統(tǒng)可以成為強(qiáng)大的數(shù)學(xué)工具,協(xié)助處理復(fù)雜的理論推導(dǎo)和數(shù)值計(jì)算。

歸根結(jié)底,Nemotron-Math代表了AI從"會算題"向"會思考"的重要跨越。它不僅讓AI掌握了數(shù)學(xué)知識,更重要的是讓AI學(xué)會了數(shù)學(xué)思維的方法。這種突破的影響將遠(yuǎn)遠(yuǎn)超出數(shù)學(xué)領(lǐng)域本身,為AI在其他需要復(fù)雜推理的領(lǐng)域(如科學(xué)研究、工程設(shè)計(jì)、策略分析等)的應(yīng)用開辟了新的可能性。隨著這項(xiàng)技術(shù)的不斷完善和普及,我們有理由期待AI將成為人類智力活動(dòng)的強(qiáng)大伙伴,共同推動(dòng)知識的邊界向更深更廣的方向拓展。

Q&A

Q1:Nemotron-Math數(shù)據(jù)集包含多少條數(shù)學(xué)推理軌跡?

A:Nemotron-Math數(shù)據(jù)集包含7500萬條高質(zhì)量的數(shù)學(xué)推理軌跡,這些軌跡由gpt-oss-120b模型在高、中、低三種推理模式下生成,每種模式都分為使用和不使用Python工具兩個(gè)版本,覆蓋了347000道精心篩選的數(shù)學(xué)題目。

Q2:這種分桶訓(xùn)練策略能帶來多大的效率提升?

A:NVIDIA團(tuán)隊(duì)的分桶訓(xùn)練策略能夠?qū)崿F(xiàn)2-3倍的訓(xùn)練速度提升。通過將數(shù)據(jù)按長度分組并為每組配置最優(yōu)的并行設(shè)置,大部分訓(xùn)練可以在高效的短文本配置下完成,只有最后階段才需要昂貴的長文本配置,大大節(jié)省了計(jì)算資源。

Q3:訓(xùn)練后的AI模型在數(shù)學(xué)競賽中表現(xiàn)如何?

A:使用Nemotron-Math訓(xùn)練的Qwen3-8B和Qwen3-30B-A3B模型在高推理模式配合Python工具的設(shè)置下,都在AIME24和AIME25數(shù)學(xué)競賽中達(dá)到了100% maj@16準(zhǔn)確率,這意味著AI每次生成16個(gè)解答時(shí)總能找到正確答案,達(dá)到了完美的競賽水平。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
1956年毛主席罕見發(fā)問:東來順羊肉咋回事?陳云一查,根子不在師傅,問題出在“新規(guī)矩”

1956年毛主席罕見發(fā)問:東來順羊肉咋回事?陳云一查,根子不在師傅,問題出在“新規(guī)矩”

歷史回憶室
2025-12-23 10:19:17
志愿軍首戰(zhàn)殲滅美軍一萬五,主席卻提筆改成六千,麥克阿瑟看完戰(zhàn)報(bào)笑得合不攏嘴,結(jié)果幾十萬大軍一頭扎進(jìn)死胡同,這招示弱太絕了

志愿軍首戰(zhàn)殲滅美軍一萬五,主席卻提筆改成六千,麥克阿瑟看完戰(zhàn)報(bào)笑得合不攏嘴,結(jié)果幾十萬大軍一頭扎進(jìn)死胡同,這招示弱太絕了

歷史回憶室
2025-12-26 11:42:28
為啥"唐氏兒"都長著同一張臉?醫(yī)生一般不說,父母最好要知道

為啥"唐氏兒"都長著同一張臉?醫(yī)生一般不說,父母最好要知道

大果小果媽媽
2025-12-28 11:33:24
孟村殺妻案結(jié)果公布,判決前金昊母子照片曝光,兩人狀態(tài)截然不同

孟村殺妻案結(jié)果公布,判決前金昊母子照片曝光,兩人狀態(tài)截然不同

歷史偉人錄
2025-12-27 21:34:16
袁天罡農(nóng)家躲雨,主人只掃屋心,他面色驟變:三代之內(nèi)必出大人物

袁天罡農(nóng)家躲雨,主人只掃屋心,他面色驟變:三代之內(nèi)必出大人物

小豫講故事
2025-12-28 06:00:08
李瑞環(huán)說:葉選平是葉帥的兒子,但水平比我高,為什么不能當(dāng)省長

李瑞環(huán)說:葉選平是葉帥的兒子,但水平比我高,為什么不能當(dāng)省長

章荳解說體育
2025-12-11 21:56:41
柬埔寨國王,72歲了,沒錢沒權(quán),沒結(jié)婚沒孩子,和老母親相依為命

柬埔寨國王,72歲了,沒錢沒權(quán),沒結(jié)婚沒孩子,和老母親相依為命

趣文說娛
2025-12-23 17:34:34
童瑤胸貼露出來了

童瑤胸貼露出來了

手工制作阿殲
2025-12-15 12:20:21
中山一商場展車撞入手機(jī)店,車企工作人員:小孩誤觸所致,無人受傷

中山一商場展車撞入手機(jī)店,車企工作人員:小孩誤觸所致,無人受傷

極目新聞
2025-12-28 13:48:03
錢再多也沒用!向太曝馬伊琍已再婚,原來當(dāng)年文章過不了心里那關(guān)

錢再多也沒用!向太曝馬伊琍已再婚,原來當(dāng)年文章過不了心里那關(guān)

一娛三分地
2025-12-15 13:26:07
一個(gè)男人如果不正經(jīng),通過這2個(gè)模樣,一看便知!

一個(gè)男人如果不正經(jīng),通過這2個(gè)模樣,一看便知!

加油丁小文
2025-12-01 08:00:12
殲-15幾乎全部退役,淪為全球最短命艦載機(jī)!它究竟有哪些短板?

殲-15幾乎全部退役,淪為全球最短命艦載機(jī)!它究竟有哪些短板?

小莜讀史
2025-12-27 14:55:11
201米!40億!騰訊西南總部,世界“第一扭”摩天樓

201米!40億!騰訊西南總部,世界“第一扭”摩天樓

GA環(huán)球建筑
2025-12-25 23:00:32
原來他早已去世,15歲演戲44歲走紅,47歲患癌離世,哥哥是熟面孔

原來他早已去世,15歲演戲44歲走紅,47歲患癌離世,哥哥是熟面孔

故事講電影
2025-12-28 20:01:41
“后悔來清華參觀,自取其辱”,母親帶娃游清華,被食堂氣到失控

“后悔來清華參觀,自取其辱”,母親帶娃游清華,被食堂氣到失控

詩意世界
2025-11-30 11:04:47
馬卡:弗洛倫蒂諾使巴薩財(cái)務(wù)難題徹底解決,應(yīng)拿巴薩金質(zhì)勛章

馬卡:弗洛倫蒂諾使巴薩財(cái)務(wù)難題徹底解決,應(yīng)拿巴薩金質(zhì)勛章

懂球帝
2025-12-28 20:59:23
溥儀9歲仍在吃奶,給他當(dāng)乳娘有2規(guī)矩:一是喂奶,另一個(gè)毫無人性

溥儀9歲仍在吃奶,給他當(dāng)乳娘有2規(guī)矩:一是喂奶,另一個(gè)毫無人性

小豫講故事
2025-12-27 06:00:06
中國股市:炒股成功的人到底有多可怕?從窮人到富人的全過程!

中國股市:炒股成功的人到底有多可怕?從窮人到富人的全過程!

股經(jīng)縱橫談
2025-12-28 18:53:25
天氣預(yù)報(bào)丨新一輪降溫即將到來 重慶高海拔地區(qū)有雪

天氣預(yù)報(bào)丨新一輪降溫即將到來 重慶高海拔地區(qū)有雪

上游新聞
2025-12-28 17:24:02
廣東vs山西,對抗強(qiáng)度拉滿,胡明軒奎因表現(xiàn)糟糕,杜鋒投訴迪亞洛

廣東vs山西,對抗強(qiáng)度拉滿,胡明軒奎因表現(xiàn)糟糕,杜鋒投訴迪亞洛

鄒維體育
2025-12-28 20:06:15
2025-12-28 21:20:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
6680文章數(shù) 544關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財(cái)經(jīng)要聞

英偉達(dá)的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

親子
家居
教育
公開課
軍事航空

親子要聞

原來真的有學(xué)霸父母“學(xué)渣”娃的情況!網(wǎng)友:看完瞬間心理平衡!

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

教育要聞

雅思3個(gè)月提2分,因?yàn)槲覀冏鰧α诉@幾件事!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

與特朗普會晤前 澤連斯基亮明“紅線”

無障礙瀏覽 進(jìn)入關(guān)懷版