網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

哈佛與斯坦福聯(lián)合開(kāi)發(fā)：AI算力投入與性能表現(xiàn)預(yù)測(cè)模型

2026-02-26 19:39:36　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)來(lái)自哈佛大學(xué)和斯坦福大學(xué)的聯(lián)合研究發(fā)表于2026年2月，研究團(tuán)隊(duì)開(kāi)發(fā)出了一種全新的"預(yù)測(cè)性規(guī)模定律"方法，能夠像天氣預(yù)報(bào)一樣準(zhǔn)確預(yù)測(cè)AI模型性能。這項(xiàng)研究發(fā)表在arXiv預(yù)印本平臺(tái)，編號(hào)為arXiv:2602.15327v1，為AI開(kāi)發(fā)者和企業(yè)提供了一個(gè)前所未有的"性能計(jì)算器"。

當(dāng)下，開(kāi)發(fā)一個(gè)強(qiáng)大的AI模型就像建造一座摩天大樓，需要投入大量資源，但建造完成前誰(shuí)也不知道最終效果如何。過(guò)去，AI研究者們就像盲人摸象一樣，只能根據(jù)經(jīng)驗(yàn)和直覺(jué)來(lái)估算需要多少算力才能達(dá)到期望的性能水平。這種不確定性讓許多公司在投資AI項(xiàng)目時(shí)心里沒(méi)底，就像在黑夜中開(kāi)車，看不清前方的路況。

哈佛大學(xué)和斯坦福大學(xué)的研究團(tuán)隊(duì)意識(shí)到這個(gè)問(wèn)題的嚴(yán)重性，決定開(kāi)發(fā)一套科學(xué)的預(yù)測(cè)系統(tǒng)。他們收集了超過(guò)7000個(gè)AI模型的性能數(shù)據(jù)，其中包括5000個(gè)來(lái)自公開(kāi)數(shù)據(jù)庫(kù)的模型和2000個(gè)他們自己新測(cè)試的模型，建立了一個(gè)龐大的"AI性能數(shù)據(jù)庫(kù)"。

研究團(tuán)隊(duì)的核心發(fā)現(xiàn)可以用一個(gè)簡(jiǎn)單的比喻來(lái)理解：就像烤蛋糕一樣，投入的面粉、雞蛋等原料數(shù)量（算力）和最終蛋糕的口感（AI性能）之間存在著可預(yù)測(cè)的關(guān)系。他們發(fā)現(xiàn)，AI模型經(jīng)過(guò)后期調(diào)優(yōu)后的最佳性能表現(xiàn)，與訓(xùn)練時(shí)投入的算力之間呈現(xiàn)出一種S形曲線關(guān)系，就像植物的生長(zhǎng)曲線一樣，開(kāi)始緩慢增長(zhǎng)，然后快速提升，最后趨于平緩。

一、預(yù)測(cè)性規(guī)模定律：AI性能的"天氣預(yù)報(bào)"系統(tǒng)

傳統(tǒng)的AI規(guī)模定律就像只能告訴你"多吃飯能長(zhǎng)高"這樣的粗略信息，而這項(xiàng)研究開(kāi)發(fā)的預(yù)測(cè)性規(guī)模定律則像精準(zhǔn)的營(yíng)養(yǎng)師，能告訴你"吃多少特定食物能長(zhǎng)到多高"。研究團(tuán)隊(duì)將這個(gè)問(wèn)題重新定義：給定一定的訓(xùn)練算力預(yù)算，經(jīng)過(guò)現(xiàn)代后訓(xùn)練技術(shù)優(yōu)化后，模型在特定任務(wù)上能達(dá)到的最高性能是多少。

這個(gè)預(yù)測(cè)系統(tǒng)的工作原理就像制作一張?jiān)敿?xì)的地形圖。研究團(tuán)隊(duì)不是簡(jiǎn)單地看模型的平均表現(xiàn)，而是專門研究那些"山峰"——在相同算力條件下表現(xiàn)最好的模型。他們使用了一種叫做"分位數(shù)回歸"的統(tǒng)計(jì)方法，這就像在茫茫數(shù)據(jù)海洋中尋找那些表現(xiàn)最優(yōu)秀的"明星學(xué)生"，然后分析這些明星學(xué)生的共同特征。

具體來(lái)說(shuō)，他們關(guān)注的是第98百分位數(shù)的模型性能，也就是在100個(gè)同等算力的模型中表現(xiàn)最好的前2個(gè)。這樣做的好處是能夠?yàn)V除那些因?yàn)橛?xùn)練不當(dāng)或運(yùn)氣不好而表現(xiàn)糟糕的模型，專注于研究在特定算力條件下真正能夠達(dá)到的最佳性能水平。

研究團(tuán)隊(duì)開(kāi)發(fā)的數(shù)學(xué)模型采用了S形（sigmoid）函數(shù)來(lái)描述算力與性能之間的關(guān)系。這個(gè)函數(shù)的形狀就像一個(gè)傾斜的S，完美地捕捉了AI模型性能增長(zhǎng)的三個(gè)階段：起步期（性能提升緩慢）、爆發(fā)期（性能快速提升）和成熟期（性能增長(zhǎng)趨于平緩）。這種S形關(guān)系在自然界和技術(shù)發(fā)展中都很常見(jiàn)，就像新技術(shù)的普及曲線或者人口增長(zhǎng)曲線一樣。

為了驗(yàn)證這個(gè)預(yù)測(cè)系統(tǒng)的準(zhǔn)確性，研究團(tuán)隊(duì)進(jìn)行了一個(gè)巧妙的時(shí)間旅行實(shí)驗(yàn)。他們用早期的模型數(shù)據(jù)來(lái)訓(xùn)練預(yù)測(cè)系統(tǒng)，然后用這個(gè)系統(tǒng)預(yù)測(cè)后來(lái)發(fā)布的模型性能，結(jié)果發(fā)現(xiàn)預(yù)測(cè)準(zhǔn)確率高得驚人。這就像用2020年的數(shù)據(jù)訓(xùn)練一個(gè)股票預(yù)測(cè)模型，然后成功預(yù)測(cè)了2021年的股票走勢(shì)一樣令人印象深刻。

二、不同任務(wù)的"成長(zhǎng)曲線"大不相同

通過(guò)分析大量數(shù)據(jù)，研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：不同類型的AI任務(wù)就像不同品種的植物，它們的"成長(zhǎng)曲線"截然不同。有些任務(wù)就像快速生長(zhǎng)的向日葵，在算力增加時(shí)性能提升很快；有些任務(wù)則像緩慢生長(zhǎng)的橡樹(shù)，需要大量算力投入才能看到明顯改善。

在知識(shí)密集型任務(wù)上，比如回答百科全書(shū)式的問(wèn)題，大模型就像博學(xué)的教授，確實(shí)比小模型表現(xiàn)更好。研究團(tuán)隊(duì)測(cè)試的MMLU-Pro基準(zhǔn)測(cè)試結(jié)果顯示，算力增加帶來(lái)的性能提升非常穩(wěn)定和可預(yù)測(cè)。這類任務(wù)就像在比拼誰(shuí)的圖書(shū)館藏書(shū)更多，模型規(guī)模越大，存儲(chǔ)的知識(shí)越多，回答問(wèn)題的能力自然越強(qiáng)。

然而，在數(shù)學(xué)推理任務(wù)上，情況就完全不同了。研究團(tuán)隊(duì)發(fā)現(xiàn)，數(shù)學(xué)推理能力的"天花板"一直在不斷提升。過(guò)去幾年里，隨著新的訓(xùn)練技術(shù)和算法的出現(xiàn)，同樣算力條件下的數(shù)學(xué)推理性能一直在突破新高度。這就像體育比賽中的世界記錄一樣，隨著訓(xùn)練方法的改進(jìn)和新技術(shù)的應(yīng)用，人類的極限一直在被刷新。

更有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)"小模型逆襲"的現(xiàn)象。在某些推理密集型任務(wù)上，經(jīng)過(guò)精心調(diào)優(yōu)的小模型有時(shí)能夠達(dá)到甚至超越大模型的性能水平。這就像一個(gè)技藝精湛的小餐廳廚師，雖然廚房設(shè)備不如五星級(jí)酒店豪華，但憑借精湛的技藝和創(chuàng)新的菜譜，做出的菜品同樣令人贊嘆。

研究結(jié)果還揭示了一個(gè)重要趨勢(shì)：知識(shí)型能力和推理型能力的發(fā)展軌跡正在分化。知識(shí)型任務(wù)的性能提升主要依賴于模型規(guī)模的擴(kuò)大，就像建造更大的圖書(shū)館來(lái)存儲(chǔ)更多書(shū)籍。而推理型任務(wù)的性能提升更多依賴于算法和訓(xùn)練方法的創(chuàng)新，就像開(kāi)發(fā)更好的思維方法來(lái)解決復(fù)雜問(wèn)題。

這種分化現(xiàn)象對(duì)AI發(fā)展具有重要意義。它意味著未來(lái)的AI發(fā)展可能會(huì)出現(xiàn)專業(yè)化趨勢(shì)：一些模型專門優(yōu)化知識(shí)存儲(chǔ)和檢索能力，成為"AI圖書(shū)管理員"；另一些模型則專注于推理和分析能力，成為"AI偵探"。這種專業(yè)化分工可能會(huì)帶來(lái)更高效的AI應(yīng)用，就像現(xiàn)代社會(huì)的職業(yè)分工一樣。

三、時(shí)間的魔力：AI能力邊界如何演變

研究團(tuán)隊(duì)進(jìn)行了一個(gè)跨時(shí)間的追蹤研究，就像考古學(xué)家研究不同歷史時(shí)期的文物變化一樣，他們分析了不同時(shí)間段發(fā)布的AI模型性能變化。這個(gè)研究揭示了一個(gè)令人驚訝的發(fā)現(xiàn)：大多數(shù)AI任務(wù)的性能"天花板"在時(shí)間推移中保持相對(duì)穩(wěn)定，但數(shù)學(xué)推理是個(gè)例外。

在語(yǔ)言理解、常識(shí)推理、科學(xué)問(wèn)答等傳統(tǒng)任務(wù)上，研究團(tuán)隊(duì)發(fā)現(xiàn)性能邊界就像一條穩(wěn)定的地平線，雖然會(huì)有小幅波動(dòng)，但整體趨勢(shì)保持穩(wěn)定。這意味著這些任務(wù)的難度本質(zhì)沒(méi)有發(fā)生根本性變化，只是我們?cè)谥鸩浇咏@些任務(wù)的理論極限。就像百米賽跑的世界紀(jì)錄一樣，雖然還在緩慢提升，但提升幅度越來(lái)越小。

然而，數(shù)學(xué)推理任務(wù)展現(xiàn)出了完全不同的畫面。研究團(tuán)隊(duì)發(fā)現(xiàn)，數(shù)學(xué)推理的性能邊界就像不斷上升的熱氣球，每年都在突破新的高度。這種持續(xù)上升的趨勢(shì)表明，數(shù)學(xué)推理可能是AI領(lǐng)域中最具潛力的發(fā)展方向之一。每當(dāng)研究者們以為已經(jīng)接近數(shù)學(xué)推理的極限時(shí)，新的突破總是如期而至。

這種時(shí)間演變的差異性反映了AI技術(shù)發(fā)展的非均勻性。有些能力領(lǐng)域就像已經(jīng)開(kāi)發(fā)成熟的城市，發(fā)展空間有限；而有些能力領(lǐng)域則像正在開(kāi)發(fā)的新區(qū)，充滿無(wú)限可能。數(shù)學(xué)推理之所以能夠持續(xù)突破，可能因?yàn)樗蕾囉谒惴▌?chuàng)新而非簡(jiǎn)單的規(guī)模擴(kuò)大。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的模式：突破往往不是漸進(jìn)式的，而是跳躍式的。某個(gè)新的訓(xùn)練技術(shù)或模型架構(gòu)的出現(xiàn)，會(huì)突然將整個(gè)領(lǐng)域的性能水平推上一個(gè)新臺(tái)階。這就像科技發(fā)展中的范式轉(zhuǎn)換，從蒸汽機(jī)到內(nèi)燃機(jī)，從膠片相機(jī)到數(shù)碼相機(jī)，每一次技術(shù)革命都會(huì)帶來(lái)性能的大幅躍升。

這種時(shí)間演變分析對(duì)AI投資和研發(fā)策略具有重要指導(dǎo)意義。對(duì)于那些性能邊界相對(duì)穩(wěn)定的任務(wù)，投資者和研發(fā)團(tuán)隊(duì)可以相對(duì)準(zhǔn)確地預(yù)測(cè)投入產(chǎn)出比，制定合理的預(yù)期。而對(duì)于像數(shù)學(xué)推理這樣持續(xù)突破的領(lǐng)域，則需要保持更大的耐心和更長(zhǎng)遠(yuǎn)的投資視角。

四、高效評(píng)估：用20%的預(yù)算預(yù)測(cè)100%的結(jié)果

面對(duì)日益高昂的AI模型評(píng)估成本，研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)"聰明的抽樣策略"，就像民調(diào)機(jī)構(gòu)不需要詢問(wèn)全國(guó)每一個(gè)人就能準(zhǔn)確預(yù)測(cè)選舉結(jié)果一樣。這個(gè)策略能夠僅用20%的評(píng)估預(yù)算就準(zhǔn)確預(yù)測(cè)出使用全部預(yù)算才能得到的結(jié)果。

這個(gè)高效評(píng)估方法的核心思想借鑒了統(tǒng)計(jì)學(xué)中的最優(yōu)實(shí)驗(yàn)設(shè)計(jì)理論。就像一個(gè)經(jīng)驗(yàn)豐富的廚師品嘗湯的味道時(shí)，不需要喝完整鍋湯，只需要在合適的位置取幾勺樣品就能判斷整鍋湯的口味。研究團(tuán)隊(duì)的算法能夠智能地選擇最具代表性的模型進(jìn)行測(cè)試，從而以最小的成本獲得最大的信息量。

這個(gè)算法的工作原理可以用"均衡覆蓋策略"來(lái)理解。想象你要了解一座城市的整體情況，最聰明的方法不是隨機(jī)選擇街道，而是確保在城市的每個(gè)區(qū)域都選擇一些代表性的街道。算法會(huì)確保在不同的算力水平范圍內(nèi)都選擇足夠的代表性模型，這樣就能保證預(yù)測(cè)結(jié)果的準(zhǔn)確性和可靠性。

在實(shí)際測(cè)試中，這個(gè)高效評(píng)估方法在多個(gè)任務(wù)上都表現(xiàn)出色。在GPQA和MUSR等任務(wù)上，使用僅5%的評(píng)估預(yù)算就能得到與全量評(píng)估幾乎相同的結(jié)果。這種效率提升對(duì)于資源有限的研究團(tuán)隊(duì)或企業(yè)來(lái)說(shuō)具有巨大價(jià)值，就像找到了一條通往目標(biāo)的高速公路，能夠大大縮短到達(dá)時(shí)間。

更重要的是，這個(gè)方法不僅節(jié)省了計(jì)算資源，還保持了預(yù)測(cè)的準(zhǔn)確性。算法在選擇測(cè)試樣本時(shí)會(huì)考慮兩個(gè)關(guān)鍵因素：信息價(jià)值和成本效益。信息價(jià)值高的模型能夠提供更多關(guān)于性能邊界的線索，而成本效益則確保我們不會(huì)在低價(jià)值的測(cè)試上浪費(fèi)資源。

這種高效評(píng)估策略的成功實(shí)現(xiàn)，為AI領(lǐng)域帶來(lái)了一個(gè)重要的方法學(xué)貢獻(xiàn)。它證明了在資源約束條件下，通過(guò)智能的實(shí)驗(yàn)設(shè)計(jì)仍然可以獲得可靠的科學(xué)結(jié)論。這種思路可能會(huì)啟發(fā)更多類似的創(chuàng)新，幫助研究者們?cè)谟邢薜馁Y源條件下開(kāi)展更廣泛、更深入的研究。

五、實(shí)戰(zhàn)驗(yàn)證：新模型數(shù)據(jù)的"試金石"測(cè)試

為了驗(yàn)證他們開(kāi)發(fā)的預(yù)測(cè)系統(tǒng)的實(shí)用性，研究團(tuán)隊(duì)進(jìn)行了一個(gè)"真槍實(shí)彈"的測(cè)試。他們收集了2400個(gè)全新的開(kāi)源模型，這些模型都是在公開(kāi)排行榜停止更新后發(fā)布的，包括最新的Qwen3、Gemma-3、GPT-OSS等知名模型系列。這就像用最新的考試題目來(lái)測(cè)試一個(gè)預(yù)測(cè)學(xué)生成績(jī)的系統(tǒng)是否仍然準(zhǔn)確。

測(cè)試結(jié)果令人鼓舞。在大多數(shù)任務(wù)上，研究團(tuán)隊(duì)之前建立的性能邊界預(yù)測(cè)系統(tǒng)依然能夠準(zhǔn)確地預(yù)測(cè)這些新模型的表現(xiàn)上限。新發(fā)布的模型就像按照預(yù)期劇本表演的演員，它們的性能表現(xiàn)幾乎完全落在了預(yù)測(cè)邊界之內(nèi)。這種預(yù)測(cè)準(zhǔn)確性證明了該系統(tǒng)具有良好的泛化能力和實(shí)用價(jià)值。

然而，數(shù)學(xué)推理任務(wù)再次展現(xiàn)了它的特殊性。在MATH Lvl 5測(cè)試中，一些新發(fā)布的模型突破了之前預(yù)測(cè)的性能邊界，達(dá)到了更高的分?jǐn)?shù)。這種突破并不是系統(tǒng)失效的標(biāo)志，而恰恰驗(yàn)證了之前關(guān)于數(shù)學(xué)推理能力持續(xù)進(jìn)步的發(fā)現(xiàn)。就像體育競(jìng)技中總有運(yùn)動(dòng)員不斷刷新世界記錄一樣，數(shù)學(xué)推理領(lǐng)域的AI模型也在不斷超越前人。

研究團(tuán)隊(duì)特別關(guān)注了那些基于全新基礎(chǔ)模型開(kāi)發(fā)的AI系統(tǒng)。這些模型就像全新品種的植物，之前沒(méi)有相關(guān)的生長(zhǎng)數(shù)據(jù)可以參考。測(cè)試結(jié)果顯示，即使是這些全新的模型架構(gòu)，它們的性能表現(xiàn)仍然大致符合預(yù)測(cè)框架的規(guī)律。這說(shuō)明預(yù)測(cè)系統(tǒng)捕捉到的可能是AI發(fā)展的某種深層規(guī)律，而不僅僅是特定模型系列的特殊現(xiàn)象。

這次實(shí)戰(zhàn)驗(yàn)證還揭示了一個(gè)有趣的模式：不同研發(fā)團(tuán)隊(duì)開(kāi)發(fā)的模型在性能上呈現(xiàn)出明顯的"聚類"現(xiàn)象。來(lái)自同一家公司或使用相似技術(shù)路線的模型，它們的性能往往聚集在性能空間的特定區(qū)域。這種聚類現(xiàn)象反映了不同技術(shù)路線和開(kāi)發(fā)理念對(duì)最終性能的影響，就像不同園藝師培育的花朵會(huì)呈現(xiàn)出各自獨(dú)特的風(fēng)格一樣。

驗(yàn)證過(guò)程中最有價(jià)值的發(fā)現(xiàn)是預(yù)測(cè)系統(tǒng)的魯棒性。即使面對(duì)完全陌生的新模型和新技術(shù)，系統(tǒng)仍能提供可靠的性能范圍預(yù)測(cè)。這種魯棒性使得該系統(tǒng)不僅具有科研價(jià)值，更具備了實(shí)際應(yīng)用的潛力，為AI開(kāi)發(fā)者提供了一個(gè)可靠的性能評(píng)估工具。

六、深度案例分析：飽和現(xiàn)象與數(shù)據(jù)污染的偵探工作

研究團(tuán)隊(duì)像偵探一樣深入調(diào)查了兩個(gè)困擾AI領(lǐng)域的重要問(wèn)題：某些任務(wù)上的性能飽和現(xiàn)象和訓(xùn)練數(shù)據(jù)污染問(wèn)題。這兩個(gè)問(wèn)題就像隱藏在AI發(fā)展過(guò)程中的暗礁，需要仔細(xì)識(shí)別和規(guī)避。

關(guān)于飽和現(xiàn)象的調(diào)查揭示了一個(gè)引人深思的發(fā)現(xiàn)。研究團(tuán)隊(duì)發(fā)現(xiàn)，不同任務(wù)的飽和表現(xiàn)截然不同，就像不同的池塘有著不同的深度。知識(shí)密集型任務(wù)，比如MMLU-Pro，表現(xiàn)出相對(duì)較少的飽和跡象，大模型依然比小模型表現(xiàn)更好。這種情況就像一個(gè)永遠(yuǎn)填不滿的知識(shí)倉(cāng)庫(kù)，總是可以通過(guò)增加容量來(lái)提升性能。

相比之下，純推理任務(wù)則展現(xiàn)出更有趣的飽和模式。在數(shù)學(xué)推理任務(wù)上，研究團(tuán)隊(duì)觀察到一個(gè)"小模型逆襲"的現(xiàn)象。經(jīng)過(guò)精心調(diào)優(yōu)的13B參數(shù)模型在某些情況下能夠達(dá)到甚至超越大型模型的性能。這就像一個(gè)訓(xùn)練有素的業(yè)余選手在特定項(xiàng)目上擊敗了職業(yè)運(yùn)動(dòng)員，證明了技巧和策略有時(shí)比純粹的資源投入更重要。

這種分化現(xiàn)象為AI發(fā)展指明了兩條不同的道路。對(duì)于知識(shí)密集型應(yīng)用，繼續(xù)擴(kuò)大模型規(guī)模仍然是有效的策略，就像建造更大的圖書(shū)館來(lái)存儲(chǔ)更多信息。而對(duì)于推理密集型應(yīng)用，算法創(chuàng)新和訓(xùn)練技術(shù)的改進(jìn)可能比簡(jiǎn)單的規(guī)模擴(kuò)大更有價(jià)值。

在數(shù)據(jù)污染問(wèn)題的調(diào)查中，研究團(tuán)隊(duì)采用了一種巧妙的"交叉驗(yàn)證"方法。他們假設(shè)如果某個(gè)模型在特定測(cè)試上的表現(xiàn)異常好，可能是因?yàn)橛?xùn)練數(shù)據(jù)中包含了測(cè)試題目的答案。為了驗(yàn)證這種可能性，他們比較了模型在不同數(shù)學(xué)測(cè)試上的表現(xiàn)模式，尋找異常的性能差異。

通過(guò)分析MATH-500和AIME-2025兩個(gè)數(shù)學(xué)測(cè)試的結(jié)果，研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人放心的結(jié)論：沒(méi)有明顯證據(jù)表明存在大規(guī)模的數(shù)據(jù)污染問(wèn)題。模型在這兩個(gè)測(cè)試上的表現(xiàn)呈現(xiàn)出一致的相關(guān)性，就像一個(gè)學(xué)生在不同數(shù)學(xué)考試中的成績(jī)通常會(huì)保持一定的關(guān)聯(lián)性。這種一致性表明模型的數(shù)學(xué)能力是真實(shí)的，而不是通過(guò)記住答案獲得的。

然而，研究團(tuán)隊(duì)也保持了應(yīng)有的謹(jǐn)慎。他們指出，雖然沒(méi)有發(fā)現(xiàn)明顯的系統(tǒng)性污染證據(jù)，但輕微的污染效應(yīng)仍然可能存在。這就像在清澈的湖水中可能仍有肉眼看不見(jiàn)的微小雜質(zhì)。這種謹(jǐn)慎態(tài)度體現(xiàn)了科學(xué)研究應(yīng)有的嚴(yán)謹(jǐn)性。

七、前沿模型的性能探索

研究團(tuán)隊(duì)還將目光投向了那些最前沿的閉源AI模型，這些模型就像科技公司的"秘密武器"，性能強(qiáng)大但內(nèi)部結(jié)構(gòu)神秘。通過(guò)分析Epoch AI等機(jī)構(gòu)提供的評(píng)估數(shù)據(jù)，研究團(tuán)隊(duì)驗(yàn)證了他們的S形預(yù)測(cè)模型在最先進(jìn)的AI系統(tǒng)上同樣適用。

在GPQA Diamond這樣的高難度科學(xué)問(wèn)答任務(wù)上，前沿模型的表現(xiàn)完美地符合了S形增長(zhǎng)曲線。隨著訓(xùn)練算力的增加，模型性能呈現(xiàn)出典型的三階段發(fā)展：初期緩慢提升、中期快速增長(zhǎng)、后期趨于平緩。這種一致性證明了預(yù)測(cè)框架的普遍適用性，不僅適用于開(kāi)源模型，也適用于技術(shù)最先進(jìn)的商業(yè)模型。

更有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)前沿模型在不同任務(wù)上的表現(xiàn)模式與開(kāi)源模型高度相似。這說(shuō)明無(wú)論是學(xué)術(shù)機(jī)構(gòu)還是商業(yè)公司，在AI發(fā)展過(guò)程中都遵循著相似的基本規(guī)律。就像不同的建筑師設(shè)計(jì)房屋時(shí)都要遵循基本的物理定律一樣，不同的AI開(kāi)發(fā)團(tuán)隊(duì)也在不知不覺(jué)中遵循著相同的性能增長(zhǎng)規(guī)律。

通過(guò)與開(kāi)源模型的對(duì)比分析，研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有價(jià)值的洞察：前沿閉源模型的主要優(yōu)勢(shì)不在于突破性能邊界，而在于更穩(wěn)定地接近理論極限。開(kāi)源模型的性能往往呈現(xiàn)較大的波動(dòng)性，就像業(yè)余運(yùn)動(dòng)員的發(fā)揮不夠穩(wěn)定；而前沿模型則更像訓(xùn)練有素的專業(yè)選手，能夠更可靠地發(fā)揮出接近最佳水平的性能。

這種分析對(duì)于理解AI技術(shù)的商業(yè)化進(jìn)程具有重要意義。它表明，商業(yè)AI公司的核心競(jìng)爭(zhēng)優(yōu)勢(shì)可能不在于發(fā)現(xiàn)全新的性能邊界，而在于通過(guò)更精細(xì)的工程優(yōu)化和更大規(guī)模的資源投入，更可靠地實(shí)現(xiàn)接近理論極限的性能。

結(jié)論

說(shuō)到底，這項(xiàng)來(lái)自哈佛大學(xué)和斯坦福大學(xué)的研究為我們繪制了一張AI發(fā)展的"導(dǎo)航地圖"。就像古代探險(xiǎn)家繪制海圖幫助后來(lái)的航海者避免暗礁一樣，這個(gè)預(yù)測(cè)性規(guī)模定律為AI開(kāi)發(fā)者提供了一個(gè)可靠的性能預(yù)測(cè)工具。

這個(gè)研究最令人興奮的地方在于它的實(shí)用性。過(guò)去，開(kāi)發(fā)AI模型就像在黑暗中摸索，投入大量資源卻不知道能得到什么結(jié)果?，F(xiàn)在，開(kāi)發(fā)者們終于有了一個(gè)"性能計(jì)算器"，可以在項(xiàng)目開(kāi)始前就相當(dāng)準(zhǔn)確地預(yù)估投入產(chǎn)出比。這對(duì)于資源有限的初創(chuàng)公司和研究機(jī)構(gòu)來(lái)說(shuō)特別有價(jià)值。

研究揭示的不同任務(wù)類型的差異化發(fā)展趨勢(shì)也為未來(lái)的AI發(fā)展指明了方向。知識(shí)密集型任務(wù)告訴我們，在某些領(lǐng)域，"大力出奇跡"的策略仍然有效，更大的模型確實(shí)能帶來(lái)更好的性能。而推理密集型任務(wù)則提醒我們，有時(shí)候精巧的算法比蠻力更重要，小而美的解決方案可能比龐大復(fù)雜的系統(tǒng)更有效。

特別值得關(guān)注的是數(shù)學(xué)推理能力的持續(xù)突破。這個(gè)發(fā)現(xiàn)讓我們對(duì)AI的未來(lái)充滿期待。如果AI在最需要邏輯思維的數(shù)學(xué)領(lǐng)域都能持續(xù)進(jìn)步，那么它在其他需要推理的領(lǐng)域也很可能會(huì)帶來(lái)更多驚喜。這可能預(yù)示著我們正站在AI能力大幅躍升的門檻上。

這項(xiàng)研究的高效評(píng)估方法也為整個(gè)AI領(lǐng)域帶來(lái)了福音。在算力成本日益高昂的今天，能夠用20%的預(yù)算達(dá)到全量評(píng)估效果的方法具有巨大的經(jīng)濟(jì)價(jià)值。這不僅能降低研究成本，還能讓更多資源有限的團(tuán)隊(duì)參與到AI研究中來(lái)，促進(jìn)整個(gè)領(lǐng)域的多元化發(fā)展。

從更宏觀的角度來(lái)看，這個(gè)預(yù)測(cè)系統(tǒng)的成功表明AI發(fā)展并非完全無(wú)序，而是存在可以被理解和預(yù)測(cè)的規(guī)律。這種可預(yù)測(cè)性為AI的規(guī)劃化發(fā)展提供了可能，讓我們能夠更理性地制定發(fā)展策略，避免盲目投資和資源浪費(fèi)。

當(dāng)然，這個(gè)預(yù)測(cè)系統(tǒng)也提醒我們保持適度的謙遜。數(shù)學(xué)推理領(lǐng)域不斷涌現(xiàn)的突破告訴我們，AI的潛力可能遠(yuǎn)超我們目前的想象。今天看似不可逾越的性能邊界，明天可能就會(huì)被新的技術(shù)突破所打破。

歸根結(jié)底，這項(xiàng)研究為我們提供了一個(gè)觀察AI發(fā)展的新視角，一個(gè)更加科學(xué)和系統(tǒng)的方法來(lái)理解和預(yù)測(cè)AI性能。對(duì)于有興趣深入了解技術(shù)細(xì)節(jié)的讀者，可以通過(guò)arXiv:2602.15327v1查詢完整論文。隨著更多類似研究的開(kāi)展，我們對(duì)AI發(fā)展規(guī)律的理解將會(huì)越來(lái)越深入，這將幫助我們更好地駕馭這項(xiàng)正在改變世界的技術(shù)。

Q&A

Q1：預(yù)測(cè)性規(guī)模定律與傳統(tǒng)AI規(guī)模定律有什么區(qū)別？

A：傳統(tǒng)規(guī)模定律只能告訴我們算力增加會(huì)帶來(lái)性能提升的大致趨勢(shì)，就像"多吃飯能長(zhǎng)高"這樣的粗略信息。而預(yù)測(cè)性規(guī)模定律則像精準(zhǔn)的營(yíng)養(yǎng)師，能夠準(zhǔn)確預(yù)測(cè)投入特定算力后，經(jīng)過(guò)后期優(yōu)化的AI模型在具體任務(wù)上能達(dá)到的最高性能水平。

Q2：為什么數(shù)學(xué)推理任務(wù)的性能邊界一直在提升？

A：數(shù)學(xué)推理任務(wù)更依賴于算法創(chuàng)新而非簡(jiǎn)單的規(guī)模擴(kuò)大。隨著新的訓(xùn)練技術(shù)、推理方法和模型架構(gòu)不斷出現(xiàn)，數(shù)學(xué)推理的性能邊界就像不斷上升的熱氣球，每年都在突破新高度，這反映了這個(gè)領(lǐng)域巨大的發(fā)展?jié)摿Α?/p>

Q3：這個(gè)預(yù)測(cè)系統(tǒng)對(duì)普通AI開(kāi)發(fā)者有什么實(shí)用價(jià)值？

A：這個(gè)系統(tǒng)就像AI開(kāi)發(fā)的"性能計(jì)算器"，開(kāi)發(fā)者可以在項(xiàng)目開(kāi)始前就準(zhǔn)確預(yù)估需要投入多少算力才能達(dá)到目標(biāo)性能。特別是研究團(tuán)隊(duì)開(kāi)發(fā)的高效評(píng)估方法，只用20%的測(cè)試預(yù)算就能預(yù)測(cè)全量結(jié)果，大大降低了評(píng)估成本，讓資源有限的團(tuán)隊(duì)也能進(jìn)行可靠的性能預(yù)測(cè)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.