国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

哈佛與斯坦福聯(lián)合開(kāi)發(fā):AI算力投入與性能表現(xiàn)預(yù)測(cè)模型

0
分享至


這項(xiàng)來(lái)自哈佛大學(xué)和斯坦福大學(xué)的聯(lián)合研究發(fā)表于2026年2月,研究團(tuán)隊(duì)開(kāi)發(fā)出了一種全新的"預(yù)測(cè)性規(guī)模定律"方法,能夠像天氣預(yù)報(bào)一樣準(zhǔn)確預(yù)測(cè)AI模型性能。這項(xiàng)研究發(fā)表在arXiv預(yù)印本平臺(tái),編號(hào)為arXiv:2602.15327v1,為AI開(kāi)發(fā)者和企業(yè)提供了一個(gè)前所未有的"性能計(jì)算器"。

當(dāng)下,開(kāi)發(fā)一個(gè)強(qiáng)大的AI模型就像建造一座摩天大樓,需要投入大量資源,但建造完成前誰(shuí)也不知道最終效果如何。過(guò)去,AI研究者們就像盲人摸象一樣,只能根據(jù)經(jīng)驗(yàn)和直覺(jué)來(lái)估算需要多少算力才能達(dá)到期望的性能水平。這種不確定性讓許多公司在投資AI項(xiàng)目時(shí)心里沒(méi)底,就像在黑夜中開(kāi)車,看不清前方的路況。

哈佛大學(xué)和斯坦福大學(xué)的研究團(tuán)隊(duì)意識(shí)到這個(gè)問(wèn)題的嚴(yán)重性,決定開(kāi)發(fā)一套科學(xué)的預(yù)測(cè)系統(tǒng)。他們收集了超過(guò)7000個(gè)AI模型的性能數(shù)據(jù),其中包括5000個(gè)來(lái)自公開(kāi)數(shù)據(jù)庫(kù)的模型和2000個(gè)他們自己新測(cè)試的模型,建立了一個(gè)龐大的"AI性能數(shù)據(jù)庫(kù)"。

研究團(tuán)隊(duì)的核心發(fā)現(xiàn)可以用一個(gè)簡(jiǎn)單的比喻來(lái)理解:就像烤蛋糕一樣,投入的面粉、雞蛋等原料數(shù)量(算力)和最終蛋糕的口感(AI性能)之間存在著可預(yù)測(cè)的關(guān)系。他們發(fā)現(xiàn),AI模型經(jīng)過(guò)后期調(diào)優(yōu)后的最佳性能表現(xiàn),與訓(xùn)練時(shí)投入的算力之間呈現(xiàn)出一種S形曲線關(guān)系,就像植物的生長(zhǎng)曲線一樣,開(kāi)始緩慢增長(zhǎng),然后快速提升,最后趨于平緩。

一、預(yù)測(cè)性規(guī)模定律:AI性能的"天氣預(yù)報(bào)"系統(tǒng)

傳統(tǒng)的AI規(guī)模定律就像只能告訴你"多吃飯能長(zhǎng)高"這樣的粗略信息,而這項(xiàng)研究開(kāi)發(fā)的預(yù)測(cè)性規(guī)模定律則像精準(zhǔn)的營(yíng)養(yǎng)師,能告訴你"吃多少特定食物能長(zhǎng)到多高"。研究團(tuán)隊(duì)將這個(gè)問(wèn)題重新定義:給定一定的訓(xùn)練算力預(yù)算,經(jīng)過(guò)現(xiàn)代后訓(xùn)練技術(shù)優(yōu)化后,模型在特定任務(wù)上能達(dá)到的最高性能是多少。

這個(gè)預(yù)測(cè)系統(tǒng)的工作原理就像制作一張?jiān)敿?xì)的地形圖。研究團(tuán)隊(duì)不是簡(jiǎn)單地看模型的平均表現(xiàn),而是專門研究那些"山峰"——在相同算力條件下表現(xiàn)最好的模型。他們使用了一種叫做"分位數(shù)回歸"的統(tǒng)計(jì)方法,這就像在茫茫數(shù)據(jù)海洋中尋找那些表現(xiàn)最優(yōu)秀的"明星學(xué)生",然后分析這些明星學(xué)生的共同特征。

具體來(lái)說(shuō),他們關(guān)注的是第98百分位數(shù)的模型性能,也就是在100個(gè)同等算力的模型中表現(xiàn)最好的前2個(gè)。這樣做的好處是能夠?yàn)V除那些因?yàn)橛?xùn)練不當(dāng)或運(yùn)氣不好而表現(xiàn)糟糕的模型,專注于研究在特定算力條件下真正能夠達(dá)到的最佳性能水平。

研究團(tuán)隊(duì)開(kāi)發(fā)的數(shù)學(xué)模型采用了S形(sigmoid)函數(shù)來(lái)描述算力與性能之間的關(guān)系。這個(gè)函數(shù)的形狀就像一個(gè)傾斜的S,完美地捕捉了AI模型性能增長(zhǎng)的三個(gè)階段:起步期(性能提升緩慢)、爆發(fā)期(性能快速提升)和成熟期(性能增長(zhǎng)趨于平緩)。這種S形關(guān)系在自然界和技術(shù)發(fā)展中都很常見(jiàn),就像新技術(shù)的普及曲線或者人口增長(zhǎng)曲線一樣。

為了驗(yàn)證這個(gè)預(yù)測(cè)系統(tǒng)的準(zhǔn)確性,研究團(tuán)隊(duì)進(jìn)行了一個(gè)巧妙的時(shí)間旅行實(shí)驗(yàn)。他們用早期的模型數(shù)據(jù)來(lái)訓(xùn)練預(yù)測(cè)系統(tǒng),然后用這個(gè)系統(tǒng)預(yù)測(cè)后來(lái)發(fā)布的模型性能,結(jié)果發(fā)現(xiàn)預(yù)測(cè)準(zhǔn)確率高得驚人。這就像用2020年的數(shù)據(jù)訓(xùn)練一個(gè)股票預(yù)測(cè)模型,然后成功預(yù)測(cè)了2021年的股票走勢(shì)一樣令人印象深刻。

二、不同任務(wù)的"成長(zhǎng)曲線"大不相同

通過(guò)分析大量數(shù)據(jù),研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:不同類型的AI任務(wù)就像不同品種的植物,它們的"成長(zhǎng)曲線"截然不同。有些任務(wù)就像快速生長(zhǎng)的向日葵,在算力增加時(shí)性能提升很快;有些任務(wù)則像緩慢生長(zhǎng)的橡樹(shù),需要大量算力投入才能看到明顯改善。

在知識(shí)密集型任務(wù)上,比如回答百科全書(shū)式的問(wèn)題,大模型就像博學(xué)的教授,確實(shí)比小模型表現(xiàn)更好。研究團(tuán)隊(duì)測(cè)試的MMLU-Pro基準(zhǔn)測(cè)試結(jié)果顯示,算力增加帶來(lái)的性能提升非常穩(wěn)定和可預(yù)測(cè)。這類任務(wù)就像在比拼誰(shuí)的圖書(shū)館藏書(shū)更多,模型規(guī)模越大,存儲(chǔ)的知識(shí)越多,回答問(wèn)題的能力自然越強(qiáng)。

然而,在數(shù)學(xué)推理任務(wù)上,情況就完全不同了。研究團(tuán)隊(duì)發(fā)現(xiàn),數(shù)學(xué)推理能力的"天花板"一直在不斷提升。過(guò)去幾年里,隨著新的訓(xùn)練技術(shù)和算法的出現(xiàn),同樣算力條件下的數(shù)學(xué)推理性能一直在突破新高度。這就像體育比賽中的世界記錄一樣,隨著訓(xùn)練方法的改進(jìn)和新技術(shù)的應(yīng)用,人類的極限一直在被刷新。

更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)"小模型逆襲"的現(xiàn)象。在某些推理密集型任務(wù)上,經(jīng)過(guò)精心調(diào)優(yōu)的小模型有時(shí)能夠達(dá)到甚至超越大模型的性能水平。這就像一個(gè)技藝精湛的小餐廳廚師,雖然廚房設(shè)備不如五星級(jí)酒店豪華,但憑借精湛的技藝和創(chuàng)新的菜譜,做出的菜品同樣令人贊嘆。

研究結(jié)果還揭示了一個(gè)重要趨勢(shì):知識(shí)型能力和推理型能力的發(fā)展軌跡正在分化。知識(shí)型任務(wù)的性能提升主要依賴于模型規(guī)模的擴(kuò)大,就像建造更大的圖書(shū)館來(lái)存儲(chǔ)更多書(shū)籍。而推理型任務(wù)的性能提升更多依賴于算法和訓(xùn)練方法的創(chuàng)新,就像開(kāi)發(fā)更好的思維方法來(lái)解決復(fù)雜問(wèn)題。

這種分化現(xiàn)象對(duì)AI發(fā)展具有重要意義。它意味著未來(lái)的AI發(fā)展可能會(huì)出現(xiàn)專業(yè)化趨勢(shì):一些模型專門優(yōu)化知識(shí)存儲(chǔ)和檢索能力,成為"AI圖書(shū)管理員";另一些模型則專注于推理和分析能力,成為"AI偵探"。這種專業(yè)化分工可能會(huì)帶來(lái)更高效的AI應(yīng)用,就像現(xiàn)代社會(huì)的職業(yè)分工一樣。

三、時(shí)間的魔力:AI能力邊界如何演變

研究團(tuán)隊(duì)進(jìn)行了一個(gè)跨時(shí)間的追蹤研究,就像考古學(xué)家研究不同歷史時(shí)期的文物變化一樣,他們分析了不同時(shí)間段發(fā)布的AI模型性能變化。這個(gè)研究揭示了一個(gè)令人驚訝的發(fā)現(xiàn):大多數(shù)AI任務(wù)的性能"天花板"在時(shí)間推移中保持相對(duì)穩(wěn)定,但數(shù)學(xué)推理是個(gè)例外。

在語(yǔ)言理解、常識(shí)推理、科學(xué)問(wèn)答等傳統(tǒng)任務(wù)上,研究團(tuán)隊(duì)發(fā)現(xiàn)性能邊界就像一條穩(wěn)定的地平線,雖然會(huì)有小幅波動(dòng),但整體趨勢(shì)保持穩(wěn)定。這意味著這些任務(wù)的難度本質(zhì)沒(méi)有發(fā)生根本性變化,只是我們?cè)谥鸩浇咏@些任務(wù)的理論極限。就像百米賽跑的世界紀(jì)錄一樣,雖然還在緩慢提升,但提升幅度越來(lái)越小。

然而,數(shù)學(xué)推理任務(wù)展現(xiàn)出了完全不同的畫面。研究團(tuán)隊(duì)發(fā)現(xiàn),數(shù)學(xué)推理的性能邊界就像不斷上升的熱氣球,每年都在突破新的高度。這種持續(xù)上升的趨勢(shì)表明,數(shù)學(xué)推理可能是AI領(lǐng)域中最具潛力的發(fā)展方向之一。每當(dāng)研究者們以為已經(jīng)接近數(shù)學(xué)推理的極限時(shí),新的突破總是如期而至。

這種時(shí)間演變的差異性反映了AI技術(shù)發(fā)展的非均勻性。有些能力領(lǐng)域就像已經(jīng)開(kāi)發(fā)成熟的城市,發(fā)展空間有限;而有些能力領(lǐng)域則像正在開(kāi)發(fā)的新區(qū),充滿無(wú)限可能。數(shù)學(xué)推理之所以能夠持續(xù)突破,可能因?yàn)樗蕾囉谒惴▌?chuàng)新而非簡(jiǎn)單的規(guī)模擴(kuò)大。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的模式:突破往往不是漸進(jìn)式的,而是跳躍式的。某個(gè)新的訓(xùn)練技術(shù)或模型架構(gòu)的出現(xiàn),會(huì)突然將整個(gè)領(lǐng)域的性能水平推上一個(gè)新臺(tái)階。這就像科技發(fā)展中的范式轉(zhuǎn)換,從蒸汽機(jī)到內(nèi)燃機(jī),從膠片相機(jī)到數(shù)碼相機(jī),每一次技術(shù)革命都會(huì)帶來(lái)性能的大幅躍升。

這種時(shí)間演變分析對(duì)AI投資和研發(fā)策略具有重要指導(dǎo)意義。對(duì)于那些性能邊界相對(duì)穩(wěn)定的任務(wù),投資者和研發(fā)團(tuán)隊(duì)可以相對(duì)準(zhǔn)確地預(yù)測(cè)投入產(chǎn)出比,制定合理的預(yù)期。而對(duì)于像數(shù)學(xué)推理這樣持續(xù)突破的領(lǐng)域,則需要保持更大的耐心和更長(zhǎng)遠(yuǎn)的投資視角。

四、高效評(píng)估:用20%的預(yù)算預(yù)測(cè)100%的結(jié)果

面對(duì)日益高昂的AI模型評(píng)估成本,研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)"聰明的抽樣策略",就像民調(diào)機(jī)構(gòu)不需要詢問(wèn)全國(guó)每一個(gè)人就能準(zhǔn)確預(yù)測(cè)選舉結(jié)果一樣。這個(gè)策略能夠僅用20%的評(píng)估預(yù)算就準(zhǔn)確預(yù)測(cè)出使用全部預(yù)算才能得到的結(jié)果。

這個(gè)高效評(píng)估方法的核心思想借鑒了統(tǒng)計(jì)學(xué)中的最優(yōu)實(shí)驗(yàn)設(shè)計(jì)理論。就像一個(gè)經(jīng)驗(yàn)豐富的廚師品嘗湯的味道時(shí),不需要喝完整鍋湯,只需要在合適的位置取幾勺樣品就能判斷整鍋湯的口味。研究團(tuán)隊(duì)的算法能夠智能地選擇最具代表性的模型進(jìn)行測(cè)試,從而以最小的成本獲得最大的信息量。

這個(gè)算法的工作原理可以用"均衡覆蓋策略"來(lái)理解。想象你要了解一座城市的整體情況,最聰明的方法不是隨機(jī)選擇街道,而是確保在城市的每個(gè)區(qū)域都選擇一些代表性的街道。算法會(huì)確保在不同的算力水平范圍內(nèi)都選擇足夠的代表性模型,這樣就能保證預(yù)測(cè)結(jié)果的準(zhǔn)確性和可靠性。

在實(shí)際測(cè)試中,這個(gè)高效評(píng)估方法在多個(gè)任務(wù)上都表現(xiàn)出色。在GPQA和MUSR等任務(wù)上,使用僅5%的評(píng)估預(yù)算就能得到與全量評(píng)估幾乎相同的結(jié)果。這種效率提升對(duì)于資源有限的研究團(tuán)隊(duì)或企業(yè)來(lái)說(shuō)具有巨大價(jià)值,就像找到了一條通往目標(biāo)的高速公路,能夠大大縮短到達(dá)時(shí)間。

更重要的是,這個(gè)方法不僅節(jié)省了計(jì)算資源,還保持了預(yù)測(cè)的準(zhǔn)確性。算法在選擇測(cè)試樣本時(shí)會(huì)考慮兩個(gè)關(guān)鍵因素:信息價(jià)值和成本效益。信息價(jià)值高的模型能夠提供更多關(guān)于性能邊界的線索,而成本效益則確保我們不會(huì)在低價(jià)值的測(cè)試上浪費(fèi)資源。

這種高效評(píng)估策略的成功實(shí)現(xiàn),為AI領(lǐng)域帶來(lái)了一個(gè)重要的方法學(xué)貢獻(xiàn)。它證明了在資源約束條件下,通過(guò)智能的實(shí)驗(yàn)設(shè)計(jì)仍然可以獲得可靠的科學(xué)結(jié)論。這種思路可能會(huì)啟發(fā)更多類似的創(chuàng)新,幫助研究者們?cè)谟邢薜馁Y源條件下開(kāi)展更廣泛、更深入的研究。

五、實(shí)戰(zhàn)驗(yàn)證:新模型數(shù)據(jù)的"試金石"測(cè)試

為了驗(yàn)證他們開(kāi)發(fā)的預(yù)測(cè)系統(tǒng)的實(shí)用性,研究團(tuán)隊(duì)進(jìn)行了一個(gè)"真槍實(shí)彈"的測(cè)試。他們收集了2400個(gè)全新的開(kāi)源模型,這些模型都是在公開(kāi)排行榜停止更新后發(fā)布的,包括最新的Qwen3、Gemma-3、GPT-OSS等知名模型系列。這就像用最新的考試題目來(lái)測(cè)試一個(gè)預(yù)測(cè)學(xué)生成績(jī)的系統(tǒng)是否仍然準(zhǔn)確。

測(cè)試結(jié)果令人鼓舞。在大多數(shù)任務(wù)上,研究團(tuán)隊(duì)之前建立的性能邊界預(yù)測(cè)系統(tǒng)依然能夠準(zhǔn)確地預(yù)測(cè)這些新模型的表現(xiàn)上限。新發(fā)布的模型就像按照預(yù)期劇本表演的演員,它們的性能表現(xiàn)幾乎完全落在了預(yù)測(cè)邊界之內(nèi)。這種預(yù)測(cè)準(zhǔn)確性證明了該系統(tǒng)具有良好的泛化能力和實(shí)用價(jià)值。

然而,數(shù)學(xué)推理任務(wù)再次展現(xiàn)了它的特殊性。在MATH Lvl 5測(cè)試中,一些新發(fā)布的模型突破了之前預(yù)測(cè)的性能邊界,達(dá)到了更高的分?jǐn)?shù)。這種突破并不是系統(tǒng)失效的標(biāo)志,而恰恰驗(yàn)證了之前關(guān)于數(shù)學(xué)推理能力持續(xù)進(jìn)步的發(fā)現(xiàn)。就像體育競(jìng)技中總有運(yùn)動(dòng)員不斷刷新世界記錄一樣,數(shù)學(xué)推理領(lǐng)域的AI模型也在不斷超越前人。

研究團(tuán)隊(duì)特別關(guān)注了那些基于全新基礎(chǔ)模型開(kāi)發(fā)的AI系統(tǒng)。這些模型就像全新品種的植物,之前沒(méi)有相關(guān)的生長(zhǎng)數(shù)據(jù)可以參考。測(cè)試結(jié)果顯示,即使是這些全新的模型架構(gòu),它們的性能表現(xiàn)仍然大致符合預(yù)測(cè)框架的規(guī)律。這說(shuō)明預(yù)測(cè)系統(tǒng)捕捉到的可能是AI發(fā)展的某種深層規(guī)律,而不僅僅是特定模型系列的特殊現(xiàn)象。

這次實(shí)戰(zhàn)驗(yàn)證還揭示了一個(gè)有趣的模式:不同研發(fā)團(tuán)隊(duì)開(kāi)發(fā)的模型在性能上呈現(xiàn)出明顯的"聚類"現(xiàn)象。來(lái)自同一家公司或使用相似技術(shù)路線的模型,它們的性能往往聚集在性能空間的特定區(qū)域。這種聚類現(xiàn)象反映了不同技術(shù)路線和開(kāi)發(fā)理念對(duì)最終性能的影響,就像不同園藝師培育的花朵會(huì)呈現(xiàn)出各自獨(dú)特的風(fēng)格一樣。

驗(yàn)證過(guò)程中最有價(jià)值的發(fā)現(xiàn)是預(yù)測(cè)系統(tǒng)的魯棒性。即使面對(duì)完全陌生的新模型和新技術(shù),系統(tǒng)仍能提供可靠的性能范圍預(yù)測(cè)。這種魯棒性使得該系統(tǒng)不僅具有科研價(jià)值,更具備了實(shí)際應(yīng)用的潛力,為AI開(kāi)發(fā)者提供了一個(gè)可靠的性能評(píng)估工具。

六、深度案例分析:飽和現(xiàn)象與數(shù)據(jù)污染的偵探工作

研究團(tuán)隊(duì)像偵探一樣深入調(diào)查了兩個(gè)困擾AI領(lǐng)域的重要問(wèn)題:某些任務(wù)上的性能飽和現(xiàn)象和訓(xùn)練數(shù)據(jù)污染問(wèn)題。這兩個(gè)問(wèn)題就像隱藏在AI發(fā)展過(guò)程中的暗礁,需要仔細(xì)識(shí)別和規(guī)避。

關(guān)于飽和現(xiàn)象的調(diào)查揭示了一個(gè)引人深思的發(fā)現(xiàn)。研究團(tuán)隊(duì)發(fā)現(xiàn),不同任務(wù)的飽和表現(xiàn)截然不同,就像不同的池塘有著不同的深度。知識(shí)密集型任務(wù),比如MMLU-Pro,表現(xiàn)出相對(duì)較少的飽和跡象,大模型依然比小模型表現(xiàn)更好。這種情況就像一個(gè)永遠(yuǎn)填不滿的知識(shí)倉(cāng)庫(kù),總是可以通過(guò)增加容量來(lái)提升性能。

相比之下,純推理任務(wù)則展現(xiàn)出更有趣的飽和模式。在數(shù)學(xué)推理任務(wù)上,研究團(tuán)隊(duì)觀察到一個(gè)"小模型逆襲"的現(xiàn)象。經(jīng)過(guò)精心調(diào)優(yōu)的13B參數(shù)模型在某些情況下能夠達(dá)到甚至超越大型模型的性能。這就像一個(gè)訓(xùn)練有素的業(yè)余選手在特定項(xiàng)目上擊敗了職業(yè)運(yùn)動(dòng)員,證明了技巧和策略有時(shí)比純粹的資源投入更重要。

這種分化現(xiàn)象為AI發(fā)展指明了兩條不同的道路。對(duì)于知識(shí)密集型應(yīng)用,繼續(xù)擴(kuò)大模型規(guī)模仍然是有效的策略,就像建造更大的圖書(shū)館來(lái)存儲(chǔ)更多信息。而對(duì)于推理密集型應(yīng)用,算法創(chuàng)新和訓(xùn)練技術(shù)的改進(jìn)可能比簡(jiǎn)單的規(guī)模擴(kuò)大更有價(jià)值。

在數(shù)據(jù)污染問(wèn)題的調(diào)查中,研究團(tuán)隊(duì)采用了一種巧妙的"交叉驗(yàn)證"方法。他們假設(shè)如果某個(gè)模型在特定測(cè)試上的表現(xiàn)異常好,可能是因?yàn)橛?xùn)練數(shù)據(jù)中包含了測(cè)試題目的答案。為了驗(yàn)證這種可能性,他們比較了模型在不同數(shù)學(xué)測(cè)試上的表現(xiàn)模式,尋找異常的性能差異。

通過(guò)分析MATH-500和AIME-2025兩個(gè)數(shù)學(xué)測(cè)試的結(jié)果,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人放心的結(jié)論:沒(méi)有明顯證據(jù)表明存在大規(guī)模的數(shù)據(jù)污染問(wèn)題。模型在這兩個(gè)測(cè)試上的表現(xiàn)呈現(xiàn)出一致的相關(guān)性,就像一個(gè)學(xué)生在不同數(shù)學(xué)考試中的成績(jī)通常會(huì)保持一定的關(guān)聯(lián)性。這種一致性表明模型的數(shù)學(xué)能力是真實(shí)的,而不是通過(guò)記住答案獲得的。

然而,研究團(tuán)隊(duì)也保持了應(yīng)有的謹(jǐn)慎。他們指出,雖然沒(méi)有發(fā)現(xiàn)明顯的系統(tǒng)性污染證據(jù),但輕微的污染效應(yīng)仍然可能存在。這就像在清澈的湖水中可能仍有肉眼看不見(jiàn)的微小雜質(zhì)。這種謹(jǐn)慎態(tài)度體現(xiàn)了科學(xué)研究應(yīng)有的嚴(yán)謹(jǐn)性。

七、前沿模型的性能探索

研究團(tuán)隊(duì)還將目光投向了那些最前沿的閉源AI模型,這些模型就像科技公司的"秘密武器",性能強(qiáng)大但內(nèi)部結(jié)構(gòu)神秘。通過(guò)分析Epoch AI等機(jī)構(gòu)提供的評(píng)估數(shù)據(jù),研究團(tuán)隊(duì)驗(yàn)證了他們的S形預(yù)測(cè)模型在最先進(jìn)的AI系統(tǒng)上同樣適用。

在GPQA Diamond這樣的高難度科學(xué)問(wèn)答任務(wù)上,前沿模型的表現(xiàn)完美地符合了S形增長(zhǎng)曲線。隨著訓(xùn)練算力的增加,模型性能呈現(xiàn)出典型的三階段發(fā)展:初期緩慢提升、中期快速增長(zhǎng)、后期趨于平緩。這種一致性證明了預(yù)測(cè)框架的普遍適用性,不僅適用于開(kāi)源模型,也適用于技術(shù)最先進(jìn)的商業(yè)模型。

更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)前沿模型在不同任務(wù)上的表現(xiàn)模式與開(kāi)源模型高度相似。這說(shuō)明無(wú)論是學(xué)術(shù)機(jī)構(gòu)還是商業(yè)公司,在AI發(fā)展過(guò)程中都遵循著相似的基本規(guī)律。就像不同的建筑師設(shè)計(jì)房屋時(shí)都要遵循基本的物理定律一樣,不同的AI開(kāi)發(fā)團(tuán)隊(duì)也在不知不覺(jué)中遵循著相同的性能增長(zhǎng)規(guī)律。

通過(guò)與開(kāi)源模型的對(duì)比分析,研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有價(jià)值的洞察:前沿閉源模型的主要優(yōu)勢(shì)不在于突破性能邊界,而在于更穩(wěn)定地接近理論極限。開(kāi)源模型的性能往往呈現(xiàn)較大的波動(dòng)性,就像業(yè)余運(yùn)動(dòng)員的發(fā)揮不夠穩(wěn)定;而前沿模型則更像訓(xùn)練有素的專業(yè)選手,能夠更可靠地發(fā)揮出接近最佳水平的性能。

這種分析對(duì)于理解AI技術(shù)的商業(yè)化進(jìn)程具有重要意義。它表明,商業(yè)AI公司的核心競(jìng)爭(zhēng)優(yōu)勢(shì)可能不在于發(fā)現(xiàn)全新的性能邊界,而在于通過(guò)更精細(xì)的工程優(yōu)化和更大規(guī)模的資源投入,更可靠地實(shí)現(xiàn)接近理論極限的性能。

結(jié)論

說(shuō)到底,這項(xiàng)來(lái)自哈佛大學(xué)和斯坦福大學(xué)的研究為我們繪制了一張AI發(fā)展的"導(dǎo)航地圖"。就像古代探險(xiǎn)家繪制海圖幫助后來(lái)的航海者避免暗礁一樣,這個(gè)預(yù)測(cè)性規(guī)模定律為AI開(kāi)發(fā)者提供了一個(gè)可靠的性能預(yù)測(cè)工具。

這個(gè)研究最令人興奮的地方在于它的實(shí)用性。過(guò)去,開(kāi)發(fā)AI模型就像在黑暗中摸索,投入大量資源卻不知道能得到什么結(jié)果?,F(xiàn)在,開(kāi)發(fā)者們終于有了一個(gè)"性能計(jì)算器",可以在項(xiàng)目開(kāi)始前就相當(dāng)準(zhǔn)確地預(yù)估投入產(chǎn)出比。這對(duì)于資源有限的初創(chuàng)公司和研究機(jī)構(gòu)來(lái)說(shuō)特別有價(jià)值。

研究揭示的不同任務(wù)類型的差異化發(fā)展趨勢(shì)也為未來(lái)的AI發(fā)展指明了方向。知識(shí)密集型任務(wù)告訴我們,在某些領(lǐng)域,"大力出奇跡"的策略仍然有效,更大的模型確實(shí)能帶來(lái)更好的性能。而推理密集型任務(wù)則提醒我們,有時(shí)候精巧的算法比蠻力更重要,小而美的解決方案可能比龐大復(fù)雜的系統(tǒng)更有效。

特別值得關(guān)注的是數(shù)學(xué)推理能力的持續(xù)突破。這個(gè)發(fā)現(xiàn)讓我們對(duì)AI的未來(lái)充滿期待。如果AI在最需要邏輯思維的數(shù)學(xué)領(lǐng)域都能持續(xù)進(jìn)步,那么它在其他需要推理的領(lǐng)域也很可能會(huì)帶來(lái)更多驚喜。這可能預(yù)示著我們正站在AI能力大幅躍升的門檻上。

這項(xiàng)研究的高效評(píng)估方法也為整個(gè)AI領(lǐng)域帶來(lái)了福音。在算力成本日益高昂的今天,能夠用20%的預(yù)算達(dá)到全量評(píng)估效果的方法具有巨大的經(jīng)濟(jì)價(jià)值。這不僅能降低研究成本,還能讓更多資源有限的團(tuán)隊(duì)參與到AI研究中來(lái),促進(jìn)整個(gè)領(lǐng)域的多元化發(fā)展。

從更宏觀的角度來(lái)看,這個(gè)預(yù)測(cè)系統(tǒng)的成功表明AI發(fā)展并非完全無(wú)序,而是存在可以被理解和預(yù)測(cè)的規(guī)律。這種可預(yù)測(cè)性為AI的規(guī)劃化發(fā)展提供了可能,讓我們能夠更理性地制定發(fā)展策略,避免盲目投資和資源浪費(fèi)。

當(dāng)然,這個(gè)預(yù)測(cè)系統(tǒng)也提醒我們保持適度的謙遜。數(shù)學(xué)推理領(lǐng)域不斷涌現(xiàn)的突破告訴我們,AI的潛力可能遠(yuǎn)超我們目前的想象。今天看似不可逾越的性能邊界,明天可能就會(huì)被新的技術(shù)突破所打破。

歸根結(jié)底,這項(xiàng)研究為我們提供了一個(gè)觀察AI發(fā)展的新視角,一個(gè)更加科學(xué)和系統(tǒng)的方法來(lái)理解和預(yù)測(cè)AI性能。對(duì)于有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過(guò)arXiv:2602.15327v1查詢完整論文。隨著更多類似研究的開(kāi)展,我們對(duì)AI發(fā)展規(guī)律的理解將會(huì)越來(lái)越深入,這將幫助我們更好地駕馭這項(xiàng)正在改變世界的技術(shù)。

Q&A

Q1:預(yù)測(cè)性規(guī)模定律與傳統(tǒng)AI規(guī)模定律有什么區(qū)別?

A:傳統(tǒng)規(guī)模定律只能告訴我們算力增加會(huì)帶來(lái)性能提升的大致趨勢(shì),就像"多吃飯能長(zhǎng)高"這樣的粗略信息。而預(yù)測(cè)性規(guī)模定律則像精準(zhǔn)的營(yíng)養(yǎng)師,能夠準(zhǔn)確預(yù)測(cè)投入特定算力后,經(jīng)過(guò)后期優(yōu)化的AI模型在具體任務(wù)上能達(dá)到的最高性能水平。

Q2:為什么數(shù)學(xué)推理任務(wù)的性能邊界一直在提升?

A:數(shù)學(xué)推理任務(wù)更依賴于算法創(chuàng)新而非簡(jiǎn)單的規(guī)模擴(kuò)大。隨著新的訓(xùn)練技術(shù)、推理方法和模型架構(gòu)不斷出現(xiàn),數(shù)學(xué)推理的性能邊界就像不斷上升的熱氣球,每年都在突破新高度,這反映了這個(gè)領(lǐng)域巨大的發(fā)展?jié)摿Α?/p>

Q3:這個(gè)預(yù)測(cè)系統(tǒng)對(duì)普通AI開(kāi)發(fā)者有什么實(shí)用價(jià)值?

A:這個(gè)系統(tǒng)就像AI開(kāi)發(fā)的"性能計(jì)算器",開(kāi)發(fā)者可以在項(xiàng)目開(kāi)始前就準(zhǔn)確預(yù)估需要投入多少算力才能達(dá)到目標(biāo)性能。特別是研究團(tuán)隊(duì)開(kāi)發(fā)的高效評(píng)估方法,只用20%的測(cè)試預(yù)算就能預(yù)測(cè)全量結(jié)果,大大降低了評(píng)估成本,讓資源有限的團(tuán)隊(duì)也能進(jìn)行可靠的性能預(yù)測(cè)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
紀(jì)實(shí):浙江幼師幼兒園潛伏22年,警察曝光真實(shí)身份,家長(zhǎng)很后怕

紀(jì)實(shí):浙江幼師幼兒園潛伏22年,警察曝光真實(shí)身份,家長(zhǎng)很后怕

談史論天地
2026-03-01 09:49:38
韓國(guó):70%的石油和20%的天然氣由中東進(jìn)口 危機(jī)時(shí)將動(dòng)用戰(zhàn)略儲(chǔ)備

韓國(guó):70%的石油和20%的天然氣由中東進(jìn)口 危機(jī)時(shí)將動(dòng)用戰(zhàn)略儲(chǔ)備

財(cái)聯(lián)社
2026-03-02 19:02:07
沖突第3天,伊朗致電中國(guó),王毅提3個(gè)要求,阿拉格齊作出承諾

沖突第3天,伊朗致電中國(guó),王毅提3個(gè)要求,阿拉格齊作出承諾

起喜電影
2026-03-03 01:31:55
伊朗指揮中樞遭團(tuán)滅,數(shù)千名軍官正排隊(duì)投降

伊朗指揮中樞遭團(tuán)滅,數(shù)千名軍官正排隊(duì)投降

西樓飲月
2026-03-02 16:30:15
伊朗再對(duì)美以基地發(fā)動(dòng)大規(guī)模襲擊

伊朗再對(duì)美以基地發(fā)動(dòng)大規(guī)模襲擊

財(cái)聯(lián)社
2026-03-01 12:32:05
特朗普將訪華時(shí)間提前,中方只給出了六個(gè)字回應(yīng):不反對(duì),不確認(rèn)

特朗普將訪華時(shí)間提前,中方只給出了六個(gè)字回應(yīng):不反對(duì),不確認(rèn)

我心縱橫天地間
2026-03-02 14:42:57
寧可放棄中國(guó)市場(chǎng),也不刪鏡頭!《蜘蛛俠:英雄無(wú)歸》沒(méi)引進(jìn)的真相終于來(lái)了

寧可放棄中國(guó)市場(chǎng),也不刪鏡頭!《蜘蛛俠:英雄無(wú)歸》沒(méi)引進(jìn)的真相終于來(lái)了

小椰的奶奶
2026-03-02 10:32:14
10天一萬(wàn)公里,雷軍口中的“奇跡”,為何引起質(zhì)疑?

10天一萬(wàn)公里,雷軍口中的“奇跡”,為何引起質(zhì)疑?

A活著
2026-03-02 20:13:55
王毅外長(zhǎng):今后世上再無(wú)“中國(guó)臺(tái)灣省”之外的任何模糊稱謂。

王毅外長(zhǎng):今后世上再無(wú)“中國(guó)臺(tái)灣省”之外的任何模糊稱謂。

南權(quán)先生
2026-02-02 15:59:44
美伊沖突再次升級(jí),全球股市失血,油價(jià)金價(jià)還能漲多久?|商業(yè)微史記

美伊沖突再次升級(jí),全球股市失血,油價(jià)金價(jià)還能漲多久?|商業(yè)微史記

界面新聞
2026-03-02 15:51:05
3月1日起全國(guó)執(zhí)行!這些費(fèi)用全取消,家家都能??!

3月1日起全國(guó)執(zhí)行!這些費(fèi)用全取消,家家都能??!

達(dá)文西看世界
2026-03-02 15:40:41
為何說(shuō)美國(guó)打伊朗實(shí)際針對(duì)的是中國(guó)?我們會(huì)不會(huì)出手取決一個(gè)條件

為何說(shuō)美國(guó)打伊朗實(shí)際針對(duì)的是中國(guó)?我們會(huì)不會(huì)出手取決一個(gè)條件

阿胡
2026-03-02 11:53:54
上海著名主持人淚目!中東戰(zhàn)火下,有人平安返航、有人新婚分離、有人只想回家

上海著名主持人淚目!中東戰(zhàn)火下,有人平安返航、有人新婚分離、有人只想回家

上觀新聞
2026-03-02 15:27:27
張?zhí)鞇?ài)的腳真漂亮,頭一次看到這樣的腳丫子

張?zhí)鞇?ài)的腳真漂亮,頭一次看到這樣的腳丫子

動(dòng)物奇奇怪怪
2026-03-03 00:15:26
西班牙拒絕美方使用其基地打擊伊朗

西班牙拒絕美方使用其基地打擊伊朗

新華社
2026-03-02 23:40:05
“對(duì)于那一天 我們不期待 但絕不懼怕”中國(guó)軍號(hào)發(fā)布火箭軍備戰(zhàn)強(qiáng)音

“對(duì)于那一天 我們不期待 但絕不懼怕”中國(guó)軍號(hào)發(fā)布火箭軍備戰(zhàn)強(qiáng)音

閃電新聞
2026-03-02 11:24:45
深夜,集體飆升!暴漲50%!黃金、白銀,卻突然跳水!發(fā)生了什么?

深夜,集體飆升!暴漲50%!黃金、白銀,卻突然跳水!發(fā)生了什么?

證券時(shí)報(bào)
2026-03-02 23:59:06
伊朗貨幣一夜貶值97%,對(duì)普通人來(lái)說(shuō)這否是時(shí)代的塵埃落在肩上?

伊朗貨幣一夜貶值97%,對(duì)普通人來(lái)說(shuō)這否是時(shí)代的塵埃落在肩上?

聞號(hào)說(shuō)經(jīng)濟(jì)
2026-03-02 17:08:38
哈梅內(nèi)伊身亡現(xiàn)場(chǎng)照片曝光

哈梅內(nèi)伊身亡現(xiàn)場(chǎng)照片曝光

名人茍或
2026-03-02 10:37:43
巴基斯坦全面宣戰(zhàn),中亞格局或改寫,印度最慌!

巴基斯坦全面宣戰(zhàn),中亞格局或改寫,印度最慌!

達(dá)文西看世界
2026-02-27 16:30:28
2026-03-03 05:51:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7408文章數(shù) 553關(guān)注度
往期回顧 全部

科技要聞

蘋果中國(guó)官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

媒體:拉里賈尼走向前臺(tái) 四大關(guān)鍵變量將決定伊朗命運(yùn)

頭條要聞

媒體:拉里賈尼走向前臺(tái) 四大關(guān)鍵變量將決定伊朗命運(yùn)

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂(lè)要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

本地
數(shù)碼
時(shí)尚
房產(chǎn)
公開(kāi)課

本地新聞

津南好·四時(shí)總相宜

數(shù)碼要聞

蘋果新款iPad Air發(fā)布:4799元起 搭載M4芯片

今年春天一定要擁有的4件衣服,太好看了!

房產(chǎn)要聞

方案突然曝光!海口北師大附校,又有書(shū)包大盤殺出!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版