国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

MIT最新發(fā)現(xiàn):這十年,算法進步被高估了

0
分享至



機器之心報道

機器之心編輯部

在過去十年中,AI 的進步主要由兩股緊密相關(guān)的力量推動:迅速增長的計算預(yù)算,以及算法創(chuàng)新。

相比之下,計算量的增長較容易衡量,但我們?nèi)匀蝗狈λ惴ㄟM步的清晰量化,究竟哪些變化帶來了效率提升,這些提升的幅度有多大,以及它們在不同計算規(guī)模下是否依然成立。

2024 年,有研究通過分析數(shù)百個語言模型,他們估計在過去十年里,算法進步在所謂的有效計算量(effective compute)方面貢獻了超過 4 個數(shù)量級的提升;而根據(jù)對歷史 AI 文獻的分析,計算規(guī)模本身增長了 7 個數(shù)量級。

具體而言,所有算法創(chuàng)新加起來使模型的效率提高了大約 22,000 倍,這意味著在理論上可以用少得多的浮點運算次數(shù)(FLOPs)達到相同的性能水平。

然而,我們?nèi)匀蝗狈@類進步的精確分解,而關(guān)于算法進步來源的許多關(guān)鍵問題仍未得到充分研究。例如:各種算法改進之間是如何相互作用的?算法進步是由一系列小改動累積而成,還是由少數(shù)幾次重大突破推動的?算法改進是像摩爾定律那樣平滑持續(xù)地發(fā)展,還是呈現(xiàn)間斷平衡(即長時間停滯 + 突然大跳躍)的模式?

為回答這些問題,來自 MIT 等機構(gòu)的研究者采用了三種互補的方法:

  • 對語言模型中的重要算法改進進行消融實驗;
  • 開展 scaling 實驗,以測量不同架構(gòu)在最優(yōu) scaling 行為上的差異;
  • 對數(shù)據(jù)與參數(shù) scaling 轉(zhuǎn)換進行理論分析。



  • 論文地址:https://arxiv.org/pdf/2511.21622
  • 論文標題:On the Origin of Algorithmic Progress in AI

最終得到三條結(jié)論:

1:經(jīng)過實驗評估的大多數(shù)算法創(chuàng)新都只帶來了小幅的、與規(guī)模無關(guān)的效率提升,總體計算效率提升不到 10 倍,并且在推算到 2025 年的計算能力極限(2 × 1023 FLOPs)時,這些提升僅占總改進的不到 10%。這表明,與規(guī)模無關(guān)的算法進步在整體效率提升中所占的份額很小

2:本文發(fā)現(xiàn)有兩項強烈依賴規(guī)模(scale-dependent)的算法創(chuàng)新:從 LSTM 到 Transformer,以及從 Kaplan 到 Chinchilla 。當(dāng)將其外推到 2025 年的計算前沿時,這兩項創(chuàng)新合計占據(jù)了全部效率提升的 91%。這意味著:對于小規(guī)模模型而言,算法進步的幅度比此前認為的要小幾個數(shù)量級。

3:在規(guī)模依賴型創(chuàng)新的情況下,效率提升不僅需要持續(xù)的計算投入,而且算法進步的速度還強烈依賴于你選擇的參考算法。換句話說,相對于某一個基線算法,連續(xù)模型之間的進步率可能看起來是指數(shù)級的;但相對于另外一個基線算法,它卻可能完全為零。

總體來看,這些發(fā)現(xiàn)表明:算法進步可能本質(zhì)上就是依賴規(guī)模的,要真正體現(xiàn)其效益需要不斷增長計算規(guī)模。同時,這也意味著算法進步對大模型開發(fā)者的益處遠大于對小規(guī)模參與者的益處。



規(guī)模不變型算法

本文首先通過大量的消融實驗來分析單個算法的影響,從而繪制出算法改進的細粒度圖景。此外,本文還嘗試估計了多項算法組合后的聯(lián)合效果。

本文發(fā)現(xiàn):原始論文(即提出某項算法改進的那篇論文)所聲稱的效率提升,往往遠高于后續(xù)文獻給出的估計,也高于本文的實驗結(jié)果。



規(guī)模不變型算法的效率提升既小且分布高度不均

實驗中發(fā)現(xiàn),從 LSTM 切換到 Modern Transformer 的總效率提升為 6.28×,而從 LSTM 切換到 Retro Transformer 的效率提升為 4.69×。這比 Ho 等人(2024)的估計(他們認為 LSTM→Transformer 的提升約 60×)小得多。

雖然本文確實觀察到一些改進(例如 Adam 優(yōu)化器、以及從 post-layernorm 切換到 pre-RMSNorm)帶來了大約 2× 的效率提升,但作者測量的大多數(shù)創(chuàng)新帶來的提升都很小。

有趣的是,他們看到一個高度偏斜的效率提升分布:盡管所有被消融的創(chuàng)新帶來的提升都低于 4×,但提升倍數(shù)卻極不均勻,主要集中在少數(shù)幾項改進上,例如 Adam 或 pre-layernorm。

從這個角度來看,算法進步比之前想象的更加斷裂 / 不連續(xù):多年小幅改進之后,會出現(xiàn)一次較大的算法躍遷。

許多改進的效率提升幅度很小,這也推動本文開展第二部分實驗,比較算法變化在不同規(guī)模下的影響,從而揭示這些變化對神經(jīng)網(wǎng)絡(luò) scaling laws 的作用。

依賴于規(guī)模的算法

前文提到,算法改進在小規(guī)模模型上帶來的收益非常有限。因此自然會產(chǎn)生一個問題:在大規(guī)模下,算法收益會變得更大嗎?

因此,本文對不同架構(gòu)、優(yōu)化器,以及算法創(chuàng)新進行了 scaling 實驗,以更好地理解它們的效率提升如何隨計算規(guī)模變化。

實驗?zāi)P椭饕獮?LSTM、Transformer,以及兩種 Transformer 變體:Modern Transformer、Retro Transformer。

規(guī)模擴展實驗:從 LSTM 到 Transformer

圖 4A 展示了 LSTM 與現(xiàn)代 Transformer 在 scaling 上的差異,圖 4B 展示了現(xiàn)代 Transformer 與 Retro Transformer 的 scaling 差異。



Scaling 圖表表明,神經(jīng)網(wǎng)絡(luò)架構(gòu)的改進并不是規(guī)模不變的,而是具有隨規(guī)模增加而回報提升的特性(increasing returns to scale)。

算法進步強烈依賴于算力規(guī)模與參考基線

算法進步可能主要由算力提升所驅(qū)動

本文提出一個疑問:此前將算法進步與時間掛鉤的說法,是否其實是由算力投入的持續(xù)增長所驅(qū)動?

已有估計表明,前沿模型的計算預(yù)算正以每年 4.2 倍的速度呈指數(shù)增長。因此,隨著算力預(yù)算呈指數(shù)級提升,算法進步的速率可能更多是受這一規(guī)律性的算力擴張所推動,而不是源于不斷涌現(xiàn)的算法創(chuàng)新。

本文發(fā)現(xiàn):在 2017–2025 年間,幾乎所有可解釋的算法進步都來自兩項規(guī)模依賴型的創(chuàng)新:從 LSTM 換成 Transformer,以及從 Kaplan 換成 Chinchilla 的訓(xùn)練策略。其他所有算法改進加起來只占很小一部分。

在總計 21,400 倍(相對于 LSTM 模型)的性能提升中,本文發(fā)現(xiàn) 846 倍的提升是通過從 LSTM 模型轉(zhuǎn)向 Kaplan Transformer 模型實現(xiàn)的,而近 10 倍的提升則歸功于 Chinchilla 調(diào)整訓(xùn)練策略。這兩項創(chuàng)新共同構(gòu)成了總相對效率提升的 91%。



算法進步的速度,取決于你拿誰當(dāng)對照組

如果算法變得更強,是不是意味著進步更快,其實這完全取決于你選誰來當(dāng)參照物。換個參照物,算法進步的速度立刻就變了。

因為有些算法改進是規(guī)模依賴型(scale-dependent) 的:在大模型、大算力下提升巨大;但在小模型、小算力下幾乎沒作用。

這導(dǎo)致一個有趣現(xiàn)象:如果你用 LSTM 當(dāng)參照:Transformer 系列(尤其是更大模型)會顯得算法進步是指數(shù)增長的(論文測到一年增長率大約 63%,非??欤?;但如果你用 Transformer 自己當(dāng)參照,隨著規(guī)模變大,你只看到算法只比以前好 2 倍,幾乎沒增長。

也就是說:換個對照組,算法進步就從指數(shù)增長變成增長幅度很少。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
剛從沐曦爆賺200億的葛衛(wèi)東又出手了!

剛從沐曦爆賺200億的葛衛(wèi)東又出手了!

商業(yè)與生活
2025-12-19 11:43:38
蘇聯(lián)不要的裝備,70萬武器被八路軍拉3天3夜,撿出“半個軍械庫”

蘇聯(lián)不要的裝備,70萬武器被八路軍拉3天3夜,撿出“半個軍械庫”

古書記史
2025-12-15 23:29:05
誰說屁股大就不能穿瑜伽褲?黃色T恤搭薄荷綠瑜伽褲,成熟有活力

誰說屁股大就不能穿瑜伽褲?黃色T恤搭薄荷綠瑜伽褲,成熟有活力

小喬古裝漢服
2025-11-12 11:46:01
4天5條人命,中國不再忍耐,聯(lián)大下通牒:塔利班若再裝傻后果自負

4天5條人命,中國不再忍耐,聯(lián)大下通牒:塔利班若再裝傻后果自負

春秋論娛
2025-12-18 07:11:35
Angelababy在上海與一眾網(wǎng)紅聚會!這真是“美得突出”

Angelababy在上海與一眾網(wǎng)紅聚會!這真是“美得突出”

今古深日報
2025-12-18 11:58:58
案例:北京一女教授在家養(yǎng)病長達10年,民警進門后,當(dāng)場愣在原地

案例:北京一女教授在家養(yǎng)病長達10年,民警進門后,當(dāng)場愣在原地

蘭姐說故事
2025-01-02 20:00:06
掃地機器人鼻祖宣布破產(chǎn)

掃地機器人鼻祖宣布破產(chǎn)

臺州交通廣播
2025-12-16 20:24:44
王雷李小萌露餡!出席活動冷臉互不理睬 原來恩愛只是“遮羞布”

王雷李小萌露餡!出席活動冷臉互不理睬 原來恩愛只是“遮羞布”

好賢觀史記
2025-12-18 12:44:59
緬甸電詐園區(qū)暗藏軍事基地,遭泰軍大規(guī)模轟炸

緬甸電詐園區(qū)暗藏軍事基地,遭泰軍大規(guī)模轟炸

遠方青木
2025-12-18 23:51:19
全球首富榜揭曉:美首富造火箭,俄首富搞天然氣,中國首富在干啥

全球首富榜揭曉:美首富造火箭,俄首富搞天然氣,中國首富在干啥

策略述
2025-12-19 12:39:06
男子公園騎三輪車遭“攔路鐵絲”勒脖身亡,園方:事發(fā)地為私人承包區(qū),已排查公園安全隱患

男子公園騎三輪車遭“攔路鐵絲”勒脖身亡,園方:事發(fā)地為私人承包區(qū),已排查公園安全隱患

極目新聞
2025-12-18 17:10:51
不查不知道!龐萊臣后人與南京博物院,早在2014年就打起了官司…

不查不知道!龐萊臣后人與南京博物院,早在2014年就打起了官司…

火山詩話
2025-12-18 18:47:29
劉二狗栽了!泳池派對搞低俗親密互動直播,4400 萬粉也救不了!

劉二狗栽了!泳池派對搞低俗親密互動直播,4400 萬粉也救不了!

小椰的奶奶
2025-12-19 12:15:15
日本人靠它發(fā)財,美國人用它打仗,中國人卻把它當(dāng)毒藥扔進垃圾桶

日本人靠它發(fā)財,美國人用它打仗,中國人卻把它當(dāng)毒藥扔進垃圾桶

策略述
2025-12-18 14:11:27
張繼科"炮轟"劉國梁,2017年換教練不提前說,誰會高三換語文老師

張繼科"炮轟"劉國梁,2017年換教練不提前說,誰會高三換語文老師

查爾菲的筆記
2025-10-12 17:15:34
1984年他一聲令下,把老山幾千噸炮彈當(dāng)水潑,2019年葬禮現(xiàn)場,昔日部下已是軍委副主席,含淚送別這位鐵血師長!

1984年他一聲令下,把老山幾千噸炮彈當(dāng)水潑,2019年葬禮現(xiàn)場,昔日部下已是軍委副主席,含淚送別這位鐵血師長!

史海孤雁
2025-12-17 16:50:24
石破茂預(yù)言果然應(yīng)驗,中方還沒開始反制,日企就已經(jīng)撐不住了

石破茂預(yù)言果然應(yīng)驗,中方還沒開始反制,日企就已經(jīng)撐不住了

鐵錘簡科
2025-12-19 13:22:04
泰王又封00后“新妃”,王后素顏跑馬淡定!真宮斗冠軍不在怕的

泰王又封00后“新妃”,王后素顏跑馬淡定!真宮斗冠軍不在怕的

商務(wù)范
2025-12-18 14:16:58
當(dāng)前最火的五部電視劇,《老舅》跌至第二,你在追哪一部?

當(dāng)前最火的五部電視劇,《老舅》跌至第二,你在追哪一部?

草莓解說體育
2025-12-19 10:26:11
美國一富豪被冷凍50年,原定2017年蘇醒,解凍時工作人員緊急叫停

美國一富豪被冷凍50年,原定2017年蘇醒,解凍時工作人員緊急叫停

蜉蝣說
2025-12-01 11:20:58
2025-12-19 14:19:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11953文章數(shù) 142513關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

團播女生私下賣力維護"大哥":經(jīng)常擦邊 有女生會被約走

頭條要聞

團播女生私下賣力維護"大哥":經(jīng)常擦邊 有女生會被約走

體育要聞

沒有塔圖姆,還有塔禿姆

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無期

汽車要聞

最便宜GLS 2026款奔馳GLS經(jīng)典版售96.8萬

態(tài)度原創(chuàng)

手機
藝術(shù)
游戲
旅游
家居

手機要聞

榮耀WIN系列手機配置曝光:6.83英寸185Hz直屏,跑分超440萬

藝術(shù)要聞

諸樂三的寫意花鳥

經(jīng)典劇情RPG神作《空之軌跡 the 1st》冬促來襲!

旅游要聞

北京周末可往返!賞冰雪、涮暖鍋、逛大集……官方推薦攻略來了→

家居要聞

高端私宅 理想隱居圣地

無障礙瀏覽 進入關(guān)懷版