国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

前谷歌研究員發(fā)文:算力崇拜時代該結束了

0
分享至



機器之心編輯部

過去十年,我們幾乎把 AI 領域的創(chuàng)新簡化成一條公式:更多參數(shù)、更多數(shù)據(jù)、更多算力??晌磥淼耐黄?,是否仍然只能從訓練算力中產(chǎn)生,其實并不清楚。

這個問題之所以重要,是因為「算力驅(qū)動進步」的信念,已經(jīng)深刻改變了整個領域的研究文化。學術界因缺乏算力逐漸被邊緣化,研究參與在地域上高度集中;巨額資本投入也讓原本開放的發(fā)表傳統(tǒng)變得愈發(fā)封閉。

在過去的一段時間,前谷歌大腦研究員、Cohere 前 AI 研究負責人 Sara Hooker 一直在呼吁大家重視這個問題。最近,她還把自己之前的演講內(nèi)容寫成了文章。



  • 文章標題:On the slow death of scaling.
  • 文章鏈接:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5877662

文章中提到,對于深度神經(jīng)網(wǎng)絡而言,持續(xù)擴展訓練計算資源效率極低。我們花費大量資源來學習那些低頻特征的長尾部分,而所有跡象都表明,我們正處于收益遞減的時期。在模型規(guī)模不再逐年翻倍的世界里,模型如何從環(huán)境中學習并有效地從新知識中適應,就顯得尤為重要。在文章中,她探討了一些未來有價值的方向。

以下是文章內(nèi)容節(jié)選。

一個不容忽視的趨勢:小模型的崛起

聲稱 scaling 正在走向終結,這在許多領域都存在爭議。因為過去十年的所有證據(jù)都表明,擴展計算能力能夠解鎖更大的模型規(guī)?;驍?shù)據(jù)集。增加計算能力也恰好符合行業(yè)季度規(guī)劃的節(jié)奏,相比提出一種替代的優(yōu)化技術,提議訓練更大的模型風險更小。

但僅僅依靠計算資源會忽略規(guī)模與性能之間的關系正在發(fā)生的一個關鍵轉(zhuǎn)變。更大的模型并不總能帶來更好的性能。最近幾年出現(xiàn)了很多大模型被規(guī)模小得多的小模型超越的案例。如下圖 3b 所示,隨著時間推移,這類小模型數(shù)量激增。



要理解為什么會出現(xiàn)這種情況,我們必須弄清楚在過去十年中,哪些關鍵變量一直在推動性能的提升。在計算資源回報遞減的時代,優(yōu)化和架構上的突破決定了單位計算資源的回報率。而正是這種回報率,對發(fā)展速度以及額外計算資源所帶來的風險水平最為關鍵。



哪些因素會影響算力回報率?

在復雜系統(tǒng)中,孤立地操控一個變量并預見所有影響是極具挑戰(zhàn)性的,人們對計算量的推崇也是如此。

增大模型規(guī)模正面臨收益遞減

過去十年,模型參數(shù)量從早期 Inception 的 2300 萬暴增至 Qwen3-235B 的 2350 億。盡管更大模型確實帶來了性能提升,但額外的參數(shù)數(shù)量與泛化能力之間的關系仍不清楚。

令人困惑的是:訓練結束后,我們可以刪除大部分權重而幾乎不損失性能;但若一開始就不啟用這些權重,則無法達到相同效果。研究發(fā)現(xiàn),僅用一小部分權重就能預測網(wǎng)絡中 95% 的權重,說明存在大量冗余。這可能反映的是深度學習技術本身的低效 —— 如果有更好的學習方法,我們可能根本不需要這么大的網(wǎng)絡。

增大模型規(guī)模是學習長尾分布的一種成本極高的方式。深度神經(jīng)網(wǎng)絡的學習效率極低。它們能快速學會常見特征,卻需要大量算力和時間來學習罕見特征。這是因為訓練基于平均誤差最小化,所有樣本被同等對待,導致低頻特征的信號在批量更新中被稀釋。而現(xiàn)實世界中,大多數(shù)屬性恰恰是低頻的 —— 人類智能的獨特之處正是能高效處理這類長尾數(shù)據(jù)。深度網(wǎng)絡在這方面最為吃力,訓練的大部分算力都被消耗在以極高代價記憶長尾數(shù)據(jù)上,如同「搭梯子登月」般低效。

數(shù)據(jù)質(zhì)量降低了對計算資源的依賴

在質(zhì)量更高的數(shù)據(jù)上訓練的模型不需要那么多計算資源。大量研究表明,改進訓練語料庫的一些工作,包括去重、數(shù)據(jù)修剪或數(shù)據(jù)優(yōu)先級排序,可以彌補模型規(guī)模的不足。這表明,可學習參數(shù)的數(shù)量并非提升性能的絕對限制因素;對更高數(shù)據(jù)質(zhì)量的投入能夠減少對更多(計算資源等)的需求。

新的算法技術彌補了計算量的不足

過去幾年的進展,既得益于算法的改進,也得益于計算能力的提升。這包括通過指令微調(diào)擴展預訓練,以教會模型遵循指令;利用更大、性能更強的「教師」模型生成的合成數(shù)據(jù)進行模型蒸餾,來訓練能力強、規(guī)模小的「學生」模型;思維鏈推理;增加上下文長度;檢索增強生成;以及通過偏好訓練使模型與人類反饋保持一致等。

所有這些技術都彌補了對大量權重或昂貴的長時間訓練的需求。在所有條件相同的情況下,與未使用這些優(yōu)化技巧且在相同計算量下訓練的模型相比,這些技術已被證明能顯著提升模型性能。我們正用相同數(shù)量的資源做著多得多的事情。

架構在決定可擴展性方面起著重要作用

架構在確定單位計算量下的整體性能回報率方面起著巨大作用。它在決定進步上限方面也至關重要。新架構設計的引入可以從根本上改變計算量與性能之間的關系,并使任何現(xiàn)有的 scaling law 變得無關緊要。

Scaling Law 的局限性

巴菲特曾說過一句話:「別問理發(fā)師你需不需要理發(fā)?!雇瑯拥牡览?,也別去問計算機科學家或經(jīng)濟學家能不能預測未來。人們往往會被「我能預測」的誘惑牽著走,而忽視了對預測邊界應有的謙遜。關于模型規(guī)模與性能關系的 scaling law 正是這種自信膨脹的體現(xiàn)。它試圖用算力規(guī)模去推斷預訓練損失的變化,或預測下游能力如何隨規(guī)模出現(xiàn),但現(xiàn)實遠比公式復雜。

Scaling Law 之所以流行,很大程度上源于人們過度相信算力是推動進步的核心變量。它逐漸成了一個萬能說法,被用來為巨額投資甚至政策決策背書。其吸引力也不難理解,如果能力真的能隨算力精確預測,資本配置就會顯得異常清晰。但問題在于,我們幾乎從未準確預測過性能究竟會提升多少,這讓「算力投入的回報率」在科學上難以站得住腳。

更關鍵的是,Scaling Law 真正被反復驗證的,只是對預訓練測試損失的預測,也就是模型補全文本的能力。一旦換成真實的下游任務表現(xiàn),結果往往混亂且不一致。所謂的「涌現(xiàn)能力」,常被用來解釋這種落差,看似是能力突然出現(xiàn),實際上等于承認 Scaling Law 并不能告訴我們未來會發(fā)生什么。即便只預測測試損失,在數(shù)據(jù)分布假設略有變化時,結果的可復現(xiàn)性也會出現(xiàn)問題。越來越多研究發(fā)現(xiàn),許多能力的提升曲線并不平滑,甚至根本不符合冪律。

對于需要向未來外推的復雜系統(tǒng)來說,小誤差會不斷累積,而樣本數(shù)量又極其有限。每一個數(shù)據(jù)點都是一整個模型,高昂的計算成本意味著很多 scaling 結論建立在不到百個樣本之上,統(tǒng)計支撐本身就很脆弱。因此,不同領域中 Scaling Law 的可靠性差異巨大。比如代碼生成在極大算力跨度內(nèi)表現(xiàn)出相對穩(wěn)定的冪律關系,而其他能力則顯得更加不可預測。

在架構、優(yōu)化方法和數(shù)據(jù)質(zhì)量保持不變的短期受控環(huán)境下,Scaling Law 對規(guī)劃訓練規(guī)模仍有一定價值。但一旦拉長時間尺度,它們就很難經(jīng)得起檢驗。Scaling Law 的頻繁失效提醒我們,單純堆算力并不是一條直線式的進步路徑。那些過度依賴 Scaling Law 的前沿 AI 公司,可能正在低估其他創(chuàng)新方向的價值,而真正的突破,往往正藏在這些被忽視的地方。

未來前進方向

在計算機科學中,我們長期把算力當成銀彈。

但現(xiàn)實正在發(fā)生分化。一方面,至少在短期內(nèi),人們?nèi)詴^續(xù)把模型做得更大,試圖從逐漸老化的架構中榨取最后的性能;另一方面,算力與性能之間的關系卻越來越緊繃,也越來越難以預測。單純依賴算力,正在變成一條不穩(wěn)定的道路。

真正有可能引領下一輪創(chuàng)新的前沿實驗室,不會把賭注只壓在算力上。更有價值的進展,來自對優(yōu)化空間的根本性重塑,也就是范式層面的轉(zhuǎn)變。與以往不同的是,計算機科學家如今需要同時優(yōu)化的「工具箱」大幅擴展,這不僅會決定他們把時間花在哪里,也會影響「發(fā)現(xiàn)」本身是如何發(fā)生的。

新的優(yōu)化空間

如今,越來越多的計算并不是花在訓練階段,而是花在訓練之外、推理之中。過去,模型性能的提升幾乎等同于更多數(shù)據(jù)、更長訓練或更大參數(shù)規(guī)模,而現(xiàn)在,一個明顯的轉(zhuǎn)向正在發(fā)生:通過在推理時投入更多算力,用搜索、工具調(diào)用、多智能體協(xié)作或自適應計算來提升表現(xiàn),而不必改動模型本身。更重要的是,這些方法大多不依賴梯度更新,徹底偏離了過去三十年以訓練為中心的進步路徑。已有研究表明,僅靠推理階段的計算放大,就可能帶來數(shù)倍甚至一個數(shù)量級的性能提升,而所需算力遠低于重新預訓練的成本。



與此同時,數(shù)據(jù)也不再是不可觸碰的「靜態(tài)背景」。長期以來,高質(zhì)量標注數(shù)據(jù)稀缺且昂貴,訓練集往往被視為對世界的固定快照,從 MNIST、ImageNet 到 SQuAD,AI 的進步建立在這些凍結的數(shù)據(jù)之上。但現(xiàn)實使用中,模型最擅長的始終是訓練分布,而推理時真正重要的場景卻常常數(shù)據(jù)不足,訓練與使用之間由此產(chǎn)生結構性錯位。隨著合成數(shù)據(jù)成本大幅下降,數(shù)據(jù)空間本身開始變得可塑,我們可以有意識地生成、引導和放大那些原本稀少卻關鍵的分布區(qū)域,這也動搖了機器學習中關于 IID 樣本的基礎假設。

最后,智能系統(tǒng)的核心正在從「更強的模型」轉(zhuǎn)向「更會與世界互動的系統(tǒng)」。算法本身不再是全部,交互方式、界面設計以及多組件系統(tǒng)的協(xié)同,正在成為決定智能上限的重要因素。曾經(jīng)屬于 UX 或人機交互的小眾問題,正在走到計算機科學研究的正中央。

只要還用 Transformer,scaling 就會變得沒有意義

在以 Transformer 為核心架構的前提下,只要我們?nèi)跃窒抻?Transformer 這種架構,繼續(xù)擴大計算規(guī)模就沒有意義。現(xiàn)有架構已經(jīng)明顯出現(xiàn)邊際收益遞減,再投入算力也難以換來成比例的進步。深度神經(jīng)網(wǎng)絡主導了過去十年的發(fā)展,但越來越多跡象表明,下一次真正的躍遷需要一種全新的架構。隨著模型開始持續(xù)與世界互動,如何避免災難性遺忘成為關鍵挑戰(zhàn),而依賴全局參數(shù)更新的深度網(wǎng)絡,在持續(xù)學習和知識分化上先天受限,很難像大腦那樣形成相對獨立、可專門化的知識區(qū)域。

與此同時,訓練算力「scaling 退潮」并不等于 AI 的環(huán)境影響會隨之減輕。需要區(qū)分的是,算力與性能關系的變化,并不等同于整個 AI 系統(tǒng)的計算開銷下降。即便模型本身變得更小、更高效,AI 也會被部署到越來越多的場景中。真正的能耗大頭,往往不在訓練,而在模型上線后的生產(chǎn)化與大規(guī)模服務階段。當數(shù)十億用戶同時使用 AI 時,即使單個模型更輕量,總體能耗仍可能持續(xù)上升,這依然是一個不容忽視的現(xiàn)實問題。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
閆學晶的拼搏:20歲嫁30歲小老板,給8歲小妹妹當后媽

閆學晶的拼搏:20歲嫁30歲小老板,給8歲小妹妹當后媽

小小河
2026-01-10 20:21:22
到底什么叫洗錢?網(wǎng)友"完美閉環(huán)"式回答,感覺錯過了一個億

到底什么叫洗錢?網(wǎng)友"完美閉環(huán)"式回答,感覺錯過了一個億

另子維愛讀史
2026-01-09 22:18:04
她才是下棋人!謝杏芳9年前設局,如今林丹在家淪為“編外人員”

她才是下棋人!謝杏芳9年前設局,如今林丹在家淪為“編外人員”

地球記
2026-01-08 22:42:11
超暴露性感韓游不和諧了!刺激打屁股小游戲還在

超暴露性感韓游不和諧了!刺激打屁股小游戲還在

游民星空
2026-01-12 21:29:26
上任未滿一年就換人,昆藥集團董事長和副董事長雙雙離任

上任未滿一年就換人,昆藥集團董事長和副董事長雙雙離任

經(jīng)濟觀察報
2026-01-12 20:08:04
老實人發(fā)怒到底有多恐怖?網(wǎng)友:斬草除根!

老實人發(fā)怒到底有多恐怖?網(wǎng)友:斬草除根!

夜深愛雜談
2025-12-14 16:36:55
27億美元收購沃爾沃,吉利李書福蛇吞象,18年過去是賺是虧?

27億美元收購沃爾沃,吉利李書福蛇吞象,18年過去是賺是虧?

芳芳歷史燴
2026-01-11 13:01:04
女生體毛旺盛的真實感受,網(wǎng)友反應超乎想象!

女生體毛旺盛的真實感受,網(wǎng)友反應超乎想象!

特約前排觀眾
2025-11-19 00:15:03
突發(fā)!國羽3大主力集體退出印尼公開賽,傷病潮席卷開年賽程

突發(fā)!國羽3大主力集體退出印尼公開賽,傷病潮席卷開年賽程

小蘭看體育
2026-01-12 16:35:11
李亞鵬直播間哭到失聲!還清巨債不靠王菲海哈金喜,全靠倆女兒

李亞鵬直播間哭到失聲!還清巨債不靠王菲海哈金喜,全靠倆女兒

獨步天涯
2026-01-10 18:07:03
曾公開威脅“用核武打中國”的武漢大學985女碩士王懿餓死在日本

曾公開威脅“用核武打中國”的武漢大學985女碩士王懿餓死在日本

南權先生
2026-01-12 16:45:45
決裂升級!布魯克林發(fā)律師函 要求與貝克漢姆夫婦斷絕直接聯(lián)系

決裂升級!布魯克林發(fā)律師函 要求與貝克漢姆夫婦斷絕直接聯(lián)系

麥桐看娛樂
2026-01-10 11:56:35
專題片:徐憲平用8萬“收購”價值約300萬公司股權,13年后獲利數(shù)千萬

專題片:徐憲平用8萬“收購”價值約300萬公司股權,13年后獲利數(shù)千萬

澎湃新聞
2026-01-12 22:14:26
對 “臺獨劊子手”陳舒怡,必須抓捕歸案以平民憤、告忠魂!

對 “臺獨劊子手”陳舒怡,必須抓捕歸案以平民憤、告忠魂!

達文西看世界
2026-01-12 14:14:16
“性蕭條”才是這個時代真正的危機

“性蕭條”才是這個時代真正的危機

深藍夜讀
2025-09-24 16:00:09
向全世界宣布!國產(chǎn)光刻機新突破,荷蘭慌了、阿斯麥CEO首次表態(tài)

向全世界宣布!國產(chǎn)光刻機新突破,荷蘭慌了、阿斯麥CEO首次表態(tài)

劉曠
2026-01-12 14:30:57
性能強悍!新機官宣:1月15日,正式發(fā)布

性能強悍!新機官宣:1月15日,正式發(fā)布

T科技衍生
2026-01-13 00:19:48
日軍“大佐”是什么軍銜?為何日軍不想升將官,卻爭著當大佐?

日軍“大佐”是什么軍銜?為何日軍不想升將官,卻爭著當大佐?

大千世界觀
2026-01-11 18:45:49
中科院院士:青年科學家 5 年內(nèi)拿不出成果就面臨淘汰,有的單位已現(xiàn)「馬太」效應,重復給某一人獎勵

中科院院士:青年科學家 5 年內(nèi)拿不出成果就面臨淘汰,有的單位已現(xiàn)「馬太」效應,重復給某一人獎勵

化學人生
2026-01-12 20:54:44
長腿:一道被誤讀的地平線

長腿:一道被誤讀的地平線

疾跑的小蝸牛
2026-01-12 23:24:34
2026-01-13 00:55:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12100文章數(shù) 142535關注度
往期回顧 全部

科技要聞

面對SpaceX瘋狂“下餃子” 中國正面接招

頭條要聞

日媒:高市連續(xù)兩日閉門不出 不回應媒體采訪請求

頭條要聞

日媒:高市連續(xù)兩日閉門不出 不回應媒體采訪請求

體育要聞

一場安東尼奧式勝利,給中國足球帶來驚喜

娛樂要聞

蔡少芬結婚18周年,與張晉過二人世界

財經(jīng)要聞

倍輕松信披迷霧 實控人占用資金金額存疑

汽車要聞

增配不加價 北京現(xiàn)代 第五代 勝達2026款上市

態(tài)度原創(chuàng)

游戲
健康
家居
公開課
軍事航空

從暴打猛男發(fā)展到捆綁美女,“戰(zhàn)敗CG”為什么變成這樣?

血常規(guī)3項異常,是身體警報!

家居要聞

包絡石木為生 野性舒適

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

官方確認:殲10CE在空戰(zhàn)中擊落多架戰(zhàn)機

無障礙瀏覽 進入關懷版