網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

NUS尤洋教授深度探討智能增長的瓶頸：或許我們將這樣實現(xiàn)AGI？

2025-12-31 14:07:47　來源: 機器之心Pro

北京舉報

分享至

機器之心發(fā)布

2026 年即將到來，AI 的發(fā)展也已經(jīng)進入了一個新的階段：我們已經(jīng)取得了驚人成就，卻同時面臨進一步增長的瓶頸。

新加坡國立大學(xué)（NUS）的尤洋教授近期發(fā)表了一篇深度分析：《智能增長的瓶頸》。

原文鏈接：https://zhuanlan.zhihu.com/p/1989100535295538013

在這篇分析文章中，尤洋教授從技術(shù)本質(zhì)出發(fā)，直指智能增長的核心矛盾，為我們揭示了 AGI（通用人工智能）的可能路徑。

觀點速覽

智能增長的本質(zhì)不是架構(gòu)變革，而是算力如何轉(zhuǎn)化為智能：AI 的核心智能來自于預(yù)訓(xùn)練及其 Loss 結(jié)構(gòu)（例如 GPT 的 Next-Token Prediction）。這些機制更像是把算力轉(zhuǎn)化為智能的方法，而非智能本身。

現(xiàn)有智能增長遇到瓶頸的根源：當(dāng)前范式（Transformer + 超大算力）在面對進一步增長時，難以充分消化不斷增長的算力資源，這導(dǎo)致了所謂 “預(yù)訓(xùn)練紅利遞減”。

算力并不是無限擴展就能解決問題：即使算力指數(shù)級增長，如果現(xiàn)有算法無法有效利用這些計算資源，智能提升仍將受限。

未來方向不在于工程優(yōu)化，而是底層范式突破：文章探討了更高精度計算、更高階優(yōu)化器、更靈活的 Loss 設(shè)計、超大規(guī)模訓(xùn)練策略等潛在突破點。

AI 未來仍然樂觀：智能增長瓶頸雖強，但仍有可能通過更好的算力利用方式被克服。預(yù)訓(xùn)練可能才剛剛開始，大模型智能仍有巨大的發(fā)展空間。

AGI 的未來將如何發(fā)展？讓我們拭目以待。

尤洋教授，《智能增長的瓶頸》作者

以下為其分享原文：

智能增長的瓶頸

2026 年已至。在 ChatGPT 誕生三年多后的今天，關(guān)于我們的智能水平是否令人滿意，以及未來是否還能強勁增長，筆者想分享一些個人的看法。如有謬誤，懇請大家指正。

為了能深入探討智能的本質(zhì)，本文將不涉及產(chǎn)品易用性、成本等商業(yè)化或落地問題，因為這些本質(zhì)上與智能突破本身無關(guān)。

1. 智能的現(xiàn)狀

什么是智能？其實目前并沒有一個明確的定義。

從最近圖靈獎得主 Yann LeCun 和諾貝爾獎得主 Demis Hassabis 關(guān)于 AGI 的爭論中，我感受到即便是世界上最頂尖的專家也無法準(zhǔn)確定義智能。

個人感覺，AGI 很難定義，其標(biāo)準(zhǔn)也會隨著時代的變化而變化。我依然記得十幾年前，普通人對人臉識別技術(shù)感到不可思議。如果把今天的 ChatGPT 拿到 2006 年，相信那時候的很多人會毫不懷疑地認(rèn)為我們已經(jīng)實現(xiàn)了 AGI。

我覺得智能的核心是預(yù)測創(chuàng)作

我認(rèn)為如果達到以下這種狀態(tài)，那么就離 AGI 不遠(yuǎn)了：

如果你選擇接受哪個工作 Offer，完全聽從 AI 的意見。
如果你買足球彩票預(yù)測世界杯冠軍，完全聽從 AI 的意見。
如果你有健康問題，會完全采用 AI 制定的方案去治療。
你分辨不清楚一部奧斯卡最佳電影是否是由 AI 生成的。
石油公司的勘探團隊用 AI 替代了所有數(shù)值算法。
AI 能指導(dǎo)初級高鐵工程師在 5 分鐘內(nèi)排除高鐵的疑難故障。
AI 能研制出一款專殺癌細(xì)胞且不破壞好細(xì)胞的藥物。
AI 能通過某區(qū)域的地下結(jié)構(gòu)數(shù)據(jù)，精準(zhǔn)預(yù)測地震的時間。
等等……

今天，我們顯然還沒實現(xiàn)這些。未來能否實現(xiàn)，取決于我們能否克服智能發(fā)展的瓶頸。

2. 智能發(fā)展的瓶頸

今天，我們經(jīng)常聽到一些關(guān)于智能發(fā)展遇到瓶頸，或者預(yù)訓(xùn)練紅利已盡的觀點。何為瓶頸？我們先探討一下智能從何而來。

過去 10 年，AI 大模型的技術(shù)本質(zhì)，是把電力能源通過計算過程轉(zhuǎn)化為可復(fù)用的智能。技術(shù)的好壞取決于這個轉(zhuǎn)化效率的高低。類似的表述，我也聽月之暗面的朋友提及過。

今天模型的智能本身，最主要還是來自預(yù)訓(xùn)練（往往是自監(jiān)督方法），僅有少量來自微調(diào)或強化學(xué)習(xí)。

為什么？先算一筆淺顯的經(jīng)濟賬：因為預(yù)訓(xùn)練消耗的算力最多，消耗的能源也最多。

當(dāng)然，預(yù)訓(xùn)練、微調(diào)、強化學(xué)習(xí)本質(zhì)上都是在計算梯度以更新參數(shù)。如果有合適的海量數(shù)據(jù)和 Loss 函數(shù)，未來在預(yù)訓(xùn)練階段采用 SFT（監(jiān)督微調(diào)）或特殊的強化學(xué)習(xí)方法也有可能。

從智能增長的角度，我們甚至不用刻意區(qū)分預(yù)訓(xùn)練、SFT 和強化學(xué)習(xí)。它們的區(qū)別主要在于更新參數(shù)的次數(shù)與規(guī)模。從計算本質(zhì)上看：預(yù)訓(xùn)練、微調(diào)、強化學(xué)習(xí)（比如 GRPO）都是在計算梯度的類似物，并用它來更新參數(shù)。

那么，能源從何而來呢？這就是 GPU 或算力。英偉達在這點上做了最大的貢獻。雖然英偉達有很多先進的技術(shù)，比如更強的 Tensor Cores、Transformer Engine、互聯(lián)技術(shù)（NVLink / 網(wǎng)絡(luò)化 NVLink）、軟件棧等，但我先試圖用一句話說清楚英偉達過去幾年在技術(shù)上做的最重要的事情，即其 GPU 設(shè)計的核心思路。

簡而言之，英偉達過去幾年最重要的路線是：在同樣的物理空間里堆更多 HBM（高帶寬內(nèi)存）

HBM 雖然帶寬很高，但依然是計算核心之外的內(nèi)存（Off-chip from logic die），與計算核心存在不可忽略的物理距離。為了掩蓋內(nèi)存訪問延遲，GPU 只能依賴超大的 Batch Size（批處理量）和大規(guī)模并行來處理數(shù)據(jù)。英偉達 GPU 本質(zhì)上就是一臺并行計算機。

因此，英偉達對算法層和軟件層的要求非常明確：必須提供足夠大的 Batch Size 或并行度。

面對英偉達的要求，很多研究團隊都提出了自己的方案。比如 RNN、Transformer、卷積序列模型（CNN for Sequence）等等。甚至有人嘗試用 SVM 來處理大規(guī)模序列數(shù)據(jù)。

那為什么 Transformer 率先脫穎而出？因為 Transformer 也是一臺并行計算機。

原初的 Transformer 架構(gòu)

這里我引用一下 Ilya Sutskever 的一句話：“Transformers: parallel computers in disguise”，直白的意思是：Transformer 本質(zhì)上是一個被神經(jīng)網(wǎng)絡(luò)外殼包裹起來的并行計算機。這也是 Transformer 最先能夠顯現(xiàn)智能的核心原因，因為它的并行計算特性完美匹配了 GPU 的并行計算單元

同時，OpenAI 完美地實現(xiàn)了Next-Token Prediction這個 Loss 函數(shù)，它給了 AI 大模型近乎無限的訓(xùn)練數(shù)據(jù)。理論上 BERT 的 Loss 函數(shù)（完形填空和 Next Sentence Prediction）也可以提供近乎無限的數(shù)據(jù)，但在實踐中，Next-Token Prediction 的效果明顯更好。

我推測，這個 Loss 函數(shù)最小化了人類的干預(yù) —— 它不是人為設(shè)計的，而是大自然在進化過程中賦予人腦的邏輯。并且，Next-Token Prediction 其實是預(yù)測未來，而 BERT 的完形填空其實是把過去的信息和現(xiàn)在的信息串聯(lián)起來。這就好比讓一個足球?qū)＜腋鶕?jù)歷史數(shù)據(jù)和當(dāng)天的比賽結(jié)果去解釋合理性，幾乎所有專家都能做到；但是，如果讓專家去預(yù)測每一場比賽的精準(zhǔn)比分，他們會經(jīng)常出錯。這再次說明了，預(yù)測 (Prediction) 是智能的核心能力體現(xiàn)，難度遠(yuǎn)高于解釋 (Explanation)

其實我挺佩服 OpenAI 團隊能夠堅持下來的勇氣。2018 年時，BERT 在媒體上的影響力幾乎完全碾壓了 GPT，且當(dāng)時 OpenAI 的 AI 研發(fā)團隊體量跟 Google 比起來微不足道。很佩服他們沒有放棄 Next-Token Prediction，也沒有轉(zhuǎn)向類 BERT 的訓(xùn)練方式。真理往往需要時間去檢驗。

BERT 對比 GPT

同時，以 Transformer 為核心的方案收獲了 “一箭雙雕” 的雙重優(yōu)勢：

模型的每層參數(shù)量越多，并行度就越高 (Tensor Parallelism)。所以，只要通信代價不顯著增加，能同時利用的算力就越多。這點需要點贊行業(yè)領(lǐng)導(dǎo)者的先見之明。幾年前，我看到 CNN 時代有研究人員試圖把模型往深度發(fā)展，比如設(shè)想 1000 層的神經(jīng)網(wǎng)絡(luò)。其實非常深（層數(shù)非常多）的神經(jīng)網(wǎng)絡(luò)是不利于有效利用算力的，因為流水線并行提供的并行度上限不高。
Transformer 的不同 Token 可以同時計算。序列長度越長，并行度就越高，只要通訊代價不顯著增加，能同時利用的算力就越多。Sequence Parallelism 與 Data Parallelism 互補，進一步提供了更多的并行度。

就這樣，我們見證了 GPT-1、BERT、GPT-2、GPT-3、ChatGPT、Gemini 一步一步把智能提升到了今天的高度。

到這里，大家大概也清楚為什么 AI 模型的智能增長會遇到瓶頸了 —— 因為我們現(xiàn)在的范式無法充分消化持續(xù)增長的算力

假定一次模型訓(xùn)練和微調(diào)消耗的浮點數(shù)計算次數(shù)（即程序員面試中的計算復(fù)雜度的具體值）從 10? 變成 10??3 時，我們是否獲得了一個顯著更好的模型？

其實，很多時候我們把 “效率優(yōu)化技術(shù)” 和 “智能提升技術(shù)” 混淆了。比如，明天我提出一個新的架構(gòu)，實驗發(fā)現(xiàn)達到跟 GPT-5 類似的效果，只需要 20% 的參數(shù)量或計算量。這其實更多是落地或商業(yè)化問題；智能的終極問題是：使用同樣的浮點數(shù)計算次數(shù)（而非 Token 量），能否獲得一個更好的模型。浮點數(shù)計算次數(shù)，才是算力最基本、最本質(zhì)的計量單位。

3. 未來的方法探討

首先從硬件層來看，我們需要持續(xù)產(chǎn)生更大的絕對算力，這不一定局限于單位芯片上的算力提升。

前沿規(guī)模機器學(xué)習(xí)模型訓(xùn)練所用計算量的趨勢，圖源：Epoch AI

即便單位芯片上的算力沒有大幅度提升，我們通過集群的方式也能構(gòu)建更大的絕對算力。這里需要平衡的是：聚集芯片帶來的性能增長，要高于 “芯片或服務(wù)器之間通信增長帶來的負(fù)擔(dān)”。

所以，具體的硬指標(biāo)就是：增長或至少維持住 “計算開銷/通信開銷” 這個比值。這是整個 AI 基礎(chǔ)設(shè)施層最核心的技術(shù)目標(biāo)。要想實現(xiàn)這個目標(biāo)，我們需要擴展性更好的并行計算技術(shù)，無論是軟件還是硬件。

更上層的探索中，我們需要讓 AI 模型在單位時間內(nèi) “吃下” 更多能源，并真正將其轉(zhuǎn)化為智能。個人感覺大概有以下幾點方向：

更高精度的計算能力。今天，從 FP16 到 FP32，甚至 FP64，模型智能并未出現(xiàn)明顯躍升。這本身就是一個瓶頸。理論上，更高精度應(yīng)當(dāng)帶來更可靠的計算結(jié)果，這一點在傳統(tǒng)科學(xué)計算中早已得到驗證。這個觀點可能與主流機器學(xué)習(xí)共識并不一致，而且真正發(fā)生可能需要很長時間，但從本質(zhì)上看，智能仍然需要更精準(zhǔn)的計算。這與過擬合并無直接關(guān)系，過擬合的根源在于數(shù)據(jù)規(guī)模不足或參數(shù)與數(shù)據(jù)不匹配。
更高階的優(yōu)化器。 Google 的朋友告訴我，他們有時候已經(jīng)不用類 Adam 優(yōu)化器，而是用更高階的優(yōu)化器在訓(xùn)練模型。高階優(yōu)化器理論上能在學(xué)習(xí)過程中給模型更好的指導(dǎo)，算出更好的梯度，這是模型智能提升的本質(zhì)。當(dāng)然，高階優(yōu)化器的全面替代可能需要很長的時間。
擴展性更好的模型架構(gòu)或 Loss 函數(shù)。我們?nèi)匀恍枰环N擴展性更好的整合和利用算力的方式。這點我們需要注意：優(yōu)化效率不一定能提升智能。比如 Mamba 出來的時候，宣傳重點是吞吐量的提升，用更小的模型獲得同水平的智能。但是，本文關(guān)注的是：在最健全的 AI 基礎(chǔ)設(shè)施上，用最大的可接受成本，能否訓(xùn)出更好的模型，獲得更高的智能。比如，今天 Google 告訴你：預(yù)算 300 億美元，半年內(nèi)給我訓(xùn)出一個更好的模型，不考慮省錢問題，花 10 億和花 100 億沒區(qū)別。在這個場景下，你最終是否會用 Mamba 這樣的架構(gòu)？你是否需要設(shè)計更好的 Loss 函數(shù)？
更多的 Epoch 和更好的超參數(shù)。迫于成本壓力，我們今天其實并沒有對 AI 模型進行深度優(yōu)化，甚至沒有深度搜索超參數(shù)。這其實也是我之所以對 AI 模型的智能繼續(xù)增長有信心的原因。我這里的意思不是直接訓(xùn)練更多的 Epoch。明知無效卻生硬地跑更多 Epoch 其實是方法不對（比如參數(shù)量和數(shù)據(jù)量不匹配）。但是，根本上，更多的 Epoch 代表更多的浮點數(shù)、更多的能源。我們需要找到方法去 “吃下” 更多能源，并轉(zhuǎn)化出更高智能。

有些技術(shù)對大規(guī)模落地 AI 非常重要，比如低精度訓(xùn)練、剪枝、量化、蒸餾、PD 分離等推理優(yōu)化技術(shù)。但是，在一個 “算力轉(zhuǎn)智能” 極端有效的情況下，這些技術(shù)跟提升智能上限無關(guān)。筆者對這些技術(shù)的貢獻者非常尊重，它們在實際落地中至關(guān)重要，只是與本文探討的主題無關(guān)。

智能增長歸根到底還是算力利用問題。假定算力無限大，比如一個集群的算力達到今天的萬億倍，可能我們會發(fā)現(xiàn)更簡單的模型結(jié)構(gòu)比 Transformer 和 Next-Token Prediction 的擴展性更好。從 SVM 到 CNN、LSTM、BERT、GPT、MoE：我們始終在尋找能更高效利用算力且具備更好擴展性的方法。這個過程中，核心原因是問題的規(guī)模在不斷擴大。

我們在 AI 時代到來之前便已實現(xiàn)天氣預(yù)報，然而至今仍未能攻克地震預(yù)報，盡管兩者本質(zhì)上都是針對地球數(shù)據(jù)的研究。究其原因，地下結(jié)構(gòu)涉及比大氣更加錯綜復(fù)雜、且變量規(guī)模呈指數(shù)級龐大的動態(tài)多模態(tài)數(shù)據(jù)。這種傳統(tǒng)計算模式難以駕馭的高維復(fù)雜性，恰恰是未來 AI 技術(shù)大有可為的機遇所在。

所以，我有信心我們未來會不斷找到更高效的算力使用方式。雖然過程中可能會有很多困難和低潮，但大趨勢不可阻擋。

最后，借用 Richard Sutton 教授的一句話收尾：人工智能 70 年的研究留給我們最大的經(jīng)驗教訓(xùn)是，依托計算能力的通用方法才是最終的贏家，且具備壓倒性的優(yōu)勢。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.