国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

llya最新判斷:Scaling Laws逼近極限,AI暴力美學(xué)終結(jié)

0
分享至


在硅谷的敘事體系里,Ilya Sutskever 是一個少數(shù)可以被稱作“圖騰”的名字。

作為 ImageNet 革命的重要推手、OpenAI 的聯(lián)合創(chuàng)始人、GPT 系列的關(guān)鍵締造者,他幾乎定義了過去十年深度學(xué)習(xí)的前進(jìn)方向。

但就在全球產(chǎn)業(yè)都把賭注押在“堆更多 GPU、做更大模型”之上,試圖用規(guī)模化

(Scaling)
去撞開 AGI 的大門時,這位技術(shù)奠基者選擇了另一條路:創(chuàng)立SSI。

11 月 26 日凌晨,Safe Superintelligence

(SSI)
首席執(zhí)行官、OpenAI 聯(lián)合創(chuàng)始人伊利亞·蘇茨克維
(Ilya Sutskever,下稱蘇茨克維)
在接受播客主持人德瓦克什·帕特爾采訪時,罕見系統(tǒng)地談?wù)摿怂麑Ξ?dāng)前 AI 路徑的核心判斷:

1、預(yù)訓(xùn)練時代的突破在于,它提供了一套可復(fù)用、幾乎必然奏效的“配方”:準(zhǔn)備足夠的數(shù)據(jù)、算力和一個能撐住規(guī)模的模型結(jié)構(gòu),性能就會持續(xù)上升。

如今,規(guī)模法則正在接近極限。強化學(xué)習(xí)的算力消耗巨大,卻并不能算作真正的“擴展”。同時,擴展與浪費算力之間的界線變得模糊。

這意味著行業(yè)正在從“規(guī)模驅(qū)動”重新回到“研究驅(qū)動”。科研確實需要算力,但并不需要絕對最多的算力。真正需要的是正確的問題和新的方法。

2、停滯時代的 AI 公司將趨同,但仍能賺取巨額收入。就算創(chuàng)新放緩,各公司依舊會取得顯著進(jìn)展并獲得高額收入。差異化可能變得更難,但“停滯”并不意味著“衰落”。

如果模型被限定在某些領(lǐng)域,它們一樣可以極其強大,你可以擁有許多功能狹窄的超級智能。

3、人類能迅速學(xué)習(xí),是因為進(jìn)化內(nèi)置了強大的通用學(xué)習(xí)機制。人類學(xué)習(xí)速度快,不是因為我們預(yù)裝了大量知識,而是因為進(jìn)化為我們挑選了一小批極其有用的先驗。

我們之所以能在極短時間內(nèi)掌握技能,是因為大腦就是一種高度通用、極其高效的學(xué)習(xí)系統(tǒng)。這為人工智能提供了啟發(fā):未來的突破來自更強的學(xué)習(xí)方式,而不是簡單擴展規(guī)模。

4、當(dāng) AI 足夠強時,許多今天不存在的社會行為會出現(xiàn)。強大的 AI 很可能帶來“全民高收入”,極大提升生產(chǎn)力,政治結(jié)構(gòu)、體制與治理方式都會隨之重塑。

在這種世界里,每個人都將擁有一個為自己行動的 AI。真正的風(fēng)險在于,人類可能逐漸從參與者變成旁觀者。保持主體性的答案之一,是與 AI 建立更深層的耦合,讓人類繼續(xù)能夠理解并參與 AI 所處的情境,腦機接口是一個可行的方案。

5、超級智能最令人擔(dān)憂的并不是它的意圖,而是它的力量:當(dāng)一個系統(tǒng)強大到足以決定一切時,即便它的目標(biāo)是善意的,人類仍可能不喜歡它實現(xiàn)目標(biāo)的方式。力量本身就是風(fēng)險,而非動機。

6.真正的研究品味來自對“美學(xué)信念”的堅持:美、簡潔、優(yōu)雅。

研究品味來自對簡單而清晰的信念的堅持:人工智能應(yīng)該符合大腦的本質(zhì)結(jié)構(gòu),但要以正確方式理解大腦。

重要的不是大腦的形狀,而是神經(jīng)元的數(shù)量、連接的可塑性,以及通過局部規(guī)則從經(jīng)驗中學(xué)習(xí)的能力。這些是“事情本該如此”的基礎(chǔ)。

當(dāng)這些元素同時出現(xiàn)時,你才會對方法產(chǎn)生真正的信心。這種信心,就是自上而下的信念:當(dāng)數(shù)據(jù)暫時不支持你的猜想時,它仍能支撐你繼續(xù)前進(jìn),因為你相信背后存在內(nèi)在的正確性。

以下為蘇茨克維專訪實錄:

模型考試滿分,實戰(zhàn)翻車

伊利亞·蘇茨克維爾:你知道最不可思議的是什么嗎?這一切都是真的。

德瓦爾凱什·帕特爾:什么意思?

伊利亞·蘇茨克維爾:你不覺得嗎?所有這些人工智能的東西,還有舊金山灣區(qū)的一切……這一切都在發(fā)生。這難道不是科幻小說里的情節(jié)嗎?

德瓦爾凱什·帕特爾:還有一點很不可思議,那就是人工智能緩慢起步的感覺竟然如此正常。想想我們之前計劃將GDP的1%投資于人工智能,我覺得這應(yīng)該是一件大事,但現(xiàn)在卻感覺……

伊利亞·蘇茨克維爾:事實證明,我們很快就能習(xí)慣一些事情。但這同時也有點抽象。這意味著什么呢?這意味著你會在新聞里看到某某公司宣布了某某金額的融資。你看到的就只有這些。到目前為止,你還沒有真正感受到其他任何形式的影響。

德瓦爾凱什·帕特爾:我們真的應(yīng)該從這里開始嗎?我覺得這是一個很有意思的討論。

伊利亞·蘇茨克維爾:當(dāng)然。

德瓦爾凱什·帕特爾:我認(rèn)為你的觀點,即從普通人的角度來看,一切都沒有太大的不同,即使在奇點到來之后也仍然成立。

伊利亞·蘇茨克維爾:不,我不這么認(rèn)為。

德瓦爾凱什·帕特爾:好的,有意思。

伊利亞·蘇茨克維爾:我之前提到的那種感覺,就是感覺沒什么不同,比如說,某某公司宣布了一筆數(shù)額巨大的投資,金額之大令人難以置信。我覺得沒人知道該怎么應(yīng)對這筆投資。

但我認(rèn)為人工智能的影響終將顯現(xiàn)。人工智能將會滲透到經(jīng)濟的各個領(lǐng)域。這將受到非常強大的經(jīng)濟力量的推動,我認(rèn)為其影響將會非常顯著。

德瓦爾凱什·帕特爾:你預(yù)計何時會產(chǎn)生影響?我認(rèn)為這些模型看起來比它們所暗示的經(jīng)濟影響要更智能。

伊利亞·蘇茨克維爾:是的。這正是目前這些模型最令人困惑的地方之一。如何解釋它們在評估中表現(xiàn)如此出色這一事實?你看那些評估結(jié)果,會覺得“這些評估相當(dāng)嚴(yán)格”。它們的表現(xiàn)確實非常出色。但經(jīng)濟影響似乎卻遠(yuǎn)遠(yuǎn)滯后。這很難理解,一方面,模型能做出如此驚人的預(yù)測,另一方面,在某些情況下,它們又會重復(fù)同樣的錯誤兩次?

舉個例子,假設(shè)你用Vibe Code來做某件事。你去某個地方,然后遇到了一個bug。你告訴模型:“你能修復(fù)一下這個bug嗎?”模型說:“我的天哪,你說得太對了。我的確遇到了一個bug。讓我去修復(fù)它!

然后它又引入了第二個bug。接著你告訴它:“你又遇到了第二個bug。”它又說:“我的天哪,我怎么會犯這種錯誤?你又說對了!比缓笏职训谝粋bug放了回來,你可以交替地在這兩個bug之間切換。這怎么可能呢?我也不確定,但這確實表明有些奇怪的地方正在發(fā)生。

我有兩種可能的解釋。比較異想天開的解釋是,強化學(xué)習(xí)訓(xùn)練可能使模型過于單一、過于狹隘,缺乏一定的感知能力,盡管它也在某些方面提升了模型的感知能力。正因如此,它們無法完成一些基本任務(wù)。

但還有另一種解釋。以前人們進(jìn)行預(yù)訓(xùn)練的時候,訓(xùn)練數(shù)據(jù)的選擇問題已經(jīng)有了答案,因為答案就是所有數(shù)據(jù)。預(yù)訓(xùn)練需要所有數(shù)據(jù),所以你不需要考慮是用哪些數(shù)據(jù)。

但是,當(dāng)人們進(jìn)行強化學(xué)習(xí)訓(xùn)練時,他們確實需要思考。他們會說:“好的,我們希望針對這個事物進(jìn)行這種強化學(xué)習(xí)訓(xùn)練,針對那個事物進(jìn)行那種強化學(xué)習(xí)訓(xùn)練!

據(jù)我所知,所有公司都有團(tuán)隊負(fù)責(zé)創(chuàng)建新的強化學(xué)習(xí)環(huán)境,并將其添加到訓(xùn)練組合中。問題是,這些環(huán)境究竟是什么?自由度如此之高。你可以創(chuàng)建種類繁多的強化學(xué)習(xí)環(huán)境。

有一件事你可以做,那就是人們會從評估結(jié)果中汲取靈感。你會想:“嘿,我希望我們的模型發(fā)布時表現(xiàn)非常出色。我希望評估結(jié)果看起來很棒。什么樣的強化學(xué)習(xí)訓(xùn)練可以幫助我們完成這項任務(wù)呢?”我認(rèn)為這種情況確實存在,而且它或許可以解釋很多正在發(fā)生的事情。

如果將這一點與模型泛化能力不足的情況結(jié)合起來,就有可能解釋我們所看到的很多現(xiàn)象,即評估性能與實際現(xiàn)實世界性能之間的脫節(jié),而我們今天甚至還不理解這種脫節(jié)意味著什么。

德瓦爾凱什·帕特爾:我喜歡這種觀點,即真正的獎勵機制被濫用的是那些過于關(guān)注評估結(jié)果的人類研究人員。

我認(rèn)為有兩種方法可以理解或思考你剛才提出的觀點。第一種方法是,如果一個模型僅僅在編程比賽中表現(xiàn)得像超人一樣,并不會自動變得更有品味,也不會對如何改進(jìn)代碼庫做出更好的判斷,那么你應(yīng)該擴展測試環(huán)境,使其不僅僅局限于在編程比賽中的最佳表現(xiàn)。它還應(yīng)該能夠針對特定需求(例如 X、Y 或 Z)開發(fā)出最佳的應(yīng)用程序。

另一種觀點,或許這正是你想表達(dá)的,那就是:“為什么在編程競賽中取得超人般的成績,就不能讓你成為一個更優(yōu)秀的程序員呢?”或許正確的做法并非一味地增加比賽環(huán)境的數(shù)量和種類,而是找到一種方法,讓你能夠從一種環(huán)境中學(xué)習(xí),并提升你在其他環(huán)境中的表現(xiàn)。

伊利亞·蘇茨克維爾:我有一個可能對你有幫助的類比。既然你提到了算法競賽,我們就以它為例。假設(shè)有兩個學(xué)生,其中一個學(xué)生立志成為最優(yōu)秀的算法競賽選手,于是他投入一萬個小時練習(xí)這個領(lǐng)域。他會解決所有問題,記住所有證明技巧,并且能夠快速準(zhǔn)確地實現(xiàn)所有算法。通過這種方式,他最終成為了頂尖選手之一。

二號學(xué)生心想:“哦,編程競賽真酷。”也許他練習(xí)了100個小時,甚至更少,但他也取得了非常好的成績。你認(rèn)為哪位學(xué)生將來在職業(yè)生涯中會發(fā)展得更好?

德瓦爾凱什·帕特爾:第二個。

伊利亞·蘇茨克維爾:沒錯。我覺得基本上就是這樣。這些模型更像第一個學(xué)生,甚至更勝一籌。因為我們會說,這個模型應(yīng)該擅長算法競賽,所以我們會收集所有曾經(jīng)出現(xiàn)過的算法競賽題目。然后我們進(jìn)行一些數(shù)據(jù)增強,這樣我們就有了更多的算法競賽題目,并用這些題目進(jìn)行訓(xùn)練,F(xiàn)在,你就得到了一個非常優(yōu)秀的算法競賽選手。

我覺得用這個比喻更容易理解。沒錯,如果它訓(xùn)練得這么好,所有不同的算法和證明技巧它都能輕松掌握。但更直觀的是,即使它具備了這種能力,也未必能推廣到其他領(lǐng)域。

德瓦爾凱什·帕特爾:那么,第二個學(xué)生在進(jìn)行 100 小時的精細(xì)調(diào)整之前所做的事情,又該如何類比呢?

伊利亞·蘇茨克維爾:我覺得他們具備那種“特質(zhì)”。那種“特質(zhì)”。我記得我讀本科的時候,有個學(xué)生就是這樣,所以我知道這種特質(zhì)是存在的。

德瓦爾凱什·帕特爾:我認(rèn)為區(qū)分“它”和預(yù)訓(xùn)練本身的作用很有意思。理解你剛才說的預(yù)訓(xùn)練不需要選擇數(shù)據(jù),其實可以把它理解為和一萬小時的練習(xí)很相似。只不過這一萬小時的練習(xí)是免費的,因為它已經(jīng)存在于預(yù)訓(xùn)練數(shù)據(jù)分布中了。但也許你的意思是預(yù)訓(xùn)練的泛化能力其實并不強。預(yù)訓(xùn)練的數(shù)據(jù)量雖然很大,但它的泛化能力并不一定比強化學(xué)習(xí)更好。

伊利亞·蘇茨克維爾:預(yù)訓(xùn)練的主要優(yōu)勢在于:A,數(shù)據(jù)量非常龐大;B,你無需費心考慮應(yīng)該使用哪些數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。這些數(shù)據(jù)非常自然,包含了人們的許多行為特征:人們的想法和許多個人特征。它就像是人們將整個世界投射到文本上的過程,而預(yù)訓(xùn)練正是試圖利用海量數(shù)據(jù)來捕捉這種投射。

預(yù)訓(xùn)練很難理解,因為很難明白模型是如何依賴預(yù)訓(xùn)練數(shù)據(jù)的。模型出錯時,會不會是因為某些信息恰好沒有得到預(yù)訓(xùn)練數(shù)據(jù)的充分支持?“預(yù)訓(xùn)練的支持”或許只是個不太準(zhǔn)確的說法。我不知道還能補充什么有用的信息。我認(rèn)為人類的某些行為方式與預(yù)訓(xùn)練并無直接對應(yīng)。

情緒,是一種價值函數(shù)

德瓦爾凱什·帕特爾:以下是一些人們提出的關(guān)于人類“前期訓(xùn)練”的類比。我很想聽聽你們的看法,為什么這些類比可能存在問題。一種類比是思考一個人生命的前18年、15年或13年,這段時間他們未必具有經(jīng)濟生產(chǎn)力,但他們所做的事情讓他們更好地理解世界等等。另一種類比是將進(jìn)化想象成一場持續(xù)30億年的探索,最終形成了人類的一生。

我很好奇你是否認(rèn)為這兩者類似于預(yù)先訓(xùn)練。如果不是預(yù)先訓(xùn)練,你會如何看待人類終身學(xué)習(xí)?

伊利亞·蘇茨克維爾:我認(rèn)為這兩者與預(yù)訓(xùn)練有一些相似之處,預(yù)訓(xùn)練試圖同時扮演這兩者的角色。但我認(rèn)為它們之間也存在一些很大的差異,預(yù)訓(xùn)練數(shù)據(jù)的數(shù)量非常非常龐大。

德瓦爾凱什·帕特爾:是的。

伊利亞·蘇茨克維爾:不知何故,即使人類擁有預(yù)訓(xùn)練數(shù)據(jù)的一小部分,經(jīng)過15年的訓(xùn)練,他們所掌握的知識仍然遠(yuǎn)不及人工智能。但無論他們掌握了什么,他們的理解都更加深刻。到了那個年紀(jì),你都不會犯人工智能會犯的錯誤。

還有一點。你可能會問,這會不會跟進(jìn)化有關(guān)?答案是也許吧。但就這件事而言,我認(rèn)為進(jìn)化論可能更有優(yōu)勢。我記得讀過相關(guān)的案例。神經(jīng)科學(xué)家了解大腦的一種方法是研究大腦不同區(qū)域受損的人。有些人會出現(xiàn)你想象不到的奇怪癥狀。這真的很有意思。

我想到一個相關(guān)的案例。我讀到過一個人,他腦部受損,可能是中風(fēng)或意外事故,導(dǎo)致他喪失了情感處理能力。所以他不再能感受到任何情緒。他仍然能言善辯,也能解一些簡單的謎題,考試成績也一切正常。但他感覺不到任何情緒。他不會感到悲傷,不會感到憤怒,也不會感到興奮。不知何故,他變得極其不擅長做任何決定。他甚至要花幾個小時才能決定穿哪雙襪子。他在財務(wù)方面也會做出非常糟糕的決定。

這說明我們與生俱來的情感在使我們成為合格的行動主體方面扮演著怎樣的角色?說到你提到的預(yù)訓(xùn)練,如果你能充分發(fā)揮預(yù)訓(xùn)練的優(yōu)勢,或許也能達(dá)到同樣的效果。但這似乎……嗯,預(yù)訓(xùn)練是否真的能達(dá)到這種效果還很難說。

德瓦爾凱什·帕特爾:“那”是什么?顯然不僅僅是情緒。它似乎是一種類似價值函數(shù)的東西,告訴你任何決定的最終回報應(yīng)該是什么。你認(rèn)為這不會在某種程度上隱含在預(yù)訓(xùn)練中嗎?

伊利亞·蘇茨克維爾:我覺得有可能。我只是說這并非百分之百確定。

德瓦爾凱什·帕特爾:你如何看待情緒?機器學(xué)習(xí)中情緒的類比是什么?

伊利亞·蘇茨克維爾它應(yīng)該是一種價值函數(shù)之類的東西。但我認(rèn)為目前還沒有很合適的機器學(xué)習(xí)類比,因為價值函數(shù)在人們的實際行為中并沒有扮演非常重要的角色。

德瓦爾凱什·帕特爾:如果你想這樣做,或許有必要向聽眾解釋一下什么是價值函數(shù)。

伊利亞·蘇茨克維爾:當(dāng)然,我很樂意這么做。目前強化學(xué)習(xí)的訓(xùn)練方法很簡單,人們是如何訓(xùn)練這些智能體的呢?首先,你需要一個神經(jīng)網(wǎng)絡(luò),然后給它一個問題,并告訴模型“去解決這個問題”。模型可能需要成千上萬次的動作、思考或其他操作,最終生成一個解決方案。然后,這個解決方案會被評分。

然后,這個分?jǐn)?shù)會被用來為你的軌跡中的每一個動作提供訓(xùn)練信號。這意味著,如果你正在執(zhí)行一個持續(xù)時間很長的任務(wù)——如果你正在訓(xùn)練一個需要很長時間才能解決的任務(wù)——那么在你找到建議的解決方案之前,它根本不會進(jìn)行任何學(xué)習(xí)。這就是強化學(xué)習(xí)的簡單實現(xiàn)方式。這就是O1和R1 的實現(xiàn)方式。

價值函數(shù)表達(dá)的意思類似于:“我或許有時(但并非總是)能告訴你你做得好還是不好!眱r值函數(shù)的概念在某些領(lǐng)域比其他領(lǐng)域更有用。例如,下棋時你剛丟了一個子。其實不用把整盤棋都走完,你就能立刻判斷——剛才那步是壞棋;而既然這步是錯的,那它之前的一連串布局和思路,多半也都偏了。

價值函數(shù)的作用,就是讓系統(tǒng)在中途就能發(fā)出這種“提前預(yù)警”,而不是等到終局才知道全局是否失敗。假設(shè)你正在進(jìn)行某種數(shù)學(xué)運算或編程,并試圖探索某個特定的解決方案或方向。經(jīng)過大約一千步的思考后,你得出結(jié)論,這個方向沒有希望。

在你得出這個結(jié)論的那一刻,你就可以提前一千步收到獎勵信號,也就是在你決定沿著這條路徑前進(jìn)的時候。也就是說,在你真正想出解決方案之前很久,你就已經(jīng)告訴自己:“下次遇到類似情況,我不應(yīng)該再走這條路了!

德瓦爾凱什·帕特爾:DeepSeek R1 論文指出,軌跡空間龐大且復(fù)雜,導(dǎo)致模型很難從中間軌跡與最終價值之間學(xué)到穩(wěn)定的映射。這一點在現(xiàn)實任務(wù)中非常常見。

例如,在編程中,你可能會有錯誤的想法,然后你會回頭修改,然后再修改一些東西。

伊利亞·蘇茨克維爾:這聽起來像是對深度學(xué)習(xí)缺乏信心。雖然很難,但我確信深度學(xué)習(xí)沒有上限!邦A(yù)期價值函數(shù)”這個概念非常強大,未來一定會被重用。

那個情感中樞失控的案例其實揭示了一個真相:人類的價值判斷情感,這就是在我們基因里的底層代碼中演化出來的。這種“情感關(guān)鍵點”,或許就是我們在社會中正常運轉(zhuǎn)的基石。

德瓦爾凱什·帕特爾:這正是我要問你的問題。關(guān)于價值函數(shù)中的情感因素,確實有一點非常有趣,那就是它們既實用又相當(dāng)容易理解,這一點令人印象深刻。

伊利亞·蘇茨克維爾:我有兩點思考。首先,與我們正在構(gòu)建的復(fù)雜人工智能相比,人類的情感機制其實意外地“簡單”。簡單到我們的未來甚至可能直接畫出它的“底層圖譜”,這本身就是一件很酷的事。

其次,這里存在一個“復(fù)雜度與成熟性”的博弈:復(fù)雜的東西可能非常有用,但簡單的東西才更有泛化性。我們的情感大多繼承自遠(yuǎn)古的價值資源祖先,只是在進(jìn)化中經(jīng)過了迭代。正因為它的機制足夠簡單、基礎(chǔ),才能具備極強的泛化能力,幫助我們在與祖先完全不同的現(xiàn)代社會中依然有效運作。

實際上,它們也會犯錯。例如,我們的情緒……嗯,其實我也不知道。饑餓算是一種情緒嗎?這還有待商榷。但我認(rèn)為,舉個例子,在這個食物豐富的世界里,我們憑直覺感受到的饑餓感并不能正確地引導(dǎo)我們。

Scaling Laws結(jié)束了,AI重回研究時代?

德瓦爾凱什·帕特爾:人們一直在討論數(shù)據(jù)擴展、參數(shù)擴展和計算擴展。有沒有更通用的擴展思路?還有哪些擴展維度?

伊利亞·蘇茨克維爾:這里有一個我認(rèn)為相當(dāng)關(guān)鍵的觀察。

過去的機器學(xué)習(xí)更多依賴研究者“不斷試錯”。大家嘗試各種模型和技巧,希望從中撞出一些有趣的結(jié)果——這是典型的“研究驅(qū)動時代”。

直到規(guī)模化法則出現(xiàn)。一旦人們意識到“只要把模型變大、數(shù)據(jù)變多、算力變強,性能就會上升”,整個行業(yè)立刻統(tǒng)一了方向!耙(guī);边@個詞之所以強大,就在于它直接告訴所有人:要做的就是擴大規(guī)模。而當(dāng)你進(jìn)一步追問“那我們到底要把什么放大”,答案很明確——預(yù)訓(xùn)練。

預(yù)訓(xùn)練的突破在于,它提供了一套可復(fù)用的“配方”。你只要準(zhǔn)備足夠的數(shù)據(jù)、算力和一個能撐住規(guī)模的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),就幾乎可以保證性能持續(xù)提升。這是一種極低風(fēng)險的投入方式。相比之下,投資基礎(chǔ)研究困難得多:你只能說“各位研究人員,請去探索、去創(chuàng)新”,至于能不能做出來,全靠運氣。而規(guī)模化預(yù)訓(xùn)練幾乎是“確定產(chǎn)出”。

從一些人在推特上的言論來看,Gemini 似乎找到了一種更有效地利用預(yù)訓(xùn)練的方法。然而,預(yù)訓(xùn)練終究會耗盡數(shù)據(jù)。數(shù)據(jù)顯然是有限的。接下來該怎么辦?要么進(jìn)行某種強化預(yù)訓(xùn)練,采用與以往不同的方法,要么進(jìn)行強化學(xué)習(xí),或者采取其他方法。

但如今計算能力如此龐大,某種程度上來說,我們又回到了研究時代。

或許可以換個說法,2012年至2020年,也就是2020年之前,是研究的時代。而現(xiàn)在,從2020年到2025年,是規(guī)模化的時代。

現(xiàn)在規(guī)模如此龐大。人們真的會認(rèn)為,“哦,規(guī)模這么大,但如果規(guī)模擴大100倍,一切都會截然不同”嗎?當(dāng)然會有所不同。但人們真的認(rèn)為只要規(guī)模擴大100倍,一切都會改變嗎?我不這么認(rèn)為。所以,我們又回到了研究時代,只不過多了大型計算機而已。

德瓦爾凱什·帕特爾:這真是個很有意思的說法。不過,我想問問你剛才提出的問題:我們究竟在擴展什么?制定一個“配方”又意味著什么?我猜想,在預(yù)訓(xùn)練階段,數(shù)據(jù)、計算量、參數(shù)和損失之間似乎不存在某種清晰的、近乎物理定律的關(guān)系。我們究竟應(yīng)該追求什么樣的關(guān)系?又該如何構(gòu)思這個新的“配方”呢?

伊利亞·蘇茨克維爾:我們已經(jīng)見證了規(guī)模化方式的轉(zhuǎn)變,從預(yù)訓(xùn)練轉(zhuǎn)向強化學(xué)習(xí)(RL),現(xiàn)在人們正在擴展強化學(xué)習(xí)。

根據(jù)推特上的討論,目前強化學(xué)習(xí)的計算資源消耗量超過了預(yù)訓(xùn)練,因為強化學(xué)習(xí)本身就非常消耗計算資源。強化學(xué)習(xí)需要進(jìn)行非常長的迭代,因此生成這些迭代需要大量的計算資源。而每次迭代的學(xué)習(xí)量相對較小,所以強化學(xué)習(xí)確實會消耗大量的計算資源。

但我并不認(rèn)為這能算作真正的“擴展”。換句話說,我會更傾向于問一句:

“你現(xiàn)在做的事情,是利用計算資源最有效率的方法嗎?”

我們之前討論過價值函數(shù)業(yè)務(wù)。也許一旦人們精通了價值函數(shù),他們就能更有效地利用資源。未來如果出現(xiàn)一種全新的訓(xùn)練范式,它一定會面臨同樣的質(zhì)疑:

“這是真正意義上的擴展,還是只是更昂貴的計算浪費?”

在今天這個階段,兩者之間的界線正變得越來越模糊。

從某種意義上說,過去的科研時代是這樣的:

“我們試試這個,再試試那個……哦,居然出了點有意思的東西!

我認(rèn)為這種狀態(tài)會重新回來。

德瓦爾凱什·帕特爾:如果我們回到研究時代,我們最需要思考的是方案中的哪一部分?你提到價值函數(shù),人們已經(jīng)在嘗試現(xiàn)有的方案,但同時也引入了LLM作為評判者等等。你可以說這就是價值函數(shù),但聽起來你似乎有更深層次的想法。我們是否應(yīng)該重新思考預(yù)訓(xùn)練,而不僅僅是在流程末尾添加更多步驟?

伊利亞·蘇茨克維爾:關(guān)于價值函數(shù)的討論,我覺得很有意思。我想強調(diào)的是,我認(rèn)為價值函數(shù)能夠提高強化學(xué)習(xí)的效率,而且我認(rèn)為這確實會帶來顯著的改變。但我覺得任何可以用價值函數(shù)實現(xiàn)的功能,不用價值函數(shù)也能實現(xiàn),只是速度會慢一些。我認(rèn)為最根本的一點是,這些模型的泛化能力遠(yuǎn)不如人類。這一點顯而易見,而且似乎是一個非常根本的問題。

/ 04 /

為什么人類比AI更擅長概括?

德瓦爾凱什·帕特爾:所以,關(guān)鍵就在這里:泛化能力。這里有兩個子問題。第一個是關(guān)于樣本效率的:為什么這些模型需要比人類多得多的數(shù)據(jù)才能學(xué)習(xí)?

第二個問題是,即使撇開數(shù)據(jù)量不談,為什么教模型理解我們想要的東西比教人類要難得多?對人類來說,我們并不一定需要可驗證的獎勵才能……你現(xiàn)在可能正在指導(dǎo)一群研究人員,你和他們交流,給他們看你的代碼,并向他們展示你的思考方式。他們從中學(xué)習(xí)你的思維方式以及他們應(yīng)該如何進(jìn)行研究。

你不需要為他們設(shè)定可驗證的獎勵,比如“好的,這是課程的下一部分,這是你課程的下一部分。哦,這次培訓(xùn)不太穩(wěn)定。” 不需要這種繁瑣的定制流程;蛟S這兩個問題實際上在某種程度上是相關(guān)的,但我很想探討第二個問題(更像是持續(xù)學(xué)習(xí)),以及第一個問題(感覺就像是樣本效率)。

伊利亞·蘇茨克維爾:你或許會想,人類樣本效率高的一個可能解釋是進(jìn)化。進(jìn)化賦予了我們少量但最有用的信息。對于視覺、聽覺和運動能力這類能力,我認(rèn)為有充分的理由相信進(jìn)化賦予了我們很多。

舉個例子。人類在靈巧度上的優(yōu)勢是巨大的。當(dāng)然,如果你在模擬環(huán)境里讓機器人經(jīng)歷海量訓(xùn)練,它們最終也能變得靈活。但要讓機器人像人類一樣在現(xiàn)實世界里快速掌握一項新技能,目前仍是非常遙遠(yuǎn)的目標(biāo)。

你可能會說:“那是因為我們在運動能力上有強大的先驗。”的確,我們的祖先必須具備高超的動作與平衡能力才能生存下來——想想松鼠那樣的靈敏性。因此,人類在運動和協(xié)調(diào)方面天生擁有某種深層次的結(jié)構(gòu)優(yōu)勢。

你也可以用同樣的道理來解釋視覺。我記得Yann LeCun說過,孩子們練習(xí)10個小時就能學(xué)會開車,這沒錯。但我們的視覺能力也很強。

至少對我來說,我還記得自己五歲的時候,那時我對汽車非常著迷。我確信,五歲時我對汽車的認(rèn)知能力就已經(jīng)足以勝任駕駛工作了。五歲的孩子接觸到的信息量非常有限。他們大部分時間都待在父母家,所以接觸到的信息種類非常匱乏。

但你也可以說,這或許也是進(jìn)化的一種表現(xiàn)形式。但在語言、數(shù)學(xué)和編程領(lǐng)域,可能并非如此。

德瓦爾凱什·帕特爾:它似乎仍然比模型更好。顯然,模型在語言、數(shù)學(xué)和編程方面都比普通人強。但它們在學(xué)習(xí)方面也比普通人強嗎?

伊利亞·蘇茨克維爾:是的,語言、數(shù)學(xué)和編程都表明,使人們擅長學(xué)習(xí)的因素可能并非復(fù)雜的先決條件,而是更根本的東西。

德瓦爾凱什·帕特爾:我不太明白。為什么會這樣呢?

伊利亞·蘇茨克維爾:因此,當(dāng)我們看到人類在某項技能上表現(xiàn)得極其可靠時,一個合理的推斷是:如果這項能力在數(shù)百萬、甚至數(shù)億年的進(jìn)化過程中對我們的祖先至關(guān)重要,那么人類之所以擅長它,很可能源于某種深層的進(jìn)化先驗——某種被隱秘編碼在我們認(rèn)知與身體結(jié)構(gòu)中的“默認(rèn)能力”。

但如果人類在一個極其新近才出現(xiàn)的領(lǐng)域中,也能展現(xiàn)出高度的能力、穩(wěn)定性和學(xué)習(xí)效率,那就更說明問題。這樣的能力很難靠漫長的自然選擇塑造而來,更可能反映的是:人類本身就具備更強的通用學(xué)習(xí)機制,一種類似“更先進(jìn)的機器學(xué)習(xí)系統(tǒng)”的能力。

德瓦爾凱什·帕特爾:我們應(yīng)該如何理解它?機器學(xué)習(xí)的類比是什么?它有幾個有趣的特點。它需要的樣本更少,而且更傾向于無監(jiān)督學(xué)習(xí)。一個青少年學(xué)開車也不是在獲得某種預(yù)先設(shè)定的、可驗證的獎勵。它的成功來自于他們與機器和環(huán)境的互動。它需要的樣本少得多,似乎更傾向于無監(jiān)督學(xué)習(xí),而且似乎更穩(wěn)健?

伊利亞·蘇茨克維爾:人類的韌性要強得多。人類的韌性真是令人震驚。

德瓦爾凱什·帕特爾:你有沒有一個統(tǒng)一的思路來解釋為什么所有這些事情會同時發(fā)生?有沒有一個機器學(xué)習(xí)的類比可以解釋類似的情況?

伊利亞·蘇茨克維爾:你之前提過一個問題:青少年駕駛員為何能在沒有外部指導(dǎo)的情況下,自我糾正并從經(jīng)驗中快速學(xué)習(xí)?

原因在于,他們擁有自己的價值體系,即一種對“好”與“壞”“做得對”與“做得錯”的內(nèi)在感知。這種普遍的感知能力在人類身上極其強大——除了少數(shù)與成癮相關(guān)的例外,它幾乎是穩(wěn)定而可靠的。

因此,當(dāng)一個青少年第一次上路時,他們能立刻“感覺到”自己的表現(xiàn):哪里不穩(wěn)、哪里不自信、哪里明顯開得不好。這種即時反饋會促使他們不斷調(diào)整。

再加上青少年極快的學(xué)習(xí)速度,大約十個小時左右,他們就能從完全不熟練,進(jìn)步到可以獨立駕駛。

德瓦爾凱什·帕特爾:人類似乎找到了某種解決方案,但我很好奇他們是如何做到的,以及為什么會這么難?我們需要如何重新構(gòu)思訓(xùn)練模型的方式才能實現(xiàn)這樣的目標(biāo)?

伊利亞·蘇茨克維爾:這是個非常好的問題,我其實有很多想法。不過遺憾的是,我們?nèi)缃袼幍沫h(huán)境并不允許所有機器學(xué)習(xí)的理念被公開討論,而你提到的方向正屬于這類敏感話題之一。

我只能說,我認(rèn)為它在原理上是可行的,而且某些人對這個議題的態(tài)度本身,就已經(jīng)暗示了它的可行性。至于具體怎么實現(xiàn),也許是可以做到的——但這部分恐怕不適合在公開場合展開。

不過,可能還存在另一個障礙,那就是人類神經(jīng)元的計算能力可能比我們想象的要強。如果真是如此,而且這確實發(fā)揮著重要作用,那么事情可能會更加復(fù)雜。但無論如何,我認(rèn)為這確實指向某種機器學(xué)習(xí)原理的存在,而我對這種原理有一些自己的看法。可惜的是,由于種種原因,我很難對此進(jìn)行深入探討。

/ 05 /

規(guī)模化扼殺了所有創(chuàng)新空間

德瓦爾凱什·帕特爾:我很好奇。如果我們真的回到科研時代,現(xiàn)在的氛圍會是什么樣的呢?

例如,即使在AlexNet之后,用于運行實驗的計算量仍然持續(xù)增長,前沿系統(tǒng)的規(guī)模也持續(xù)擴大。您認(rèn)為如今的研究時代是否仍然需要大量的計算資源?您是否認(rèn)為需要重新翻閱歷史文獻(xiàn),閱讀舊論文?

你曾在谷歌、OpenAI 和斯坦福大學(xué)等地工作過,那時科研氛圍比較濃厚。我們應(yīng)該對社區(qū)未來的發(fā)展抱有怎樣的期待?

伊利亞·蘇茨克維爾規(guī)模化時代的一個后果是,規(guī)模化扼殺了所有創(chuàng)新空間。正因為規(guī)模化扼殺了所有創(chuàng)新空間,每個人都開始做同樣的事情。我們最終陷入了公司數(shù)量遠(yuǎn)超創(chuàng)意數(shù)量的困境。

事實上,硅谷有一句老話:創(chuàng)意不值錢,執(zhí)行力才是關(guān)鍵。人們經(jīng)常這么說,而且這話不無道理。但我后來在推特上看到有人說:“如果創(chuàng)意這么便宜,為什么沒人有創(chuàng)意呢?” 我覺得這話也很有道理。

如果從瓶頸的角度來看待科研進(jìn)展,就會發(fā)現(xiàn)存在好幾個瓶頸,其中一個是想法,另一個是將想法付諸實踐的能力,這可能涉及到計算能力,也可能涉及到工程技術(shù)。

比如說,回到上世紀(jì)90年代,當(dāng)時有些人有很多不錯的想法,如果他們擁有更強大的計算機,或許就能證明這些想法的可行性。但當(dāng)時他們沒有這樣的計算機,所以只能進(jìn)行非常小規(guī)模的演示,根本無法說服任何人。因此,當(dāng)時的瓶頸在于計算能力。

在規(guī);瘯r代,計算能力大幅提升。當(dāng)然,我們需要多少計算資源是個問題,但計算資源的確非常龐大。龐大到什么程度呢?你很難一眼看出為了驗證某個想法是否真的需要那么多計算資源。

我舉個例子。AlexNet 只用了兩塊GPU構(gòu)建,這就是它使用的全部計算資源。Transformer模型則用了 8 到 64 塊 GPU。

2017 年,沒有一篇 Transformer 論文的實驗使用了超過 64 塊 GPU,這相當(dāng)于現(xiàn)在的兩塊 GPU 吧?ResNet也一樣,對吧?你可能會說,o1 推理并不是世界上最耗費計算資源的算法。

所以,科研肯定需要一定的計算能力,但這并不意味著科研就需要絕對最多的計算能力。你可能會說(而且我認(rèn)為這是事實),如果你想構(gòu)建絕對最好的系統(tǒng),那么擁有更強大的計算能力當(dāng)然是有幫助的。尤其是在所有人都遵循相同范式的情況下,計算能力就成了重要的差異化因素之一。

德瓦爾凱什·帕特爾:我問你這段歷史,是因為你當(dāng)時就在現(xiàn)場。我不太清楚當(dāng)時究竟發(fā)生了什么。聽起來好像可以用極少的計算資源來實現(xiàn)這些想法。但Transformer模型并沒有立刻成名。它之所以能成為大家的入門工具,是因為它在越來越高的計算資源下都得到了驗證,然后才開始在此基礎(chǔ)上進(jìn)行實驗和擴展。

伊利亞·蘇茨克維爾:正確的。

德瓦爾凱什·帕特爾:如果SSI有 50 個不同的想法,在沒有其他前沿實驗室所擁有的那種計算能力的情況下,你怎么知道哪個是下一個變革性的想法,哪個是脆弱的呢?

伊利亞·蘇茨克維爾:我可以就此補充一些看法。具體來說,對我們 SSI 而言,用于研究的計算資源其實比外界想象的要多得多。我來解釋為什么。

首先,SSI 已經(jīng)籌集了 30 億美元,這本身就是一筆極其可觀的投入。你可能會說:“別的公司融資更大!睕]錯,但它們的大部分算力預(yù)算都被嚴(yán)格指定用于推理——也就是直接服務(wù)于產(chǎn)品的在線部署。這是一筆必須花的成本。

其次,如果你要構(gòu)建一款需要大規(guī)模推理部署的產(chǎn)品,你還得配備龐大的工程、銷售與產(chǎn)品團(tuán)隊。大量資金和精力會被投入到產(chǎn)品功能、平臺搭建、商業(yè)化流程等工程環(huán)節(jié)里。真正能留給基礎(chǔ)研究的資源,其實并沒有想象中那么多。

把這些因素都算進(jìn)去,你會發(fā)現(xiàn):看似融資規(guī)模差距巨大,但實際可用于研究的算力差距并沒有那么懸殊。

德瓦爾凱什·帕特爾:據(jù)公開估計,像 OpenAI 這樣的公司每年僅在實驗上的花費就高達(dá) 50 億至 60 億美元。這還不包括他們在推理等方面的投入。所以看起來,他們每年用于研究實驗的花費比你們的總經(jīng)費還要多。

伊利亞·蘇茨克維爾:我認(rèn)為關(guān)鍵不在于你擁有多少算力,而在于你如何使用它。真正的區(qū)別就在這里。

對其他公司而言,他們對訓(xùn)練算力的需求要大得多:工作流更復(fù)雜、模態(tài)更多、要兼顧的方向也更多。結(jié)果就是,資源被分散到無數(shù)子任務(wù)里,整體變得支離破碎。

而這正是差異所在——不是算力的絕對規(guī)模,而是算力能否被集中地、有效地投入真正重要的方向。

德瓦爾凱什·帕特爾:SSI將如何盈利?

伊利亞·蘇茨克維爾:目前,我們只專注于研究,答案自然會水到渠成。我認(rèn)為會有很多可能的答案。

德瓦爾凱什·帕特爾:SSI的計劃仍然是直接研發(fā)超級智能嗎?

伊利亞·蘇茨克維爾:也許吧。我覺得這有道理。我認(rèn)為好處很多,因為不受日常市場競爭的影響非常好。但我認(rèn)為有兩個原因可能會促使我們改變計劃:

一是出于務(wù)實的考慮,如果時間表最終被證明是漫長的,而這種情況很有可能發(fā)生。二是我認(rèn)為讓最先進(jìn)、最強大的人工智能造福世界具有巨大的價值。我認(rèn)為這是一件意義非凡的事情。

德瓦爾凱什·帕特爾:那么,為什么你們的默認(rèn)方案是直接研發(fā)超級智能呢?因為聽起來像OpenAI、Anthropic以及其他所有這些公司,他們明確的想法是:“看,我們研發(fā)出的智能體越來越弱,公眾可以逐漸適應(yīng)并做好準(zhǔn)備。” 為什么直接研發(fā)超級智能可能更好呢?

伊利亞·蘇茨克維爾:我會分別闡述正反兩方面的觀點。支持的觀點是,人們在市場競爭中面臨的挑戰(zhàn)之一就是不得不參與激烈的市場競爭。這種競爭非常艱難,因為它迫使你做出艱難的權(quán)衡。

但反對的觀點也同樣成立,而且這兩種觀點截然相反。反對的觀點是:“讓世界看到強大的人工智能是有益的。因為這是向世界展示人工智能的唯一途徑!

德瓦爾凱什·帕特爾:我想,你不僅能傳達(dá)這個想法。

伊利亞·蘇茨克維爾:傳達(dá)的是人工智能本身,而不是它的理念,傳達(dá)的是人工智能。

德瓦爾凱什·帕特爾:你說的“與人工智能溝通”是什么意思?

伊利亞·蘇茨克維爾:假設(shè)你寫了一篇關(guān)于人工智能的文章,文章里寫道:“人工智能將會是這樣,人工智能將會是那樣,它還會是這樣的。”

你讀完后覺得:“嗯,這是一篇有趣的文章!爆F(xiàn)在假設(shè)你看到人工智能在做這個,在做那個。你會發(fā)現(xiàn)兩者根本無法比較。我認(rèn)為,人工智能走向大眾化會帶來巨大的好處,這也是我們不應(yīng)該過于武斷的原因之一。

德瓦爾凱什·帕特爾:我想甚至可能并非如此,但我確實認(rèn)為這是其中重要的一部分。另一個點是,我想不出人類工程和研究領(lǐng)域還有哪個學(xué)科,其最終產(chǎn)品的安全性主要體現(xiàn)在思考如何使其安全上,而不是像現(xiàn)在這樣,每英里飛機墜毀率比幾十年前低得多。為什么現(xiàn)在在Linux系統(tǒng)中查找漏洞比幾十年前難得多?我認(rèn)為這主要是因為這些系統(tǒng)已經(jīng)部署到世界各地。人們發(fā)現(xiàn)了故障,這些故障得到了糾正,系統(tǒng)也變得更加健壯。

我不確定通用人工智能(AGI)和超人類智能為何會有所不同,尤其考慮到——我希望我們最終能探討到這一點——超級智能的危害似乎不僅僅是擁有一個邪惡的回形針那么簡單。它確實非常強大,我們甚至不知道該如何設(shè)想人們會如何與之互動,以及人們會用它做什么。逐步普及似乎是分散其影響、幫助人們做好準(zhǔn)備的更好方法。

/ 06 /

AGI不是一種能力,而是一個動態(tài)演化的系統(tǒng)

伊利亞·蘇茨克維爾:我認(rèn)為,即便要直接部署,也應(yīng)該采取循序漸進(jìn)的方式。這幾乎是任何計劃的內(nèi)在結(jié)構(gòu):第一步是什么,先推出什么,再逐步迭代,這本身就是部署的一部分。

接下來,我想談你更強調(diào)的另一點——持續(xù)學(xué)習(xí)。通用人工智能(AGI),以及預(yù)訓(xùn)練(pre-training)。

先說“通用人工智能”。這個詞并不是因為它深刻描述了某種最終的智能形態(tài)才存在的,我認(rèn)為它的意義更像是對另一個詞——“狹義人工智能”(narrow AI)——的回應(yīng)。

回到人工智能的早期歷史:跳棋AI、國際象棋AI、游戲AI……每當(dāng)它們?nèi)〉猛黄,人們都會說:“這是狹義人工智能。是的,它能擊敗卡斯帕羅夫,但它只會下棋,別的不會!

于是,“AI 過于狹窄”的批評催生了另一個概念:“我們需要的是一種能做所有事情的智能! AGI 就是在這樣的語境下被提出來,隨后迅速流行開來。

第二個例子是“預(yù)訓(xùn)練”。尤其是預(yù)訓(xùn)練的具體方法,它讓大家形成了一個非常鮮明的印象:預(yù)訓(xùn)練越多,模型在幾乎所有方面都會變強。可以說,預(yù)訓(xùn)練造就了當(dāng)代意義上的“通用人工智能”。

但這兩個詞的問題在于,它們把概念推得太遠(yuǎn)了。如果你認(rèn)真思考“AGI”這個概念,尤其是在預(yù)訓(xùn)練的范式下,就會意識到:人類其實根本不是 AGI。

人類確實具備一套基礎(chǔ)能力,但我們的知識儲備極其有限;我們真正依賴的是 持續(xù)學(xué)習(xí) ——不斷在世界中試錯、修正、積累。

因此,當(dāng)你設(shè)想“我們成功了,造出一個安全的超級智能”,真正的問題就變成:

你如何定義它?它在持續(xù)學(xué)習(xí)曲線上的哪個位置?

也許它更像是一個天賦極高的 15 歲少年:對世界理解有限,但學(xué)習(xí)速度快、好奇心強、能很快掌握新領(lǐng)域。你不會把這樣一個少年直接當(dāng)作成品丟進(jìn)社會,而是會讓他在真實環(huán)境中繼續(xù)學(xué)習(xí)、試錯、成長。

從這個角度看,部署本身就會包含一個學(xué)習(xí)與適應(yīng)的過程。它不是一次性產(chǎn)出的成品,而是一個動態(tài)演化的系統(tǒng)。

德瓦爾凱什·帕特爾:我明白了。你的意思是,你所說的超級智能并非指某種已經(jīng)具備所有技能、能夠勝任經(jīng)濟領(lǐng)域所有工作的成熟思維。因為像最初的OpenAI章程或其他對通用人工智能(AGI)的定義那樣,它似乎可以完成人類能夠做的所有工作。而你提出的超級智能則是一種能夠?qū)W習(xí)完成所有工作的思維。

伊利亞·蘇茨克維爾:是的。

德瓦爾凱什·帕特爾:但是一旦你有了學(xué)習(xí)算法,它就可以像人類工人加入組織一樣部署到世界各地。

伊利亞·蘇茨克維爾:確切地。

德瓦爾凱什·帕特爾:似乎這兩種情況中的一種可能會發(fā)生,也可能兩種都不會發(fā)生。第一種情況是,這種超高效的學(xué)習(xí)算法變得超乎常人,在機器學(xué)習(xí)研究方面達(dá)到甚至超越你的水平。結(jié)果就是,算法本身變得越來越強大。

另一方面,即便上述情況沒有發(fā)生,如果你有一個單一的模型——這顯然是你的設(shè)想——在這個模型的實例被部署到經(jīng)濟體系中,從事不同的工作,學(xué)習(xí)如何完成這些工作,在工作中不斷學(xué)習(xí),掌握任何人類都能掌握的所有技能然后將它們的學(xué)習(xí)成果融合起來,那么你基本上就擁有了一個功能上超級智能的模型,即使軟件中沒有任何遞歸式的自我改進(jìn)機制。因為你現(xiàn)在擁有了一個可以勝任經(jīng)濟體系中所有工作的模型,而人類無法以同樣的方式融合彼此的思維。那么,你是否期待這種模型的廣泛部署會帶來某種智能爆炸?

伊利亞·蘇茨克維爾:我認(rèn)為我們很可能會迎來快速的經(jīng)濟增長。關(guān)于人工智能的廣泛應(yīng)用,我認(rèn)為存在兩種相互矛盾的觀點。

一種觀點認(rèn)為,一旦人工智能發(fā)展到能夠快速學(xué)習(xí)并完成任務(wù)的程度,并且數(shù)量眾多,那么就會出現(xiàn)一股強大的力量將其部署到經(jīng)濟領(lǐng)域,除非有某種監(jiān)管措施阻止這種行為——順便說一句,這種監(jiān)管措施很可能存在。

但我認(rèn)為,在廣泛部署的情況下,經(jīng)濟在一段時間內(nèi)實現(xiàn)高速增長的可能性非常大。真正困難的是預(yù)測增長的幅度會有多大。

原因在于,一方面,人工智能本身是一種高度高效的勞動形式;但與此同時,我們正處在一個奇特的時點:人工智能的能力足以影響幾乎所有類型的任務(wù),而它的部署成本在迅速下降。因此,經(jīng)濟高速增長的可能性確實存在。

更復(fù)雜的是,不同國家的政策與監(jiān)管路徑會產(chǎn)生巨大差異。那些制度環(huán)境更友好、更愿意接納人工智能的國家,可能會迎來明顯更快的增長;而限制更多的地區(qū)則發(fā)展更緩慢。

這一切都讓整體趨勢變得難以預(yù)測。但可以確定的是,當(dāng) AI 以接近勞動力倍增器的形式進(jìn)入經(jīng)濟時,高速增長將成為一個現(xiàn)實可能性,而不是遙遠(yuǎn)假設(shè)。

/ 07 /

追求對生命體有關(guān)懷的AI

德瓦爾凱什·帕特爾:在我看來,這確實是一個非常危險的局面。從理論上講,這應(yīng)該是可能的。如果你擁有某種學(xué)習(xí)能力堪比人類,卻能融合自身大腦——以人類無法做到的方式融合不同實例——那么這在物理上應(yīng)該是完全可能的。人類是可能的,數(shù)字計算機也是可能的。你只需要將兩者結(jié)合起來就能創(chuàng)造出這種東西。

這種東西似乎威力無窮。經(jīng)濟增長是其中一種說法。戴森球本身就能帶來巨大的經(jīng)濟增長。但換個角度來說,你可能在很短的時間內(nèi)……你在SSI雇傭員工,六個月后,他們很可能就能產(chǎn)生凈生產(chǎn)力。人類學(xué)習(xí)速度非常快,而這東西也在以驚人的速度變得越來越智能。你認(rèn)為如何才能讓它順利進(jìn)行?為什么SSI有能力做到這一點?我真正想問的是,SSI在這方面的計劃是什么。

伊利亞·蘇茨克維爾:我的思維方式發(fā)生了轉(zhuǎn)變,其中一個方面是我現(xiàn)在更加重視人工智能的逐步部署和提前規(guī)劃。人工智能最大的困難之一,是我們討論的是一種尚未存在的系統(tǒng),而人類天然不擅長想象不存在的事物。

當(dāng)前的現(xiàn)實是:我們很難真正“感受”通用人工智能(AGI)的存在。圍繞 AGI 的許多爭論,其實都源于這種想象力的缺失:未來的人工智能會以一種我們目前難以理解的方式變得強大,而其核心問題,從始至終都是——力量本身。

當(dāng)力量足夠強大時,會發(fā)生什么?

過去一年,我的看法在這里發(fā)生了很大變化,這種變化——坦率地說——可能會影響到我們公司的計劃。如果一個系統(tǒng)難以被想象,那你必須讓它被看見。

我認(rèn)為,大多數(shù)從事人工智能工作的人也無法想象它,因為它與人們?nèi)粘I钪兴姷氖挛锝厝徊煌?/p>

我仍然堅持我的判斷,并且愿意給出一個預(yù)測:隨著人工智能的能力持續(xù)增強,人類的行為方式將隨之發(fā)生改變許多今天還不存在的現(xiàn)象,會在未來逐漸出現(xiàn)。

首先,前沿公司與政府將在其中扮演核心角色。你已經(jīng)能看到一些早期信號——曾經(jīng)的競爭對手開始在 AI 安全方面合作。OpenAI 和 Anthropic 已經(jīng)邁出了第一步,而在幾年前,這是不可想象的。我在三年前的演講中就預(yù)測過這一趨勢。隨著 AI 能力的顯現(xiàn),政府與公眾的參與意愿也會迅速增強。展示 AI 的真實能力,是促使社會行動的重要力量。

第二,AI 公司對“安全”的態(tài)度會發(fā)生根本轉(zhuǎn)變。今天的研究者往往覺得 AI “還不夠強”,因為它仍會犯許多錯誤。但我認(rèn)為,總有一天,當(dāng) AI 的力量變得不可忽視時,行業(yè)對安全的認(rèn)知將徹底反轉(zhuǎn)——謹(jǐn)慎會成為共識。我預(yù)測這一定會發(fā)生,因為屆時人們將親眼看到 AI 能力的躍升,而不是停留在對當(dāng)下系統(tǒng)的想象里。

第三,從更廣泛的角度來看,有一個問題值得思考:企業(yè)到底應(yīng)該構(gòu)建什么?長期以來,行業(yè)沉迷于一個中心理念——“構(gòu)建能自我改進(jìn)的 AI”。原因簡單:真正具有突破性的創(chuàng)意遠(yuǎn)比企業(yè)的數(shù)量稀少。

然而,我認(rèn)為,還有更值得追求的方向。我指的是一種核心目標(biāo)明確的人工智能:

它的中心不是自我升級,而是對所有具有感知能力的生命體表現(xiàn)出關(guān)懷

從某種意義上講,構(gòu)建這樣一種 AI 要比構(gòu)建只關(guān)心“人類生命”的 AI 更容易。原因在于:AI 本身也是一種具備某種感知形式的系統(tǒng)。

就像鏡像神經(jīng)元使人類能夠?qū)游锂a(chǎn)生同理心一樣,同情與關(guān)懷往往來自模擬他者——而最節(jié)能、最高效的模擬方式,就是使用模擬“自我”的那套認(rèn)知回路。

因此,這條路徑并非遙遠(yuǎn)的抽象設(shè)想,而是建立在人類認(rèn)知機制基礎(chǔ)上的、一條更自然的技術(shù)路線。

德瓦爾凱什·帕特爾:所以,即便我們設(shè)法讓人工智能具備對“有感知能力生命體”的關(guān)懷——事實上,如果陣營問題(alignment)能夠解決,我并不確定這是否真的是我們該追求的最終方向——問題仍然存在。

原因在于:未來絕大多數(shù)有感知能力的生命體,都將是人工智能本身。

從這個角度看,如果我們的目標(biāo)是確!叭祟悺痹谖磥砦拿髦袚碛兄鲗(dǎo)地位,那么將“關(guān)懷所有有感知生命體”作為標(biāo)準(zhǔn),可能就不是最優(yōu)解。因為在這樣的設(shè)定下,AI 的利益會天然占據(jù)絕對權(quán)重,而人類的份額會變得極小。

伊利亞·蘇茨克維爾:沒錯。這可能不是最佳標(biāo)準(zhǔn)。我想說兩點。第一,關(guān)愛有感知能力的生命,我認(rèn)為這一點很重要,應(yīng)該考慮在內(nèi)。第二,我認(rèn)為如果能有一個包含各種建議的清單,供公司在遇到這種情況時參考,那就很有幫助了。

第三,我認(rèn)為如果能以某種方式限制最強大的超級智能體的能力,將會非常有益,因為這可以解決很多問題。至于如何做到這一點,我還不確定,但我認(rèn)為,當(dāng)我們談?wù)撜嬲龔姶蟮南到y(tǒng)時,這將非常有幫助。

德瓦爾凱什·帕特爾:在我們繼續(xù)討論對齊問題之前我想先追問一個更根本的問題:在智能的頂端,還有多少“空間”?我們到底應(yīng)該如何理解超級智能?

你認(rèn)為,如果運用學(xué)習(xí)效率的概念,它是不是只是學(xué)習(xí)新技能或新知識的速度極快?或者它只是擁有更龐大的策略庫?是否存在一個位于中心、更強大或更龐大的單一“它”?如果是這樣,你認(rèn)為它相對于人類文明的其他部分會像神一樣嗎?還是僅僅感覺像是另一個主體,或者另一個主體群?

伊利亞·蘇茨克維爾:在這個領(lǐng)域,不同的人有不同的直覺。我認(rèn)為它肯定會非常強大。我認(rèn)為最有可能的情況是,多個這樣的AI會幾乎同時被創(chuàng)造出來。

我認(rèn)為,如果集群足夠大,比如集群的規(guī)?氨纫粋大陸——那么它確實會非常強大。如果集群的規(guī)模真的達(dá)到一個大陸級別,那么這些AI就會非常強大。我只能說,如果你談?wù)摰氖菢O其強大的AI,真正意義上的強大,那么最好能以某種方式限制它們,或者達(dá)成某種協(xié)議之類的。

超級智能真正令人擔(dān)憂的地方在于:當(dāng)一個系統(tǒng)強大到足以決定一切時,即便它的目標(biāo)是善意的,我們?nèi)钥赡懿幌矚g它給出的結(jié)果。這就是問題的癥結(jié)所在。

或許,答案在于你無法以通常意義上的方式構(gòu)建強化學(xué)習(xí)智能體。我指出幾點:

我認(rèn)為人類是半強化學(xué)習(xí)智能體。我們追求某種獎勵,然后情緒或其他因素讓我們對這種獎勵感到厭倦,于是我們又去追求另一種獎勵。市場是一種目光短淺的智能體。進(jìn)化也是如此。進(jìn)化在某些方面非常智能,但在另一些方面卻非常愚蠢。政府被設(shè)計成三個部門之間永無休止的斗爭,而這會產(chǎn)生影響。所以我認(rèn)為諸如此類的事情……

讓這場討論變得困難的另一個原因是,我們討論的是尚不存在的系統(tǒng),我們不知道該如何構(gòu)建它們。

我認(rèn)為,人們現(xiàn)在所做的一切會取得一定進(jìn)展,然后逐漸衰落。它會不斷改進(jìn),但永遠(yuǎn)不會是“最終版本”。我們不知道該如何構(gòu)建“最終版本”,而很多關(guān)鍵在于理解可靠的泛化方法。

一致性難以達(dá)成的原因之一,可能在于我們理解人類價值觀的能力本身就很脆弱。更進(jìn)一步,我們“優(yōu)化這些價值觀”的能力也同樣脆弱,因為這些價值觀本身是在“學(xué)習(xí)如何優(yōu)化”的過程中逐漸形成的。

這就引出一個反思:難道這些價值觀不是一些不可靠的概括嗎?為什么人類似乎比其他系統(tǒng)更擅長這種概括?但這些問題目前仍然無法解答。

德瓦爾凱什·帕特爾:如何想象人工智能發(fā)展順利的樣子?你已經(jīng)展望了人工智能可能的發(fā)展方向。我們將擁有這類持續(xù)學(xué)習(xí)的智能體。人工智能將非常強大。或許會出現(xiàn)許多不同的人工智能。你如何看待大量體量堪比大陸的計算智能體?這有多危險?我們?nèi)绾谓档瓦@種危險?我們又該如何做到這一點,才能在可能存在失衡的人工智能和惡意行為者的情況下,維護(hù)一種平衡?

伊利亞·蘇茨克維爾:這也是我喜歡“關(guān)愛有感知生命的 AI”這個概念的原因之一。至于它究竟好不好,可以討論。但如果最早出現(xiàn)的那一批強大系統(tǒng)——前 N 個——真的能夠關(guān)心、愛護(hù)人類或其他有感知的生命,那么這就是必須實現(xiàn)的能力。只要前 N 個系統(tǒng)具備這種傾向,我相信至少在相當(dāng)長的一段時間里,局面都會是穩(wěn)定而有利的。

那么更長期會發(fā)生什么?如何維持長期均衡?我認(rèn)為是有答案的,盡管我并不喜歡它。

從短期看,一個擁有強大 AI 的世界可能出現(xiàn)“全民高收入”:人人生活更好,財富與能力被極大放大。但佛教說過,“變化是唯一不變的”。政治結(jié)構(gòu)、政府形態(tài)都會隨著時間更新?lián)Q代,沒有任何體制是永恒的。

長期來看,有一種設(shè)想是:每個人都擁有一個為自己行動的 AI。這當(dāng)然很好,若能永續(xù)更是理想。但問題在于,這可能讓人類逐漸失去參與感。AI 會替你賺錢,為你爭取政治利益,再把結(jié)果寫成一份簡短報告:“事情已經(jīng)處理好了!

而你只需回答:“很好,繼續(xù)!睆闹黧w性來看,這是一種危險的局面。

我并不喜歡另一種方案,但它確實是一個可行的答案:

讓人類通過某種 Neuralink++ 式的接口,成為“半人工智能”。

這樣,人類與 AI 可以共享理解、共享情境。AI 能理解的,你也能理解;它的體驗可以完整傳遞到你身上。只有在這種深度耦合下,人類才能繼續(xù)成為未來文明的“參與者”,而不是被 AI 代理的旁觀者。

在我看來,這才可能是長期均衡的答案——盡管它令人不安。

德瓦爾凱什·帕特爾:我想知道,數(shù)百萬年前(甚至在很多情況下是數(shù)十億年前)在完全不同的環(huán)境中形成的情感,是否仍然如此強烈地指導(dǎo)著我們的行為,這是否是協(xié)調(diào)一致的成功例證。

為了更清楚地說明我的意思——我不知道稱之為價值函數(shù)還是獎勵函數(shù)更準(zhǔn)確——腦干有一個指令,它會說:“和更成功的人交配!贝竽X皮層理解在現(xiàn)代語境下成功的含義。但腦干能夠協(xié)調(diào)大腦皮層,并說:“無論你如何定義成功——我沒那么聰明,無法理解那是什么——你仍然要遵循這個指令。”

伊利亞·蘇茨克維爾:我認(rèn)為這里還有一個更普遍、但也更神秘的現(xiàn)象:進(jìn)化究竟是如何把“高級欲望”編碼進(jìn)人類的?

對于某些低層次的驅(qū)動,我們很容易理解。比如對香味食物的渴望:氣味是一種具體的化學(xué)信號,進(jìn)化要讓我們追求這種信號并不難想象。

但進(jìn)化同樣賦予了我們各種高度抽象的社交欲望,我們強烈在意別人怎么看我們,渴望獲得社會認(rèn)可,追求地位與聲望。

問題是:進(jìn)化是如何做到這一點的?進(jìn)化似乎能對大腦說一句非常明確的指令:“這就是你應(yīng)該在乎的。”

而且它做得極其高效。我們今天珍視的那些復(fù)雜社會現(xiàn)象——地位、聲譽、群體接受度——從進(jìn)化時間尺度上看都極其新近。但進(jìn)化卻把這些高層次的欲望輕而易舉地寫進(jìn)了我們的價值體系,讓它們像吃甜食或聞到危險一樣“自然”。

至于它究竟是如何實現(xiàn)的,我現(xiàn)在還沒有令人滿意的解釋。我曾經(jīng)試圖推導(dǎo)一些機制,但都不夠充分。

德瓦爾凱什·帕特爾:尤其令人印象深刻的是,欲望是你后天習(xí)得的,這很合理,因為你的大腦很智能。你能習(xí)得智能欲望也合情合理。也許這并非你的重點,但理解這一點的一種方式是,欲望根植于基因組之中,而基因組本身并不智能。但你卻能夠描述這種特性。你甚至不清楚自己是如何定義這種特性的,而且你還能將其構(gòu)建到基因中。

伊利亞·蘇茨克維爾:從基因組的視角,它更像是一份“構(gòu)建大腦的工程配方”。它可以輕松寫下這樣的規(guī)則:“把多巴胺神經(jīng)元連到嗅覺受體上;如果某種氣味觸發(fā)這個回路,就產(chǎn)生愉悅感!边@種機制我們很好理解。

難點在于另一類欲望:那些依賴于大腦大范圍、高維度計算的復(fù)雜社會直覺。很難想象基因組可以直接告訴大腦:“你應(yīng)該關(guān)心這些抽象的、分布式的高層計算結(jié)果。”這對基因來說似乎太復(fù)雜了。

我有一個推測,但它多半是錯的:進(jìn)化可能利用了大腦區(qū)域的“地理結(jié)構(gòu)”來寫入高層意愿。

大腦皮層雖然在微觀上均質(zhì),但它被組織成多個區(qū)塊,因為神經(jīng)元主要與鄰近神經(jīng)元交流。語音、視覺、社交推斷等不同功能,各自聚在特定區(qū)域。更重要的是,不同人的大腦,這些區(qū)域的位置基本一致。

因此,或許進(jìn)化通過硬編碼某些地理坐標(biāo)來傳遞價值:“當(dāng)大腦中這個固定區(qū)域被激活時,你應(yīng)該在意它!边@符合進(jìn)化的邏輯,它不需要理解那塊區(qū)域具體在計算什么,只需要把“位置”作為代理信號。

德瓦爾凱什·帕特爾:是的,雖然也有一些例子,比如先天失明的人,他們大腦皮層的失明區(qū)域會被其他感官所取代。我不知道,但如果大腦皮層的不同區(qū)域被其他感官所取代,那些需要視覺信號的欲望或獎勵功能是否會失效,我會感到驚訝。

例如,如果你失去了視力,你還能感受到你想讓周圍的人喜歡你等等這種感覺嗎?通常情況下,這些感覺也會有視覺線索。

伊利亞·蘇茨克維爾:我完全同意。我認(rèn)為這個理論還有更強有力的反駁論點。有些人童年時期切除了半個大腦,但他們?nèi)匀槐A糁械拇竽X區(qū)域。然而,這些區(qū)域卻都以某種方式集中到了大腦的一側(cè)半球,這表明大腦區(qū)域的位置并非固定不變,因此這個理論是不成立的。

如果這是真的就好了,可惜不是。這的確是個有趣的謎。事實是,進(jìn)化不知怎么地賦予了我們非?煽康仃P(guān)注社會事務(wù)的能力。即使是那些患有各種奇怪精神疾病、缺陷和情緒問題的人,也往往很關(guān)心這些。

/ 08 /

研究品味,來自于對“美”的執(zhí)著

德瓦爾凱什·帕特爾:SSI 有什么與眾不同的計劃?想必你們的目標(biāo)是成為時代前沿的公司之一。想必你們創(chuàng)辦 SSI 的初衷是:“我認(rèn)為我有一種方法可以安全地完成這項工作,而其他公司沒有! 那么,這種不同之處究竟是什么?

伊利亞·蘇茨克維爾:我的理解是,我有一些想法,我覺得很有前景,我想研究一下,看看它們是否真的有前景,就這么簡單。這只是一次嘗試。如果這些想法——我們之前討論過的關(guān)于理解概括性的想法——最終被證明是正確的,那么我認(rèn)為我們會有所收獲。

他們的觀點最終會被證實嗎?我們正在進(jìn)行調(diào)研。我們是一家名副其實的“研究型企業(yè)”。我們正在取得進(jìn)展。事實上,過去一年我們?nèi)〉昧讼喈?dāng)不錯的進(jìn)展,但我們需要繼續(xù)取得更多進(jìn)展,進(jìn)行更多研究。我是這么認(rèn)為的。我認(rèn)為這是一種嘗試,一種發(fā)出聲音、參與其中的方式。

德瓦爾凱什·帕特爾:您的聯(lián)合創(chuàng)始人兼前任首席執(zhí)行官最近去了 Meta ,有人問:“如果公司取得了很多突破性進(jìn)展,這似乎不太可能發(fā)生! 我想知道您對此有何回應(yīng)。

伊利亞·蘇茨克維爾:為此,我只想簡單回顧幾個可能已被遺忘的事實。我認(rèn)為這些事實能幫助我們理解當(dāng)時的處境。當(dāng)時我們正在以320億美元的估值進(jìn)行融資,之后Meta提出收購我們,我拒絕了。但我的前聯(lián)合創(chuàng)始人某種程度上同意了。結(jié)果,他也因此獲得了大量的短期流動資金,而且他是SSI唯一一位加入Meta的人。

德瓦爾凱什·帕特爾:聽起來SSI的計劃是成為一家在人類歷史上這個擁有超人類智能的重要時期處于前沿的公司。他們有一些關(guān)于如何有效利用超人類智能的想法。但其他公司也會嘗試他們自己的想法。SSI在有效利用超人類智能方面的獨特之處是什么?

伊利亞·蘇茨克維爾:SSI 的主要特點在于其技術(shù)方法。我們采用了一種我認(rèn)為很有價值且行之有效的獨特技術(shù)方法,我們正在努力推進(jìn)。

我認(rèn)為最終各種策略會趨于一致。隨著人工智能變得越來越強大,我認(rèn)為在某個時刻,各種策略會趨于一致,屆時每個人都會或多或少地清楚地認(rèn)識到應(yīng)該采取什么策略。這大概就是:你需要找到某種相互溝通的方式,并且你希望你的第一個真正意義上的超級智能人工智能能夠協(xié)調(diào)一致,并且以某種方式關(guān)愛有感知能力的生命,關(guān)愛人類,秉持民主的理念,或者兼具其中之一。

我認(rèn)為這是每個人都應(yīng)該努力追求的目標(biāo),也是SSI正在努力的方向。我相信這一次,即便其他公司還沒有意識到,他們也會明白自己正在朝著同一個目標(biāo)努力。我認(rèn)為隨著人工智能的日益強大,世界將會發(fā)生翻天覆地的變化。一切都將截然不同,人們的行為方式也會發(fā)生巨大的改變。

德瓦爾凱什·帕特爾:說到預(yù)測,你對你所描述的這個系統(tǒng)有什么預(yù)測?這個系統(tǒng)可以像人類一樣學(xué)習(xí),并最終變得像人類一樣強大。

伊利亞·蘇茨克維爾:我覺得大概還需要5到20年吧。

德瓦爾凱什·帕特爾:我只是想闡述一下你對未來世界的看法。比如說,未來幾年,其他公司繼續(xù)沿用目前的做法,最終會停滯不前!巴磺啊笔侵杆麄兊臓I收不會超過幾千億美元嗎?你覺得“停滯不前”意味著什么?

伊利亞·蘇茨克維爾我認(rèn)為停滯不前的情況會是……所有公司的情況都會非常相似。我不確定,因為我覺得即使停滯不前,這些公司也能獲得驚人的收入。也許利潤不會很高,因為他們需要努力使彼此之間產(chǎn)生差異化,但收入肯定不會低。

德瓦爾凱什·帕特爾:但你的模型中似乎暗示,當(dāng)正確的解決方案出現(xiàn)時,所有公司之間都會趨于一致。我很想知道你為什么會這么認(rèn)為。

伊利亞·蘇茨克維爾:我主要指的是他們在戰(zhàn)略協(xié)調(diào)方面的趨同。我認(rèn)為最終他們在技術(shù)方法上也可能趨同,但我指的是戰(zhàn)略協(xié)調(diào)方面的趨同。

德瓦爾凱什·帕特爾:目前,我們有很多不同的公司,您期望他們的方法能夠繼續(xù)創(chuàng)造收入,但卻無法實現(xiàn)像人類一樣的學(xué)習(xí)能力。所以現(xiàn)在出現(xiàn)了很多不同的公司分支。有您,有Thinking Machines ,還有很多其他的實驗室。也許其中一家會找到正確的方法。但那樣的話,他們產(chǎn)品的發(fā)布就會讓其他人明白該怎么做。

伊利亞·蘇茨克維爾:我認(rèn)為具體該怎么做還不清楚,但可以肯定的是,另一種可能性是存在的,那就是信息。人們會試圖弄清楚它是如何運作的。

不過,我認(rèn)為這里沒有提及或討論的一點是,隨著人工智能能力的不斷提升,我認(rèn)為某些方面會發(fā)生改變,但我并不清楚具體會是哪些改變,以及事物運作方式的改變。我認(rèn)為這很重要,但我無法具體說明它究竟是什么。

德瓦爾凱什·帕特爾:按理說,采用這種模式的公司應(yīng)該獲得所有這些收益,因為他們的模式讓他們積累了全球范圍內(nèi)所需的技能和知識。那么,有什么理由認(rèn)為這些收益會廣泛傳播,而不僅僅是最終落入率先建立起這種持續(xù)學(xué)習(xí)循環(huán)的模式公司手中呢?

伊利亞·蘇茨克維爾:以下是我認(rèn)為接下來會發(fā)生的情況。首先,我們回顧一下以往人工智能的發(fā)展歷程。一家公司率先研發(fā)出先進(jìn)技術(shù),其他公司則在一段時間后迅速跟進(jìn),推出類似產(chǎn)品,并在市場上展開競爭,最終導(dǎo)致價格下降。因此,我認(rèn)為從市場角度來看,類似的情況也會在人工智能領(lǐng)域重演。

順便說一句,我們談?wù)摰氖抢硐胧澜。什么是理想世界?在理想世界里,我們擁有這些強大的、類人學(xué)習(xí)者,而且……順便說一句,關(guān)于超級人工智能的規(guī)范,或許還有一點我們沒討論過,我認(rèn)為值得考慮。

那就是,如果你把它的功能限定在特定領(lǐng)域,它既可以很有用,也可以功能狹窄。你可以擁有許多功能狹窄的超級人工智能。

但假設(shè)你有很多這樣的領(lǐng)域,并且有一家公司從中獲得了豐厚的利潤。然后另一家公司進(jìn)入市場,開始與之競爭。競爭的方式是通過專業(yè)化。你在市場中可以看到這一點,在進(jìn)化過程中也可以看到。

你會看到許多不同的細(xì)分市場,也會有許多不同的公司占據(jù)不同的細(xì)分市場。在這個世界里,我們可能會說,一家人工智能公司在某個非常復(fù)雜的經(jīng)濟活動領(lǐng)域表現(xiàn)出色,而另一家公司在另一個領(lǐng)域更勝一籌,還有其他家公司則非常擅長訴訟。

德瓦爾凱什·帕特爾:這難道不與類人學(xué)習(xí)的含義相矛盾嗎?類人學(xué)習(xí)的含義是它能夠?qū)W習(xí)……

伊利亞·蘇茨克維爾:確實可以,但你已經(jīng)積累了豐富的知識。你投入了大量資源。你耗費了大量的計算資源,才在這個領(lǐng)域變得如此精通,如此卓越。

其他人也投入了大量的計算資源和經(jīng)驗,才在其他領(lǐng)域變得如此出色。你運用了大量的學(xué)習(xí)方法才達(dá)到現(xiàn)在的成就,但你現(xiàn)在已經(jīng)達(dá)到了一個很高的水平,其他人可能會說:“聽著,我不想再去學(xué)習(xí)你已經(jīng)學(xué)到的東西了。”

德瓦爾凱什·帕特爾:我想這需要很多不同的公司同時從類人持續(xù)學(xué)習(xí)智能體入手,這樣它們才能在不同的分支上開始各自的樹狀搜索。但如果一家公司率先獲得了這個智能體,或者說率先獲得了這個學(xué)習(xí)器,那么看起來……嗯,如果你仔細(xì)想想經(jīng)濟中的所有工作崗位,讓一個實例學(xué)習(xí)每個崗位對一家公司來說似乎是可行的。

伊利亞·蘇茨克維爾:這確實是一個合理的論點。但我強烈的直覺告訴我,事情不會這么發(fā)展。理論上,理論和實踐沒有區(qū)別。但實際上,它們是有區(qū)別的。我認(rèn)為這件事就是其中之一。

德瓦爾凱什·帕特爾:許多人的遞歸自我改進(jìn)模型實際上明確指出,服務(wù)器中將有上百萬個伊利亞,他們會提出不同的想法,這將導(dǎo)致超級智能迅速出現(xiàn)。

你對你正在做的事情的并行化程度有什么直覺嗎?復(fù)制 Ilya 有什么好處?

伊利亞·蘇茨克維爾:我不知道。我覺得肯定會有收益遞減,因為你需要的是思維方式不同的人,而不是思維方式相同的人。如果只是復(fù)制我一個人,我不確定還能增加多少價值。你需要的是思維方式不同的人。

/ 09 /

自我博弈和多智能體

德瓦爾凱什·帕特爾:為什么即使查看完全不同的公司發(fā)布的、使用可能不重疊的數(shù)據(jù)集訓(xùn)練的不同模型,LLM 之間的相似度也高得驚人?

伊利亞·蘇茨克維爾:也許這些數(shù)據(jù)集并不像看起來那樣完全不重疊。

德瓦爾凱什·帕特爾:但從某種意義上說,即使單個人類的生產(chǎn)力可能不如未來的人工智能,人類團(tuán)隊的多樣性或許也比人工智能團(tuán)隊更高。我們?nèi)绾尾拍茉谌斯ぶ悄苤袑崿F(xiàn)有意義的多樣性?

伊利亞·蘇茨克維爾我認(rèn)為缺乏多樣性的原因在于預(yù)訓(xùn)練。所有預(yù)訓(xùn)練模型都大同小異,因為它們都是用相同的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的。而強化學(xué)習(xí)和后訓(xùn)練階段則開始出現(xiàn)差異,因為不同的人會提出不同的強化學(xué)習(xí)訓(xùn)練方法。

德瓦爾凱什·帕特爾:我之前聽你暗示過,自博弈可以作為一種獲取數(shù)據(jù)或?qū)⒅悄荏w與其他同等智能體匹配以啟動學(xué)習(xí)的方法。我們應(yīng)該如何看待目前還沒有公開的、將這種方法應(yīng)用于學(xué)習(xí)生命周期模型(LLM)的提案呢?

伊利亞·蘇茨克維爾:我想說兩點。我認(rèn)為自博弈之所以有趣,是因為它提供了一種僅使用計算資源而無需數(shù)據(jù)即可創(chuàng)建模型的方法。如果你認(rèn)為數(shù)據(jù)是最終的瓶頸,那么僅使用計算資源就非常有趣。這就是它有趣的地方。

問題在于,自我博弈,至少在過去那種方式下,即讓不同的個體相互競爭,只對培養(yǎng)某些特定技能有益。它的適用范圍太窄了。它只對談判、沖突處理、某些社交技能、策略制定之類的東西有用。如果你重視這些技能,那么自我博弈就很有用。

不過,我認(rèn)為自我博弈已經(jīng)以另一種方式找到了新的位置。例如辯論、證明者—驗證者機制,其中包含一種“LLM 作為裁判”的結(jié)構(gòu),而裁判本身也有動力去尋找錯誤、拆解漏洞。這可能不算嚴(yán)格意義上的自我博弈,但它確實是一種相關(guān)的對抗結(jié)構(gòu),而且正在被廣泛使用。

從更寬泛的角度看,自我博弈只是主體之間競爭的一種特殊形式。競爭的自然結(jié)果,是推動差異化。如果你把多個主體放在一起,對他們說:“你們都要解決同一個問題,彼此可以觀察對方的做法。” 那么主體們立刻就會想:

如果大家都在用同一種方法,那么我是否也該這樣做就不確定了。我應(yīng)該找到別的路徑。

因此,即便不是直接的自我博弈,只要有競爭結(jié)構(gòu)存在,它就能激勵主體不斷尋找新的方法,從而產(chǎn)生多樣性與創(chuàng)新。

德瓦爾凱什·帕特爾:最后一個問題:什么是研究品味?您顯然是公認(rèn)的人工智能研究領(lǐng)域品味最高的人。您曾參與撰寫深度學(xué)習(xí)歷史上一些最重要的成果,例如 AlexNet 和 GPT-3 等等。您的研究品味是什么?您如何描述自己產(chǎn)生這些想法的過程?

伊利亞·蘇茨克維爾:我可以就此發(fā)表一些看法。我認(rèn)為不同的人會采取不同的方法。對我個人而言,指導(dǎo)我的一個原則是,人工智能應(yīng)該具有怎樣的美學(xué)特征,那就是思考人類的本質(zhì),但要以正確的方式思考。我們很容易錯誤地思考人類的本質(zhì),但正確地思考人類的本質(zhì)又意味著什么呢?

我舉幾個例子。人工神經(jīng)元的概念直接來源于大腦,而且這個想法很棒。為什么呢?因為大腦有很多不同的器官,有褶皺,但褶皺可能并不重要。為什么我們認(rèn)為神經(jīng)元很重要呢?因為神經(jīng)元數(shù)量眾多。這種想法似乎合情合理,所以我們需要神經(jīng)元。我們需要一些局部學(xué)習(xí)規(guī)則來改變神經(jīng)元之間的連接。大腦似乎也能夠做到這一點。

大腦能做到從經(jīng)驗中學(xué)習(xí),因此我們的神經(jīng)網(wǎng)絡(luò)也應(yīng)該從經(jīng)驗中學(xué)習(xí)。這些并非附屬性質(zhì),而是“事情本該如此”的基礎(chǔ)結(jié)構(gòu)。

這類來自大腦的啟發(fā),對我有很強的指引作用。它們推動我從多個角度追求一種接近“純粹”的美——美、簡潔、優(yōu)雅,以及合乎大腦結(jié)構(gòu)的靈感。只有這些元素同時出現(xiàn)時,你才會對一種方法有真正的自信。而這種自信,就是所謂的自上而下的信念。

它的作用在于:當(dāng)實驗結(jié)果與你的直覺或理論相沖突時,它能支撐你繼續(xù)前進(jìn)。如果總是盲目依賴數(shù)據(jù),你可能會在正確的道路上被一些噪聲或漏洞絆倒,卻不知道該堅持還是轉(zhuǎn)向。

自上而下的信念告訴你:“事情應(yīng)該以這種方式運作;這種方法一定存在某種內(nèi)在正確性!

正是這種信念,讓你愿意繼續(xù)調(diào)試、繼續(xù)探索,而不是輕易放棄。這種信念本質(zhì)上來自一個來源:

人類大腦中蘊含的深層智慧,以及它帶給人工智能設(shè)計的啟發(fā)。

PS:如果你對AI大模型領(lǐng)域有獨特的看法,歡迎掃碼加入我們的大模型交流群。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
65歲男人和37歲女人再婚,女人:他老折騰我,男人:夫妻就這樣

65歲男人和37歲女人再婚,女人:他老折騰我,男人:夫妻就這樣

惟來
2026-01-11 13:11:12
溫州一企業(yè)給20年老員工發(fā)純金獎牌,已有超過百人獲得獎勵,獲獎?wù)咧薪^大部分為一線員工

溫州一企業(yè)給20年老員工發(fā)純金獎牌,已有超過百人獲得獎勵,獲獎?wù)咧薪^大部分為一線員工

三湘都市報
2026-01-10 15:57:57
女人敢向你開口“要這個東西”,就是生理性喜歡,裝不出來的!

女人敢向你開口“要這個東西”,就是生理性喜歡,裝不出來的!

王二哥老搞笑
2026-01-12 11:50:42
勇士不敵老鷹,科爾坑死庫里和巴特勒,小波特加盟勇士已成定局?

勇士不敵老鷹,科爾坑死庫里和巴特勒,小波特加盟勇士已成定局?

司峰阿道
2026-01-12 13:38:37
連續(xù)出戰(zhàn)8場后,楊瀚森為何又被棄用?核心傷退+羅威5中5給出答案

連續(xù)出戰(zhàn)8場后,楊瀚森為何又被棄用?核心傷退+羅威5中5給出答案

鍋子籃球
2026-01-12 10:53:03
越老越妖,維爾貝克本賽季已經(jīng)打進(jìn)9球,有望再次進(jìn)球上雙

越老越妖,維爾貝克本賽季已經(jīng)打進(jìn)9球,有望再次進(jìn)球上雙

懂球帝
2026-01-12 13:21:07
郭富城夫婦帶娃看賽馬,城城一手牽一個好溫馨!大女兒露臉像方媛

郭富城夫婦帶娃看賽馬,城城一手牽一個好溫馨!大女兒露臉像方媛

娛樂團(tuán)長
2026-01-12 11:48:33
某大廠員工:領(lǐng)導(dǎo)讓他報裁員名單,結(jié)果這哥們竟然把自己寫上去,拿著20多萬的賠償,去付買房的首付!

某大廠員工:領(lǐng)導(dǎo)讓他報裁員名單,結(jié)果這哥們竟然把自己寫上去,拿著20多萬的賠償,去付買房的首付!

上海約飯局
2026-01-06 16:54:03
專為U字號亞洲杯而生,門神李昊證明馬競的球探很優(yōu)秀

專為U字號亞洲杯而生,門神李昊證明馬競的球探很優(yōu)秀

米奇兔
2026-01-12 11:53:08
伊朗步入十字路口:抗議者焚燒革命衛(wèi)隊總部!撕毀哈梅內(nèi)伊肖像

伊朗步入十字路口:抗議者焚燒革命衛(wèi)隊總部!撕毀哈梅內(nèi)伊肖像

項鵬飛
2026-01-09 19:37:50
安徽小伙在小國家創(chuàng)業(yè),“享受”一夫多妻、開放生活的他如今怎樣

安徽小伙在小國家創(chuàng)業(yè),“享受”一夫多妻、開放生活的他如今怎樣

牛牛叨史
2026-01-06 12:59:43
北京二環(huán)路主輔路將開展大修

北京二環(huán)路主輔路將開展大修

新京報
2026-01-12 10:19:36
中石化為什么急著重組?看懂了滿大街的“綠牌車”,你就懂了國運

中石化為什么急著重組?看懂了滿大街的“綠牌車”,你就懂了國運

達(dá)文西看世界
2026-01-12 12:34:32
旱的旱死澇的澇死,原來這些明星都已“無戲可拍”,三頂流占榜首

旱的旱死澇的澇死,原來這些明星都已“無戲可拍”,三頂流占榜首

葉敘說
2026-01-11 15:37:41
老道士揭秘:家中這三樣?xùn)|西消失,一定是被人借運了!千萬要小心

老道士揭秘:家中這三樣?xùn)|西消失,一定是被人借運了!千萬要小心

古怪奇談錄
2026-01-05 11:32:51
那些用開塞露涂臉的人,后來都怎么樣了?

那些用開塞露涂臉的人,后來都怎么樣了?

科普中國
2026-01-12 11:21:30
抗美援朝時的最大叛徒,坑害38軍6000多名戰(zhàn)士,最后下場怎么樣?

抗美援朝時的最大叛徒,坑害38軍6000多名戰(zhàn)士,最后下場怎么樣?

雍親王府
2026-01-02 07:10:03
沈騰帶老婆參加活動,王琦換發(fā)型洋氣又漂亮,本人并不胖有尖下巴

沈騰帶老婆參加活動,王琦換發(fā)型洋氣又漂亮,本人并不胖有尖下巴

沐予墨
2026-01-11 23:42:44
碎三觀!網(wǎng)傳江陰某4S店女銷售出軌客戶四年,親媽幫著出餿主意…

碎三觀!網(wǎng)傳江陰某4S店女銷售出軌客戶四年,親媽幫著出餿主意…

火山詩話
2026-01-12 13:36:30
演技太裝太尬!央視《小城大事》遭惡評?這“戲混子”有很大責(zé)任

演技太裝太尬!央視《小城大事》遭惡評?這“戲混子”有很大責(zé)任

翰飛觀事
2026-01-11 19:15:22
2026-01-12 14:07:00
硅基觀察Pro incentive-icons
硅基觀察Pro
人工智能新時代的商業(yè)智庫和價值燈塔
787文章數(shù) 57關(guān)注度
往期回顧 全部

科技要聞

小米二手車價大跳水:SU7半年跌5萬元

頭條要聞

臺媒:大陸在朱日和基地復(fù)制"總統(tǒng)府" 不可掉以輕心

頭條要聞

臺媒:大陸在朱日和基地復(fù)制"總統(tǒng)府" 不可掉以輕心

體育要聞

聰明的球員,不是教練教出來的

娛樂要聞

閆學(xué)晶:脫離群眾太久 忘了自己的根

財經(jīng)要聞

揭秘“穩(wěn)賺不賠”的代工項目騙局

汽車要聞

增配不加價 北京現(xiàn)代 第五代 勝達(dá)2026款上市

態(tài)度原創(chuàng)

親子
教育
數(shù)碼
公開課
軍事航空

親子要聞

謝霆鋒沒想到,一天4餐、愛吃牛排的兩個兒子,成了張柏芝的底氣

教育要聞

學(xué)霸思維訓(xùn)練:巧求陰影部分的面積

數(shù)碼要聞

2025年星閃終端產(chǎn)品出貨量突破1億臺 商用產(chǎn)品超600款

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄大使:馬杜羅夫婦被控制時身邊沒人

無障礙瀏覽 進(jìn)入關(guān)懷版