国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI聯(lián)創(chuàng) | ChatGPT首席架構(gòu)師最新深訪:大語言模型的進(jìn)化之路 (附全文+視頻)

0
分享至

未經(jīng)授權(quán)請勿轉(zhuǎn)載,務(wù)必保留出處和公眾號按鈕

文:天空之城·城主

OpenAI聯(lián)合創(chuàng)始人,ChatGPT首席架構(gòu)師John Schulman在最近的一次訪談中全面分享了他對AI模型未來發(fā)展的看法。

John Schulman是OpenAI聯(lián)合創(chuàng)始人之一,也是ChatGPT首席架構(gòu)師。在這個(gè)長達(dá)100分鐘的訪談里,Schulman深入探討了關(guān)于大語言模型訓(xùn)練與進(jìn)化的各個(gè)話題。難得的是通篇干貨的討論,主持人還能跟上節(jié)奏, 這個(gè)訪談在模型訓(xùn)練相關(guān)話題的觸及深度上是非常少見的。推薦給關(guān)心細(xì)節(jié)的讀者們。

在訪談開始,Schulman解釋說,在訓(xùn)練前,模型會(huì)模仿互聯(lián)網(wǎng)或網(wǎng)絡(luò)上的所有內(nèi)容,包括網(wǎng)站和代碼等。訓(xùn)練后,模型會(huì)針對更窄的行為范圍進(jìn)行優(yōu)化,比如作為聊天助手,提供幫助和回答問題。

他預(yù)測,未來五年內(nèi),模型將變得更好,能夠完成比現(xiàn)在更復(fù)雜的任務(wù)。例如,可以想象讓模型執(zhí)行整個(gè)編碼項(xiàng)目,而不僅僅是提供編寫函數(shù)的建議。他還提到,模型將更具樣本效率,能夠更好地從錯(cuò)誤中恢復(fù),更善于處理邊緣情況。

Schulman對模型是否存在一個(gè)真正清晰的縮放定律持保留態(tài)度,因?yàn)榭赡軙?huì)出現(xiàn)某種相變,一旦達(dá)到某個(gè)水平,就能處理更長的任務(wù)。通過使用語言,可以描述所有這些不同的時(shí)間尺度,然后可以制定計(jì)劃,嘗試朝著目標(biāo)前進(jìn),無論這個(gè)目標(biāo)是一個(gè)月后還是十年后的。

Schulman預(yù)測,一旦開始進(jìn)行長期的強(qiáng)化學(xué)習(xí)訓(xùn)練,模型將能夠在更長時(shí)間里保持連貫。然而模型可能仍會(huì)有其他雜項(xiàng)缺陷,導(dǎo)致它們陷入困境或無法取得進(jìn)展。

Schulman還討論了AI模型的泛化和遷移能力,例如,如果用英語數(shù)據(jù)訓(xùn)練模型,它也能在其他語言中表現(xiàn)良好。此外AI模型有局限性,例如,模型可能會(huì)錯(cuò)誤地認(rèn)為自己可以執(zhí)行某些任務(wù),如發(fā)送電子郵件或叫Uber。

談到AI的未來發(fā)展,特別是如果AI的發(fā)展比預(yù)期更快,Schulman認(rèn)為我們可能需要在訓(xùn)練和部署方面放慢速度,直到非常確定可以安全地處理AI??赡苄枰诖笮蛯?shí)體之間進(jìn)行協(xié)調(diào),以避免犧牲安全性。然而,他也承認(rèn),他不確定如何長期保持這種平衡。如果能夠合理協(xié)調(diào),就能找到一種方法來部署真正智能的人工智能,這將作為人們意志的延伸,并防止其被濫用導(dǎo)致災(zāi)難。這將帶來繁榮和更快的科學(xué)進(jìn)步。然而需要考慮如何確保這些系統(tǒng)不會(huì)被濫用或試圖發(fā)動(dòng)政變。

Schulman傾向于逐步部署比以前更智能的系統(tǒng),以提高安全性。如果情況開始變得可怕,可以放慢速度。在部署新系統(tǒng)時(shí),可能需要進(jìn)行大量的測試,例如模擬預(yù)期的部署,并希望有一個(gè)良好的監(jiān)控系統(tǒng),以便在部署的系統(tǒng)開始出現(xiàn)問題時(shí)能夠立即發(fā)現(xiàn)。

在進(jìn)行長期視角的強(qiáng)化學(xué)習(xí)時(shí),需要密切關(guān)注任何不連續(xù)的跳躍,并進(jìn)行大量的評估。需要確保的模型沒有任何理由反對,而且需要對模型的能力進(jìn)行大量的評估。在今天的強(qiáng)化學(xué)習(xí)和人類反饋系統(tǒng)中試圖通過獎(jiǎng)勵(lì)模型來最大化人類的認(rèn)可。模型只是試圖產(chǎn)生一些人們會(huì)喜歡并判斷為正確的東西。在推理方面,Schulman認(rèn)為最佳的結(jié)果是將訓(xùn)練階段的計(jì)算和測試階段的逐步推理結(jié)合起來。

Schulman關(guān)注兩種學(xué)習(xí)方式:一種是上下文學(xué)習(xí),雖然樣本效率高,但會(huì)隨著每個(gè)實(shí)例的變化而被破壞;另一種是大規(guī)模訓(xùn)練,雖然不會(huì)隨實(shí)例變化而破壞,但可能過于淺薄。他探討了是否存在一種中間路徑,既不會(huì)隨實(shí)例變化而破壞,也不會(huì)過于淺薄,而是更加刻意和主動(dòng)。

這種中間路徑可能涉及某種中期記憶,既能適應(yīng)上下文,又比預(yù)訓(xùn)練小得多。這可能涉及到推理,通過自推理發(fā)展知識,同時(shí)使用內(nèi)省和自知識來確定需要學(xué)習(xí)什么。這種能力是當(dāng)前系統(tǒng)所缺少的。

人們并沒有真正努力在這個(gè)中間地帶,例如大規(guī)模訓(xùn)練和上下文學(xué)習(xí)之間找到平衡。OpenAI希望能構(gòu)建一個(gè)能進(jìn)行在線學(xué)習(xí)的系統(tǒng),同時(shí)具有一些認(rèn)知技能,如反思自己的知識,尋找新的知識來填補(bǔ)空白。

Schulman還談到了他們在OpenAI的工作,包括創(chuàng)建ChatGPT,以及他們對聊天機(jī)器人和指令遵循模型的研究。他們發(fā)現(xiàn)這些模型在語言和代碼方面表現(xiàn)出色,但也存在一些問題,如產(chǎn)生幻覺和不正常的輸出。

在這個(gè)討論中,Schulman關(guān)注了聊天模型的發(fā)展,以及如何通過混合數(shù)據(jù)集(如指令和聊天數(shù)據(jù))來優(yōu)化模型。他認(rèn)為,聊天模型更易于使用,并能自理解其局限性,從而表現(xiàn)出更明智的行為。Schulman也提到了模型的微調(diào)過程,強(qiáng)調(diào)了迭代監(jiān)督微調(diào)的重要性,即讓人類編輯模型生成的輸出。還提到強(qiáng)化學(xué)習(xí)訓(xùn)練的指令跟隨模型,以及如何通過微調(diào)和包裝器來創(chuàng)建類似的模型。

關(guān)于人工智能的發(fā)展速度,Schulman認(rèn)為自GPT-2以來,其發(fā)展速度比預(yù)期的要快。此外,他還探討了GPT-4的ELO分?jǐn)?shù)提高,認(rèn)為這主要是由于后訓(xùn)練帶來的改進(jìn)。

Schulman對是否存在數(shù)據(jù)瓶頸的問題進(jìn)行了探討,盡管數(shù)據(jù)量有限會(huì)帶來一些挑戰(zhàn),但OpenAI不認(rèn)為會(huì)立即遇到數(shù)據(jù)瓶頸。關(guān)于從不同類型的預(yù)訓(xùn)練數(shù)據(jù)進(jìn)行概括的問題,這是一個(gè)科學(xué)研究的挑戰(zhàn),因?yàn)闊o法創(chuàng)建大量的預(yù)訓(xùn)練模型進(jìn)行研究。

關(guān)于模型規(guī)模與其智能程度之間的關(guān)系,Schulman認(rèn)為,較大的模型可能會(huì)學(xué)習(xí)更好的共享表示,而較小的模型可能過于依賴記憶。那么,為什么大型模型在相同數(shù)量的數(shù)據(jù)上訓(xùn)練時(shí)會(huì)變得更聰明,或者在更少的數(shù)據(jù)上訓(xùn)練時(shí)可以獲得相同的智能呢?Schulman解釋說,這可能是因?yàn)榇笮湍P涂梢砸暈橐幌盗胁煌娐返募希糜谶M(jìn)行并行計(jì)算。在更大的模型中有更多的計(jì)算,因此更有可能找到一個(gè)幸運(yùn)的計(jì)算,最終獲勝。

他進(jìn)一步解釋說,大型模型就像一個(gè)庫,可以將函數(shù)以某種方式鏈接在一起,具有一定的可組合性。因此,大型模型有一個(gè)更大的不同計(jì)算庫,包括許多處于休眠狀態(tài)并且只在某些時(shí)候使用的東西。

在未來幾年的發(fā)展趨勢方面,Schulman希望能夠添加新的模式,通過預(yù)訓(xùn)練和后訓(xùn)練的結(jié)合,不斷改進(jìn)功能,開辟新的用例。他預(yù)計(jì)隨著時(shí)間的推移,人工智能將成為經(jīng)濟(jì)的重要組成部分,人們將更好地理解如何將其集成到不同的流程中。

然而,這也提出了一個(gè)問題:如果人工智能變得足夠強(qiáng)大,能夠自己經(jīng)營一家成功的企業(yè),那么人類是否還需要參與其中?Schulman認(rèn)為即使人工智能變得非常有能力,人們?nèi)匀皇侨斯ぶ悄茏罱K行動(dòng)的驅(qū)動(dòng)力。但是,如果有人參與的公司在競爭中敗給了沒有人參與的公司,那么可能需要某種監(jiān)管,禁止沒有人參與整個(gè)公司的運(yùn)營。

雖然AI運(yùn)營的公司在許多方面可能表現(xiàn)得更好,但它們也存在更高的尾部風(fēng)險(xiǎn),因?yàn)樗鼈兏锌赡艹霈F(xiàn)大規(guī)模故障。這是因?yàn)锳I在處理非常古怪的情況時(shí)仍然缺乏樣本效率。我們可能更傾向于讓人類參與其中,至少在不久的將來是這樣。如果AI在管理所有方面都表現(xiàn)得更好,而且它們也完全仁慈,已經(jīng)完全解決了協(xié)調(diào)問題,它們比人類更善于對人類負(fù)責(zé),那么讓AI管理公司也許是可以的。但這可能還是一個(gè)遙遠(yuǎn)的未來。

Schulman還討論了AI系統(tǒng)的責(zé)任和激勵(lì)機(jī)制,以及如何在不同利益相關(guān)者的需求之間做出妥協(xié)。OpenAI提出了一個(gè)名為"模型規(guī)范"的文檔,該文檔詳細(xì)描述了他們希望模型在API和ChatGPT中如何表現(xiàn)。

關(guān)于機(jī)器學(xué)習(xí)研究的狀態(tài),Schulman認(rèn)為與社會(huì)科學(xué)等其他領(lǐng)域相比,機(jī)器學(xué)習(xí)是一個(gè)相對健康的領(lǐng)域,因?yàn)樗袌?jiān)實(shí)的基礎(chǔ),在很大程度上基于實(shí)用性和讓事情正常運(yùn)轉(zhuǎn)。他還提出了一些關(guān)于如何提高模型效率和改進(jìn)的問題,以及如何使模型更具可操作性。

OpenAI正在努力改進(jìn)AI寫作體驗(yàn),使其更生動(dòng)、有趣,例如改進(jìn)了ChatGPT的個(gè)性。他們也在探索AI的語言模型如何影響語言使用,以及如何可能在語言模型提供商之間發(fā)生無意的提煉。他們發(fā)現(xiàn)人們喜歡結(jié)構(gòu)化的回應(yīng)和大量信息,但也注意到模型可能比人們需要的更冗長。這可能是因?yàn)樵跇?biāo)記階段,評分者更喜歡更冗長的答案,或者是因?yàn)轭A(yù)訓(xùn)練的方式導(dǎo)致模型傾向于繼續(xù)生成文本。

關(guān)于人們的偏好是否會(huì)隨著模型輸出的速度而改變,以及如何最好地描述人們的偏好,Schulman發(fā)現(xiàn),大數(shù)據(jù)集可以幫助捕捉人們的模糊偏好,而更大的模型可以自動(dòng)學(xué)習(xí)人們可能會(huì)發(fā)現(xiàn)有用和有幫助的概念。

訓(xùn)練后創(chuàng)建一個(gè)真正具有人們關(guān)心的所有功能的模型是相當(dāng)復(fù)雜的,需要大量的專業(yè)人士和大量的研發(fā)積累。這使得它有點(diǎn)像護(hù)城河,不容易被復(fù)制或啟動(dòng)。然而,也有可能通過提煉模型或使用別人的模型來克隆輸出或進(jìn)行比較。

Schulman提到,標(biāo)簽者來自不同的背景和專業(yè)領(lǐng)域,他們在完成任務(wù)方面非常優(yōu)秀。他發(fā)現(xiàn),模型的能力與在微調(diào)數(shù)據(jù)集中擁有非常接近匹配的標(biāo)簽有關(guān)。然而,模型也可以從泛化中獲得很多東西,即使沒有在特定領(lǐng)域上訓(xùn)練它,只要訓(xùn)練一個(gè)偏好模型以獲得有用性,它也會(huì)在某種程度上推廣到那個(gè)領(lǐng)域。

OpenAI正在對更多的多模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練,使模型能夠理解屏幕的樣子,并能夠以更連貫的方式與之交互。他們也在使用強(qiáng)化學(xué)習(xí)使模型能夠充當(dāng)系統(tǒng)中的代理,以更加集成的方式成為工作流程的一部分。Schulman期望在不久的將來,我們會(huì)擁有一個(gè)類似于助手的東西,可以在屏幕上與你一起工作。他希望AI能夠更像一個(gè)樂于助人的同事,而不僅僅是一個(gè)執(zhí)行一次性查詢的工具。他期待AI能夠更加主動(dòng),能夠理解并參與到用戶的整個(gè)項(xiàng)目中,甚至能夠主動(dòng)提出建議和幫助。

=以下是訪談全文的天空之城書面整理版,共2.5w字=:

主持人

如果明年沒有其他瓶頸或其他阻礙,你有了人工智能的通用智能(AGI),你的計(jì)劃是什么?

今天,我有幸與John Schulman進(jìn)行了交談。他是OpenAI的聯(lián)合創(chuàng)始人之一,負(fù)責(zé)領(lǐng)導(dǎo)這里的后期訓(xùn)練團(tuán)隊(duì)。他還領(lǐng)導(dǎo)了ChatGPT的創(chuàng)建,是許多最重要的、被廣泛引用的人工智能和強(qiáng)化學(xué)習(xí)論文的作者。約翰,很高興和你聊天,感謝你參加播客。

John Schulman:

也感謝你邀請我參加播客。我是你的忠實(shí)粉絲。

哦,謝謝,謝謝你這么說。

那么,我的第一個(gè)問題是,除了損失函數(shù)和訓(xùn)練機(jī)制方面實(shí)際發(fā)生的情況之外,我們在訓(xùn)練前和訓(xùn)練后之間還有這些區(qū)別。我只是好奇,從概念上退一步,訓(xùn)練前會(huì)創(chuàng)造什么?在此基礎(chǔ)上,訓(xùn)練后會(huì)做什么?

在訓(xùn)練前,你基本上是在訓(xùn)練模型去模仿互聯(lián)網(wǎng)或網(wǎng)絡(luò)上的所有內(nèi)容,包括網(wǎng)站和代碼等等。所以你會(huì)得到一個(gè)模型,它基本上可以生成看起來像互聯(lián)網(wǎng)上隨機(jī)網(wǎng)頁的內(nèi)容。而且該模型還經(jīng)過訓(xùn)練以最大化可能性,它必須對所有內(nèi)容賦予概率。所以目標(biāo)基本上是根據(jù)前幾個(gè)標(biāo)記預(yù)測下一個(gè)標(biāo)記。標(biāo)記就像單詞或單詞的一部分。由于模型必須對其賦予概率,而我們正在訓(xùn)練以最大化對數(shù)概率,因此它最終會(huì)非常精確。所以它不僅可以生成網(wǎng)絡(luò)上的所有內(nèi)容,還可以為所有內(nèi)容分配概率。因此,基礎(chǔ)模型可以有效地承擔(dān)所有這些不同的角色或生成所有這些不同類型的內(nèi)容。

然后,當(dāng)我們進(jìn)行后期訓(xùn)練時(shí),我們通常針對更窄的行為范圍,我們基本上希望模型表現(xiàn)得像這種聊天助手。這是一個(gè)更具體的角色,它試圖提供幫助。它不是試圖模仿一個(gè)人。它是回答你的問題或完成你的任務(wù)。我們正在針對不同的目標(biāo)進(jìn)行優(yōu)化,這更多地是產(chǎn)生人類會(huì)喜歡和覺得有用的輸出,而不是僅僅試圖模仿來自網(wǎng)絡(luò)的原始內(nèi)容。

是的,好的。我想也許我應(yīng)該退一步問,現(xiàn)在我們有這些模型,它們非常擅長充當(dāng)聊天機(jī)器人。退一步看看這些流程目前的工作方式,這些模型將在年底前發(fā)布什么……這些模型在年底發(fā)布的東西,我們能做什么?您認(rèn)為未來五年內(nèi)會(huì)取得怎樣的進(jìn)展?

是的,我認(rèn)為模型在五年內(nèi)會(huì)變得更好。是的。所以,我認(rèn)為即使在一兩年內(nèi),我們也會(huì)發(fā)現(xiàn)您可以使用它們來完成比現(xiàn)在更復(fù)雜的任務(wù)。例如,現(xiàn)在,您可以想象讓模型執(zhí)行整個(gè)編碼項(xiàng)目,而不是給您一個(gè)關(guān)于如何編寫函數(shù)的建議。因此,你可以將這個(gè)模型想象成,你給出一些關(guān)于編寫代碼的高級指示,然后它會(huì)去編寫許多文件并進(jìn)行測試,查看輸出,然后對其進(jìn)行一些迭代。這只是一個(gè)更復(fù)雜的任務(wù)。

基本上,這個(gè)模型能否連續(xù)運(yùn)行足夠長的時(shí)間來編寫多個(gè)代碼文件?或者說,從現(xiàn)在到那時(shí),會(huì)發(fā)生什么變化?

是的,我認(rèn)為這樣的更艱巨的任務(wù)將通過訓(xùn)練模型來完成。就像我之前所說,模型并不是特別……大多數(shù)訓(xùn)練數(shù)據(jù)更像是一次執(zhí)行單個(gè)步驟。我希望我們能做更多的工作來訓(xùn)練模型,以執(zhí)行這些較長的項(xiàng)目。我認(rèn)為任何類型的訓(xùn)練,比如進(jìn)行強(qiáng)化學(xué)習(xí)來學(xué)習(xí)如何完成這些任務(wù),無論你怎么做,無論你是監(jiān)督最終輸出還是監(jiān)督每一步,我認(rèn)為任何一種執(zhí)行這些長期項(xiàng)目的訓(xùn)練都會(huì)讓它們變得更好。由于整個(gè)領(lǐng)域都很新,我想說有很多唾手可得的成果。這在進(jìn)行這種訓(xùn)練時(shí)非常有趣。

我認(rèn)為這是一回事。此外,我希望隨著模型變得越來越好,它們會(huì)更好地從錯(cuò)誤中恢復(fù),或者它們只是更善于處理邊緣情況,或者當(dāng)出現(xiàn)問題時(shí),它們知道如何從中恢復(fù)。因此,模型將更具樣本效率。你不必收集大量數(shù)據(jù)來教他們?nèi)绾位氐秸墸恍枰稽c(diǎn)數(shù)據(jù)或只是他們從其他能力中概括出來的數(shù)據(jù)就可以讓他們回到正軌,而當(dāng)前的模型可能會(huì)陷入困境并迷失方向。

我不確定我是否真正理解了……我想更明確地了解概括如何幫助你回到正軌。你能詳細(xì)說一下嗎?我不確定我是否明白這兩個(gè)概念為什么有聯(lián)系。

對,它們沒有直接聯(lián)系。所以我想說你通常會(huì)有一點(diǎn)數(shù)據(jù)可以做所有事情。如果你收集了一個(gè)多樣化的數(shù)據(jù)集,你會(huì)得到其中的一點(diǎn)點(diǎn)東西。如果你有概括性非常好的模型,即使只有幾個(gè)回到正軌的例子,比如在預(yù)訓(xùn)練中,有回到正軌的例子,那么模型將能夠從它看到的其他事物中概括到當(dāng)前的情況。

我認(rèn)為,如果你有較弱的模型,你可能能夠讓它們在有足夠的數(shù)據(jù)的情況下做幾乎任何事情。但你可能必須在某個(gè)特定領(lǐng)域或技能上投入大量精力,而對于更強(qiáng)大的模型,它可能無需任何訓(xùn)練數(shù)據(jù)或任何努力就能做正確的事情。

你現(xiàn)在對這些模型可能可以連貫地行動(dòng)五分鐘有什么直覺嗎?我們希望它們能夠完成人類需要一小時(shí)、一周、一個(gè)月等才能完成的任務(wù)。

從這些基準(zhǔn)中得到的結(jié)果,是否每個(gè)基準(zhǔn)都需要10倍以上的計(jì)算量,類似于當(dāng)前預(yù)訓(xùn)練的縮放損失,還是會(huì)有一個(gè)更精簡的過程,因?yàn)橹灰_(dá)到那個(gè)點(diǎn),你的樣本效率就已經(jīng)更高了,然后你就可以,你只需要花幾年時(shí)間完成一項(xiàng)任務(wù)或其他事情。

是的,我想說,從高層次來看,我同意更長遠(yuǎn)的任務(wù)將需要更多的模型智能才能做好,而且訓(xùn)練成本也會(huì)更高。我對是否存在一個(gè)真正清晰的縮放定律持保留態(tài)度,除非你能以極其謹(jǐn)慎的方式設(shè)定它,或者以某種方式設(shè)計(jì)實(shí)驗(yàn)。因?yàn)槲艺J(rèn)為,最終可能會(huì)出現(xiàn)某種相變,一旦你達(dá)到某個(gè)水平,你就能處理更長的任務(wù)。

例如,我認(rèn)為當(dāng)人們在不同的時(shí)間尺度上進(jìn)行規(guī)劃時(shí),我并不確定他們是否采用了完全不同的機(jī)制。因此,無論我們是在考慮一個(gè)月后、一年后還是一百年后的事情,我們可能都是使用相同的思維機(jī)制。因此,我們實(shí)際上并沒有進(jìn)行某種強(qiáng)化學(xué)習(xí),我們需要擔(dān)心的是如何涵蓋這個(gè)時(shí)間尺度的折扣因子等等。

我認(rèn)為,通過使用語言,你可以描述所有這些不同的時(shí)間尺度,然后你可以做一些事情,比如在當(dāng)下制定計(jì)劃,你可以嘗試朝著你的目標(biāo)前進(jìn),無論這個(gè)目標(biāo)是一個(gè)月后還是十年后的。因此,我對模型也有同樣的期待,我不確定這是否是一個(gè)相變,但我認(rèn)為有一些功能可以在多個(gè)尺度上發(fā)揮作用。

如果我理解錯(cuò)了,請糾正我,但這似乎意味著我們現(xiàn)在擁有的模型是基于每個(gè)Token的,非常智能,就像他們可能和人類一樣聰明,基于每個(gè)Token,最聰明的人類。然而,阻止它們發(fā)揮應(yīng)有作用的原因是,從現(xiàn)在起五分鐘后,它們將無法以連貫的方式編寫代碼,也無法與你對項(xiàng)目的更廣泛目標(biāo)保持一致。

如果情況確實(shí)如此,那么一旦你開始這種長期的強(qiáng)化學(xué)習(xí)訓(xùn)練計(jì)劃,它就會(huì)立即釋放你在更長時(shí)間里保持連貫的能力。一旦該制度被解鎖,我們是否應(yīng)該預(yù)測一些人類水平的事情?如果不是,那么在你可以計(jì)劃一年并執(zhí)行需要那么長時(shí)間的項(xiàng)目之后,還剩下什么?是的,一旦我們進(jìn)入該制度,我們會(huì)看到什么以及進(jìn)展速度有多快還不完全清楚。所以這仍然不確定。

我想說,我預(yù)計(jì)會(huì)有,我不會(huì)指望通過任何這樣的訓(xùn)練立即解決所有問題。我認(rèn)為模型還會(huì)有其他雜項(xiàng)缺陷,導(dǎo)致它們陷入困境或無法取得進(jìn)展或做出比人類更糟糕的決定。所以我不會(huì)說我預(yù)計(jì)這一件小事會(huì)解鎖所有能力,但目前還不清楚。但它可能會(huì)在執(zhí)行長期任務(wù)的能力方面有所提高,這可能會(huì)走得很遠(yuǎn)。

你認(rèn)為這是合理的嗎?或者似乎很可能有其他原因?qū)е缕款i?我也有點(diǎn)好奇,瓶頸的本質(zhì)是什么?因此,它擁有所有這些用于預(yù)訓(xùn)練的表示。現(xiàn)在,由于長視界強(qiáng)化學(xué)習(xí),它可以在很長一段時(shí)間內(nèi)保持連貫性。那么,還剩下什么?

也許還有一些,比如人類專家在不同任務(wù)中帶來的其他經(jīng)驗(yàn),比如有品味或更好地處理歧義。所以我可以想象,如果我們想做一些研究之類的事情,這些考慮就會(huì)發(fā)揮作用。顯然,它們只是一些平凡的限制,比如模型的承受力,比如它是否可以使用用戶界面。顯然還有物理世界或訪問事物。所以我認(rèn)為可能有很多平凡的障礙,這些障礙可能不會(huì)持續(xù)那么久,但最初會(huì)減慢進(jìn)度。

對于這些被設(shè)計(jì)出來的人工智能網(wǎng)站,一旦它們在更多的多模態(tài)數(shù)據(jù)上進(jìn)行訓(xùn)練,或者至少變得更加多模態(tài),它們與我們?yōu)槿祟愒O(shè)計(jì)的網(wǎng)站會(huì)有何不同?例如,它們所需的用戶界面(UI)是什么樣的?如何彌補(bǔ)它們的優(yōu)點(diǎn)和缺點(diǎn)?它們與我們目前為人類設(shè)計(jì)的UI有何不同?

這是一個(gè)有趣的問題。我希望這些模型能夠使用僅通過視覺為人類設(shè)計(jì)的網(wǎng)站,比如當(dāng)它們的視覺能力變得更強(qiáng)大時(shí),我們并不需要立即改變它們。另一方面,有些網(wǎng)站可能會(huì)從人工智能的使用中受益,它們可能希望設(shè)計(jì)出更好的人工智能用戶體驗(yàn)。我不確定這到底意味著什么,但可能就像我們的模型在文本模式下仍然比從圖像中讀取文本更好一樣,你可能希望有一個(gè)好的基于文本的模型表示。這也是一個(gè)很好的跡象,表明所有可以交互的東西是什么。但我不會(huì)期望網(wǎng)絡(luò)被完全重新設(shè)計(jì),讓API無處不在,因?yàn)槲蚁M覀兡軌蜃屇P褪褂门c人類相同的UI。

我認(rèn)為這就是語言模型的重大教訓(xùn),它們可以以與人類類似的能力行事。你之前提到的關(guān)于這個(gè)過程的觀點(diǎn)可能更具有樣本效率,因?yàn)樗梢詮念A(yù)訓(xùn)練中的經(jīng)驗(yàn)中概括出如何在不同場景中擺脫困境。我很好奇你所見過的這種概括和遷移的最有力證據(jù)是什么。因?yàn)殛P(guān)于模型未來能力的最大問題似乎是發(fā)生了多少概括。有什么讓你感覺非常有說服力的東西,比如你真的學(xué)到了一些你不會(huì)期望它從這里的概括中學(xué)到的東西?

在訓(xùn)練后,確實(shí)有一些有趣的概括實(shí)例。比如一個(gè)眾所周知的現(xiàn)象是,如果你用英語數(shù)據(jù)進(jìn)行所有的微調(diào),你的模型也會(huì)在其他語言中表現(xiàn)良好。因此,如果你用英語數(shù)據(jù)訓(xùn)練助手,它也會(huì)用西班牙語做一些合理的事情。有時(shí)你可能會(huì)得到錯(cuò)誤的行為,比如它是用英語回復(fù)還是用西班牙語回復(fù),但通常你也會(huì)得到正確的行為。比如你讓它用西班牙語回答西班牙語的查詢。所以這是一種有趣的泛化實(shí)例,你只需要抓住合適的有用角色,然后你就會(huì)用不同的語言自動(dòng)做正確的事情。

我們已經(jīng)看到了一些使用多模態(tài)數(shù)據(jù)的版本,如果你只對文本進(jìn)行微調(diào),你也會(huì)得到合理的圖像行為。在ChatGPT的早期,我們試圖解決一些問題,讓模型理解自己的局限性。早期版本的模型會(huì)認(rèn)為他們可以給你發(fā)電子郵件或叫Uber之類的。該模型會(huì)嘗試扮演助手的角色,它會(huì)說,哦,是的,我當(dāng)然發(fā)了那封電子郵件。

但顯然它沒有。

所以我們開始收集一些數(shù)據(jù)來解決這些問題,我們發(fā)現(xiàn),即使將少量數(shù)據(jù)與其他所有數(shù)據(jù)混合在一起,也能解決問題。所以我不記得具體有多少例子,但大概有30個(gè)。我們目前擁有的例子相當(dāng)有限,這些例子展示了一種普遍現(xiàn)象,即解釋模型并不具備這種能力,而且這種現(xiàn)象很好地推廣到了我們尚未訓(xùn)練過的各種能力。

我想再次提出這個(gè)問題,因?yàn)槲也淮_定我是否已經(jīng)理解了。如果你有一個(gè)經(jīng)過訓(xùn)練的模型,它可以在更長的時(shí)間內(nèi)保持連貫性,那么這是否意味著,除非存在其他瓶頸(可能存在也可能不存在),否則到明年,你的模型在表現(xiàn)上可能達(dá)到人類水平?你可以像與人類同事一樣,以同事的身份與模型互動(dòng)。你可以指示它們?nèi)プ鲆恍┦虑?,它們就?huì)去執(zhí)行。如果這就是你認(rèn)為可能實(shí)現(xiàn)的能力,那么這個(gè)預(yù)測有什么問題?

是的,很難確定會(huì)有什么缺陷。

我想說,當(dāng)你今天與模型交談時(shí),除了長期連貫性之外,它們還有各種弱點(diǎn),比如認(rèn)真思考事情或注意你問他們?yōu)槭裁?。所以我想說,我不會(huì)期望僅僅提高一點(diǎn)連貫性就能達(dá)到人工智能的水平。但我無法清楚地表達(dá)出,阻止他們成為一個(gè)完全發(fā)揮作用的同事的主要弱點(diǎn)是什么。

看起來你應(yīng)該為很快擁有人工智能的可能性做計(jì)劃。

是的,我認(rèn)為這是合理的。

那么計(jì)劃是什么?如果明年沒有其他瓶頸,你就有了人工智能,那么計(jì)劃是什么?

我想說,如果人工智能比預(yù)期來得更早,我們肯定會(huì)對此保持謹(jǐn)慎。我們可能希望在訓(xùn)練和部署方面放慢一點(diǎn)速度,直到我們非常確定我們可以安全地處理它。我們對它將要做什么、能做什么有很好的把握。所以我認(rèn)為,是的,如果它比預(yù)期的要早得多,我們必須非常小心,因?yàn)槲艺J(rèn)為我們的理解在很多方面仍然處于初級階段。

小心意味著什么?因?yàn)橄氡啬阋呀?jīng)很小心了。你在訓(xùn)練之前會(huì)做這些評估。

是的,我想說也許不要訓(xùn)練更智能的版本,在訓(xùn)練它時(shí)要非常小心,確保它經(jīng)過適當(dāng)?shù)纳澈刑幚淼鹊?。也許不要大規(guī)模部署它,或者不要小心部署它的規(guī)模。

嗯。是的,我想我沒有……好吧,讓我們來玩一下這個(gè)場景。它發(fā)生在明年,然后你沒有訓(xùn)練一個(gè)更智能的系統(tǒng),而是在以某種有節(jié)制的方式部署。

是的,我在想...大概這在人工智能中并不是特別開放,但這只是......智能比我們預(yù)期的要容易得多,這就是它發(fā)生的原因。所以你等著部署。現(xiàn)在,其他公司也擁有類似的能力。接下來會(huì)發(fā)生什么?所以你一直在等待部署。你在等什么?在這種情況下,每家公司都在做什么?

是的,博弈論有點(diǎn)難以理解。

所以首先,我不認(rèn)為明年會(huì)發(fā)生這種情況,但進(jìn)行對話仍然很有用。也許是兩三年。

但兩三年還很快。

是的,還很快。我確實(shí)認(rèn)為你可能需要一些協(xié)調(diào)。每個(gè)人都需要就如何部署或進(jìn)一步訓(xùn)練的合理限制達(dá)成共識,才能實(shí)現(xiàn)這一目標(biāo)。如果沒有這樣的共識,就會(huì)出現(xiàn)競爭態(tài)勢,每個(gè)人都在努力保持領(lǐng)先地位,這可能會(huì)犧牲安全性。因此,我認(rèn)為可能需要在進(jìn)行這種訓(xùn)練的大型實(shí)體之間進(jìn)行協(xié)調(diào)。

那么,你在協(xié)調(diào)的過程中,我想知道,你會(huì)暫停部署到什么時(shí)候?直到你弄清楚模型中發(fā)生了什么?

或者是進(jìn)一步訓(xùn)練,暫停部署,以避免我們認(rèn)為可能存在更大風(fēng)險(xiǎn)的某些類型的訓(xùn)練。因此,我們需要為每個(gè)人應(yīng)該做的事情制定一些合理的規(guī)則,讓每個(gè)人都在一定程度上限制這些行為。

那么,限制到什么程度呢?因?yàn)槲艺J(rèn)為在某個(gè)時(shí)候,你將不得不釋放這種智能的潛在能量。那么,假設(shè)兩年后,我們得到了人工智能,現(xiàn)在每個(gè)人都很緊張,人工智能公司已經(jīng)暫停了。那么,我們現(xiàn)在應(yīng)該怎么做?或者我們應(yīng)該等到什么時(shí)候?

對此,我沒有很好的答案。

我想說,如果每個(gè)人都能協(xié)調(diào)一致,那將是一個(gè)不錯(cuò)的場景。因?yàn)槲掖_實(shí)認(rèn)為,建立這些模型需要大量的資本,而且包含很多復(fù)雜的部分,所以并不是每個(gè)人都能在家里重新創(chuàng)建這些東西??紤]到能夠訓(xùn)練最大模型的實(shí)體數(shù)量相對較少,協(xié)調(diào)似乎是可能的。但我不確定你如何長期保持這種平衡。如果我們能達(dá)到這一點(diǎn),我認(rèn)為我們就會(huì)處于一個(gè)不錯(cuò)的位置。

我很好奇,我不確定接下來會(huì)發(fā)生什么。因?yàn)閺母旧现v,我們有大量的資源,比如你可以把它推送到服務(wù)器上?,F(xiàn)在我們有了一堆智能,或者它們可以把自己推送到服務(wù)器上?,F(xiàn)在我們讓每個(gè)人都協(xié)調(diào)起來了,但我不確定我們接下來在這個(gè)世界上做什么。我們想,為什么這會(huì)讓我們獲得一個(gè)好的結(jié)果?

我想說,如果我們每個(gè)人都能合理地協(xié)調(diào),我們就能找到一些辦法。我們覺得我們已經(jīng)很好地解決了協(xié)調(diào)方面的技術(shù)問題,能夠部署真正智能的人工智能,作為人們意志的延伸,而且還能防止它們被濫用而導(dǎo)致災(zāi)難,我認(rèn)為這會(huì)很棒。我們可以繼續(xù)安全地部署這些系統(tǒng),這將帶來很多繁榮和一個(gè)新的、更快速的科學(xué)進(jìn)步階段等等。所以我認(rèn)為這會(huì)是好的情景。

但我很好奇,比如,你怎么知道幾年后所有這些參與者,即使在最好的情況下,他們也同意暫停,直到我們弄清楚我們正在構(gòu)建的一致系統(tǒng)不會(huì)試圖接管政變或不會(huì)讓別人這樣做?這方面的證據(jù)是什么樣的?

我想說,如果我們可以逐步部署比以前的系統(tǒng)更智能的系統(tǒng),那么我認(rèn)為這會(huì)更安全。因此,我期望的情況并非每個(gè)人都必須協(xié)調(diào)、鎖定并安全地釋放事物。這樣可能會(huì)導(dǎo)致勢能的大幅積累。我更傾向于這樣的場景:我們只是不斷地釋放比以前更好的東西,同時(shí)確保我們對每個(gè)差異都有信心,認(rèn)為它們都在改善安全性和一致性,以適應(yīng)能力的提升。如果事情開始變得有些可怕,我們可以放慢速度。這就是我所期望的。

我想說,如果出現(xiàn)更多的不連續(xù)跳躍,問題就在于,你如何知道你得到的東西是否可以安全地釋放?我不能給出一個(gè)通用的答案。但為了讓這更容易接受,你可能需要進(jìn)行大量的測試,比如模擬你期望的部署。所以紅隊(duì)就是這樣。你會(huì)希望以一種比你計(jì)劃在現(xiàn)實(shí)世界中做的事情更不利的方式,或者更有可能失敗的方式來進(jìn)行。你會(huì)希望有一個(gè)非常好的監(jiān)控系統(tǒng),這樣如果部署的系統(tǒng)開始出現(xiàn)問題,你會(huì)覺得它會(huì)立即被發(fā)現(xiàn)。也許你有一些東西在監(jiān)視部署的人工智能和它們在做什么,并尋找麻煩的跡象。

我想說,你需要一些縱深防御。你會(huì)希望有一些組合,比如模型本身表現(xiàn)得很好,有無可挑剔的道德準(zhǔn)則等等。你非常有信心,它對任何類型的接管企圖或嚴(yán)重濫用都具有極強(qiáng)的抵抗力。然后你還希望在它之上有非常好的監(jiān)控。所以,你可以檢測到任何類型的麻煩。

在進(jìn)行 Long Horizon RL 時(shí),或者當(dāng)你最終開始進(jìn)行這項(xiàng)任務(wù)時(shí),你會(huì)跟蹤什么,以便在廣泛部署這些系統(tǒng)之前注意到這種不連續(xù)的跳躍?

我想說,你會(huì)希望在訓(xùn)練過程中進(jìn)行大量評估。

那具體會(huì)是什么呢?你怎么會(huì)注意到類似這樣的事情?在知道這是可能發(fā)生的事情的情況下,在 Long Horizon RL 上進(jìn)行訓(xùn)練是否有意義?或者這只是一種非常低的可能性?你如何看待這個(gè)問題?

如果你看到很多潛在的可怕能力,如果它們看起來很接近,那么在進(jìn)行這種訓(xùn)練時(shí),你需要非常小心。我認(rèn)為這不是我們想要的,我們現(xiàn)在必須害怕,因?yàn)楝F(xiàn)在很難讓模型做任何連貫的事情。但如果它們開始變得非常好,我想我們會(huì)想要,我們必須認(rèn)真對待其中的一些問題。我們希望進(jìn)行大量的評估,以測試它們在大多數(shù)方面是否存在不當(dāng)行為,或者我猜這就像模型的對齊。我們想要檢查它們是否不會(huì)對我們或其他什么的。但你可能還想尋找不連續(xù)的跳躍和能力。你會(huì)想要對模型的能力進(jìn)行大量的評估。

我想你也想確保無論你正在訓(xùn)練什么,都沒有任何理由讓模型反對你,我認(rèn)為這本身并不是最難做到的事情。就像我們用 RLHF 訓(xùn)練它們的方式一樣,這確實(shí)感覺非常安全,即使模型非常聰明,它也確實(shí)感覺非常安全,因?yàn)槟P椭皇窃噲D產(chǎn)生一個(gè)讓人類愉悅的信息。該模型并不關(guān)注世界上的其他任何事情,它只關(guān)注自己生成的文本是否得到了批準(zhǔn)。

因此,很明顯,如果你正在進(jìn)行某項(xiàng)任務(wù),而模型正在執(zhí)行一系列涉及工具等的操作,那么在生成最終結(jié)果的過程中,它可能會(huì)有動(dòng)機(jī)去做很多對人類來說毫無意義的古怪事情。但我認(rèn)為,它并不一定有動(dòng)機(jī)去做除了生成非常高質(zhì)量的輸出之外的任何事情。

因此,我認(rèn)為你對于工具收斂的傳統(tǒng)觀點(diǎn),比如模型會(huì)想要接管世界,以便最終能生成出色的代碼,可能并不準(zhǔn)確。例如,如果你讓它為你編寫一個(gè)Flask應(yīng)用程序,它可能會(huì)說:“首先,我需要接管世界,然后我需要……”但我不知道。然而,對于這樣一些明確的任務(wù),很難想象為什么你會(huì)首先想要征服世界。當(dāng)然,如果你的任務(wù)是賺錢,那么這可能會(huì)導(dǎo)致一些惡劣的行為作為工具性目標(biāo)。

在我們回到這個(gè)問題之前,讓我們先退一步,談?wù)劷裉斓膹?qiáng)化學(xué)習(xí)和人類反饋(RLHF)系統(tǒng)等。但我確實(shí)想在某個(gè)時(shí)候跟進(jìn)一下,這是一個(gè)很有趣的話題。

今天的RLHF,它影響這些模型的方式是……你會(huì)將其描述為……從人類心理學(xué)的角度來看,它是一種驅(qū)動(dòng)力嗎?它是一個(gè)目標(biāo)嗎?它是一種沖動(dòng)嗎?從心理學(xué)的角度來看,它是如何改變的?不僅僅是聊天機(jī)器人的角色,不要這樣說話,用另一種方式說話,或者不要產(chǎn)生那些輸出。

我想說,可能有一些類似于人類的驅(qū)動(dòng)力或目標(biāo)。因此,你會(huì)試圖轉(zhuǎn)向某一組狀態(tài),而不是其他狀態(tài)。我認(rèn)為我們的驅(qū)動(dòng)力或目標(biāo)概念還包括實(shí)現(xiàn)目標(biāo)后的滿足感。這些因素可能與學(xué)習(xí)算法的關(guān)系比模型在運(yùn)行時(shí)所做的更密切,因?yàn)槟阒挥幸粋€(gè)固定的模型。所以我想說,可能有一些類比,盡管我不知道它們到底有多接近。但我想說,在某種程度上,模型確實(shí)以某種有意義的方式具有驅(qū)動(dòng)力和目標(biāo)。在RLHF的情況下,你試圖通過獎(jiǎng)勵(lì)模型來最大化人類的認(rèn)可,模型只是試圖產(chǎn)生一些人們會(huì)喜歡并判斷為正確的東西。

我聽說過兩種想法,即使用那種獨(dú)白類型的東西來更好地推理,至少在公開場合,我見過這種事情。我很好奇你認(rèn)為哪種更有希望。一種是模型從它輸出的一系列潛在思路中學(xué)習(xí),它學(xué)會(huì)遵循導(dǎo)致正確答案的思路,并在部署之前對其進(jìn)行訓(xùn)練。另一種是在部署中使用大量推理,這涉及模型在部署時(shí)與自己對話。你希望它更接近哪一個(gè)?當(dāng)它真正擅長推理時(shí),是因?yàn)樗蛔隽艘欢淹评碓?,還是因?yàn)槟阌?xùn)練它在這方面做得很好?

好的,我想說,推理可以被定義為在測試階段需要進(jìn)行某種計(jì)算或推理的任務(wù)。因此,根據(jù)這個(gè)定義,推理是需要在測試階段進(jìn)行一些計(jì)算和逐步推理的任務(wù)。另一方面,我也希望能夠在訓(xùn)練階段進(jìn)行一些計(jì)算或通過訓(xùn)練獲得豐富的收獲。因此,我認(rèn)為,將這兩者結(jié)合起來,可以得到最佳的結(jié)果。

目前,模型有兩種學(xué)習(xí)方式:一種是在訓(xùn)練階段,另一種是自由訓(xùn)練或后訓(xùn)練,但大部分的計(jì)算訓(xùn)練都花在了自由訓(xùn)練上。這就像是在掩蓋數(shù)萬億個(gè)標(biāo)記,就像是在瀏覽數(shù)萬億個(gè)標(biāo)記的信息,如果人類受到這種影響,就會(huì)感到非常困惑,這并不是一種有效的學(xué)習(xí)方式。

另一種方式是上下文學(xué)習(xí),雖然這種方式的樣本效率更高,但它會(huì)隨著每個(gè)實(shí)例的變化而被破壞。我很好奇,你是否認(rèn)為在這兩種方式之間有一條路徑,它不會(huì)隨著每個(gè)實(shí)例的變化而被破壞,但它也不會(huì)像只看到數(shù)萬億個(gè)標(biāo)記那樣輕浮,它更加刻意和主動(dòng)。

你的意思是,模型具有某種中期記憶,因此太多而無法適應(yīng)上下文,但規(guī)模比預(yù)訓(xùn)練小得多?

我不確定這是否是記憶,可能是記憶。我沒有上下文,但當(dāng)然,當(dāng)我試圖為這次談話做準(zhǔn)備時(shí),我覺得我想到了我應(yīng)該理解的內(nèi)容。所以我查閱了它,仔細(xì)閱讀了它,也許在閱讀時(shí)會(huì)思考它。我不確定它在模型方面自然對應(yīng)的是什么,但它會(huì)是什么樣子?我很好奇。

我明白了。所以這不僅僅是記憶,它也有點(diǎn)像專門從事某項(xiàng)任務(wù),專門從事某項(xiàng)任務(wù)或?yàn)槟硞€(gè)特定項(xiàng)目投入大量精力。

我甚至不確定這是否更像是專業(yè)化。因此,我在思考,我對這部分的理解還不夠深入。我需要更深入地研究這部分。現(xiàn)在,我已經(jīng)理解了。我將專注于你現(xiàn)有的知識庫。

是的,我明白了。這不僅僅是找到我不知道的內(nèi)容,然后在一系列相關(guān)的資源上進(jìn)行訓(xùn)練,以在某些特殊領(lǐng)域進(jìn)行微調(diào)。這也涉及到推理,例如,通過自己的推理來發(fā)展一些知識,同時(shí)使用某種內(nèi)省和自我知識來弄清楚你需要學(xué)習(xí)什么。是的,我想說,這確實(shí)感覺像是當(dāng)前系統(tǒng)中所缺少的部分。

我想說,人們并沒有真正在這個(gè)中間地帶上努力,例如大規(guī)模訓(xùn)練,例如你制作的快照模型,它應(yīng)該像部署模型一樣做所有事情。另一方面,就像在上下文學(xué)習(xí)中一樣。我認(rèn)為部分原因是我們一直在增加上下文長度,以至于沒有動(dòng)機(jī)這樣做。所以,如果你能達(dá)到十萬或一百萬個(gè)上下文,那實(shí)際上就很多了。

在很多情況下,這實(shí)際上并不是瓶頸,但我同意,你可能還想通過某種微調(diào)來補(bǔ)充這一點(diǎn),例如,你從微調(diào)和情境學(xué)習(xí)中獲得的能力可能在某種程度上是互補(bǔ)的。因此,我希望我們能夠構(gòu)建能夠進(jìn)行某種在線學(xué)習(xí)的系統(tǒng),并且還擁有一些認(rèn)知技能,比如反思自己的知識,尋找新的知識來填補(bǔ)空白。

這一切都是同時(shí)發(fā)生的嗎?比如,這是否就像一種新的訓(xùn)練機(jī)制,所有這些事情都可以同時(shí)發(fā)生,或者無論是長期訓(xùn)練還是這種訓(xùn)練,它們是分開的,還是只是因?yàn)槟P妥銐蚵斆?,所以它們既可以自省,又可以在更長的視野范圍內(nèi)行動(dòng),你可以在長期任務(wù)上獲得足夠的回報(bào)?

是的,我想說,如果你正在做一些長期任務(wù),那么我會(huì)說,你在做任務(wù)的同時(shí)也在學(xué)習(xí)。因此,完成涉及很多步驟的事情的唯一方法就是在任務(wù)過程中更新學(xué)習(xí)和記憶。因此,就像短期記憶之間存在一個(gè)連續(xù)體,短期記憶和長期記憶之間。

所以,我想說,是的,我希望,我希望當(dāng)我們開始更多地關(guān)注長期任務(wù)時(shí),這種能力將開始變得清晰,對它的需求將開始變得清晰。而且,在某種程度上,僅僅將很多東西放入上下文中可能會(huì)讓你走得很遠(yuǎn),因?yàn)槲覀儸F(xiàn)在有很長的上下文,但你可能還需要微調(diào)之類的東西。

至于內(nèi)省和主動(dòng)學(xué)習(xí)的能力,這可能會(huì)自動(dòng)從模型的能力中脫離出來,讓他們知道他們知道什么。因?yàn)樗麄冇幸恍?,模型對他們所知道的東西有一些校準(zhǔn)。這就是為什么,這就是為什么,模型不會(huì)產(chǎn)生那么嚴(yán)重的幻覺,因?yàn)槭堑?,他們對自己的局限性有一些了解。所以我認(rèn)為同樣的能力可以用于主動(dòng)學(xué)習(xí)之類的事情。

那么,所有這些復(fù)雜的RL程序,你們開創(chuàng)的許多程序,當(dāng)模型本身變得如此智能,以至于它可以充當(dāng)自己的環(huán)境并以更在線和穩(wěn)定的方式進(jìn)行交互時(shí),其中有多少是相關(guān)的。真的嗎?那么,相較于過去的RRL解決方案,進(jìn)步的道路會(huì)更直接嗎?

我個(gè)人認(rèn)為,策略梯度算法并非最有效的樣本算法。因此,如果你希望快速學(xué)習(xí),這可能并不是你在測試時(shí)想要采取的策略。然而,誰又能確定呢?也許情況并非如此糟糕。我傾向于認(rèn)為,像動(dòng)物的運(yùn)動(dòng)學(xué)習(xí)可能是一種策略評分算法。例如,當(dāng)你正在學(xué)習(xí)如何投籃時(shí),你可能需要數(shù)千次的嘗試才能提高準(zhǔn)確率。我想你可能會(huì)使用一些類似策略評分算法的方法。但是,這并不是最快的學(xué)習(xí)方式,尤其是當(dāng)你有一個(gè)模型試圖完成一個(gè)項(xiàng)目或某種任務(wù)時(shí)。

因此,我認(rèn)為我們會(huì)更多地依賴情境學(xué)習(xí),你實(shí)際上有一個(gè)學(xué)習(xí)算法,就像你已經(jīng)學(xué)會(huì)了如何探索,如何詳盡地嘗試所有可能性,而不是一遍又一遍地重復(fù)同樣的事情,犯同樣的錯(cuò)誤。所以,我想說我們將能夠做一些看起來更像學(xué)習(xí)搜索算法的事情,這將是那種在特定任務(wù)中會(huì)用到的東西。這是一個(gè)有趣的觀點(diǎn)。

好的,我想退一步問一下你自己的歷史。至少在OpenAI,你領(lǐng)導(dǎo)了ChatGPT的創(chuàng)建。你是在什么時(shí)候意識到,首先,這些LLM是要走的路,然后聊天機(jī)器人會(huì)是,或者某種指導(dǎo)它們的方式會(huì)是一件有用的事情。請跟我講一下整個(gè)過程,比如,從什么時(shí)候開始,這成為了你的重點(diǎn),整個(gè)過程是怎樣的。

在很早以前,也就是在ChatGPT之前,我們在OpenAI有這些指令遵循模型,這就是當(dāng)時(shí)的想法,我們有基礎(chǔ)模型,人們可以用復(fù)雜的方式提示它們。但是,它們也有點(diǎn)難以提示。你必須,它們基本上會(huì)自動(dòng)完成。所以你必須用一些例子來設(shè)置一個(gè)非常好的提示。因此,OpenAI的人們正在研究,只是采用基礎(chǔ)模型并使它們更容易提示,這樣如果你只是寫一個(gè)問題,它就會(huì)回答這個(gè)問題,而不是給你更多的問題或其他東西。所以,我們有這些指令遵循模型,它們有點(diǎn)像基礎(chǔ)模型,但使用起來更容易一些。那些是最初在API中部署的,或者在GPT-3之后,那些是下一代模型。

與此同時(shí),肯定有很多人在考慮聊天。谷歌有一些論文,比如他們有Lambda和早期的Mina。所以他們有這些聊天機(jī)器人,它更像是,就像你有一個(gè),它更像是一個(gè)真正專門用于聊天任務(wù)的基礎(chǔ)模型,非常擅長聊天。而且,至少,從論文中的例子來看,它更多地用于一些有趣的應(yīng)用程序,比如,模型會(huì)扮演某種角色并假裝是那個(gè)角色。它的功能不是那么強(qiáng)大,比如,比如幫助我重構(gòu)我的代碼。確實(shí),有人正在考慮關(guān)于聊天的問題。我曾參與過一個(gè)名為WebGPT的項(xiàng)目,該項(xiàng)目主要研究聊天,它主要依賴于網(wǎng)頁瀏覽和檢索來進(jìn)行問答。當(dāng)你回答問題時(shí),它真的希望能夠處于聊天狀態(tài),因?yàn)槟憧倳?huì)想要問一些后續(xù)問題,或者有時(shí)你需要澄清一些問題,模型也應(yīng)該提出一個(gè)澄清問題,因?yàn)閱栴}可能是模棱兩可的。因此,在我們完成第一個(gè)版本后,很明顯,下一個(gè)版本應(yīng)該是對話式的。

無論如何,我們開始研究如何創(chuàng)建一個(gè)對話式的聊天助手。這個(gè)項(xiàng)目是基于GPT 3.5的,它在2022年初完成了訓(xùn)練。這個(gè)模型在語言和代碼方面表現(xiàn)得相當(dāng)出色。我們很快就意識到,它在編碼幫助方面表現(xiàn)得相當(dāng)出色,這是我們感到興奮的事情之一。因此,我們致力于這個(gè)項(xiàng)目。

我們花了一年多的時(shí)間研究這個(gè)項(xiàng)目,我們還有一個(gè)瀏覽功能,但我們最終淡化了這個(gè)功能,因?yàn)槟P偷膬?nèi)部知識非常好,我們并不需要瀏覽功能,這并不是最有趣的事情。然后,我們開始考慮將它用于beta測試,或者向朋友和家人發(fā)布一段時(shí)間。我們正在考慮公開發(fā)布。

然而,當(dāng)時(shí),GPT 4實(shí)際上在8月份完成了訓(xùn)練。實(shí)際上,OpenAI的旗艦RL項(xiàng)目是指令跟隨項(xiàng)目,因?yàn)檫@是被部署到生產(chǎn)中的模型。因此,GPT 4的第一次微調(diào)使用了整個(gè)堆棧。這些模型表現(xiàn)得非常好。在看到GPT 4的微調(diào)指導(dǎo)后,每個(gè)人都對此感到非常興奮。這些模型確實(shí)非常好,它們偶爾會(huì)給你驚人的輸出,但它們也有一些問題,模型顯然非常不可靠。有時(shí)它會(huì)產(chǎn)生很多幻覺,有時(shí)會(huì)給你非常不正常的輸出。所以它顯然還沒有為黃金時(shí)段做好準(zhǔn)備,但它顯然非常好。

是的,所以我想,在那之后人們可能會(huì)暫時(shí)忘記聊天,因?yàn)檫@像是一個(gè)替代分支。但是后來我們進(jìn)一步推動(dòng)它,最終將所有數(shù)據(jù)集混合在一起,例如指令和聊天數(shù)據(jù),并嘗試獲得兩全其美的東西。而且,我認(rèn)為,我們的聊天模型顯然更簡單,更易于使用。這有點(diǎn)像模型了解自己的局限性,自動(dòng)表現(xiàn)出更明智的行為。這實(shí)際上是我們在開發(fā)過程中讓我感到興奮的事情之一,我意識到很多人們認(rèn)為是語言模型缺陷的東西,比如明顯的幻覺,可能無法完全修復(fù),但是你可以用相當(dāng)簡單的方法取得很大進(jìn)展。

另外,關(guān)于聊天的另一件事是,當(dāng)我們有這些指導(dǎo)模型時(shí),比如完成這段文字的任務(wù),但以一種好的方式或一種有用的方式,這是一個(gè)定義相當(dāng)模糊的任務(wù)。因此,我認(rèn)為這項(xiàng)任務(wù)對于模型和負(fù)責(zé)數(shù)據(jù)標(biāo)記的人來說,都是相當(dāng)困擾的。然而,對于聊天,我認(rèn)為人們有一種直覺,他們知道一個(gè)有用的機(jī)器人應(yīng)該是什么樣的。因此,我認(rèn)為向人們解釋模型應(yīng)該做什么會(huì)更為簡單。是的,我認(rèn)為,如果模型具有更連貫的個(gè)性,就像讓機(jī)器人表現(xiàn)出明智的行為一樣,會(huì)更為穩(wěn)健。這是相當(dāng)有趣的。

是否有人可以使用公開提供的微調(diào)API來制作ChatGPT?

答案并不完全肯定。他們可以,但我不記得哪些模型可以用于微調(diào)。假設(shè)我們當(dāng)時(shí)有3.5版本可用于微調(diào),你就可以制作出相當(dāng)接近的產(chǎn)品,但我不確定你是否能夠只進(jìn)行一次微調(diào)迭代。如果你有純粹的人類書面數(shù)據(jù),然后你對此進(jìn)行微調(diào),我認(rèn)為你可能需要進(jìn)行多次迭代。

例如,如果你不打算進(jìn)行強(qiáng)化學(xué)習(xí),我們曾經(jīng)做過的,你可能需要進(jìn)行某種迭代監(jiān)督微調(diào),讓人類編輯模型生成的輸出。因?yàn)槿绻闶褂萌祟惿傻臄?shù)據(jù)進(jìn)行訓(xùn)練,即使質(zhì)量真的很高,模型也很難完美地?cái)M合數(shù)據(jù),因?yàn)樗赡懿皇悄P湍軌蜉敵龅臇|西。所以你需要做一些迭代的事情,這看起來更像強(qiáng)化學(xué)習(xí)。我認(rèn)為如果你這樣做了,你就可以得到一些非常接近的東西,但這將是一項(xiàng)不平凡的任務(wù)。

我們還有另一個(gè)用強(qiáng)化學(xué)習(xí)訓(xùn)練的指令跟隨模型,它是在ChatGPT之前發(fā)布的。我認(rèn)為如果你在它上面放一個(gè)類似的包裝器,你會(huì)得到一些相當(dāng)接近的東西。但它就像那個(gè)模型,就像你只是用聊天提示它,但是那個(gè)模型在優(yōu)勢上有一些不同。就像那個(gè)模型在寫作和詩歌等方面相當(dāng)擅長,但它在了解其局限性以及事實(shí)性等方面并不那么擅長。

退一步來說,我記得我曾經(jīng)在某處聽到過你說GPT-2,與你在2019年的預(yù)期相比,你對它印象非常深刻。那么,人工智能的發(fā)展速度比你預(yù)期的快還是慢?

我會(huì)說,自GPT-2以來,它的發(fā)展速度比我預(yù)期的要快。我相當(dāng)相信,擴(kuò)展,預(yù)訓(xùn)練等等是個(gè)好主意。但是,當(dāng)GPT-2完成時(shí),我會(huì)說我并沒有完全相信它,它會(huì)徹底改變一切。就像我在GPT-3之后真正改變了我正在做的事情以及我的團(tuán)隊(duì)正在做的事情。所以在那之后,我們聚在一起說,哦,是的,讓我們,讓我們,這個(gè)語言模型的東西真的很好用。讓我們看看我們能在這里做些什么。但是,在GPT-2之后,我還不太確定。

尤其是如果我們之前談?wù)摰臇|西,RL開始與更智能的模型更好地協(xié)同工作,并且花費(fèi)在訓(xùn)練上的一小部分計(jì)算,即訓(xùn)練前與訓(xùn)練后,在未來顯著改變以有利于訓(xùn)練后。

是的,對此確實(shí)存在一些爭議。目前,這個(gè)比例顯得相當(dāng)不平衡,但你可以認(rèn)為,與網(wǎng)絡(luò)上的大部分內(nèi)容相比,該模型生成的輸出質(zhì)量相當(dāng)高,甚至更高。因此,讓模型自我思考,而不僅僅是通過訓(xùn)練來模仿網(wǎng)絡(luò)上的內(nèi)容,這更有意義。我認(rèn)為這是有第一原理論證的。此外,我想說,我們通過后訓(xùn)練獲得了很多收益。因此,我對此并不確定。我希望我們能繼續(xù)推動(dòng)這種方法,并可能增加我們投入的計(jì)算量。

目前,GPT-4的ELO分?jǐn)?shù)比最初發(fā)布的分?jǐn)?shù)高出一百分。這是否都是因?yàn)槟闼f的這些改進(jìn)是由后訓(xùn)練帶來的?

是的,我想說我們的大部分改進(jìn)都是由后訓(xùn)練帶來的。這很有趣。因此,有很多不同的改進(jìn)軸。就像你可以考慮數(shù)據(jù)質(zhì)量、數(shù)據(jù)數(shù)量,只是對整個(gè)部署和收集新數(shù)據(jù)的過程進(jìn)行更多迭代,并改變你正在收集的注釋類型。所以有很多因素堆積起來,但它們加在一起會(huì)給你帶來相當(dāng)不錯(cuò)的有效計(jì)算能力提升。

這是一個(gè)巨大的提升。這真的很有趣,訓(xùn)練后還有這么多的改進(jìn)空間。

那么,什么造就了真正擅長做這種研究的人呢?我聽說這非常挑剔,但是,你擁有什么樣的直覺,讓你能夠找到這些方法來處理數(shù)據(jù)并設(shè)置這些環(huán)境?

我想說,我現(xiàn)在已經(jīng)有了相當(dāng)多的經(jīng)驗(yàn),比如,從堆棧的不同部分,比如,RL算法,顯然,因?yàn)槲覐难芯可洪_始就一直在研究這些算法,比如,數(shù)據(jù)收集,注釋過程,比如使用語言模型進(jìn)行語言游戲。所以我只是涉獵了這些東西,我想說那些在這種研究方面做得很好的人,對整個(gè)堆棧有一些看法,并且對它的不同部分非常好奇。而且,也要考慮一下,你既要實(shí)證,又要使用實(shí)驗(yàn),讓實(shí)驗(yàn)更新你的觀點(diǎn),但你也想從第一原理來思考,假設(shè),學(xué)習(xí),比如什么類型的數(shù)據(jù)才是理想的收集對象之類的。

因此,由于自GPT-4以來似乎沒有一個(gè)模型看起來明顯更好,因此似乎存在一種假設(shè),即我們可能遇到了某種瓶頸,而這些模型實(shí)際上并沒有很好地推廣,你會(huì)遇到某種數(shù)據(jù)墻,超過這個(gè)數(shù)據(jù)墻,通過記憶大量的預(yù)訓(xùn)練數(shù)據(jù)所解鎖的能力實(shí)際上并不會(huì)幫助你獲得比GPT-4更聰明的東西。你認(rèn)為這個(gè)假設(shè)是錯(cuò)誤的嗎?

我想我們已經(jīng)討論過一些關(guān)于泛化的例子,從西班牙語到英語等等,但是,好吧,也許這是一個(gè)連續(xù)的問題,但是,我想到的一個(gè)例子是語言的轉(zhuǎn)移,代碼、推理和代碼。如果你訓(xùn)練一堆代碼,它會(huì)在推理和語言方面變得更好。如果是這樣,那真的是這樣嗎?你是否看到過這樣的事情,這表明不同模式之間存在著信用正向轉(zhuǎn)移。因此,當(dāng)你嘗試對大量的視頻和圖像進(jìn)行訓(xùn)練時(shí),這個(gè)模型會(huì)變得更聰明,它會(huì)從合成數(shù)據(jù)中學(xué)習(xí)并提升自身的智能。那么,模型解鎖的能力是否與你輸入的訓(xùn)練語料庫的具體標(biāo)簽和數(shù)據(jù)類型極其相似呢?

是的,確實(shí)如此。我會(huì)盡力回答所有這些問題。

首先,我們是否即將遇到數(shù)據(jù)瓶頸的問題?我不會(huì)從GPT-4發(fā)布以來的時(shí)間中得出太多結(jié)論,因?yàn)橛?xùn)練這些模型并進(jìn)行所有準(zhǔn)備工作以訓(xùn)練新模型(例如生成模型)確實(shí)需要一段時(shí)間。所以,我不會(huì)從這個(gè)事實(shí)中得出太多結(jié)論。我想說,由于數(shù)據(jù)量有限,肯定會(huì)帶來一些挑戰(zhàn),但我不希望我們立即遇到數(shù)據(jù)瓶頸。但我希望,隨著我們越來越接近它,預(yù)訓(xùn)練的性質(zhì)會(huì)隨著時(shí)間的推移而有所改變。

就從不同類型的預(yù)訓(xùn)練數(shù)據(jù)進(jìn)行概括而言,我想說,對這種類型的問題進(jìn)行科學(xué)研究非常困難,因?yàn)槟悴荒軇?chuàng)建那么多預(yù)訓(xùn)練模型。所以也許,你不能訓(xùn)練一個(gè)像GPT-4大小的模型。你無法在GPT-4規(guī)模上進(jìn)行消融研究。也許你可以訓(xùn)練大量的GPT-2大小的模型,或者甚至是一個(gè)使用不同數(shù)據(jù)混合的GPT-3大小的模型,看看你得到了什么。所以我不知道任何結(jié)果,或者像公開的,像消融這樣的公開結(jié)果,涉及代碼數(shù)據(jù)和推理性能等等。所以我非常想知道這些結(jié)果。

我實(shí)際上很好奇,如果其中一件事是模型隨著規(guī)模的擴(kuò)大而變得更聰明,那么在GPT-2級別模型上進(jìn)行消融,這表明沒有那么多的轉(zhuǎn)移,這為GPT-4級別模型中類似域集上的遷移水平提供了多少證據(jù)?

對。您可能無法得出結(jié)論,如果遷移在GPT-2大小下失敗,那么在更大的規(guī)模下也會(huì)失敗。所以可能是,對于較小的模型,是的,對于較大的模型,您會(huì)學(xué)習(xí)這些更好的共享表示,或者較小的模型必須過于依賴記憶,而較大的模型可以學(xué)習(xí)如何進(jìn)行正確的計(jì)算。所以我希望,這在某種程度上是正確的。

這可能有一個(gè)非常簡單的答案,但是對于更大的模型,您在相同數(shù)量的數(shù)據(jù)上訓(xùn)練它們,它們會(huì)變得更聰明,或者相反,它們可以獲得相同數(shù)量的智能,您必須在更少的數(shù)據(jù)上訓(xùn)練它們。為什么,為什么會(huì)這樣?就像它擁有更多參數(shù),看到的東西更少,現(xiàn)在它同樣聰明。為什么會(huì)這樣,為什么會(huì)這樣?

我認(rèn)為沒有人能很好地解釋參數(shù)計(jì)數(shù)的縮放定律。有些,我甚至不知道什么是最好的,這種心理模型是什么。比如,如果你有一個(gè)更大的模型,顯然你會(huì)有更大的容量,但是,所以,你最終應(yīng)該能夠得到更低的損失。我想問,為什么更大的模型會(huì)更高效?

我可以給你一個(gè)大致的解釋。你可以將模型視為一系列不同電路的集合,用于進(jìn)行計(jì)算。你可以想象它正在執(zhí)行一系列并行計(jì)算,輸出是這些計(jì)算的加權(quán)組合。如果你有更多的模型寬度,或者你有更深的模型,實(shí)際上寬度和深度有些相似,就像殘差網(wǎng)絡(luò)一樣,你會(huì)發(fā)現(xiàn)深度可以做一些類似于寬度的事情,比如更新殘差流中的內(nèi)容。

你可以說,你正在并行學(xué)習(xí)所有這些事情。你正在并行學(xué)習(xí)所有這些不同的計(jì)算,而在更大的模型中,你有更多的計(jì)算。所以你更有可能找到一個(gè)幸運(yùn)的計(jì)算,最終獲勝,猜對了很多次,權(quán)重增加。這有點(diǎn)像某些算法的工作方式,比如混合模型或乘法權(quán)重更新算法。

你可以想象有一種混合,我不想說是專家的混合,因?yàn)樗馕吨煌臇|西,但基本上是專家的加權(quán)組合和一些學(xué)習(xí)門控。實(shí)際上,我可能說得有點(diǎn)不準(zhǔn)確,但你可以想象這樣的情況。擁有一個(gè)更大的模型會(huì)讓你有更多機(jī)會(huì)獲得正確的功能。

這不僅僅是你有一個(gè)完全不相交的函數(shù),比如你正在采取線性組合,它更像是一個(gè)庫,你可以以某種方式將函數(shù)鏈接在一起。這有一些可組合性。所以我只想說,更大的模型有一個(gè)更大的不同計(jì)算庫,包括許多處于休眠狀態(tài)并且只在某些時(shí)候使用的東西。但它有更多的空間來尋找,比如尋找那些電路來做一些有用的事情。

我想從當(dāng)前的研究問題中退一步,了解未來幾年將發(fā)生的模式情景。我們在對話開始時(shí)談?wù)摰氖沁M(jìn)展非常快的情況,但就模式場景而言,你在某個(gè)時(shí)候解鎖了長遠(yuǎn)的強(qiáng)化學(xué)習(xí),但正如你所說,可能存在其他瓶頸。那么發(fā)生了什么,這些模型有多好?它們是如何部署的?它們中還有哪些其他模式,在什么階段解鎖這些模式等等?我只是想了解你對未來幾年的更廣泛看法

我希望,隨著時(shí)間的推移,或者很快,我們能夠添加新的模式。我希望通過預(yù)訓(xùn)練和后訓(xùn)練的結(jié)合,這些功能通常會(huì)不斷改進(jìn),這將開辟新的用例?,F(xiàn)在,人工智能仍然不是經(jīng)濟(jì)的重要組成部分,只有很小一部分工作可以得到人工智能的幫助。所以我預(yù)計(jì)這個(gè)數(shù)字會(huì)隨著時(shí)間的推移而不斷上升,這不僅是因?yàn)槟P驮诓粩喔倪M(jìn),還因?yàn)槿藗冋谂宄绾螌⑺鼈兗傻讲煌牧鞒讨?。因此,即便我們將模型凍結(jié)在當(dāng)前狀態(tài),我相信你仍會(huì)看到它們的應(yīng)用方式有著顯著的增長。我預(yù)計(jì)會(huì)有許多應(yīng)用,例如,我希望人工智能能夠得到更廣泛的應(yīng)用,我希望它能夠應(yīng)用于更多的技術(shù),比如技術(shù)復(fù)雜的任務(wù)。例如,正如我之前給出的編程示例一樣,進(jìn)行更長期的項(xiàng)目,同時(shí)也幫助進(jìn)行各種研究。因此,我希望我們能夠以各種方式使用人工智能來加速科學(xué)的發(fā)展。

此外,僅僅因?yàn)槟憧赡軗碛心P?,比如了解特定領(lǐng)域的所有文獻(xiàn),并且能夠篩選大量數(shù)據(jù),比一個(gè)人有耐心做的還要多。因此,我希望我們基本上可以,是的,我希望形式因素基本上是人們?nèi)匀辉谕苿?dòng)這一切,而你有你可以使用的,有用的助手。你可以直接指出對你有用的許多不同問題。每個(gè)人都有所有這些,人工智能,幫助他們做更多的事情,完成更多的事情。

但顯然,在某個(gè)時(shí)候,他們會(huì)比所有人做得更好,無論他們想做什么。這個(gè)過程會(huì)是什么樣子?現(xiàn)在,他們顯然只是在幫助你。在某種程度上,他們可以為你做事,甚至為你經(jīng)營整個(gè)公司,或者其他什么。到那時(shí),它會(huì)是一個(gè)順利的過程嗎?到那時(shí),我們希望我們的系統(tǒng)與用戶足夠一致,這樣他們就可以指望公司按照他們期望的方式運(yùn)行,等等?

是的,我認(rèn)為,我們可能不想立即讓人工智能管理整個(gè)公司。我們可能希望有人監(jiān)督這些重要的決定并發(fā)號施令。所以即使這些模型足夠好,可以自己經(jīng)營一家成功的企業(yè)。所以是的,在某種程度上,可能會(huì)有選擇。我認(rèn)為人們?nèi)匀粫?huì)有不同的興趣和他們想要的東西......對于他們想讓他們的人工智能從事什么樣的有趣追求有不同的想法。人們可以做很多事情......人工智能不一定具有內(nèi)在的......任何內(nèi)在的欲望。除非我們將其納入系統(tǒng)中,否則還沒有實(shí)現(xiàn)。因此,我希望即使人工智能變得非常有能力,人們?nèi)匀皇侨斯ぶ悄茏罱K行動(dòng)的驅(qū)動(dòng)力。

然而,我想知道經(jīng)濟(jì)平衡是否與此相去甚遠(yuǎn),即在公司中是否存在類似阿姆達(dá)爾定律的情況。阿姆達(dá)爾定律指出,流程中最慢的部分就是會(huì)成為瓶頸的部分。因此,即使人工智能使公司所有非人類部分的效率提高10倍,公司也不能再提高效率,因?yàn)樗匀粫?huì)受到這一步驟的瓶頸影響。因此,如果一家公司決定繼續(xù)讓人類參與所有你真正希望人類監(jiān)督的事情,那么他們就會(huì)被其他公司擊敗。如果一個(gè)國家決定走這條路,其他國家就會(huì)打敗它。我希望這不是事實(shí),但我想知道這是否是一種讓人類參與其中的可持續(xù)計(jì)劃。

我認(rèn)為,如果我們想讓人類參與其中,這似乎是合理的。然而,如果事實(shí)證明,有人參與的公司在競爭中敗給了沒有人參與的公司,那么我認(rèn)為我們顯然需要某種監(jiān)管,禁止沒有人參與整個(gè)公司的運(yùn)營。

但是,世界上有這么多公司,任何國家都是如此,更不用說全世界了。我想知道,對公司進(jìn)行監(jiān)管是否更好,并且規(guī)定,你必須讓人類參與重要流程,但你必須定義什么是重要流程。你必須監(jiān)控每一家公司。你還必須與每個(gè)有公司的國家進(jìn)行合作。如果這是一個(gè)問題,是否應(yīng)該在模型部署之前就解決這個(gè)問題,這樣你就會(huì)處于這樣一種境地:你決定建立一個(gè)公司,并最終采用這些模型。它基本上會(huì)做你想讓它做的事情,你不需要有人參與其中。這個(gè)問題有意義嗎?我想我只是想知道在這種情況下,我們?nèi)绾螌?shí)際監(jiān)控每家公司是否都有人參與其中?

是的,你要么讓每個(gè)國家都同意這種監(jiān)管制度,要么你需要所有的模型基礎(chǔ)設(shè)施或模型提供商都同意這種要求。所以這肯定不是一件容易的事。所以我想,這是向前看的。所以在看到類似的東西之前,很難想象這個(gè)世界。

例如,有一些問題,比如,我們真的相信人工智能運(yùn)營的公司在各方面都更好嗎?或者我們認(rèn)為它們大多數(shù)時(shí)候都更好,但偶爾它們會(huì)出現(xiàn)故障,因?yàn)槿斯ぶ悄茉谀承┓矫嫒匀蝗狈颖拘剩热缣幚矸浅9殴值那闆r。所以實(shí)際上,人工智能運(yùn)營的公司有更高的尾部風(fēng)險(xiǎn),因?yàn)樗鼈兏锌赡艹霈F(xiàn)大規(guī)模故障。所以我想可能會(huì)有一些類似的實(shí)際問題,這些問題也會(huì)決定事情的發(fā)展。

也許如果你只是要求人們對各種責(zé)任負(fù)責(zé),這也會(huì)稍微改變激勵(lì)機(jī)制。所以如果事實(shí)證明人工智能在管理一切方面都表現(xiàn)得更好,而且它們也完全仁慈,我們已經(jīng)完全解決了協(xié)調(diào)問題,它們比人類更善于對人類負(fù)責(zé),那么我會(huì)說讓人工智能管理公司也許是可以的。然而,我認(rèn)為這可能還是一個(gè)遙遠(yuǎn)的未來。我傾向于認(rèn)為我們更可能面臨的情況是:在短期內(nèi),人工智能運(yùn)營的實(shí)體看起來表現(xiàn)得更好,但實(shí)際上,它們?nèi)匀淮嬖谝恍﹪?yán)重的問題。實(shí)際情況可能會(huì)促使我們更傾向于讓人類參與其中,至少在不久的將來是這樣。

好的,這是我們今天在 RLHF 中必須處理的一個(gè)問題,即你必須匯總許多不同人類的偏好。未來更強(qiáng)大的系統(tǒng)可能會(huì)使這個(gè)問題更加明顯。但是,當(dāng)你說我們希望這些最終將完全取代人類的 AI 系統(tǒng)成為這些公司的一部分時(shí),這意味著什么?這是否意味著它們基本上會(huì)做用戶希望它們做的事情?這是否意味著它們必須產(chǎn)生某種令我們作為 OpenAI 利益相關(guān)者感到滿意的全球性結(jié)果?這具體意味著什么?

如果這些模型被用于這些更高風(fēng)險(xiǎn)的用例,那么我們必須以與現(xiàn)在截然不同的方式考慮 RLHF。所以我想說我們還沒有為此做好準(zhǔn)備,或者目前的方法可能還不夠充分。但我想說我們需要在所涉及的不同利益相關(guān)者的需求之間做出妥協(xié)。

因此,我們有一份名為“模型規(guī)范”的文檔要發(fā)布。這是關(guān)于我們希望我們的模型在 API 和 ChatGPT 中如何表現(xiàn)。我們試圖談?wù)撨@個(gè)問題,其中涉及不同的利益相關(guān)者,有時(shí)他們可能想要的東西之間存在沖突。

在我們的案例中,我們將利益相關(guān)者視為用戶或最終用戶。這意味著坐在 ChatGPT 或其他應(yīng)用程序前面的人。開發(fā)人員,就像使用 API 的人一樣,他們可能正在使用他們的應(yīng)用程序?yàn)槠渌罱K用戶提供服務(wù)。平臺,即 OpenAI,我們不希望模型給我們希來法律風(fēng)險(xiǎn)等等。然后是其他人類,包括可能不是用戶或客戶或任何人的人。

因此,很明顯,用戶可能會(huì)要求模型做一些我們認(rèn)為對其他人有害的事情。所以我們可能不得不拒絕。順便說一句,這不一定是優(yōu)先順序。我們有四類左右的利益相關(guān)者。實(shí)際上,你也可以說,也許在未來,我們會(huì)說模型本身。所以我想說我們還沒有到那一步。但無論如何,我們有這些不同的利益相關(guān)者。有時(shí)他們有相互沖突的需求,我們必須就如何解決這些沖突做出一些決定。但如何做到這一點(diǎn)并不總是很明顯。所以我想說我們必須仔細(xì)考慮……我們必須仔細(xì)考慮權(quán)衡。

基本上,粗略的啟發(fā)式方法是,我們主要希望模型遵循您的指示并對用戶和開發(fā)人員有所幫助。但是當(dāng)這影響到其他人的幸福或生活方式時(shí),這就成了問題。我們必須阻止某些類型的使用。但我們不想太……我們主要希望模型只是人們意愿的延伸,并按照他們說的做。我們不想太家長式。我們希望保持中立,不把我們的意見強(qiáng)加給人們。我們的主要目標(biāo)是讓人們能夠利用模型去做他們想做的事情。

我有幸提前閱讀了相關(guān)規(guī)范,我認(rèn)為這是一個(gè)問題,即如何將這些規(guī)范有效地轉(zhuǎn)化為模型的行為方式。然而,我對這種權(quán)衡的合理性印象深刻。這是有道理的,因?yàn)樗鼘iT針對實(shí)際的邊緣情況進(jìn)行說明,而這些并非每個(gè)人都能輕易理解的事情。在這種情況下,你確實(shí)在尋找邊緣情況。

我們希望這個(gè)模型具有很高的可操作性,這樣它就不僅僅是一堆聽起來不錯(cuò)的原則。每個(gè)例子都能告訴你一些關(guān)于一些不明顯的情況以及通過這種情況給出的理由。

現(xiàn)在,我有一些關(guān)于研究本身狀態(tài)的問題。眾所周知,在社會(huì)科學(xué)中,這些研究真的很難復(fù)制。這是一個(gè)關(guān)于有多少科學(xué)是真實(shí)的,有多少是這些制造出來的定制實(shí)驗(yàn)的問題。當(dāng)你閱讀普通的機(jī)器學(xué)習(xí)論文時(shí),你是否覺得它像一篇非常扎實(shí)的文獻(xiàn)?它是否經(jīng)常讓你感覺像是在社會(huì)科學(xué)中的p-hacking?

雖然每個(gè)人都對機(jī)器學(xué)習(xí)文獻(xiàn)有所抱怨,但總的來說,我認(rèn)為與社會(huì)科學(xué)等其他領(lǐng)域相比,它是一個(gè)相對健康的領(lǐng)域。這是因?yàn)樗袌?jiān)實(shí)的基礎(chǔ),它在很大程度上基于實(shí)用性和讓事情正常運(yùn)轉(zhuǎn)。如果你發(fā)表了一些無法輕易復(fù)制的研究,那么人們就會(huì)忘記它。人們普遍認(rèn)為,你通常不只是報(bào)告某人論文中的數(shù)字,你還會(huì)嘗試重新實(shí)現(xiàn)他們的方法,并在相同的訓(xùn)練數(shù)據(jù)集上將其與你的方法進(jìn)行比較。所以我認(rèn)為,如果你發(fā)表的方法很難實(shí)現(xiàn)或非常挑剔,它們往往會(huì)被遺忘。因此,人們實(shí)際上會(huì)嘗試開源他們的工作。

我認(rèn)為存在各種不利的激勵(lì)因素。人們受到激勵(lì),使基準(zhǔn)方法(例如他們正在比較的方法)變得更糟。還有其他輕微的病態(tài),比如試圖讓你的方法在數(shù)學(xué)上看起來很復(fù)雜。但總的來說,我覺得這個(gè)領(lǐng)域取得了進(jìn)展。我可能希望看到更多的科學(xué)和嘗試?yán)斫馐挛?,而不是更多地在基?zhǔn)上攀爬并試圖提出新方法。最近有相當(dāng)多這樣的事情,但是是的,我認(rèn)為我們可以更多地使用它們。我認(rèn)為這對于學(xué)術(shù)界來說是一件好事。

另外,關(guān)于社會(huì)科學(xué),換個(gè)角度來說,我實(shí)際上非常高興看到更多使用基礎(chǔ)模型進(jìn)行模擬社會(huì)科學(xué)的研究。因?yàn)檫@些模型具有整個(gè)世界的概率模型,你可以設(shè)置模擬問卷或?qū)υ挕D憧梢圆榭慈魏问挛镏g的關(guān)聯(lián),任何你能想到的特征,你都可以看到它們與其他特征之間的關(guān)聯(lián)。因此,如果人們能夠通過以不同的方式提示基礎(chǔ)模型并查看關(guān)聯(lián)內(nèi)容,復(fù)制社會(huì)科學(xué)中一些更顯著的結(jié)果(如道德基礎(chǔ)等),那將非??帷?/p>

斯坦福的實(shí)驗(yàn),他們進(jìn)行的是Ash一致性測試。如果語言模型也能被復(fù)制,那將會(huì)是一件非常有趣的事情。對于在大型實(shí)驗(yàn)室進(jìn)行的其他研究,我想了解的是,作為實(shí)際計(jì)算乘數(shù),有多少研究是增加或減少了獲得特定結(jié)果所需的計(jì)算量?又有多少研究是使學(xué)習(xí)過程更穩(wěn)定和構(gòu)建基礎(chǔ)設(shè)施?

我想提出的更廣泛的問題是,自從 GPT-4 以來,是否感覺使用相同數(shù)量的計(jì)算,你可以訓(xùn)練出更好的模型?或者感覺好像,哦,我們已經(jīng)確保使用 GPT-5 可以更好地以更具可擴(kuò)展性的方式進(jìn)行學(xué)習(xí),但這并不意味著我們現(xiàn)在可以用 GPT-3.5 之類的預(yù)算來訓(xùn)練 GPT-4?

在提高效率方面,我們肯定一直在進(jìn)步。只要你有一個(gè)一維性能指標(biāo),你就會(huì)發(fā)現(xiàn)不同的改進(jìn)可以相互替代。因此,你可能會(huì)發(fā)現(xiàn)訓(xùn)練后和訓(xùn)練前都會(huì)改善指標(biāo)或類似改進(jìn)。他們對所要改進(jìn)的指標(biāo)的概況會(huì)略有不同。但如果到最后你只有一個(gè)數(shù)字,它們就會(huì)在某種程度上互相替代。所以對于像人類評估這樣的東西,比如人類喜歡什么,我們在兩方面都取得了很大進(jìn)展,比如訓(xùn)練前和訓(xùn)練后以及改進(jìn)。

關(guān)于 RLHF 的幾個(gè)快速問題。顯然,RLHF 對于使這些模型有用很重要。所以也許腦葉切除術(shù)的描述是不準(zhǔn)確的,但從某種意義上說,所有這些模型,一旦它們被放入聊天機(jī)器人形式,就會(huì)有非常相似的說話方式。他們真的想深入研究事物。他們想把事情變成要點(diǎn)。他們似乎經(jīng)常有這種正式而枯燥的說話方式。有人抱怨他們沒有那么有創(chuàng)意,就像我們之前談?wù)摰哪菢樱荒茏鲅喉嵲?,直到最近才押韻,我想。這是 RLHF 目前發(fā)生的特殊方式的結(jié)果嗎?如果是這樣,那么是因?yàn)樵u估者是誰嗎?是因?yàn)閾p失函數(shù)嗎?為什么所有聊天機(jī)器人看起來都是這個(gè)樣子?

是的,我想說,我們有很多……我想說我們正在積極嘗試改進(jìn)這一點(diǎn),讓寫作更生動(dòng)、更有趣。我認(rèn)為我們已經(jīng)取得了一些進(jìn)展,比如改進(jìn)了 ChatGPT 的個(gè)性。所以它更有趣,當(dāng)你試圖和它閑聊的時(shí)候,它會(huì)更好。它不那么機(jī)械化。我想說,是的,這是一個(gè)有趣的問題,一些抽搐是怎么產(chǎn)生的,比如 delve 這個(gè)詞。我最近發(fā)現(xiàn)自己用了這個(gè)詞。所以我不知道它是否從模型中影響了我,還是什么。但實(shí)際上,我認(rèn)為......還可能會(huì)發(fā)生一些有趣的效果,語言模型提供商之間可能會(huì)發(fā)生無意的提煉,如果你雇用某人去做標(biāo)記任務(wù),他們可能只是將其輸入到模型中。他們可能只是調(diào)出他們最喜歡的聊天機(jī)器人,輸入信息,讓模型完成任務(wù),然后復(fù)制粘貼回去。因此,這可能解釋了一些收斂現(xiàn)象。但同時(shí),我認(rèn)為我們所觀察到的一些現(xiàn)象,正是人們所喜歡的。我相信人們確實(shí)喜歡要點(diǎn),他們喜歡結(jié)構(gòu)化的回應(yīng),人們確實(shí)經(jīng)常喜歡他們得到的大量信息,這些信息來自模型。所以,我認(rèn)為目前還不完全清楚,有多少只是特定選擇和訓(xùn)練后過程設(shè)計(jì)的怪癖,有多少實(shí)際上是人們真正想要的內(nèi)在因素。

它確實(shí)似乎比一些人想要的更冗長。也許只是因?yàn)樵跇?biāo)記階段,評分者會(huì)更喜歡更冗長的答案。但我想知道它是否是固有的,因?yàn)樗侨绾晤A(yù)先訓(xùn)練的,停止序列不會(huì)經(jīng)常出現(xiàn),它真的想繼續(xù)下去。

標(biāo)簽中可能存在一些導(dǎo)致冗長的內(nèi)容的偏見,例如我們傾向于一次訓(xùn)練一條消息而不是完整的交互。因此,如果您只看到一條消息,那么只有澄清問題或簡短回復(fù)并邀請跟進(jìn)的內(nèi)容看起來會(huì)不如涵蓋所有可能性的內(nèi)容完整。

還有一個(gè)問題是,人們的偏好是否會(huì)根據(jù)模型輸出的速度而改變。顯然,如果您坐在那里等待標(biāo)記出來,您會(huì)希望它直奔主題。但是,如果它只是立即為您提供大量文本,您可能實(shí)際上并不關(guān)心是否有一堆樣板。或者,如果有一堆您要瀏覽的東西,您寧愿將它們?nèi)糠旁谀抢铩?/p>

我認(rèn)為獎(jiǎng)勵(lì)模型是一個(gè)非常有趣的人工制品,因?yàn)樗俏覀冏罱咏藗兿胍裁?、他們有什么偏好的集合的東西。當(dāng)你考慮更智能的模型時(shí),我們會(huì)有一個(gè)希望,你可以給出我們想要的東西的清單,而不是像《聯(lián)合國權(quán)利宣言》中那樣瑣碎而明顯的事物。另一方面,我想我聽到你指出,我們的許多偏好和價(jià)值觀都非常微妙,因此它們可能最好通過這些成對的偏好來體現(xiàn)。

當(dāng)你想到 GPT-6 或 GPT-7 級別的模型時(shí),我們是否給它更多的書面說明,還是我們?nèi)栽谧鲞@些潛意識的偏好?

這是個(gè)好問題。我認(rèn)為這些偏好模型確實(shí)了解了很多關(guān)于人們偏好的微妙之處,而這些微妙之處很難在說明書中表達(dá)出來。

顯然,你可以編寫一本包含大量比較示例的說明書,這就是模型規(guī)范所具有的。它有很多例子,并附有一些解釋。目前尚不清楚描述偏好的最佳格式是什么。我猜,無論你能從捕捉模糊偏好的大數(shù)據(jù)集中得到什么,你都可以將其提煉成一個(gè)更小、更短的文檔,該文檔主要捕捉想法。

我認(rèn)為更大的模型確實(shí)會(huì)自動(dòng)學(xué)習(xí)人們可能會(huì)發(fā)現(xiàn)的很多概念。他們會(huì)從所有預(yù)訓(xùn)練數(shù)據(jù)中學(xué)習(xí)人們會(huì)發(fā)現(xiàn)有用和有幫助的東西。他們會(huì)有一些復(fù)雜的道德理論。但當(dāng)然,仍然有很大的空間來抓住不同的風(fēng)格或不同的道德觀。所以我認(rèn)為,如果我們要寫一份文檔,或者如果我們要調(diào)整這些模型,我們所做的就是抓住一種特定的風(fēng)格,一種特定的道德觀。你仍然需要一個(gè)相當(dāng)長的文檔來準(zhǔn)確捕捉你想要的東西。

訓(xùn)練后的模型,其護(hù)城河的規(guī)模有多大會(huì)更好?目前,公司正通過我們的模型的規(guī)模等因素來區(qū)分自己。那么,是否存在一個(gè)大的護(hù)城河能夠解決您之前提到的所有這些數(shù)據(jù)的棘手問題呢?

我認(rèn)為,確實(shí)存在這樣的護(hù)城河,因?yàn)檫@是一項(xiàng)極其復(fù)雜的任務(wù)。你需要有大量的專業(yè)人士來完成這項(xiàng)工作。因此,這需要大量的隱性知識和組織知識。我認(rèn)為,訓(xùn)練后創(chuàng)建一個(gè)真正具有人們關(guān)心的所有功能的模型是相當(dāng)復(fù)雜的。這需要相當(dāng)復(fù)雜的努力,這需要大量的研發(fā)積累。因此,我認(rèn)為這使得它有點(diǎn)像護(hù)城河,要立即啟動(dòng)它并不是一件容易的事。

看起來,那些進(jìn)行最認(rèn)真的預(yù)訓(xùn)練工作的公司也在進(jìn)行認(rèn)真的訓(xùn)練后工作。所以,似乎有可能復(fù)制或啟動(dòng)更多這樣的工作。然而,也有一種力量使得它不那么像護(hù)城河,那就是你可以提煉模型,或者你可以拿別人的模型來克隆輸出,或者你可以用別人的模型作為評判標(biāo)準(zhǔn)來進(jìn)行比較。我認(rèn)為大公司可能不會(huì)這樣做,因?yàn)檫@違反了服務(wù)條款政策,而且這也會(huì)對他們的自尊心造成一定打擊。但我希望一些小公司會(huì)這樣做,以便起步。這在很大程度上會(huì)讓你陷入困境。我想這已經(jīng)超出了護(hù)城河的范疇。

那么,中等水平的突襲者是什么樣的?他們在哪里工作?他們的政治觀點(diǎn)是什么?他們的知識水平如何?

我會(huì)說,這差別很大。我們肯定會(huì)雇傭具有不同技能或不同類型的任務(wù)或項(xiàng)目的突襲者。我認(rèn)為一個(gè)不錯(cuò)的思維模型就是看看那些在Upwork和其他類似平臺上的人,看看誰在遠(yuǎn)程工作中做一些零工。這是一個(gè)相當(dāng)國際化的群體,美國有相當(dāng)多的人。我們雇傭不同的人來做不同類型的標(biāo)簽,比如我們是否更專注于寫作或喜歡STEM任務(wù)。因此,從事STEM任務(wù)的人更有可能在印度或其他中等收入或中低收入國家,而更喜歡英語寫作和作文的人則更傾向于像美國人。所以是的,我想說,有時(shí)我們需要為某些活動(dòng)聘請不同的專家。有些人非常有才華,我們甚至發(fā)現(xiàn),他們在完成這些任務(wù)方面至少和我們這些研究人員一樣優(yōu)秀,他們比我們細(xì)心得多。所以我想說,我們現(xiàn)在擁有的人非常熟練和認(rèn)真。

關(guān)于這種停滯不前的敘述,我聽說的一件事是,這些模型能夠幫助你處理特定事物的能力與在超級智能微調(diào)數(shù)據(jù)集中擁有非常接近匹配的標(biāo)簽有關(guān)。這是真的嗎?比如,如果它能教我如何正確使用FFmpeg,就像有人在做、弄清楚、查看輸入并查看你需要添加哪些標(biāo)志。而有些人正在弄清楚并努力做到這一點(diǎn)。是的,是的。那么,你是否需要雇傭所有這些在所有這些不同領(lǐng)域都擁有領(lǐng)域?qū)I(yè)知識的標(biāo)簽滾動(dòng)者呢?如果這是真的,那么讓這些模型隨著時(shí)間的推移變得越來越聰明,似乎將是一項(xiàng)更大的挑戰(zhàn)。

確實(shí)如此。

你并不完全需要那個(gè)模型。因?yàn)椋憧梢詮姆夯蝎@得很多東西。因此,如果你的模型像基礎(chǔ)模型一樣,已經(jīng)在大量文檔、大量帶有shell腳本的代碼等上進(jìn)行過訓(xùn)練,那么它已經(jīng)看到了所有的FFmpeg手冊頁和大量的bash腳本等。這使得它與基礎(chǔ)模型非常相似,即使只是給基礎(chǔ)模型一個(gè)很好的小樣本提示,你也可以讓它回答這樣的查詢。

并且,即使你沒有在它們上面訓(xùn)練它,即使你沒有在任何STEM(科學(xué)、技術(shù)、工程和數(shù)學(xué))領(lǐng)域上訓(xùn)練它,只要訓(xùn)練一個(gè)偏好模型以獲得有用性,它也會(huì)在某種程度上推廣到STEM領(lǐng)域。因此,你不僅不需要如何使用FFmpeg的示例,甚至可能不需要任何與編程有關(guān)的東西來在編程領(lǐng)域獲得一些合理的行為。

也許最后一個(gè)問題是,我們已經(jīng)以不同的方式觸及了這一點(diǎn),但要把它放在一起。所以你說你正在對更多的多模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練,大概就像這些東西了解屏幕的樣子,并能夠以更連貫的方式與之交互。而且你也會(huì)沿著地平線強(qiáng)化學(xué)習(xí)(RL)做到這一點(diǎn)。因此,他們將能夠充當(dāng)系統(tǒng)中的代理,以更加集成的方式成為你工作流程的一部分。你期望它是什么樣子?那么接下來會(huì)怎樣呢?

假設(shè)到今年年底或明年,你會(huì)擁有一個(gè)類似于助手的東西,可以在屏幕上與你一起工作。首先,這看起來是合理的嗎?然后它會(huì)如何發(fā)展呢?

我肯定會(huì),是的,我希望事情朝著那個(gè)方向發(fā)展。目前還不清楚什么才是最好的形式,是放在電腦上幫你做某事的夾子,還是更像云端的一個(gè)樂于助人的同事。所以我們會(huì)看看哪種形式效果最好。我希望人們能嘗試所有這些形式。

是的,我希望像......是的,一個(gè)樂于助人的助手或樂于助人的同事的心理模型能夠變得更加真實(shí),你可以分享更多的日常工作或......而不是只給它一次性的查詢,你會(huì)有一個(gè)你正在做的整個(gè)項(xiàng)目,并且它知道你迄今為止在該項(xiàng)目上所做的一切。你可以告訴它……它甚至可以主動(dòng)提出建議。也許你可以告訴它,哦是的,記得問我這件事以及我是否取得了任何進(jìn)展。所以我認(rèn)為我們?nèi)鄙俚氖侵鲃?dòng)性。

是的,我真的很想看到更好的……不再進(jìn)行一次性查詢,而是使用類似搜索引擎的模型,一種更智能的搜索引擎,更多地是與模型合作完成整個(gè)項(xiàng)目。它知道我所做的一切。它會(huì)主動(dòng)建議我嘗試一些事情,或者在后臺進(jìn)行工作。

是的,這真的很有趣。順便說一句,這是最后一個(gè)問題。你的...你的中位時(shí)間表是什么?當(dāng)它取代了你的工作。

它取代我的工作,這大概五年吧。是的,這個(gè)過程發(fā)生得非常迅速,而且非常有趣。

好的,John,這個(gè)話題確實(shí)非常引人入勝。我非常感謝你能抽出時(shí)間來討論這個(gè)問題。我認(rèn)為這可能是人工智能流程中非常重要,但大多數(shù)人對此了解不多的一個(gè)環(huán)節(jié)。因此,深入探討這個(gè)問題并聽取你的觀點(diǎn),對我來說是非常有趣的。

我要感謝你邀請我參加這個(gè)播客,討論這些有趣的話題。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
小波特關(guān)注庫里,預(yù)計(jì)交易即將完成,勇士迎來最大補(bǔ)強(qiáng)!

小波特關(guān)注庫里,預(yù)計(jì)交易即將完成,勇士迎來最大補(bǔ)強(qiáng)!

愛體育
2026-01-12 22:43:54
漲幅達(dá)300%!內(nèi)存條價(jià)格大漲,記者實(shí)地探訪

漲幅達(dá)300%!內(nèi)存條價(jià)格大漲,記者實(shí)地探訪

上觀新聞
2026-01-12 06:41:08
專題片揭露徐憲平隱蔽利益鏈:收受商人原始股,十多年后退居二線才變現(xiàn)

專題片揭露徐憲平隱蔽利益鏈:收受商人原始股,十多年后退居二線才變現(xiàn)

澎湃新聞
2026-01-12 21:38:27
要交易?首鋼連敗,2人被點(diǎn)名,名帥怒批,誰注意周琦表態(tài)

要交易?首鋼連敗,2人被點(diǎn)名,名帥怒批,誰注意周琦表態(tài)

樂聊球
2026-01-12 10:35:14
A股徹底癲了!17連陽又見證歷史!

A股徹底癲了!17連陽又見證歷史!

老A情報(bào)圈
2026-01-13 00:12:40
仁濟(jì)醫(yī)院:低調(diào)背后的頂級醫(yī)療硬實(shí)力

仁濟(jì)醫(yī)院:低調(diào)背后的頂級醫(yī)療硬實(shí)力

周哥一影視
2026-01-12 06:40:15
隨著火箭三連敗掉進(jìn)附加賽,太陽上升到第6,西部排名又變了

隨著火箭三連敗掉進(jìn)附加賽,太陽上升到第6,西部排名又變了

消費(fèi)俠
2026-01-13 04:55:10
韓國某中學(xué)把“中華人民共和國”當(dāng)作班級目標(biāo)引爭議

韓國某中學(xué)把“中華人民共和國”當(dāng)作班級目標(biāo)引爭議

隨波蕩漾的漂流瓶
2026-01-10 17:50:06
哭窮炫富,“知三當(dāng)三”,裝了10年的吉克雋逸,還是“自食惡果”

哭窮炫富,“知三當(dāng)三”,裝了10年的吉克雋逸,還是“自食惡果”

顧史
2025-12-12 14:59:24
沈騰帶妻子出席慈善晚會(huì),王琦瘦出瓜子臉,膚白顯嫩就是有點(diǎn)禿

沈騰帶妻子出席慈善晚會(huì),王琦瘦出瓜子臉,膚白顯嫩就是有點(diǎn)禿

小咪侃娛圈
2026-01-12 09:20:19
第15天:伊朗傷亡人數(shù)飆升,川普又開空頭支票

第15天:伊朗傷亡人數(shù)飆升,川普又開空頭支票

近距離
2026-01-12 10:59:39
老了才明白:盡量不要跟身邊任何人!包括你的親人,分享這5件事

老了才明白:盡量不要跟身邊任何人!包括你的親人,分享這5件事

小鬼頭體育
2026-01-13 05:42:26
專為U字號亞洲杯而生,門神李昊證明馬競的球探很優(yōu)秀

專為U字號亞洲杯而生,門神李昊證明馬競的球探很優(yōu)秀

米奇兔
2026-01-12 11:53:08
連爆大冷2-6!塞爾比+墨菲一輪游,五虎淘汰三虎,4強(qiáng)中國鎖定1席

連爆大冷2-6!塞爾比+墨菲一輪游,五虎淘汰三虎,4強(qiáng)中國鎖定1席

球場沒跑道
2026-01-12 06:51:15
阿里納斯:沒有三球誰關(guān)注黃蜂?喬丹賣隊(duì)的時(shí)候NBA就該解散他們

阿里納斯:沒有三球誰關(guān)注黃蜂?喬丹賣隊(duì)的時(shí)候NBA就該解散他們

懂球帝
2026-01-12 09:05:21
遺骸沖上海灘,澳大利亞警方初步確認(rèn):32歲華人男子浮潛抓龍蝦遇難

遺骸沖上海灘,澳大利亞警方初步確認(rèn):32歲華人男子浮潛抓龍蝦遇難

紅星新聞
2026-01-12 16:22:12
合川千人刨豬湯后續(xù):母親獨(dú)自打掃,本人哭求幫忙,粉絲擅自亂闖

合川千人刨豬湯后續(xù):母親獨(dú)自打掃,本人哭求幫忙,粉絲擅自亂闖

丁丁鯉史紀(jì)
2026-01-12 15:59:20
徐達(dá)常遇春他們都是農(nóng)民,為何起義后卻成了軍事天才?原因很現(xiàn)實(shí)

徐達(dá)常遇春他們都是農(nóng)民,為何起義后卻成了軍事天才?原因很現(xiàn)實(shí)

銘記歷史呀
2026-01-10 13:09:37
1月13日起,“i茅臺”開搶陳年茅臺酒(15)

1月13日起,“i茅臺”開搶陳年茅臺酒(15)

每日經(jīng)濟(jì)新聞
2026-01-12 20:17:05
亮燈之下:西安砂舞的虛名與現(xiàn)實(shí)。2026年1月8日晚上家中隨筆。

亮燈之下:西安砂舞的虛名與現(xiàn)實(shí)。2026年1月8日晚上家中隨筆。

成都人的故事
2026-01-12 11:40:07
2026-01-13 07:04:49
Web3天空之城 incentive-icons
Web3天空之城
美好,有趣的,值得銘記的
101文章數(shù) 86關(guān)注度
往期回顧 全部

科技要聞

面對SpaceX瘋狂“下餃子” 中國正面接招

頭條要聞

"搖人殺豬"女孩一天漲粉150萬:我捅了大婁子

頭條要聞

"搖人殺豬"女孩一天漲粉150萬:我捅了大婁子

體育要聞

一場安東尼奧式勝利,給中國足球帶來驚喜

娛樂要聞

蔡少芬結(jié)婚18周年,與張晉過二人世界

財(cái)經(jīng)要聞

倍輕松信披迷霧 實(shí)控人占用資金金額存疑

汽車要聞

增配不加價(jià) 北京現(xiàn)代 第五代 勝達(dá)2026款上市

態(tài)度原創(chuàng)

手機(jī)
房產(chǎn)
旅游
教育
軍事航空

手機(jī)要聞

小米Air手機(jī)遺憾遭砍:完全對標(biāo)iPhone Air!5.5mm支持實(shí)體卡+eSIM

房產(chǎn)要聞

重磅調(diào)規(guī)!417畝商改住+教育地塊!??谖骱0队忠l(fā)!

旅游要聞

走進(jìn)布哈拉古城

教育要聞

孩子教會(huì)我們,失誤無需畏懼

軍事要聞

官方確認(rèn):殲10CE在空戰(zhàn)中擊落多架戰(zhàn)機(jī)

無障礙瀏覽 進(jìn)入關(guān)懷版