国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI 元學(xué)習(xí)與自我對弈: Ilya Sutskever 超級前瞻的MIT講座2018

0
分享至

文:城主

前言

熟悉OpenAI發(fā)展史的同學(xué)都知道,在2018年大舉進(jìn)軍生成式AI(GPT-1誕生于2018年)之前,OpenAI花了很大的精力去做強(qiáng)化學(xué)習(xí)和游戲的AI自我對弈, 這在另外一位大神Andrej Karpathy的多次談話里都提到。

今天分享的是一個有承前啟后意義的講座,OpenAI首席科學(xué)家Ilya在2018年2月在MIT所做:“OpenAI元學(xué)習(xí)和自我對弈”。講座總結(jié)了OpenAI在這個領(lǐng)域所做出的結(jié)果,在這之后,OpenAI就轉(zhuǎn)而投入到生成式AI的大道了。

如果細(xì)讀這個講座內(nèi)容,讀者會驚訝的發(fā)現(xiàn),當(dāng)年OpenAI在強(qiáng)化學(xué)習(xí)/自我對弈方面所做的事情,很多都為后面生成式AI的進(jìn)展做了技術(shù)鋪墊,比如,這里居然看到了RLHF “Learn from Human Feedback”! 再比如,這里居然大量使用了最近因?yàn)镼star神秘模型而大火的Q-learning技術(shù);這講座還大量提到了現(xiàn)在最流行的“智能體”概念。。。

而在最后的問答環(huán)節(jié)里,更是有讀者詢問“目前生成語言模型的狀況非常糟糕。您認(rèn)為生成語言模型最有成效的研究方向是什么?

Ilya高瞻遠(yuǎn)矚的回答:

“我想說的是,僅僅訓(xùn)練更大、更深的語言模型就會取得令人驚訝的效果,擴(kuò)大規(guī)模?!?/p>

神一般的判斷。

對于關(guān)心OpenAI發(fā)展軌跡的同學(xué),這是一個特別好的補(bǔ)齊OpenAI早期研究路線和思考體系拼圖的一次講座,非常推薦!

慣例有B站傳送門:【Ilya Sutskever MIT講座2018 OpenAI 元學(xué)習(xí)與自我對弈【中英】-嗶哩嗶哩】

https://b23.tv/ECfFw9h

=以下是根據(jù)講座重寫匯總的天空之城文字版=

今天,我們非常榮幸地邀請到了OpenAI的聯(lián)合創(chuàng)始人兼研究總監(jiān)伊利亞·蘇茨克維。伊利亞的職業(yè)生涯始于與杰弗里·辛頓一同在多倫多的機(jī)器學(xué)習(xí)小組工作,隨后他在斯坦福大學(xué)與吳恩達(dá)共同創(chuàng)建了DNN Research。在Google Brain擔(dān)任研究科學(xué)家三年后,他參與創(chuàng)立了OpenAI。

雖然引用次數(shù)并非衡量一切的標(biāo)準(zhǔn),但它們確實(shí)能夠反映一個人的學(xué)術(shù)影響力。伊利亞過去五年的研究成果已經(jīng)被引用超過46,000次,他一直是深度學(xué)習(xí)和人工智能領(lǐng)域中一些最重大突破性思想的關(guān)鍵創(chuàng)新者和推動者。非常歡迎伊利亞的加入。

感謝您的介紹,Lex。也感謝大家參加我的演講。今天,我將向大家介紹我們在OpenAI過去一年在元學(xué)習(xí)和自我對戰(zhàn)方面的一些研究成果。在我詳細(xì)闡述這些工作的技術(shù)細(xì)節(jié)之前,我想先花些時間討論一下深度學(xué)習(xí)的原理,以及為什么它能夠起效。事實(shí)上,深度學(xué)習(xí)之所以有效,并不是顯而易見的。

有一個事實(shí),也是一個可以證明的數(shù)學(xué)定理,那就是如果你能找到一個對你的數(shù)據(jù)效果很好的最短程序,那么你就能獲得盡可能最好的泛化效果。稍作修改,這個觀點(diǎn)可以被轉(zhuǎn)化為一個精確的定理。在直觀層面上,這是容易理解的。如果你能找到一個生成特定數(shù)據(jù)的更短程序,那么你實(shí)際上已經(jīng)將所有可想象的規(guī)律提取到了你的程序中,從而可以使用該程序做出最佳預(yù)測。如果你的數(shù)據(jù)如此復(fù)雜,以至于無法被簡化為一個更短的程序,那么這意味著你的數(shù)據(jù)是完全隨機(jī)的,無法從中提取任何規(guī)律。

然而,這背后的數(shù)學(xué)理論并不廣為人知,而且這些陳述的證明實(shí)際上并不復(fù)雜。但有些許令人失望的是,至少以目前的工具和理解來看,尋找最佳短程序來解釋、生成或解決你的問題是不可能的,因?yàn)檫@個問題在計(jì)算上是非常困難的。程序的空間是非常龐大且復(fù)雜的,程序的微小變化可能導(dǎo)致行為的巨大變化,這是不可避免的。例如,你改變了一個循環(huán)的內(nèi)部,自然會得到完全不同的結(jié)果。因此,在如此龐大的程序空間中進(jìn)行搜索似乎是完全不可能的。

那么,如果我們放棄尋找短程序,轉(zhuǎn)而尋找小回路會怎樣呢?幸運(yùn)的是,事實(shí)證明,當(dāng)涉及到小回路時,我們可以通過使用反向傳播來找到解決問題的最佳小回路。這是人工智能領(lǐng)域的一個神奇事實(shí),其他所有的研究都是基于這一點(diǎn)。實(shí)際上,當(dāng)你對一個回路施加限制,并使用數(shù)據(jù)來迭代地通過反向傳播微調(diào)神經(jīng)網(wǎng)絡(luò)的權(quán)重,直到其預(yù)測滿足數(shù)據(jù)要求時,你就找到了解決計(jì)算問題的方法。

這是回路搜索的過程。我們知道并不總是能解決這個問題,但有時你可以,尤其是當(dāng)我們擁有實(shí)用的數(shù)據(jù)集時。雖然設(shè)計(jì)一個人工數(shù)據(jù)集很容易,但你可能找不到最佳的神經(jīng)網(wǎng)絡(luò),但在實(shí)踐中,這似乎并不是問題。在許多情況下,你可以將訓(xùn)練神經(jīng)網(wǎng)絡(luò)視為求解一系列方程,例如f(xi, theta) = yi。你有你的參數(shù),它們代表了你所有的自由度。然后,你可以使用梯度下降將這些方程中的信息推入?yún)?shù)中,以滿足所有這些方程。

神經(jīng)網(wǎng)絡(luò)假設(shè)有50層,基本上是一臺并行計(jì)算機(jī),給定50個時間步來運(yùn)行。你可以用一臺非常強(qiáng)大的大規(guī)模并行計(jì)算機(jī)的50個時間步來完成許多任務(wù)。例如,人們可能不知道,你可以使用一個只有兩個隱藏層的中等大小的神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)排序,對n位數(shù)字進(jìn)行排序,這是相當(dāng)不錯的成就。這并不是顯而易見的,特別是因?yàn)槲覀儽桓嬷判蛐枰褂蒙窠?jīng)網(wǎng)絡(luò)執(zhí)行l(wèi)og n個并行步驟,而你只需要兩個并行步驟就可以成功排序。所以,有一些不太明顯的事情正在發(fā)生。現(xiàn)在,這些是閾值神經(jīng)元的并行步驟,因此它們完成了更多的工作。這就是謎底的答案。但如果你有50個這樣的層,你就可以在神經(jīng)網(wǎng)絡(luò)內(nèi)部完成相當(dāng)多的邏輯和推理。這就是它起作用的原因。給定數(shù)據(jù),我們能夠找到最好的神經(jīng)網(wǎng)絡(luò)。因?yàn)樯窠?jīng)網(wǎng)絡(luò)很深,因?yàn)樗梢栽谄鋵觾?nèi)運(yùn)行計(jì)算,最好的神經(jīng)網(wǎng)絡(luò)值得尋找。因?yàn)檫@確實(shí)是你所需要的。你需要一個模型類,這是值得優(yōu)化的。但它也需要是可優(yōu)化的。深度神經(jīng)網(wǎng)絡(luò)滿足這兩個條件。這就是一切正常運(yùn)作的原因。這是其他一切的基礎(chǔ)。

現(xiàn)在,我想談?wù)剰?qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)是一個框架,用于評估代理在復(fù)雜的隨機(jī)環(huán)境中實(shí)現(xiàn)目標(biāo)的能力。你有一個代理插入環(huán)境中,如圖所示。對于任何給定的代理,你只需要多次運(yùn)行它,并計(jì)算其平均獎勵。強(qiáng)化學(xué)習(xí)框架的有趣之處在于,它存在有趣且有用的強(qiáng)化學(xué)習(xí)算法。這個框架已經(jīng)存在了很長時間,一旦我們意識到好的算法是存在的,事情就變得有趣了。這些算法并不完美,但它們足以完成有趣的任務(wù)。你所面臨的數(shù)學(xué)問題是需要最大化預(yù)期回報的地方。

強(qiáng)化學(xué)習(xí)框架還不完全完善的一個重要方面是,它假設(shè)獎勵是由環(huán)境給出的。你看這張圖片,代理發(fā)送一個動作,而環(huán)境則將觀察結(jié)果和獎勵一起返回。這就是環(huán)境返回的信息。然而,在現(xiàn)實(shí)世界中,情況并非如此,因?yàn)槲覀冇幸粋€框架來從觀察中找出獎勵是什么。我們獎勵自己。我們沒有被告知。環(huán)境并沒有說,嘿,這里有一些負(fù)面獎勵。這是我們對感官的詮釋,讓我們可以確定獎勵是什么。生命中只有一種真正的回報,那就是存在或不存在,其他一切都是其必然結(jié)果。

那么,我們的代理應(yīng)該是什么?你已經(jīng)知道答案了。它應(yīng)該是一個神經(jīng)網(wǎng)絡(luò),因?yàn)槊慨?dāng)你想做某事時,答案將是一個神經(jīng)網(wǎng)絡(luò),并且你希望代理將觀察結(jié)果映射到行動。因此,你可以使用神經(jīng)網(wǎng)絡(luò)對其進(jìn)行參數(shù)化,然后應(yīng)用學(xué)習(xí)算法。

所以,我想向你解釋一下強(qiáng)化學(xué)習(xí)是如何運(yùn)作的。這就是無模型強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)實(shí)際上已經(jīng)在各地得到了實(shí)際應(yīng)用。但它也很深刻,非常堅(jiān)固。這個過程非常簡單。它的效率并不特別高。因此,其工作原理如下:這實(shí)際上可以用一句話來描述正在發(fā)生的事情。簡單來說,就是嘗試一些新事物。為你的行動引入隨機(jī)性,并將結(jié)果與你的預(yù)期進(jìn)行比較。如果結(jié)果讓你感到驚訝,如果你發(fā)現(xiàn)結(jié)果超出了你的預(yù)期,那么就調(diào)整你的參數(shù),以便在將來采取這些行動時能夠得到改進(jìn)。就是這么簡單。這就是強(qiáng)化學(xué)習(xí)的核心思想。嘗試一下,看看你是否喜歡它,如果你喜歡,那么以后就多做一些。字面上就是這個意思。這是核心概念。

事實(shí)證明,將這個過程用數(shù)學(xué)形式化并不困難,但這確實(shí)是正在發(fā)生的事情。如果你在神經(jīng)網(wǎng)絡(luò)中,在常規(guī)神經(jīng)網(wǎng)絡(luò)中,你可能會問,目標(biāo)是什么?你運(yùn)行神經(jīng)網(wǎng)絡(luò),你就會得到一個答案。你將這個答案與所需的答案進(jìn)行比較。無論兩者之間有什么差異,你都可以將其反饋回去以更改神經(jīng)網(wǎng)絡(luò)。這就是監(jiān)督學(xué)習(xí)。在強(qiáng)化學(xué)習(xí)中,你運(yùn)行一個神經(jīng)網(wǎng)絡(luò),你為你的行動添加了一些隨機(jī)性,然后如果你喜歡這個結(jié)果,實(shí)際上,你的隨機(jī)性就變成了期望的目標(biāo)。就是這樣了。這很簡單?,F(xiàn)在,數(shù)學(xué)已經(jīng)存在。在不解釋這些方程的含義的情況下,重點(diǎn)并不是要真正推導(dǎo)它們,而只是證明它們存在。

強(qiáng)化學(xué)習(xí)算法有兩大類。其中之一是策略梯度,你所做的基本上就是使用這個表達(dá)式,期望的總和,獎勵的總和,你只需要計(jì)算導(dǎo)數(shù)。你展開項(xiàng),你運(yùn)行,你做一些代數(shù),你就得到了一個導(dǎo)數(shù)。奇跡般的是,導(dǎo)數(shù)的形式正好是我告訴你的,那就是嘗試一些行動,如果你喜歡它們,就增加這些行動的對數(shù)概率。這實(shí)際上是從數(shù)學(xué)上得出的。直觀的解釋與你在等式中得到的內(nèi)容完美對應(yīng),即使你不熟悉它,你也必須相信我。這就是頂部的等式。

還有一類不同的強(qiáng)化學(xué)習(xí)算法,它稍微復(fù)雜一些,解釋起來有點(diǎn)困難。它被稱為基于Q學(xué)習(xí)的算法。它們的穩(wěn)定性稍差一些,樣本效率更高一些,它具有這樣的特性:它不僅可以從參與者生成的數(shù)據(jù)中學(xué)習(xí),而且還可以從任何其他數(shù)據(jù)中學(xué)習(xí)。因此,它具有不同的穩(wěn)健性特征,這有點(diǎn)重要,但這只是一個技術(shù)問題。是的,這就是策略內(nèi)和策略外的區(qū)別,但這有點(diǎn)技術(shù)性,所以如果你發(fā)現(xiàn)這很難理解,請不要擔(dān)心。如果你已經(jīng)知道了,那么你就已經(jīng)知道了。

那么現(xiàn)在強(qiáng)化學(xué)習(xí)的潛力是什么?承諾是什么?它到底是什么,我們?yōu)槭裁匆獙Υ烁械脚d奮?現(xiàn)在,有兩個原因。今天的強(qiáng)化學(xué)習(xí)算法已經(jīng)非常有用和有趣,特別是如果你對你的世界有一個很好的模擬,你可以訓(xùn)練智能體做很多有趣的事情。但真正令人興奮的是,如果你能夠構(gòu)建一個超級驚人的樣本高效強(qiáng)化學(xué)習(xí)算法。我們只給它少量的數(shù)據(jù),算法只是對它進(jìn)行處理并從中提取每一點(diǎn)熵,以便以盡可能最快的方式學(xué)習(xí)?,F(xiàn)在,我們的算法的數(shù)據(jù)效率并不是特別高。他們的數(shù)據(jù)效率低下。但隨著我們的領(lǐng)域不斷進(jìn)步,這將會改變。

接下來,我想深入探討元學(xué)習(xí)的主題。元學(xué)習(xí)的目標(biāo)是一個很好的主意,這并沒有真正起作用,但它確實(shí)有效。而且它也確實(shí)很有前途。這是另一個有前途的想法。那么夢想是什么?我們有一些學(xué)習(xí)算法。也許我們可以使用這些學(xué)習(xí)算法來學(xué)會學(xué)習(xí)。如果我們能學(xué)會學(xué)習(xí)就好了。那么你會怎么做呢?你會采用一個系統(tǒng),你不是在一項(xiàng)任務(wù)上訓(xùn)練它,而是在多項(xiàng)任務(wù)上訓(xùn)練它,你問它是否學(xué)會快速解決這些任務(wù)。這實(shí)際上可能就足夠了。

所以它看起來是這樣的。這是大多數(shù)傳統(tǒng)元學(xué)習(xí)的工作原理和外觀。你有一個模型,它是一個大的神經(jīng)網(wǎng)絡(luò)。但你所做的是對待每一個,你有訓(xùn)練任務(wù),而不是訓(xùn)練案例。你擁有的不是測試用例,而是測試任務(wù)。所以你的輸入可能是,它不僅僅是你當(dāng)前的測試用例,而是有關(guān)測試任務(wù)的所有信息加上測試用例,你將嘗試輸出該測試用例的預(yù)測或操作。所以基本上你會說,是的,我會給你10個例子作為你模型輸入的一部分,弄清楚如何充分利用它們。所以這是一個非常簡單的想法。你將神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)變?yōu)閷W(xué)習(xí)算法,將訓(xùn)練任務(wù)轉(zhuǎn)化為訓(xùn)練案例。所以訓(xùn)練任務(wù)等于訓(xùn)練案例。這就是元學(xué)習(xí)。

因此出現(xiàn)了一些我認(rèn)為非常有趣的成功案例。元學(xué)習(xí)的成功案例之一是學(xué)習(xí)快速識別字符。麻省理工學(xué)院的Lake等人制作了一個數(shù)據(jù)集。這是一個數(shù)據(jù)集。我們有大量不同的手寫字符。人們已經(jīng)能夠?yàn)榇擞?xùn)練極其強(qiáng)大的元學(xué)習(xí)系統(tǒng)。元學(xué)習(xí)的另一個非常成功的例子是神經(jīng)架構(gòu)搜索,由來自谷歌的Zoph和Le提出,他們發(fā)現(xiàn)了一種神經(jīng)架構(gòu)可以很好地解決一個問題,一個小問題,然后它也能成功解決大問題。所以這是一種少量比特元學(xué)習(xí)。這就像當(dāng)你學(xué)習(xí)架構(gòu),甚至學(xué)習(xí)一個程序、一個小程序或?qū)W習(xí)算法時,你可以將其應(yīng)用于新任務(wù)。所以這是進(jìn)行元學(xué)習(xí)的另一種方式。

無論如何,但重點(diǎn)是正在發(fā)生的事情大多數(shù)情況下元學(xué)習(xí)中到底發(fā)生了什么就是你把一個訓(xùn)練任務(wù)變成一個訓(xùn)練案例并假裝這是完全正常的深度學(xué)習(xí)。就是這樣。這就是元學(xué)習(xí)的全部。其他一切都只是小細(xì)節(jié)。接下來,我想深入。

現(xiàn)在我已經(jīng)完成了介紹部分,我想開始討論不同的工作來自O(shè)penAI的不同人,我想首先談?wù)勈潞蠼?jīng)驗(yàn)回放。安德烈等人付出了巨大的努力開發(fā)強(qiáng)化學(xué)習(xí)的學(xué)習(xí)算法,這不僅僅解決了一項(xiàng)任務(wù),但它解決了許多任務(wù),并且學(xué)會利用其經(jīng)驗(yàn)以更有效的方式。

我想討論強(qiáng)化學(xué)習(xí)中的一個問題。我想,這實(shí)際上是一系列相互關(guān)聯(lián)的問題。但你需要學(xué)會做的一件非常重要的事情就是探索。你從一個環(huán)境開始,你不知道該怎么辦。你做什么工作?所以必須發(fā)生的一件非常重要的事情就是你必須時不時地獲得獎勵。如果你嘗試某件事但沒有得到回報,那你怎樣才能學(xué)習(xí)呢?所以我說這就是問題的癥結(jié)所在。你怎么學(xué)習(xí)?與此相關(guān)的是,有沒有什么方法可以讓我們受益匪淺?來自經(jīng)驗(yàn),來自你的嘗試,來自你的失?。咳绻銍L試實(shí)現(xiàn)一個目標(biāo)但失敗了,你還能從中吸取教訓(xùn)嗎?

你告訴你,不要要求你的算法實(shí)現(xiàn)單一目標(biāo),你想要學(xué)習(xí)一項(xiàng)可以實(shí)現(xiàn)一系列目標(biāo)的策略。例如,不是達(dá)到一種狀態(tài),你想了解一項(xiàng)適用于每個狀態(tài)的策略,你的系統(tǒng)的?,F(xiàn)在,這意味著什么?每當(dāng)你做某事時,你就會達(dá)到某種狀態(tài)。假設(shè)我表達(dá)了一個目標(biāo),即我希望達(dá)成狀態(tài)A。我付出了極大的努力,但最終只能達(dá)到狀態(tài)B。從這個結(jié)果來看,我可以得出結(jié)論,這是一種令人失望的結(jié)果。我?guī)缀鯖]有學(xué)到任何東西,我仍然不清楚如何實(shí)現(xiàn)狀態(tài)A。然而,我也可以換個角度思考,暫時停下來,我實(shí)際上已經(jīng)達(dá)到了一個非常良好的狀態(tài),即狀態(tài)B。我可以從中學(xué)習(xí)如何實(shí)現(xiàn)狀態(tài)B,而這正是我原本試圖達(dá)到狀態(tài)A的過程中意外獲得的。答案是肯定的,這是有效的。

我想強(qiáng)調(diào)的是,這是一個案例,它包含了一個微妙之處,對于那些非常了解策略內(nèi)和策略外學(xué)習(xí)差異的人來說,這可能是一個有趣的點(diǎn)。當(dāng)你嘗試實(shí)現(xiàn)狀態(tài)A時,你正在進(jìn)行策略內(nèi)學(xué)習(xí)。但是,當(dāng)你實(shí)際上達(dá)到狀態(tài)B時,你正在進(jìn)行策略外學(xué)習(xí),因?yàn)槿绻阏娴脑趪L試達(dá)到狀態(tài)B,你會采取不同的行動。這就是為什么選擇能夠支持策略外學(xué)習(xí)的算法非常重要。這只是一個小的技術(shù)細(xì)節(jié)。關(guān)鍵的想法是,你通過讓問題變得更簡單,表面上看似更加困難,通過訓(xùn)練一個系統(tǒng)去渴望并學(xué)習(xí)達(dá)到每一個狀態(tài),實(shí)現(xiàn)每一個目標(biāo),從而在整體上掌握其環(huán)境,你就建立了一個能夠不斷學(xué)習(xí)的系統(tǒng)。它能夠從成功和失敗中學(xué)習(xí),因?yàn)槿绻鼑L試做一件事卻完成了另一件事,那么它就獲得了如何實(shí)現(xiàn)那另一件事的訓(xùn)練數(shù)據(jù)。

我想展示一個視頻,向您演示這個概念在實(shí)踐中是如何運(yùn)作的。強(qiáng)化學(xué)習(xí)系統(tǒng)面臨的挑戰(zhàn)之一是需要塑造獎勵。這意味著什么呢?當(dāng)系統(tǒng)剛開始學(xué)習(xí),知之甚少時,它可能無法實(shí)現(xiàn)你設(shè)定的目標(biāo)。因此,設(shè)計(jì)一個逐漸遞增的獎勵函數(shù)是非常重要的,使其平滑且連續(xù),這樣即使系統(tǒng)的表現(xiàn)不佳,它也能實(shí)現(xiàn)目標(biāo)。如果你給系統(tǒng)一個非常稀疏的獎勵,只有在達(dá)到最終狀態(tài)時才給予獎勵,那么傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法就很難解決問題,因?yàn)樗鼛缀跤肋h(yuǎn)不會得到獎勵,從而無法學(xué)習(xí)。沒有獎勵就意味著沒有學(xué)習(xí)。但在這里,因?yàn)槟憧梢詮氖『统晒χ袑W(xué)習(xí),這個問題就不復(fù)存在了。這是非常好的。我認(rèn)為,我們應(yīng)該再看一下視頻,看看它是如何自信且充滿活力地將綠色的小冰球移動到目標(biāo)位置的,這真是太棒了。

現(xiàn)在,讓我們跳過這個部分,如果你在物理機(jī)器人上實(shí)施這個策略也是可行的,但我們可以跳過這個。

我認(rèn)為重點(diǎn)是事后經(jīng)驗(yàn)重播算法的方向是正確的,因?yàn)槟阆胍盟械臄?shù)據(jù),而不僅僅是一小部分?,F(xiàn)在,一個巨大的問題是,你如何獲得高級狀態(tài)?高級狀態(tài)是從哪里來的?因?yàn)樵谖移駷橹瓜蚰銈冋故镜睦又?,系統(tǒng)被要求達(dá)到低級狀態(tài)。所以,我認(rèn)為對于這些方法來說,表示學(xué)習(xí)和無監(jiān)督學(xué)習(xí)將變得非常重要,它們能夠發(fā)現(xiàn)正確的狀態(tài),確定值得實(shí)現(xiàn)的目標(biāo)狀態(tài)空間。

現(xiàn)在,我想要查看一些真實(shí)的元學(xué)習(xí)結(jié)果,并告訴你一個非常簡單的方法,即如何通過元學(xué)習(xí)從模擬轉(zhuǎn)移到物理機(jī)器人。這是Peng等人在2017年完成的一個非常出色的實(shí)習(xí)項(xiàng)目。所以,我認(rèn)為我們可以同意,在機(jī)器人領(lǐng)域,如果你能夠在模擬器中訓(xùn)練你的策略,然后以某種方式將這些知識轉(zhuǎn)移到物理機(jī)器人上,那將是非常理想的?,F(xiàn)在,我們可以構(gòu)建沒有問題的模擬器,但它們永遠(yuǎn)無法完美地匹配現(xiàn)實(shí)世界,除非你愿意接受一個極其緩慢的模擬器。原因是,事實(shí)證明模擬接觸是非常困難的,我在某個地方聽說,如果我錯了,請糾正我,模擬摩擦力是NP完全問題。我不確定這是否準(zhǔn)確,但就是這樣的情況。所以你的模擬器和現(xiàn)實(shí)世界總是會有所不同。會有一些相似之處,但僅此而已。

我們該如何解決這個問題呢?我想向您展示一個簡單的想法。假設(shè)有一件事情會很好,那就是如果你能學(xué)習(xí)一項(xiàng)策略,它能夠迅速適應(yīng)現(xiàn)實(shí)世界。那么,如果你想學(xué)習(xí)一個能夠快速適應(yīng)的策略,我們需要確保它在訓(xùn)練期間有機(jī)會適應(yīng)。那么我們該怎么辦?我們不僅僅在一個模擬器中解決問題,而是為模擬器添加了大量的變異性。我們說,我們將隨機(jī)化摩擦力,我們將隨機(jī)化質(zhì)量,我猜還有不同物體的長度和尺寸。所以你嘗試以多種不同的方式隨機(jī)化物理模擬器。然后重要的是,你不會告訴策略是如何隨機(jī)化的。那么接下來它會做什么呢?你將你的策略放入一個環(huán)境中,它會發(fā)現(xiàn)這真的很困難。我不知道質(zhì)量是多少,也不知道摩擦力是多少。當(dāng)我從環(huán)境中得到反饋時,我需要嘗試一些事情并找出摩擦力是什么。所以你學(xué)會了讓策略具有一定程度的適應(yīng)性。這確實(shí)是有效的。

我只是想給你看一下。當(dāng)你在模擬器中訓(xùn)練策略并將其部署到物理機(jī)器人上時,會發(fā)生什么。這里的目標(biāo)是將冰球推向紅點(diǎn)的方向。你會發(fā)現(xiàn)它會掙扎。它陷入困境的原因是模擬器和真正的物理機(jī)器人之間的系統(tǒng)差異。因此,即使是基本的運(yùn)動對于策略來說也是困難的,因?yàn)榧僭O(shè)被嚴(yán)重違反了。因此,如果你按照我所討論的方式進(jìn)行訓(xùn)練,我們就會訓(xùn)練一個循環(huán)神經(jīng)網(wǎng)絡(luò)策略,它學(xué)會快速推斷模擬器的屬性,以完成任務(wù)。然后你可以給它真實(shí)的東西,真正的物理環(huán)境,它會做得更好。現(xiàn)在,這不是一個完美的技術(shù),但它絕對是非常有前途的。每當(dāng)你能夠充分隨機(jī)化模擬器時,它都是有希望的。因此,很高興看到該策略的閉環(huán)性質(zhì)。你可以看到它會推動冰球,并且會非常非常輕柔地糾正冰球的方向,使其到達(dá)球門。是的,你看到了嗎?這太酷了。所以這是元學(xué)習(xí)的一個很酷的應(yīng)用。

我想討論元學(xué)習(xí)的另一個應(yīng)用,即學(xué)習(xí)動作的層次結(jié)構(gòu)。這是Franz等人完成的工作。事實(shí)上,當(dāng)時完成這項(xiàng)工作的實(shí)習(xí)生Kevin Franz還在讀高中。他寫了這篇論文。所以,有一件事情會很好,那就是強(qiáng)化學(xué)習(xí)是否是分層的。如果不是簡單地采取微小的動作,而是有一些可以部署的小子程序。也許子程序這個術(shù)語有點(diǎn)過時了,但如果你知道哪些動作原語是值得采用的,那將是非常有幫助的?,F(xiàn)在,沒有人能夠證明分層強(qiáng)化學(xué)習(xí)確實(shí)帶來了真正的增值。到目前為止,所有真正酷的結(jié)果、所有真正令人信服的強(qiáng)化學(xué)習(xí)結(jié)果都沒有使用它。那是因?yàn)槲覀冞€沒有完全弄清楚強(qiáng)化學(xué)習(xí)、分層強(qiáng)化學(xué)習(xí)的正確方法是什么。

我只想向您展示一種非常簡單的方法,在這種方法中,我們使用元學(xué)習(xí)來學(xué)習(xí)動作的層次結(jié)構(gòu)。所以這就是你要做的。在這項(xiàng)具體的工作中,你有一定數(shù)量的低級原語。假設(shè)你有10個,并且你有任務(wù)分配。你的目標(biāo)是學(xué)習(xí)低級原語,這樣當(dāng)它們在一些強(qiáng)化學(xué)習(xí)算法的非常簡短的運(yùn)行中使用時,你會取得盡可能多的進(jìn)步。所以這個想法是你想要獲得最大程度的進(jìn)步,你想要學(xué)習(xí)能夠帶來最大進(jìn)步的策略,抱歉,你想要學(xué)習(xí)能夠帶來最大程度進(jìn)步的原語。在學(xué)習(xí)過程中的應(yīng)用中,我們面對的是一個元學(xué)習(xí)的場景,因?yàn)槟阈枰峙洳煌娜蝿?wù)。這里有一個小型迷宮的例子。你面對的是一個迷宮分布。在這種情況下,小蟲子學(xué)會了三種不同的策略,使其能夠朝著一個固定的方向移動。得益于這種層次化結(jié)構(gòu),你可以迅速地解決問題。但這只有在層次結(jié)構(gòu)設(shè)置得當(dāng)時才成立。因此,分層強(qiáng)化學(xué)習(xí)是一個持續(xù)進(jìn)行中的研究領(lǐng)域。這項(xiàng)研究是一個有趣的證明點(diǎn),展示了分層強(qiáng)化學(xué)習(xí)的概念以及它在有效時的樣子。

現(xiàn)在,我想通過一張幻燈片來討論高容量元學(xué)習(xí)的局限性。具體來說,訓(xùn)練任務(wù)的分布必須與測試任務(wù)的分布相同。我認(rèn)為這是一個真正的限制,因?yàn)閷?shí)際上你想要學(xué)習(xí)的新任務(wù)在某些方面將與你迄今為止所見的任務(wù)完全不同。例如,當(dāng)你上學(xué)時,你會學(xué)到很多有用的東西。但當(dāng)你開始工作時,你會發(fā)現(xiàn)只有一小部分所學(xué)知識是有用的,你需要從頭開始學(xué)習(xí)很多東西。因此,元學(xué)習(xí)面臨的問題在于它實(shí)際上假設(shè)訓(xùn)練任務(wù)的分布必須與測試任務(wù)的分布相同。這是一個限制。我相信,隨著我們開發(fā)出更好的算法,使得在測試任務(wù)超出訓(xùn)練任務(wù)分布時仍能保持穩(wěn)健,元學(xué)習(xí)的效果將會更好。

現(xiàn)在,我想談?wù)勛晕覍?。我認(rèn)為自我對弈是一個非??岬脑掝},現(xiàn)在才開始引起人們的關(guān)注。我想首先回顧一下一項(xiàng)非常古老的研究,名為TD Gammon。這項(xiàng)研究可以追溯到1992年,現(xiàn)在已經(jīng)有26年的歷史了。這是由Jerry Tesauro完成的。這項(xiàng)工作非常不可思議,因?yàn)樗诮裉烊匀痪哂兄匾囊饬x。他們所做的基本上是,讓兩個神經(jīng)網(wǎng)絡(luò)相互對弈,讓它們玩雙陸棋,并接受Q-learning訓(xùn)練。這是一種非?,F(xiàn)代的方法。你可能會以為這是2017年的論文,但當(dāng)你看到圖表顯示只有10個、20個、40個和80個隱藏單元的不同顏色時,你會發(fā)現(xiàn)最大的神經(jīng)網(wǎng)絡(luò)效果最好。在某些方面,并沒有太多的變化,這就是證據(jù)。事實(shí)上,他們能夠在雙陸棋中擊敗世界冠軍,并發(fā)現(xiàn)了最優(yōu)秀的人類雙陸棋玩家沒有注意到的新策略,他們確定TDGammon所涵蓋的策略實(shí)際上更好。這就是純粹的自我對弈Q-learning,它一直處于休眠狀態(tài),直到與DeepMind的Atari合作出現(xiàn)DQN。

其他自我對弈的例子包括AlphaGo Zero,它能夠在不使用任何外部數(shù)據(jù)的情況下學(xué)會擊敗圍棋世界冠軍。這種思路的另一個成果是OpenAI的Dota 2機(jī)器人,它能夠在1v1版本的游戲中擊敗世界冠軍。

所以我想花一點(diǎn)時間談?wù)勛晕覍牡镊攘σ约盀槭裁次艺J(rèn)為這令人興奮。當(dāng)我們嘗試構(gòu)建真正的智能系統(tǒng)時,我們必須面對的一個重要問題是任務(wù)是什么?我們究竟在教系統(tǒng)做什么?自我對弈的一個非常有吸引力的特點(diǎn)是主體創(chuàng)造了環(huán)境。通過代理在環(huán)境中的作用,環(huán)境對于其他智能體來說變得更加困難。這里有一個鬣蜥和試圖吃掉它的蛇的互動的例子,這次蛇沒有成功。我們可以看到接下來會發(fā)生什么。鬣蜥正在盡力而為。實(shí)際上,蛇和鬣蜥之間的軍備競賽激勵了它們的發(fā)展,可能沒有界限。這就是在生物進(jìn)化中實(shí)際發(fā)生的情況。

Carl Sims在1994年在這個方向上做了有趣的工作。YouTube上有一個由Carl Sims制作的非??岬囊曨l。你應(yīng)該去看看,這確實(shí)展示了他所做的所有工作。在這里,代理之間存在一些競爭,你可以進(jìn)化行為和形態(tài),當(dāng)智能體試圖獲得綠色立方體的所有權(quán)時。所以你可以看到代理們互相創(chuàng)造了挑戰(zhàn)。這就是他們需要發(fā)展的原因。

所以我們做了一件事,這是OpenAI的Dan Salerno的工作,我們問自己,我們能否在自我對弈中展示一些不尋常的結(jié)果,讓我們真正相信其中存在某些東西?我們在這里所做的是創(chuàng)建一個小環(huán)境,并有兩個人形角色。他們的目標(biāo)只是將對方推出擂臺。他們對摔跤一無所知,他們對站立或相互平衡一無所知,他們對重心一無所知。他們只知道如果你做得不好,那么你的競爭對手就會做得更好。

自我對弈真正有吸引力的一點(diǎn)是,你總是有一個與你實(shí)力相當(dāng)?shù)膶κ帧榱藢W(xué)習(xí),你需要有時贏,有時輸。你不可能總是贏。有時你必須失敗,有時你必須成功。讓我們看看這里會發(fā)生什么。是的,綠色人形能夠擋住球。在一個平衡良好的自我對弈環(huán)境中,競爭始終是公平的。不管你的水平如何,你面臨的競爭對你來說都是恰到好處的挑戰(zhàn)。

哦,還有一件事。這個視頻展示了遷移學(xué)習(xí)。你帶著小摔跤人形,然后你把它的伙伴帶走了。然后你開始對它施加很大的隨機(jī)力,看看它是否能保持平衡。答案是,是的,它可以,因?yàn)樗?jīng)過了針對推動它的對手的訓(xùn)練。這就是為什么,即使它不明白壓力施加在哪里,它仍然能夠自我平衡。所以這是自我對弈環(huán)境的一個潛在的有吸引力的特征,你可以學(xué)習(xí)一系列廣泛的技能,雖然技能的內(nèi)容有點(diǎn)難以控制。

因此,這項(xiàng)研究最大的懸而未決的問題是,如何在自我對弈環(huán)境中學(xué)習(xí)代理,以便他們無論做什么,但隨后他們能夠解決一系列對我們有用的任務(wù),這些任務(wù)是外部明確指定的?

我還想強(qiáng)調(diào)一下我們在Dota機(jī)器人中觀察到的自我對弈環(huán)境的一個特點(diǎn)。也就是說,我們看到機(jī)器人的能力快速提高。因此,在大約五個月的時間里,我們已經(jīng)看到機(jī)器人從完全隨機(jī)地玩游戲變成了現(xiàn)實(shí),一路走向世界冠軍。原因是一旦你有了自我對弈的環(huán)境,如果你投入計(jì)算資源,你就可以將其轉(zhuǎn)化為數(shù)據(jù)。自我對弈允許你將計(jì)算轉(zhuǎn)化為數(shù)據(jù)。我認(rèn)為我們會認(rèn)為這是一件極其重要的事情,能夠?qū)⒂?jì)算本質(zhì)上轉(zhuǎn)化為數(shù)據(jù)泛化,僅僅是因?yàn)樯窠?jīng)網(wǎng)絡(luò)處理器的速度將在未來幾年內(nèi)顯著提高。因此,神經(jīng)網(wǎng)絡(luò)循環(huán)將變得非常便宜,并且利用這些新發(fā)現(xiàn)的過量循環(huán)將變得非常重要。

現(xiàn)在,我還想談?wù)勛晕覍?zhàn)方法的結(jié)局。關(guān)于人類大腦,我們知道的一件事是它的大小在過去兩百萬年里增長得非??臁N业睦碚撌?,這種現(xiàn)象發(fā)生的原因是因?yàn)槲覀兊淖嫦纫呀?jīng)達(dá)到了一個點(diǎn),在這個點(diǎn)上,對你的生存最重要的東西是你在部落中的地位,而不是老虎和獅子。在處理那些具有高度智能的其他實(shí)體時,擁有一個稍大的大腦確實(shí)有其優(yōu)勢。我相信這正是我們所觀察到的現(xiàn)象。至少有一篇科學(xué)論文支持了這一點(diǎn)。顯然,社會性的靈長類動物和鳥類之間存在著一種趨同進(jìn)化,盡管它們的行為多種多樣,而且人類與鳥類在進(jìn)化的時間線上早已分道揚(yáng)鑣,人類、靈長類動物和鳥類的大腦結(jié)構(gòu)也大相徑庭。因此,我認(rèn)為,如果我們能夠成功地沿著這條道路前進(jìn),我們應(yīng)該能夠創(chuàng)造出一個具有語言和心智理論的主體社會,擁有談判、社交技巧、貿(mào)易、經(jīng)濟(jì)、政治和司法系統(tǒng)。所有這些都應(yīng)該在一個多代理體環(huán)境中發(fā)生。同時,我們還會面臨一致性問題,即如何確保我們所訓(xùn)練的智能體按照我們所期望的方式運(yùn)作。

現(xiàn)在,我想做一個推測性的題外話,即我想提出一個觀點(diǎn)。如果你認(rèn)為代理人社會是一個合理的場所,那里可能會出現(xiàn)完全通用的智能,而且如果你接受我們在DotaBot方面的經(jīng)驗(yàn),我們已經(jīng)見證了能力的快速提升,那么一旦所有細(xì)節(jié)都得到妥善處理,我們就可以繼續(xù)這種經(jīng)驗(yàn)。如果你假設(shè)這兩個條件成立,那么我們應(yīng)該看到我們的代理人在代理社會中生活時能力的迅速提升。

現(xiàn)在我們已經(jīng)討論了一個有潛力提高能力并教授代理人社交技能和語言的有趣方法,以及許多真實(shí)存在于人類社會中的東西,我們想要探討的是如何向代理人傳達(dá)目標(biāo)。向智能體傳達(dá)目標(biāo)的問題是一個技術(shù)問題,但這一點(diǎn)非常重要,因?yàn)槲覀兯?xùn)練的智能體最終可能會比我們更加聰明。這是Paul Christiano等人以及OpenAI安全團(tuán)隊(duì)的工作。

因此,我將向您展示這段視頻,它基本上解釋了整個過程是如何運(yùn)作的。你會看到一些你希望觀察到的行為,作為人類,你可以看到成對的行為,并通過點(diǎn)擊來選擇看起來更好的那個。經(jīng)過極少量的點(diǎn)擊,你就可以讓這個模擬的小腿做后空翻。在這個例子中,為了獲得這種特定的行為,人類注釋者需要點(diǎn)擊大約500次。

這個方法的工作原理是,你收集所有的點(diǎn)擊,這些點(diǎn)擊表明了一種行為比另一種行為更好。你需要擬合一個獎勵函數(shù)來滿足這些點(diǎn)擊,然后通過強(qiáng)化學(xué)習(xí)來優(yōu)化這個獎勵函數(shù)。這種方法確實(shí)有效。因此,這需要大約500次信息輸入。我們還能夠使用數(shù)千次信息輸入來訓(xùn)練大量的Atari游戲。

在所有這些情況下,都有人類注釋者或評判,就像之前的幻燈片所示,他們查看成對的軌跡,然后點(diǎn)擊他們認(rèn)為更好的軌跡。這是一個不尋常目標(biāo)的例子,在一場賽車游戲中,目標(biāo)是讓代理訓(xùn)練白色汽車緊跟在橙色汽車后面。使用這種方法傳達(dá)目標(biāo)非常簡單。

最后,對齊是一個技術(shù)問題,它必須得到解決。但當(dāng)然,確定我們希望人工智能系統(tǒng)具有的正確目標(biāo)將是一個非常具有挑戰(zhàn)性的政治問題。在此,我非常感謝您的關(guān)注,并想說今晚8點(diǎn)45分將在Cambridge Brewing Company舉行歡樂時光,如果你想更多地討論人工智能和其他話題,請加入我們。

=QnA環(huán)節(jié)=

關(guān)于反向傳播,雖然神經(jīng)網(wǎng)絡(luò)是受生物啟發(fā)的,但反向傳播并不像是大腦中發(fā)生的事情,因?yàn)榇竽X中的信號沿著軸突單向傳播,而反向傳播則需要將誤差沿著神經(jīng)途徑傳回。這看起來大腦正在做一些與我們非常成功的算法有些不同的事情。一旦我們弄清楚大腦在做什么,算法是否會得到改進(jìn)?還是大腦確實(shí)在發(fā)送信號,盡管它沒有明顯的方法來做到這一點(diǎn)?

這是一個很好的問題。首先,我要說的是,真正的答案是我不知道,但我有我的看法。

所以,我要說兩件事。首先,如果我們同意反向傳播解決了回路搜索問題,這個問題看起來像是一個極其根本的問題。出于這個原因,我認(rèn)為它不太可能消失。你也說得對,大腦顯然不會進(jìn)行反向傳播,盡管已經(jīng)有多種關(guān)于它如何進(jìn)行反向傳播的建議。例如,Tim Lillicrap和其他人的研究已經(jīng)證明,如果你學(xué)習(xí)一組不同的連接,它們可以用于反向傳遞,并且可以導(dǎo)致成功的學(xué)習(xí)。現(xiàn)在,這并沒有被從業(yè)者真正推向極限,因?yàn)樗麄儠f,我有tf.gradients,我不需要擔(dān)心這個。但你說得對,這是一個重要的問題,而且,有兩種可能的情況。所以我個人的觀點(diǎn)是,反向傳播將一直伴隨我們直到最后,在我們了解大腦如何運(yùn)作之前,我們實(shí)際上將建立完全人類水平和超越的系統(tǒng)。這就是我所相信的,但是,當(dāng)然,這是必須承認(rèn)的差異。

你認(rèn)為Dota機(jī)器人與人類的對決公平嗎?考慮到系統(tǒng)的限制?

所以我想說,電腦在這樣的游戲中最大的優(yōu)勢之一就是它們顯然有更好的反應(yīng)時間,盡管特別是在Dota中,頂級玩家的每秒點(diǎn)擊次數(shù)相當(dāng)少,這與星際爭霸不同。星際爭霸是一個機(jī)械性非常重的游戲,由于單位數(shù)量較多,所以頂級玩家他們只是一直點(diǎn)擊。而在Dota中,每個玩家只控制一個英雄,這大大減少了他們需要采取的行動總數(shù)?,F(xiàn)在,精度仍然很重要。我認(rèn)為我們會發(fā)現(xiàn),但我認(rèn)為真正會發(fā)生的是,我們會發(fā)現(xiàn)計(jì)算機(jī)在任何領(lǐng)域都具有優(yōu)勢,或者更確切地說,每個領(lǐng)域。目前還沒有。

你是否認(rèn)為智能體的緊急行為實(shí)際上是有指導(dǎo)的,因?yàn)榧s束已經(jīng)就位,所以它是被迫去發(fā)現(xiàn)這些,或者你認(rèn)為這實(shí)際上是某種東西非常新奇,哇,它實(shí)際上自己發(fā)現(xiàn)了這些。你實(shí)際上并沒有添加限制它的偏見。

所以毫無疑問,我們發(fā)現(xiàn)了新的策略,我可以分享一個軼事,我們的測試人員,我們有一個專業(yè)人士可以測試機(jī)器人,他和它對抗了很長時間,機(jī)器人會針對玩家(人類玩家)做各種各樣的事情,這些事情都很有效。然后在某個時候,該職業(yè)選手決定與更好的職業(yè)選手比賽,他決定模仿機(jī)器人正在做的事情之一,通過模仿,他能夠擊敗更優(yōu)秀的職業(yè)選手。所以我認(rèn)為他發(fā)現(xiàn)的策略是真實(shí)的,這意味著,存在著非常真實(shí)的轉(zhuǎn)移,我想說,我認(rèn)為這意味著,因?yàn)闄C(jī)器人發(fā)現(xiàn)的策略可以幫助人類,所以這意味著基本的游戲玩法是密切相關(guān)的。

長期以來,我了解到強(qiáng)化學(xué)習(xí)的目的是確定一種策略,即選擇一個行動以最大化預(yù)期獎勵,正如你之前所述。你是否希望考慮可能獎勵的標(biāo)準(zhǔn)差?這個想法還合理嗎?

是的,我相信這是肯定的。我認(rèn)為這確實(shí)取決于具體的應(yīng)用場景。追求最大化預(yù)期獎勵的一個原因是,設(shè)計(jì)算法時更為簡便。因此,你可以寫下一個方程或公式,進(jìn)行一些推導(dǎo),最終得到一個看起來非常優(yōu)雅的算法?,F(xiàn)在,我確實(shí)認(rèn)為,在某些應(yīng)用中,你永遠(yuǎn)不希望犯錯,同時你也希望考慮標(biāo)準(zhǔn)偏差。但在實(shí)際操作中,似乎只考慮預(yù)期獎勵就能覆蓋大多數(shù)你想要應(yīng)用這種方法的情況。謝謝你。

在上周的討論中,我們談到了動機(jī),這與強(qiáng)化學(xué)習(xí)有很大的關(guān)聯(lián)。有些理論認(rèn)為,我們的動機(jī)實(shí)際上與與他人的聯(lián)系和合作有關(guān)。我很好奇,我知道讓計(jì)算機(jī)玩競技游戲非常流行,但是讓代理進(jìn)行自我協(xié)作,比如在協(xié)作游戲中,這有什么用處呢?

是的,我認(rèn)為這是一個非常好的問題。我們可以從合作的演變中獲得一些啟示。我認(rèn)為我們最終會選擇合作,因?yàn)楹献鞅炔缓献鲗ξ覀兏欣?。所以我認(rèn)為,如果你有一個足夠開放的游戲,合作將成為一種勝利策略。因此,我認(rèn)為無論我們是否愿意,我們都將看到合作的出現(xiàn)。

你提到了模擬摩擦的復(fù)雜性。我想知道你是否認(rèn)為存在與人工智能相關(guān)的開放性復(fù)雜性理論問題,或者這只是尋找人類行為良好近似的問題,即人類傾向于解決的問題類型。

是的,所以在復(fù)雜性理論方面,在非?;A(chǔ)的層面上,我們知道無論我們運(yùn)行什么算法,它都會在某些硬件上非常有效地運(yùn)行。這為我們正在解決的問題的真實(shí)復(fù)雜性設(shè)定了一個相當(dāng)嚴(yán)格的上限。從定義上講,我們正在解決的問題在復(fù)雜性理論上并不是特別困難。現(xiàn)在,也有很多問題出現(xiàn),盡管我們所做的事情在復(fù)雜性理論上并不難,而且實(shí)際上,人類通常無法解決NP完全問題,但是,從神經(jīng)網(wǎng)絡(luò)優(yōu)化本身開始,我們對算法提出的許多優(yōu)化問題在一般情況下都是棘手的。很容易為具有少量神經(jīng)元的神經(jīng)網(wǎng)絡(luò)創(chuàng)建一系列數(shù)據(jù)集,使得找到全局最優(yōu)解是NP完全問題。那么,我們?nèi)绾伪苊膺@個問題呢?好吧,無論如何我們都只是嘗試使用梯度下降,不知怎的它就起作用了。但是,毫無疑問,我們沒有解決真正困難的問題。所以,我希望這能回答你的問題。

似乎通向通用人工智能(AGI)的道路上一個重要的子問題是理解語言,而目前生成語言模型的狀況非常糟糕。您認(rèn)為生成語言模型最有成效的研究方向是什么?

首先,我要說的是,你說的完全正確,我們在語言方面的情況還遠(yuǎn)未達(dá)到理想狀態(tài),盡管已經(jīng)取得了一些進(jìn)展。即使沒有任何特定的創(chuàng)新,僅僅是在更大的數(shù)據(jù)集上擴(kuò)展現(xiàn)有模型也會取得驚人的效果。甚至不是更大的數(shù)據(jù)集,而是更大、更深的模型。例如,如果你訓(xùn)練了一個具有一千層的語言模型,并且它是同一類型的層,我認(rèn)為這將是一個非常驚人的語言模型。我們還沒有達(dá)到那個階段,但我認(rèn)為這種情況很快就會改變?,F(xiàn)在,我也同意你的觀點(diǎn),即我們目前對深度學(xué)習(xí)的理解缺乏一些基本的東西,這使我們無法真正解決我們想要的問題。所以,我認(rèn)為其中一個問題,缺少的東西之一是,或者看起來顯然是錯誤的,事實(shí)是我們訓(xùn)練一個模型,然后停止訓(xùn)練,我們將其凍結(jié)。盡管真正的魔法發(fā)生在訓(xùn)練過程中。魔法在于,如果你仔細(xì)想想,訓(xùn)練過程是整個故事的真正通用部分,因?yàn)槟愕腡ensorFlow代碼并不關(guān)心要優(yōu)化哪個數(shù)據(jù)集。它只是說,給我數(shù)據(jù)集就行,我不在乎要解決哪個問題,我會解決所有問題。所以,能夠做到這一點(diǎn)感覺真的很特別,我認(rèn)為我們在測試時沒有利用它。很難推測我們不知道答案的事情,但我想說的是,僅僅訓(xùn)練更大、更深的語言模型就會取得令人驚訝的效果,擴(kuò)大規(guī)模。但我認(rèn)為,在測試時進(jìn)行訓(xùn)練和在測試時進(jìn)行推理之類的事情將是性能的另一個重要提升。

謝謝你的演講。因此,現(xiàn)在解決強(qiáng)化學(xué)習(xí)問題的另一種有趣方法可能是采用進(jìn)化策略。盡管它們有自己的局限性,我想知道你在OpenAI是否正在從事相關(guān)的工作,以及你對它們的總體看法是什么?

就目前而言,我認(rèn)為像進(jìn)化策略這樣的方法對于強(qiáng)化學(xué)習(xí)來說并不是特別好。我認(rèn)為傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法,尤其是大規(guī)模策略的算法,更為有效。但如果你想進(jìn)化出一個小而緊湊的實(shí)體,比如一段代碼,我認(rèn)為這將是一個值得認(rèn)真考慮的方向。但是,開發(fā)一段有用的代碼是一個很酷的想法,它還沒有實(shí)現(xiàn),所以在我們達(dá)到那個目標(biāo)之前還有很多工作要做。

非常感謝你的到來。我的問題是,你提到確定正確的目標(biāo)是一個政治問題。所以我想知道你是否可以詳細(xì)說明一下,然后你認(rèn)為我們可以采取什么方法來實(shí)現(xiàn)這一目標(biāo)?

好吧,我真的不能過多評論,因?yàn)楝F(xiàn)在我們在OpenAI有一些人全職思考這個問題。我沒有足夠強(qiáng)烈的意見來發(fā)表任何明確的聲明。我所能說的是,在非常高的層面上,如果你進(jìn)入未來,無論何時,或者,每當(dāng)你建造一臺可以比人類做得更好的機(jī)器時,這將會發(fā)生,因?yàn)榇竽X是物理的,它對社會的影響將是巨大且壓倒性的。即使你非常努力,這也是很難想象的。我認(rèn)為這意味著人們會非常關(guān)心,這就是我所暗示的,事實(shí)上這將是許多人會強(qiáng)烈關(guān)心的事情。而且,隨著自動駕駛汽車和更多自動化的影響逐漸增加,我認(rèn)為我們會看到更多的人關(guān)心。

我們是否需要擁有一個非常準(zhǔn)確的物理世界模型,然后對其進(jìn)行模擬,以便讓這些代理最終能夠進(jìn)入現(xiàn)實(shí)世界并執(zhí)行一些接近人類水平的智能任務(wù)?

這是一個很好的問題。所以我認(rèn)為如果是這樣的話,我們就有麻煩了。我非常確定這是可以避免的。所以具體來說,真正的答案必須是,看,你學(xué)會解決問題,你學(xué)會談判,你學(xué)會堅(jiān)持,你在模擬中學(xué)到很多不同的有用的人生教訓(xùn)。是的,你也學(xué)了一些物理。但隨后你就脫離了現(xiàn)實(shí)世界,你必須在某種程度上重新開始,因?yàn)槟愕脑S多根深蒂固的假設(shè)將是錯誤的。這是目標(biāo)之一,這就是我如此關(guān)心永不停止訓(xùn)練的原因之一。你已經(jīng)積累了知識,現(xiàn)在你進(jìn)入了一個違反某些假設(shè)的環(huán)境,你繼續(xù)訓(xùn)練,嘗試將新數(shù)據(jù)與舊數(shù)據(jù)聯(lián)系起來。這是我們算法的一個重要要求,在一定程度上已經(jīng)得到滿足,但還需要更多地滿足,這樣你就可以利用你所獲得的部分知識進(jìn)入新的情況,繼續(xù)學(xué)習(xí)。一個直觀的例子是,你去學(xué)校,你學(xué)到有用的東西,然后你就去工作。它并不完美,它不是完全一樣的,但是你能夠應(yīng)用你在學(xué)校學(xué)到的東西,并在工作中繼續(xù)學(xué)習(xí)和適應(yīng)。對于你們這些學(xué)習(xí)了四年計(jì)算機(jī)科學(xué)的本科生來說,這段教育經(jīng)歷并不會讓你們完全準(zhǔn)備好掌握工作中所需了解的所有知識。它確實(shí)有助于你們的起步,但你們還需要學(xué)習(xí)許多新事物。這正是教育的本質(zhì)。我認(rèn)為這是學(xué)校應(yīng)該做的事情。

你們在演講的早期階段提到的一點(diǎn)是,強(qiáng)化學(xué)習(xí)風(fēng)格的一個局限性是缺乏自我組織能力。因此,你必須指導(dǎo)它何時做得好或做得不好。這在嘗試教導(dǎo)老鼠穿越迷宮時,實(shí)際上也是神經(jīng)科學(xué)領(lǐng)域的一個問題。你必須人為地指示它應(yīng)該做什么。那么,既然我們在教學(xué)中已經(jīng)面臨這個問題,你認(rèn)為未來的方向是什么?你知道,這不僅僅是關(guān)于學(xué)習(xí),還有教學(xué)的問題。你認(rèn)為這方面的研究進(jìn)展如何?我們?nèi)绾我胱晕医M織的概念?

我認(rèn)為,無疑,一件非常重要的事情是能夠通過觀察其他代理來推斷它們的目標(biāo)和策略。這是一項(xiàng)基本技能,需要被學(xué)習(xí)并嵌入到代理中。比如,假設(shè)有兩個代理,一個代理正在執(zhí)行某項(xiàng)任務(wù),另一個代理觀察到這一行為并認(rèn)為這非???,也希望能夠做到同樣的事情。然后它就會開始模仿。所以,我想說,這是在設(shè)定獎勵機(jī)制時的一個非常重要的組成部分。你觀察到他們的行為,從而推斷出獎勵?,F(xiàn)在我們有一個調(diào)節(jié)器,上面標(biāo)有:“你看到他們在做什么嗎?現(xiàn)在去嘗試做同樣的事情?!彼?,據(jù)我所知,這是人類與其他動物的一個重要區(qū)別,我們模仿他人行為的規(guī)模和范圍。

你介意我追問一個問題嗎?因此,這在競爭環(huán)境中如何運(yùn)作是顯而易見的,但在任意任務(wù)中又是如何呢?比如我在上數(shù)學(xué)課,看到有人用特定的方式解決問題,我會想:“哦,這是一個很好的策略。也許我應(yīng)該嘗試一下。”在非競爭環(huán)境中,這是如何運(yùn)作的?

所以我認(rèn)為,這將是一個與競爭環(huán)境相區(qū)分的問題,但它也必須以某種方式融入系統(tǒng)中,也許是通過進(jìn)化。如果你有其他代理在執(zhí)行任務(wù),他們產(chǎn)生了你所觀察到的數(shù)據(jù),那么真正理解你所看到的數(shù)據(jù)的唯一方法是推斷出代理的目標(biāo)、策略以及他們的信念狀態(tài)。這對于與他們溝通也是至關(guān)重要的。如果你想與某人成功溝通,你必須了解他們的目標(biāo)以及他們的信念和知識狀態(tài)。因此,我認(rèn)為你會發(fā)現(xiàn),理解其他智能體在做什么、推斷他們的目標(biāo)、模仿他們以及與他們成功溝通之間存在著聯(lián)系。

好的,讓我們?yōu)橐晾麃喓陀淇斓臅r光熱烈鼓掌。謝謝。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
地球局|威脅伊朗古巴,調(diào)查鮑威爾,特朗普為何愈發(fā)瘋狂

地球局|威脅伊朗古巴,調(diào)查鮑威爾,特朗普為何愈發(fā)瘋狂

齊魯壹點(diǎn)
2026-01-12 17:50:50
醫(yī)生調(diào)查發(fā)現(xiàn):高血壓患者過了70歲,基本都有8現(xiàn)狀,要坦然接受

醫(yī)生調(diào)查發(fā)現(xiàn):高血壓患者過了70歲,基本都有8現(xiàn)狀,要坦然接受

健康之光
2026-01-13 10:44:55
廣東隊(duì)最新消息!麥考爾王者歸來,首秀將迎戰(zhàn)上海男籃?

廣東隊(duì)最新消息!麥考爾王者歸來,首秀將迎戰(zhàn)上海男籃?

緋雨兒
2026-01-13 14:34:09
閆學(xué)晶道歉不到24小時,擔(dān)心的一幕還是發(fā)生了,輿論反撲更加猛烈

閆學(xué)晶道歉不到24小時,擔(dān)心的一幕還是發(fā)生了,輿論反撲更加猛烈

娛說瑜悅
2026-01-12 17:22:14
龍翔被訴:貪污數(shù)額特別巨大、受賄數(shù)額特別巨大

龍翔被訴:貪污數(shù)額特別巨大、受賄數(shù)額特別巨大

極目新聞
2026-01-13 10:23:49
西媒:皇馬總經(jīng)理在返程航班與阿隆索交流,雙方同意結(jié)束合作

西媒:皇馬總經(jīng)理在返程航班與阿隆索交流,雙方同意結(jié)束合作

懂球帝
2026-01-13 11:53:02
連續(xù)13個漲停板!股民:就想看看什么時刻能開!

連續(xù)13個漲停板!股民:就想看看什么時刻能開!

數(shù)據(jù)挖掘分析
2026-01-13 15:05:20
俄羅斯襲擊一艘貨輪,此舉疑似反擊白宮,令烏克蘭雪上加霜!

俄羅斯襲擊一艘貨輪,此舉疑似反擊白宮,令烏克蘭雪上加霜!

回京歷史夢
2026-01-13 14:26:02
陳星旭的帥氣被低估了,飛機(jī)上遇到他被他的顏值震撼,當(dāng)場路轉(zhuǎn)粉

陳星旭的帥氣被低估了,飛機(jī)上遇到他被他的顏值震撼,當(dāng)場路轉(zhuǎn)粉

情感大頭說說
2026-01-13 00:31:48
華納原創(chuàng)恐怖片《木乃伊》發(fā)布海報以及預(yù)告片,木乃伊歸來,噩夢開啟!

華納原創(chuàng)恐怖片《木乃伊》發(fā)布海報以及預(yù)告片,木乃伊歸來,噩夢開啟!

陳意小可愛
2026-01-13 12:37:45
A股收評:上證指數(shù)高開低走跌0.64%終結(jié)17連陽 A股三市成交額續(xù)創(chuàng)歷史記錄

A股收評:上證指數(shù)高開低走跌0.64%終結(jié)17連陽 A股三市成交額續(xù)創(chuàng)歷史記錄

新浪財經(jīng)
2026-01-13 15:07:41
開始行動,記者:勇士出庫明加+穆迪+希爾德+1首輪報價小波特

開始行動,記者:勇士出庫明加+穆迪+希爾德+1首輪報價小波特

懂球帝
2026-01-13 11:53:23
原來大佬寫的推薦信都這么短啊 ??!網(wǎng)友:有用不在于字多

原來大佬寫的推薦信都這么短啊 ??!網(wǎng)友:有用不在于字多

夜深愛雜談
2026-01-10 22:24:02
“流氓作家”賈平凹語出驚人:跟睡過的女人比曖昧的女人更有感覺

“流氓作家”賈平凹語出驚人:跟睡過的女人比曖昧的女人更有感覺

百態(tài)人間
2026-01-04 16:18:53
退休女人最難熬的是什么?63歲阿姨:那不是一般的苦,只有自己懂

退休女人最難熬的是什么?63歲阿姨:那不是一般的苦,只有自己懂

熱心柚子姐姐
2026-01-12 14:45:39
專為U字號亞洲杯而生,門神李昊證明馬競的球探很優(yōu)秀

專為U字號亞洲杯而生,門神李昊證明馬競的球探很優(yōu)秀

米奇兔
2026-01-12 11:53:08
“死了么”App:本輪融資預(yù)計(jì)本周內(nèi)結(jié)束

“死了么”App:本輪融資預(yù)計(jì)本周內(nèi)結(jié)束

新京報
2026-01-13 12:52:04
2026年還買油車的人,是“聰明”還是“愚蠢”?專家撕開遮羞布

2026年還買油車的人,是“聰明”還是“愚蠢”?專家撕開遮羞布

老特有話說
2026-01-12 17:42:25
梁文鋒署名新論文:給大模型配本“字典”,計(jì)算、記憶分家后智商爆表,劇透DeepSeek V4?

梁文鋒署名新論文:給大模型配本“字典”,計(jì)算、記憶分家后智商爆表,劇透DeepSeek V4?

華爾街見聞官方
2026-01-13 11:56:17
尾盤操作思路:衛(wèi)星今天是走是留?一句話直接告訴你!

尾盤操作思路:衛(wèi)星今天是走是留?一句話直接告訴你!

龍行天下虎
2026-01-13 14:36:15
2026-01-13 15:43:00
Web3天空之城 incentive-icons
Web3天空之城
美好,有趣的,值得銘記的
101文章數(shù) 87關(guān)注度
往期回顧 全部

科技要聞

每年10億美元!谷歌大模型注入Siri

頭條要聞

78歲陶華碧"出山救子" 老干媽"觸底反彈"1年大賣54億

頭條要聞

78歲陶華碧"出山救子" 老干媽"觸底反彈"1年大賣54億

體育要聞

CBA還能眾籌換帥?

娛樂要聞

周杰倫以球員身份參加澳網(wǎng),C位海報公開

財經(jīng)要聞

中國一口氣申報20萬顆衛(wèi)星,意味著什么?

汽車要聞

限時9.99萬元起 2026款啟辰大V DD-i虎鯨上市

態(tài)度原創(chuàng)

時尚
親子
本地
游戲
軍事航空

走過那個夏天,甜茶終于站上金球獎之巔

親子要聞

內(nèi)膜薄備孕怎么辦?高齡備孕期間需要吃的營養(yǎng)品?

本地新聞

云游內(nèi)蒙|到巴彥淖爾去,赴一場塞上江南的邀約

PS玩家沖!港服節(jié)日特惠更新:大鏢客、劍星超好價

軍事要聞

特朗普拿中俄當(dāng)幌子被北歐官員拆穿:完全不屬實(shí)

無障礙瀏覽 進(jìn)入關(guān)懷版