網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI已迷失方向？強(qiáng)化學(xué)習(xí)教父Sutton最新發(fā)布OaK架構(gòu)，挑戰(zhàn)當(dāng)前AI范式，提出超級智能新構(gòu)想

2025-08-22 16:13:30　來源: AI科技大本營

北京舉報

分享至

作者 | 理查德·薩頓（Richard Sutton）

原標(biāo)題 | OaK 架構(gòu)：一個源于經(jīng)驗(yàn)的超級智能構(gòu)想

來源 | RLC 2025 會議文章（youtu.be/gEbbGyNkR2U）

編譯 | 王啟隆

出品丨AI 科技大本營（ID：rgznai100）

隨著人工智能發(fā)展成為一個龐大的產(chǎn)業(yè)，它在很大程度上已經(jīng)迷失了方向。

我們需要什么才能重回正軌，去探尋真正的智能？

我們需要能夠持續(xù)學(xué)習(xí)的智能體、世界模型和規(guī)劃能力，以及學(xué)習(xí)高層次知識和通過元學(xué)習(xí)掌握泛化的能力。

OaK 架構(gòu)正是對所有這些需求的一個系統(tǒng)性回應(yīng)。從整體上看，它是一個基于模型的強(qiáng)化學(xué)習(xí)架構(gòu)，并具備三個鮮明特點(diǎn)：

1）其所有組件都能持續(xù)學(xué)習(xí)；

2）每一個學(xué)習(xí)到的權(quán)重，都配有一個專門的步長參數(shù)，該參數(shù)通過在線交叉驗(yàn)證進(jìn)行元學(xué)習(xí)；

3）狀態(tài)和時間上的抽象概念，通過一個我們稱之為 FC-STOMP 的五步演進(jìn)路徑被持續(xù)創(chuàng)造出來，即：特征構(gòu)建（ F eature C onstruction）、基于特征提出子任務(wù)（posing a S ub T ask）、學(xué)習(xí)一個選項(xiàng)來解決該子任務(wù)（learning an O ption）、學(xué)習(xí)該選項(xiàng)的模型（learning a M odel）、以及使用該選項(xiàng)的模型進(jìn)行規(guī)劃（ P lanning）。

OaK 架構(gòu)的內(nèi)容相當(dāng)豐富。在本文中，我們將勾勒其輪廓，并闡明那些為這一宏大構(gòu)想——即超級智能如何從智能體的經(jīng)驗(yàn)中涌現(xiàn)——做出貢獻(xiàn)的諸多既有和同期的研究工作。

引言

OaK 架構(gòu)是一個關(guān)于超級智能如何從經(jīng)驗(yàn)中誕生的構(gòu)想，它凝結(jié)了我為探尋人工智能核心問題而進(jìn)行的長期思考與探索。在深入細(xì)節(jié)之前，我想首先強(qiáng)調(diào)人工智能這項(xiàng)任務(wù)的艱巨性與重要性。

人工智能的探索，本質(zhì)上是一場偉大的遠(yuǎn)征。我們試圖理解人類心智的運(yùn)作方式，創(chuàng)造出與人類相仿的智能，并最終賦予我們自身更強(qiáng)大的力量。這無疑是一個意義深遠(yuǎn)的智力里程碑，其影響將是革命性的。盡管這一認(rèn)知已是共識，但我們?nèi)杂斜匾獣r常停下腳步，去真正體味我們所從事事業(yè)的非凡難度與深遠(yuǎn)意義。從智力里程碑的意義上講，其重要性或可與地球上生命的起源相提并論——至少，當(dāng)這個星球上的智能體終于開始理解自身如何運(yùn)作、如何思考，并意識到這種理解將如何顛覆一切時，其意義是同等重大的。

當(dāng)然，這也是人類文明發(fā)展歷程的自然延續(xù)，只是開啟了一個更為宏大的新篇章。

我堅(jiān)信，這一進(jìn)程只會導(dǎo)向一個美好的未來。盡管許多人對此心存憂慮，但我認(rèn)為其本質(zhì)是純粹向善的。并且，最偉大的進(jìn)步仍在前方，這是一場需要耐心與毅力的馬拉松。對于強(qiáng)化學(xué)習(xí)領(lǐng)域的研究者而言，一個值得慶幸的觀點(diǎn)是，通往完全人工智能（即強(qiáng)人工智能）的必經(jīng)之路，是強(qiáng)化學(xué)習(xí)這類經(jīng)驗(yàn)性方法，而非大語言模型等非經(jīng)驗(yàn)性路徑。然而，一個看似矛盾的現(xiàn)實(shí)是，當(dāng)前最大的瓶頸恰恰在于我們?nèi)狈ψ銐騼?yōu)秀的學(xué)習(xí)算法。人們或許會認(rèn)為，擁有了深度學(xué)習(xí)，我們最擅長的領(lǐng)域便是學(xué)習(xí)算法。但在我看來，事實(shí)遠(yuǎn)非如此。我們現(xiàn)有的算法還相當(dāng)粗糙，亟待改進(jìn)，而這，正應(yīng)是我們?nèi)σ愿暗姆较颉?/p>

在過去半個世紀(jì)對智能本質(zhì)的持續(xù)探索中，我每一天都在科研一線，致力于為強(qiáng)化學(xué)習(xí)、為從經(jīng)驗(yàn)中學(xué)習(xí)，設(shè)計更優(yōu)的算法。我的研究遵循著《阿爾伯塔人工智能研究計劃》的指引——那是我與 Michael Bowling 和 Patrick Pilarski 在幾年前共同制定的藍(lán)圖。

今天，我將要探討的 OaK 架構(gòu)，正是一個旨在構(gòu)建通用人工智能智能體的整體性構(gòu)想。我深信，它為我們指明了一條通往“理解心智”這一終極目標(biāo)的清晰路徑。

OaK 架構(gòu)：命名與愿景

讓我們從 OaK 這個名字開始。這個名字源于兩個核心概念：“選項(xiàng)”（ O ptions）和“知識”（ K nowledge）。

在座的許多研究者都對“選項(xiàng)”這一概念非常熟悉。通常，一個選項(xiàng)被定義為一個三元組，但經(jīng)過我過去二十年的研究演進(jìn)，我已經(jīng)舍棄了起始集（initiation set）的設(shè)定。

因此，對我而言，選項(xiàng)是一個更為簡潔的組合，僅包含一個策略（policy）——即一種行為方式，和一個終止條件（termination condition）——即決定何時停止該行為的方式。在 OaK 架構(gòu)中，智能體的核心構(gòu)成是海量的選項(xiàng)，而它的“知識”，則具體表現(xiàn)為關(guān)于執(zhí)行某個選項(xiàng)后世界會發(fā)生何種變化的知識。通過這種方式，智能體旨在學(xué)習(xí)一個關(guān)于世界的高層次轉(zhuǎn)換模型。這個模型使其能夠以更長的時間跨度進(jìn)行規(guī)劃，并有望深刻洞察世界內(nèi)在的結(jié)構(gòu)，如同“庖丁解?！卑阌稳杏杏?。

這就是 OaK 名稱的由來。我認(rèn)為，我們所面對的是一項(xiàng)宏大的挑戰(zhàn)，一場偉大的遠(yuǎn)征。因此，我常將其比作追尋人工智能的“圣杯”。

為了更清晰地闡述其核心理念，我們可以將其設(shè)計目標(biāo)歸納為以下三點(diǎn)：

領(lǐng)域通用性（Domain-General） ：該設(shè)計不應(yīng)包含任何針對特定世界的預(yù)設(shè)知識，而應(yīng)具備普適性。
經(jīng)驗(yàn)性（Empirical） ：心智的成長應(yīng)完全源于運(yùn)行時的經(jīng)驗(yàn)積累，而非依賴于某個特殊的訓(xùn)練階段。
開放式復(fù)雜性（Open-ended Complexity） ：智能體應(yīng)能在其心智中形成處理當(dāng)前世界所必需的任何概念，其復(fù)雜性和抽象能力的上限僅受限于其計算資源。

這三大核心訴求，將是我們接下來探討的重點(diǎn)。

核心理念：運(yùn)行時學(xué)習(xí)與“大世界”視角

首先，有必要對兩個關(guān)鍵術(shù)語——“設(shè)計時”（design-time）與“運(yùn)行時”（run-time）——加以界定。“設(shè)計時”指代智能體在“工廠”中被構(gòu)建的階段，任何領(lǐng)域知識都應(yīng)在此時被編碼進(jìn)去。而“運(yùn)行時”則是智能體進(jìn)入真實(shí)世界后，通過與環(huán)境的實(shí)際互動來學(xué)習(xí)、生活并制定計劃的階段。

以大語言模型為例，其幾乎所有的“智能”都在設(shè)計時完成。一旦被部署使用，它便不再從新的交互中學(xué)到任何東西。而我所倡導(dǎo)的理念恰恰相反：所有重要的事情都應(yīng)在運(yùn)行時發(fā)生，即所謂的“在線學(xué)習(xí)”、“在崗學(xué)習(xí)”。

這便引出了“大世界”（Big World）視角。

“大世界”假說，這一概念在阿爾伯塔的研究環(huán)境中已醞釀多年，并深刻地影響了我們的思維與設(shè)計方式。其核心思想十分簡單：世界遠(yuǎn)比智能體更龐大、更復(fù)雜——其程度遠(yuǎn)超想象。世界必然遠(yuǎn)大于智能體，因?yàn)樗藬?shù)十億其他智能體，以及萬物復(fù)雜的原子結(jié)構(gòu)和細(xì)節(jié)。其他智能體（無論是朋友、伙伴還是競爭對手）頭腦中的信息都與自身息息相關(guān)，必須被納入考量。

由此得出的一個關(guān)鍵結(jié)論是：智能體所做的任何事都不可能是精確的、最優(yōu)的，而只能是近似的。其構(gòu)建的價值函數(shù)必然是近似價值函數(shù)；其策略也不可能是最優(yōu)策略；其對世界的轉(zhuǎn)換模型，也必然是經(jīng)過高度簡化的。智能體頭腦中的世界模型，與外部那個龐大得多的真實(shí)世界相比，顯得微不足道。智能體永遠(yuǎn)無法在心智中容納世界的單個完整狀態(tài)，更不用說容納其他所有智能體的心智狀態(tài)了。

這一視角最重要的推論是，世界對于智能體而言，最終將呈現(xiàn)出非平穩(wěn)性（non-stationarity）。正如我和 Dave Silver、Anna Koop 在一篇論文中所指出的，當(dāng)智能體缺乏對世界狀態(tài)的完美感知和精確模型時，龐大世界中許多看似相似的區(qū)域，其實(shí)存在著函數(shù)逼近器無法捕捉的細(xì)微差別。這使得世界看起來是動態(tài)變化的。因此，運(yùn)行時的學(xué)習(xí)和規(guī)劃變得至關(guān)重要。智能體必須具備在運(yùn)行時根據(jù)實(shí)際遭遇的情境，發(fā)現(xiàn)任何所需抽象的能力。這也意味著，在設(shè)計時預(yù)置的抽象概念，不僅是不充分的，甚至應(yīng)該被摒棄。

運(yùn)行時的學(xué)習(xí)總是優(yōu)于設(shè)計時的學(xué)習(xí)，原因有三：

覆蓋范圍 ：“大世界”視角決定了設(shè)計時無法預(yù)見所有可能情況。
適應(yīng)性 ：運(yùn)行時學(xué)習(xí)可以針對智能體實(shí)際遇到的那部分世界進(jìn)行高度定制和優(yōu)化。
可擴(kuò)展性 ：運(yùn)行時學(xué)習(xí)的能力隨可用的計算資源而擴(kuò)展，而設(shè)計時學(xué)習(xí)則受限于可用的人類專業(yè)知識?；仡櫄v史，“慘痛的教訓(xùn)”（the bitter lesson）明確指出，隨計算資源擴(kuò)展的一方終將勝出。

然而，我們必須承認(rèn)，當(dāng)今的深度學(xué)習(xí)方法在持續(xù)學(xué)習(xí)（continual learning）方面表現(xiàn)不佳，這是一個亟待解決的痛點(diǎn)。此外，運(yùn)行時學(xué)習(xí)還有一個關(guān)鍵優(yōu)勢：它使得元學(xué)習(xí)（meta-learning）成為可能。元學(xué)習(xí)的精髓在于“在學(xué)習(xí)中提升學(xué)習(xí)能力”——智能體可以嘗試不同的學(xué)習(xí)策略，評估其效果，并選擇更優(yōu)者用于未來的學(xué)習(xí)。這種自我改進(jìn)的過程，要求學(xué)習(xí)本身必須是一個持續(xù)的、在運(yùn)行時發(fā)生的過程。

問題設(shè)定：強(qiáng)化學(xué)習(xí)與獎勵假說

在探討解決方案之前，讓我們先明確問題的范疇。人工智能的根本問題，是設(shè)計一個能在世界中有效行動以達(dá)成目標(biāo)的智能體。經(jīng)典的強(qiáng)化學(xué)習(xí)問題與之本質(zhì)相同，只是更具體地指出：目標(biāo)由一個稱為“獎勵”（reward）的標(biāo)量信號來定義，且世界是通用的、不完全已知的。這個世界可以是任何形態(tài)，從簡單的網(wǎng)格世界到復(fù)雜的人類社會，它可以是隨機(jī)的、非線性的、非馬爾可夫的。在“大世界”中，狀態(tài)空間實(shí)際上是無限的，其動態(tài)變化也呈現(xiàn)非平穩(wěn)性。

在此，我想重申“獎勵假說”（The Reward Hypothesis）的重要性。這個假說并非一個草率的選擇，而是經(jīng)過深思熟慮的理論基石。它主張：我們所說的一切“目標(biāo)”和“目的”，其含義都可以被嚴(yán)謹(jǐn)?shù)乩斫鉃閷σ粋€接收到的標(biāo)量信號（即“獎勵”）的累積和的期望值的最大化。

這個定義中的“期望值”、“累積和”等設(shè)定都經(jīng)過了仔細(xì)推敲?！皹?biāo)量獎勵”本身是一個偉大的思想，它以一種極為清晰的方式指定了目標(biāo)，并已在人工智能、經(jīng)濟(jì)學(xué)、心理學(xué)、控制論等多個學(xué)科中得到廣泛應(yīng)用。長久以來，學(xué)術(shù)界不乏對其進(jìn)行修改的嘗試，例如引入約束、多目標(biāo)、風(fēng)險敏感性等概念。但我個人傾向于保持其簡潔性，因?yàn)槲易非蟮氖歉拍钌系那逦c簡約。

真正的問題是：我們是否需要這些額外的復(fù)雜性來獲得通用性？Michael Bowling 及其同事在一篇題為《為獎勵假說正名》的論文中給出了有力的論證。他們證明，增加多目標(biāo)、風(fēng)險敏感性或約束等機(jī)制，并不會增加通用性。這從側(cè)面驗(yàn)證了我們選擇的正確性。此外，在另一篇《獎勵即足夠》的論文中，我們進(jìn)一步論證了，在一個足夠復(fù)雜的世界里，即使是簡單的獎勵信號也足以引出智能的所有屬性。

OaK 架構(gòu)的解決方案

現(xiàn)在，讓我們轉(zhuǎn)向解決方案，即架構(gòu)本身。一個顯而易見的起點(diǎn)是無模型的強(qiáng)化學(xué)習(xí)，智能體在運(yùn)行時構(gòu)建一個策略和一個價值函數(shù)。如果能從數(shù)據(jù)中構(gòu)建自己的狀態(tài)表示，就可以處理非馬爾可夫問題。然而，一個更優(yōu)的方案或許是建立一個世界模型，并利用該模型進(jìn)行規(guī)劃。

OaK 架構(gòu)正是在這條演進(jìn)路徑上的又一次飛躍。其核心特點(diǎn)在于引入了輔助問題（或稱子問題），并且每個子問題都擁有各自的價值函數(shù)和策略。此外，每一個子問題都將基于狀態(tài)特征表示的不同組成部分。我們可以將狀態(tài)想象成一個特征向量，而每個子問題都聚焦于該向量的不同維度。

該架構(gòu)的核心可概括為在運(yùn)行時并行完成的八個步驟。下文將對這些步驟逐一展開，并會反復(fù)審視這一整體框架。

學(xué)習(xí)主策略與價值函數(shù) ：學(xué)習(xí)用于最大化主獎勵信號的策略和價值函數(shù)。這類似于標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)。這一項(xiàng)可標(biāo)記為“概念上已完成，但有待工程實(shí)現(xiàn)上的完善”，因?yàn)樗蕾囉谖覀兩形赐耆鉀Q的持續(xù)深度學(xué)習(xí)問題。
生成新狀態(tài)特征 ：從現(xiàn)有特征中生成新的、可能更有用的狀態(tài)特征。這是一個核心挑戰(zhàn)，我們稍后會詳細(xì)討論。
對特征進(jìn)行排序 ：維護(hù)關(guān)于所有特征效用的元數(shù)據(jù)，并根據(jù)其重要性進(jìn)行排序。
創(chuàng)建子問題 ：為排名最高的特征創(chuàng)建子問題。例如，若“身處演講廳”被評估為一個重要特征，系統(tǒng)就會創(chuàng)建一個子問題，其目標(biāo)是“在不損失過多主獎勵的前提下，成功到達(dá)演講廳”。
學(xué)習(xí)選項(xiàng) ：為每個子問題學(xué)習(xí)一個解決方案，這個解決方案就是一個“選項(xiàng)”（Option），即 OaK 中“O”的來源。
學(xué)習(xí)選項(xiàng)模型 ：學(xué)習(xí)每個選項(xiàng)的轉(zhuǎn)換模型，即預(yù)測執(zhí)行某個選項(xiàng)后世界會發(fā)生什么。這是 OaK 中“K”（Knowledge）的體現(xiàn)，構(gòu)成了高層次的世界模型。
使用模型進(jìn)行規(guī)劃 ：利用學(xué)習(xí)到的選項(xiàng)模型進(jìn)行規(guī)劃，以改進(jìn)主策略和價值函數(shù)。
管理與維護(hù) ：持續(xù)管理所有組件，評估其效用，淘汰無用部分，并不斷生成新的組件。

子問題、玩耍與開放式抽象

在 OaK 架構(gòu)中，子問題的創(chuàng)建是一個核心環(huán)節(jié)。智能體必須能夠自己生成子問題，這一觀點(diǎn)回應(yīng)了關(guān)于好奇心、內(nèi)在動機(jī)和輔助任務(wù)研究中的一系列關(guān)鍵開放性問題：子問題應(yīng)該是什么？它們從何而來？智能體能否自己創(chuàng)造子問題？它們?nèi)绾螏椭鉀Q主問題？OaK 的貢獻(xiàn)在于，它對這些問題提出了一個統(tǒng)一的答案，并肯定了智能體自我創(chuàng)造子問題的能力，從而實(shí)現(xiàn)了開放式的抽象。

我們可以將其想象成一個“問題”與“解決方案”相互促進(jìn)的循環(huán)：我們提出一個要解決的問題，然后去解決它；在解決問題的過程中，會創(chuàng)造出新的特征；這些新特征又成為新子問題的基礎(chǔ)，而這些新子問題又必須被解決，從而催生更新的特征，如此循環(huán)往復(fù)，永無止境。

自然界中的“玩耍”（play）行為能為我們提供生動的啟示。一只蕩秋千的年輕猩猩，并非為了覓食，而很可能是被搖蕩時的感覺所吸引，并試圖復(fù)現(xiàn)和控制這種體驗(yàn)。一只虎鯨反復(fù)將浮標(biāo)頂?shù)奖成?，也顯然是在探索和完善一個自創(chuàng)的目標(biāo)。人類嬰兒的玩耍更是如此，他們從一個物體轉(zhuǎn)向另一個，了解其特性，感到厭煩，再轉(zhuǎn)向下一個，逐步建立起對世界越來越豐富的理解。

這些行為的本質(zhì)，可以被看作是智能體在為自己提出子問題——一些需要去了解、理解、預(yù)測和控制的事物。因此，子問題不能由設(shè)計者預(yù)先給定，它們必須由智能體在與世界的互動中自主創(chuàng)造，因?yàn)樗鼈償?shù)量繁多且與具體環(huán)境高度相關(guān)。

那么，如何以一種領(lǐng)域無關(guān)的方式創(chuàng)造子問題呢？OaK 提出了一種具體機(jī)制，稱為“尊重獎勵的特征達(dá)成子問題”（Reward-Respecting, Feature-Achieving Subproblem）。當(dāng)智能體遇到或創(chuàng)造一個新特征時（例如，聽到搖鈴的聲音），它可以將其作為子問題的基礎(chǔ)。這個子問題的目標(biāo)是： 在不損失過多主獎勵的前提下，將世界驅(qū)動到一個該特征值很高的狀態(tài)。

該目標(biāo)的數(shù)學(xué)表達(dá)如下：

在這個方程中，智能體試圖找到一個選項(xiàng)（策略 π 和終止函數(shù) γ），以最大化一個期望值。該期望值包含三部分：1）執(zhí)行選項(xiàng)期間獲得的累積獎勵 ∑R ；2）終止時達(dá)成特征 i 所獲得的額外獎勵 κ·φ?(S_T) ，其中 κ 代表對該特征的渴望程度；3）終止時所處狀態(tài)的價值 V(S_T) ，這確保了智能體不會為了達(dá)成子目標(biāo)而陷入一個長期來看很糟糕的狀態(tài)（例如，為了喝到咖啡而摔斷腿）。

FC-STOMP：從特征到規(guī)劃的演進(jìn)路徑

這個子問題創(chuàng)造機(jī)制，是 OaK 架構(gòu)中一個更宏大流程的核心。我們可以將這個流程總結(jié)為一條五步走的演進(jìn)路徑，我們稱之為 FC-STOMP ：

特征構(gòu)建 (Feature Construction) ：感知過程負(fù)責(zé)構(gòu)建有趣的狀態(tài)特征。
提出子任務(wù) (posing a SubTask) ：基于高排名的特征，構(gòu)建“尊重獎勵的特征達(dá)成子問題”。
學(xué)習(xí)選項(xiàng) (learning an Option) ：通過強(qiáng)化學(xué)習(xí)求解子問題，得到一個選項(xiàng)作為其解決方案。
學(xué)習(xí)模型 (learning a Model) ：學(xué)習(xí)這個新選項(xiàng)的轉(zhuǎn)換模型，即預(yù)測其后果。
規(guī)劃 (Planning) ：將新選項(xiàng)及其模型整合到已有的世界模型中，用于規(guī)劃，從而改進(jìn)整體策略和價值函數(shù)。

這五個步驟構(gòu)成了一個發(fā)現(xiàn)與改進(jìn)的閉環(huán)。所有依賴特征的步驟（如學(xué)習(xí)選項(xiàng)、學(xué)習(xí)模型、規(guī)劃）都會向特征構(gòu)建過程提供反饋，告知哪些特征被證明是有用的，從而引導(dǎo)新特征的生成。

在算法層面，學(xué)習(xí)選項(xiàng)的價值函數(shù)、學(xué)習(xí)選項(xiàng)模型等任務(wù)，都可以利用現(xiàn)有的、成熟的離策略（off-policy）通用價值函數(shù)（GVF）學(xué)習(xí)算法，如 GTD、Emphatic TD、Retrace、ABQ 等。規(guī)劃過程則可以被視為價值迭代（value iteration）的近似。有趣的是，使用選項(xiàng)模型進(jìn)行規(guī)劃，其數(shù)學(xué)形式與傳統(tǒng)的基于單步動作的價值迭代驚人地相似，只是將“動作”替換為了“選項(xiàng)”，將“單步獎勵”替換為了“選項(xiàng)執(zhí)行期間的累積獎勵”。這使得“任何可以被學(xué)習(xí)的東西，也同樣可以被規(guī)劃”這一原則得以實(shí)現(xiàn)。

面臨的挑戰(zhàn)：持續(xù)學(xué)習(xí)與特征生成

盡管 OaK 架構(gòu)為我們描繪了一幅清晰的藍(lán)圖，但仍有兩個關(guān)鍵的技術(shù)挑戰(zhàn)有待攻克。

1. 可靠的持續(xù)深度學(xué)習(xí) ：OaK 的所有組件都要求能夠持續(xù)學(xué)習(xí)。在線性和表格情況下，我們已有可靠的方法。但在非線性的深度學(xué)習(xí)場景中，災(zāi)難性遺忘（catastrophic forgetting）和災(zāi)難性可塑性喪失（catastrophic loss of plasticity）等問題依然存在。盡管目前有持續(xù)反向傳播（continual backpropagation）等一系列解決方案正在涌現(xiàn)，但這仍是一個活躍且尚未完全解決的研究領(lǐng)域。

2. 新狀態(tài)特征的生成 ：這個問題，也被稱為“表示學(xué)習(xí)”或“新術(shù)語問題”，歷史悠久，可追溯至上世紀(jì) 60 年代。盡管反向傳播被認(rèn)為部分解決了這個問題，但它并非萬能。除梯度下降外，大多數(shù)方法都遵循“生成與測試”的范式：生成大量候選特征，然后通過評估其在解決問題中的效用來進(jìn)行篩選。我認(rèn)為，諸如 IDBD 這類根據(jù)每個特征的個體學(xué)習(xí)情況來調(diào)整其學(xué)習(xí)率的元學(xué)習(xí)算法，將是解決這一問題的關(guān)鍵部分。我相信，這個問題有望在未來幾年內(nèi)取得突破，屆時將徹底改變我們使用深度學(xué)習(xí)的方式。

結(jié)論與展望

OaK 架構(gòu)的構(gòu)想，是否成功回應(yīng)了我們最初設(shè)定的遠(yuǎn)征目標(biāo)？它在設(shè)計上是完全領(lǐng)域通用的，不包含任何針對特定世界的內(nèi)容；它完全是經(jīng)驗(yàn)性的，所有知識和能力都從運(yùn)行時經(jīng)驗(yàn)中成長；并且，它致力于實(shí)現(xiàn)無限的、開放式的抽象發(fā)現(xiàn)，其唯一的限制是計算資源。

我認(rèn)為，強(qiáng)化學(xué)習(xí)與 OaK 架構(gòu)為人工智能領(lǐng)域的幾個根本性問題，提供了第一個合理的、機(jī)制性的答案：

知識的起源 ：高層次的知識如何從低層次的經(jīng)驗(yàn)中學(xué)習(xí)而來？
概念的形成 ：概念從何而來？它們可以被視為為了解決自創(chuàng)子問題而形成的內(nèi)部表示。
推理的本質(zhì) ：什么是推理？或許它就是基于學(xué)習(xí)到的高層次世界模型進(jìn)行的規(guī)劃。
玩耍的目的 ：玩耍的目的是什么？是為了發(fā)現(xiàn)和構(gòu)建認(rèn)知基石的子問題。
感知的意義 ：在沒有人類標(biāo)簽的情況下，感知如何運(yùn)作？感知可以是為了解決子問題而形成的概念化過程。

對于從事強(qiáng)化學(xué)習(xí)研究的 AI 科學(xué)家而言，OaK 提供了一個思考人工智能各個部分如何協(xié)同工作的框架，能夠指導(dǎo)未來的研究方向。它提出了一個關(guān)于如何用學(xué)習(xí)到的模型進(jìn)行規(guī)劃的構(gòu)想，這正是當(dāng)今 AI 所缺失的關(guān)鍵能力。它提供了一種植根于經(jīng)驗(yàn)和認(rèn)知，而非匹配人類標(biāo)簽的感知觀。最重要的是，它為強(qiáng)化學(xué)習(xí)中的“發(fā)現(xiàn)”問題——即子問題、選項(xiàng)和特征從何而來——提供了綱領(lǐng)性的答案。

綜上所述，OaK 是一個關(guān)于如何獲得一個完全從經(jīng)驗(yàn)中成長起來的、開放式的超級智能的構(gòu)想。它描繪了一個在運(yùn)行時從經(jīng)驗(yàn)中培育超級智能的藍(lán)圖，整合了行動、學(xué)習(xí)、規(guī)劃、模型學(xué)習(xí)、子問題和選項(xiàng)等核心能力，并結(jié)合了函數(shù)逼近、部分可觀測性、非平穩(wěn)性等現(xiàn)實(shí)挑戰(zhàn)。所有這一切，都在一個良性的、開放式的發(fā)現(xiàn)循環(huán)中協(xié)同工作：狀態(tài)特征的發(fā)現(xiàn)，激發(fā)了問題、選項(xiàng)和模型的發(fā)現(xiàn)，而這些新產(chǎn)生的組件又反過來促進(jìn)了新的、更抽象特征的形成。作為一個完全通用、不含任何領(lǐng)域特定組件的架構(gòu)，OaK 具有強(qiáng)大的可擴(kuò)展性，并有望對人工智能的未來產(chǎn)生深遠(yuǎn)而持久的影響。

【活動分享】2025 全球機(jī)器學(xué)習(xí)技術(shù)大會（ML-Summit）北京站將于 2025 年 10 月 16-17 日在北京威斯汀酒店舉辦。大會共 12 大主題、50+ 海內(nèi)外專家，聚焦大模型技術(shù)和應(yīng)用變革。詳情參考官網(wǎng)： https://ml-summit.org (或點(diǎn)擊原文鏈接）。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.