国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI已迷失方向?強(qiáng)化學(xué)習(xí)教父Sutton最新發(fā)布OaK架構(gòu),挑戰(zhàn)當(dāng)前AI范式,提出超級智能新構(gòu)想

0
分享至

作者 | 理查德·薩頓(Richard Sutton)

原標(biāo)題 | OaK 架構(gòu):一個源于經(jīng)驗(yàn)的超級智能構(gòu)想

來源 | RLC 2025 會議文章(youtu.be/gEbbGyNkR2U)

編譯 | 王啟隆

出品丨AI 科技大本營(ID:rgznai100)

隨著人工智能發(fā)展成為一個龐大的產(chǎn)業(yè),它在很大程度上已經(jīng)迷失了方向。

我們需要什么才能重回正軌,去探尋真正的智能?

我們需要能夠持續(xù)學(xué)習(xí)的智能體、世界模型和規(guī)劃能力,以及學(xué)習(xí)高層次知識和通過元學(xué)習(xí)掌握泛化的能力。

OaK 架構(gòu)正是對所有這些需求的一個系統(tǒng)性回應(yīng)。從整體上看,它是一個基于模型的強(qiáng)化學(xué)習(xí)架構(gòu),并具備三個鮮明特點(diǎn):

1)其所有組件都能持續(xù)學(xué)習(xí);

2)每一個學(xué)習(xí)到的權(quán)重,都配有一個專門的步長參數(shù),該參數(shù)通過在線交叉驗(yàn)證進(jìn)行元學(xué)習(xí);

3)狀態(tài)和時間上的抽象概念,通過一個我們稱之為 FC-STOMP 的五步演進(jìn)路徑被持續(xù)創(chuàng)造出來,即:特征構(gòu)建( F eature C onstruction)、基于特征提出子任務(wù)(posing a S ub T ask)、學(xué)習(xí)一個選項(xiàng)來解決該子任務(wù)(learning an O ption)、學(xué)習(xí)該選項(xiàng)的模型(learning a M odel)、以及使用該選項(xiàng)的模型進(jìn)行規(guī)劃( P lanning)。

OaK 架構(gòu)的內(nèi)容相當(dāng)豐富。在本文中,我們將勾勒其輪廓,并闡明那些為這一宏大構(gòu)想——即超級智能如何從智能體的經(jīng)驗(yàn)中涌現(xiàn)——做出貢獻(xiàn)的諸多既有和同期的研究工作。

引言

OaK 架構(gòu)是一個關(guān)于超級智能如何從經(jīng)驗(yàn)中誕生的構(gòu)想,它凝結(jié)了我為探尋人工智能核心問題而進(jìn)行的長期思考與探索。在深入細(xì)節(jié)之前,我想首先強(qiáng)調(diào)人工智能這項(xiàng)任務(wù)的艱巨性與重要性。

人工智能的探索,本質(zhì)上是一場偉大的遠(yuǎn)征。我們試圖理解人類心智的運(yùn)作方式,創(chuàng)造出與人類相仿的智能,并最終賦予我們自身更強(qiáng)大的力量。這無疑是一個意義深遠(yuǎn)的智力里程碑,其影響將是革命性的。盡管這一認(rèn)知已是共識,但我們?nèi)杂斜匾獣r常停下腳步,去真正體味我們所從事事業(yè)的非凡難度與深遠(yuǎn)意義。從智力里程碑的意義上講,其重要性或可與地球上生命的起源相提并論——至少,當(dāng)這個星球上的智能體終于開始理解自身如何運(yùn)作、如何思考,并意識到這種理解將如何顛覆一切時,其意義是同等重大的。

當(dāng)然,這也是人類文明發(fā)展歷程的自然延續(xù),只是開啟了一個更為宏大的新篇章。

我堅(jiān)信,這一進(jìn)程只會導(dǎo)向一個美好的未來。盡管許多人對此心存憂慮,但我認(rèn)為其本質(zhì)是純粹向善的。并且,最偉大的進(jìn)步仍在前方,這是一場需要耐心與毅力的馬拉松。對于強(qiáng)化學(xué)習(xí)領(lǐng)域的研究者而言,一個值得慶幸的觀點(diǎn)是,通往完全人工智能(即強(qiáng)人工智能)的必經(jīng)之路,是強(qiáng)化學(xué)習(xí)這類經(jīng)驗(yàn)性方法,而非大語言模型等非經(jīng)驗(yàn)性路徑。然而,一個看似矛盾的現(xiàn)實(shí)是,當(dāng)前最大的瓶頸恰恰在于我們?nèi)狈ψ銐騼?yōu)秀的學(xué)習(xí)算法。人們或許會認(rèn)為,擁有了深度學(xué)習(xí),我們最擅長的領(lǐng)域便是學(xué)習(xí)算法。但在我看來,事實(shí)遠(yuǎn)非如此。我們現(xiàn)有的算法還相當(dāng)粗糙,亟待改進(jìn),而這,正應(yīng)是我們?nèi)σ愿暗姆较颉?/p>

在過去半個世紀(jì)對智能本質(zhì)的持續(xù)探索中,我每一天都在科研一線,致力于為強(qiáng)化學(xué)習(xí)、為從經(jīng)驗(yàn)中學(xué)習(xí),設(shè)計更優(yōu)的算法。我的研究遵循著《阿爾伯塔人工智能研究計劃》的指引——那是我與 Michael Bowling 和 Patrick Pilarski 在幾年前共同制定的藍(lán)圖。

今天,我將要探討的 OaK 架構(gòu),正是一個旨在構(gòu)建通用人工智能智能體的整體性構(gòu)想。我深信,它為我們指明了一條通往“理解心智”這一終極目標(biāo)的清晰路徑。

OaK 架構(gòu):命名與愿景

讓我們從 OaK 這個名字開始。這個名字源于兩個核心概念:“選項(xiàng)”( O ptions)和“知識”( K nowledge)。

在座的許多研究者都對“選項(xiàng)”這一概念非常熟悉。通常,一個選項(xiàng)被定義為一個三元組,但經(jīng)過我過去二十年的研究演進(jìn),我已經(jīng)舍棄了起始集(initiation set)的設(shè)定。

因此,對我而言,選項(xiàng)是一個更為簡潔的組合,僅包含一個策略(policy)——即一種行為方式,和一個終止條件(termination condition)——即決定何時停止該行為的方式。在 OaK 架構(gòu)中,智能體的核心構(gòu)成是海量的選項(xiàng),而它的“知識”,則具體表現(xiàn)為關(guān)于執(zhí)行某個選項(xiàng)后世界會發(fā)生何種變化的知識。通過這種方式,智能體旨在學(xué)習(xí)一個關(guān)于世界的高層次轉(zhuǎn)換模型。這個模型使其能夠以更長的時間跨度進(jìn)行規(guī)劃,并有望深刻洞察世界內(nèi)在的結(jié)構(gòu),如同“庖丁解?!卑阌稳杏杏?。

這就是 OaK 名稱的由來。我認(rèn)為,我們所面對的是一項(xiàng)宏大的挑戰(zhàn),一場偉大的遠(yuǎn)征。因此,我常將其比作追尋人工智能的“圣杯”。

為了更清晰地闡述其核心理念,我們可以將其設(shè)計目標(biāo)歸納為以下三點(diǎn):

  1. 領(lǐng)域通用性(Domain-General) :該設(shè)計不應(yīng)包含任何針對特定世界的預(yù)設(shè)知識,而應(yīng)具備普適性。

  2. 經(jīng)驗(yàn)性(Empirical) :心智的成長應(yīng)完全源于運(yùn)行時的經(jīng)驗(yàn)積累,而非依賴于某個特殊的訓(xùn)練階段。

  3. 開放式復(fù)雜性(Open-ended Complexity) :智能體應(yīng)能在其心智中形成處理當(dāng)前世界所必需的任何概念,其復(fù)雜性和抽象能力的上限僅受限于其計算資源。

這三大核心訴求,將是我們接下來探討的重點(diǎn)。

核心理念:運(yùn)行時學(xué)習(xí)與“大世界”視角

首先,有必要對兩個關(guān)鍵術(shù)語——“設(shè)計時”(design-time)與“運(yùn)行時”(run-time)——加以界定。“設(shè)計時”指代智能體在“工廠”中被構(gòu)建的階段,任何領(lǐng)域知識都應(yīng)在此時被編碼進(jìn)去。而“運(yùn)行時”則是智能體進(jìn)入真實(shí)世界后,通過與環(huán)境的實(shí)際互動來學(xué)習(xí)、生活并制定計劃的階段。

以大語言模型為例,其幾乎所有的“智能”都在設(shè)計時完成。一旦被部署使用,它便不再從新的交互中學(xué)到任何東西。而我所倡導(dǎo)的理念恰恰相反:所有重要的事情都應(yīng)在運(yùn)行時發(fā)生,即所謂的“在線學(xué)習(xí)”、“在崗學(xué)習(xí)”。

這便引出了“大世界”(Big World)視角。

“大世界”假說,這一概念在阿爾伯塔的研究環(huán)境中已醞釀多年,并深刻地影響了我們的思維與設(shè)計方式。其核心思想十分簡單:世界遠(yuǎn)比智能體更龐大、更復(fù)雜——其程度遠(yuǎn)超想象。世界必然遠(yuǎn)大于智能體,因?yàn)樗藬?shù)十億其他智能體,以及萬物復(fù)雜的原子結(jié)構(gòu)和細(xì)節(jié)。其他智能體(無論是朋友、伙伴還是競爭對手)頭腦中的信息都與自身息息相關(guān),必須被納入考量。

由此得出的一個關(guān)鍵結(jié)論是:智能體所做的任何事都不可能是精確的、最優(yōu)的,而只能是近似的。其構(gòu)建的價值函數(shù)必然是近似價值函數(shù);其策略也不可能是最優(yōu)策略;其對世界的轉(zhuǎn)換模型,也必然是經(jīng)過高度簡化的。智能體頭腦中的世界模型,與外部那個龐大得多的真實(shí)世界相比,顯得微不足道。智能體永遠(yuǎn)無法在心智中容納世界的單個完整狀態(tài),更不用說容納其他所有智能體的心智狀態(tài)了。

這一視角最重要的推論是,世界對于智能體而言,最終將呈現(xiàn)出非平穩(wěn)性(non-stationarity)。正如我和 Dave Silver、Anna Koop 在一篇論文中所指出的,當(dāng)智能體缺乏對世界狀態(tài)的完美感知和精確模型時,龐大世界中許多看似相似的區(qū)域,其實(shí)存在著函數(shù)逼近器無法捕捉的細(xì)微差別。這使得世界看起來是動態(tài)變化的。因此,運(yùn)行時的學(xué)習(xí)和規(guī)劃變得至關(guān)重要。智能體必須具備在運(yùn)行時根據(jù)實(shí)際遭遇的情境,發(fā)現(xiàn)任何所需抽象的能力。這也意味著,在設(shè)計時預(yù)置的抽象概念,不僅是不充分的,甚至應(yīng)該被摒棄。

運(yùn)行時的學(xué)習(xí)總是優(yōu)于設(shè)計時的學(xué)習(xí),原因有三:

  1. 覆蓋范圍 :“大世界”視角決定了設(shè)計時無法預(yù)見所有可能情況。

  2. 適應(yīng)性 :運(yùn)行時學(xué)習(xí)可以針對智能體實(shí)際遇到的那部分世界進(jìn)行高度定制和優(yōu)化。

  3. 可擴(kuò)展性 :運(yùn)行時學(xué)習(xí)的能力隨可用的計算資源而擴(kuò)展,而設(shè)計時學(xué)習(xí)則受限于可用的人類專業(yè)知識?;仡櫄v史,“慘痛的教訓(xùn)”(the bitter lesson)明確指出,隨計算資源擴(kuò)展的一方終將勝出。

然而,我們必須承認(rèn),當(dāng)今的深度學(xué)習(xí)方法在持續(xù)學(xué)習(xí)(continual learning)方面表現(xiàn)不佳,這是一個亟待解決的痛點(diǎn)。此外,運(yùn)行時學(xué)習(xí)還有一個關(guān)鍵優(yōu)勢:它使得元學(xué)習(xí)(meta-learning)成為可能。元學(xué)習(xí)的精髓在于“在學(xué)習(xí)中提升學(xué)習(xí)能力”——智能體可以嘗試不同的學(xué)習(xí)策略,評估其效果,并選擇更優(yōu)者用于未來的學(xué)習(xí)。這種自我改進(jìn)的過程,要求學(xué)習(xí)本身必須是一個持續(xù)的、在運(yùn)行時發(fā)生的過程。

問題設(shè)定:強(qiáng)化學(xué)習(xí)與獎勵假說

在探討解決方案之前,讓我們先明確問題的范疇。人工智能的根本問題,是設(shè)計一個能在世界中有效行動以達(dá)成目標(biāo)的智能體。經(jīng)典的強(qiáng)化學(xué)習(xí)問題與之本質(zhì)相同,只是更具體地指出:目標(biāo)由一個稱為“獎勵”(reward)的標(biāo)量信號來定義,且世界是通用的、不完全已知的。這個世界可以是任何形態(tài),從簡單的網(wǎng)格世界到復(fù)雜的人類社會,它可以是隨機(jī)的、非線性的、非馬爾可夫的。在“大世界”中,狀態(tài)空間實(shí)際上是無限的,其動態(tài)變化也呈現(xiàn)非平穩(wěn)性。

在此,我想重申“獎勵假說”(The Reward Hypothesis)的重要性。這個假說并非一個草率的選擇,而是經(jīng)過深思熟慮的理論基石。它主張:我們所說的一切“目標(biāo)”和“目的”,其含義都可以被嚴(yán)謹(jǐn)?shù)乩斫鉃閷σ粋€接收到的標(biāo)量信號(即“獎勵”)的累積和的期望值的最大化。

這個定義中的“期望值”、“累積和”等設(shè)定都經(jīng)過了仔細(xì)推敲?!皹?biāo)量獎勵”本身是一個偉大的思想,它以一種極為清晰的方式指定了目標(biāo),并已在人工智能、經(jīng)濟(jì)學(xué)、心理學(xué)、控制論等多個學(xué)科中得到廣泛應(yīng)用。長久以來,學(xué)術(shù)界不乏對其進(jìn)行修改的嘗試,例如引入約束、多目標(biāo)、風(fēng)險敏感性等概念。但我個人傾向于保持其簡潔性,因?yàn)槲易非蟮氖歉拍钌系那逦c簡約。

真正的問題是:我們是否需要這些額外的復(fù)雜性來獲得通用性?Michael Bowling 及其同事在一篇題為《為獎勵假說正名》的論文中給出了有力的論證。他們證明,增加多目標(biāo)、風(fēng)險敏感性或約束等機(jī)制,并不會增加通用性。這從側(cè)面驗(yàn)證了我們選擇的正確性。此外,在另一篇《獎勵即足夠》的論文中,我們進(jìn)一步論證了,在一個足夠復(fù)雜的世界里,即使是簡單的獎勵信號也足以引出智能的所有屬性。

OaK 架構(gòu)的解決方案

現(xiàn)在,讓我們轉(zhuǎn)向解決方案,即架構(gòu)本身。一個顯而易見的起點(diǎn)是無模型的強(qiáng)化學(xué)習(xí),智能體在運(yùn)行時構(gòu)建一個策略和一個價值函數(shù)。如果能從數(shù)據(jù)中構(gòu)建自己的狀態(tài)表示,就可以處理非馬爾可夫問題。然而,一個更優(yōu)的方案或許是建立一個世界模型,并利用該模型進(jìn)行規(guī)劃。

OaK 架構(gòu)正是在這條演進(jìn)路徑上的又一次飛躍。其核心特點(diǎn)在于引入了輔助問題(或稱子問題),并且每個子問題都擁有各自的價值函數(shù)和策略。此外,每一個子問題都將基于狀態(tài)特征表示的不同組成部分。我們可以將狀態(tài)想象成一個特征向量,而每個子問題都聚焦于該向量的不同維度。

該架構(gòu)的核心可概括為在運(yùn)行時并行完成的八個步驟。下文將對這些步驟逐一展開,并會反復(fù)審視這一整體框架。

  1. 學(xué)習(xí)主策略與價值函數(shù) :學(xué)習(xí)用于最大化主獎勵信號的策略和價值函數(shù)。這類似于標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)。這一項(xiàng)可標(biāo)記為“概念上已完成,但有待工程實(shí)現(xiàn)上的完善”,因?yàn)樗蕾囉谖覀兩形赐耆鉀Q的持續(xù)深度學(xué)習(xí)問題。

  2. 生成新狀態(tài)特征 :從現(xiàn)有特征中生成新的、可能更有用的狀態(tài)特征。這是一個核心挑戰(zhàn),我們稍后會詳細(xì)討論。

  3. 對特征進(jìn)行排序 :維護(hù)關(guān)于所有特征效用的元數(shù)據(jù),并根據(jù)其重要性進(jìn)行排序。

  4. 創(chuàng)建子問題 :為排名最高的特征創(chuàng)建子問題。例如,若“身處演講廳”被評估為一個重要特征,系統(tǒng)就會創(chuàng)建一個子問題,其目標(biāo)是“在不損失過多主獎勵的前提下,成功到達(dá)演講廳”。

  5. 學(xué)習(xí)選項(xiàng) :為每個子問題學(xué)習(xí)一個解決方案,這個解決方案就是一個“選項(xiàng)”(Option),即 OaK 中“O”的來源。

  6. 學(xué)習(xí)選項(xiàng)模型 :學(xué)習(xí)每個選項(xiàng)的轉(zhuǎn)換模型,即預(yù)測執(zhí)行某個選項(xiàng)后世界會發(fā)生什么。這是 OaK 中“K”(Knowledge)的體現(xiàn),構(gòu)成了高層次的世界模型。

  7. 使用模型進(jìn)行規(guī)劃 :利用學(xué)習(xí)到的選項(xiàng)模型進(jìn)行規(guī)劃,以改進(jìn)主策略和價值函數(shù)。

  8. 管理與維護(hù) :持續(xù)管理所有組件,評估其效用,淘汰無用部分,并不斷生成新的組件。

子問題、玩耍與開放式抽象

在 OaK 架構(gòu)中,子問題的創(chuàng)建是一個核心環(huán)節(jié)。智能體必須能夠自己生成子問題,這一觀點(diǎn)回應(yīng)了關(guān)于好奇心、內(nèi)在動機(jī)和輔助任務(wù)研究中的一系列關(guān)鍵開放性問題:子問題應(yīng)該是什么?它們從何而來?智能體能否自己創(chuàng)造子問題?它們?nèi)绾螏椭鉀Q主問題?OaK 的貢獻(xiàn)在于,它對這些問題提出了一個統(tǒng)一的答案,并肯定了智能體自我創(chuàng)造子問題的能力,從而實(shí)現(xiàn)了開放式的抽象。

我們可以將其想象成一個“問題”與“解決方案”相互促進(jìn)的循環(huán):我們提出一個要解決的問題,然后去解決它;在解決問題的過程中,會創(chuàng)造出新的特征;這些新特征又成為新子問題的基礎(chǔ),而這些新子問題又必須被解決,從而催生更新的特征,如此循環(huán)往復(fù),永無止境。

自然界中的“玩耍”(play)行為能為我們提供生動的啟示。一只蕩秋千的年輕猩猩,并非為了覓食,而很可能是被搖蕩時的感覺所吸引,并試圖復(fù)現(xiàn)和控制這種體驗(yàn)。一只虎鯨反復(fù)將浮標(biāo)頂?shù)奖成?,也顯然是在探索和完善一個自創(chuàng)的目標(biāo)。人類嬰兒的玩耍更是如此,他們從一個物體轉(zhuǎn)向另一個,了解其特性,感到厭煩,再轉(zhuǎn)向下一個,逐步建立起對世界越來越豐富的理解。

這些行為的本質(zhì),可以被看作是智能體在為自己提出子問題——一些需要去了解、理解、預(yù)測和控制的事物。因此,子問題不能由設(shè)計者預(yù)先給定,它們必須由智能體在與世界的互動中自主創(chuàng)造,因?yàn)樗鼈償?shù)量繁多且與具體環(huán)境高度相關(guān)。

那么,如何以一種領(lǐng)域無關(guān)的方式創(chuàng)造子問題呢?OaK 提出了一種具體機(jī)制,稱為“尊重獎勵的特征達(dá)成子問題”(Reward-Respecting, Feature-Achieving Subproblem)。當(dāng)智能體遇到或創(chuàng)造一個新特征時(例如,聽到搖鈴的聲音),它可以將其作為子問題的基礎(chǔ)。這個子問題的目標(biāo)是: 在不損失過多主獎勵的前提下,將世界驅(qū)動到一個該特征值很高的狀態(tài)。

該目標(biāo)的數(shù)學(xué)表達(dá)如下:

在這個方程中,智能體試圖找到一個選項(xiàng)(策略 π 和終止函數(shù) γ),以最大化一個期望值。該期望值包含三部分:1)執(zhí)行選項(xiàng)期間獲得的累積獎勵 ∑R ;2)終止時達(dá)成特征 i 所獲得的額外獎勵 κ·φ?(S_T) ,其中 κ 代表對該特征的渴望程度;3)終止時所處狀態(tài)的價值 V(S_T) ,這確保了智能體不會為了達(dá)成子目標(biāo)而陷入一個長期來看很糟糕的狀態(tài)(例如,為了喝到咖啡而摔斷腿)。

FC-STOMP:從特征到規(guī)劃的演進(jìn)路徑

這個子問題創(chuàng)造機(jī)制,是 OaK 架構(gòu)中一個更宏大流程的核心。我們可以將這個流程總結(jié)為一條五步走的演進(jìn)路徑,我們稱之為 FC-STOMP

  1. 特征構(gòu)建 (Feature Construction) :感知過程負(fù)責(zé)構(gòu)建有趣的狀態(tài)特征。

  2. 提出子任務(wù) (posing a SubTask) :基于高排名的特征,構(gòu)建“尊重獎勵的特征達(dá)成子問題”。

  3. 學(xué)習(xí)選項(xiàng) (learning an Option) :通過強(qiáng)化學(xué)習(xí)求解子問題,得到一個選項(xiàng)作為其解決方案。

  4. 學(xué)習(xí)模型 (learning a Model) :學(xué)習(xí)這個新選項(xiàng)的轉(zhuǎn)換模型,即預(yù)測其后果。

  5. 規(guī)劃 (Planning) :將新選項(xiàng)及其模型整合到已有的世界模型中,用于規(guī)劃,從而改進(jìn)整體策略和價值函數(shù)。

這五個步驟構(gòu)成了一個發(fā)現(xiàn)與改進(jìn)的閉環(huán)。所有依賴特征的步驟(如學(xué)習(xí)選項(xiàng)、學(xué)習(xí)模型、規(guī)劃)都會向特征構(gòu)建過程提供反饋,告知哪些特征被證明是有用的,從而引導(dǎo)新特征的生成。

在算法層面,學(xué)習(xí)選項(xiàng)的價值函數(shù)、學(xué)習(xí)選項(xiàng)模型等任務(wù),都可以利用現(xiàn)有的、成熟的離策略(off-policy)通用價值函數(shù)(GVF)學(xué)習(xí)算法,如 GTD、Emphatic TD、Retrace、ABQ 等。規(guī)劃過程則可以被視為價值迭代(value iteration)的近似。有趣的是,使用選項(xiàng)模型進(jìn)行規(guī)劃,其數(shù)學(xué)形式與傳統(tǒng)的基于單步動作的價值迭代驚人地相似,只是將“動作”替換為了“選項(xiàng)”,將“單步獎勵”替換為了“選項(xiàng)執(zhí)行期間的累積獎勵”。這使得“任何可以被學(xué)習(xí)的東西,也同樣可以被規(guī)劃”這一原則得以實(shí)現(xiàn)。

面臨的挑戰(zhàn):持續(xù)學(xué)習(xí)與特征生成

盡管 OaK 架構(gòu)為我們描繪了一幅清晰的藍(lán)圖,但仍有兩個關(guān)鍵的技術(shù)挑戰(zhàn)有待攻克。

1. 可靠的持續(xù)深度學(xué)習(xí) :OaK 的所有組件都要求能夠持續(xù)學(xué)習(xí)。在線性和表格情況下,我們已有可靠的方法。但在非線性的深度學(xué)習(xí)場景中,災(zāi)難性遺忘(catastrophic forgetting)和災(zāi)難性可塑性喪失(catastrophic loss of plasticity)等問題依然存在。盡管目前有持續(xù)反向傳播(continual backpropagation)等一系列解決方案正在涌現(xiàn),但這仍是一個活躍且尚未完全解決的研究領(lǐng)域。

2. 新狀態(tài)特征的生成 :這個問題,也被稱為“表示學(xué)習(xí)”或“新術(shù)語問題”,歷史悠久,可追溯至上世紀(jì) 60 年代。盡管反向傳播被認(rèn)為部分解決了這個問題,但它并非萬能。除梯度下降外,大多數(shù)方法都遵循“生成與測試”的范式:生成大量候選特征,然后通過評估其在解決問題中的效用來進(jìn)行篩選。我認(rèn)為,諸如 IDBD 這類根據(jù)每個特征的個體學(xué)習(xí)情況來調(diào)整其學(xué)習(xí)率的元學(xué)習(xí)算法,將是解決這一問題的關(guān)鍵部分。我相信,這個問題有望在未來幾年內(nèi)取得突破,屆時將徹底改變我們使用深度學(xué)習(xí)的方式。

結(jié)論與展望

OaK 架構(gòu)的構(gòu)想,是否成功回應(yīng)了我們最初設(shè)定的遠(yuǎn)征目標(biāo)?它在設(shè)計上是完全領(lǐng)域通用的,不包含任何針對特定世界的內(nèi)容;它完全是經(jīng)驗(yàn)性的,所有知識和能力都從運(yùn)行時經(jīng)驗(yàn)中成長;并且,它致力于實(shí)現(xiàn)無限的、開放式的抽象發(fā)現(xiàn),其唯一的限制是計算資源。

我認(rèn)為,強(qiáng)化學(xué)習(xí)與 OaK 架構(gòu)為人工智能領(lǐng)域的幾個根本性問題,提供了第一個合理的、機(jī)制性的答案:

  • 知識的起源 :高層次的知識如何從低層次的經(jīng)驗(yàn)中學(xué)習(xí)而來?

  • 概念的形成 :概念從何而來?它們可以被視為為了解決自創(chuàng)子問題而形成的內(nèi)部表示。

  • 推理的本質(zhì) :什么是推理?或許它就是基于學(xué)習(xí)到的高層次世界模型進(jìn)行的規(guī)劃。

  • 玩耍的目的 :玩耍的目的是什么?是為了發(fā)現(xiàn)和構(gòu)建認(rèn)知基石的子問題。

  • 感知的意義 :在沒有人類標(biāo)簽的情況下,感知如何運(yùn)作?感知可以是為了解決子問題而形成的概念化過程。

對于從事強(qiáng)化學(xué)習(xí)研究的 AI 科學(xué)家而言,OaK 提供了一個思考人工智能各個部分如何協(xié)同工作的框架,能夠指導(dǎo)未來的研究方向。它提出了一個關(guān)于如何用學(xué)習(xí)到的模型進(jìn)行規(guī)劃的構(gòu)想,這正是當(dāng)今 AI 所缺失的關(guān)鍵能力。它提供了一種植根于經(jīng)驗(yàn)和認(rèn)知,而非匹配人類標(biāo)簽的感知觀。最重要的是,它為強(qiáng)化學(xué)習(xí)中的“發(fā)現(xiàn)”問題——即子問題、選項(xiàng)和特征從何而來——提供了綱領(lǐng)性的答案。

綜上所述,OaK 是一個關(guān)于如何獲得一個完全從經(jīng)驗(yàn)中成長起來的、開放式的超級智能的構(gòu)想。它描繪了一個在運(yùn)行時從經(jīng)驗(yàn)中培育超級智能的藍(lán)圖,整合了行動、學(xué)習(xí)、規(guī)劃、模型學(xué)習(xí)、子問題和選項(xiàng)等核心能力,并結(jié)合了函數(shù)逼近、部分可觀測性、非平穩(wěn)性等現(xiàn)實(shí)挑戰(zhàn)。所有這一切,都在一個良性的、開放式的發(fā)現(xiàn)循環(huán)中協(xié)同工作:狀態(tài)特征的發(fā)現(xiàn),激發(fā)了問題、選項(xiàng)和模型的發(fā)現(xiàn),而這些新產(chǎn)生的組件又反過來促進(jìn)了新的、更抽象特征的形成。作為一個完全通用、不含任何領(lǐng)域特定組件的架構(gòu),OaK 具有強(qiáng)大的可擴(kuò)展性,并有望對人工智能的未來產(chǎn)生深遠(yuǎn)而 持久的影響。

【活動分享】2025 全球機(jī)器學(xué)習(xí)技術(shù)大會(ML-Summit)北京站將于 2025 年 10 月 16-17 日在北京威斯汀酒店舉辦。大會共 12 大主題、50+ 海內(nèi)外專家,聚焦大模型技術(shù)和應(yīng)用變革。詳情參考官網(wǎng): https://ml-summit.org (或點(diǎn)擊原文鏈接)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
穿“鳥”的人少了,穿“山”的人多了?商場這一幕,太真實(shí)了

穿“鳥”的人少了,穿“山”的人多了?商場這一幕,太真實(shí)了

白色得季節(jié)
2026-03-06 10:44:56
王健林預(yù)言又準(zhǔn)了!2026年,房價要上漲!

王健林預(yù)言又準(zhǔn)了!2026年,房價要上漲!

貓叔東山再起
2026-03-08 09:15:03
婆婆把我備的年貨全搬去小叔子家,我過年啥也不買飯桌上她一開口

婆婆把我備的年貨全搬去小叔子家,我過年啥也不買飯桌上她一開口

阿凱銷售場
2026-03-08 09:02:29
黃有龍做夢也沒想到,自己花重金培養(yǎng)大的女兒,竟給趙薇做了嫁衣

黃有龍做夢也沒想到,自己花重金培養(yǎng)大的女兒,竟給趙薇做了嫁衣

查爾菲的筆記
2025-12-16 15:14:06
美伊開戰(zhàn),越南和菲律賓被打醒!特朗普沒想到:亞太盟友變天了

美伊開戰(zhàn),越南和菲律賓被打醒!特朗普沒想到:亞太盟友變天了

阿芒娛樂說
2026-03-08 04:32:59
簡直離譜,蘋果新款 MacBook 不再附送充電器了!

簡直離譜,蘋果新款 MacBook 不再附送充電器了!

XCiOS俱樂部
2026-03-08 10:31:19
郝龍斌要求大陸承諾:只要臺灣不“獨(dú)立”,大陸就不會對臺動武

郝龍斌要求大陸承諾:只要臺灣不“獨(dú)立”,大陸就不會對臺動武

琴音繚繞回
2026-03-07 17:17:22
在中國一顆也賣不出去!NVIDIA無奈停產(chǎn)H200芯片:加速Vera Rubin量產(chǎn)

在中國一顆也賣不出去!NVIDIA無奈停產(chǎn)H200芯片:加速Vera Rubin量產(chǎn)

快科技
2026-03-06 12:05:08
汪小菲曝親媽私生活猛料,張?zhí)m公開財產(chǎn)分配,馬筱梅的態(tài)度被罵慘

汪小菲曝親媽私生活猛料,張?zhí)m公開財產(chǎn)分配,馬筱梅的態(tài)度被罵慘

秋姐居
2026-03-07 19:18:45
蘋果頂級服務(wù)拒絕清庫存!主動取消M4 MacBook訂單:換成最新M5

蘋果頂級服務(wù)拒絕清庫存!主動取消M4 MacBook訂單:換成最新M5

快科技
2026-03-06 17:42:15
美國人終于發(fā)現(xiàn)了:中國的東風(fēng)導(dǎo)彈,不用擊沉我們航母,擦著即傷

美國人終于發(fā)現(xiàn)了:中國的東風(fēng)導(dǎo)彈,不用擊沉我們航母,擦著即傷

紀(jì)中百大事
2026-03-06 10:02:29
這8種房子千萬不能買,住也不能住,賣也不能賣,心累!

這8種房子千萬不能買,住也不能住,賣也不能賣,心累!

一枚大裝家
2026-03-07 22:25:03
伊朗最高領(lǐng)袖選舉會議將在24小時內(nèi)舉行 多架美軍轟炸機(jī)飛抵英軍基地 特朗普稱無計劃部署地面部隊(duì) 沖突第一周伊朗共打擊超200處美以目標(biāo)

伊朗最高領(lǐng)袖選舉會議將在24小時內(nèi)舉行 多架美軍轟炸機(jī)飛抵英軍基地 特朗普稱無計劃部署地面部隊(duì) 沖突第一周伊朗共打擊超200處美以目標(biāo)

每日經(jīng)濟(jì)新聞
2026-03-08 12:02:43
平頂山舅舅舅媽吃絕戶,亡母被再婚嫁給親弟弟:更多關(guān)鍵環(huán)節(jié)曝光

平頂山舅舅舅媽吃絕戶,亡母被再婚嫁給親弟弟:更多關(guān)鍵環(huán)節(jié)曝光

壹月情感
2026-03-05 16:00:17
有房子的恭喜了!代表提出“取消公攤面積”,已購房人有補(bǔ)償嗎?

有房子的恭喜了!代表提出“取消公攤面積”,已購房人有補(bǔ)償嗎?

專業(yè)聊房君
2026-03-07 16:59:21
這三個國家原本屬于中國,獨(dú)立后現(xiàn)狀凄慘,如今他們后悔了嗎?

這三個國家原本屬于中國,獨(dú)立后現(xiàn)狀凄慘,如今他們后悔了嗎?

人間無味啊
2026-02-06 06:13:50
OpenClaw養(yǎng)蝦很火,但我勸普通人先別折騰

OpenClaw養(yǎng)蝦很火,但我勸普通人先別折騰

董指導(dǎo)聊科技
2026-03-07 19:48:43
我敢保證:十年后北京朝陽這 3 個地方,你高攀不起

我敢保證:十年后北京朝陽這 3 個地方,你高攀不起

音樂時光的娛樂
2026-03-07 15:09:11
請收藏!WTT重慶冠軍賽賽程出爐,看點(diǎn)全梳理不錯過每個精彩瞬間

請收藏!WTT重慶冠軍賽賽程出爐,看點(diǎn)全梳理不錯過每個精彩瞬間

乒談
2026-03-08 00:10:21
嬪妃侍寢有兩條鐵律:除了不能出聲,還有一條則難以啟齒

嬪妃侍寢有兩條鐵律:除了不能出聲,還有一條則難以啟齒

長風(fēng)文史
2026-02-01 18:54:57
2026-03-08 15:04:49
AI科技大本營 incentive-icons
AI科技大本營
連接AI技術(shù)的創(chuàng)造者和使用者
2639文章數(shù) 7660關(guān)注度
往期回顧 全部

科技要聞

OpenClaw最大的推手是閑魚和小紅書

頭條要聞

伊朗小學(xué)遭襲致超165人遇難 特朗普:是伊朗干的

頭條要聞

伊朗小學(xué)遭襲致超165人遇難 特朗普:是伊朗干的

體育要聞

大傷后被交易,他說:22歲的我已經(jīng)死了

娛樂要聞

周迅新戀情曝光,李亞鵬等人已成過去

財經(jīng)要聞

油價要失控?

汽車要聞

9分鐘充飽 全新騰勢Z9GT首搭閃充技術(shù)26.98萬起

態(tài)度原創(chuàng)

數(shù)碼
游戲
藝術(shù)
時尚
軍事航空

數(shù)碼要聞

技嘉發(fā)布Z890 Plus主板,為英特爾Arrow Lake Refresh處理器鋪路

《極限競速:地平線6》將不再搭載社交俱樂部功能

藝術(shù)要聞

“北京意象·活力通州”繪畫作品展 | 油畫作品選

2026春夏一定要擁有的6只包,好看又百搭

軍事要聞

王毅:解決臺灣問題 實(shí)現(xiàn)祖國完全統(tǒng)一不可阻擋

無障礙瀏覽 進(jìn)入關(guān)懷版