国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

算力救不了AI智商?谷歌新大招終結「隨機鸚鵡」爭論!

0
分享至


新智元報道

編輯:peter東

【新智元導讀】傳統(tǒng)AI模型在稀疏獎勵環(huán)境中,往往會找不到激勵難以學會層次化思考。如今,谷歌團隊通過引入元控制器操控模型內部殘差流,讓智能體學會了「跳躍式思考」。該研究揭示了大模型內部可自發(fā)形成了類似人腦的層次化決策機制,為AI在需要多步的復雜任務提供了全新的訓練范式。

AI智能體最大的「硬傷」,是算力不夠?

并不是,獎勵太少、路太長才是。

在稀疏獎勵的長序列任務里,傳統(tǒng)token-by-token探索像蒙眼走迷宮:沒有路標、沒有提示,只有走到終點才知道對不對。

結果就是一個尷尬現(xiàn)實:想讓智能體做點復雜事,往往必須外掛規(guī)劃器「扶著走」。

而谷歌這項研究直接換打法:在迷宮里要求智能體按順序踏過一串彩色子目標,且只有全程無誤才給獎勵——用最殘酷的稀疏獎勵,逼出真正的層次化決策能力。

真正的突破在于:他們不再只優(yōu)化輸出,而是開始操控模型內部的「認知過程」。

在稀疏獎勵下,

智能體如何高效探索

傳統(tǒng)的大模型,依賴逐詞生成(token-by-token)的探索方式,而這對于需要多個正確步驟才能獲得獎勵的復雜任務,由于獎勵稀疏,導致智能體難以完成需要層次化決策的長序列任務。

這好比讓一個人蒙著眼睛走迷宮,只有到達終點才能獲得反饋,期間沒有任何指引,不論這個人嘗試多少次也找不到出口。

這導致當下的大模型智能體需要外帶一個規(guī)劃器,才能完成復雜的,需要多步才能完成的任務。而谷歌這項研究做的,就是讓智能體在迷宮中,按特定順序訪問一系列彩色位置(子目標),且只有在完全正確的序列完成后才能獲得獎勵。


圖1:智能體需要在迷宮中按順序走過不同顏色的方塊

這種「組合式任務」要求智能體必須掌握層次化解決問題的能力,不止需要低級的運動控制技能,又需要高級的時序規(guī)劃能力。

這就如同人類搬運水杯的任務,相當于執(zhí)行「拿起水杯→走到桌前→放下水杯」這樣的連貫動作。

「大腦中的大腦」

AI自我發(fā)現(xiàn)抽象動作

那谷歌團隊是如何解決稀疏獎勵帶來的問題的?

答案是元控制器(Metacontroller)。

元控制器通過接收基模型的殘差流,能夠生成一系列簡單的內部控制器。

每個控制器對應一個時序抽象動作,每個時序抽象動作對應一個時間軸,并附帶終止條件。通過按時間組合多個控制器,智能體能夠在新任務上實現(xiàn)高效探索。


圖2:元控制器引導預訓練自回歸模型的殘差流激活。

通過自監(jiān)督的下一步動作預測,元控制器發(fā)現(xiàn)如何生成時間上稀疏變化的簡單內部控制器序列 。

在分層結構任務中,每個內部控制器對應一個時序抽象動作,引導基礎自回歸模型實現(xiàn)一個有意義的初級目標。


圖3:元控制器的架構

經(jīng)由強化學習,研究者發(fā)現(xiàn)元控制器能夠通過變分推理自動識別有意義的行為模塊,這相當于無監(jiān)督發(fā)現(xiàn)抽象動作該怎么完成。

用上元控制器,訓練機器人給人泡茶,就不必由手工編碼將任務拆解成多步了。

此外,元控制器還能動態(tài)時間整合,它能通過開關單元控制抽象每一步動作的持續(xù)時間。并且能組合泛化,將學到的抽象動作重新組合解決新任務。


圖4:自監(jiān)督元控制器在預訓練的自回歸模型中發(fā)現(xiàn)時序抽象動作。

元控制器學習到的開關模式還能與真實子目標切換完美對齊,盡管模型從未接收過子目標標簽。這種根據(jù)環(huán)境,切換使用那個子目標的方式是涌現(xiàn)產生的,表明模型內部形成了類似「選項」的分層結構。

內部強化學習

提效數(shù)個量級的新訓練范式

該研究最令人驚訝的,是使用元控制器后的內部強化學習,與傳統(tǒng)強化學習在原始動作空間進行微調不同,內部強化學習在發(fā)現(xiàn)的抽象動作空間中進行學習,搜索空間大幅減小。在需要組合泛化的任務中,內部強化學習的成功率顯著高于所有基線方法,包括先前最先進的分層強化學習方法CompILE。


圖5:不同強化學習方式的成功率

之所以智能體能夠以更大的可能性,學會某一個需要多步驟才能完成的任務,是因為有了元控制器,模型隱含地學會了將長序列任務分解為可重用的子程序(如「移動到某色塊」),這就讓搜索空間變小,獎勵也不再稀疏。

相當于通過對動作空間降維,將高維殘差流空間壓縮到低維抽象空間。再加上在抽象時間尺度上操作,縮短有效時間跨度。使得在抽象層面進行獎勵分配更加高效。

「覺醒-睡眠」訓練循環(huán)的具體實現(xiàn)

在2015年的論文[2]中,Jürgen Schmidhuber提出了「覺醒-睡眠」訓練循環(huán)的理論框架。

其核心思想是構建一個迭代的、自我改進的循環(huán),兩個階段交替執(zhí)行,旨在構建能夠形成并利用時間抽象和計劃能力的自主智能系統(tǒng)。

睡眠階段智能體回顧其過往的經(jīng)歷(觀察和行動序列),通過自監(jiān)督學習訓練一個內部世界模型。

「覺醒」階段智能體利用在「睡眠」階段學到的世界模型內部表征,進行強化學習和規(guī)劃,以發(fā)現(xiàn)新的、有價值的行為。在「覺醒」階段獲得的新經(jīng)驗數(shù)據(jù),又會被加入到經(jīng)驗庫中,用于下一輪的「睡眠」階段,以改進世界模型。

而谷歌的這項研究,可看成是「覺醒-睡眠」訓練循環(huán)的具體實現(xiàn),自回歸基礎模型預訓練對應睡眠階段。模型通過下一個token(此處是下一動作或觀察)預測的目標,在大量未標注的行為數(shù)據(jù)上進行訓練。

這個過程正是自監(jiān)督學習,模型學會了推斷智能體的潛在目標(如子目標),并在其殘差流激活中形成了時間抽象的表征。

覺醒階段則是元控制器及其驅動的內部強化學習。它學習如何操控基礎模型(世界模型)的內部殘差流激活,從而生成有意義的、持續(xù)多個時間步的抽象動作(如「前往藍色位置」)。

這相當于在世界模型的內部狀態(tài)空間中進行規(guī)劃和控制。


圖6:在發(fā)現(xiàn)時序抽象動作時,預訓練的自回歸模型被凍結的重要性。

而只有如圖6所示,當基礎自回歸模型在元控制器訓練期間被凍結時,才會涌現(xiàn)出與子目標對齊的正確切換表征。

這一發(fā)現(xiàn)強烈支持了「覺醒-睡眠」循環(huán)的分階段迭代思想:首先通過預訓練建立一個高質量、穩(wěn)定的世界模型(基礎模型)。

然后,在此基礎上,再通過元控制器學習驅動內部強化學習,從而學到控制策略。

如果兩者同時訓練(共訓練),模型會收斂到一個退化的解決方案,無法發(fā)現(xiàn)有意義的時間抽象。

這印證了分階段、迭代式訓練的理論優(yōu)越性。而這符合Jürgen Schmidhuber提出的「先睡眠(構建模型)、后覺醒(學習控制)」的循環(huán)訓練方案。

終結隨機鸚鵡爭論

在大模型研究中,一直有批評人士認為自回歸模型無論參數(shù)量多大,都不過是「隨機鸚鵡」,難以形成一致的時間抽象和規(guī)劃。

而該研究表明,預測下一個詞的訓練方式,只要結合元控制器,就能夠誘導出層次化的時間抽象,這與人類的問題解決方式高度相似。

在不依賴手動獎勵塑形的情況下解決需要多步才能完成的任務,是邁向能夠導航復雜、開放式搜索空間的自主智能體的關鍵一步,在這些空間中,中間進度的定義往往未知。

谷歌團隊的這項研究標志著AI研究從單純優(yōu)化模型輸出,轉向理解和操控模型內部認知過程,為開發(fā)具有真正層次化推理能力的通用AI系統(tǒng)提供了堅實的實踐基礎,說明了模仿人類睡眠,才能夠實現(xiàn)復雜時間序列任務的高效學習。

與稀疏自編碼器(SAEs)等解釋性方法相比,元控制器具有顯著優(yōu)勢。它直接通過殘差流干預降低預測誤差,具有內部記憶,支持長時間跨度的干預,且能夠發(fā)現(xiàn)可解釋的、長時間持續(xù)的干預策略。

這項技術的潛在應用極其廣泛。

在機器人控制中,可讓機器人執(zhí)行需要多步協(xié)調的復雜任務;對于數(shù)學推理,能自主將復雜問題分解為可管理的推理步驟;對于科學發(fā)現(xiàn),也可讓智能體在稀疏獎勵環(huán)境中進行高效探索和假設檢驗。

谷歌提出的內部強化學習范式,尤其適合需要長期規(guī)劃和組合推理的場景,為實現(xiàn)真正通用的智能系統(tǒng)提供了新路徑。

參考資料:

https://arxiv.org/abs/2512.20605

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“除夕離婚”與“賣房斷親”火在這個春節(jié)檔|一周漫劇觀察

“除夕離婚”與“賣房斷親”火在這個春節(jié)檔|一周漫劇觀察

娛樂資本論
2026-02-28 23:03:40
永遠不要向任何人,包括你的親戚和好友,透露你真實的財務狀況

永遠不要向任何人,包括你的親戚和好友,透露你真實的財務狀況

流蘇晚晴
2026-02-27 18:09:29
伊朗“真實承諾4”全面反擊,物理殺傷有限,重在“精神震懾”

伊朗“真實承諾4”全面反擊,物理殺傷有限,重在“精神震懾”

裝甲鏟史官
2026-02-28 22:45:09
炸鍋!伊朗前總統(tǒng)內賈德遇襲身亡,現(xiàn)場慘烈,伊朗強硬派全軍覆沒

炸鍋!伊朗前總統(tǒng)內賈德遇襲身亡,現(xiàn)場慘烈,伊朗強硬派全軍覆沒

軍武咖
2026-03-01 22:58:41
中國男籃險勝中國臺北!郭士強抱住陳盈駿與王晗,全員吶喊慶祝!

中國男籃險勝中國臺北!郭士強抱住陳盈駿與王晗,全員吶喊慶祝!

籃球資訊達人
2026-03-01 18:12:11
網(wǎng)友們發(fā)現(xiàn)了關于信托的歷史真相

網(wǎng)友們發(fā)現(xiàn)了關于信托的歷史真相

清暉有墨
2025-11-23 12:06:31
男單頒獎!開心接獎杯,與莎莎合影現(xiàn)場爆棚,主導男女單冠軍自拍

男單頒獎!開心接獎杯,與莎莎合影現(xiàn)場爆棚,主導男女單冠軍自拍

籃球資訊達人
2026-03-01 21:58:15
韓寒和郭敬明:20年了,終于一個天上,一個地下

韓寒和郭敬明:20年了,終于一個天上,一個地下

陳意小可愛
2026-03-01 13:23:13
0-1到2-1!曼聯(lián)踢瘋了,升至英超第三!卡圣,上任7戰(zhàn)6勝1平不敗

0-1到2-1!曼聯(lián)踢瘋了,升至英超第三!卡圣,上任7戰(zhàn)6勝1平不敗

體育世界
2026-03-01 23:59:06
攜程回應大馬士革到上海機票550萬元:將對所有航線進行價格審核,避免出現(xiàn)天價機票

攜程回應大馬士革到上海機票550萬元:將對所有航線進行價格審核,避免出現(xiàn)天價機票

南國今報
2026-03-01 15:51:06
伊朗最高國家安全委員會發(fā)布第1號公告

伊朗最高國家安全委員會發(fā)布第1號公告

界面新聞
2026-02-28 18:24:27
蘋果即將全面開放 NFC 功能!實在是等太久了

蘋果即將全面開放 NFC 功能!實在是等太久了

XCiOS俱樂部
2026-02-28 22:27:50
俄媒突發(fā)警告:美國打伊朗只是幌子,目的是逼解放軍到太平洋決戰(zhàn)

俄媒突發(fā)警告:美國打伊朗只是幌子,目的是逼解放軍到太平洋決戰(zhàn)

剛哥說法365
2026-02-28 21:07:26
汪小菲首次回應包機事件,談到S家直呼無語,對黑粉毫不客氣

汪小菲首次回應包機事件,談到S家直呼無語,對黑粉毫不客氣

小徐講八卦
2026-03-01 06:14:05
超級世界波!國安賽季首球,達萬遠射破門,22年首人,顏駿凌搖頭

超級世界波!國安賽季首球,達萬遠射破門,22年首人,顏駿凌搖頭

奧拜爾
2026-03-01 16:08:16
劉強東砸50億,在廣東造游艇!這門新生意,還沒開張就先賺了3億

劉強東砸50億,在廣東造游艇!這門新生意,還沒開張就先賺了3億

財經(jīng)保探長
2026-03-01 18:12:05
2-1!B費傳射救主,謝什科一擊制勝,卡神7輪19分,曼聯(lián)挺進前三

2-1!B費傳射救主,謝什科一擊制勝,卡神7輪19分,曼聯(lián)挺進前三

我的護球最獨特
2026-03-02 00:00:09
娛樂圈的對賭協(xié)議有多恐怖?贏的人就是楊冪,輸者直接變成張國立

娛樂圈的對賭協(xié)議有多恐怖?贏的人就是楊冪,輸者直接變成張國立

林輕吟
2026-03-01 19:35:00
18名中國公民自伊朗撤離至阿塞拜疆

18名中國公民自伊朗撤離至阿塞拜疆

新華社
2026-03-01 23:40:04
TVB《尋秦記》跑龍?zhí)资勘鼪r曝光!撞臉陳偉霆惹熱議,被古天樂一眼認出

TVB《尋秦記》跑龍?zhí)资勘鼪r曝光!撞臉陳偉霆惹熱議,被古天樂一眼認出

你約電影
2026-03-01 20:34:56
2026-03-02 00:20:49
新智元 incentive-icons
新智元
AI產業(yè)主平臺領航智能+時代
14618文章數(shù) 66647關注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

媒體:美以能精準"斬首"背后 摩薩德的"手筆"令人咋舌

頭條要聞

媒體:美以能精準"斬首"背后 摩薩德的"手筆"令人咋舌

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

手機
本地
親子
公開課
軍事航空

手機要聞

小米11全系正式退役!安全更新停更,這些機型該換了

本地新聞

津南好·四時總相宜

親子要聞

保護孩子寶媽必學,什么是無記憶創(chuàng)傷?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗前總統(tǒng)內賈德遇襲身亡

無障礙瀏覽 進入關懷版