国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GAN之父Ian Goodfellow病后歸來,劍指高效世界模型

0
分享至

編輯|陳陳

沉寂許久的 Ian Goodfellow,終于再次現(xiàn)身。

這位提出 GAN(生成對抗網(wǎng)絡)、被稱為 GAN 之父的研究者,曾一手開啟 AI 生成技術的早期浪潮。但在最近幾年由大模型主導的新一輪生成式 AI 競賽中,Goodfellow 的公開聲音卻并不頻繁。

直到最近,終于有了他的消息。



文章作者共三位:

  • Ian Goodfellow 是生成模型時代的開創(chuàng)者,2014 年提出 GAN,開啟了 AI 圖像生成的第一波浪潮;
  • Chris Manning 則是 NLP 先驅、斯坦福教授,自然語言處理領域最具影響力的學者之一,長期推動大語言模型的發(fā)展;
  • Fan-Yun Sun 是 Moonlake AI 聯(lián)合創(chuàng)始人兼 CEO,研究方向集中在多模態(tài)世界模型。

文中提出利用符號化表示(symbolic representations)以及游戲虛擬世界的數(shù)據(jù),可能是構建具備動作條件(action-conditioned)的多模態(tài)世界模型的最佳路徑。這類模型能夠支持對長時序任務(long-horizon tasks)進行可靠的預測與規(guī)劃。



文章地址:https://x.com/moonlake/status/2029983120087470545

以下是文章內容:

當人類以及其他動物生活在世界中時,它們可以感知周圍正在發(fā)生的事情。但人類所做的遠不止觀察:人們還能預測環(huán)境中其他生物或物體接下來可能的行為,并據(jù)此規(guī)劃自己的行動以實現(xiàn)某個目標,無論是去獲取晚餐,還是說服別人和自己一起踏上一次冒險之旅。要成功完成這些復雜任務,就需要一個高效的世界模型

所謂世界模型,是指一種能夠表示環(huán)境運作方式的模型,包括環(huán)境的動態(tài)變化(dynamics)以及其中的因果結構(causal structure)。這一概念可以通過強化學習中的模型來形式化描述:在強化學習框架中,環(huán)境通常被建模為一個部分可觀測馬爾可夫決策過程(POMDP)。在這個框架下,世界模型用于近似環(huán)境的狀態(tài)轉移函數(shù) P (s′∣s,a),也就是在當前狀態(tài) s 下執(zhí)行動作 a 時,預測下一個世界狀態(tài) s 的概率。

借助世界模型,我們可以基于對世界行為的心理模型來進行預測、規(guī)劃、推理和行動,而無需每次都通過與真實世界直接交互來觀察行動的后果。

然而,在現(xiàn)實中,人類并不能直接獲得世界的真實狀態(tài) s。我們所能獲得的,只是對真實狀態(tài)的一部分觀測 o。換句話說,人類始終是在不完全信息的條件下理解和行動于這個世界之中。



人們在觀察或測量世界時采取了不同的方法,并利用不同的模態(tài)來構建世界模型。例如,一個像 ChatGPT 這樣的大語言模型,僅通過文本就能學習到某種形式的潛在世界模型:在其數(shù)十億參數(shù)之中,隱含著對物理世界和社會世界的某種表示,以及對因果關系的一定理解,使得模型能夠在 token 空間中通過輸入和輸出,模擬世界中的事件、行為體和環(huán)境。

然而,我們所生活的世界并不只是文本,它還包括視覺、聲音、觸覺等多種感知形式。因此,在這篇文章中,作者重點討論的是多模態(tài)世界模型(multimodal world models)。

在構建多模態(tài)世界模型時,我們需要先提出兩個關鍵問題:我們?yōu)槭裁匆獦嫿ㄟ@個世界模型?以及是否能夠獲得可規(guī)?;臄?shù)據(jù)來源來對其進行訓練?

我們?yōu)槭裁匆獦嫿ㄊ澜缒P停?/strong>

構建世界模型的目標,是為了實現(xiàn)能夠釋放巨大經(jīng)濟價值的 AI 能力,并幫助人們擺脫那些不受歡迎的工作。盡管當今的 AI 在某些復雜任務中已經(jīng)能夠自主運行,但現(xiàn)實世界中的任務往往要求理解行動在時間維度上如何產(chǎn)生后果,而不僅僅是識別觀察數(shù)據(jù)中的模式。關鍵不僅在于理解世界中各種對象或現(xiàn)象如何同時出現(xiàn),更在于理解它們之間的因果關系。例如,一個人在房間里對另一個人大喊,可能會讓對方感到不開心;但一個人感到不開心,并不會導致房間里另一個人開始大喊。作者認為,在多模態(tài)環(huán)境中進行因果推理的能力,是通向具身 AGI 最重要的核心能力之一。

當人們談到多模態(tài)世界模型時,很多人會首先想到生成式視頻模型(例如 Sora 或 Genie 3)。這些模型通常能夠生成視覺效果極為逼真、質量很高的場景,并在視頻制作等領域具有廣泛應用。但從本質上看,這類模型是在通過像素觀測來度量四維世界的變化,并嘗試建模連續(xù)視頻幀之間的關系。

如果只是想表達一輛賽車在急彎中高速轉彎、輪胎發(fā)出刺耳摩擦聲的畫面,那么基于像素的世界模型顯然比文本更直觀。然而,這種方式并不一定能夠真正捕捉世界的因果結構。例如:猛打方向盤會導致汽車急轉彎,而急轉彎又會導致輪胎摩擦發(fā)出尖叫聲。此外,由于缺乏抽象層和語義結構,純像素建模在速度和成本上往往效率較低。一些研究(例如《Are Video Generation Models World Simulators?》也指出,即使是當前最先進的模型,仍然會出現(xiàn)物理或空間理解上的問題,比如固體物體漂浮在空中,或兩個實體相互穿透等現(xiàn)象。

如果目標是為下一步行動進行規(guī)劃,那么問題就出現(xiàn)了:我們真的需要一個高分辨率的像素視圖來建模世界嗎?作者認為,在大量具有經(jīng)濟價值的任務中,其實并不需要如此細致的視覺信息。畢竟,人類即使在各種感官能力存在局限的情況下,也能完成幾乎所有現(xiàn)實任務。此外,在很多情況下,僅用幾句話描述一個場景(例如汽車急轉彎時輪胎發(fā)出刺耳摩擦聲)就足以支持理解與決策。相關實驗也表明,人類在處理視覺信息時往往并不是完整解析所有像素,而是以自上而下、任務驅動的方式進行處理,并依賴于對象層級的抽象表示。在絕大多數(shù)情境中,部分信息加上語義理解就已經(jīng)足夠。

因果關系本身可能非常復雜。那么,人類在理解世界方面到底有什么特殊之處,使我們能夠不斷深化對世界的認識?事實上,許多生物,即使是像烏鴉這樣相對簡單的動物也能夠通過觀察世界來形成某種內部世界模型,并據(jù)此制定計劃實現(xiàn)目標。人類之所以比其他生物擁有更強大的能力,關鍵在于我們發(fā)展出了認知工具(cognitive tools)。其中最重要的是自然語言,以及后來發(fā)展出的各種符號表示,例如數(shù)學和編程語言。

這些認知工具能夠幫助人類以更高效的方式對世界進行抽象,并準確表達因果關系和結果。它們不僅使人類能夠更高效地推理世界中真正重要的因素,還讓我們能夠通過語言溝通和協(xié)作,從而影響他人的行為。

更重要的是,工具和抽象可以讓模型把表示能力集中在那些真正影響決策的世界要素上,從而在數(shù)據(jù)和計算效率上都更具優(yōu)勢。與其試圖通過原始感官數(shù)據(jù)完整重建整個世界,不如利用語義層面的抽象來實現(xiàn)更強大、更高效的理解和操作。這一點與如今代碼生成模型處理編程語言的方式類似:通過符號系統(tǒng)進行操作,而不是直接處理底層機器狀態(tài)。

這種表示方式具有高度緊湊的特點,使得模型在面對長時間跨度任務或需要記住大量歷史事件的情境時,也能夠進行有效預測與推理。

我們可以從哪里獲得可擴展的數(shù)據(jù)來源來訓練因果世界模型?

文章指出,數(shù)據(jù)是構建有效模型中最關鍵的因素。目前,大多數(shù)最先進的視覺世界模型仍然是基于像素的世界模型,但這些模型通常并不具備動作條件(action-conditional)能力。雖然互聯(lián)網(wǎng)上存在海量視頻數(shù)據(jù)(例如來自 YouTube),但真正記錄行動本身及其結果的數(shù)據(jù)卻非常稀缺,而正是這些數(shù)據(jù)才能幫助模型理解行動會帶來什么后果。

目前也有一些研究路徑嘗試讓像素世界模型具備動作條件能力,但作者認為,更具數(shù)據(jù)效率和計算效率的一條道路,是利用軟件抽象來構建多樣化的合成世界(synthetic worlds)以增強模型訓練。這些合成環(huán)境同樣可以成為訓練動作條件像素世界模型的重要數(shù)據(jù)來源。

抽象機制可以讓模型在更少數(shù)據(jù)的情況下實現(xiàn)高性能。當下,這些抽象大多以符號表示(symbolic representations)的形式存在,例如代碼和自然語言。這些符號可以通過一種高度可擴展的數(shù)據(jù)采集接口獲得,即計算機及其輸入設備(例如鍵盤和鼠標)。此外,符號表示也更適合人類進行精細、有效的控制。由于它們正是人類表達意圖的接口,因此可以形成一個同時包含行動(actions)與觀測(observations)的數(shù)據(jù)飛輪。對于一個需要由人類操作的模擬環(huán)境而言,必須存在一個有效的交互接口,而這一接口往往最自然地通過人類語言和軟件代碼這樣的符號系統(tǒng)來實現(xiàn)。

最后,作者認為,要成功構建世界模型,一條能夠實現(xiàn)商業(yè)自我持續(xù)發(fā)展的路徑尤為關鍵。只有當商業(yè)化激勵持續(xù)推動數(shù)據(jù)產(chǎn)生和模型改進時,模型能力才能不斷提升。類似的模式已經(jīng)多次出現(xiàn),例如智能手機中的慣性測量單元(IMU)推動了相關技術發(fā)展,以及大語言模型在自然語言處理領域的快速進步。

因此,作者提出,應當從數(shù)字世界開始構建多模態(tài)世界模型。像游戲這樣的交互式媒體既能夠提供明確的參與激勵(例如娛樂),又具備可擴展的數(shù)據(jù)采集接口(鍵盤和鼠標),從而讓數(shù)據(jù)自然積累。這條路徑有望最終實現(xiàn)一種模型:在完全成熟的形態(tài)下,它不僅能夠生成環(huán)境,還能用于訓練和控制任何具身智能體,無論是在虛擬世界還是現(xiàn)實世界中。目前已經(jīng)出現(xiàn)了一些跡象,表明這種跨環(huán)境的泛化能力正在逐步顯現(xiàn)。

展望

文章指出,這并不是在否定像素作為世界表示方式的價值,也不是認為未來只會存在一種統(tǒng)一的世界表示形式。作者強調,更關鍵的是:世界模型的設計應當圍繞我們希望從中學習到的策略(policy)來展開。在此基礎上,需要借助合適的抽象方法和工具,使模型能夠聚焦于那些真正影響決策的環(huán)境因素,從而在數(shù)據(jù)效率和計算效率之間取得更優(yōu)平衡。

如果目標是在多模態(tài)環(huán)境中理解因果關系,那么無論世界模型是用于虛擬世界還是現(xiàn)實物理世界,它都需要優(yōu)先滿足一些關鍵屬性。例如:在長時間尺度上保持空間和物理狀態(tài)的一致性,并能夠推動世界狀態(tài)的演化,使其真實反映行動帶來的后果。

文章最后提到,這正是 Moonlake 當前正在探索和構建的方向。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
7500枚炸彈,以色列滅國大轟炸,油庫爆炸,9000萬伊朗人存亡時刻

7500枚炸彈,以色列滅國大轟炸,油庫爆炸,9000萬伊朗人存亡時刻

知法而形
2026-03-09 10:11:43
王菲春晚唱完沒回北京,直接去了劉嘉玲家;別人曬合照她素顏蹺腿

王菲春晚唱完沒回北京,直接去了劉嘉玲家;別人曬合照她素顏蹺腿

阿廢冷眼觀察所
2026-03-09 06:11:58
王健林沒想到,自己那花心的兒子王思聰,如今竟被一個女人拿捏死

王健林沒想到,自己那花心的兒子王思聰,如今竟被一個女人拿捏死

白面書誏
2026-03-09 18:26:52
A股:緊急提醒2.5億股民!從今天起,或許牛市歷史總是驚人的相似

A股:緊急提醒2.5億股民!從今天起,或許牛市歷史總是驚人的相似

另子維愛讀史
2026-03-09 19:23:59
白鹿亮相電視劇品質盛典紅毯,調侃自己“穿了條被子”

白鹿亮相電視劇品質盛典紅毯,調侃自己“穿了條被子”

調侃國際觀點
2026-03-09 21:27:55
湯鎮(zhèn)業(yè)現(xiàn)狀:住青島20年,直言比香港好太多,如今一家8口很幸福

湯鎮(zhèn)業(yè)現(xiàn)狀:住青島20年,直言比香港好太多,如今一家8口很幸福

卷史
2026-03-09 16:20:22
起底伊朗新領袖穆杰塔巴:一直身居幕后,為民兵組織“巴斯基”掌控者,與伊斯蘭革命衛(wèi)隊關系密切

起底伊朗新領袖穆杰塔巴:一直身居幕后,為民兵組織“巴斯基”掌控者,與伊斯蘭革命衛(wèi)隊關系密切

極目新聞
2026-03-09 07:36:13
伊拉克原油產(chǎn)量驟降近70%,伊拉克官員:伊拉克遭遇20多年最嚴重運營威脅

伊拉克原油產(chǎn)量驟降近70%,伊拉克官員:伊拉克遭遇20多年最嚴重運營威脅

界面新聞
2026-03-09 16:15:32
連續(xù)兩月暴跌,車圈恒大恐怕真要現(xiàn)形了,汽車行業(yè)容不得吹牛

連續(xù)兩月暴跌,車圈恒大恐怕真要現(xiàn)形了,汽車行業(yè)容不得吹牛

柏銘銳談
2026-03-08 23:49:55
美軍前高官發(fā)出警告:以色列可不是中美俄,打急眼了它真敢丟核彈

美軍前高官發(fā)出警告:以色列可不是中美俄,打急眼了它真敢丟核彈

Ck的蜜糖
2026-03-08 04:32:39
我在西藏旅游,一個喇嘛見我后突然跪下:活佛,我們等了您百年

我在西藏旅游,一個喇嘛見我后突然跪下:活佛,我們等了您百年

千秋文化
2026-01-29 21:35:02
德國人日常三餐曝光!6個習慣讓人不去醫(yī)院,國人看完沉默了?

德國人日常三餐曝光!6個習慣讓人不去醫(yī)院,國人看完沉默了?

路醫(yī)生健康科普
2026-03-04 12:30:03
總進球數(shù)占優(yōu),烏茲別克斯坦女足壓過菲律賓率先出線

總進球數(shù)占優(yōu),烏茲別克斯坦女足壓過菲律賓率先出線

懂球帝
2026-03-09 19:54:04
再恩愛也沒用!上海38歲陳成去世,煙酒不沾,死因曝光,妻兒悲痛

再恩愛也沒用!上海38歲陳成去世,煙酒不沾,死因曝光,妻兒悲痛

八斗小先生
2026-03-09 15:16:02
手機有沒有被監(jiān)聽?看一眼頂部狀態(tài)欄就清楚

手機有沒有被監(jiān)聽?看一眼頂部狀態(tài)欄就清楚

小柱解說游戲
2026-03-08 05:10:17
臺灣“八旗文化”總編輯李延賀煽動分裂國家破壞國家統(tǒng)一,被定罪判刑

臺灣“八旗文化”總編輯李延賀煽動分裂國家破壞國家統(tǒng)一,被定罪判刑

大風新聞
2026-03-09 16:45:03
亞足聯(lián)嚴懲!中國女足贏朝鮮后,2個重大誤判被曝光,足協(xié)應上訴

亞足聯(lián)嚴懲!中國女足贏朝鮮后,2個重大誤判被曝光,足協(xié)應上訴

侃球熊弟
2026-03-09 19:47:04
機票價格大跳水!多地跌至200元以內

機票價格大跳水!多地跌至200元以內

閃電新聞
2026-03-09 15:18:11
龍蝦下載量3周超越Linux 30年成就!黃仁勛:OpenClaw是這個時代最重要的軟件

龍蝦下載量3周超越Linux 30年成就!黃仁勛:OpenClaw是這個時代最重要的軟件

快科技
2026-03-09 12:39:13
“地球上最危險的工作”:伊朗彈道導彈發(fā)射機組人員的生活

“地球上最危險的工作”:伊朗彈道導彈發(fā)射機組人員的生活

鐵錘妹妹是只貓
2026-03-09 02:15:52
2026-03-09 23:24:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12451文章數(shù) 142579關注度
往期回顧 全部

科技要聞

OpenClaw更新,"養(yǎng)蝦"再也不會犯健忘癥了

頭條要聞

美以伊鏖戰(zhàn)之際 一些地區(qū)玩家難抑沖動進入"格斗"模式

頭條要聞

美以伊鏖戰(zhàn)之際 一些地區(qū)玩家難抑沖動進入"格斗"模式

體育要聞

36連勝終結!大魔王也是可以戰(zhàn)勝的

娛樂要聞

薛之謙老婆懷二胎,現(xiàn)身產(chǎn)檢心情愉快

財經(jīng)要聞

油價破100美元年內漲80% 全球市場劇震

汽車要聞

對標奔馳小號G級 路虎小型衛(wèi)士最新消息曝光

態(tài)度原創(chuàng)

教育
健康
旅游
時尚
軍事航空

教育要聞

昆一中附小丨家校協(xié)同助力 讓學生身心平穩(wěn)回歸校園

轉頭就暈的耳石癥,能開車上班嗎?

旅游要聞

忻州一景區(qū),開放!

真正的獨立女性,從不在深夜委屈自己

軍事要聞

伊媒發(fā)布小學被炸瞬間 戰(zhàn)斧導彈從天而降

無障礙瀏覽 進入關懷版