国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

萬(wàn)字長(zhǎng)文實(shí)錄:RL 界與 CV 界的“世界模型”有什么不同?丨GAIR Live

0
分享至



無(wú)論是自動(dòng)駕駛還是具身智能,都在走向大規(guī)模基于世界模型的訓(xùn)練之路。

作者丨劉欣

編輯丨馬曉寧、陳彩嫻

世界模型在人工智能領(lǐng)域中扮演著重要角色,能夠有效為智能體提供對(duì)復(fù)雜現(xiàn)實(shí)世界的內(nèi)在表征,使其像人類一樣理解世界運(yùn)行的邏輯與因果關(guān)系,對(duì)自動(dòng)駕駛、具身智能的突破性發(fā)展至關(guān)重要,它已成為學(xué)術(shù)界和工業(yè)界的研究熱點(diǎn)。

2015年8月5日,雷峰網(wǎng)、AI 科技評(píng)論 GAIR Live 品牌舉辦了一場(chǎng)主題為“世界模型——通向通用智能的關(guān)鍵拼圖”的線上圓桌沙龍。

圓桌主持人為清華大學(xué)智能產(chǎn)業(yè)研究院( AIR )助理教授、智源學(xué)者趙昊,并邀請(qǐng)了寧波東方理工大學(xué)助理教授金鑫、浙江大學(xué)特聘研究員廖依伊、布里斯托大學(xué)助理教授楊夢(mèng)月、伯克利人工智能實(shí)驗(yàn)室博士后研究員鄭文釗一起進(jìn)行了一場(chǎng)深度的討論。

會(huì)上主持人趙昊帶頭討論世界模型,先是探討其定義、范圍,接著分析強(qiáng)化學(xué)習(xí)界與計(jì)算機(jī)視覺界的世界模型的不同,隨后圍繞視頻生成、三維重建等內(nèi)容,剖析通用視頻生成模型向真正的世界模型的發(fā)展路徑,最后關(guān)注于落地場(chǎng)景,聚焦于自動(dòng)駕駛以及具身智能,并探討構(gòu)建其世界模型的難點(diǎn)和方向。

其中,四位嘉賓圍繞具身智能世界模型的構(gòu)建分別提出了自己的獨(dú)到見解:

鄭文釗認(rèn)為具身智能的問題與自動(dòng)駕駛相似,未來(lái)應(yīng)該實(shí)現(xiàn)重建與生成的結(jié)合、提升三維建模精度,以及更精準(zhǔn)地判斷因果性,使因果性與物理規(guī)律更好契合,但由于具身智能的數(shù)據(jù)稀缺,純數(shù)據(jù)驅(qū)動(dòng)很難訓(xùn)練出符合物理規(guī)律的世界模型,因此需要更好地建模物理規(guī)律,甚至將其“注入”模型。除了“真實(shí)到仿真再到真實(shí)”的路徑,更優(yōu)的方向可能是數(shù)據(jù)驅(qū)動(dòng)與物理規(guī)律結(jié)合——探索如何通過某種方式將物理規(guī)律注入數(shù)據(jù)驅(qū)動(dòng)模型,這可能是未來(lái)的趨勢(shì)。

金鑫也表示物理規(guī)律、物理真實(shí)性( physical world intelligence )對(duì)具身智能的世界模型很重要,探索方向不僅依賴數(shù)據(jù)驅(qū)動(dòng),還借鑒了傳統(tǒng)仿真領(lǐng)域的經(jīng)驗(yàn),結(jié)合圖形學(xué)中的物理建模方法(如楊氏模量、彈簧 - 質(zhì)量模型等基于規(guī)則的物理仿真)與數(shù)據(jù)驅(qū)動(dòng)的生成模型(如 AIGC 生成模型),希望讓具身智能的世界模型既能保證物理真實(shí)性,又能實(shí)現(xiàn)外觀真實(shí)。

楊夢(mèng)月則提出了她自己的思路,在具身場(chǎng)景中,通過某種機(jī)制或智能體捕捉物理規(guī)律,將其整合成因果模型,再利用該模型進(jìn)行反事實(shí)預(yù)測(cè)或推斷。

最后廖依伊對(duì)金鑫和鄭文釗的觀點(diǎn)表示贊同,還發(fā)出了路線選擇的疑問,她認(rèn)為核心問題在于:是否必須顯式建模 3D ?在 2D 層面能否學(xué)好交互?若有足夠訓(xùn)練數(shù)據(jù),2D 學(xué)習(xí)交互可能更簡(jiǎn)單——比如疊衣服、泥巴落地等非剛性物體場(chǎng)景,在 3D 中建模難度極大。如何做好 2D 與 3D 的結(jié)合,仍是難題。


以下是此次圓桌討論的精彩分享,AI 科技評(píng)論進(jìn)行了不改原意的編輯整理:

01

如何定義世界模型?

趙昊:大家好,歡迎來(lái)到本次線上研討會(huì)。我們將圍繞“世界模型——通向通用智能的關(guān)鍵拼圖”這一主題展開討論。我是趙昊,此前曾在北京大學(xué)和英特爾研究院工作,目前任職于清華大學(xué)智能產(chǎn)業(yè)研究院( AIR ),主要從事計(jì)算機(jī)視覺、圖形學(xué)與機(jī)器人的交叉研究。世界模型作為串聯(lián)這些領(lǐng)域的核心技術(shù),我對(duì)其始終秉持堅(jiān)定的信念。

在正式開始前,我想先界定一下世界模型的范疇。從最狹義的角度來(lái)看,是自動(dòng)駕駛領(lǐng)域的世界模型,這也是目前研究較多的方向;進(jìn)一步拓展,則是具身智能的世界模型;再往上,第三層可涵蓋通用視頻生成或傳感器生成模型;而最廣義的層面,我認(rèn)為是訓(xùn)練智能體的世界模型。

今天參與討論的幾位老師雖多來(lái)自計(jì)算機(jī)視覺領(lǐng)域,但考慮到AI科技評(píng)論的廣泛視野,我們的討論范圍應(yīng)當(dāng)進(jìn)一步擴(kuò)大。盡管部分領(lǐng)域,如自然語(yǔ)言處理( NLP )、智能體( Agent )等,我個(gè)人并非深耕其中,但既然舉辦此次線上研討會(huì),就應(yīng)當(dāng)拓展討論邊界,最終聚焦到第四層級(jí)的核心議題——通用智能如何在世界模型中誕生。

當(dāng)然,考慮到今天受邀的幾位老師多具備計(jì)算機(jī)視覺( CV )背景,我們的討論可以從自動(dòng)駕駛領(lǐng)域切入,再逐步向外延伸。畢竟不同領(lǐng)域的科學(xué)原理在本質(zhì)上存在共通之處。

金鑫:謝謝趙老師的開場(chǎng)。大家好,我是金鑫,目前任職于寧波東方理工大學(xué)信息學(xué)部。寧波東方理工大學(xué)是一所新型研究型大學(xué),目前正在全球范圍內(nèi)廣納賢才。

我是中國(guó)科學(xué)技術(shù)大學(xué)博士,研究方向包括空間智能及世界模型相關(guān)工作,一直與趙老師團(tuán)隊(duì)合作推進(jìn)自動(dòng)駕駛相關(guān)研究,涉及基于 Occupancy-based 的生成等方向等等。

廖依伊:大家好,我是浙江大學(xué)特聘研究員廖依伊。我的求學(xué)和工作經(jīng)歷如下:我在浙江大學(xué)獲得博士學(xué)位,在德國(guó)馬普所從事博士后研究,所在組是搭建 KITTI 數(shù)據(jù)集的 Autonomous Vision Group ,在組里期間我主導(dǎo)了 KITTI-360 數(shù)據(jù)集的構(gòu)建工作,所以開始涉足自動(dòng)駕駛相關(guān)研究。圍繞世界模型的方案,我們做了街景重建與生成。

我們近期研發(fā)的 HUGSIM 是一款基于 3D 高斯的仿真器,能夠與自動(dòng)駕駛算法實(shí)現(xiàn)互動(dòng)。正如趙老師所說(shuō),這屬于狹義的世界模型研究。今天非常期待能與各位老師探討,從狹義到廣義的世界模型發(fā)展。

楊夢(mèng)月:我是楊夢(mèng)月,去年10月加入布里斯托大學(xué)擔(dān)任助理教授,之前在 UCL 攻讀博士學(xué)位,導(dǎo)師是汪軍教授。我的研究方向最初是因果表征學(xué)習(xí),后來(lái)結(jié)合強(qiáng)化學(xué)習(xí)( RL )相關(guān)內(nèi)容,近期轉(zhuǎn)向世界模型研究,尤其聚焦于世界模型對(duì)世界規(guī)則的理解。我的研究方向可能不太偏向 CV ,更多側(cè)重于因果理解和表征學(xué)習(xí)。

鄭文釗:我是鄭文釗,目前在伯克利人工智能實(shí)驗(yàn)室從事博士后研究。我本科和博士均畢業(yè)于清華大學(xué),本科就讀于物理系。博士期間,我主要從事相似性度量等基礎(chǔ)研究,后期也涉足自動(dòng)駕駛領(lǐng)域。我們始終堅(jiān)持基于世界模型的自動(dòng)駕駛,之后也會(huì)將世界模型拓展至更通用的智能領(lǐng)。

趙昊:接下來(lái)我們正式進(jìn)入討論環(huán)節(jié)。開頭的這兩個(gè)話題,我想把我們討論的世界模型的 Scope 變得更大一點(diǎn)。

剛剛結(jié)束的智源大會(huì)也讓我學(xué)到了很多新知識(shí)。我個(gè)人主要是做 CV 的,CV 領(lǐng)域長(zhǎng)期以來(lái)的觀點(diǎn)是通過重建物理世界、再做仿真和渲染來(lái)構(gòu)建世界模型,但在這次大會(huì)上,許多 senior 學(xué)者從更抽象的角度看待世界模型,將其視為通向通用智能的關(guān)鍵拼圖。盡管我們可能從自動(dòng)駕駛汽車、機(jī)器人的角度出發(fā),但第一部分,我想從更通用的人工智能角度來(lái)思考這個(gè)問題。

GPT 為代表的 LLM 無(wú)疑是當(dāng)前人工智能領(lǐng)域的典范,但它也面臨一些問題。首先是數(shù)據(jù)短缺, 數(shù)據(jù)耗盡后 GPT 的發(fā)展可能會(huì)停滯;其次,GPT 距離通用智能還有差距,它存在一些無(wú)法完成的任務(wù)。在智源大會(huì)上,我發(fā)現(xiàn)許多通用人工智能研究者也在關(guān)注世界模型,盡管他們心中的世界模型可能與我們 CV 領(lǐng)域狹義的虛擬世界模型不同,但他們都暢想,未來(lái)像 GPT 這樣的 Agent 能夠在真實(shí)物理世界中不斷探索學(xué)習(xí),從而實(shí)現(xiàn)通用人工智能。這是一個(gè) bigger scope 。

我們可以將范圍稍作限制,聚焦于 LeCun 團(tuán)隊(duì)的世界模型研究,如 JEPA 、 V-JEPA 等,這些研究更 grounded ,方便我們展開討論。

經(jīng)常有人問我,CV所做的視頻生成、三維重建等世界模型,與 LeCun 所說(shuō)的通用世界模型有何區(qū)別與聯(lián)系。二者確實(shí)存在較大差異。了解 LeCun 學(xué)術(shù)流派的人知道,他創(chuàng)辦 ICLR 會(huì)議的核心關(guān)注點(diǎn)是表征學(xué)習(xí)。他所研究的世界模型更多是一種能夠表達(dá)和預(yù)測(cè)世界的通用表征思路,這種思路也更易被不具備太多三維視覺知識(shí)的通用人工智能研究者所理解。所以,我想從最寬泛的表征學(xué)習(xí)視角出發(fā),聽聽大家的看法。我隨機(jī)點(diǎn)一位,有請(qǐng)楊老師。

楊夢(mèng)月:我一直從事表征學(xué)習(xí)相關(guān)研究。在我看來(lái),CV與表征學(xué)習(xí)之間存在gap。表征學(xué)習(xí)的本質(zhì)是理解圖像或視頻背后的構(gòu)成的 factor。圖像和視頻是高維空間的表現(xiàn),而控制這種表現(xiàn)的其實(shí)是低維feature space (特征空間)中的特征。

我們可以有多種方式來(lái)表示特征空間,例如大模型的 embedding (嵌入)是一種表現(xiàn);我們也可以將特征空間完全可解釋化,明確某個(gè)具體嵌入所對(duì)應(yīng)的物理概念和語(yǔ)義含義。

當(dāng)前大模型的訓(xùn)練方式本質(zhì)上是對(duì)數(shù)據(jù)的模仿,并不關(guān)注表征學(xué)習(xí)層面,因此可能僅學(xué)到數(shù)據(jù)表面的樣子,容易出現(xiàn)“幻覺”問題,無(wú)法真正理解世界正在發(fā)生的事情,也不清楚自身行為及其可能導(dǎo)致的結(jié)果。

表征學(xué)習(xí)更偏向于可解釋的范疇。也就是說(shuō),我們希望 Agent 是真正理解世界背后的規(guī)則,——這個(gè)世界由哪些 factor 構(gòu)成,這些 factor 之間又存在怎樣的關(guān)系。 一旦理解了這些,智能體在做決策時(shí),就不會(huì)僅僅基于像素級(jí)的圖像進(jìn)行預(yù)測(cè)并以此決策,而是通過理解事件背后的邏輯來(lái)行動(dòng)。例如,知曉兩個(gè)因素之間的關(guān)聯(lián):當(dāng)機(jī)械臂要將小球運(yùn)到終點(diǎn)時(shí),有兩種選擇——推球或者抓球。若它掌握了物理規(guī)則,就會(huì)知道當(dāng)?shù)孛婺Σ亮^高時(shí),推球并非最佳選擇,轉(zhuǎn)而選擇抓起小球直接送至終點(diǎn),從而達(dá)成目標(biāo)狀態(tài)。

世界模型的定義一直較為模糊,視頻生成、 VLA 乃至空間智能等相關(guān)技術(shù)都被籠統(tǒng)地歸為世界模型范疇。但現(xiàn)在越來(lái)越多的研究者認(rèn)為,若要讓智能體真正具備決策能力,必須讓它理解世界的運(yùn)行邏輯,否則決策可能因“幻覺”失效,尤其在高安全性場(chǎng)景中,看似無(wú)害的動(dòng)作可能導(dǎo)致一些比較危險(xiǎn)的狀態(tài)。

因此,要實(shí)現(xiàn)通用智能、讓智能體理解世界,還是要走表征學(xué)習(xí)的路子。表征學(xué)習(xí)包含多種技術(shù),我們所研究的因果分析便是其中之一。這種技術(shù)不僅關(guān)注 factor 間的相關(guān)關(guān)系,更著重探究因果關(guān)系,而掌握因果關(guān)系能幫助智能體做出更優(yōu)決策。以上就是我的觀點(diǎn)。

趙昊:楊老師的觀點(diǎn)很有意思,即當(dāng)前的表征可能只有 correlation ,而缺乏因果關(guān)系,這確實(shí)是值得深入研究的方向。那么,楊老師認(rèn)為完整的三維或四維世界表示作為一種 factor 表示方式,是否是必需的呢?

楊夢(mèng)月:我認(rèn)為構(gòu)建 3D 或 4D 表示是一種新視角,對(duì)幫助到智能體理解世界,但它們之間的聯(lián)系還需進(jìn)一步探索,目前這方面的研究還比較匱乏。

在世界模型層面,我們通常對(duì)其有明確的界定標(biāo)準(zhǔn)。普通的預(yù)測(cè)模型(比如視頻生成過程)往往是基于當(dāng)前狀態(tài)預(yù)測(cè)下一個(gè)狀態(tài),而世界模型要有智能體交互的屬性。具體來(lái)說(shuō),能被統(tǒng)稱為世界模型的模型,其邏輯應(yīng)該是“當(dāng)前狀態(tài) + 智能體動(dòng)作”通過模型函數(shù)映射到“下一狀態(tài)”。這里的動(dòng)作既可以是顯性的,也可以是隱性的,關(guān)鍵是模型要能明確回答“當(dāng)前采取某動(dòng)作后,下一步會(huì)呈現(xiàn)什么狀態(tài)”。

按照這個(gè)定義,當(dāng)前的3D、4D 生成技術(shù)雖然實(shí)現(xiàn)了對(duì)世界的重建,但尚未充分融入動(dòng)作因素,也沒有考慮到動(dòng)作對(duì)空間內(nèi)部各因素相互作用的影響,因此與嚴(yán)格意義上的世界模型仍有差距。

當(dāng)然,目前世界模型的定義還比較寬泛,但如果要進(jìn)一步明確其核心內(nèi)涵,就必須在模型中構(gòu)建交互層面的建模,這是不可或缺的關(guān)鍵環(huán)節(jié)。

趙昊:我完全同意。我們 CV 領(lǐng)域的研究者常常關(guān)注傳感器數(shù)據(jù)的渲染質(zhì)量,卻不太重視交互輸入,這是我們領(lǐng)域存在的一個(gè)較大問題。不過,目前在自動(dòng)駕駛和機(jī)器人領(lǐng)域,已有不少視覺模型研究引入了動(dòng)作因素。

聽到楊老師的觀點(diǎn),她認(rèn)為我們當(dāng)前研究的最大問題是缺乏動(dòng)作因素,我自己也意識(shí)到了這一點(diǎn)。我也分享一個(gè)觀點(diǎn):我們真的必須依賴 3D 表征嗎?看起來(lái) 3D 表征并非在所有場(chǎng)景下都是必需的,比如我們根據(jù)牛頓定律建模了以后,模型就可以根據(jù)物理規(guī)律來(lái)運(yùn)行輸出,這就不需要表征學(xué)習(xí)。但是物理規(guī)律也可能失效,比如現(xiàn)在有了極限情況,你必須引入相對(duì)論來(lái)修正。

我們計(jì)算機(jī)視覺和圖形學(xué)領(lǐng)域的研究者可能存在一種幻覺,認(rèn)為只要重建并仿真世界,就能完全掌握其規(guī)律,但物理模型永遠(yuǎn)不可能達(dá)到完美。所以從宏觀意義上看,或許完全數(shù)據(jù)驅(qū)動(dòng)的表征學(xué)習(xí)反而是更正確的路徑。這一點(diǎn)我想聽聽鄭文釗的看法,因?yàn)槲抑浪行┱撐膬H在占用率( occupancy )層面開展研究,不會(huì)對(duì)傳感器數(shù)據(jù)進(jìn)行真實(shí)渲染。

鄭文釗:謝謝趙老師。我接著剛才的話題談?wù)勎业挠^點(diǎn)。如前所述,狹義的世界模型是對(duì)環(huán)境的建模,核心是接收智能體的交互動(dòng)作作為輸入,并輸出對(duì)應(yīng)的反饋。

我們?cè)缙诨谡加寐实氖澜缒P脱芯恐芯鸵肓?action ,當(dāng)時(shí)我們認(rèn)為世界模型不僅要對(duì)行為做出反饋,還應(yīng)輸出動(dòng)作,因此在論文中將其定義為“泛化的世界模型”,但這一觀點(diǎn)在審稿人中存在爭(zhēng)議。直到現(xiàn)在,大家對(duì)世界模型的定義仍有分歧:它僅僅是對(duì)世界環(huán)境的建模并提供反饋,還是需要包含對(duì)世界運(yùn)行規(guī)律的自主建模?

但我認(rèn)為,若要邁向通用智能,世界模型的定義必須更泛化一些。這也是我認(rèn)同 LeCun 觀點(diǎn)的原因,他所強(qiáng)調(diào)的世界模型偏向通用范疇。從 LeCun 對(duì)智能系統(tǒng)的描述來(lái)看,其中包含世界模型、記憶模塊、行為模塊等,分別對(duì)應(yīng)空間智能、行為智能等能力,可見世界模型在通用智能中扮演著重要角色。

盡管存在爭(zhēng)議,但從宏觀角度而言,我們的核心目標(biāo)是結(jié)合動(dòng)作對(duì)環(huán)境進(jìn)行建模。接下來(lái)我想談?wù)勈澜缒P团c表征的關(guān)系:世界模型在某種程度上是更具泛化性的語(yǔ)言模型。大語(yǔ)言模型的核心范式是 next token prediction ,當(dāng)然現(xiàn)在有一些不同的語(yǔ)言模型并非采用這種范式。語(yǔ)言并不是數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)到的表征方式,它是人類通過數(shù)千年文化歷史凝練而成的對(duì)世界的描述,是人類定義好的認(rèn)知框架。 從這個(gè)角度來(lái)看,語(yǔ)言模型其實(shí)也是在預(yù)測(cè)未來(lái)會(huì)發(fā)生什么。

除了語(yǔ)言之外,是否存在其他更完備、更細(xì)節(jié)的世界表征方式?這也是我認(rèn)為世界模型能成為比大語(yǔ)言模型更通用的基礎(chǔ)模型的原因——如果 CV 領(lǐng)域未來(lái)會(huì)出現(xiàn)類似大語(yǔ)言模型的核心模型,其形態(tài)很可能是世界模型,而其中最核心的就是表征的選擇。在 NLP 中,表征選擇很直接,就是語(yǔ)言本身。但在視覺領(lǐng)域或更通用的場(chǎng)景中,表征選擇需要更深入的考量:可以選擇像素,但像素僅能反映二維空間信息;我們之前的研究選擇占用率作為表征,因?yàn)槭澜绫举|(zhì)是三維的,可以稱為三維空間中的“像素”,類似于體素( Voxel ),能更底層地描述三維空間。

不過,是否存在更高層次的表征?這也是 LeCun 團(tuán)隊(duì)的研究方向。我推測(cè)他們可能認(rèn)為僅在像素空間建模不夠完善,更傾向于類似大語(yǔ)言模型選擇語(yǔ)言模態(tài)的思路——在視覺領(lǐng)域選擇更合適的表征。例如 JEPA 、 V-JEPA 通過自監(jiān)督學(xué)習(xí)提取特征,而他們最近發(fā)布的 DINO-World ,則選擇 DINO 作為世界表征,因?yàn)?DINO 本身已包含對(duì)世界的語(yǔ)義提取。這些思路的共性是:世界模型的表征未必局限于像素,完全可以是更高層次的 feature 。

因此,若要將大語(yǔ)言模型的范式泛化至通用智能,世界模型是核心路徑,而表征選擇是關(guān)鍵。像 JEPA 、 DINO 等模型在語(yǔ)義描述上表現(xiàn)出色,但一個(gè)理想的世界模型表征還需具備其他特性:一方面要能對(duì)世界進(jìn)行抽象的語(yǔ)義描述,另一方面要具備三維建模能力。因?yàn)槲覀兯幍氖澜缡侨S的,未來(lái)邁向通用智能的話,要把三維空間最本質(zhì)的東西建模出來(lái)。

廖依伊:我非常贊成鄭老師剛才的觀點(diǎn)。不同的世界模型,包括 LeCun 提出的世界模型,我們基于純視頻生成的世界模型,核心區(qū)別其實(shí)在于對(duì)“ x ”的定義。正如楊老師之前強(qiáng)調(diào)的,如果我們將世界模型定義為“當(dāng)前狀態(tài) x(t) + 動(dòng)作 a(t) → 下一狀態(tài) x(t+1) ”的映射關(guān)系,那么它們的核心差異就在于如何定義“ x(t+1) ”這個(gè)輸出目標(biāo)。

以視頻生成為例,我們并非直接在像素空間操作,而是在潛空間( latent space )中進(jìn)行,比如 VAE 的潛在空間。但 VAE 的潛在空間設(shè)計(jì)目標(biāo)是服務(wù)于像素解碼,因此未必能充分學(xué)習(xí)到語(yǔ)義信息。這也是鄭老師提到的 JEPA 、 V-JEPA 及 V-JEPA 2 等工作的價(jià)值——它們通過自監(jiān)督學(xué)習(xí),目標(biāo)是獲取更具語(yǔ)義的特征。

LeCun 在 V-JEPA 2 中的思路也是如此:先通過無(wú)監(jiān)督學(xué)習(xí)得到潛空間,再引入動(dòng)作監(jiān)督進(jìn)行 post training ,最終將其轉(zhuǎn)化為世界模型??梢娫谶@一框架下,表征學(xué)習(xí)與世界模型是相輔相成的:良好的表征學(xué)習(xí)是構(gòu)建高性能世界模型的基礎(chǔ)。

一個(gè)值得探討的問題是,語(yǔ)義更豐富的世界表征是否更合理?從直觀上看,若潛空間的特征能實(shí)現(xiàn)更好的解耦并蘊(yùn)含更豐富的語(yǔ)義,后續(xù)的世界模型學(xué)習(xí)確實(shí)會(huì)更高效,這一點(diǎn)我非常認(rèn)同楊老師的觀點(diǎn)。

關(guān)于是否需要引入 3D 建模,我的看法是:如果僅考慮最簡(jiǎn)單的動(dòng)作場(chǎng)景——即自身的剛性運(yùn)動(dòng)( rigid motion )(比如相機(jī)位姿變化),那么 3D 重建本身就能發(fā)揮重要作用。在 3D 重建任務(wù)中,一旦完成建模,就相當(dāng)于將動(dòng)作因素(這里的相機(jī)位姿變化)從狀態(tài)中完全解耦出來(lái)。這意味著我們無(wú)需再通過學(xué)習(xí)的方式額外建模相機(jī)位姿,而是可以直接基于新的視角進(jìn)行渲染,這與楊老師提到的“潛空間中可解耦因素”的思路是一致的。因此,3D 建模的一大優(yōu)勢(shì)在于能夠顯式地將這類可解耦的因素(如相機(jī)位姿)完全解耦。當(dāng)然,對(duì)于一些難以解耦的復(fù)雜特征,仍然可以保留。

趙昊:廖老師說(shuō)得非常好。我一直在思考,盡管潛在向量沒有顯式的 3D 信息,但作為一種抽象表征,或許能找到其與物理屬性的關(guān)聯(lián)。比如512維的 token 中,某些維度可能對(duì)應(yīng)材料屬性,某些對(duì)應(yīng)幾何結(jié)構(gòu),甚至可能包含表達(dá)復(fù)雜運(yùn)動(dòng)的向量。這是一個(gè)很有潛力的研究方向。

不過關(guān)于是否引入 3D 信息,核心爭(zhēng)議在于“是否讓模型更好學(xué)”。廖老師的思路是引入 3D 表征,讓剩余維度專注學(xué)習(xí)物理建模難以覆蓋的復(fù)雜特征,這很合理。但也有學(xué)者持不同觀點(diǎn),比如彭老師推崇 large view synthesis network ,認(rèn)為未來(lái)無(wú)需依賴 3D 歸納偏置。這個(gè)話題比較專業(yè),我們先從更宏觀的層面繼續(xù)討論。有請(qǐng)金老師分享對(duì)世界模型表征學(xué)習(xí)思路的看法。

金鑫:Richard Feynman 所說(shuō)的“ I could never create something I didn’t understand. ”,我無(wú)法創(chuàng)造我不理解的東西。所以剛才楊老師等幾位老師提到的內(nèi)容,核心其實(shí)都指向表征學(xué)習(xí)——我們首先要理解世界,找到合適的表征,這個(gè)表征可能是3D的,也可能不是,比如 V-JEPA 、 I-JEPA 這類模型最初針對(duì)圖像構(gòu)建表征,就是在做這樣的探索。

找到合適的表征后,再基于它建立蘊(yùn)含物理規(guī)律和機(jī)制的世界模型。這條路徑的核心是“先理解再構(gòu)建”,把表征學(xué)習(xí)放在第一步,也就是先實(shí)現(xiàn)對(duì)世界的理解。

我們團(tuán)隊(duì)近期一直在研究的“解耦表征學(xué)習(xí)”概念,源自2013年 Bengio 的研究,剛才廖老師也提到了這個(gè)關(guān)鍵詞——希望把 3D 相機(jī)位姿、 3D 歸納偏置解耦出來(lái)。今年我們?cè)?ICCV 2025 舉辦了一個(gè) workshop ,主題是“解耦表征學(xué)習(xí)與可控生成”,雖然聚焦可控生成,但仍被歸入表征學(xué)習(xí)專題。

我對(duì)楊夢(mèng)月老師那篇引用率很高的 Causal VAE 論文非常熟悉,經(jīng)常讓學(xué)生以它為 baseline 對(duì)比表征解耦的性能。我們做了很多表征解耦的工作,因?yàn)槲覀冋J(rèn)為理解世界的方式有很多,自監(jiān)督學(xué)習(xí)、 MIM 等都是,而表征解耦也是其中一種,能將特征層面、特征域、特征空間中的因素分離,找到關(guān)鍵因素并讓它們保持正交。比如在圖像中,將物體的大小、顏色、屬性等在特征域中明確解耦,這不僅能提升 AI 的可解釋性,還能為后續(xù)的生成、世界模型構(gòu)建、高層規(guī)劃等任務(wù)提供便利。

趙老師從 JEPA 思路出發(fā)探討世界模型,我覺得很有道理。 JEPA 也是先通過感知理解世界,再建立世界模型,這與“先理解再創(chuàng)造/生成”的邏輯一致?,F(xiàn)在大模型也強(qiáng)調(diào)融合理解與生成能力,包括我們后面要討論的“生成與理解、重建是否需要統(tǒng)一”,這些概念和思路其實(shí)是相通的。

我再補(bǔ)充一個(gè)觀點(diǎn),我之前做過很多圖像視頻編碼壓縮的研究,有句話印象很深——“壓縮即智能”。深度學(xué)習(xí)的本質(zhì)是一個(gè)熵減的過程,去除圖像、視頻中的冗余和相關(guān)性,保留最核心、最原始的關(guān)鍵信息。

在編碼壓縮領(lǐng)域,那些無(wú)法再進(jìn)行熵估計(jì)和冗余去除的信息,就是我們理想中的表征。做世界模型時(shí)也是如此,需要找到這些關(guān)鍵因素和表征,它們可能無(wú)法完全理想化解耦,正如楊老師所說(shuō),可能存在關(guān)聯(lián)和因果關(guān)系。這就是我的觀點(diǎn)。

02

RL 與 CV 的世界模型有何不同?

趙昊:接下來(lái)我們進(jìn)入下一個(gè)問題。楊老師剛才提到,當(dāng)前許多視頻生成工作因缺乏動(dòng)作因素而存在不足。那么 RL 界與 CV 界的世界模型有哪些不同?我認(rèn)為動(dòng)作因素可能是主要差異。接下來(lái)我們具體探討技術(shù)路徑,如何讓世界模型真正對(duì)動(dòng)作、決策制定發(fā)揮作用。有請(qǐng)金老師先發(fā)言。

金鑫:雖然我自己親手寫 RL 代碼的經(jīng)驗(yàn)不多,但通過和學(xué)生的討論(我的學(xué)生中有做 RL 的),我了解到強(qiáng) RL 分為基于模型( model-based )和無(wú)模型( model-free )兩種類型。其中,基于模型的 RL 所構(gòu)建的“模型”,我的理解是對(duì)環(huán)境的一種代理或模擬。簡(jiǎn)單來(lái)說(shuō),就是建立一個(gè)環(huán)境模型,然后用這個(gè)模型輸出環(huán)境的轉(zhuǎn)移函數(shù)等信息,智能體基于這些信息進(jìn)行學(xué)習(xí)。

2018 年 David Ha 和 Jürgen Schmidhuber 關(guān)于世界模型的那篇論文,就和強(qiáng)化學(xué)習(xí)做了一些對(duì)比。所以我個(gè)人理解,強(qiáng)化學(xué)習(xí)中基于模型的“模型”,與 CV 領(lǐng)域用于自動(dòng)駕駛等場(chǎng)景的世界模型模擬器,核心都是通過模擬環(huán)境讓智能體進(jìn)行交互訓(xùn)練。

我們CV里面經(jīng)常會(huì)用到 “ simulator ”(模擬器)這個(gè)詞,它本質(zhì)上就是對(duì)環(huán)境的模擬 —— 構(gòu)建出環(huán)境后,讓智能體在里面通過動(dòng)作交互進(jìn)行訓(xùn)練,這和趙老師一直強(qiáng)調(diào)的“ action ”是相呼應(yīng)的。這只是我的個(gè)人理解,可能不一定準(zhǔn)確,歡迎大家交流指正。

楊夢(mèng)月:我在強(qiáng)化學(xué)習(xí)方面的研究相對(duì)多一些。我認(rèn)為 RL 與 CV 的世界模型的核心區(qū)別在于服務(wù)對(duì)象不同。 CV 界的核心是建模世界本身,關(guān)注如何刻畫世界的形態(tài);而 RL 界的核心是智能體,建模世界的最終目的是服務(wù)于智能體,讓它掌握世界知識(shí),進(jìn)而提升自身的決策策略 policy 。

正如趙老師所說(shuō), NLP 領(lǐng)域面臨數(shù)據(jù)有限的問題, CV 領(lǐng)域雖然數(shù)據(jù)量更大,但也可能存在類似瓶頸。我們近期在世界模型研究中使用了一個(gè)較新的觀點(diǎn),名為“開放性”( open endedness ),其實(shí)質(zhì)是“自我提升智能體”( self-improve agent )。具體來(lái)說(shuō),若想提升智能體性能,我們可以通過數(shù)據(jù)訓(xùn)練,但當(dāng)數(shù)據(jù)量有限,無(wú)法支撐智能體理解世界上所有事件間的關(guān)系時(shí),就需要讓智能體主動(dòng)探索,比如通過自問自答的方式學(xué)習(xí)。

例如在代碼生成領(lǐng)域,讓智能體自己提出新的代碼問題;在開放世界游戲中,讓它自主構(gòu)建 task 。生成 task 的過程本身就是世界模型的建模過程,但其最終目標(biāo)是提升智能體的決策能力和泛化能力,而非讓智能體簡(jiǎn)單過擬合于某個(gè)特定環(huán)境,而是使其具備理解世界、自主構(gòu)建世界模型的能力。

趙昊:比如做 RL 的研究者,就算沒有圖像,他們將編碼環(huán)境中“智能體自己給自己出題”的過程也稱為世界模型嗎?

楊夢(mèng)月:最廣義世界模型,可以建模任何規(guī)則,這些規(guī)則不一定局限于物理規(guī)則,數(shù)學(xué)規(guī)則、代碼運(yùn)行機(jī)制等也屬于規(guī)則范疇。世界模型的核心目標(biāo)是讓智能體在特定環(huán)境或任務(wù)中,具備理解該環(huán)境或任務(wù)規(guī)則的能力。

世界模型的建模方式具有多樣性,生物、化學(xué)等領(lǐng)域都有其獨(dú)特規(guī)則。但這些規(guī)則未必都像物理規(guī)則那樣明顯,也未必有成熟的模擬器支持訓(xùn)練。許多環(huán)境中的規(guī)則是隱性的,比如 ChatGPT ,它的生成規(guī)則也屬于一種世界規(guī)則,但這種規(guī)則的概率屬性就非常大。

所以對(duì)于不同的環(huán)境,可能都有其對(duì)應(yīng)的世界模型建模方法,這些方法都可以統(tǒng)稱為世界模型。

我今年在 ICLR 上組織了一個(gè)關(guān)于世界模型的研討會(huì),當(dāng)時(shí)我們希望征集的稿件能覆蓋各個(gè)領(lǐng)域,比如自然科學(xué)、社會(huì)科學(xué)、數(shù)學(xué)等。實(shí)際上,我們也收到了一些比較特別的投稿,它們都將自己的研究稱為世界模型。我認(rèn)為世界模型最核心的特質(zhì)是能夠建模世界背后的規(guī)律,并且智能體能夠借此與世界進(jìn)行交互。

廖依伊:我覺得楊老師剛剛的觀點(diǎn)非常有意思,這讓我想到一個(gè)問題:CV 所說(shuō)的世界模型是否無(wú)法服務(wù)于 Agent 的訓(xùn)練呢?可能有的也未必。

RL 界的世界模型和 CV 界的世界模型有什么不同?我的理解是這樣的,一方面,正如我們之前討論的“ x(t) + a(t) → x(t+1) ”框架, CV 界確實(shí)更關(guān)注與圖像平面相關(guān)的狀態(tài)變量 x ;而在 RL 界,狀態(tài)變量不一定局限于圖像平面,可以是任意形式的抽象狀態(tài)。另一方面,據(jù)我觀察, RL 在涉及世界模型時(shí),通常不僅要預(yù)測(cè)下一狀態(tài) x(t+1) ,還要學(xué)習(xí)獎(jiǎng)勵(lì)( reward )。如果能直接學(xué)到獎(jiǎng)勵(lì),就可以基于此進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練和后續(xù)決策。

但目前 CV 界在視頻生成(無(wú)論是 3D 還是純視頻路線)中,更關(guān)注預(yù)測(cè)下一時(shí)刻的視覺呈現(xiàn),比如畫面“長(zhǎng)什么樣子”,卻很少考慮獎(jiǎng)勵(lì)機(jī)制。舉個(gè)例子,在視頻生成中,即使模擬車輛即將撞車,模型也可能因?yàn)槿狈ψ曹嚁?shù)據(jù)而繼續(xù)生成車輛前行的畫面,不會(huì)提示“撞車”這個(gè)負(fù)面結(jié)果。所以,獎(jiǎng)勵(lì)確實(shí)是 CV 界世界模型目前較少考慮的點(diǎn)。

比如 LeCun 團(tuán)隊(duì)今年在 ICML 上發(fā)表的“ Navigation World Model ”研究,就將自身運(yùn)動(dòng)作為 action ,輸出圖像平面結(jié)果,并基于“目標(biāo)圖像”( goal image )定義獎(jiǎng)勵(lì)。在這種情況下,即使模型沒有直接學(xué)習(xí)獎(jiǎng)勵(lì),也能通過生成圖像與目標(biāo)圖像的對(duì)比構(gòu)造獎(jiǎng)勵(lì),進(jìn)而基于模型的控制思路遍歷路徑空間,實(shí)現(xiàn)導(dǎo)航、抓取等任務(wù)。這么做的話還是可以服務(wù)于 Agent 的。

趙昊:廖老師提到的這一點(diǎn)很關(guān)鍵:我們現(xiàn)在做的這些世界模型,大部分確實(shí)沒有考慮 reward 。這是一個(gè)很好的研究方向,我們都可以嘗試探索。如果能在今年的 ICLR 和 CVPR 投稿中探討“如何在 CV 的視頻生成世界模型中引入獎(jiǎng)勵(lì)”,會(huì)是非常好的選題。感謝廖老師的分享。最后有請(qǐng)鄭老師也來(lái)分享一下看法。

鄭文釗:我對(duì) RL 其實(shí)不是特別懂,所以簡(jiǎn)單說(shuō)一下我的觀點(diǎn),不一定正確。但我很認(rèn)同剛才幾位老師的看法,總結(jié)來(lái)說(shuō),我認(rèn)為 RL 界的世界模型和 CV 界世界模型主要區(qū)別在于, RL 界的世界模型更類似判別式模型,當(dāng) Agent 在環(huán)境中執(zhí)行某個(gè)動(dòng)作后,它會(huì)輸出一個(gè)獎(jiǎng)勵(lì)值。而 CV 界的世界模型更像生成式模型,它不會(huì)評(píng)判行為的好壞,而是告訴你這個(gè)行為會(huì)導(dǎo)致世界呈現(xiàn)出什么樣的狀態(tài)。

比如在自動(dòng)駕駛場(chǎng)景中,若使用 RL 界的模型,當(dāng)車輛前行即將撞車時(shí),它只會(huì)反饋“撞上了,獎(jiǎng)勵(lì)值為-1000”,而不會(huì)展示撞車后的畫面;但 CV 界的世界模型會(huì)生成撞車后的具體圖像,而非直接告知后果。這是第一個(gè)區(qū)別。

第二個(gè)區(qū)別,我結(jié)合剛才楊老師的觀點(diǎn)補(bǔ)充一下,判別式模型在很多情況下聚焦于從輸入 x 到輸出 y 的映射,而生成式模型則會(huì)同時(shí)對(duì) p(x,y) 進(jìn)行建模。由此我認(rèn)為, RL 界的世界模型更多是一種局部模型,它必須依賴 Agent 獲取反饋,正如楊老師所說(shuō),其核心是為 Agent 服務(wù)。但 CV 界的世界模型更接近獨(dú)立運(yùn)行的模型,它可以不依賴智能體,獨(dú)立建模世界的運(yùn)行規(guī)律。 而且它是全局模型,如果有 Agent 在其中交互,理論上也能基于模型計(jì)算獎(jiǎng)勵(lì)。不過目前這類獎(jiǎng)勵(lì)計(jì)算的方法還比較缺乏,但基于模型對(duì)未來(lái)的預(yù)測(cè),其實(shí)是有可能推導(dǎo)出獎(jiǎng)勵(lì)的。

這就引出了第三個(gè)區(qū)別, RL 界的世界模型更多是反饋機(jī)制,不涉及動(dòng)作建模,動(dòng)作由 Agent 單獨(dú)處理;而 CV 界的世界模型可以給出 Action ??偨Y(jié)來(lái)說(shuō),CV 界的世界模型更通用,涵蓋世界與動(dòng)作建模; RL 界的世界模型則更狹義,主要是對(duì)智能體動(dòng)作的反饋。

趙昊:我總結(jié)一下,當(dāng)前 CV 界的世界模型已經(jīng)取得不錯(cuò)進(jìn)展,動(dòng)作因素也已被引入,但尚未大規(guī)模應(yīng)用并產(chǎn)生變革性影響,關(guān)鍵就在于缺乏獎(jiǎng)勵(lì)機(jī)制。只要定義好獎(jiǎng)勵(lì),我們現(xiàn)在做的視頻生成模型、數(shù)據(jù)生成模型就能很快在自動(dòng)駕駛、具身智能、通用智能體等領(lǐng)域發(fā)揮作用。這是一個(gè)很好的趨勢(shì)性觀點(diǎn)。

03

通用視頻生成

趙昊:我們已經(jīng)討論完兩個(gè)比較抽象的問題,接下來(lái)進(jìn)入專場(chǎng)環(huán)節(jié),聚焦視頻生成、三維重建等內(nèi)容。第一個(gè)問題通用視頻生成模型什么時(shí)候能變成真正的世界模型?

通用視頻生成模型的發(fā)展速度遠(yuǎn)超我的預(yù)期。去年三月,很多圖形學(xué)老師還認(rèn)為視頻生成模型缺乏物理規(guī)律,發(fā)展尚早,現(xiàn)在這些聲音已經(jīng)很少了,數(shù)據(jù)驅(qū)動(dòng)的力量確實(shí)不容小覷。我很好奇大家對(duì)其發(fā)展速度和演變趨勢(shì)的看法,請(qǐng)廖老師先講。

廖依伊:謝謝趙老師。關(guān)于通用視頻生成模型的發(fā)展,我確實(shí)不敢下結(jié)論,因?yàn)樗倪M(jìn)步正如您所說(shuō),超乎想象。至于“通用視頻生成模型如何變成真正的世界模型”這個(gè)問題,我認(rèn)為答案相對(duì)清晰,還是要回到我們之前達(dá)成的共識(shí),世界模型需要具備動(dòng)作( action )和因果性( causality )。

當(dāng)前最先進(jìn)的視頻生成方法大多采用“三維注意力機(jī)制”( 3D attention ),將空間( spatial )和時(shí)間( temporal )維度的 token 聯(lián)合處理生成視頻。但真正的世界模型需要滿足“ x(t) + a(t) → x(t+1) ”的邏輯,即基于當(dāng)前狀態(tài)和動(dòng)作,預(yù)測(cè)下一幀的觀測(cè)結(jié)果。

近期已有相關(guān)研究嘗試引入因果信息,例如在注意力機(jī)制中限制時(shí)序依賴——第二幀僅關(guān)注第一幀和自身,第三幀僅關(guān)注前兩幀和自身,通過這種方式強(qiáng)化因果關(guān)系,我認(rèn)為這是合理的探索方向。而動(dòng)作因素的引入仍存在開放性問題:比如建模自身相機(jī)位姿這類動(dòng)作相對(duì)容易,但世界中其他動(dòng)態(tài)物體的動(dòng)作是否需要建模?若要建模,該如何設(shè)計(jì)?當(dāng)然,也可以如鄭老師所說(shuō),將無(wú)關(guān)動(dòng)態(tài)歸為噪聲,建模未來(lái)的所有可能性,但世界模型的核心目標(biāo)是什么、動(dòng)作部分如何設(shè)計(jì),這里還有很多問題。

趙昊:我完全同意這個(gè)觀點(diǎn)。以前我認(rèn)為開發(fā)基于 diffusion 的 Game Engine 沒什么用,因?yàn)樗唐趦?nèi)不可能替代游戲行業(yè),且這類模型缺乏三維表征。但現(xiàn)在我認(rèn)為它是重要的代理任務(wù)( Proxy Task ),比單純的多媒體視頻生成模型更接近世界模型的終極目標(biāo),是很好的研究載體。因此,動(dòng)作條件下的通用視頻生成模型若能進(jìn)一步優(yōu)化,我們就離真正的世界模型更近一步。接下來(lái)有請(qǐng)鄭老師分享看法。

鄭文釗:我比較同意剛才廖老師的觀點(diǎn)。關(guān)于通用視頻生成模型與世界模型的區(qū)別,之前很多人認(rèn)為,前者可能存在虛假內(nèi)容,后者需在視覺和物理層面都真實(shí),但這種看法并不本質(zhì)。隨著技術(shù)發(fā)展,視頻生成模型中可能隱含物理規(guī)律,至于具體怎么做,是否通過三維表征實(shí)現(xiàn)更優(yōu)建模,屬于技術(shù)路徑問題,并非核心差異。

實(shí)際上,當(dāng)前許多生成模型已能建模部分物理規(guī)律。伯克利的 Trevor 老師曾有一篇有趣的研究講過,盡管物理規(guī)律難以直接定義,但數(shù)據(jù)驅(qū)動(dòng)的視頻生成模型可通過學(xué)習(xí)挖掘物理規(guī)律,即數(shù)據(jù)驅(qū)動(dòng)在一定程度上能捕獲物理規(guī)律。因此回到核心問題,我認(rèn)為廖老師的觀點(diǎn)非常正確:通用視頻生成模型與世界模型目前最大的gap,在于對(duì)動(dòng)作的反饋機(jī)制。具體包括:一是動(dòng)作的定義方式(如路徑類動(dòng)作易定義,但復(fù)雜交互動(dòng)作如何定義);二是視頻生成模型能否對(duì)動(dòng)作做出準(zhǔn)確反饋;三是反饋與動(dòng)作之間是否存在合理的因果關(guān)系。

趙昊:聽完鄭老師的分享,我忍不住想分享自己的觀點(diǎn)。我認(rèn)為當(dāng)前通用視頻模型要發(fā)展為真正的世界模型,缺少的是編輯能力、文本對(duì)齊能力和指令遵循能力。今年年初, GPT-4o 等模型的編輯能力給人帶來(lái)巨大震撼——用戶輸入指令后,模型能精準(zhǔn)執(zhí)行。如果這不是專門調(diào)優(yōu)的結(jié)果,那么這類模型的圖片編輯能力已接近世界模型,因?yàn)樗軐⑷我庵噶钷D(zhuǎn)化為對(duì)應(yīng)的視覺內(nèi)容(盡管在精細(xì)的數(shù)量、位置描述上仍有不足)。

我認(rèn)為編輯能力是比 action condition 更好的 task 。當(dāng)通用視頻生成模型能像 GPT-4o 一樣,通過文本指令實(shí)現(xiàn)高精度編輯時(shí),無(wú)論其內(nèi)部原理如何,它必然已經(jīng)學(xué)到了關(guān)于世界的某些知識(shí)。所以我的觀點(diǎn)是,通用視頻生成模型除了通過動(dòng)作條件(如游戲引擎類模型)這條路徑外,視頻編輯能力的突破也至關(guān)重要 —— 編輯能力做好了,它就會(huì)無(wú)限接近真正的世界模型。這算是我的一個(gè)“暴論”,接下來(lái)有請(qǐng)楊老師分享觀點(diǎn)。

楊夢(mèng)月:我對(duì)視頻生成領(lǐng)域了解不深,但聽了剛才的分析后有一些想法。我怕在使用視頻生成大模型時(shí),有時(shí)會(huì)覺得生成內(nèi)容奇怪,可能是因?yàn)槲醋裱蚬P(guān)系。但因果關(guān)系是否為必需,需根據(jù)具體場(chǎng)景判斷。若要利用模型訓(xùn)練 Agent ,使其在真實(shí)世界具備決策和探索能力,就需要模型貼近真實(shí),遵循因果關(guān)系;但從視頻生成角度,可能無(wú)需嚴(yán)格遵循因果或物理規(guī)則。因?yàn)槿祟愐獎(jiǎng)?chuàng)作,有時(shí)會(huì)突破常規(guī)認(rèn)知,反而能產(chǎn)生新穎的創(chuàng)意。

當(dāng)前視頻生成模型多基于被動(dòng)數(shù)據(jù)學(xué)習(xí),若數(shù)據(jù)本身帶有傾向性,模型可能學(xué)到人類收集數(shù)據(jù)時(shí)的集體意識(shí),進(jìn)而迸發(fā)新的創(chuàng)造力。因此需具體場(chǎng)景具體分析,部分場(chǎng)景需要因果關(guān)系支撐。

關(guān)于廖老師提到的動(dòng)態(tài)建模問題,世界模型的定義本就非常廣義。 Multi-Agent 系統(tǒng)就是完全動(dòng)態(tài)的,具有“智能體策略相互影響的循環(huán)關(guān)系”,例如自動(dòng)駕駛場(chǎng)景中,兩輛車決策會(huì)相互作用,但這種動(dòng)態(tài)過程仍存在某種均衡。這又回到最初的問題:如何衡量動(dòng)態(tài)中的不變?可能需要引入獎(jiǎng)勵(lì)模型,才能分析場(chǎng)景需求,從動(dòng)態(tài)中提取靜態(tài)知識(shí)。

趙昊:楊老師的觀點(diǎn)很有意思。 CV 研究者常認(rèn)為,能真實(shí)重建物理世界的才是好的世界模型,但大家使用 Sora 時(shí),常讓它生成不符合真實(shí)物理的內(nèi)容?;蛟S生成真實(shí)內(nèi)容并非評(píng)判世界模型好壞的唯一標(biāo)準(zhǔn)。

我觀察 Sora 的 dashboard 發(fā)現(xiàn),流量最高、被用戶推崇的視頻,大多是那些 “不太可能在真實(shí)世界中出現(xiàn)” 的內(nèi)容,它們可能符合基礎(chǔ)物理規(guī)律,但在現(xiàn)實(shí)中難以見到。這確實(shí)很有意思。接下來(lái)有請(qǐng)金老師分享對(duì)通用視頻生成模型的看法。

金鑫:幾位老師剛才從物理真實(shí)性、可編輯性等方面都做了很好的分享。楊老師的觀點(diǎn)讓我想到一個(gè)點(diǎn):生成與物理事實(shí)相違背的內(nèi)容,即“反事實(shí)生成”( counterfactual generation )。我記得之前某本書中提到智能的幾個(gè)階段,第一階段是“觀察”,第二階段是“行動(dòng)”,第三階段是“想象”,是“ what if ”,想象“如果做了這件事會(huì)怎樣”,這種反事實(shí)生成能力或許是關(guān)鍵。

我認(rèn)為真正的世界模型若能生成全新場(chǎng)景或反事實(shí)結(jié)果,可能更接近通用智能,甚至涌現(xiàn)出新能力。若世界模型能學(xué)到甚至超越人類總結(jié)的既定的物理規(guī)則,會(huì)非常令人興奮。這是我的觀點(diǎn)。

趙昊:金老師的觀點(diǎn)很有啟發(fā)性。我剛才提到生成視頻中存在不符合真實(shí)物理規(guī)律的內(nèi)容,這是否真的代表模型具備反事實(shí)生成能力?我覺得不一定。反而可能是因?yàn)?Sora 等模型在訓(xùn)練數(shù)據(jù)中學(xué)習(xí)了大量互聯(lián)網(wǎng)視頻中的特效內(nèi)容,這些內(nèi)容并非真實(shí)物理世界的記錄,模型過擬合到了訓(xùn)練集中的視覺特效素材上。

廖依伊:我想結(jié)合楊老師和金老師的觀點(diǎn)提個(gè)問題。若我們的最終目標(biāo)是通用智能體,使其能在真實(shí)世界交互并完成任務(wù),那么這些視覺特效數(shù)據(jù)對(duì)智能體而言是干擾還是有用呢?

楊夢(mèng)月:我可以回答這個(gè)問題。今年有一個(gè)令我印象深刻的新流派,叫做 open endedness 。他們認(rèn)為,在數(shù)據(jù)有限的情況下,要提升 Agent 決策能力,需不斷為其生成新任務(wù)和新環(huán)境,這些環(huán)境可包含前所未有的元素。

我曾與蘇昊團(tuán)隊(duì)交流,他們現(xiàn)在也要涉足視頻生成領(lǐng)域,因?yàn)樗麄兪亲?robotics 的,我就問為什么。他們表示,其實(shí)是希望將視頻生成的結(jié)果用于訓(xùn)練 robotics agent ,提升其某些能力。因?yàn)閷?duì)于機(jī)器人而言,在真實(shí)環(huán)境中的探索代價(jià)是非常大的,比如讓智能體在真實(shí)環(huán)境中學(xué)習(xí)時(shí),即使是在樣本復(fù)雜度可能不高的場(chǎng)景,在線探索也有很大的風(fēng)險(xiǎn)和代價(jià),因此,通過視頻生成輔助生成訓(xùn)練數(shù)據(jù),讓智能體能夠先獲得一些先驗(yàn)和反事實(shí)知識(shí)能在很大程度上提升樣本效率。

趙昊:open endedness (開放性),這個(gè)詞很好。關(guān)于通用視頻生成中的視覺特效數(shù)據(jù)是否“有毒”,這個(gè)觀點(diǎn)很值得探討。這很像 NLP 領(lǐng)域的問題:有些數(shù)據(jù)存在錯(cuò)誤或冗余,被稱為“有毒數(shù)據(jù)”或“垃圾數(shù)據(jù)”,網(wǎng)上生成的這類內(nèi)容可能也存在類似問題。如何讓通用視頻生成模型在垂直領(lǐng)域做好對(duì)齊,視頻生成領(lǐng)域遲早會(huì)走到這一步。

04

自動(dòng)駕駛的世界模型發(fā)展到哪兒了?

趙昊:好,我們進(jìn)入下一個(gè)問題,回到我們的老本行,來(lái)聊聊自動(dòng)駕駛。我們都做了這么多年,什么時(shí)候才能到 L4 ?。渴紫扔姓?qǐng)金老師分享。

金鑫:很多學(xué)術(shù)界原本研究自動(dòng)駕駛的老師,現(xiàn)在轉(zhuǎn)向了具身智能領(lǐng)域,這確實(shí)是很現(xiàn)實(shí)的情況。在我看來(lái),學(xué)術(shù)界的特點(diǎn)是把技術(shù)做到 60% 或 70%,搭建好方法和原型后,剩下的 “最后一公里” 或 “最后 10%”會(huì)交由工業(yè)界完成。學(xué)術(shù)界注重方法與預(yù)研,工業(yè)界則更快地將其集成產(chǎn)品,因?yàn)樗麄冇懈鄡?yōu)秀工程師和具備產(chǎn)品思維的產(chǎn)品經(jīng)理。這是互聯(lián)網(wǎng)與 IT 技術(shù)發(fā)展至今的規(guī)律。

自動(dòng)駕駛問題已相對(duì)清晰,所以并非是這些學(xué)術(shù)界的老師放棄了自動(dòng)駕駛,反而它已接近落地階段。在硅谷, Waymo 的自動(dòng)駕駛出租車服務(wù)每天都在跑。我之前和華為的王新宇老師在論壇交流時(shí),他提到自動(dòng)駕駛的后續(xù)核心是工程化集成,華為也投入了很多人力做這些 dirty work 。

從自動(dòng)駕駛轉(zhuǎn)向具身智能,要解決的問題更多、更復(fù)雜,這正是學(xué)術(shù)界需要重點(diǎn)突破的方向。在我看來(lái),這不是跟風(fēng)轉(zhuǎn)向,而是合理的研究遞進(jìn)。自駕已經(jīng)有了很多的方案,已經(jīng)可以帶來(lái)價(jià)值了,可以先投入到市場(chǎng),之后有了新問題之后大家可以繼續(xù)研究。

趙昊:金老師認(rèn)為自動(dòng)駕駛已發(fā)展到一定階段,剩余工作由工業(yè)界大規(guī)模落地。我基本贊同,但覺得還存在一些技術(shù)問題。一是分辨率有待提高,二是視頻長(zhǎng)度不足。這些技術(shù)難題大概率會(huì)在今年得到徹底解決。對(duì)于自動(dòng)駕駛的場(chǎng)景片段( CLIP ),真實(shí)數(shù)據(jù)通常是十幾秒的片段,我認(rèn)為如果模型能在一分鐘內(nèi)保持穩(wěn)定的生成質(zhì)量就足夠了;分辨率則是另一個(gè)技術(shù)難題,目前車廠使用的數(shù)據(jù)分辨率較高,但模型生成的分辨率仍偏低,這是很具體的技術(shù)層面問題。

關(guān)于如何服務(wù)決策,我認(rèn)為今年還剩最后一個(gè)關(guān)鍵問題,“在自動(dòng)駕駛世界模型中如何定義獎(jiǎng)勵(lì)( reward )”。目前動(dòng)作和高質(zhì)量傳感器數(shù)據(jù)生成能力已經(jīng)具備,就差獎(jiǎng)勵(lì)機(jī)制。一旦獎(jiǎng)勵(lì)建模完成,方法論就能形成閉環(huán),通過持續(xù)驗(yàn)證優(yōu)化,真正邁向 L4 級(jí)。接下來(lái)有請(qǐng)廖老師談?wù)勛詣?dòng)駕駛世界模型的下一步方向。

廖依伊:我的觀點(diǎn)和金老師略有不同。金老師提到自動(dòng)駕駛已有很多落地算法,這一點(diǎn)我認(rèn)同:如果將世界模型定義為生成環(huán)境觀測(cè)、將 AD 模型定義為生成動(dòng)作,那么在 AD 模型方面確實(shí)已有相對(duì)成熟的算法投入實(shí)際運(yùn)行。但我認(rèn)為,目前還沒有特別有說(shuō)服力的工作,能證明自動(dòng)駕駛世界模型在訓(xùn)練閉環(huán)中真正發(fā)揮了關(guān)鍵作用。

現(xiàn)在 CV 界的人,在世界模型研究中,關(guān)注的都是損失函數(shù),都是圖像生成或渲染質(zhì)量,無(wú)論是重建還是生成路線,都以峰值信噪比( PSNR )等指標(biāo)衡量,而沒有回到 Agent 上去。因?yàn)樯扇蝿?wù)更容易推進(jìn),大家更多先追求 “生成得好”。但實(shí)際中,路上跑的系統(tǒng)大多還是基于大量數(shù)據(jù)的模仿學(xué)習(xí)訓(xùn)練而成。

目前,世界模型即便被應(yīng)用于自動(dòng)駕駛,可能也只是作為驗(yàn)證工具,比如驗(yàn)證車輛在場(chǎng)景中能否正常行駛。但真正將世界模型納入訓(xùn)練閉環(huán),用它支持 Agent 訓(xùn)練并證明其有效性的工作,目前還較為缺乏。當(dāng)然也有一些初步的相關(guān)嘗試,例如地平線的 RAD 在 3D 高斯場(chǎng)景中開展了自動(dòng)駕駛強(qiáng)化學(xué)習(xí)微調(diào)。我認(rèn)為從世界模型的角度來(lái)看,仍有許多問題值得探索。比如,當(dāng)前的 3D 高斯技術(shù)以及我們自研的模擬器,是否真的能有效縮小領(lǐng)域差距( domain gap ),這一點(diǎn)就非常需要驗(yàn)證。

金鑫:我同意廖老師的觀點(diǎn)。剛才說(shuō)的是自動(dòng)駕駛整體算法層面,而針對(duì)自動(dòng)駕駛世界模型,我認(rèn)為它才剛起步,或者說(shuō)在追求更完備解決方案的道路上,大家的思路才剛轉(zhuǎn)變。兩年前,大家可能還在想著收集數(shù)據(jù)、自監(jiān)督訓(xùn)練,但慢慢發(fā)現(xiàn),數(shù)據(jù)無(wú)法窮盡所有邊緣案例( corner case ),每次遇到新案例就補(bǔ)數(shù)據(jù),這種方式永遠(yuǎn)無(wú)法覆蓋所有情況。于是大家才轉(zhuǎn)向借助閉環(huán)模擬器(即世界模型)來(lái)輔助訓(xùn)練,不需要依賴持續(xù)收集數(shù)據(jù)就能學(xué)好,這個(gè)思路轉(zhuǎn)變其實(shí)才剛剛開始,還處于早期階段。

趙昊:總結(jié)廖老師的觀點(diǎn),下一步我們要走向大規(guī)?;谑澜缒P偷挠?xùn)練,我完全同意。這其中最核心的問題就是 reward 如何定義。接下來(lái)有請(qǐng)鄭老師分享自動(dòng)駕駛世界模型的發(fā)展趨勢(shì)和下一個(gè)突破點(diǎn)。

鄭文釗:我整體還是比較認(rèn)同廖老師的觀點(diǎn)。在 sora 等模型出現(xiàn)后,大家開始探索如何將其遷移到自動(dòng)駕駛場(chǎng)景,有些工作直接使用自動(dòng)駕駛數(shù)據(jù)訓(xùn)練,但本質(zhì)上仍在像素( Pixel )空間建模;當(dāng)然還有另一類方法,比如我們之前做的工作,直接在三維空間(如占據(jù)空間、邊界框空間,或是后來(lái)的高斯空間)中建模,探索如何讓世界模型真正在三維空間用起來(lái)。

自動(dòng)駕駛的特點(diǎn)是,對(duì)世界模型的精度要求極高,比如停車時(shí)可能需要厘米級(jí)的精度,“看起來(lái)對(duì)”是一回事,“實(shí)際能用”是另外一回事。像 sora 這類模型,看起來(lái)沒裝上,但是差幾厘米,后果差別是很大的。因此,自動(dòng)駕駛世界模型目前的關(guān)鍵問題是:如何實(shí)現(xiàn)對(duì)未來(lái)的精準(zhǔn)預(yù)測(cè),以及對(duì)動(dòng)作的精準(zhǔn)響應(yīng)能力。

從當(dāng)前趨勢(shì)來(lái)看,有一些工作開始走三維與二維結(jié)合的路線。三維重建的優(yōu)勢(shì)是在三維空間中精度較高,但缺乏想象能力,生成效果可能不夠自然,兩者結(jié)合可能是自動(dòng)駕駛世界模型未來(lái)的發(fā)展趨勢(shì)之一。

第二點(diǎn)是泛化能力的提升,這關(guān)系到世界模型如何更好地落地。我認(rèn)為泛化性可分為兩個(gè)層面:第一是泛化到數(shù)據(jù)未覆蓋但符合物理規(guī)律的場(chǎng)景;第二類似之前提到的反事實(shí)( counter factual )泛化,即泛化到不真實(shí)的場(chǎng)景。我們需要第一種,比如數(shù)據(jù)中沒有撞車案例,模型能否想象出真實(shí)的拐彎碰撞場(chǎng)景。

第三點(diǎn)是如何用好世界模型,這也是金老師和廖老師提到的未來(lái)發(fā)展方向。結(jié)合我們?cè)缙诘奶剿?,我認(rèn)為可以從兩方面入手:一是讓世界模型具備預(yù)測(cè) action 的能力。這類似人類開車,人具有有預(yù)測(cè)未來(lái)的能力,但很多時(shí)候人的動(dòng)作是下意識(shí)的本能判斷(無(wú)需刻意思考左拐加速的后果);二是在有時(shí)間的情況下,模型可以像人一樣“深思熟慮”,比如模擬左拐、右拐的結(jié)果后選擇最優(yōu)動(dòng)作。因此,世界模型在自動(dòng)駕駛中的應(yīng)用不應(yīng)僅作為訓(xùn)練的獎(jiǎng)勵(lì)機(jī)制,更應(yīng)轉(zhuǎn)化為一種預(yù)測(cè)范式,既包含“系統(tǒng)一”的本能反應(yīng),也包含“系統(tǒng)二”的深度決策。

趙昊:感謝鄭老師。我們聊了很多專業(yè)細(xì)節(jié),不知道普通聽眾會(huì)不會(huì)覺得難以理解?整體而言,鄭老師提到的一個(gè)觀點(diǎn)很有意思:當(dāng)前自動(dòng)駕駛世界模型的基準(zhǔn)( Benchmark )性能還比較低,比如占據(jù)預(yù)測(cè)( occupancy )指標(biāo)在部分?jǐn)?shù)據(jù)集上僅二十幾,有些數(shù)據(jù)集能到四十幾,可能要等指標(biāo)提升到70左右,才能說(shuō)模型相對(duì)成熟。

這就引出一個(gè)問題:隨著 VGGT 等視覺基礎(chǔ)模型的發(fā)展,自動(dòng)駕駛數(shù)據(jù)集上的指標(biāo)卻難以上漲,大家覺得有什么新機(jī)會(huì)能推動(dòng)指標(biāo)提升嗎?

鄭文釗:有時(shí)可視化結(jié)果看起來(lái)不錯(cuò),但指標(biāo)只有20,這正反映了自動(dòng)駕駛對(duì)精準(zhǔn)度的嚴(yán)格標(biāo)準(zhǔn)。趙老師提到的方向很關(guān)鍵:目前在基礎(chǔ)層面,自動(dòng)駕駛還缺乏像 VGGT 那樣成熟的感知基礎(chǔ)模型。現(xiàn)在大家訓(xùn)練的模型多基于早期的 ResNet 等架構(gòu),或未經(jīng)過大規(guī)模數(shù)據(jù)訓(xùn)練的骨干網(wǎng)絡(luò)( backbone )。未來(lái)若能出現(xiàn)專為自動(dòng)駕駛設(shè)計(jì)的感知基礎(chǔ)模型( perception foundation model for autonomous driving ),性能應(yīng)該會(huì)有較大飛躍。

趙昊:我們最近用 VGGT 更多是做重建和仿真。長(zhǎng)期來(lái)看,我和同行聊過一個(gè)觀點(diǎn):遲早會(huì)出現(xiàn)自動(dòng)駕駛垂類的動(dòng)態(tài)基礎(chǔ)模型?,F(xiàn)在已不是單純的 VGGT ,而是有了動(dòng)態(tài)版本的 SpatialTracker V2 ,它的性能非常強(qiáng),我們最近的工作都基于它。自動(dòng)駕駛場(chǎng)景是動(dòng)態(tài)的,必然需要適配動(dòng)態(tài)場(chǎng)景的模型。如果能有這類垂類的 SpatialTracker V2 模,當(dāng)前的范圍檢測(cè)、 occupancy mapping 等任務(wù)的指標(biāo)都可能大幅提升,我們可以期待,這樣的工作誰(shuí)能做出來(lái),一定會(huì)很有影響力。

或許不如把所有自動(dòng)駕駛數(shù)據(jù)整合起來(lái),訓(xùn)練一個(gè)專屬的 SpatialTracker ,說(shuō)不定今年自動(dòng)駕駛感知任務(wù)能迎來(lái)突破。之前大家覺得 Waymo 上模型的檢測(cè)性能已觸頂,但今年或許能再漲一漲。最后有請(qǐng)楊老師分享看法。

楊夢(mèng)月:我對(duì)自動(dòng)駕駛領(lǐng)域的具體方法并不十分熟悉,但從金老師提到的關(guān)聯(lián)、干預(yù)與反事實(shí)推理角度來(lái)看,我們希望智能體具備反事實(shí)想象能力,那它就必須理解場(chǎng)景的因果結(jié)構(gòu)——這源于圖靈獎(jiǎng)獲得者朱迪亞·珀?duì)? Judea Pearl )提出的“因果階梯”概念,他是因果推理領(lǐng)域的核心研究者。

因果推理的核心是“三層階梯”,而實(shí)現(xiàn)三層階梯的根本要求是理解系統(tǒng)內(nèi)部的運(yùn)行規(guī)則。因此,若要確保智能體具備想象能力,或是滿足安全層面的高要求,它必須掌握具體的物理規(guī)則和環(huán)境規(guī)則。此外好的世界模型,也無(wú)法捕捉現(xiàn)實(shí)世界的所有情況。這一方面受限于數(shù)據(jù),另一方面因?yàn)槭澜缒P驮谟?xùn)練之初就應(yīng)處于動(dòng)態(tài)更新的閉環(huán)中,從 RL 的角度來(lái)看,這個(gè)過程是:首先通過經(jīng)驗(yàn)數(shù)據(jù)訓(xùn)練出轉(zhuǎn)移模型,再基于轉(zhuǎn)移模型做出決策。而決策結(jié)果與轉(zhuǎn)移模型預(yù)期結(jié)果的差異,就可以用來(lái)更新世界模型。因此,我認(rèn)為提升模型性能的一個(gè)重要方向是:不能僅依賴訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,還需要通過兩方面發(fā)力 —— 一方面要思考如何在真實(shí)系統(tǒng)中進(jìn)行干預(yù)并獲取真實(shí)反饋,這種干預(yù)是基于當(dāng)前對(duì)世界的理解(比如已有的世界模型)做出的決策;另一方面,當(dāng)決策執(zhí)行后,將收到的真實(shí)反饋用于更新當(dāng)前的世界模型。

因此,模型訓(xùn)練應(yīng)從兩方面展開:一是從數(shù)據(jù)和仿真器中學(xué)習(xí);二是在保證安全的前提下,讓智能體在真實(shí)環(huán)境中進(jìn)行一定程度的探索,通過真實(shí)反饋持續(xù)自我更新。

05

具身智能的世界模型應(yīng)該如何構(gòu)建?

趙昊:我們接著討論下一個(gè)話題:具身智能的世界模型應(yīng)該如何構(gòu)建。具身智能世界模型目前尚未形成明確的范式、規(guī)范和定義,需要一個(gè)好的切入點(diǎn)來(lái)證明其價(jià)值,推動(dòng)領(lǐng)域發(fā)展。

我覺得,具身智能的世界模型需要一個(gè)“觸發(fā)器”,一個(gè)能證明其價(jià)值的場(chǎng)景,這樣這個(gè)領(lǐng)域才能真正發(fā)展壯大,目前還缺少這樣的閉環(huán)機(jī)制。我還沒找到特別好的思路,也沒看到成熟的案例,但今年有兩個(gè)工作讓我印象深刻:一是賀老師團(tuán)隊(duì)的呂江燃在 ICCV 會(huì)議上做的工作,能用具身智能世界模型實(shí)現(xiàn)非預(yù)編程操作( non-prehensible manipulation );二是董老師團(tuán)隊(duì)的寧川若同學(xué)在 RSS 會(huì)議上發(fā)表的《 Prompting with Future 》,用高斯世界模型展現(xiàn)了規(guī)劃能力。這兩個(gè)工作可能是目前具身智能世界模型領(lǐng)域相對(duì)閉環(huán)的 baseline 案例,不過都還處于初期階段。想先問問鄭老師,若要研究具身智能世界模型,您認(rèn)為哪些技術(shù)路徑比較值得探索?

鄭文釗:我覺得具身智能的問題特點(diǎn)與自動(dòng)駕駛有相似之處,比如都對(duì)三維精度有極高要求,甚至比自動(dòng)駕駛更嚴(yán)格。自動(dòng)駕駛場(chǎng)景相對(duì)宏大,而具身智能的抓取等場(chǎng)景可能需要毫米級(jí)精度——一旦誤差超過范圍,就可能抓取失敗,這是第一個(gè)挑戰(zhàn)。第二,物理規(guī)律在具身智能中扮演更重要的角色:自動(dòng)駕駛的物理規(guī)律相對(duì)簡(jiǎn)單(如車輛行駛),涉及的重力等復(fù)雜物理作用較少;但具身智能的抓取場(chǎng)景中,物理規(guī)律至關(guān)重要,這也是為什么大家常做 real2sim2real 的研究——需要先將真實(shí)場(chǎng)景映射到仿真空間,而仿真空間必須明確建模物理規(guī)律。

從發(fā)展階段看,具身智能的世界模型整體比自動(dòng)駕駛稍落后,但有其獨(dú)特性,比如已有工作嘗試在仿真空間中建模物理規(guī)律,而自動(dòng)駕駛領(lǐng)域缺乏對(duì)物理引擎( Physics engine )的深度建模,這是具身智能的一大特點(diǎn)。

未來(lái)具身智能世界模型的發(fā)展,我認(rèn)為有兩個(gè)方向:一是像自動(dòng)駕駛中提到的,實(shí)現(xiàn)重建與生成的結(jié)合,提升三維建模精度;二是更精準(zhǔn)地判斷因果性,并讓因果性與物理規(guī)律更好契合。由于具身智能的數(shù)據(jù)稀缺,純數(shù)據(jù)驅(qū)動(dòng)很難訓(xùn)練出符合物理規(guī)律的世界模型,因此需要更好地建模物理規(guī)律,甚至將其“注入”模型。除了 real2sim2real 的路徑,更優(yōu)的方向可能是數(shù)據(jù)驅(qū)動(dòng)與物理規(guī)律結(jié)合——探索如何通過某種方式將物理規(guī)律注入數(shù)據(jù)驅(qū)動(dòng)模型,這可能是未來(lái)的趨勢(shì)。

金鑫:我跟鄭老師觀點(diǎn)相似。我們最近半年也在做類似探索。記得去年年底會(huì)議上碰到廖老師,討論她的 HUGSIM 工作時(shí),我曾建議是否考慮加入物理規(guī)則,讓仿真層( SIM layer )更具物理屬性。當(dāng)時(shí)廖老師反問:“物理性對(duì)自動(dòng)駕駛?cè)蝿?wù)真的那么重要嗎?” 這個(gè)問題讓我深思,后來(lái)發(fā)現(xiàn)確實(shí)如此,自動(dòng)駕駛中,除了天氣光照、路面積水反光(比如陳寶權(quán)老師團(tuán)隊(duì)做的相關(guān)研究)等邊緣場(chǎng)景,對(duì)物理規(guī)律的依賴并不強(qiáng)。但具身智能不同,機(jī)器人的夾爪摩擦力、力反饋,以及軟體、流體、鉸接體等的物理屬性,對(duì)任務(wù)影響極大。因此,物理真實(shí)性( physical world intelligence )對(duì)具身智能的世界模型反而更重要。

我們的探索方向和鄭老師提到的很接近:不僅依賴數(shù)據(jù)驅(qū)動(dòng),還借鑒了傳統(tǒng)仿真領(lǐng)域的經(jīng)驗(yàn),結(jié)合圖形學(xué)中的物理建模方法(如楊氏模量、彈簧 - 質(zhì)量模型等基于規(guī)則的物理仿真)與數(shù)據(jù)驅(qū)動(dòng)的生成模型(如 AIGC 生成模型),希望讓具身智能的世界模型既能保證物理真實(shí)性,又能實(shí)現(xiàn)表現(xiàn)真實(shí)( appearance real )。

楊夢(mèng)月:我對(duì)具身智能領(lǐng)域的了解確實(shí)比較有限,更多是從各位的觀點(diǎn)中學(xué)習(xí)。我的想法是,在具身場(chǎng)景中,能否通過某種機(jī)制或智能體捕捉物理規(guī)律,將其整合成因果模型,再利用該模型進(jìn)行反事實(shí)預(yù)測(cè)或推斷,大概是這樣的思路。

趙昊:我覺得這個(gè)觀點(diǎn)很有意思,這也是今年的一個(gè)重要趨勢(shì)。比如近期的 4KAgent 表現(xiàn)出色。我隱約感覺到,今年存在“算法 Agent 化”的趨勢(shì)。這個(gè)理論在2023年就已出現(xiàn)(比如 Visual Programming 團(tuán)隊(duì)關(guān)于 tool using 的 best paper ),但今年堪稱“ Agent 元年”,連寫代碼都能被 Agent 替代,因此,今年或許可以重新審視 Auto ML 、視覺編程等方向。

這個(gè)思路很有價(jià)值:世界模型未必是客觀被動(dòng)的、被物理規(guī)則固化的存在,它能否成為主動(dòng)演變的“環(huán)境 Agent ”,在與數(shù)據(jù)的互動(dòng)中持續(xù)優(yōu)化?這是今年值得探索的有趣方向。

廖依伊:我總體贊成金老師和鄭老師的觀點(diǎn),思路確實(shí)比較相近。從自動(dòng)駕駛世界模型到通用具身智能世界模型,兩者差異顯著:自動(dòng)駕駛中,智能體與環(huán)境的交互很有限,主要是與路面的交互,路面可建模為平面,自車可用基礎(chǔ)模型簡(jiǎn)化,其他物體(如車輛、行人)也有特定模型,場(chǎng)景相對(duì)局限。因此,自動(dòng)駕駛中無(wú)論是視頻生成還是其他任務(wù),都容易回歸到 3D 建模,且 3D 渲染高效,操作便捷。

但具身智能中, 3D 固然重要(因涉及交互),但維度復(fù)雜度大幅提升——既包括智能體自身的維度,也包括與環(huán)境交互的維度。我一直在糾結(jié)路線選擇:是走 2D 路線,還是 3D 路線?比如今年 Cosmos 的工作采用“ 3D+2D ”模式,先通過仿真器生成 Mesh ,再驅(qū)動(dòng)生成逼真視頻,這確實(shí)是未來(lái)趨勢(shì)之一,但未必是唯一趨勢(shì)。核心問題在于:是否必須顯式建模 3D ?在 2D 層面能否學(xué)好交互?若有足夠訓(xùn)練數(shù)據(jù), 2D 學(xué)習(xí)交互可能更簡(jiǎn)單——比如疊衣服、泥巴落地等非剛性物體場(chǎng)景,在 3D 中建模難度極大。如何做好 2D 與 3D 的結(jié)合,仍是難題。

趙昊:完全同意。若 3D、4D 仿真過于復(fù)雜,不顯式建?;蛟S更好。

金鑫:還要考慮訓(xùn)練復(fù)雜度和推理效率——機(jī)械臂等硬件的算力有限,復(fù)雜建模會(huì)更麻煩。

趙昊:感謝四位老師的分享。希望今天的安排大家滿意。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
商丘市政協(xié)原副主席、市衛(wèi)健委原主任張樹仁主動(dòng)投案接受紀(jì)律審查和監(jiān)察調(diào)查

商丘市政協(xié)原副主席、市衛(wèi)健委原主任張樹仁主動(dòng)投案接受紀(jì)律審查和監(jiān)察調(diào)查

極目新聞
2025-12-19 09:39:26
4天5條人命,中國(guó)不再忍耐,聯(lián)大下通牒:塔利班若再裝傻后果自負(fù)

4天5條人命,中國(guó)不再忍耐,聯(lián)大下通牒:塔利班若再裝傻后果自負(fù)

春秋論娛
2025-12-18 07:11:35
王室與軍方的陽(yáng)謀!泰王下旨"皇家庇護(hù)"兜底傷亡,讓泰軍放手去打

王室與軍方的陽(yáng)謀!泰王下旨"皇家庇護(hù)"兜底傷亡,讓泰軍放手去打

李健政觀察
2025-12-17 16:45:21
余華:我為什么討厭魯迅 (深度好文)

余華:我為什么討厭魯迅 (深度好文)

尚曦讀史
2025-11-28 09:51:13
上訴了!上訴了!傾家族之力想保一條命?金毛還想逆風(fēng)翻盤?

上訴了!上訴了!傾家族之力想保一條命?金毛還想逆風(fēng)翻盤?

魔都姐姐雜談
2025-12-17 08:58:26
對(duì)臺(tái)110億軍售后,不到24小時(shí),美國(guó)收中方通知,13萬(wàn)噸訂單沒了

對(duì)臺(tái)110億軍售后,不到24小時(shí),美國(guó)收中方通知,13萬(wàn)噸訂單沒了

時(shí)時(shí)有聊
2025-12-18 20:55:37
既是冰清玉潔,何須監(jiān)守自盜

既是冰清玉潔,何須監(jiān)守自盜

關(guān)爾東
2025-12-19 09:48:40
印度打造滑雪場(chǎng)游客帶裝備朝圣!到現(xiàn)場(chǎng)傻眼:帶一點(diǎn)雪的大土坡?

印度打造滑雪場(chǎng)游客帶裝備朝圣!到現(xiàn)場(chǎng)傻眼:帶一點(diǎn)雪的大土坡?

環(huán)球趣聞分享
2025-12-18 14:10:05
7.8億執(zhí)行款壓垮吳秀波!封殺7年再遭重創(chuàng),遠(yuǎn)走海外仍躲不過

7.8億執(zhí)行款壓垮吳秀波!封殺7年再遭重創(chuàng),遠(yuǎn)走海外仍躲不過

詩(shī)意世界
2025-12-18 10:34:14
劉衛(wèi)東被查前,干了兩件最不要臉的事。

劉衛(wèi)東被查前,干了兩件最不要臉的事。

南權(quán)先生
2025-12-18 16:50:39
美記:看到克萊獨(dú)自一人回?fù)魧?duì)手的挑釁,庫(kù)里心里十分難受

美記:看到克萊獨(dú)自一人回?fù)魧?duì)手的挑釁,庫(kù)里心里十分難受

移動(dòng)擋拆
2025-12-19 07:17:01
中國(guó)農(nóng)歷有多厲害?王蒙:世界上沒有任何歷法同時(shí)知道太陽(yáng)和月亮

中國(guó)農(nóng)歷有多厲害?王蒙:世界上沒有任何歷法同時(shí)知道太陽(yáng)和月亮

芳芳?xì)v史燴
2025-12-08 19:17:49
央視曝光固態(tài)電池重大消息!

央視曝光固態(tài)電池重大消息!

電動(dòng)知家
2025-12-18 10:41:13
河南美女“大晨”去世,年僅28歲,開的奧迪,喝酒畫面曝光引唏噓

河南美女“大晨”去世,年僅28歲,開的奧迪,喝酒畫面曝光引唏噓

詩(shī)意世界
2025-12-17 10:00:03
CBA最差教練!球隊(duì)開賽3連敗,有好球員不用,球迷:快下課

CBA最差教練!球隊(duì)開賽3連敗,有好球員不用,球迷:快下課

籃球?qū)^(qū)
2025-12-18 23:19:32
火箭加時(shí)負(fù)鵜鶘!3種戰(zhàn)術(shù)全部失敗,烏度卡該背鍋?杜蘭特來(lái)錯(cuò)隊(duì)

火箭加時(shí)負(fù)鵜鶘!3種戰(zhàn)術(shù)全部失敗,烏度卡該背鍋?杜蘭特來(lái)錯(cuò)隊(duì)

熊哥愛籃球
2025-12-19 12:35:47
美女白色露臍T恤配藍(lán)色瑜伽褲,性感值拉滿,簡(jiǎn)直是行走的 荷爾蒙

美女白色露臍T恤配藍(lán)色瑜伽褲,性感值拉滿,簡(jiǎn)直是行走的 荷爾蒙

小喬古裝漢服
2025-09-24 07:20:03
可憐!中山大學(xué)博士生張睿,腰痛查出胃癌,年僅23歲,5月花20萬(wàn)

可憐!中山大學(xué)博士生張睿,腰痛查出胃癌,年僅23歲,5月花20萬(wàn)

千言?shī)蕵酚?/span>
2025-12-18 22:06:29
青島:堅(jiān)決擁護(hù)黨中央決定

青島:堅(jiān)決擁護(hù)黨中央決定

新京報(bào)政事兒
2025-12-19 09:11:00
劉亦菲在家玩自拍!不料被鏡子“出賣”了,網(wǎng)友直呼:好女人??!

劉亦菲在家玩自拍!不料被鏡子“出賣”了,網(wǎng)友直呼:好女人啊!

小欣欣聊體育
2025-12-18 20:44:37
2025-12-19 12:51:00
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7012文章數(shù) 20715關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

媒體:美方官宣史上對(duì)臺(tái)單筆最大軍售 野心藏不住了

頭條要聞

媒體:美方官宣史上對(duì)臺(tái)單筆最大軍售 野心藏不住了

體育要聞

沒有塔圖姆,還有塔禿姆

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無(wú)期

汽車要聞

最便宜GLS 2026款奔馳GLS經(jīng)典版售96.8萬(wàn)

態(tài)度原創(chuàng)

教育
房產(chǎn)
旅游
手機(jī)
公開課

教育要聞

“考考考老師的法寶”應(yīng)該休矣

房產(chǎn)要聞

萬(wàn)科·三亞嘉瀾地,萬(wàn)科高端旅居系1號(hào)作品全球發(fā)布

旅游要聞

北京周末可往返!賞冰雪、涮暖鍋、逛大集……官方推薦攻略來(lái)了→

手機(jī)要聞

蘋果客服回應(yīng)“內(nèi)存用完致iPhone損壞”:建議及時(shí)清理并備份數(shù)據(jù)

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版