国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

圓桌論壇:關(guān)于“世界模型”突破方向的六個猜想 | GAIR 2025

0
分享至



單打獨斗已觸及天花板,是時候團結(jié)力量推進世界模型了。

作者丨齊鋮湧

編輯丨林覺民


“世界模型”是今年超級熱門的話題和方向,但整體來看相關(guān)研究尚處于起步階段,共識尚未形成。

在12月13日舉行的第八屆GAIR全球人工智能與機器人大會“世界模型”圓桌上,浙江大學(xué)研究員彭思達、騰訊ARC Lab高級研究員胡文博、中山大學(xué)計算機學(xué)院青年研究員,拓元智慧首席科學(xué)家王廣潤博士、香港中文大學(xué)(深圳)助理教授韓曉光、西湖大學(xué)助理教授修宇亮齊聚一堂。

五位年輕的學(xué)者在清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)助理教授,智源學(xué)者(BAAI Scholar)趙昊的主持下,圍繞著世界模型、數(shù)字人重建,新技術(shù)范式展望等展開了一場非常輕松但嚴肅的學(xué)術(shù)圓桌。

以下是具體內(nèi)容,AI科技評論做了不改變原意的編輯和整理。

01

關(guān)于世界模型,哪些技術(shù)突破值得期待?

趙昊:感謝各位。世界模型無疑是未來幾年最重要的技術(shù)方向之一。今天我們聊得會比較技術(shù)。先從彭老師開始,彭老師剛才介紹了Match Anything和Detector Free的Structure from Motion工作,我自己在用它們解決一些反光嚴重場景的重建,位姿估計問題,無論傳統(tǒng)方法還是VGGT等都不奏效。您認為,未來純粹的、前饋式的匹配方法會徹底取代現(xiàn)有方案,還是最終會走向融合?

彭思達:這取決于具體問題。在觀測足夠稠密的情況下,現(xiàn)有的COLMAP等方法已經(jīng)足夠精確;但在稀疏視角下,就必須依賴VGGT這類方法。目前VGGT的精度還有提升空間。我的一個觀點是,我們不僅要看算法進步,也要關(guān)注硬件發(fā)展。比如20年前的IMU精度很差,現(xiàn)在則很準。我們完全可以將IMU、激光雷達等其他傳感器信息融合進來,不必局限于純視覺的VGGT。

趙昊:有道理。另一個方向是運動估計,最近arXiv上也有很多新工作,效果超過了SpatialTrackerV2。您覺得這個領(lǐng)域發(fā)展到什么程度了?明年(2026年)會被徹底解決嗎?

彭思達:肯定不會被解決,這領(lǐng)域才剛剛開始,精度還遠遠不夠。但最近有一個重大突破,就是谷歌DeepMind團隊的新工作 D4RT。這個工作非常優(yōu)雅,它摒棄了以往基于特征相關(guān)性進行迭代優(yōu)化的主流范式,而是將整段視頻編碼為一組全局Token,然后可以直接查詢時空中任意點的信息。這是一個巨大的突破,我相信接下來會有一系列改進。明年不會是終點,而會是一個蓬勃發(fā)展期,可能到2027年才會逐漸收斂。

趙昊:所以總結(jié)一下,我大膽預(yù)測,基于查詢的幾何基礎(chǔ)模型會成為2026年的一個主題。不僅是D4RT,像修老師的Human3R也是查詢式的。我個人賭2026年幾何基礎(chǔ)模型會走向基于查詢的范式。彭老師,您2026年想bet什么方向?

彭思達:我賭自監(jiān)督學(xué)習能有重大突破?,F(xiàn)有的自監(jiān)督學(xué)習大多集中在語義和二維層面,缺乏面向空間智能的自監(jiān)督學(xué)習。我希望谷歌、DeepMind這些擁有龐大資源的研究機構(gòu)能在這方面做出成果,讓我們也能用上。

趙昊:我持類似觀點。這也是為什么當年自監(jiān)督深度估計研究了很久卻不太成功,現(xiàn)在轉(zhuǎn)向了模仿學(xué)習。我在想,明年是不是該把自監(jiān)督深度估計重新?lián)炱饋?,用于幾何基礎(chǔ)模型的后訓(xùn)練?

趙昊:接下來問問胡老師。2026年您bet什么方向?今年我們看到了你們的一系列4D AIGC工作和我們的Light-X這種5D AIGC工作,今天看了VerseCrafter之后,我覺得又增加了一個物體運動的維度。我們內(nèi)部一直在探討“6D AIGC”是什么,還有哪些可控維度?您的研究思路是怎樣的?

胡文博:我們之前的一系列工作,屬于韓老師總結(jié)的技術(shù)路線中的第三類——將3D信息注入擴散模型。但未來一年,我們可能不會繼續(xù)沿著這條路線深入了。我認為它的上限可能不夠高,因為重建技術(shù)無論發(fā)展多快,總存在瑕疵,難以達到完美真值的級別。因此,我們想探索一條全新的、上限更高的路線來融入3D信息,但目標依然是構(gòu)建世界模型。我個人肯定會賭世界模型這個方向。

特別是今年8月Google DeepMind發(fā)布的Genie 3,對我們這些領(lǐng)域內(nèi)的人來說非常震撼。我認為它可能達到了大語言模型中GPT-3的級別,雖然離ChatGPT還有距離,但已經(jīng)非常驚人。

彭思達:我有個問題,現(xiàn)在的世界模型或者說視頻世界模型,學(xué)到的特征對于空間感知和理解似乎沒什么用。這與“建模三維空間”的初衷有些矛盾。您認為這里缺失了什么?

胡文博:首先,我想對這個前提打個問號。它對于空間智能是否有用,我并不確定。但一些證據(jù)表明,從圖像或視頻擴散模型出發(fā),用少量數(shù)據(jù)就能微調(diào)出幾何估計模型,這可能說明它是有用的。不過,我更想說的是,我們對世界模型的定義和要求是什么?如果我們要求它精確理解3D空間,那可能需要探索。但我更認同韓老師的定義,我想做的是一個給個人用的世界模型,讓人們能體驗未知的、他人的或虛構(gòu)的世界。

這件事本身就很有意義。人類感知世界最主要的方式就是視覺,眼睛接收的就是視頻信號。如果我們能在視頻模態(tài)上實現(xiàn)優(yōu)秀的探索、交互,并且其物理規(guī)則符合現(xiàn)實(或自定義),那將非常有價值。至于它對空間智能是否有幫助,我暫時存疑。

彭思達:你剛才說的讓我想到一個應(yīng)用,也許可以叫“魔法相冊”?,F(xiàn)在的相冊只是靜態(tài)記錄,未來能否按一個按鈕,就讓照片里的內(nèi)容動起來,而且每次動得都不一樣?比如記錄孩子的成長,這絕對是剛需。

胡文博:這更像是讓圖像動起來。但對我來說,世界模型更吸引人的場景是:打開任意一張照片,你都能“進入”那個場景進行探索,與其中的物體交互,并且你的交互和更改能被永久保存,下次可以繼續(xù)。這更像是一個活的世界。

趙昊:看來我們形成了兩個初步共識:一是基于查詢的基礎(chǔ)模型是趨勢;二是當前3D范式存在上限,需要自監(jiān)督等新范式來突破。

趙昊:接下來請王老師分享一下,您對2026年有什么樣的展望或bet?

王廣潤:我先接續(xù)剛才的話題。世界模型有什么用?在我看來,一個核心應(yīng)用在具身智能和VLA領(lǐng)域。簡單來說,輸入圖像,輸出未來的動作序列,這些動作本質(zhì)包含了3D坐標向量。所以,VLA任務(wù)在我看來,也包含著預(yù)測未來的3D點云(可能是只有一個點的點云)。我認為世界模型可能是一個可泛化的、快速進行3D重建與預(yù)測的引擎。對于明年,我的期待是能看到 Physical Intelligence的“π 1”版本 發(fā)布,并希望其中包含更多對世界模型的建模。這是我對明年的一大期待。

趙昊:一個靈魂拷問:為什么π0還沒有接入深度圖或點云預(yù)測?這很讓人期待。

王廣潤:VLA領(lǐng)域目前主要缺的是數(shù)據(jù)。有種觀點認為未來只需堆數(shù)據(jù)即可。但要訓(xùn)練您說的那種模型,需要大量特定的3D標注數(shù)據(jù),采集非常困難。

02

“可交互性是世界模型的關(guān)鍵”

“數(shù)字人如何提供情緒價值”

趙昊:謝謝王老師。最后請韓老師。第二次聽您的演講,我在想我們是否可以把“3D對于可解釋性和安全性至關(guān)重要”這個觀點理論化,聯(lián)合國內(nèi)外學(xué)界寫一篇立場論文?

韓曉光:說實話,我雖然激情澎湃地講3D, partly是因為我沒有足夠資源去做視頻模型。我看到很多做3D的人轉(zhuǎn)向了視頻模型,包括文博也說3D看不到性能盡頭了。我講3D的重要性,也是想“煽動”大家繼續(xù)深耕3D領(lǐng)域,這樣我才有安全感。

關(guān)于2026年要做什么,我認為可交互性是世界模型的關(guān)鍵。我個人更偏向于做仿真環(huán)境中的可交互,比如生成一把剪刀,機器人拿起來真的能用;生成一個物體,可以被拆卸或操作。這是我主要想做的方向。

修宇亮:我一直在思考數(shù)字人領(lǐng)域中一個長期以來被忽略,但又很有趣的點。無論是做具身智能還是3D,大家最終都落腳到機器人能干活。但人與人交往,除了“有用”,“快樂”也是很重更要的一個維度,而一個人給另一個人帶來的快樂,往往不是對方給自己干了多少活,而是對方給我提供了多少情緒價值。

如果2026年有什么新方向,我特別想探索如何讓數(shù)字人提供情緒價值的問題。這很綜合,涉及音容笑貌、舉手投足。拿做飯舉例,做飯的快樂不僅在于炒菜本身,更在于一家人坐在一起享用時的愉悅的反饋。物理層面的問題,操作、抓取、移動,在不久的將來,會隨著智能水平的提升、硬件的迭代、運營上ROI 的打平,一個接一個落地,那么之后呢?溫飽之后,人很自然就有更高的精神上的追求。落實到數(shù)字人,我們需要將語音、語調(diào)、表情、動作等多模態(tài)統(tǒng)一協(xié)調(diào),形成一種能打動人心的整體感覺。就像趙昊老師做的靈巧臉的demo,技術(shù)上是領(lǐng)先的,但目前仍有恐怖谷效應(yīng),無法有效傳遞情緒價值。所以我認為可以先在數(shù)字世界中探索如何讓數(shù)字人的多種感官傳遞都“活靈活現(xiàn)”起來,形成協(xié)調(diào)一致的感覺,最終目標是讓人產(chǎn)生情感共鳴。

大模型也是如此。比如最近很火的那個 prompt:

我是一名智力低下的研究生,毫無基礎(chǔ),我將在明天組會上做ppt文獻匯報,請你解讀一下這篇文獻,讓我能達到徹底看到這篇文獻的效果,注意我是智障?。?!一定要幫我講明白,最好是翻譯出來,因為我對英語一竅不通,我只會中文,你要先給我規(guī)劃一下怎么向你提問最合適,一步步引導(dǎo)我看懂這篇文獻,并完成最終的ppt匯報稿

如果問這個話的是一個真人,那么理想的交互應(yīng)該是什么樣子呢,他應(yīng)該先說,“你已經(jīng)考上研究生了,你的智力已經(jīng)是極優(yōu)異的那一撮了,我想你只是需要一種更落地的對論文的解釋,這篇論文是關(guān)于……”,先給予情緒支持,再解決問題。這是人機交互中很重要的一點,這是我從我老婆身上學(xué)到的,一種比我之前三下五除二的溝通方式,更宜人的一種溝通方式。

趙昊:如果我們研究情緒價值,學(xué)術(shù)界面臨的最大問題是如何量化評估。沒有基準測試。我們明年是否可以先著手定義一些基準?就像MMMU對于多模態(tài)理解那樣。

修宇亮:這確實是個難題。情緒非常個人化。但并非無法量化,例如脫口秀可以用“罐頭笑聲”標記笑點。我們可以定義何時引發(fā)了何種情緒,盡管要建立一個普適、有說服力的基準非常困難。這可能需要新的技術(shù)手段。

趙昊:另一個問題:為什么3D數(shù)字人的發(fā)展似乎比通用3D物體慢?是數(shù)據(jù)問題嗎?難道不能用Trellis那樣的技術(shù)范式大幅提升精度嗎?

修宇亮:數(shù)據(jù)不足是一個問題。但更根本的是,數(shù)字人有一個“恐怖谷”效應(yīng):通用3D物體做到90%逼真度可能就很好了,甚至如果依賴于深度相機或者雷達感知,通用物體的操作,都未必需要紋理信息,但數(shù)字人這個領(lǐng)域,從誕生第一天,“保真度”就是毋庸置疑的事情,而且容錯率極低,做不到99分或100分,就是0分。人臉或者動作只要有一點點假,有一點點僵硬,就會令人不適。這也是為什么許多公司轉(zhuǎn)向卡通風格——預(yù)期管理更容易??ㄍ〝M人化,比數(shù)字人擬真化,技術(shù)要求低很多,從用戶的角度,也會更容易接受。擬真數(shù)字人需要極高的技術(shù)門檻和資金投入,短期內(nèi)難突破。

韓曉光:我補充一點,除了真實感,動態(tài)驅(qū)動也是巨大挑戰(zhàn)。一個靜態(tài)的3D數(shù)字人用處有限(除了3D打?。仨氉屗鼊悠饋?。而讓物體或人動起來,并且動得自然,目前都很難。

03

視頻生成模型是否面臨范式天花板?

情緒價值的本質(zhì)是語言,還是外觀?

彭思達:我有個問題給宇亮。您認為情緒價值的本質(zhì)是研究語言,還是外觀?如果要排序,哪個優(yōu)先級更高?

修宇亮:這不是非此即彼的問題。但如果排序,我認為語言(包括語調(diào))本身可能更重要,其次是表情和體態(tài)。即使遮住臉或綁住手,我們也能通過語言傳達大量情緒,你如果有聽過氣泡音的深夜電臺主播,你就知道我在說什么。

彭思達:接著一個更技術(shù)的問題:當前視頻生成模型是否也面臨范式天花板?例如圖像生成,StableDiffusion曾如火如荼,但如今被Nano Banana等基于語言-圖像統(tǒng)一建模的新范式超越?,F(xiàn)在似乎還沒有論文很好地將視頻與文本/語言在高層語義上進行統(tǒng)一建模。要讓你設(shè)想的數(shù)字人有“靈魂”,必然需要這種深度融合。您怎么看?

修宇亮:現(xiàn)在確實有一些視頻模型能根據(jù)音頻生成口型,但還不是真正的“形神兼?zhèn)洹?。這種靈魂感往往體現(xiàn)在高頻細節(jié)上,比如微表情、語調(diào)的微妙變化,這些細節(jié)在像素層面可能都難以捕捉,在損失函數(shù)中也作用忽微,你看《建國大業(yè)》里面,老蔣聽到李宗仁當選總統(tǒng)的時候的那個微表情變化,這樣像素級的情感傳遞,能用 AI 準確生成嗎?建模這種極致的逼真度本身就是最后一公里的巨大挑戰(zhàn)。

韓曉光:關(guān)于情緒價值,我甚至覺得,有時不提供具體形象可能更好。越具體、越真實,有時越會限制想象力。一個未知形象但聲音溫柔的角色,可能給人更多想象空間和情緒價值。

修宇亮:情緒價值常常來自“反差感”和“預(yù)期違背”,而這與當前大模型“準確預(yù)測下一個詞”的訓(xùn)練目標是相反的,語言模型是要準確預(yù)測下一個詞是什么,但脫口秀的工作邏輯不是這樣,要更高一級,他得在知道下一個詞最可能是什么的前提下,給出一個最不可能但又合理的輸出,這就是脫口秀的預(yù)期違背。如何讓以“捕捉人類直覺”聞名的大模型,去學(xué)習生成這種“反直覺但細想想又很合理”的內(nèi)容,是我感興趣的,我甚至認為幽默本身,就是人類智能的一種體現(xiàn),人類就是在預(yù)期違背中,去忤逆去突破,打破成見形成集體對事物全新的認知,脫口秀演員和科學(xué)家,本質(zhì)上是一類人。

趙昊:這或許是個好方向,比如讓數(shù)字人講脫口秀。另外,回到統(tǒng)一生成與理解的問題,像Nano Banana那樣的工作,將其擴展到視頻需要多少計算資源?

彭思達:這需要一些基礎(chǔ)算法,比如視頻的Tokenization目前可能都沒做得很好。視頻理解和生成的需求也不同,一個可能需要處理一小時長視頻,另一個可能只生成5-10秒。如果Tokenization問題沒解決好,以目前的規(guī)模,上萬張GPU卡可能是起步。

趙昊:視頻的Tokenizer正是我2026年想賭的方向之一。最后,我正式向在座的各位,以及產(chǎn)業(yè)界、學(xué)術(shù)界的朋友發(fā)出倡議:我們是否可以共同建立一個世界模型的技術(shù)聯(lián)盟或發(fā)布一份倡議書? 當前單打獨斗似乎已觸及天花板,是時候團結(jié)力量,共同推進真正的世界模型了。

今天的討論就到這里,感謝各位!

未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
74比95慘敗丟冠!女籃霸主狂輸21分被掀翻:1年連丟三冠太慘了

74比95慘敗丟冠!女籃霸主狂輸21分被掀翻:1年連丟三冠太慘了

籃球快餐車
2026-03-10 05:40:05
凌晨,杭州外賣小哥追尾轎車提出400元私了!車主反手一個操作,被千萬網(wǎng)友夸爆!

凌晨,杭州外賣小哥追尾轎車提出400元私了!車主反手一個操作,被千萬網(wǎng)友夸爆!

環(huán)球網(wǎng)資訊
2026-03-09 15:45:13
家長曬女兒反被嘲:這不是小家碧玉,這是營養(yǎng)不良

家長曬女兒反被嘲:這不是小家碧玉,這是營養(yǎng)不良

蝴蝶花雨話教育
2026-03-04 01:20:03
田曦薇胸前的珍珠好大,屬實是被 “夾住” 了!

田曦薇胸前的珍珠好大,屬實是被 “夾住” 了!

飛娛日記
2026-03-08 08:53:03
皇馬叫停保級聚餐!C隊小將沒吃成飯,反倒化悲憤為力量4-0大勝

皇馬叫停保級聚餐!C隊小將沒吃成飯,反倒化悲憤為力量4-0大勝

仰臥撐FTUer
2026-03-10 19:26:03
龍洋眼往上瞟,不是看提詞器,也不是針打多了,而是一個“硬傷”

龍洋眼往上瞟,不是看提詞器,也不是針打多了,而是一個“硬傷”

她時尚丫
2026-02-17 22:41:30
復(fù)出首秀24分!二年級的米切爾,雷霆又一神簽約!

復(fù)出首秀24分!二年級的米切爾,雷霆又一神簽約!

籃球?qū)嶄?/span>
2026-03-10 23:50:33
在線吃瓜,北京北控球員廖三寧被爆出軌

在線吃瓜,北京北控球員廖三寧被爆出軌

郭夷包工頭
2026-03-09 20:59:43
柳某、王某等4人被西安警方查獲

柳某、王某等4人被西安警方查獲

91.6陜西交通廣播
2026-03-10 08:09:25
23支液體、15個小時的連續(xù)輸注,娃的情緒已經(jīng)接近暴躁

23支液體、15個小時的連續(xù)輸注,娃的情緒已經(jīng)接近暴躁

果殼
2026-03-08 20:08:15
他26歲拼命追一34歲有病、不能生、還窮的女人,所有人都說他瘋了

他26歲拼命追一34歲有病、不能生、還窮的女人,所有人都說他瘋了

南權(quán)先生
2026-02-09 15:56:02
外媒緊盯,臺島震動!兩艘“超級戰(zhàn)艦”突然部署東海,危險信號!

外媒緊盯,臺島震動!兩艘“超級戰(zhàn)艦”突然部署東海,危險信號!

頭條爆料007
2026-03-09 12:58:08
伊朗確認穆杰塔巴受傷;專家會議都是些什么專家?

伊朗確認穆杰塔巴受傷;專家會議都是些什么專家?

寰宇大觀察
2026-03-09 15:24:05
價格暴漲!越漲越買!這里,進入搶貨模式

價格暴漲!越漲越買!這里,進入搶貨模式

齊魯壹點
2026-03-10 07:37:15
伊朗究竟有多少女忍者?

伊朗究竟有多少女忍者?

不相及研究所
2026-03-10 22:22:10
伊朗還能高強度作戰(zhàn)至少半年?專家:影響戰(zhàn)爭長短和走向的因素有很多

伊朗還能高強度作戰(zhàn)至少半年?專家:影響戰(zhàn)爭長短和走向的因素有很多

紅星新聞
2026-03-09 20:44:41
總把長壽歸功于基因好?研究:全球百歲老人的共性是這份長壽菜單

總把長壽歸功于基因好?研究:全球百歲老人的共性是這份長壽菜單

時光派健康抗衰
2026-03-10 11:00:03
重慶最不像鎮(zhèn)的一個鎮(zhèn),人口13萬繁華叫板縣城,被稱為小香港

重慶最不像鎮(zhèn)的一個鎮(zhèn),人口13萬繁華叫板縣城,被稱為小香港

帶著瓶蓋兒去旅行
2026-03-10 21:41:03
地中海又傳來一聲巨響,俄6萬噸巨輪慘遭擊沉,普京:絕不輕饒!

地中海又傳來一聲巨響,俄6萬噸巨輪慘遭擊沉,普京:絕不輕饒!

趣文說娛
2026-03-09 17:52:17
日本遠程導(dǎo)彈瞄準上海?高市早已通告全球,解放軍新增2大利器

日本遠程導(dǎo)彈瞄準上海?高市早已通告全球,解放軍新增2大利器

千羽解讀
2026-03-10 19:38:35
2026-03-11 04:08:49
AI科技評論 incentive-icons
AI科技評論
點評學(xué)術(shù),服務(wù)AI
7111文章數(shù) 20739關(guān)注度
往期回顧 全部

科技要聞

全民"養(yǎng)蝦"背后:大廠集體下場瘋狂賣Token

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開發(fā)表講話 官方回應(yīng)

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開發(fā)表講話 官方回應(yīng)

體育要聞

加蘭沒那么差,但鱸魚會用嗎?

娛樂要聞

《逐玉》注水風波升級!315評論區(qū)淪陷

財經(jīng)要聞

“龍蝦補貼”密集出爐 最高1000萬!

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

房產(chǎn)
數(shù)碼
教育
公開課
軍事航空

房產(chǎn)要聞

信號!千億巨頭入局,三亞開啟新一輪大征拆!

數(shù)碼要聞

M5 Max 版 16 英寸 MacBook Pro 體驗:算力巔峰與專業(yè)視界

教育要聞

2026兩會給教育定調(diào) 教育邏輯大洗牌

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

剛說完戰(zhàn)爭很快結(jié)束 特朗普改口

無障礙瀏覽 進入關(guān)懷版