国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

世界模型==VQA?機(jī)器人不用想象畫面,預(yù)測(cè)語義就夠了

0
分享至



機(jī)器之心報(bào)道

編輯:張倩

對(duì)于機(jī)器人來說,世界模型真的有必要想象出精確的未來畫面嗎?在一篇新論文中,來自華盛頓大學(xué)、索尼 AI 的研究者提出了這個(gè)疑問。



眾所周知,世界模型是一種讓 AI「想象未來」的學(xué)習(xí)方法。它可以從大量數(shù)據(jù)中學(xué)習(xí)世界的運(yùn)行規(guī)律,然后根據(jù)當(dāng)前狀態(tài)預(yù)測(cè)未來可能發(fā)生的事情。這種能力非常關(guān)鍵,因?yàn)槿绻?AI 能對(duì)未來做出合理預(yù)測(cè),就能提前規(guī)劃出更聰明、更穩(wěn)健的行動(dòng)策略。

在實(shí)踐中,世界模型的實(shí)現(xiàn)形式多種多樣,從小規(guī)模的基于狀態(tài)的動(dòng)力學(xué)模型,到大型的基于動(dòng)作條件的視頻預(yù)測(cè)模型都有。但無論形式如何,大多數(shù)模型都會(huì)嘗試「還原未來的畫面」。這種方法雖然常常能生成逼真的圖像,但卻不一定適合用來做決策。原因在于:圖像看起來再真實(shí),也可能漏掉一些真正關(guān)鍵的語義細(xì)節(jié) —— 比如兩個(gè)物體是否真的發(fā)生了接觸。

過去有一些方法嘗試只建?!概c任務(wù)相關(guān)」的信息,但這類方法往往需要額外的假設(shè),比如必須知道獎(jiǎng)勵(lì)函數(shù)或任務(wù)中某些已知因素。這讓它們?cè)趯?shí)際使用中變得不太靈活。

如果像素信息并非規(guī)劃所必需,那么做出行動(dòng)決策所真正需要的是什么?

這篇論文提出:能夠預(yù)測(cè)關(guān)于未來結(jié)果的語義信息就足夠了。世界模型不應(yīng)再專注于預(yù)測(cè)原始的視覺幀,而應(yīng)捕捉與任務(wù)相關(guān)的對(duì)象及其交互信息,例如:「機(jī)械臂是否更靠近目標(biāo)物體?」「紅色方塊是否傾倒?」「藍(lán)色球是否被拾起?」

論文將這種信息建模為一個(gè)關(guān)于未來的視覺問答(VQA)問題,利用這樣一個(gè)事實(shí):任何目標(biāo)結(jié)果都可以用一系列「是 / 否」問題來表達(dá)。換言之,世界建模問題可以被重新定義為一個(gè)關(guān)于未來結(jié)果的 VQA 問題。

目前已有一類模型具備完善的視覺問答工具體系,即視覺語言模型(VLM)。在世界建模任務(wù)中,VLM 具有兩大優(yōu)勢(shì):

  • 一是,它們通過大規(guī)模預(yù)訓(xùn)練獲得了強(qiáng)大的視覺問答能力與廣泛的泛化能力;
  • 二是,它們編碼了關(guān)于任務(wù)與場(chǎng)景語義特征的先驗(yàn)知識(shí)。

這些優(yōu)勢(shì)使得前沿的 VLM 能夠提出與任務(wù)相關(guān)的問題,并在給定靜態(tài)觀測(cè)時(shí)給出可靠的答案。然而,它們?nèi)狈?duì)未來結(jié)果的預(yù)測(cè)能力,這限制了它們?cè)跊Q策任務(wù)中的直接應(yīng)用。

為此,新論文提出了「語義世界模型(Semantic World Model, SWM)」的概念。SVM 是一種具備泛化能力的世界模型,它以動(dòng)作條件的視覺語言模型形式存在,能夠回答關(guān)于未來動(dòng)作語義效果的問題。



  • 論文標(biāo)題:SEMANTIC WORLD MODELS
  • 論文鏈接:https://arxiv.org/pdf/2510.19818
  • 項(xiàng)目鏈接:https://weirdlabuw.github.io/swm/

與傳統(tǒng)預(yù)測(cè)未來幀的世界模型不同,SWM 在給定當(dāng)前觀測(cè)(圖像表示)與動(dòng)作序列的情況下,回答關(guān)于未來的自然語言問題。

如圖 1 所示,模型輸入包括:當(dāng)前觀測(cè)、一系列擬執(zhí)行的動(dòng)作,以及一個(gè)關(guān)于未來的自然語言提問。模型通過理解這些動(dòng)作在環(huán)境中將帶來的后果,生成相應(yīng)的文本回答。



由于 SWM 本質(zhì)上是一個(gè)與任務(wù)無關(guān)的世界模型,它可以在對(duì)通用序列數(shù)據(jù)質(zhì)量要求極低的情況下進(jìn)行訓(xùn)練,這些數(shù)據(jù)包括游戲數(shù)據(jù)和非最優(yōu)數(shù)據(jù)。訓(xùn)練數(shù)據(jù)可以很容易地從任何(專家或非專家)數(shù)據(jù)語料庫中獲取,其格式為當(dāng)前觀測(cè)結(jié)果、行動(dòng)、(關(guān)于未來的)問題以及預(yù)期答案。

通過 SWM 來推理未來結(jié)果,AI 就能夠在動(dòng)作空間中進(jìn)行靈活的、開放世界的多任務(wù)規(guī)劃。

當(dāng)任務(wù)以自然語言描述時(shí),系統(tǒng)可以有兩種方式理解目標(biāo):要么利用預(yù)訓(xùn)練好的 VLM 自動(dòng)解析任務(wù)意圖,要么由人類將任務(wù)拆解成一組文本化的「問題 — 期望答案」對(duì)。在得到這組問答之后,SWM 就可以用來規(guī)劃動(dòng)作,使得未來得到這些期望答案的可能性最大化。

給定自然語言形式的任務(wù)說明,人們既可以利用預(yù)訓(xùn)練的 VLM,也可以手動(dòng)將任務(wù)說明分解為一組問題以及文本形式的預(yù)期答案。有了這個(gè)問答集,SWM 就可以被用來規(guī)劃動(dòng)作,從而極有可能在未來得出這些問題的預(yù)期答案。

盡管有大量技術(shù)可用于這種規(guī)劃,但本研究表明,它與零階基于采樣的方法以及一階梯度規(guī)劃方法都兼容,這些方法會(huì)針對(duì)預(yù)期似然目標(biāo)進(jìn)行優(yōu)化。研究表明,這些規(guī)劃方法在計(jì)算上是可行的,相比常規(guī)的動(dòng)作選擇方法,能在測(cè)試時(shí)帶來顯著改進(jìn)。此外,它還展示了此類規(guī)劃方法對(duì)多步驟長(zhǎng)程問題的可擴(kuò)展性。

在實(shí)驗(yàn)方面,SWM 在兩個(gè)常用的多任務(wù)仿真環(huán)境 ——Language Table(LangTable)與 OGBench—— 上進(jìn)行了評(píng)估。結(jié)果表明:SWM 能夠準(zhǔn)確回答關(guān)于未來結(jié)果的問題,并能泛化到新場(chǎng)景中。SWM 可以與基于采樣的標(biāo)準(zhǔn)規(guī)劃技術(shù)以及基于梯度的改進(jìn)技術(shù)相結(jié)合,通過測(cè)試時(shí)優(yōu)化實(shí)現(xiàn)顯著的策略改進(jìn),從而解決各種機(jī)器人任務(wù)。

綜上所述,SWM 代表了一類新型的世界模型,它利用 VLM 的豐富預(yù)訓(xùn)練知識(shí),實(shí)現(xiàn)了可落地、靈活且可擴(kuò)展的機(jī)器人控制。

語義世界模型概覽

下圖 2 展示了語義世界模型的概況。SWM 是一種視覺語言模型,經(jīng)過調(diào)整后能夠回答與未來相關(guān)的問題,這些問題由用于調(diào)整模型的動(dòng)作所決定。通過一系列問題和期望的答案,其預(yù)測(cè)可以轉(zhuǎn)化為規(guī)劃信號(hào),并迭代優(yōu)化動(dòng)作序列。



數(shù)據(jù)集生成

為了訓(xùn)練一個(gè)能夠回答關(guān)于未來問題的世界模型,本文生成了一個(gè)狀態(tài) - 動(dòng)作 - 問題 - 答案(SAQA)數(shù)據(jù)集。圖 3 展示了該數(shù)據(jù)集中一個(gè)單獨(dú)的狀態(tài)與多個(gè)問題和答案的配對(duì)情況。



架構(gòu)概覽

SWM 是一個(gè)能夠在給定動(dòng)作條件下回答關(guān)于未來事件問題的模型。具備這種能力的模型本質(zhì)上是一種帶有動(dòng)作條件的視覺問答模型。因此,從大型預(yù)訓(xùn)練視覺語言模型(VLM)出發(fā),將其泛化能力遷移到機(jī)器人任務(wù)中是很自然的做法。這種 SWM 架構(gòu)基于開源的視覺語言模型 PaliGemma。

該模型包含三個(gè)核心預(yù)訓(xùn)練組件:一個(gè)基于 Transformer 的自回歸語言模型(其 token 嵌入大小為 d_tok)、一個(gè)視覺編碼器 v_?(其特征大小為 d_img)以及一個(gè)投影矩陣。PaliGemma 架構(gòu)建立在兩個(gè)單獨(dú)訓(xùn)練的組件之上:Gemma 大語言模型和 SigLIP 圖像編碼器 V_sc。W 用于從 Z_sc 投影到 Z_LLM,其中 Z_sc 是 v_? 的特征空間,Z_LLM 是大語言模型的輸入 token 嵌入空間。本文使用 PaliGemma 的 30 億參數(shù)檢查點(diǎn)作為基礎(chǔ)模型。



為了讓基礎(chǔ)模型能夠就「某一特定未來(由行動(dòng)產(chǎn)生)」回答問題,模型必須以這些行動(dòng)為條件。為此,作者引入一個(gè)新的投影矩陣,它將單個(gè)動(dòng)作映射到與 W 投影矩陣類似的潛空間 Z_LLM 中。





給定數(shù)據(jù)集 D_SAQA 中的一個(gè)元組 (S_i, a_{i:j}, Q_{S_j}, A_{S_j}),輸入序列通過將圖像嵌入、動(dòng)作嵌入和問題 token 嵌入拼接而成:



隨后,模型以端到端方式微調(diào),通過優(yōu)化標(biāo)準(zhǔn)交叉熵?fù)p失來預(yù)測(cè)目標(biāo)答案 A_{S_j}。



這種訓(xùn)練過程使模型能夠在語言空間中捕捉環(huán)境的動(dòng)態(tài),從而在無需顯式生成像素級(jí)表征的情況下回答有關(guān)未來狀態(tài)的問題。

實(shí)驗(yàn)結(jié)果

SWM 是否是一個(gè)有效的決策世界模型?

首先,作者通過在 LangTable 和 OGBench 任務(wù)上將基于采樣的規(guī)劃方法 MPPI 應(yīng)用于 SWM 模型,對(duì) SWM 的規(guī)劃能力進(jìn)行評(píng)估。

如表 2 所示,可以直接在語義世界模型之上使用基于采樣的規(guī)劃方法進(jìn)行規(guī)劃,在兩個(gè)環(huán)境中的到達(dá)和方塊分離任務(wù)上都取得了接近完美的成功率。



然而,對(duì)于大型模型而言,基于采樣的規(guī)劃方法計(jì)算成本高昂,在需要更多樣本的更具挑戰(zhàn)性的任務(wù)上運(yùn)行 MPPI 并不可行。因此,對(duì)于更復(fù)雜的任務(wù),考慮這樣一種場(chǎng)景:由一個(gè)基礎(chǔ)策略生成候選軌跡,再利用 SWM 和基于梯度的優(yōu)化對(duì)其進(jìn)行細(xì)化。如圖 5 所示,該方法能夠?qū)蜻x軌跡進(jìn)行細(xì)化,并相比基礎(chǔ)策略取得顯著提升。在 LangTable 上,SWM 相比基礎(chǔ)策略的平均性能從 14.4% 提升至 81.6%;在 OGBench 上,從 45.33% 提升至 76%。SWM 在所有任務(wù)上也均優(yōu)于 AVD 和 IDQL 基線,展示了其在規(guī)劃方面的有效性。



SWM 還通過先選擇子目標(biāo),再圍繞該子目標(biāo)進(jìn)行規(guī)劃,展現(xiàn)出處理更長(zhǎng)程任務(wù)的能力。如表 1 所示,在多步任務(wù)上,SWM 的平均策略改進(jìn)幅度達(dá) 52.0%,優(yōu)于 AVD 基線。



次優(yōu)數(shù)據(jù)是否能提高建模性能?

從表 3 可以看出,混入次優(yōu)數(shù)據(jù)比僅使用專家數(shù)據(jù)進(jìn)行訓(xùn)練能提高準(zhǔn)確率。SWM 僅通過次優(yōu)數(shù)據(jù)訓(xùn)練也能達(dá)到中等水平的性能,這表明次優(yōu)數(shù)據(jù)在訓(xùn)練語義世界模型方面是多么有效。



SWM 是否保留了基礎(chǔ) VLM 的泛化能力?

為了衡量 VLM 預(yù)訓(xùn)練對(duì)泛化能力的影響,作者在組合式和場(chǎng)景分布外環(huán)境中對(duì) SWM 進(jìn)行了評(píng)估,相關(guān)環(huán)境如圖 6 所示。



為了衡量語義組合泛化能力,在 LangTable 環(huán)境中引入了一個(gè)新的彩色方塊,并修改了現(xiàn)有的方塊顏色 - 形狀組合。表 4 顯示,在這些條件下,與基礎(chǔ)策略相比,SWM 平均提高了 20.0%。這一性能表明,SWM 能夠保留部分預(yù)訓(xùn)練知識(shí),從而實(shí)現(xiàn)組合泛化。



為了測(cè)試對(duì)背景變化的魯棒性,作者將 OGBench 的背景顏色改為一種新的組合。與基礎(chǔ)策略相比,SWM 的性能再次提升了 20%,并且能夠泛化到這些條件,而 AVD 方法則無法做到這一點(diǎn)。

模型的內(nèi)部表征是否關(guān)注與任務(wù)相關(guān)的信息?

為了理解模型所學(xué)的表征,作者從模型的一個(gè)中間層可視化了從語言 token 到圖像 patch 的注意力圖。如圖 7 所示,模型會(huì)根據(jù)語言提示正確關(guān)注圖像中與任務(wù)相關(guān)的位置。例如,當(dāng)被問到「紅色的月亮是否在接觸藍(lán)色的立方體?」時(shí),與這些物體對(duì)應(yīng)的圖像 patch 上的注意力得分更高。盡管從未在涉及兩個(gè)以上物體的問題上進(jìn)行過微調(diào),但研究發(fā)現(xiàn),當(dāng)被問及此類問題時(shí),該模型能夠正確關(guān)注三個(gè)物體。這表明該模型繼承了預(yù)訓(xùn)練 VLM 的泛化能力。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
女子借款13萬卻要還近1300萬,名下近千萬房產(chǎn)被迫抵押!成都警方披露→

女子借款13萬卻要還近1300萬,名下近千萬房產(chǎn)被迫抵押!成都警方披露→

封面新聞
2025-12-18 16:17:10
動(dòng)真格了!新華社對(duì)王莉的舉報(bào)起作用,范某被停職,結(jié)果大快人心

動(dòng)真格了!新華社對(duì)王莉的舉報(bào)起作用,范某被停職,結(jié)果大快人心

番茄娛樂加
2025-12-19 10:48:58
江蘇一男子意外抽中“白鹿足金黃金海報(bào)”,熔出近10g金豆,卻被告知血虧

江蘇一男子意外抽中“白鹿足金黃金海報(bào)”,熔出近10g金豆,卻被告知血虧

瀟湘晨報(bào)
2025-12-19 10:57:11
77年我把公社會(huì)計(jì)肚子搞大,她被調(diào)回省再?zèng)]消息,我以為緣分盡了

77年我把公社會(huì)計(jì)肚子搞大,她被調(diào)回省再?zèng)]消息,我以為緣分盡了

蕭竹輕語
2025-12-11 18:42:00
回國(guó)后我才敢說:越南是我去過的所有國(guó)家中,最被低估的

回國(guó)后我才敢說:越南是我去過的所有國(guó)家中,最被低估的

李健政觀察
2025-12-18 09:49:21
第一個(gè)取消育兒補(bǔ)貼的省份來了

第一個(gè)取消育兒補(bǔ)貼的省份來了

數(shù)字財(cái)經(jīng)智庫
2025-12-18 12:13:04
當(dāng)年拆除了亞洲最大的火車站,現(xiàn)在腸子都悔青了!

當(dāng)年拆除了亞洲最大的火車站,現(xiàn)在腸子都悔青了!

霹靂炮
2025-12-18 22:29:33
成都一高校學(xué)生失聯(lián),警方通報(bào):全力搜尋

成都一高校學(xué)生失聯(lián),警方通報(bào):全力搜尋

界面新聞
2025-12-19 13:33:08
以色列暗殺伊朗核科學(xué)家細(xì)節(jié)曝光:和美國(guó)反復(fù)磋商,暗殺名單從100人縮減至12人

以色列暗殺伊朗核科學(xué)家細(xì)節(jié)曝光:和美國(guó)反復(fù)磋商,暗殺名單從100人縮減至12人

爆角追蹤
2025-12-18 19:38:52
影子調(diào)查|一起家校矛盾,沖突到“裂開”

影子調(diào)查|一起家校矛盾,沖突到“裂開”

澎湃新聞
2025-12-19 08:02:28
王室與軍方的陽謀!泰王下旨"皇家庇護(hù)"兜底傷亡,讓泰軍放手去打

王室與軍方的陽謀!泰王下旨"皇家庇護(hù)"兜底傷亡,讓泰軍放手去打

李健政觀察
2025-12-17 16:45:21
25分大逆轉(zhuǎn)!火箭創(chuàng)恥辱紀(jì)錄,KD追平約基奇,烏度卡要看清現(xiàn)實(shí)

25分大逆轉(zhuǎn)!火箭創(chuàng)恥辱紀(jì)錄,KD追平約基奇,烏度卡要看清現(xiàn)實(shí)

世界體育圈
2025-12-19 16:45:35
樂山一小區(qū)網(wǎng)捕流浪貓致幼貓死亡引爭(zhēng)議 記者走訪:多只流浪貓被緊急收養(yǎng),公安已介入調(diào)查

樂山一小區(qū)網(wǎng)捕流浪貓致幼貓死亡引爭(zhēng)議 記者走訪:多只流浪貓被緊急收養(yǎng),公安已介入調(diào)查

封面新聞
2025-12-19 12:05:46
清朝垮臺(tái)時(shí),各地不許漢人進(jìn)入的滿城都是什么下場(chǎng)

清朝垮臺(tái)時(shí),各地不許漢人進(jìn)入的滿城都是什么下場(chǎng)

掠影后有感
2025-12-18 10:08:33
當(dāng)聽泉鑒寶直播的“博物館一件,我一件”玩笑話成為現(xiàn)實(shí)

當(dāng)聽泉鑒寶直播的“博物館一件,我一件”玩笑話成為現(xiàn)實(shí)

總在茶余后
2025-12-18 06:00:09
開380億美元罰單,印度吃準(zhǔn)蘋果要從中國(guó)跑路,連裝都不裝了

開380億美元罰單,印度吃準(zhǔn)蘋果要從中國(guó)跑路,連裝都不裝了

壹知眠羊
2025-12-19 07:25:41
王東首談兒子,21歲只有十一二歲智力,坦言生活困難要靠親姐接濟(jì)

王東首談兒子,21歲只有十一二歲智力,坦言生活困難要靠親姐接濟(jì)

八怪娛
2025-12-19 09:33:25
微信新規(guī)已經(jīng)明確!從12月開始,這類微信用戶將無法進(jìn)行轉(zhuǎn)賬!

微信新規(guī)已經(jīng)明確!從12月開始,這類微信用戶將無法進(jìn)行轉(zhuǎn)賬!

復(fù)轉(zhuǎn)這些年
2025-12-17 23:46:36
局氣!歐文送獨(dú)行俠每人一輛高爾夫球車,價(jià)值9000美金弗拉格樂開花

局氣!歐文送獨(dú)行俠每人一輛高爾夫球車,價(jià)值9000美金弗拉格樂開花

818體育
2025-12-18 20:51:28
貝殼這一出,不是蠢,就是壞!

貝殼這一出,不是蠢,就是壞!

大嘴説
2025-12-18 10:02:11
2025-12-19 17:00:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142513關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

美批準(zhǔn)對(duì)臺(tái)逾111億美元軍售 國(guó)防部回應(yīng)

頭條要聞

美批準(zhǔn)對(duì)臺(tái)逾111億美元軍售 國(guó)防部回應(yīng)

體育要聞

“惡龍”埃托奧,正在毀滅喀麥隆足球

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無期

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

教育
親子
數(shù)碼
家居
公開課

教育要聞

中考數(shù)學(xué)壓軸題,不少人交白卷,很難嗎?

親子要聞

金寶貝獲“2025年度綜合實(shí)力兒童教育品牌”引領(lǐng)科學(xué)早教創(chuàng)新實(shí)踐

數(shù)碼要聞

Intel代工迎來契機(jī)!14A制程拿下NVIDIA、AMD訂單

家居要聞

高端私宅 理想隱居圣地

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版