国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

世界模型==VQA?機器人不用想象畫面,預測語義就夠了

0
分享至



機器之心報道

編輯:張倩

對于機器人來說,世界模型真的有必要想象出精確的未來畫面嗎?在一篇新論文中,來自華盛頓大學、索尼 AI 的研究者提出了這個疑問。



眾所周知,世界模型是一種讓 AI「想象未來」的學習方法。它可以從大量數(shù)據(jù)中學習世界的運行規(guī)律,然后根據(jù)當前狀態(tài)預測未來可能發(fā)生的事情。這種能力非常關鍵,因為如果 AI 能對未來做出合理預測,就能提前規(guī)劃出更聰明、更穩(wěn)健的行動策略。

在實踐中,世界模型的實現(xiàn)形式多種多樣,從小規(guī)模的基于狀態(tài)的動力學模型,到大型的基于動作條件的視頻預測模型都有。但無論形式如何,大多數(shù)模型都會嘗試「還原未來的畫面」。這種方法雖然常常能生成逼真的圖像,但卻不一定適合用來做決策。原因在于:圖像看起來再真實,也可能漏掉一些真正關鍵的語義細節(jié) —— 比如兩個物體是否真的發(fā)生了接觸。

過去有一些方法嘗試只建模「與任務相關」的信息,但這類方法往往需要額外的假設,比如必須知道獎勵函數(shù)或任務中某些已知因素。這讓它們在實際使用中變得不太靈活。

如果像素信息并非規(guī)劃所必需,那么做出行動決策所真正需要的是什么?

這篇論文提出:能夠預測關于未來結果的語義信息就足夠了。世界模型不應再專注于預測原始的視覺幀,而應捕捉與任務相關的對象及其交互信息,例如:「機械臂是否更靠近目標物體?」「紅色方塊是否傾倒?」「藍色球是否被拾起?」

論文將這種信息建模為一個關于未來的視覺問答(VQA)問題,利用這樣一個事實:任何目標結果都可以用一系列「是 / 否」問題來表達。換言之,世界建模問題可以被重新定義為一個關于未來結果的 VQA 問題。

目前已有一類模型具備完善的視覺問答工具體系,即視覺語言模型(VLM)。在世界建模任務中,VLM 具有兩大優(yōu)勢:

  • 一是,它們通過大規(guī)模預訓練獲得了強大的視覺問答能力與廣泛的泛化能力;
  • 二是,它們編碼了關于任務與場景語義特征的先驗知識。

這些優(yōu)勢使得前沿的 VLM 能夠提出與任務相關的問題,并在給定靜態(tài)觀測時給出可靠的答案。然而,它們?nèi)狈ξ磥斫Y果的預測能力,這限制了它們在決策任務中的直接應用。

為此,新論文提出了「語義世界模型(Semantic World Model, SWM)」的概念。SVM 是一種具備泛化能力的世界模型,它以動作條件的視覺語言模型形式存在,能夠回答關于未來動作語義效果的問題。



  • 論文標題:SEMANTIC WORLD MODELS
  • 論文鏈接:https://arxiv.org/pdf/2510.19818
  • 項目鏈接:https://weirdlabuw.github.io/swm/

與傳統(tǒng)預測未來幀的世界模型不同,SWM 在給定當前觀測(圖像表示)與動作序列的情況下,回答關于未來的自然語言問題。

如圖 1 所示,模型輸入包括:當前觀測、一系列擬執(zhí)行的動作,以及一個關于未來的自然語言提問。模型通過理解這些動作在環(huán)境中將帶來的后果,生成相應的文本回答。



由于 SWM 本質(zhì)上是一個與任務無關的世界模型,它可以在對通用序列數(shù)據(jù)質(zhì)量要求極低的情況下進行訓練,這些數(shù)據(jù)包括游戲數(shù)據(jù)和非最優(yōu)數(shù)據(jù)。訓練數(shù)據(jù)可以很容易地從任何(專家或非專家)數(shù)據(jù)語料庫中獲取,其格式為當前觀測結果、行動、(關于未來的)問題以及預期答案。

通過 SWM 來推理未來結果,AI 就能夠在動作空間中進行靈活的、開放世界的多任務規(guī)劃。

當任務以自然語言描述時,系統(tǒng)可以有兩種方式理解目標:要么利用預訓練好的 VLM 自動解析任務意圖,要么由人類將任務拆解成一組文本化的「問題 — 期望答案」對。在得到這組問答之后,SWM 就可以用來規(guī)劃動作,使得未來得到這些期望答案的可能性最大化。

給定自然語言形式的任務說明,人們既可以利用預訓練的 VLM,也可以手動將任務說明分解為一組問題以及文本形式的預期答案。有了這個問答集,SWM 就可以被用來規(guī)劃動作,從而極有可能在未來得出這些問題的預期答案。

盡管有大量技術可用于這種規(guī)劃,但本研究表明,它與零階基于采樣的方法以及一階梯度規(guī)劃方法都兼容,這些方法會針對預期似然目標進行優(yōu)化。研究表明,這些規(guī)劃方法在計算上是可行的,相比常規(guī)的動作選擇方法,能在測試時帶來顯著改進。此外,它還展示了此類規(guī)劃方法對多步驟長程問題的可擴展性。

在實驗方面,SWM 在兩個常用的多任務仿真環(huán)境 ——Language Table(LangTable)與 OGBench—— 上進行了評估。結果表明:SWM 能夠準確回答關于未來結果的問題,并能泛化到新場景中。SWM 可以與基于采樣的標準規(guī)劃技術以及基于梯度的改進技術相結合,通過測試時優(yōu)化實現(xiàn)顯著的策略改進,從而解決各種機器人任務。

綜上所述,SWM 代表了一類新型的世界模型,它利用 VLM 的豐富預訓練知識,實現(xiàn)了可落地、靈活且可擴展的機器人控制。

語義世界模型概覽

下圖 2 展示了語義世界模型的概況。SWM 是一種視覺語言模型,經(jīng)過調(diào)整后能夠回答與未來相關的問題,這些問題由用于調(diào)整模型的動作所決定。通過一系列問題和期望的答案,其預測可以轉化為規(guī)劃信號,并迭代優(yōu)化動作序列。



數(shù)據(jù)集生成

為了訓練一個能夠回答關于未來問題的世界模型,本文生成了一個狀態(tài) - 動作 - 問題 - 答案(SAQA)數(shù)據(jù)集。圖 3 展示了該數(shù)據(jù)集中一個單獨的狀態(tài)與多個問題和答案的配對情況。



架構概覽

SWM 是一個能夠在給定動作條件下回答關于未來事件問題的模型。具備這種能力的模型本質(zhì)上是一種帶有動作條件的視覺問答模型。因此,從大型預訓練視覺語言模型(VLM)出發(fā),將其泛化能力遷移到機器人任務中是很自然的做法。這種 SWM 架構基于開源的視覺語言模型 PaliGemma。

該模型包含三個核心預訓練組件:一個基于 Transformer 的自回歸語言模型(其 token 嵌入大小為 d_tok)、一個視覺編碼器 v_?(其特征大小為 d_img)以及一個投影矩陣。PaliGemma 架構建立在兩個單獨訓練的組件之上:Gemma 大語言模型和 SigLIP 圖像編碼器 V_sc。W 用于從 Z_sc 投影到 Z_LLM,其中 Z_sc 是 v_? 的特征空間,Z_LLM 是大語言模型的輸入 token 嵌入空間。本文使用 PaliGemma 的 30 億參數(shù)檢查點作為基礎模型。



為了讓基礎模型能夠就「某一特定未來(由行動產(chǎn)生)」回答問題,模型必須以這些行動為條件。為此,作者引入一個新的投影矩陣,它將單個動作映射到與 W 投影矩陣類似的潛空間 Z_LLM 中。





給定數(shù)據(jù)集 D_SAQA 中的一個元組 (S_i, a_{i:j}, Q_{S_j}, A_{S_j}),輸入序列通過將圖像嵌入、動作嵌入和問題 token 嵌入拼接而成:



隨后,模型以端到端方式微調(diào),通過優(yōu)化標準交叉熵損失來預測目標答案 A_{S_j}。



這種訓練過程使模型能夠在語言空間中捕捉環(huán)境的動態(tài),從而在無需顯式生成像素級表征的情況下回答有關未來狀態(tài)的問題。

實驗結果

SWM 是否是一個有效的決策世界模型?

首先,作者通過在 LangTable 和 OGBench 任務上將基于采樣的規(guī)劃方法 MPPI 應用于 SWM 模型,對 SWM 的規(guī)劃能力進行評估。

如表 2 所示,可以直接在語義世界模型之上使用基于采樣的規(guī)劃方法進行規(guī)劃,在兩個環(huán)境中的到達和方塊分離任務上都取得了接近完美的成功率。



然而,對于大型模型而言,基于采樣的規(guī)劃方法計算成本高昂,在需要更多樣本的更具挑戰(zhàn)性的任務上運行 MPPI 并不可行。因此,對于更復雜的任務,考慮這樣一種場景:由一個基礎策略生成候選軌跡,再利用 SWM 和基于梯度的優(yōu)化對其進行細化。如圖 5 所示,該方法能夠?qū)蜻x軌跡進行細化,并相比基礎策略取得顯著提升。在 LangTable 上,SWM 相比基礎策略的平均性能從 14.4% 提升至 81.6%;在 OGBench 上,從 45.33% 提升至 76%。SWM 在所有任務上也均優(yōu)于 AVD 和 IDQL 基線,展示了其在規(guī)劃方面的有效性。



SWM 還通過先選擇子目標,再圍繞該子目標進行規(guī)劃,展現(xiàn)出處理更長程任務的能力。如表 1 所示,在多步任務上,SWM 的平均策略改進幅度達 52.0%,優(yōu)于 AVD 基線。



次優(yōu)數(shù)據(jù)是否能提高建模性能?

從表 3 可以看出,混入次優(yōu)數(shù)據(jù)比僅使用專家數(shù)據(jù)進行訓練能提高準確率。SWM 僅通過次優(yōu)數(shù)據(jù)訓練也能達到中等水平的性能,這表明次優(yōu)數(shù)據(jù)在訓練語義世界模型方面是多么有效。



SWM 是否保留了基礎 VLM 的泛化能力?

為了衡量 VLM 預訓練對泛化能力的影響,作者在組合式和場景分布外環(huán)境中對 SWM 進行了評估,相關環(huán)境如圖 6 所示。



為了衡量語義組合泛化能力,在 LangTable 環(huán)境中引入了一個新的彩色方塊,并修改了現(xiàn)有的方塊顏色 - 形狀組合。表 4 顯示,在這些條件下,與基礎策略相比,SWM 平均提高了 20.0%。這一性能表明,SWM 能夠保留部分預訓練知識,從而實現(xiàn)組合泛化。



為了測試對背景變化的魯棒性,作者將 OGBench 的背景顏色改為一種新的組合。與基礎策略相比,SWM 的性能再次提升了 20%,并且能夠泛化到這些條件,而 AVD 方法則無法做到這一點。

模型的內(nèi)部表征是否關注與任務相關的信息?

為了理解模型所學的表征,作者從模型的一個中間層可視化了從語言 token 到圖像 patch 的注意力圖。如圖 7 所示,模型會根據(jù)語言提示正確關注圖像中與任務相關的位置。例如,當被問到「紅色的月亮是否在接觸藍色的立方體?」時,與這些物體對應的圖像 patch 上的注意力得分更高。盡管從未在涉及兩個以上物體的問題上進行過微調(diào),但研究發(fā)現(xiàn),當被問及此類問題時,該模型能夠正確關注三個物體。這表明該模型繼承了預訓練 VLM 的泛化能力。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
本賽季英超速度榜:查舒亞37.3km/h第一,姆伯莫進前五

本賽季英超速度榜:查舒亞37.3km/h第一,姆伯莫進前五

懂球帝
2026-02-28 21:36:34
國際刑事法院檢察官:杜特爾特是菲律賓禁毒戰(zhàn)“最應負責的人”

國際刑事法院檢察官:杜特爾特是菲律賓禁毒戰(zhàn)“最應負責的人”

仙氣美少女
2026-02-28 18:54:56
聯(lián)合國爆發(fā)爭端,凌晨中美大吵一架,美國犯下大錯,局勢已惡化

聯(lián)合國爆發(fā)爭端,凌晨中美大吵一架,美國犯下大錯,局勢已惡化

芊芊子吟
2026-02-26 11:26:11
美國專家稱:崛起的中國并不可怕,真正可怕的是他們從來不會提及自身血統(tǒng)

美國專家稱:崛起的中國并不可怕,真正可怕的是他們從來不會提及自身血統(tǒng)

文史明鑒
2026-01-29 20:01:08
林彪想不打錦州打長春,是因為有一個秘密他不知道而中央軍委知道

林彪想不打錦州打長春,是因為有一個秘密他不知道而中央軍委知道

半壺老酒半支煙
2026-02-27 20:12:09
一婚嫁給富商,二婚嫁給導演,三婚再嫁給富商,58歲的她怎樣了?

一婚嫁給富商,二婚嫁給導演,三婚再嫁給富商,58歲的她怎樣了?

小熊侃史
2026-02-27 21:30:21
脫口秀演員小帕被禁言!平臺公布原因與違規(guī)樣本

脫口秀演員小帕被禁言!平臺公布原因與違規(guī)樣本

看看新聞Knews
2026-02-28 12:59:03
退役后在體育用品店工作,馬蒂厄:因為一些事給我?guī)砹寺闊?>
    </a>
        <h3>
      <a href=懂球帝
2026-02-28 17:50:07
中方奉陪到底!訪華遲遲沒回復,特朗普掀桌了,要廢除中國一地位

中方奉陪到底!訪華遲遲沒回復,特朗普掀桌了,要廢除中國一地位

愛下廚的阿釃
2026-02-28 17:26:01
財聯(lián)社2月28日電,伊朗方面消息稱,伊朗對位于巴林的美軍基地發(fā)動了導彈襲擊。

財聯(lián)社2月28日電,伊朗方面消息稱,伊朗對位于巴林的美軍基地發(fā)動了導彈襲擊。

財聯(lián)社
2026-02-28 17:12:06
烏克蘭為何突然解散國際軍團?真相并非一些媒體所報道

烏克蘭為何突然解散國際軍團?真相并非一些媒體所報道

史政先鋒
2026-02-28 16:57:37
伊朗最高國家安全委員會連發(fā)聲明

伊朗最高國家安全委員會連發(fā)聲明

財聯(lián)社
2026-02-28 20:08:12
2026年上海中考政策出爐!與去年相比,這個變化讓家長群炸了...

2026年上海中考政策出爐!與去年相比,這個變化讓家長群炸了...

教師吧
2026-02-27 21:27:37
誰也別吹牛,100萬現(xiàn)金攥在手里,你就已經(jīng)跑贏了全國99%的家庭

誰也別吹牛,100萬現(xiàn)金攥在手里,你就已經(jīng)跑贏了全國99%的家庭

白淺娛樂聊
2026-02-15 07:00:34
忍無可忍無需再忍!臺海發(fā)生激烈對峙中方出動軍機澳艦狼狽竄逃

忍無可忍無需再忍!臺海發(fā)生激烈對峙中方出動軍機澳艦狼狽竄逃

通鑒史智
2026-02-28 09:38:48
伊朗襲擊科威特美軍基地

伊朗襲擊科威特美軍基地

界面新聞
2026-02-28 17:21:23
一覺醒來,中國發(fā)撤離令,美雙航母集結!下周,A股要來特大級大動作?

一覺醒來,中國發(fā)撤離令,美雙航母集結!下周,A股要來特大級大動作?

股市皆大事
2026-02-28 07:59:24
美國參議院軍事委員會主席發(fā)聲明支持對伊朗打擊

美國參議院軍事委員會主席發(fā)聲明支持對伊朗打擊

財聯(lián)社
2026-02-28 20:27:20
正式確定!李明2親信調(diào)離國安一線隊,球隊老臣獲俱樂部重用

正式確定!李明2親信調(diào)離國安一線隊,球隊老臣獲俱樂部重用

體壇鑒春秋
2026-02-28 17:49:56
賭中國不會還手?巴拿馬總統(tǒng)被秒打臉,中方第五波反制馬上就到

賭中國不會還手?巴拿馬總統(tǒng)被秒打臉,中方第五波反制馬上就到

石江月
2026-02-28 17:09:34
2026-02-28 22:07:02
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12382文章數(shù) 142573關注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

87歲哈梅內(nèi)伊對拉里賈尼委以重任 還建立完整繼承體系

頭條要聞

87歲哈梅內(nèi)伊對拉里賈尼委以重任 還建立完整繼承體系

體育要聞

球隊主力全報銷?頂風擺爛演都不演了

娛樂要聞

疑似王一博被爆私密聊天記錄

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

旅游
本地
健康
公開課
軍事航空

旅游要聞

文旅新探|燈火滿神都,千年上元潮

本地新聞

津南好·四時總相宜

轉頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國以色列聯(lián)合襲擊伊朗 實時戰(zhàn)況

無障礙瀏覽 進入關懷版