国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

打通視頻生成與機器人世界模型,BridgeV2W 讓機器人學會"預演未來"

0
分享至

機器人如何"腦補"未來?

想象一下,你面前擺著一杯咖啡,你伸手去拿,在你的手真正觸碰到杯子之前,你的大腦已經(jīng)在"腦補"了整個過程:手臂將如何移動、杯子會是什么觸感、抬起后桌面的樣子……這種對未來場景的想象和預測能力,正是人類操控世界的核心認知基石。

那么,能否賦予機器人同樣的“預演能力”,先在“腦?!敝心M動作后果,再付諸執(zhí)行?這就是具身世界模型要做的事情:讓機器人在行動前,就能“看見”未來。近年來,借助大規(guī)模視頻生成模型(如Sora、Wan等)強大的視覺先驗,這一方向取得了令人矚目的進展。

然而,一個尷尬的問題始終懸而未決:視頻生成模型的世界由像素編織而成,而機器人的語言卻是關節(jié)角度與位姿坐標,它們使用完全不同的“表征語言”描述同一個物理世界。

為了解決上述問題,具身智能公司中科第五紀聯(lián)合中科院自動化所團隊推出 BridgeV2W,它通過一個極為優(yōu)雅的設計,具身掩碼(Embodiment Mask),一種由機器人動作渲染出的“動作剪影”,將坐標空間的動作無縫映射到像素空間,從而真正打通預訓練視頻生成模型與世界模型之間的橋梁,讓機器人學會可靠地“預演未來”。


困境:三座大山擋住了機器人的"預演能力"

盡管前景廣闊,當前的具身世界模型仍面臨三大核心挑戰(zhàn):

1.動作與畫面“語言不通”。機器人動作是關節(jié)角、末端位姿等坐標數(shù)值,而視頻生成模型只“看”像素。直接拼接動作向量效果有限,往往缺乏空間對齊的“硬連接”,模型難以理解。

2.視角一變,世界就“崩”。同一動作在不同視角下外觀迥異?,F(xiàn)有方法在訓練視角上尚可,一旦換視角,預測質量驟降,而真實場景中,相機位置幾乎不可能復現(xiàn)訓練設置。

3.換一個機器人就得“從零開始”。單臂、雙臂、移動底盤……結構千差萬別。現(xiàn)有方法往往需為每種機器人定制架構,難以構建統(tǒng)一的世界模型。

核心創(chuàng)新:僅憑"動作剪影",一舉破解三大難題

BridgeV2W 的核心洞察極其直覺:既然鴻溝源于“坐標 vs 像素”,那就把動作直接“畫”進畫面里!

它提出具身掩碼:利用機器人的 URDF 模型和相機參數(shù),將動作序列實時渲染為每幀圖像上的二值“動作剪影”,精準標出機器人在畫面中的位置與姿態(tài)。

這一設計,一舉破解前述三大難題:

  • 動作-像素對齊:掩碼是天然的像素級信號,與視頻模型輸入空間完全匹配,無需模型“猜”坐標的含義。

  • 視角自適應:掩碼隨當前相機視角動態(tài)生成,動作與畫面始終對齊,模型因此天然泛化到任意新視角。

  • 跨具身通用:只要提供 URDF,單臂、雙臂機器人都能用同一套框架生成對應掩碼,無需修改模型結構。

技術上,BridgeV2W 采用 ControlNet 式的旁路注入,將掩碼作為條件信號融入預訓練視頻生成模型,在保留其強大視覺先驗的同時,賦予其理解機器人動作的能力。此外,為防止模型“偷懶”(只復現(xiàn)靜態(tài)背景),還引入光流驅動的運動損失,引導其聚焦于任務相關的動態(tài)區(qū)域。

實驗結果:多場景、多機器人、多視角的全面驗證

研究團隊在多個設置下系統(tǒng)驗證了BridgeV2W的能力,涵蓋不同機器人平臺、不同操作場景、未見視角和下游任務應用。

DROID數(shù)據(jù)集:大規(guī)模單臂操作

DROID是目前最大規(guī)模的真實世界機器人操作數(shù)據(jù)集之一,數(shù)據(jù)采集跨越多個實驗室和環(huán)境。BridgeV2W在該數(shù)據(jù)集上的表現(xiàn)尤為亮眼,在 PSNR、SSIM、LPIPS 等核心指標上超越 SOTA 方法。

尤其在“未見視角”測試中,對比方法常出現(xiàn)畫面崩塌、肢體錯位,而 BridgeV2W 依然生成物理合理、視覺連貫的未來視頻,充分驗證了其視角魯棒性。在“未見場景”(全新桌面布局、背景)下,泛化能力同樣出色。


AgiBot-G1數(shù)據(jù)集:雙臂人形機器人

AgiBot-G1 是一個完全不同的雙臂平臺,自由度與運動模式與 DROID 截然不同。

關鍵結果:無需修改模型架構,僅替換 URDF 并重新渲染掩碼,BridgeV2W 就能無縫適配,并取得媲美單臂的預測質量,這是邁向通用具身世界模型的重要一步。


下游任務應用:從"想象"到"行動"

BridgeV2W不僅僅是一個"能生成好看視頻"的模型,研究團隊進一步在真實世界的下游任務中驗證了其實用價值:

策略評估:在世界模型中“試跑”不同策略,無需真實機器人反復試錯。實驗顯示,BridgeV2W 的評估結果與真實成功率高度相關,大幅降低策略迭代成本。

目標圖像操作規(guī)劃:給定一張目標圖像(如“把杯子放到盤子上”),BridgeV2W 能在“想象空間”中搜索出可行動作序列,實現(xiàn)從視覺目標到物理動作的閉環(huán)規(guī)劃。

關鍵亮點:海量無標注人類視頻,全都能用!

你可能會問:具身掩碼不是需要 URDF 和相機參數(shù)嗎?沒有這些幾何信息的數(shù)據(jù)怎么辦?

BridgeV2W 的巧妙之處在于:

?推理時需輕量幾何信息(URDF + 相機參數(shù))渲染“計算掩碼”,用于精準控制;

?訓練時卻無需任何標定:只需分割模型(如 SAM)提取的“分割掩碼”,即可提供有效監(jiān)督。

團隊將 AgiBot-G1 機器人數(shù)據(jù)與無標定的 Ego4D FHO(第一人稱手部操作視頻)混合訓練,僅用 SAM 提取的手部掩碼,就實現(xiàn)了驚人效果:

?僅用分割掩碼訓練,模型仍能學到合理的運動規(guī)律;

?加入大量 Ego4D 視頻 + 少量機器人標定數(shù)據(jù),性能幾乎媲美全量標定訓練。


這說明:人類視頻蘊含豐富的動作先驗,只需少量機器人數(shù)據(jù),就能完成“具身對齊”。

一句話總結:訓練靠“野生”視頻擴規(guī)模,部署靠輕量幾何保精度:BridgeV2W 兼得可擴展性與準確性。

BridgeV2W揭示了一條極具前景的技術路線:

視頻生成模型 + 具身掩碼 = 可擴展的機器人世界模型

這條路線有三個關鍵優(yōu)勢值得深思:

  • 1、數(shù)據(jù)飛輪真正啟動:互聯(lián)網(wǎng)視頻規(guī)模遠超機器人數(shù)據(jù)數(shù)個數(shù)量級。BridgeV2W 無需幾何先驗即可利用人類視頻,為構建“機器人數(shù)據(jù)飛輪”邁出關鍵一步。

  • 2、技術紅利自動繼承:視頻生成領域正高速迭代(Sora、Wan、CogVideoX……)。BridgeV2W 的架構使其能自然受益于底座模型升級,底座越強,“預演”越真。

  • 3、通用智能的堅實基石:從單臂到雙臂,從已知場景到未知視角,BridgeV2W 展現(xiàn)出的跨平臺、跨場景、跨視角泛化能力,是邁向通用具身智能的重要里程碑。

總結與展望

BridgeV2W 通過“具身掩碼”這一簡潔而優(yōu)雅的中間表征,成功架起了從大規(guī)模視頻生成模型到實用具身世界模型的橋梁。它不僅解決了動作-像素對齊、視角魯棒性、跨具身通用性三大核心挑戰(zhàn),更關鍵的是:訓練無需 URDF 或相機標定,可直接利用海量無標注人類視頻,為世界模型的規(guī)模化訓練開辟了全新路徑。

目前展現(xiàn)的能力,或許只是冰山一角。

試想未來:當視頻生成底座從十億參數(shù)邁向千億,當訓練數(shù)據(jù)從數(shù)千小時機器人視頻擴展到百萬小時人類操作視頻,當具身掩碼從機械臂延伸至全身人形、乃至多機協(xié)作,機器人的“預演能力”將迎來怎樣的飛躍?

正如 DreamZero 等工作預示的“機器人 GPT 時刻”,BridgeV2W 從另一個維度證明:

讓機器人借助視頻生成模型“預演”自身行動的后果——這條路,不僅走得通,而且可以走得很遠。

論文標題:BridgeV2W: Bridging Video Generation Models to Embodied World Models via Embodiment Masks

論文鏈接:https://arxiv.org/pdf/2602.03793

項目鏈接:https://bridgev2w.github.io/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
含淚告別賽場!43歲了,已經(jīng)是個傳奇!

含淚告別賽場!43歲了,已經(jīng)是個傳奇!

德譯洋洋
2026-02-25 12:20:33
打伊朗前,美國找到中國,特朗普很清楚:錯一步,中國就不戰(zhàn)而勝

打伊朗前,美國找到中國,特朗普很清楚:錯一步,中國就不戰(zhàn)而勝

策略述
2026-02-25 18:36:46
同家族近20人在路上祭祖遇車禍,致2死多傷后又遇理賠難,多方回應

同家族近20人在路上祭祖遇車禍,致2死多傷后又遇理賠難,多方回應

大風新聞
2026-02-25 17:00:14
索賠超80億美元,李嘉誠出手了!

索賠超80億美元,李嘉誠出手了!

財經(jīng)三分鐘pro
2026-02-25 12:27:12
一對夫妻自駕從新疆喀什到重慶,因晚5秒錯過免費高速時間付1700余元,“當時又好笑又好氣,當長教訓了”

一對夫妻自駕從新疆喀什到重慶,因晚5秒錯過免費高速時間付1700余元,“當時又好笑又好氣,當長教訓了”

大象新聞
2026-02-25 23:41:07
張?zhí)m撒謊風波升級!細節(jié)證明孩子非新生兒,產(chǎn)房被扒是月子中心

張?zhí)m撒謊風波升級!細節(jié)證明孩子非新生兒,產(chǎn)房被扒是月子中心

古希臘掌管月桂的神
2026-02-25 16:35:25
比亞迪連續(xù)40個月銷冠被終結

比亞迪連續(xù)40個月銷冠被終結

大象新聞
2026-02-24 09:44:05
趣探:這位漂亮的米脂婆姨,有沒有龜茲血統(tǒng)?

趣探:這位漂亮的米脂婆姨,有沒有龜茲血統(tǒng)?

李未熟擒話2
2026-02-25 09:08:22
小米起訴自媒體索賠500萬,賬號主體實控人為蔚來創(chuàng)始人李斌

小米起訴自媒體索賠500萬,賬號主體實控人為蔚來創(chuàng)始人李斌

新浪財經(jīng)
2026-02-25 18:49:08
中紀委2026下死手!四類人好日子到頭,退休也不是護身符

中紀委2026下死手!四類人好日子到頭,退休也不是護身符

觀星賞月
2026-02-25 18:28:44
打人時有多狂,求和解時就有多慫!看完太解氣!

打人時有多狂,求和解時就有多慫!看完太解氣!

風起見你
2026-02-25 18:54:43
春節(jié)旅行,看完三亞賬單我沉默了:一家三口10天,燒掉一年血汗錢

春節(jié)旅行,看完三亞賬單我沉默了:一家三口10天,燒掉一年血汗錢

夜深愛雜談
2026-02-24 22:41:54
107票贊成,12票反對,聯(lián)大通過決議呼吁俄烏立即?;?!俄方反對,中美投棄權票!俄軍全線進攻,澤連斯基發(fā)聲,烏方公布對俄作戰(zhàn)3大目標

107票贊成,12票反對,聯(lián)大通過決議呼吁俄烏立即停火!俄方反對,中美投棄權票!俄軍全線進攻,澤連斯基發(fā)聲,烏方公布對俄作戰(zhàn)3大目標

每日經(jīng)濟新聞
2026-02-25 13:01:16
“太恐怖,iPhone半夜自己給陌生人打47分鐘電話!”

“太恐怖,iPhone半夜自己給陌生人打47分鐘電話!”

都市快報橙柿互動
2026-02-25 11:28:41
挪威前首相自殺未遂,命懸一線!其被指涉愛潑斯坦案,多處住所被突襲搜查!歐洲多國政要、王室成員被查

挪威前首相自殺未遂,命懸一線!其被指涉愛潑斯坦案,多處住所被突襲搜查!歐洲多國政要、王室成員被查

每日經(jīng)濟新聞
2026-02-25 17:15:06
三只羊上市成功,驚天反轉震驚全球!

三只羊上市成功,驚天反轉震驚全球!

品牌頭版
2026-02-25 16:52:08
中華人民共和國和德意志聯(lián)邦共和國聯(lián)合新聞聲明

中華人民共和國和德意志聯(lián)邦共和國聯(lián)合新聞聲明

新華社
2026-02-25 21:46:25
我不好看但很耐看

我不好看但很耐看

疾跑的小蝸牛
2026-02-25 20:46:47
特朗普突然喊停先不打伊朗,他還有另外一場硬仗要打

特朗普突然喊停先不打伊朗,他還有另外一場硬仗要打

梁訊
2026-02-25 15:42:26
一路走好!2026春節(jié)才過7天,已有6位大佬離世,最年輕的才40歲

一路走好!2026春節(jié)才過7天,已有6位大佬離世,最年輕的才40歲

鯨探所長
2026-02-24 19:34:36
2026-02-26 03:03:00
雷峰網(wǎng) incentive-icons
雷峰網(wǎng)
關注智能與未來!
68592文章數(shù) 656079關注度
往期回顧 全部

科技要聞

“機器人只跳舞,沒什么用”

頭條要聞

女子爬山失聯(lián)10天后遺體被找到 丈夫:她登頂神情恐懼

頭條要聞

女子爬山失聯(lián)10天后遺體被找到 丈夫:她登頂神情恐懼

體育要聞

勇士爆冷惜敗鵜鶘 梅爾頓28分賽季新高

娛樂要聞

黃曉明新戀情!與小22歲美女同游新加坡

財經(jīng)要聞

上海樓市放大招,地產(chǎn)預期別太大

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

本地
游戲
房產(chǎn)
公開課
軍事航空

本地新聞

津南好·四時總相宜

《如龍極3》中文配音訪談:中文配音與本地化并非易事

房產(chǎn)要聞

海南樓市春節(jié)熱銷地圖曝光!三亞、陵水又殺瘋了!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄烏沖突四周年:和平談判希望渺茫

無障礙瀏覽 進入關懷版