国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

上海交通大學(xué)團隊推出EgoSim:讓機器人學(xué)會從人的視角看世界

0
分享至


這項由上海交通大學(xué)、上海AI實驗室和香港大學(xué)聯(lián)合開展的研究于2024年發(fā)表,論文編號arXiv:2604.01001。研究團隊開發(fā)了一個名為EgoSim的全新系統(tǒng),這個系統(tǒng)最大的特點就是能夠從第一人稱視角生成連續(xù)的互動視頻,并且始終保持3D場景的一致性。

想象一下,當(dāng)你戴上VR眼鏡進入虛擬世界時,你希望看到的不是預(yù)設(shè)好的固定畫面,而是一個真正能夠響應(yīng)你動作的活生生的世界。你伸手拿起一個杯子,杯子會真的被你拿起來;你打開一扇門,門會保持開啟狀態(tài);你移動物品,它們會一直待在新位置上。這正是EgoSim想要實現(xiàn)的目標(biāo)——創(chuàng)造一個真正"記住"你行為后果的虛擬世界。

在這之前,大多數(shù)世界模擬器都有一個致命缺陷:它們要么像老式電影一樣只能從旁觀者角度觀看,要么無法記住你剛才做了什么。比如你在虛擬廚房里打開冰箱門,下一秒冰箱門可能又自動關(guān)上了,仿佛你從來沒有碰過它一樣。這種現(xiàn)象在技術(shù)上叫做"結(jié)構(gòu)漂移",就像患了健忘癥的虛擬世界,無法保持狀態(tài)的連續(xù)性。

EgoSim的突破性在于它建立了一套"世界記憶系統(tǒng)"。這個系統(tǒng)就像一個超級管家,時刻記錄著虛擬世界中每一個物體的位置和狀態(tài)變化。當(dāng)你在虛擬場景中移動一把椅子,系統(tǒng)不僅會生成移動的視頻畫面,還會在內(nèi)部的3D地圖上更新椅子的新位置。下次你再看向那個地方時,椅子確實還在你放置的位置上。

這項研究的另一個重要貢獻是解決了訓(xùn)練數(shù)據(jù)的難題。訓(xùn)練這樣一個智能系統(tǒng)需要大量的配對數(shù)據(jù)——既要有人們做動作的視頻,又要有對應(yīng)的3D場景信息。傳統(tǒng)方法通常依賴昂貴的多攝像頭設(shè)備或者合成數(shù)據(jù),但這些方法要么成本高昂,要么無法反映真實世界的復(fù)雜性。研究團隊設(shè)計了一套巧妙的數(shù)據(jù)處理流水線,能夠從普通的單攝像頭視頻中自動提取出所需的各種信息,包括靜態(tài)的3D場景、攝像頭運動軌跡和手部動作序列。

具體來說,系統(tǒng)首先會分析視頻的第一幀,識別出手部等動態(tài)元素,然后使用圖像修復(fù)技術(shù)將這些動態(tài)元素"擦除",得到一個干凈的靜態(tài)背景。接下來,系統(tǒng)使用深度估計技術(shù)重建這個靜態(tài)場景的3D結(jié)構(gòu),就像建筑師根據(jù)平面圖構(gòu)建立體模型一樣。同時,系統(tǒng)還會分析整個視頻序列,提取出攝像頭的運動軌跡和手部動作的關(guān)鍵點信息。

在動作表示方面,研究團隊采用了一個非常聰明的統(tǒng)一框架。無論是人的手部動作還是機器人的抓取動作,都被轉(zhuǎn)換成相同格式的關(guān)鍵點序列。這就像設(shè)計了一套通用的"動作語言",讓系統(tǒng)能夠理解不同類型的操作主體。對于人手,系統(tǒng)提取21個關(guān)鍵點來描述手指的位置和姿態(tài);對于機器人夾爪,系統(tǒng)將其映射為類似人手拇指和食指的簡化表示。

EgoSim的核心架構(gòu)包含兩個關(guān)鍵模塊。第一個是"幾何-動作感知觀察模擬"模塊,它的作用是根據(jù)當(dāng)前的3D場景狀態(tài)和輸入的動作序列,生成對應(yīng)的第一人稱視角視頻。這個模塊使用了擴散變換器(DiT)架構(gòu),能夠同時處理靜態(tài)場景渲染、動作條件和遮擋信息,確保生成的視頻在幾何上保持一致性。

第二個關(guān)鍵模塊是"交互感知狀態(tài)更新"模塊,這是整個系統(tǒng)的"記憶中樞"。當(dāng)系統(tǒng)生成了新的觀察視頻后,這個模塊會分析視頻內(nèi)容,識別出哪些物體發(fā)生了位置變化,然后更新內(nèi)部的3D場景表示。這個過程包含三個步驟:首先重建當(dāng)前觀察序列的3D點云,然后識別和追蹤發(fā)生交互的物體,最后將這些物體的最新狀態(tài)融合到全局場景中。

為了識別交互物體,系統(tǒng)使用了視覺語言模型來理解場景中的物體類別,再結(jié)合分割和追蹤算法來定位這些物體在3D空間中的位置。系統(tǒng)會優(yōu)先保留物體最后被觀察到的狀態(tài),確保它們在后續(xù)的模擬中保持正確的位置和姿態(tài)。

在訓(xùn)練數(shù)據(jù)構(gòu)建方面,研究團隊處理了來自EgoDex和EgoVid數(shù)據(jù)集的共40萬個視頻片段。EgoDex主要包含精細的桌面操作場景,而EgoVid則涵蓋了更多樣化的真實世界交互。為了驗證系統(tǒng)的跨領(lǐng)域能力,研究團隊還整合了5萬個機器人操作視頻,展示了從人類動作到機器人控制的遷移學(xué)習(xí)能力。

實驗結(jié)果表明,EgoSim在多個關(guān)鍵指標(biāo)上顯著超越了現(xiàn)有方法。在視頻質(zhì)量方面,EgoSim在EgoDex數(shù)據(jù)集上實現(xiàn)了25.056的PSNR值和0.896的SSIM值,遠高于其他基線方法。更重要的是,在空間一致性方面,EgoSim的深度誤差僅為8.888,相比最好的基線方法降低了約80%。這意味著EgoSim生成的視頻在3D幾何上更加準(zhǔn)確和穩(wěn)定。

連續(xù)生成能力是EgoSim的另一個重要優(yōu)勢。在連續(xù)生成測試中,系統(tǒng)能夠生成長達121幀的視頻序列,同時保持良好的視覺質(zhì)量和空間一致性。雖然相比單次生成會有輕微的質(zhì)量下降,但這主要是由于累積誤差造成的,整體表現(xiàn)仍然令人滿意。

跨模態(tài)應(yīng)用方面,研究團隊在AgiBot機器人數(shù)據(jù)集上進行了實驗。結(jié)果顯示,使用人類手部動作數(shù)據(jù)預(yù)訓(xùn)練的模型,在適配機器人任務(wù)時表現(xiàn)顯著優(yōu)于從零開始訓(xùn)練的模型。這證明了人類交互數(shù)據(jù)中包含的通用物理動力學(xué)知識可以有效遷移到機器人控制中。

為了驗證系統(tǒng)在真實環(huán)境中的表現(xiàn),研究團隊還開發(fā)了一套名為EgoCap的低成本數(shù)據(jù)采集工具。這套工具使用普通智能手機就能采集高質(zhì)量的訓(xùn)練數(shù)據(jù),大大降低了數(shù)據(jù)獲取的成本和技術(shù)門檻。在超市等真實環(huán)境中的測試表明,即使只用30個訓(xùn)練樣本進行微調(diào),EgoSim也能快速適應(yīng)新的場景和任務(wù)。

消融研究進一步驗證了各個組件的重要性。移除攝像頭軌跡渲染會導(dǎo)致視頻質(zhì)量顯著下降,因為系統(tǒng)失去了重要的幾何約束。移除遮擋掩碼也會影響生成效果,盡管系統(tǒng)仍能在未知區(qū)域生成合理的內(nèi)容。交互感知狀態(tài)更新模塊的各個子組件都對最終性能有重要貢獻,移除任何一個都會導(dǎo)致3D重建質(zhì)量的明顯下降。

這項研究的意義不僅限于技術(shù)層面的突破。從實際應(yīng)用角度看,EgoSim為虛擬現(xiàn)實、增強現(xiàn)實、游戲開發(fā)和機器人訓(xùn)練等領(lǐng)域提供了全新的可能性。在VR游戲中,玩家可以享受到更加真實和連續(xù)的交互體驗;在機器人訓(xùn)練中,可以使用大量人類演示數(shù)據(jù)來訓(xùn)練機器人的操作技能;在增強現(xiàn)實應(yīng)用中,虛擬物體可以更自然地與真實環(huán)境融合。

當(dāng)然,這項研究也存在一些局限性。目前系統(tǒng)主要依賴單目深度估計和相機位姿估計,在極度遮擋或高度動態(tài)的環(huán)境中可能會出現(xiàn)重建誤差。此外,系統(tǒng)的計算復(fù)雜度相對較高,實時應(yīng)用還需要進一步的優(yōu)化。未來的工作方向包括集成更魯棒的多視圖先驗知識、引入基于物理的接觸約束等。

說到底,EgoSim代表了世界模擬器技術(shù)的一個重要里程碑。它首次真正實現(xiàn)了從第一人稱視角的連續(xù)世界模擬,并具備了持久的狀態(tài)記憶能力。這不僅是技術(shù)上的進步,更是向真正智能的虛擬世界邁出的關(guān)鍵一步。隨著這項技術(shù)的不斷完善,我們有理由期待一個更加智能、更加真實的虛擬世界時代的到來。這個世界不再是預(yù)設(shè)的死板場景,而是能夠真正理解和響應(yīng)我們行為的活生生的數(shù)字空間。

Q&A

Q1:EgoSim和傳統(tǒng)的世界模擬器有什么不同?

A:EgoSim最大的不同在于它能從第一人稱視角生成視頻,并且具備"世界記憶"功能。傳統(tǒng)模擬器要么只能從第三人稱角度觀看,要么無法記住用戶的操作結(jié)果。比如你在虛擬世界里移動了一把椅子,傳統(tǒng)系統(tǒng)可能下一秒椅子就回到原位了,而EgoSim會永久記住椅子的新位置,讓虛擬世界保持連續(xù)性。

Q2:EgoSim如何解決訓(xùn)練數(shù)據(jù)不足的問題?

A:研究團隊設(shè)計了一套智能的數(shù)據(jù)處理流水線,能夠從普通的單攝像頭視頻中自動提取訓(xùn)練所需的所有信息。系統(tǒng)會分析視頻第一幀來重建3D場景,提取攝像頭運動軌跡,并識別手部動作關(guān)鍵點。這樣就避免了使用昂貴的多攝像頭設(shè)備,可以利用網(wǎng)上大量現(xiàn)有的視頻數(shù)據(jù)進行訓(xùn)練。

Q3:EgoSim能夠應(yīng)用到機器人控制中嗎?

A:可以。研究顯示EgoSim具有很強的跨模態(tài)遷移能力。通過將人手動作和機器人夾爪動作統(tǒng)一為相同的關(guān)鍵點表示格式,用人類演示數(shù)據(jù)訓(xùn)練的模型可以有效遷移到機器人任務(wù)中。實驗表明,這種預(yù)訓(xùn)練方法比從零開始訓(xùn)練機器人模型效果更好,大大提升了機器人學(xué)習(xí)復(fù)雜操作技能的效率。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
絕不向中國低頭!寧愿裁員9000人公司破產(chǎn),也不接受中國的幫助?

絕不向中國低頭!寧愿裁員9000人公司破產(chǎn),也不接受中國的幫助?

混沌錄
2026-04-11 15:18:05
是毒品也是藥品!武漢植物園罌粟花盛開吸引大批游客

是毒品也是藥品!武漢植物園罌粟花盛開吸引大批游客

映射生活的身影
2026-04-15 18:39:37
正在熱播的三部“爛劇”,沒有最爛只有更爛,一部沒看過算你走運

正在熱播的三部“爛劇”,沒有最爛只有更爛,一部沒看過算你走運

秋姐居
2026-04-15 22:06:55
69歲申軍誼:患腦梗4年,女兒未婚單身,他擔(dān)心拖累女兒的愛情

69歲申軍誼:患腦梗4年,女兒未婚單身,他擔(dān)心拖累女兒的愛情

攬星河的筆記
2026-04-16 19:08:07
王石風(fēng)波后首露面!在深圳劃船,精力滿滿!

王石風(fēng)波后首露面!在深圳劃船,精力滿滿!

李東陽朋友圈
2026-04-16 14:49:13
3女1男擠30平深圳合租房,小伙被隨意使喚,這樣的合租你能接受嗎

3女1男擠30平深圳合租房,小伙被隨意使喚,這樣的合租你能接受嗎

搗蛋窩
2026-04-12 07:46:25
“棋圣”聶衛(wèi)平病逝,其女聶云菲發(fā)文:明明已經(jīng)恢復(fù)那么好了,為什么上天這樣無情,為何人生如此無常,子欲養(yǎng)而親不待

“棋圣”聶衛(wèi)平病逝,其女聶云菲發(fā)文:明明已經(jīng)恢復(fù)那么好了,為什么上天這樣無情,為何人生如此無常,子欲養(yǎng)而親不待

極目新聞
2026-01-15 08:22:24
開國十大武林高手,許世友只能排第八?

開國十大武林高手,許世友只能排第八?

祁州校尉
2026-04-15 17:30:14
英超爭冠關(guān)鍵戰(zhàn)!阿森納客場挑戰(zhàn)曼城,阿爾特塔輸不起的生死局

英超爭冠關(guān)鍵戰(zhàn)!阿森納客場挑戰(zhàn)曼城,阿爾特塔輸不起的生死局

小金視角看球賽
2026-04-17 09:35:09
莊神絕命3分登全美熱搜!美媒高呼關(guān)鍵戰(zhàn)第2巨 僅500萬卻存大心臟

莊神絕命3分登全美熱搜!美媒高呼關(guān)鍵戰(zhàn)第2巨 僅500萬卻存大心臟

顏小白的籃球夢
2026-04-16 10:59:13
深圳官方最新回應(yīng):已開始定損

深圳官方最新回應(yīng):已開始定損

南方都市報
2026-04-16 19:43:32
鄭麗文訪問結(jié)束回到臺島后,對大陸的說法變了!

鄭麗文訪問結(jié)束回到臺島后,對大陸的說法變了!

阿龍聊軍事
2026-04-16 17:00:42
蔣經(jīng)國三子早逝均未過五十四,臨終方知,家族厄運源于舊照

蔣經(jīng)國三子早逝均未過五十四,臨終方知,家族厄運源于舊照

嘮叨說歷史
2026-03-27 16:40:32
凱恩一句話戳破皇馬裁判爭議的老套路

凱恩一句話戳破皇馬裁判爭議的老套路

體壇觀察猿
2026-04-17 09:50:10
張雪峰“復(fù)活”,全網(wǎng)炸了!

張雪峰“復(fù)活”,全網(wǎng)炸了!

犀利強哥
2026-04-17 06:58:40
最高實時均價逼近1元/度,廣東電力現(xiàn)貨價格為何大漲?

最高實時均價逼近1元/度,廣東電力現(xiàn)貨價格為何大漲?

21世紀(jì)經(jīng)濟報道
2026-04-16 19:02:57
趙子琪連發(fā)6條動態(tài)爆猛料!言辭犀利,真不給《浪姐7》留一點顏面

趙子琪連發(fā)6條動態(tài)爆猛料!言辭犀利,真不給《浪姐7》留一點顏面

趣味八卦
2026-04-16 10:53:14
山東淄博發(fā)布情況通報

山東淄博發(fā)布情況通報

澎湃新聞
2026-04-16 23:12:03
48小時內(nèi)俄美伊向中國提要求,相信中國會滿足

48小時內(nèi)俄美伊向中國提要求,相信中國會滿足

感謝過往的自己
2026-04-17 07:49:11
敢攔就開戰(zhàn)?美國給“臺獨”遞刀,中方:公海銷毀沒商量

敢攔就開戰(zhàn)?美國給“臺獨”遞刀,中方:公海銷毀沒商量

華山穹劍
2026-01-19 21:32:59
2026-04-17 10:11:00
至頂AI實驗室 incentive-icons
至頂AI實驗室
一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實驗室。
3306文章數(shù) 170關(guān)注度
往期回顧 全部

科技要聞

Anthropic推出Opus 4.7,坦言依不及Mythos

頭條要聞

小伙曾花80萬開店失敗被離婚:妻子覺得我很難翻身

頭條要聞

小伙曾花80萬開店失敗被離婚:妻子覺得我很難翻身

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰誰的生意?

汽車要聞

空間大五個乘客都滿意?體驗嵐圖泰山X8

態(tài)度原創(chuàng)

教育
藝術(shù)
旅游
手機
軍事航空

教育要聞

用心陪伴,助力孩子綻放光芒——王越家教好故事

藝術(shù)要聞

鄭麗文在上海講話引發(fā)熱議,蔣經(jīng)國辦公室揭秘書法未來!

旅游要聞

濰坊昌邑:牡丹真國色 花開一城春

手機要聞

影像升級:消息稱iPhone 18 Pro可變光圈致動器已啟動量產(chǎn)

軍事要聞

美宣布黎以?;?0天 以方稱不會撤軍

無障礙瀏覽 進入關(guān)懷版