国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

香港科技大學(xué)團(tuán)隊(duì)突破傳統(tǒng)機(jī)器學(xué)習(xí)邊界

0
分享至


這項(xiàng)由香港科技大學(xué)(廣州)林曉鵬、中關(guān)村研究院連世杰、北京理工大學(xué)于斌等多位研究者共同完成的研究,發(fā)表于2025年12月19日的計(jì)算機(jī)視覺(jué)與機(jī)器人學(xué)術(shù)會(huì)議。有興趣深入了解的讀者可以通過(guò)論文編號(hào)arXiv:2512.16793v1查詢完整論文內(nèi)容。

過(guò)去我們總說(shuō)機(jī)器人很聰明,但實(shí)際上它們?cè)诶斫馊祟愐暯欠矫姹憩F(xiàn)得像個(gè)"近視眼"。當(dāng)你戴著頭盔攝像頭進(jìn)行第一人稱操作時(shí),機(jī)器人往往無(wú)法準(zhǔn)確理解你看到的世界。就像一個(gè)從來(lái)只看過(guò)第三人稱電影的人,突然要適應(yīng)第一人稱射擊游戲一樣困難。研究團(tuán)隊(duì)發(fā)現(xiàn)了這個(gè)關(guān)鍵問(wèn)題,并創(chuàng)造性地開(kāi)發(fā)出一套名為"PhysBrain"的系統(tǒng),讓機(jī)器人能夠真正理解人類的第一人稱視角。

這個(gè)突破的核心在于一個(gè)革命性的想法:與其費(fèi)力收集昂貴的機(jī)器人操作數(shù)據(jù),不如直接利用人類日常生活中大量存在的第一人稱視頻。研究團(tuán)隊(duì)開(kāi)發(fā)了一套"視頻翻譯系統(tǒng)",能夠?qū)⑵胀ǖ娜祟惖谝蝗朔Q視頻轉(zhuǎn)換成機(jī)器人可以理解和學(xué)習(xí)的結(jié)構(gòu)化知識(shí)。這就像給機(jī)器人配備了一副能夠理解人類視角的"智能眼鏡"。

一、從人類視角到機(jī)器智能的轉(zhuǎn)換魔法

傳統(tǒng)的機(jī)器人學(xué)習(xí)就像讓一個(gè)從未接觸過(guò)廚房的人直接學(xué)習(xí)做飯一樣困難?,F(xiàn)有的視覺(jué)語(yǔ)言模型主要在第三人稱數(shù)據(jù)上訓(xùn)練,就好比一個(gè)人只通過(guò)觀看烹飪節(jié)目學(xué)習(xí)做菜,從未真正站在廚房里親自操作。當(dāng)這些模型面對(duì)第一人稱視角時(shí),就會(huì)出現(xiàn)各種"水土不服"的問(wèn)題。

研究團(tuán)隊(duì)深入分析了這個(gè)問(wèn)題的根源。第一人稱視角有著獨(dú)特的挑戰(zhàn):視角變化頻繁,就像你在廚房里忙碌時(shí)頭部不斷轉(zhuǎn)動(dòng);手部經(jīng)常遮擋物體,就像做飯時(shí)手總是擋住鍋?zhàn)拥哪骋徊糠?;看不到操作者的全身,就像你永遠(yuǎn)看不到鏡子中的自己在做菜時(shí)的完整身影。這些特點(diǎn)讓傳統(tǒng)模型感到困惑。

更關(guān)鍵的是,機(jī)器人數(shù)據(jù)的收集成本極高且規(guī)模有限。就像要開(kāi)一家餐廳,如果只能通過(guò)雇傭頂級(jí)廚師來(lái)收集菜譜,成本會(huì)高得離譜。而人類第一人稱視頻就像是網(wǎng)上免費(fèi)的烹飪教程,數(shù)量龐大且觸手可得,關(guān)鍵在于如何有效利用這些資源。

二、革命性的視頻理解翻譯系統(tǒng)

研究團(tuán)隊(duì)設(shè)計(jì)的Egocentric2Embodiment翻譯管道就像一個(gè)高效的"視頻理解工廠"。這個(gè)系統(tǒng)能夠接收原始的人類第一人稱視頻,然后像流水線一樣將其轉(zhuǎn)換成機(jī)器人可以理解的結(jié)構(gòu)化知識(shí)。

整個(gè)翻譯過(guò)程可以比作一個(gè)專業(yè)的電影后期制作工作室。首先,系統(tǒng)會(huì)將長(zhǎng)視頻切分成短片段,就像電影剪輯師將長(zhǎng)片切成一個(gè)個(gè)場(chǎng)景。每個(gè)片段都有明確的時(shí)間戳和上下文信息,確保不會(huì)丟失重要的連續(xù)性信息。

接下來(lái)是最關(guān)鍵的"劇本創(chuàng)作"環(huán)節(jié)。系統(tǒng)會(huì)為每個(gè)視頻片段生成專門(mén)的問(wèn)答對(duì),這些問(wèn)答覆蓋了七個(gè)不同的維度:時(shí)間關(guān)系、空間位置、物體屬性、機(jī)械原理、邏輯推理、行為總結(jié)和軌跡分析。這就像為每個(gè)場(chǎng)景編寫(xiě)不同類型的解說(shuō)詞,有的關(guān)注動(dòng)作順序,有的分析空間關(guān)系,有的解釋因果邏輯。

為了確保生成內(nèi)容的質(zhì)量,系統(tǒng)配備了一個(gè)嚴(yán)格的"質(zhì)檢部門(mén)"。這個(gè)驗(yàn)證機(jī)制會(huì)檢查三個(gè)方面:首先確保所有描述都有視覺(jué)證據(jù)支撐,不能憑空杜撰;其次保證第一人稱表達(dá)的一致性,比如正確區(qū)分左手和右手;最后驗(yàn)證時(shí)間邏輯的正確性,確保前后順序描述準(zhǔn)確。

三、海量數(shù)據(jù)集的構(gòu)建與質(zhì)量保證

通過(guò)這套翻譯系統(tǒng),研究團(tuán)隊(duì)構(gòu)建了規(guī)模達(dá)300萬(wàn)條記錄的E2E-3M數(shù)據(jù)集。這個(gè)數(shù)據(jù)集就像一個(gè)巨大的"第一人稱體驗(yàn)圖書(shū)館",收錄了來(lái)自家庭、工廠和實(shí)驗(yàn)室三個(gè)不同場(chǎng)景的豐富內(nèi)容。

家庭場(chǎng)景的數(shù)據(jù)來(lái)自Ego4D項(xiàng)目,包含了大量日常生活活動(dòng),就像記錄了無(wú)數(shù)個(gè)普通人一天的生活片段。這些數(shù)據(jù)覆蓋了做飯、清潔、整理等各種家務(wù)活動(dòng),為機(jī)器人理解日常操作提供了豐富的素材。

工廠場(chǎng)景的數(shù)據(jù)來(lái)自BuildAI項(xiàng)目,專門(mén)記錄了工業(yè)生產(chǎn)流程。這些數(shù)據(jù)就像工廠的"操作手冊(cè)視頻版",詳細(xì)展示了各種工業(yè)操作的標(biāo)準(zhǔn)流程,讓機(jī)器人能夠理解更加精密和規(guī)范的操作要求。

實(shí)驗(yàn)室場(chǎng)景的數(shù)據(jù)來(lái)自EgoDex項(xiàng)目,提供了高精度的科學(xué)實(shí)驗(yàn)操作視頻。這些數(shù)據(jù)就像科學(xué)實(shí)驗(yàn)的"慢動(dòng)作回放",能夠幫助機(jī)器人理解需要極高精確度的精細(xì)操作。

為了評(píng)估數(shù)據(jù)集的質(zhì)量,研究團(tuán)隊(duì)從兩個(gè)維度進(jìn)行了深入分析。物體覆蓋度衡量了數(shù)據(jù)中包含的不同物體種類,就像統(tǒng)計(jì)一個(gè)圖書(shū)館的藏書(shū)類別。動(dòng)作覆蓋度則關(guān)注交互動(dòng)作的豐富性,就像分析一本料理書(shū)中包含的烹飪技法數(shù)量。分析結(jié)果顯示,三個(gè)領(lǐng)域的數(shù)據(jù)形成了良好的互補(bǔ)關(guān)系,共同構(gòu)成了一個(gè)全面的第一人稱體驗(yàn)知識(shí)庫(kù)。

四、PhysBrain模型的誕生與訓(xùn)練

基于這個(gè)豐富的數(shù)據(jù)集,研究團(tuán)隊(duì)訓(xùn)練出了PhysBrain模型。這個(gè)模型就像一個(gè)經(jīng)過(guò)專門(mén)培訓(xùn)的"第一人稱理解專家",能夠準(zhǔn)確解讀和分析第一人稱視角的內(nèi)容。

訓(xùn)練過(guò)程采用了巧妙的混合策略。研究團(tuán)隊(duì)將E2E-3M數(shù)據(jù)集與通用視覺(jué)語(yǔ)言數(shù)據(jù)按照1:1的比例混合,就像調(diào)制雞尾酒一樣找到最佳配比。這樣既能讓模型獲得強(qiáng)大的第一人稱理解能力,又能保持在通用任務(wù)上的表現(xiàn)水平。

PhysBrain的核心優(yōu)勢(shì)在于對(duì)第一人稱場(chǎng)景的深度理解。當(dāng)面對(duì)復(fù)雜的第一人稱視頻時(shí),它能夠準(zhǔn)確識(shí)別手部動(dòng)作、理解物體之間的交互關(guān)系、預(yù)測(cè)動(dòng)作的后續(xù)發(fā)展,就像一個(gè)經(jīng)驗(yàn)豐富的教練能夠準(zhǔn)確分析運(yùn)動(dòng)員的技術(shù)動(dòng)作一樣。

五、從理解到行動(dòng)的架構(gòu)設(shè)計(jì)

為了驗(yàn)證PhysBrain在實(shí)際機(jī)器人控制中的效果,研究團(tuán)隊(duì)設(shè)計(jì)了兩種不同的架構(gòu)方案。這兩種方案就像兩種不同的"大腦-手部協(xié)調(diào)模式",都能有效地將視覺(jué)理解轉(zhuǎn)換為具體的機(jī)器人動(dòng)作。

第一種方案PhysGR00T采用了雙系統(tǒng)設(shè)計(jì),類似于人類大腦的"快思維"和"慢思維"分工。PhysBrain負(fù)責(zé)深度分析和理解場(chǎng)景,扮演"慢思維"的角色;而一個(gè)專門(mén)的動(dòng)作專家負(fù)責(zé)快速生成具體的機(jī)器人動(dòng)作,扮演"快思維"的角色。這種設(shè)計(jì)讓系統(tǒng)既能進(jìn)行復(fù)雜的場(chǎng)景理解,又能快速響應(yīng)操作需求。

第二種方案PhysPI采用了更緊密的耦合設(shè)計(jì),就像讓大腦的不同區(qū)域更深度地協(xié)作。這種方案將PhysBrain的多個(gè)層級(jí)信息都注入到動(dòng)作生成過(guò)程中,實(shí)現(xiàn)了更精細(xì)的控制和更豐富的信息利用。

兩種架構(gòu)都使用了流匹配擴(kuò)散技術(shù)來(lái)生成動(dòng)作序列。這個(gè)技術(shù)就像一個(gè)高級(jí)的"動(dòng)作雕刻師",能夠從隨機(jī)的噪聲開(kāi)始,逐步雕刻出精確的機(jī)器人動(dòng)作序列。整個(gè)過(guò)程只需要8步迭代,就能生成長(zhǎng)度為16步的動(dòng)作計(jì)劃,既保證了精度又確保了效率。

六、令人矚目的實(shí)驗(yàn)驗(yàn)證結(jié)果

為了全面驗(yàn)證PhysBrain的效果,研究團(tuán)隊(duì)進(jìn)行了兩個(gè)層面的評(píng)估實(shí)驗(yàn)。第一個(gè)層面關(guān)注第一人稱理解能力本身,第二個(gè)層面考察實(shí)際的機(jī)器人控制性能。

在第一人稱理解能力測(cè)試中,研究團(tuán)隊(duì)使用了EgoThink基準(zhǔn)測(cè)試。為了確保測(cè)試的公平性,他們特意排除了訓(xùn)練數(shù)據(jù)中的Ego4D部分,只使用EgoDex和BuildAI數(shù)據(jù)訓(xùn)練PhysBrain。這就像讓一個(gè)學(xué)生只看了數(shù)學(xué)和物理教材,然后去考化學(xué)測(cè)試,確保沒(méi)有"作弊"的可能。

測(cè)試結(jié)果令人印象深刻。PhysBrain在六個(gè)維度的平均得分達(dá)到了64.3分,超越了包括強(qiáng)大的GPT-4在內(nèi)的多個(gè)基線模型。特別值得注意的是,在最關(guān)鍵的"規(guī)劃"維度上,PhysBrain得分64.5分,不僅大幅超越了其他開(kāi)源模型,甚至比GPT-4的35.5分高出近30分。這就像一個(gè)專門(mén)訓(xùn)練第一人稱視角的選手,在需要規(guī)劃路線的任務(wù)中表現(xiàn)遠(yuǎn)超通用選手。

更有趣的是補(bǔ)充實(shí)驗(yàn)的結(jié)果。研究團(tuán)隊(duì)用只有E2E數(shù)據(jù)訓(xùn)練的模型去測(cè)試空間推理能力,發(fā)現(xiàn)在需要第一人稱視角理解的任務(wù)上有顯著提升。具體來(lái)說(shuō),"自中心運(yùn)動(dòng)"任務(wù)的準(zhǔn)確率從26.09%跳升到91.30%,提升幅度達(dá)到兩倍多。這證明了第一人稱訓(xùn)練數(shù)據(jù)確實(shí)能為模型帶來(lái)這方面的專門(mén)能力。

在機(jī)器人控制性能測(cè)試中,研究團(tuán)隊(duì)使用了SimplerEnv仿真環(huán)境,測(cè)試四個(gè)典型的操作任務(wù):"把勺子放到毛巾上"、"把胡蘿卜放到盤(pán)子里"、"把綠色積木疊在黃色積木上"、"把茄子放進(jìn)黃色籃子里"。這些任務(wù)涵蓋了精確放置、堆疊和投放等不同類型的操作,是機(jī)器人操作能力的良好體現(xiàn)。

實(shí)驗(yàn)結(jié)果同樣令人振奮。PhysBrain在四個(gè)任務(wù)上的平均成功率達(dá)到53.9%,這個(gè)成績(jī)?cè)赩LM基線中排名第一,比第二名高出8.8個(gè)百分點(diǎn)。更重要的是,這是在僅使用兩個(gè)機(jī)器人數(shù)據(jù)子集訓(xùn)練的情況下取得的,而許多對(duì)比方法使用了包含55個(gè)子集的完整機(jī)器人數(shù)據(jù)集。這就像用一本簡(jiǎn)化版教材的學(xué)習(xí)效果超過(guò)了用全套教材的學(xué)習(xí)效果。

特別值得關(guān)注的是與專門(mén)設(shè)計(jì)的機(jī)器人模型RoboBrain2.0的對(duì)比。PhysBrain的平均成功率53.9%大幅超越了RoboBrain2.0的37.8%,提升幅度達(dá)到16.1個(gè)百分點(diǎn)。這個(gè)結(jié)果清楚地表明,使用大規(guī)模人類第一人稱數(shù)據(jù)預(yù)訓(xùn)練的VLM確實(shí)能為下游機(jī)器人控制任務(wù)提供更好的初始化效果。

七、深度分析與技術(shù)洞察

這項(xiàng)研究的成功并非偶然,而是建立在對(duì)問(wèn)題本質(zhì)的深刻理解基礎(chǔ)上。傳統(tǒng)方法面臨的核心困境在于第一人稱視角數(shù)據(jù)的稀缺性和昂貴性。機(jī)器人第一人稱數(shù)據(jù)的收集需要復(fù)雜的硬件配置、專業(yè)的操作人員和嚴(yán)格的安全保障,成本高昂且規(guī)模難以擴(kuò)大。

而人類第一人稱視頻則提供了一個(gè)幾乎無(wú)限的數(shù)據(jù)源。這些視頻不僅數(shù)量龐大,而且天然地包含了豐富的交互上下文和因果關(guān)系。關(guān)鍵在于如何有效地從這些原始視頻中提取出對(duì)機(jī)器人學(xué)習(xí)有用的結(jié)構(gòu)化知識(shí)。

研究團(tuán)隊(duì)的翻譯管道巧妙地解決了這個(gè)問(wèn)題。通過(guò)七種不同類型的問(wèn)答生成,系統(tǒng)能夠從多個(gè)角度理解每個(gè)視頻片段:時(shí)間維度幫助理解動(dòng)作序列,空間維度分析物體關(guān)系,機(jī)械維度解釋因果機(jī)制,推理維度提升邏輯能力。這種多維度的知識(shí)提取確保了訓(xùn)練數(shù)據(jù)的豐富性和完整性。

質(zhì)量控制機(jī)制的設(shè)計(jì)也體現(xiàn)了研究團(tuán)隊(duì)的深思熟慮。三層驗(yàn)證邏輯(證據(jù)支撐、第一人稱一致性、時(shí)間邏輯)確保了生成數(shù)據(jù)的可靠性。這就像一個(gè)嚴(yán)格的出版社編輯流程,確保每一條訓(xùn)練數(shù)據(jù)都經(jīng)得起推敲。

八、突破性成果的實(shí)際意義

這項(xiàng)研究的成功帶來(lái)了多重意義。首先,它證明了人類第一人稱數(shù)據(jù)在機(jī)器人學(xué)習(xí)中的巨大潛力。這為解決機(jī)器人數(shù)據(jù)稀缺問(wèn)題提供了一條全新的路徑,就像發(fā)現(xiàn)了一個(gè)巨大的石油儲(chǔ)藏,能夠?yàn)檎麄€(gè)行業(yè)提供充足的"燃料"。

其次,研究展示了結(jié)構(gòu)化數(shù)據(jù)處理的重要性。原始視頻雖然包含豐富信息,但需要經(jīng)過(guò)精心設(shè)計(jì)的處理流程才能轉(zhuǎn)化為有效的訓(xùn)練信號(hào)。這個(gè)發(fā)現(xiàn)對(duì)未來(lái)的數(shù)據(jù)處理方法具有重要的指導(dǎo)意義。

第三,研究證明了領(lǐng)域特定預(yù)訓(xùn)練的價(jià)值。PhysBrain在第一人稱任務(wù)上的出色表現(xiàn)表明,針對(duì)特定應(yīng)用場(chǎng)景進(jìn)行專門(mén)的預(yù)訓(xùn)練能夠帶來(lái)顯著的性能提升,這為未來(lái)的模型設(shè)計(jì)提供了重要思路。

從技術(shù)發(fā)展角度來(lái)看,這項(xiàng)工作為視覺(jué)語(yǔ)言行動(dòng)模型的發(fā)展開(kāi)辟了新的方向。傳統(tǒng)的VLA模型主要依賴機(jī)器人數(shù)據(jù),而這項(xiàng)研究證明了人類行為數(shù)據(jù)的巨大價(jià)值,這可能會(huì)引發(fā)整個(gè)領(lǐng)域研究重點(diǎn)的轉(zhuǎn)移。

九、局限性與未來(lái)發(fā)展方向

研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了當(dāng)前工作的一些局限性。首先,實(shí)驗(yàn)評(píng)估主要集中在PhysGR00T架構(gòu)上,對(duì)PhysPI架構(gòu)的探索還不夠深入。這就像一個(gè)新發(fā)明有兩個(gè)版本,但主要測(cè)試了其中一個(gè)版本的性能。

其次,人類第一人稱數(shù)據(jù)與機(jī)器人數(shù)據(jù)的互補(bǔ)性還需要更深入的研究。雖然當(dāng)前結(jié)果顯示人類數(shù)據(jù)能夠有效補(bǔ)充機(jī)器人數(shù)據(jù)的不足,但如何實(shí)現(xiàn)兩者的最優(yōu)結(jié)合仍是一個(gè)開(kāi)放性問(wèn)題。

從技術(shù)角度來(lái)看,當(dāng)前的翻譯管道雖然有效,但仍有改進(jìn)空間。更復(fù)雜的注釋機(jī)制、更精細(xì)的質(zhì)量控制和更高效的數(shù)據(jù)處理都是未來(lái)可以探索的方向。

研究團(tuán)隊(duì)計(jì)劃在后續(xù)工作中逐步發(fā)布更多的實(shí)驗(yàn)結(jié)果和擴(kuò)展分析。他們特別關(guān)注人類第一人稱數(shù)據(jù)與機(jī)器人演示數(shù)據(jù)的互補(bǔ)性研究,這可能會(huì)為構(gòu)建更強(qiáng)大的具身智能系統(tǒng)提供關(guān)鍵洞察。

十、對(duì)未來(lái)機(jī)器人發(fā)展的啟示

這項(xiàng)研究的成功為未來(lái)機(jī)器人技術(shù)的發(fā)展指明了一個(gè)重要方向。傳統(tǒng)的機(jī)器人學(xué)習(xí)路徑就像修建高速公路,需要大量的基礎(chǔ)設(shè)施投資和專門(mén)的建設(shè)團(tuán)隊(duì)。而基于人類第一人稱數(shù)據(jù)的學(xué)習(xí)路徑則像利用現(xiàn)有的鄉(xiāng)間小道網(wǎng)絡(luò),通過(guò)巧妙的整合和優(yōu)化實(shí)現(xiàn)高效的交通運(yùn)輸。

這種方法的可擴(kuò)展性特別值得關(guān)注。人類每天產(chǎn)生的第一人稱視頻數(shù)量是機(jī)器人數(shù)據(jù)無(wú)法比擬的,隨著可穿戴設(shè)備和移動(dòng)設(shè)備的普及,這種數(shù)據(jù)的獲取將變得更加容易。如果能夠建立有效的數(shù)據(jù)處理和利用機(jī)制,未來(lái)的機(jī)器人可能會(huì)擁有比人類更豐富的第一人稱經(jīng)驗(yàn)積累。

從應(yīng)用前景來(lái)看,這項(xiàng)技術(shù)特別適合于需要大量第一人稱操作的場(chǎng)景。比如家庭服務(wù)機(jī)器人、醫(yī)療輔助機(jī)器人、工業(yè)裝配機(jī)器人等,都可能從這種訓(xùn)練方法中獲得顯著的性能提升。

說(shuō)到底,這項(xiàng)研究最大的貢獻(xiàn)在于證明了一個(gè)簡(jiǎn)單而深刻的觀點(diǎn):機(jī)器人不一定需要從零開(kāi)始學(xué)習(xí)如何理解世界,它們可以站在人類經(jīng)驗(yàn)的肩膀上。就像人類文明的發(fā)展依賴于知識(shí)的傳承和積累,機(jī)器人的智能發(fā)展也可以借鑒人類的行為經(jīng)驗(yàn)和認(rèn)知模式。

PhysBrain的成功表明,我們正在走向一個(gè)人機(jī)協(xié)作學(xué)習(xí)的新時(shí)代。在這個(gè)時(shí)代里,機(jī)器人不再是孤立的學(xué)習(xí)者,而是能夠從人類的日常行為中汲取智慧的學(xué)習(xí)伙伴。這種轉(zhuǎn)變可能會(huì)徹底改變我們對(duì)機(jī)器人訓(xùn)練和開(kāi)發(fā)的理解,為創(chuàng)造真正智能的機(jī)器人系統(tǒng)開(kāi)辟全新的道路。

未來(lái)的機(jī)器人可能會(huì)像人類學(xué)徒一樣,通過(guò)觀察和學(xué)習(xí)人類的日常行為來(lái)獲得技能。而PhysBrain這樣的系統(tǒng)則像是一個(gè)高效的"師傅",能夠?qū)⑷祟惖牟僮鹘?jīng)驗(yàn)系統(tǒng)地傳授給機(jī)器人學(xué)徒。這種學(xué)習(xí)模式不僅更加高效,也更加符合人類對(duì)機(jī)器人學(xué)習(xí)過(guò)程的直觀理解。

隨著這項(xiàng)技術(shù)的進(jìn)一步發(fā)展和完善,我們有理由相信,未來(lái)的機(jī)器人將能夠更好地理解和適應(yīng)人類的生活環(huán)境,成為真正有用的人工智能助手。而這一切的起點(diǎn),正是研究團(tuán)隊(duì)在理解人類第一人稱視角方面取得的這一重要突破。

Q&A

Q1:PhysBrain是什么,它有什么特別之處?

A:PhysBrain是香港科技大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的一個(gè)專門(mén)理解第一人稱視角的AI模型。它的特別之處在于能夠像人類一樣理解第一人稱視角的內(nèi)容,特別擅長(zhǎng)分析手部動(dòng)作、物體交互和動(dòng)作規(guī)劃。與傳統(tǒng)只能理解第三人稱視角的AI模型不同,PhysBrain能準(zhǔn)確理解當(dāng)你戴著頭盔攝像頭時(shí)看到的世界。

Q2:E2E-3M數(shù)據(jù)集是如何制作的,為什么要花這么大力氣?

A:E2E-3M數(shù)據(jù)集通過(guò)一套"視頻翻譯系統(tǒng)"制作,這個(gè)系統(tǒng)能將普通的人類第一人稱視頻轉(zhuǎn)換成機(jī)器人可以理解的問(wèn)答形式。研究團(tuán)隊(duì)收集了300萬(wàn)條來(lái)自家庭、工廠和實(shí)驗(yàn)室的第一人稱視頻,然后為每個(gè)視頻片段生成7種不同類型的問(wèn)答,涵蓋時(shí)間、空間、邏輯等多個(gè)維度。這樣做是因?yàn)闄C(jī)器人數(shù)據(jù)收集成本極高,而人類第一人稱視頻資源豐富且免費(fèi)。

Q3:PhysBrain在實(shí)際機(jī)器人控制中表現(xiàn)如何?

A:PhysBrain在SimplerEnv機(jī)器人仿真測(cè)試中取得了53.9%的平均成功率,超越了所有對(duì)比的VLM模型,比第二名高出8.8個(gè)百分點(diǎn)。更重要的是,這個(gè)成績(jī)是在僅使用少量機(jī)器人訓(xùn)練數(shù)據(jù)的情況下取得的,證明了人類第一人稱數(shù)據(jù)對(duì)機(jī)器人學(xué)習(xí)的巨大價(jià)值。在最關(guān)鍵的規(guī)劃能力測(cè)試中,PhysBrain甚至超越了GPT-4。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
四藍(lán)委落敗原因曝光,鄭麗文拋“一對(duì)一”重磅!黃國(guó)昌直指侯友宜

四藍(lán)委落敗原因曝光,鄭麗文拋“一對(duì)一”重磅!黃國(guó)昌直指侯友宜

陳博世財(cái)經(jīng)
2025-12-28 17:07:40
泰柬停火生效后首日,雙方通報(bào)最新局勢(shì)

泰柬?;鹕Ш笫兹?,雙方通報(bào)最新局勢(shì)

界面新聞
2025-12-28 14:10:32
中方對(duì)美反制落地,合作全部叫停,美國(guó)強(qiáng)烈抗議,3句話極其無(wú)恥

中方對(duì)美反制落地,合作全部叫停,美國(guó)強(qiáng)烈抗議,3句話極其無(wú)恥

云上烏托邦
2025-12-27 19:04:16
一套房,跌掉511萬(wàn)。 北京,海淀,北三環(huán)。 就上個(gè)月的事兒。

一套房,跌掉511萬(wàn)。 北京,海淀,北三環(huán)。 就上個(gè)月的事兒。

歲月有情1314
2025-12-26 16:49:55
「乒乓賽訊」乒超總決賽12月28日賽果:深圳大學(xué)女團(tuán)獲得冠軍

「乒乓賽訊」乒超總決賽12月28日賽果:深圳大學(xué)女團(tuán)獲得冠軍

小軻搞笑解說(shuō)
2025-12-28 17:15:56
退伍前參加射擊比武,觀摩的軍長(zhǎng)開(kāi)口:比賽暫停,那個(gè)兵我要了

退伍前參加射擊比武,觀摩的軍長(zhǎng)開(kāi)口:比賽暫停,那個(gè)兵我要了

卡西莫多的故事
2025-12-25 10:44:54
1977 年李敏見(jiàn)親姐楊月花,姐姐提特殊要求,舅舅嘆如母性格

1977 年李敏見(jiàn)親姐楊月花,姐姐提特殊要求,舅舅嘆如母性格

嘮叨說(shuō)歷史
2025-12-24 09:40:23
三亞不香了?東北人撤離成潮,壓垮他們的不是物價(jià),而是生活現(xiàn)實(shí)

三亞不香了?東北人撤離成潮,壓垮他們的不是物價(jià),而是生活現(xiàn)實(shí)

歷史有些冷
2025-12-04 20:20:06
溫莎新力量!夏洛特公主親切與黑人母女合影,削弱梅根相關(guān)指控

溫莎新力量!夏洛特公主親切與黑人母女合影,削弱梅根相關(guān)指控

歲暮的歸南山
2025-12-28 11:40:41
以色列這招太狠,帶頭承認(rèn)索馬里蘭,這步棋其實(shí)是沖中國(guó)來(lái)的

以色列這招太狠,帶頭承認(rèn)索馬里蘭,這步棋其實(shí)是沖中國(guó)來(lái)的

策前論
2025-12-27 17:06:53
雅魯藏布江水電站有多牛?印度網(wǎng)友看完集體沉默,真相太震撼

雅魯藏布江水電站有多牛?印度網(wǎng)友看完集體沉默,真相太震撼

老特有話說(shuō)
2025-12-27 14:41:57
AI已經(jīng)能暢玩幾乎所有游戲了,那還要我干啥?

AI已經(jīng)能暢玩幾乎所有游戲了,那還要我干啥?

差評(píng)XPIN
2025-12-27 00:11:52
比恒大還慘!中國(guó)第二大民企倒了,負(fù)債7500億,創(chuàng)始人被帶走

比恒大還慘!中國(guó)第二大民企倒了,負(fù)債7500億,創(chuàng)始人被帶走

芳芳?xì)v史燴
2025-12-25 20:32:52
1月最強(qiáng)運(yùn)勢(shì)的3生肖:正緣敲門(mén),橫財(cái)天降,翻身就在上半年!

1月最強(qiáng)運(yùn)勢(shì)的3生肖:正緣敲門(mén),橫財(cái)天降,翻身就在上半年!

毅談生肖
2025-12-28 11:31:14
李宗仁歸國(guó)之后,希望能出任人大副委員長(zhǎng)一職,毛主席卻給出了三條關(guān)鍵理由,直言此事并不合適

李宗仁歸國(guó)之后,希望能出任人大副委員長(zhǎng)一職,毛主席卻給出了三條關(guān)鍵理由,直言此事并不合適

史海孤雁
2025-12-25 16:48:16
外媒披露泰柬?;鹇暶髟敿?xì)內(nèi)容

外媒披露泰柬?;鹇暶髟敿?xì)內(nèi)容

參考消息
2025-12-27 19:17:36
【解局】被中方最新制裁的美國(guó)軍工企業(yè)和個(gè)人,都是什么來(lái)頭?

【解局】被中方最新制裁的美國(guó)軍工企業(yè)和個(gè)人,都是什么來(lái)頭?

環(huán)球網(wǎng)資訊
2025-12-26 22:56:11
馬未都:香港寧愿要20萬(wàn)菲傭,也不接受內(nèi)地保姆,原因很簡(jiǎn)單

馬未都:香港寧愿要20萬(wàn)菲傭,也不接受內(nèi)地保姆,原因很簡(jiǎn)單

犀利辣椒
2025-12-27 06:42:38
6000萬(wàn)主力客群“消失”:困在商場(chǎng)里的餐飲店,正迎來(lái)一場(chǎng)大“清洗”

6000萬(wàn)主力客群“消失”:困在商場(chǎng)里的餐飲店,正迎來(lái)一場(chǎng)大“清洗”

職業(yè)餐飲網(wǎng)
2025-12-18 21:06:32
鄧小平視察二汽,得知王兆國(guó)38歲就當(dāng)副廠長(zhǎng)后大喜:要好好培養(yǎng)他

鄧小平視察二汽,得知王兆國(guó)38歲就當(dāng)副廠長(zhǎng)后大喜:要好好培養(yǎng)他

帝哥說(shuō)史
2025-12-23 06:30:03
2025-12-28 20:00:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
6680文章數(shù) 544關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

臺(tái)媒體人:賴清德彈劾案通過(guò) 對(duì)賴是一個(gè)很大的侮辱

頭條要聞

臺(tái)媒體人:賴清德彈劾案通過(guò) 對(duì)賴是一個(gè)很大的侮辱

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂(lè)要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車(chē)了

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

汽車(chē)要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

教育
親子
時(shí)尚
本地
數(shù)碼

教育要聞

低情商校長(zhǎng)的5種行為,希望你一個(gè)也沒(méi)有

親子要聞

原來(lái)真的有學(xué)霸父母“學(xué)渣”娃的情況!網(wǎng)友:看完瞬間心理平衡!

瑞典拉普蘭:凜冽北境的萬(wàn)物平衡之道

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬(wàn)年史書(shū)

數(shù)碼要聞

被人民日?qǐng)?bào)“點(diǎn)名”,這款筆記本電腦適合你嗎?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版