国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

機(jī)器人學(xué)會(huì)"未卜先知":ByteDance如何讓AI提前看到未來再行動(dòng)

0
分享至


這項(xiàng)由ByteDance Seed與香港大學(xué)合作完成的研究發(fā)表于2026年2月的arXiv預(yù)印本平臺(tái),編號(hào)為arXiv:2602.22010v1。有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。這項(xiàng)研究為機(jī)器人技術(shù)帶來了一個(gè)激動(dòng)人心的突破:讓機(jī)器人能夠像人類一樣"預(yù)見未來",然后據(jù)此做出更精準(zhǔn)的動(dòng)作決策。

就像一個(gè)經(jīng)驗(yàn)豐富的司機(jī)在轉(zhuǎn)彎前會(huì)提前觀察路況、預(yù)判車流一樣,這項(xiàng)研究讓機(jī)器人也擁有了這種"先見之明"。傳統(tǒng)的機(jī)器人就像新手司機(jī),只能看到當(dāng)前狀況就匆忙做決定,常常出現(xiàn)動(dòng)作不協(xié)調(diào)或碰撞等問題。而這項(xiàng)新技術(shù)讓機(jī)器人變成了"老司機(jī)",能夠提前"看到"幾步之后的情況,從而做出更加合適的動(dòng)作選擇。

研究團(tuán)隊(duì)將這項(xiàng)技術(shù)命名為WoG(World Guidance),意思是"世界引導(dǎo)"。這個(gè)系統(tǒng)的核心理念是讓機(jī)器人在執(zhí)行動(dòng)作之前,先在腦海中構(gòu)建一個(gè)關(guān)于未來幾秒鐘會(huì)發(fā)生什么的"預(yù)覽",然后基于這個(gè)預(yù)覽來指導(dǎo)當(dāng)前的行為。這就好比下棋時(shí)的高手,他們不只看當(dāng)前局面,而是會(huì)提前想好接下來幾步的變化,從而做出最優(yōu)選擇。

這項(xiàng)技術(shù)的突破性在于找到了一個(gè)巧妙的平衡點(diǎn)。以往的機(jī)器人要么只關(guān)注眼前情況(像近視眼一樣),要么試圖預(yù)測(cè)未來的所有細(xì)節(jié)(但這往往計(jì)算量太大且容易出錯(cuò))。WoG技術(shù)則像一個(gè)智能的"過濾器",它只提取未來信息中對(duì)當(dāng)前動(dòng)作真正有用的部分,既保證了預(yù)測(cè)的準(zhǔn)確性,又大大提高了計(jì)算效率。

一、機(jī)器人的"預(yù)知能力"究竟是怎么回事

傳統(tǒng)的機(jī)器人控制就像盲人摸象,只能根據(jù)當(dāng)前觸摸到的信息做出反應(yīng)。比如機(jī)器人要抓取一個(gè)杯子,它只能看到杯子現(xiàn)在的位置,然后筆直地伸手去抓。但如果桌子上還有其他物品,或者杯子可能會(huì)移動(dòng),機(jī)器人就很容易出錯(cuò)。

WoG技術(shù)讓機(jī)器人獲得了類似"透視眼"的能力。它不僅能看到杯子當(dāng)前的位置,還能預(yù)測(cè)到伸手過程中可能遇到的障礙物,預(yù)見到抓取動(dòng)作對(duì)桌面其他物品的影響,甚至預(yù)判杯子可能的輕微移動(dòng)。基于這些"未來信息",機(jī)器人會(huì)選擇一條更加巧妙的抓取路徑,避開障礙物,確保動(dòng)作的成功執(zhí)行。

這種預(yù)知能力的關(guān)鍵在于"條件空間"的概念。研究團(tuán)隊(duì)發(fā)現(xiàn),機(jī)器人并不需要預(yù)測(cè)未來的每一個(gè)細(xì)節(jié),而只需要提取出對(duì)當(dāng)前動(dòng)作有指導(dǎo)意義的關(guān)鍵信息。這就像開車時(shí),司機(jī)不需要記住路邊每一棵樹的位置,但需要清楚地知道前方車道的走向和其他車輛的動(dòng)向。

研究團(tuán)隊(duì)通過一個(gè)兩階段的訓(xùn)練過程來實(shí)現(xiàn)這種能力。第一階段就像給機(jī)器人配備了一副"望遠(yuǎn)鏡",讓它學(xué)會(huì)觀察和理解未來幾秒鐘內(nèi)環(huán)境的變化。第二階段則是教會(huì)機(jī)器人即使在沒有"望遠(yuǎn)鏡"的情況下,也能根據(jù)當(dāng)前信息推斷出未來的關(guān)鍵變化,就像經(jīng)驗(yàn)豐富的老司機(jī)即使在霧天也能憑經(jīng)驗(yàn)判斷路況一樣。

二、兩步走的學(xué)習(xí)策略:從"有預(yù)覽"到"憑直覺"

WoG技術(shù)的訓(xùn)練過程就像培養(yǎng)一個(gè)優(yōu)秀的象棋選手。第一階段相當(dāng)于讓學(xué)生在有參考書的情況下學(xué)習(xí),可以隨時(shí)查看標(biāo)準(zhǔn)答案;第二階段則要求學(xué)生脫離參考書,憑借內(nèi)化的知識(shí)獨(dú)立解決問題。

在第一階段,研究團(tuán)隊(duì)為機(jī)器人提供了完整的"未來信息包"。這個(gè)信息包來自于多個(gè)預(yù)訓(xùn)練的視覺模型,就像給機(jī)器人配備了多個(gè)不同功能的"傳感器"。有的傳感器專門識(shí)別物體的語義信息(這是什么東西),有的專門捕捉運(yùn)動(dòng)和變化信息(東西是怎么動(dòng)的)。這些傳感器收集到的未來信息通過一個(gè)叫做"Q-Former"的組件進(jìn)行壓縮和整理,最終形成一個(gè)緊湊但信息豐富的"未來?xiàng)l件"。

機(jī)器人在這個(gè)階段學(xué)會(huì)了如何利用這些未來?xiàng)l件來做出更好的動(dòng)作決策。就像學(xué)習(xí)開車時(shí),教練會(huì)提前告訴學(xué)員前方路口的情況,學(xué)員逐漸學(xué)會(huì)了如何根據(jù)這些提前信息調(diào)整自己的駕駛行為。

第二階段則是關(guān)鍵的"內(nèi)化"過程。研究團(tuán)隊(duì)凍結(jié)了第一階段訓(xùn)練好的未來信息提取器,讓它繼續(xù)產(chǎn)生標(biāo)準(zhǔn)的"未來?xiàng)l件"作為參考答案。然后訓(xùn)練機(jī)器人的主要決策系統(tǒng),讓它學(xué)會(huì)僅僅根據(jù)當(dāng)前觀察到的信息,就能預(yù)測(cè)出這些未來?xiàng)l件應(yīng)該是什么樣的。這就像教練不再提前告知路況,而是讓學(xué)員憑借之前的學(xué)習(xí)經(jīng)驗(yàn)自己判斷前方可能出現(xiàn)的情況。

通過這種方式,機(jī)器人最終獲得了一種"內(nèi)在的預(yù)知能力"。它不再需要外部提供未來信息,而是能夠根據(jù)當(dāng)前情況推斷出接下來幾秒鐘內(nèi)環(huán)境的關(guān)鍵變化,并據(jù)此做出最優(yōu)的動(dòng)作選擇。

這種訓(xùn)練策略的巧妙之處在于避免了直接預(yù)測(cè)復(fù)雜的未來畫面。傳統(tǒng)方法往往試圖讓機(jī)器人預(yù)測(cè)未來幾幀的完整視頻,但這樣做計(jì)算量巨大且容易出錯(cuò)。WoG技術(shù)則只預(yù)測(cè)那些對(duì)動(dòng)作決策真正有用的"精華信息",大大提高了預(yù)測(cè)的準(zhǔn)確性和實(shí)用性。

三、從海量人類視頻中汲取智慧

WoG技術(shù)的一個(gè)重要?jiǎng)?chuàng)新是能夠從大量的人類操作視頻中學(xué)習(xí)。這就像讓機(jī)器人觀看成千上萬個(gè)人類操作的"教學(xué)視頻",從中學(xué)習(xí)各種精巧的操作技巧和預(yù)判能力。

研究團(tuán)隊(duì)設(shè)計(jì)了兩種不同的人類數(shù)據(jù)利用策略。第一種策略是"精英教學(xué)法",即挑選一小部分有詳細(xì)動(dòng)作標(biāo)注的高質(zhì)量人類操作視頻,讓機(jī)器人詳細(xì)學(xué)習(xí)每一個(gè)動(dòng)作的細(xì)節(jié)。同時(shí),利用大量沒有動(dòng)作標(biāo)注的普通操作視頻來訓(xùn)練機(jī)器人的"觀察和預(yù)判"能力。這就像讓學(xué)生既要學(xué)習(xí)標(biāo)準(zhǔn)教材中的規(guī)范動(dòng)作,又要通過觀看大量實(shí)際操作來培養(yǎng)直覺和預(yù)判能力。

第二種策略更加實(shí)用,完全不需要有動(dòng)作標(biāo)注的人類視頻。機(jī)器人首先通過機(jī)器人自己的訓(xùn)練數(shù)據(jù)學(xué)會(huì)基本的操作能力,然后通過觀看大量人類操作視頻來提升自己的預(yù)判能力。這種方法的假設(shè)是,雖然人類和機(jī)器人的具體操作方式可能不同,但對(duì)環(huán)境變化的預(yù)判和對(duì)物體動(dòng)態(tài)的理解是相通的。就像不同的人開車方式各異,但對(duì)路況的預(yù)判原理是相似的。

研究團(tuán)隊(duì)還探索了UMI(Universal Manipulation Interface)數(shù)據(jù)的應(yīng)用。這是一種特殊的數(shù)據(jù)收集方式,通過頭戴式設(shè)備記錄人類的第一人稱操作視角。雖然這種數(shù)據(jù)的視角和動(dòng)作表示與機(jī)器人有很大差異,但WoG技術(shù)依然能夠從中提取有用的預(yù)判知識(shí),證明了該技術(shù)出色的適應(yīng)性和泛化能力。

通過這些人類數(shù)據(jù)的加持,WoG技術(shù)訓(xùn)練出的機(jī)器人表現(xiàn)出了更加自然和智能的操作行為。它們能夠更好地處理復(fù)雜的動(dòng)態(tài)環(huán)境,在面對(duì)未見過的情況時(shí)也能做出合理的預(yù)判和反應(yīng)。

四、仿真環(huán)境中的出色表現(xiàn)

為了驗(yàn)證WoG技術(shù)的有效性,研究團(tuán)隊(duì)在SIMPLER仿真環(huán)境中進(jìn)行了全面的測(cè)試。這個(gè)環(huán)境就像一個(gè)虛擬的機(jī)器人實(shí)驗(yàn)室,提供了各種不同復(fù)雜程度的操作任務(wù),從簡(jiǎn)單的物體抓取到復(fù)雜的多步驟操作。

在物體抓取任務(wù)中,WoG技術(shù)展現(xiàn)出了顯著的優(yōu)勢(shì)。傳統(tǒng)機(jī)器人在抓取物體時(shí)常常因?yàn)槁窂揭?guī)劃不當(dāng)而碰到障礙物或失誤。而使用WoG技術(shù)的機(jī)器人能夠提前"看到"抓取過程中可能遇到的問題,選擇更加巧妙的抓取路徑。在Pick Coke(抓取可樂罐)任務(wù)中,WoG技術(shù)的成功率達(dá)到了89%,遠(yuǎn)超其他方法的72.7%最高成績(jī)。

在需要精確軌跡規(guī)劃的移動(dòng)任務(wù)中,WoG技術(shù)的優(yōu)勢(shì)更加明顯。Move Near(移動(dòng)到目標(biāo)附近)任務(wù)要求機(jī)器人在有障礙物的環(huán)境中準(zhǔn)確到達(dá)指定位置。傳統(tǒng)方法的成功率普遍在40-70%之間,而WoG技術(shù)達(dá)到了82.5%的成功率。這說明預(yù)判能力確實(shí)大大提升了機(jī)器人處理復(fù)雜動(dòng)態(tài)環(huán)境的能力。

對(duì)于抽屜開關(guān)這類需要處理機(jī)械約束的任務(wù),WoG技術(shù)也表現(xiàn)出了良好的適應(yīng)性。雖然在某些需要極高空間精度的任務(wù)上提升有限,但整體來說,WoG技術(shù)在各類任務(wù)中都實(shí)現(xiàn)了顯著的性能改善。

研究團(tuán)隊(duì)還測(cè)試了不同視覺編碼器組合對(duì)性能的影響。他們發(fā)現(xiàn),將語義理解能力強(qiáng)的編碼器(如SigLIP)與動(dòng)態(tài)捕捉能力強(qiáng)的編碼器(如VAE)結(jié)合使用,能夠獲得最佳效果。語義編碼器幫助機(jī)器人理解"這是什么東西",動(dòng)態(tài)編碼器幫助機(jī)器人預(yù)測(cè)"東西會(huì)怎么變化",兩者結(jié)合為機(jī)器人提供了全面的未來預(yù)知能力。

五、真實(shí)世界中的驗(yàn)證與突破

從仿真到現(xiàn)實(shí)是機(jī)器人技術(shù)面臨的重大挑戰(zhàn),就像從紙上談兵到真正的戰(zhàn)場(chǎng)。研究團(tuán)隊(duì)在真實(shí)的機(jī)器人平臺(tái)上驗(yàn)證了WoG技術(shù),結(jié)果證明這種預(yù)判能力在現(xiàn)實(shí)世界中同樣有效。

實(shí)驗(yàn)平臺(tái)采用了UR5機(jī)械臂配備Robotiq夾具,通過頂視角的深度相機(jī)獲取環(huán)境信息。研究團(tuán)隊(duì)設(shè)計(jì)了三個(gè)具有代表性的任務(wù)來全面測(cè)試WoG技術(shù)的能力。

在剛體操作任務(wù)(放置綠色杯子到盤子中)上,WoG技術(shù)展現(xiàn)出了優(yōu)異的避障和精準(zhǔn)定位能力。這個(gè)任務(wù)看似簡(jiǎn)單,但實(shí)際上需要機(jī)器人預(yù)判抓取路徑上的障礙物,選擇合適的抓取姿態(tài),并精確控制放置位置避免碰撞。WoG技術(shù)的成功率達(dá)到了60%,明顯超過其他方法。

關(guān)節(jié)操作任務(wù)(關(guān)閉微波爐門)測(cè)試了機(jī)器人處理旋轉(zhuǎn)約束的能力。微波爐門的開關(guān)涉及復(fù)雜的旋轉(zhuǎn)動(dòng)力學(xué),機(jī)器人需要預(yù)判門的運(yùn)動(dòng)軌跡并相應(yīng)調(diào)整自己的動(dòng)作。WoG技術(shù)在這個(gè)任務(wù)上實(shí)現(xiàn)了100%的成功率,展現(xiàn)了出色的動(dòng)態(tài)預(yù)判能力。

柔性物體操作任務(wù)(折疊毛巾)是最具挑戰(zhàn)性的。毛巾的變形難以預(yù)測(cè),需要機(jī)器人具備對(duì)柔性動(dòng)力學(xué)的深刻理解。WoG技術(shù)將成功率提升到60%,相比其他方法有顯著改進(jìn)。這證明了預(yù)判技術(shù)對(duì)處理復(fù)雜變形物體的重要價(jià)值。

特別值得關(guān)注的是,WoG技術(shù)在面對(duì)環(huán)境變化時(shí)表現(xiàn)出了良好的魯棒性。當(dāng)研究團(tuán)隊(duì)改變桌布、調(diào)整光照、或使用不同形狀的物體時(shí),傳統(tǒng)方法的性能大幅下降,而WoG技術(shù)的性能下降相對(duì)較小。這說明通過預(yù)判訓(xùn)練,機(jī)器人學(xué)會(huì)了關(guān)注真正重要的環(huán)境特征,而不是被表面的視覺變化所誤導(dǎo)。

六、從人類智慧中學(xué)習(xí)的豐碩成果

研究團(tuán)隊(duì)深入探索了如何讓機(jī)器人從人類操作視頻中學(xué)習(xí)預(yù)判能力,取得了令人鼓舞的成果。他們收集了總計(jì)1920小時(shí)的人類操作視頻,其中只有220小時(shí)帶有詳細(xì)的動(dòng)作標(biāo)注,其余都是純粹的觀察視頻。

通過僅使用無標(biāo)注視頻進(jìn)行條件預(yù)測(cè)訓(xùn)練,機(jī)器人在抓取放置任務(wù)上的性能從60%提升到70%,同時(shí)在面對(duì)環(huán)境變化時(shí)表現(xiàn)出更強(qiáng)的適應(yīng)性。這個(gè)結(jié)果特別有意義,因?yàn)樗C明了機(jī)器人可以通過"觀看"大量人類操作來提升自己的預(yù)判能力,而無需昂貴的動(dòng)作標(biāo)注數(shù)據(jù)。

當(dāng)加入少量帶有動(dòng)作標(biāo)注的人類視頻后,效果進(jìn)一步提升。機(jī)器人不僅在基本任務(wù)上表現(xiàn)更好,在面對(duì)新環(huán)境和新物體時(shí)也展現(xiàn)出了更強(qiáng)的泛化能力。這就像學(xué)生通過觀看大量實(shí)際操作視頻培養(yǎng)了直覺,再通過少量精確指導(dǎo)掌握了具體技巧。

研究團(tuán)隊(duì)還測(cè)試了UMI數(shù)據(jù)的效果。盡管UMI數(shù)據(jù)采用完全不同的第一人稱視角和動(dòng)作表示方式,WoG技術(shù)依然能夠從中提取有價(jià)值的預(yù)判知識(shí)。在加入120個(gè)UMI軌跡后,機(jī)器人在抓取放置任務(wù)上的成功率從60%躍升到85%,在折疊任務(wù)上從60%提升到80%,改進(jìn)幅度分別達(dá)到42%和33%。

這些結(jié)果表明,WoG技術(shù)具備了跨模態(tài)、跨視角學(xué)習(xí)的能力。它能夠理解不同操作者、不同視角、不同表示方式下的共同操作邏輯,提取出通用的預(yù)判知識(shí)。這種能力為機(jī)器人從海量網(wǎng)絡(luò)視頻中學(xué)習(xí)操作技能開辟了廣闊前景。

七、技術(shù)架構(gòu)的巧妙設(shè)計(jì)

WoG技術(shù)的核心在于一個(gè)精心設(shè)計(jì)的"條件提取器",它就像一個(gè)智能的信息過濾系統(tǒng),能夠從復(fù)雜的未來信息中提取出對(duì)動(dòng)作決策真正有用的部分。

這個(gè)系統(tǒng)的輸入端連接著多個(gè)預(yù)訓(xùn)練的視覺模型,每個(gè)模型都有自己的專長(zhǎng)。DINOv2模型擅長(zhǎng)理解物體的語義信息,能夠識(shí)別"這是什么東西";VAE編碼器專長(zhǎng)于捕捉時(shí)空變化,能夠理解"東西是怎么動(dòng)的";SigLIP模型則具備強(qiáng)大的視覺-語言對(duì)齊能力,能夠理解指令與視覺場(chǎng)景的對(duì)應(yīng)關(guān)系。

Q-Former組件扮演著"智能編輯"的角色。它使用16個(gè)可學(xué)習(xí)的查詢向量,就像16個(gè)專門的"記者",每個(gè)都專注于提取特定類型的有用信息。通過交叉注意力機(jī)制,這些"記者"從海量的未來信息中篩選出最相關(guān)的內(nèi)容,最終壓縮成32維的緊湊表示。

在第二階段訓(xùn)練中,系統(tǒng)使用了一種巧妙的"知識(shí)蒸餾"策略。視覺語言模型的最后幾個(gè)隱藏狀態(tài)被用來預(yù)測(cè)未來?xiàng)l件,這些隱藏狀態(tài)相當(dāng)于模型的"內(nèi)在思考過程"。通過訓(xùn)練這個(gè)內(nèi)在思考過程來匹配外部提供的未來?xiàng)l件,模型逐漸內(nèi)化了預(yù)判能力。

整個(gè)架構(gòu)的設(shè)計(jì)哲學(xué)體現(xiàn)了"少即是多"的原則。與其試圖預(yù)測(cè)未來的每一個(gè)細(xì)節(jié),不如專注于預(yù)測(cè)那些對(duì)當(dāng)前決策真正重要的信息。這種設(shè)計(jì)不僅提高了預(yù)測(cè)準(zhǔn)確性,還大大降低了計(jì)算復(fù)雜度,使得系統(tǒng)能夠?qū)崟r(shí)運(yùn)行。

八、與現(xiàn)有技術(shù)的深度對(duì)比

WoG技術(shù)在機(jī)器人學(xué)習(xí)領(lǐng)域開辟了一條獨(dú)特的道路,它巧妙地避開了現(xiàn)有方法的主要缺陷,同時(shí)融合了各種方法的優(yōu)點(diǎn)。

傳統(tǒng)的視覺-語言-動(dòng)作模型就像只會(huì)"看現(xiàn)在"的近視眼,只能根據(jù)當(dāng)前觀察做出反應(yīng)。這類方法的代表如π0、OpenVLA等,雖然在簡(jiǎn)單任務(wù)上表現(xiàn)不錯(cuò),但在需要復(fù)雜規(guī)劃的場(chǎng)景中常常力不從心。WoG技術(shù)通過引入未來預(yù)判,將這類模型的能力提升到了新的高度。

世界動(dòng)作模型試圖通過預(yù)測(cè)未來的完整視頻來指導(dǎo)動(dòng)作,但這種方法就像試圖預(yù)測(cè)明天的每一朵云彩一樣困難且不必要。VPP等方法雖然能夠捕捉環(huán)境動(dòng)態(tài),但預(yù)測(cè)的視頻往往包含大量與動(dòng)作無關(guān)的細(xì)節(jié),不僅計(jì)算昂貴,還容易引入噪聲。WoG技術(shù)則像一個(gè)精明的天氣預(yù)報(bào)員,只預(yù)測(cè)對(duì)出行決策真正重要的信息。

潛在動(dòng)作模型如UniVLA、Moto等試圖通過學(xué)習(xí)抽象的動(dòng)作表示來實(shí)現(xiàn)跨任務(wù)泛化,這種方法就像學(xué)習(xí)通用的"動(dòng)作語言"。雖然這種抽象能力很有價(jià)值,但往往缺乏執(zhí)行精細(xì)操作所需的具體信息。WoG技術(shù)通過條件空間的設(shè)計(jì),在保持一定抽象性的同時(shí)提供了足夠的執(zhí)行細(xì)節(jié)。

VITA、ViPRA等方法嘗試結(jié)合潛在動(dòng)作建模和未來視頻生成,但這種組合往往導(dǎo)致系統(tǒng)復(fù)雜度過高,訓(xùn)練困難。WoG技術(shù)通過專注于條件預(yù)測(cè)而非完整視頻生成,實(shí)現(xiàn)了更好的性能-復(fù)雜度平衡。

在實(shí)際對(duì)比實(shí)驗(yàn)中,WoG技術(shù)在幾乎所有測(cè)試任務(wù)上都取得了最佳性能。特別是在需要精確軌跡規(guī)劃和碰撞避免的任務(wù)中,性能提升最為顯著。這證明了未來預(yù)判能力確實(shí)是提升機(jī)器人操作能力的關(guān)鍵因素。

說到底,這項(xiàng)研究讓機(jī)器人獲得了類似人類的"預(yù)見性思維"能力。就像優(yōu)秀的運(yùn)動(dòng)員能夠預(yù)判球的軌跡、圍棋高手能夠看清幾步后的局面一樣,使用WoG技術(shù)的機(jī)器人也能夠"看到"未來幾秒鐘內(nèi)環(huán)境的關(guān)鍵變化,從而做出更加明智的動(dòng)作選擇。

這種能力的獲得并非通過復(fù)雜的物理建?;虼罅康挠?jì)算,而是通過巧妙的學(xué)習(xí)策略和架構(gòu)設(shè)計(jì)。機(jī)器人學(xué)會(huì)了從當(dāng)前觀察中推斷未來的關(guān)鍵信息,這種推斷能力是通過觀察大量操作示例(包括機(jī)器人自身的和人類的)而獲得的。

更重要的是,這項(xiàng)技術(shù)為機(jī)器人學(xué)習(xí)開辟了新的可能性。通過從海量人類操作視頻中學(xué)習(xí)預(yù)判能力,機(jī)器人可以在不需要昂貴的真實(shí)操作數(shù)據(jù)的情況下獲得豐富的操作經(jīng)驗(yàn)。這就像讓機(jī)器人通過觀看YouTube上的操作視頻來學(xué)習(xí)技能,大大降低了訓(xùn)練成本,提高了學(xué)習(xí)效率。

當(dāng)然,這項(xiàng)技術(shù)也還有進(jìn)一步改進(jìn)的空間。在某些需要極高空間精度的任務(wù)上,僅憑當(dāng)前的預(yù)判能力還不夠,可能需要結(jié)合更精細(xì)的空間推理機(jī)制。在處理高度復(fù)雜的多步驟任務(wù)時(shí),可能需要更長(zhǎng)期的預(yù)判能力。但總的來說,WoG技術(shù)已經(jīng)為機(jī)器人智能操作奠定了堅(jiān)實(shí)的基礎(chǔ),為未來更加智能、更加實(shí)用的機(jī)器人系統(tǒng)鋪平了道路。

這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)本身。它證明了機(jī)器人可以通過學(xué)習(xí)獲得類似人類的直覺和預(yù)判能力,這為創(chuàng)造真正智能的機(jī)器人助手帶來了希望。在不久的將來,我們或許能看到能夠在復(fù)雜家庭環(huán)境中自如操作、能夠預(yù)判和避免各種問題的家用機(jī)器人,它們的行為將更加自然、更加可靠。

Q&A

Q1:WoG技術(shù)是什么?

A:WoG(World Guidance)是ByteDance和香港大學(xué)開發(fā)的機(jī)器人技術(shù),讓機(jī)器人能夠像人類一樣"預(yù)見未來"幾秒鐘內(nèi)的環(huán)境變化,然后根據(jù)這些預(yù)判信息做出更準(zhǔn)確的動(dòng)作選擇,就像經(jīng)驗(yàn)豐富的司機(jī)會(huì)提前觀察路況來調(diào)整駕駛策略一樣。

Q2:WoG技術(shù)和傳統(tǒng)機(jī)器人控制有什么區(qū)別?

A:傳統(tǒng)機(jī)器人只能根據(jù)當(dāng)前看到的情況做決定,就像近視眼一樣。而WoG技術(shù)讓機(jī)器人獲得了"預(yù)知能力",能提前判斷接下來幾秒內(nèi)可能發(fā)生的變化,從而選擇更好的操作路徑,避免碰撞和失誤。

Q3:這項(xiàng)技術(shù)能應(yīng)用在日常生活中嗎?

A:是的,這項(xiàng)技術(shù)為更智能的家用機(jī)器人奠定了基礎(chǔ)。未來的機(jī)器人助手將能夠在復(fù)雜的家庭環(huán)境中更自然地操作,比如在廚房里避開障礙物精準(zhǔn)抓取物品,或者在整理房間時(shí)預(yù)判物品的移動(dòng),表現(xiàn)得更像有經(jīng)驗(yàn)的人類助手。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中東局勢(shì)惡化沖擊航空業(yè) 全球旅游股遭受重創(chuàng)

中東局勢(shì)惡化沖擊航空業(yè) 全球旅游股遭受重創(chuàng)

財(cái)聯(lián)社
2026-03-03 01:16:08
美軍在打擊伊朗的行動(dòng)中使用了“盧卡斯”自殺式無人機(jī)

美軍在打擊伊朗的行動(dòng)中使用了“盧卡斯”自殺式無人機(jī)

看航空
2026-03-02 16:54:04
國(guó)行 iPhone NFC 即將全面開放 ,終于有希望了!

國(guó)行 iPhone NFC 即將全面開放 ,終于有希望了!

果粉易查
2026-03-01 19:10:03
“書記,你一件沖鋒衣頂農(nóng)民一年收成!”女選調(diào)生下鄉(xiāng),卻被威脅

“書記,你一件沖鋒衣頂農(nóng)民一年收成!”女選調(diào)生下鄉(xiāng),卻被威脅

妍妍教育日記
2026-02-04 18:29:23
23歲伊拉克國(guó)王費(fèi)薩爾二世被處決,他的雙腳被砍掉,衣服也被扒光

23歲伊拉克國(guó)王費(fèi)薩爾二世被處決,他的雙腳被砍掉,衣服也被扒光

南權(quán)先生
2026-02-13 15:23:32
8歲男孩確診結(jié)腸癌:他吃的不是零食,是命

8歲男孩確診結(jié)腸癌:他吃的不是零食,是命

消化石醫(yī)生
2026-02-27 07:02:22
“母子落魄吃蛋糕”視頻火了,獲贊過百萬:誰不羨慕這樣的父母?

“母子落魄吃蛋糕”視頻火了,獲贊過百萬:誰不羨慕這樣的父母?

妍妍教育日記
2026-02-25 20:58:43
以10億倍光速一直朝著一個(gè)方向飛行,最終能飛出宇宙嗎?

以10億倍光速一直朝著一個(gè)方向飛行,最終能飛出宇宙嗎?

宇宙時(shí)空
2026-03-01 21:20:03
褚時(shí)健到2002年才明白,原來當(dāng)年是得罪了惹不起的那幾位

褚時(shí)健到2002年才明白,原來當(dāng)年是得罪了惹不起的那幾位

阿柒的訊
2026-02-24 15:07:34
沒想到有這么多工作需要保密的!網(wǎng)友:首飾什么的也不能帶

沒想到有這么多工作需要保密的!網(wǎng)友:首飾什么的也不能帶

夜深愛雜談
2026-03-02 19:53:28
科威特上空傳出巨大爆炸聲 原因尚不明

科威特上空傳出巨大爆炸聲 原因尚不明

財(cái)聯(lián)社
2026-03-02 19:18:06
喜提68萬!孫穎莎賽后發(fā)言有些可怕!王曼昱懂了!

喜提68萬!孫穎莎賽后發(fā)言有些可怕!王曼昱懂了!

最愛乒乓球
2026-03-03 00:05:30
“大尺度”女星的瓜!

“大尺度”女星的瓜!

文刀萬
2025-05-23 06:05:02
鞍鋼集團(tuán)賈文軍被查

鞍鋼集團(tuán)賈文軍被查

新浪財(cái)經(jīng)
2026-03-02 19:53:43
婆婆趕走我媽,搬來我家常住,我天天加班不回家,婆婆傻眼

婆婆趕走我媽,搬來我家常住,我天天加班不回家,婆婆傻眼

i書與房
2026-03-02 20:16:55
伊朗革命衛(wèi)隊(duì)發(fā)布血性檄文:哈梅內(nèi)伊殉難是勝利象征,復(fù)仇之手已張開

伊朗革命衛(wèi)隊(duì)發(fā)布血性檄文:哈梅內(nèi)伊殉難是勝利象征,復(fù)仇之手已張開

健身狂人
2026-03-01 10:58:21
新加坡急了,外長(zhǎng)幾乎是拍著桌子,讓中國(guó)“尊重”馬六甲的地位。

新加坡急了,外長(zhǎng)幾乎是拍著桌子,讓中國(guó)“尊重”馬六甲的地位。

南權(quán)先生
2026-01-26 15:41:26
輔導(dǎo)員,全部入編

輔導(dǎo)員,全部入編

山東教育
2026-03-01 17:59:48
大年初6,米蘭冬奧會(huì)大結(jié)局,最后5金產(chǎn)生,賽程如下,獎(jiǎng)牌榜有變

大年初6,米蘭冬奧會(huì)大結(jié)局,最后5金產(chǎn)生,賽程如下,獎(jiǎng)牌榜有變

大秦壁虎白話體育
2026-02-22 09:02:40
中美沖突升級(jí)的下一步,一定是軍事較量,我們要做好全面準(zhǔn)備

中美沖突升級(jí)的下一步,一定是軍事較量,我們要做好全面準(zhǔn)備

曾經(jīng)年少
2025-04-14 16:03:33
2026-03-03 02:07:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7408文章數(shù) 553關(guān)注度
往期回顧 全部

科技要聞

蘋果中國(guó)官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

中國(guó)留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

頭條要聞

中國(guó)留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

手機(jī)
健康
親子
教育
家居

手機(jī)要聞

iPhone 17e發(fā)布:4499元起,e系列首次搭載靈動(dòng)島

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

親子要聞

45歲這年,我這個(gè)二胎媽媽決定做一件“瘋狂”的事

教育要聞

特別猛,但在留學(xué)生心中存在感很低的英國(guó)大學(xué)!

家居要聞

萬物互聯(lián) 享科技福祉

無障礙瀏覽 進(jìn)入關(guān)懷版