国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

斯坦福機(jī)器人把308段視頻喂給AI,發(fā)現(xiàn)VLM規(guī)劃時一半時間在"

0
分享至


1,009個真實機(jī)器人任務(wù),最長26步操作,開源模型成功率不到15%。這是斯坦福、UC伯克利和Meta最新放出的基準(zhǔn)測試結(jié)果——他們想知道視覺語言模型(VLM)能不能像人類一樣,邊想邊做、指哪打哪。

答案很扎心:現(xiàn)有模型在"做什么"和"在哪做"這兩個問題上,基本是在各說各話。一個模型負(fù)責(zé)出主意,另一個負(fù)責(zé)找位置,中間傳話傳著傳著就歪了。

團(tuán)隊把這個問題叫做"空間落地"(spatial grounding)。不是讓AI看懂圖片,而是讓它在規(guī)劃時就把動作和具體坐標(biāo)綁死。比如"把勺子放到白色盤子上",得同時輸出"放"這個動作,以及盤子在畫面里的像素框。

為了測這個,他們從DROID數(shù)據(jù)集里扒了308段機(jī)器人操作視頻,找了專家逐幀標(biāo)注,造出了GroundedPlanBench。任務(wù)分三檔:1-4步的簡單活(345個)、5-8步的中等活(381個)、9-26步的復(fù)雜活(283個)。

指令也分兩種風(fēng)格。一種是"把勺子放到白色盤子上"這種明示,另一種是"收拾桌子"這種暗示。后者更貼近真實場景——沒人會跟家用機(jī)器人報菜名式地吩咐每一步。

動作被拆成四種原子操作

抓取(grasp)、放置(place)、打開(open)、關(guān)閉(close)。每種都帶一個邊界框:抓取/開/關(guān)綁的是操作對象的框,放置綁的是目標(biāo)位置的框。

這套設(shè)計直接把"規(guī)劃"和"定位"焊在了一起。傳統(tǒng)做法是兩步走:VLM先吐一段自然語言計劃,再用另一個模型翻譯成可執(zhí)行動作。問題是,自然語言天生模糊——"把東西放那邊"里的"那邊"到底是哪?

團(tuán)隊發(fā)現(xiàn),這種模糊在長程任務(wù)里會滾雪球。第一步的計劃要是歪了,第二步基于第一步做推理,錯上加錯。到第五步,機(jī)器人可能已經(jīng)在抓空氣了。

他們的解決方案叫V2GP(Video-to-Spatially Grounded Planning)。簡單說,就是把人類操作視頻自動轉(zhuǎn)成帶空間標(biāo)注的訓(xùn)練數(shù)據(jù),喂給VLM學(xué)。


流程是這樣的:先靠機(jī)械臂的夾爪信號檢測交互時刻,然后用多模態(tài)語言模型生成被操作物體的文本描述,再用Meta的SAM 3模型做開放詞匯的分割跟蹤,最后把跟蹤結(jié)果轉(zhuǎn)成帶框的動作序列。

這套流水線全自動化,不需要人工標(biāo)注每個動作的邊界框。對,就是那個SAM 3,Meta去年發(fā)布的圖像視頻分割模型,在這里被拿來當(dāng)"追蹤器"用。

開源閉源模型一起測,差距比想象的大

測試覆蓋了GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro等閉源模型,以及Qwen2.5-VL、Llama 3.2 Vision等開源模型。結(jié)果分成兩塊看:規(guī)劃能力(動作序列對不對)和落地能力(位置框準(zhǔn)不準(zhǔn))。

閉源模型里,GPT-4o和Claude 3.5 Sonnet在規(guī)劃上領(lǐng)先,但落地精度一般。Gemini 1.5 Pro的長上下文優(yōu)勢明顯,在26步的復(fù)雜任務(wù)上掉點最少。開源模型整體落后一截,Qwen2.5-VL算是矮子里拔將軍。

關(guān)鍵發(fā)現(xiàn)是:規(guī)劃對了,位置不一定對;位置準(zhǔn)了,規(guī)劃不一定連貫。兩個能力像是兩個獨(dú)立技能樹,點滿一邊另一邊可能還是白板。

V2GP訓(xùn)練后的模型在兩邊都有提升。基準(zhǔn)測試上,規(guī)劃準(zhǔn)確率提高了23%,落地精度提高了31%。真實機(jī)器人實驗里,任務(wù)完成率從11%提到34%——還是不高,但已經(jīng)是三倍躍遷。

團(tuán)隊特意選了"野外的"真實場景測試。不是實驗室白桌子,是廚房、客廳、辦公室,光照雜亂、物體遮擋、背景混亂的那種。DROID數(shù)據(jù)集本身就是從全球60個機(jī)構(gòu)收集的,場景多樣性拉滿。

一個反直覺的細(xì)節(jié)

明示指令("把勺子放到白色盤子上")和暗示指令("收拾桌子")的表現(xiàn)差距,比預(yù)期的小。團(tuán)隊原本以為明示會簡單很多,畢竟信息給足了。但結(jié)果顯示,模型在暗示任務(wù)上的掉點幅度,遠(yuǎn)小于人類玩家的掉點幅度。


這說明VLM可能不是真的"理解"了任務(wù),而是在做某種模式匹配。明示指令里的顏色、形狀關(guān)鍵詞,和暗示指令里的動詞,可能被編碼成了相似的向量表示。換句話說,模型并沒有像人類那樣,從目標(biāo)反推出步驟。

另一個發(fā)現(xiàn)是,步數(shù)超過8之后,所有模型的性能曲線都陡降。不是線性掉,是斷崖掉。第9步成了一個神秘的分水嶺,過了這條線,規(guī)劃成功率直接腰斬。

團(tuán)隊分析,這和上下文窗口關(guān)系不大——Gemini 1.5 Pro能吞100萬token,照樣在第9步栽跟頭。更可能是長程推理的累積誤差,或者是訓(xùn)練數(shù)據(jù)里長序列樣本太少。

V2GP生成的訓(xùn)練數(shù)據(jù),平均每個視頻產(chǎn)出4.7個任務(wù)序列。308個視頻最終擴(kuò)成了1,009個帶標(biāo)注的任務(wù),相當(dāng)于數(shù)據(jù)量翻了3倍。但和真正的互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)比,還是九牛一毛。

他們開源了全部基準(zhǔn)數(shù)據(jù)和V2GP的代碼。GitHub倉庫里能看到每個任務(wù)的原始視頻、標(biāo)注框、生成的計劃序列,以及模型預(yù)測的對比。這種透明度在機(jī)器人學(xué)習(xí)領(lǐng)域不算常見。

一個值得玩味的對比:在純模擬環(huán)境里訓(xùn)練的策略,遷移到真實機(jī)器人上成功率通常低于10%。而V2GP用真實視頻訓(xùn)練,直接部署到真實機(jī)器人,34%的完成率反而顯得"務(wù)實"。

這指向一個行業(yè)共識正在松動——模擬器不是必經(jīng)之路。以前大家覺得先在仿真里練到90%,再想辦法遷移到現(xiàn)實。但仿真和現(xiàn)實之間的"現(xiàn)實鴻溝"(reality gap)越挖越深,干脆直接用真實視頻數(shù)據(jù)可能更劃算。

當(dāng)然,34%意味著三次嘗試才能成功一次。家用機(jī)器人要是這個水平,用戶大概會直接把機(jī)器砸了。團(tuán)隊也承認(rèn),這是"野外任務(wù)規(guī)劃"的 baseline,不是終點。

下一步他們打算把V2GP擴(kuò)展到更多動作類型?,F(xiàn)在的四種原子操作能覆蓋大部分桌面操作,但開門、抽屜、按鈕這類需要更精細(xì)力控的動作還沒納入。另外,多模態(tài)反饋——比如觸覺、聲音——能不能幫助定位,也是開放問題。

論文最后提了一個場景:讓機(jī)器人看一遍人類整理房間的視頻,然后自己上手干。V2GP往這個方向邁了一步,但"看一遍就會"的通用機(jī)器人,距離落地還有多少個34%要爬?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
“尼帕病毒”來勢洶洶,建議:每家備好6樣?xùn)|西,關(guān)鍵時刻能救命

“尼帕病毒”來勢洶洶,建議:每家備好6樣?xùn)|西,關(guān)鍵時刻能救命

路醫(yī)生健康科普
2026-01-28 12:18:49
好消息!麒麟芯片已不受制裁了,華為手機(jī)真正全面歸來

好消息!麒麟芯片已不受制裁了,華為手機(jī)真正全面歸來

互聯(lián)網(wǎng).亂侃秀
2026-03-26 10:55:17
國家宣布!一稅兩費(fèi)將合并為一稅

國家宣布!一稅兩費(fèi)將合并為一稅

祥順財稅俱樂部
2026-03-27 09:16:44
釋永信“開光”真相大白,過程不堪入目,易中天也有牽扯

釋永信“開光”真相大白,過程不堪入目,易中天也有牽扯

尋墨閣
2026-03-25 11:39:10
0.028%!無罪判決率跌至谷底,為何國際水平是我們的35倍?

0.028%!無罪判決率跌至谷底,為何國際水平是我們的35倍?

深析古今
2026-03-25 01:10:47
廣東今日早報!球迷熱議楊鳴替杜鋒,徐杰深夜發(fā)聲,崔永熙回首發(fā)

廣東今日早報!球迷熱議楊鳴替杜鋒,徐杰深夜發(fā)聲,崔永熙回首發(fā)

越嶺尋蹤
2026-03-27 09:38:25
到底有多無知,才能做出這樣的判決!

到底有多無知,才能做出這樣的判決!

槽三刀
2026-03-25 22:01:04
郜林:往返高速費(fèi)和油費(fèi)就讓工資所剩無幾,小克是目標(biāo)榜樣

郜林:往返高速費(fèi)和油費(fèi)就讓工資所剩無幾,小克是目標(biāo)榜樣

懂球帝
2026-03-26 22:00:56
黃蜂刮中絕世彩票!探花郎狂飆250記三分創(chuàng)NBA最年輕紀(jì)錄

黃蜂刮中絕世彩票!探花郎狂飆250記三分創(chuàng)NBA最年輕紀(jì)錄

仰臥撐FTUer
2026-03-27 12:02:07
東航MU5735周年祭,面對詢問,民航局回復(fù):相關(guān)信息不予公開

東航MU5735周年祭,面對詢問,民航局回復(fù):相關(guān)信息不予公開

干史人
2026-02-26 11:05:04
追悼會前,張雪峰婚姻狀況被扒,現(xiàn)任身份不一般,恐影響遺產(chǎn)分配

追悼會前,張雪峰婚姻狀況被扒,現(xiàn)任身份不一般,恐影響遺產(chǎn)分配

喜歡歷史的阿繁
2026-03-26 14:40:54
養(yǎng)生|大便后你用幾張紙?用紙量判斷你的身體情況

養(yǎng)生|大便后你用幾張紙?用紙量判斷你的身體情況

A活著
2026-03-24 19:25:23
一句“我?guī)湍闵鷥鹤印?上海六旬老伯被騙16萬

一句“我?guī)湍闵鷥鹤印?上海六旬老伯被騙16萬

看看新聞Knews
2026-03-26 21:05:05
很反常!油價向上,黃金向下

很反常!油價向上,黃金向下

米筐投資
2026-03-27 07:09:01
京圈“頂級富二代”落馬:該對有錢人祛魅了……

京圈“頂級富二代”落馬:該對有錢人祛魅了……

不二表姐
2026-03-26 23:45:09
俄羅斯突然“關(guān)閘”!40%的貿(mào)易流說斷就斷,全球買家慌了

俄羅斯突然“關(guān)閘”!40%的貿(mào)易流說斷就斷,全球買家慌了

老黯談娛
2026-03-27 03:34:23
哪吒汽車破產(chǎn)覆滅,最諷刺的不是200億債務(wù),而是這個名字本身

哪吒汽車破產(chǎn)覆滅,最諷刺的不是200億債務(wù),而是這個名字本身

蜉蝣說
2026-03-25 10:54:58
心酸!湖南某鄉(xiāng)鎮(zhèn)一位小學(xué)教師哭訴年收入73150元,評論區(qū)炸鍋了

心酸!湖南某鄉(xiāng)鎮(zhèn)一位小學(xué)教師哭訴年收入73150元,評論區(qū)炸鍋了

火山詩話
2026-03-26 09:24:48
瓦良格號送到中國后有多震撼?專家刮掉表面的銹跡:鋼材品質(zhì)極佳

瓦良格號送到中國后有多震撼?專家刮掉表面的銹跡:鋼材品質(zhì)極佳

古書記史
2026-01-06 16:31:56
流量退去之后丨淄博燒烤“退燒”之后:沒有涼,只是回到日常

流量退去之后丨淄博燒烤“退燒”之后:沒有涼,只是回到日常

澎湃新聞
2026-03-27 07:04:34
2026-03-27 12:11:00
全棧遛狗員
全棧遛狗員
白天跟需求對線,晚上在小區(qū)遛狗。
277文章數(shù) 1關(guān)注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產(chǎn)力

頭條要聞

男孩被搶走17年后找到生母 對"命好"的弟弟感情微妙

頭條要聞

男孩被搶走17年后找到生母 對"命好"的弟弟感情微妙

體育要聞

近29戰(zhàn)23勝!這支黃蜂有多強(qiáng)?

娛樂要聞

張雪峰靈堂內(nèi)景曝光,四周擺滿了鮮花

財經(jīng)要聞

很反常!油價向上,黃金向下

汽車要聞

與眾08,金標(biāo)大眾不能輸?shù)囊粦?zhàn)

態(tài)度原創(chuàng)

藝術(shù)
家居
教育
親子
公開課

藝術(shù)要聞

2025“殊相”——中國油畫學(xué)會創(chuàng)作研修作品展 | 作品選刊(一)

家居要聞

傍海而居 靜觀蝴蝶海

教育要聞

教育孩子,你掌握邊界感了嗎?

親子要聞

童心繪夢 愛滿病房

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版