国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

華盛頓大學(xué)團(tuán)隊讓機(jī)器人學(xué)會"讀懂"任務(wù)完成度

0
分享至


這項由華盛頓大學(xué)和艾倫人工智能研究院聯(lián)合開展的研究發(fā)表于2026年2月的arXiv預(yù)印本平臺,論文編號為arXiv:2602.19313v1,有興趣深入了解的讀者可以通過該編號查詢完整論文。

當(dāng)我們教孩子做家務(wù)時,通常會在他們完成每個步驟后給予鼓勵和指導(dǎo)。比如整理房間時,我們會說"很好,你把書放回書架了"或者"現(xiàn)在該收拾桌子了"。這種及時的反饋幫助孩子明白什么是正確的,什么需要改進(jìn)。然而,在機(jī)器人世界里,給機(jī)器人提供這種細(xì)致入微的反饋一直是個巨大挑戰(zhàn)。

想象一下,如果你要教一個機(jī)器人疊毛巾,傳統(tǒng)方法需要人類工程師花費大量時間,像編寫詳細(xì)說明書一樣,為每個動作步驟設(shè)計復(fù)雜的獎勵信號。這個過程不僅耗時耗力,還很難推廣到新任務(wù)上。就好比每次教孩子一個新技能,都要重新編寫一本厚厚的教學(xué)手冊一樣繁瑣。

研究團(tuán)隊注意到,目前最先進(jìn)的視覺語言動作模型雖然在理解和執(zhí)行指令方面表現(xiàn)出色,但它們在強(qiáng)化學(xué)習(xí)方面的進(jìn)展卻受到了嚴(yán)重阻礙。這主要是因為現(xiàn)實世界中的獎勵信號往往很稀疏,就像一個學(xué)生只有在期末考試時才知道自己這學(xué)期學(xué)得怎么樣,缺乏日常的進(jìn)度反饋。

為了解決這個問題,研究團(tuán)隊開發(fā)了一種名為TOPReward的創(chuàng)新方法。這個方法的巧妙之處在于,它不再要求視覺語言模型像學(xué)生答題一樣輸出具體的進(jìn)度數(shù)值,而是像醫(yī)生聽診一樣,直接"傾聽"模型內(nèi)部的"心跳"——也就是分析模型對不同詞匯的置信度分布。

具體來說,研究團(tuán)隊發(fā)現(xiàn)了一個有趣的現(xiàn)象:當(dāng)我們問一個視覺語言模型"這段機(jī)器人操作視頻是否完成了指定任務(wù)"時,模型對"真"這個詞的置信度會隨著任務(wù)的進(jìn)展而逐漸提高。這就像一個品酒師通過觀察紅酒的顏色變化來判斷發(fā)酵進(jìn)度一樣,不需要品嘗,僅憑視覺觀察就能得出結(jié)論。

傳統(tǒng)的方法面臨一個根本性問題:大型語言模型在生成精確數(shù)值時表現(xiàn)得并不可靠。就像讓一個藝術(shù)家畫一幅畫很容易,但讓他精確地說出畫布上有多少個紅點卻很困難。研究團(tuán)隊巧妙地繞過了這個限制,不再要求模型輸出"任務(wù)完成了85%"這樣的數(shù)值,而是簡單地詢問"任務(wù)是否完成",然后分析模型內(nèi)部對"是"的確信程度。

為了驗證這種方法的有效性,研究團(tuán)隊構(gòu)建了一個名為ManiRewardBench的綜合測試平臺。這個平臺就像一個大型的機(jī)器人技能考試中心,包含了130多個不同的真實世界操作任務(wù),涵蓋了從簡單的物體抓取到復(fù)雜的多步驟操作等各種場景。這些任務(wù)分布在多個不同的機(jī)器人平臺上,包括Franka機(jī)械臂、YAM單臂和雙臂系統(tǒng),以及SO-100/101系列機(jī)器人。

測試結(jié)果令人印象深刻。在開源模型Qwen3-VL上,TOPReward方法實現(xiàn)了0.947的平均價值順序相關(guān)性,這個指標(biāo)衡量的是預(yù)測的任務(wù)進(jìn)度與實際時間順序的匹配程度。相比之下,現(xiàn)有最先進(jìn)的GVL方法在同樣的開源模型上幾乎完全失效,相關(guān)性接近于零。這種差異就像一個學(xué)生的考試成績從不及格突然跳到了優(yōu)秀。

研究團(tuán)隊還發(fā)現(xiàn)了一個有趣的現(xiàn)象:使用聊天模板會顯著降低方法的性能。這提示我們,進(jìn)度估計任務(wù)更適合模型的原始預(yù)訓(xùn)練目標(biāo),而不是經(jīng)過指令微調(diào)后的對話模式。這就像讓一個專業(yè)的鋼琴演奏家彈奏古典音樂比讓他們模仿流行歌手唱歌更能發(fā)揮專長一樣。

一、破解機(jī)器人學(xué)習(xí)的關(guān)鍵難題

在機(jī)器人學(xué)習(xí)領(lǐng)域,有一個長期存在的根本性挑戰(zhàn),就像教練訓(xùn)練運動員時面臨的困境:如何在每個訓(xùn)練環(huán)節(jié)給出恰當(dāng)?shù)姆答伜椭笇?dǎo)。在傳統(tǒng)的機(jī)器人強(qiáng)化學(xué)習(xí)中,工程師需要為每個具體任務(wù)精心設(shè)計獎勵函數(shù),這個過程既繁瑣又難以擴(kuò)展。

考慮這樣一個場景:你想教機(jī)器人學(xué)會整理廚房。按照傳統(tǒng)方法,工程師需要為"拿起盤子"給+5分,為"把盤子放進(jìn)洗碗機(jī)"給+10分,為"關(guān)上洗碗機(jī)門"再給+15分。這種方式不僅需要大量的人工設(shè)計工作,還面臨一個更嚴(yán)重的問題——這套評分標(biāo)準(zhǔn)很難適用于其他任務(wù),比如整理客廳或打掃浴室。

現(xiàn)有的解決方案主要分為兩大類。第一類是基于大規(guī)模數(shù)據(jù)訓(xùn)練專門的獎勵模型。比如RoboReward和RoboDopamine這樣的系統(tǒng),它們通過分析數(shù)千小時的機(jī)器人操作數(shù)據(jù)來學(xué)習(xí)如何評估任務(wù)完成情況。然而,這種方法需要大量的標(biāo)注數(shù)據(jù),而且在面對新環(huán)境或新機(jī)器人時往往表現(xiàn)不佳,就像一個只在某個特定學(xué)校教過書的老師,換到新學(xué)??赡芫筒荒敲吹眯膽?yīng)手了。

第二類方法試圖利用預(yù)訓(xùn)練的視覺語言模型的零樣本能力。其中最具代表性的是GVL方法,它的思路是讓模型觀看一系列打亂順序的視頻幀,然后要求模型為每一幀分配一個0到1之間的進(jìn)度分?jǐn)?shù)。這個想法很聰明,類似于讓一個有經(jīng)驗的廚師看一組烹飪過程的照片,然后按照菜品完成度重新排序。

但問題在于,當(dāng)前的開源視覺語言模型在執(zhí)行這類需要精確數(shù)值輸出的任務(wù)時表現(xiàn)很糟糕。這不是因為它們?nèi)狈σ曈X理解能力,而是因為數(shù)值生成本身就是大型語言模型的一個已知弱點。就像一個藝術(shù)評論家能夠精準(zhǔn)地判斷兩幅畫的優(yōu)劣,但如果你讓他給每幅畫打一個1到100的精確分?jǐn)?shù),他可能就會猶豫不決。

研究團(tuán)隊敏銳地意識到,問題的根源不在于模型的理解能力不足,而在于表達(dá)方式的局限性。他們提出了一個關(guān)鍵洞察:與其讓模型生成復(fù)雜的數(shù)值輸出,不如直接訪問模型的內(nèi)部"信念"狀態(tài)。這就像不問醫(yī)生"患者康復(fù)了百分之幾",而是觀察醫(yī)生在說"患者已經(jīng)康復(fù)"時的確信程度。

這種方法的核心理念是利用概率分布作為連續(xù)信號。當(dāng)模型在判斷"任務(wù)是否完成"時,它對"真"這個詞的預(yù)測概率實際上反映了模型對任務(wù)完成度的內(nèi)在信念。隨著視頻中任務(wù)的逐步進(jìn)展,模型對"任務(wù)已完成"這個判斷的置信度會相應(yīng)提高,形成一條平滑的進(jìn)度曲線。

二、TOPReward方法的工作原理

TOPReward方法的核心思想可以用一個簡單的比喻來理解:就像觀察一個人在回答問題時的肯定程度,而不是聽他具體說出的答案。當(dāng)我們問某人"你確定明天會下雨嗎?"時,一個非常確信的人會毫不猶豫地說"是的",而一個不太確定的人可能會猶豫或者語氣不夠肯定。TOPReward利用的正是這種內(nèi)在的確信度信號。

具體的實現(xiàn)過程如下:研究團(tuán)隊首先構(gòu)造了一個標(biāo)準(zhǔn)化的提示模板。他們會向視覺語言模型展示一段機(jī)器人操作的視頻片段,然后提出一個簡單的判斷問題:"上述視頻顯示機(jī)器人成功完成了以下任務(wù):[具體任務(wù)描述]。請判斷這個陳述是真還是假。"

關(guān)鍵的創(chuàng)新在于,研究團(tuán)隊不關(guān)心模型最終輸出的是"真"還是"假",而是分析模型在生成"真"這個詞時的內(nèi)部概率分?jǐn)?shù)。這個概率分?jǐn)?shù)就像一個內(nèi)置的置信度計量器,數(shù)值越高表示模型越相信任務(wù)已經(jīng)完成。

為了生成完整的任務(wù)進(jìn)度曲線,研究團(tuán)隊會對視頻的不同前綴片段重復(fù)這個過程。比如對于一個60秒的機(jī)器人疊毛巾視頻,他們可能會分析前10秒、前20秒、前30秒等等不同時間點的片段。每個時間點都會得到一個對應(yīng)的置信度分?jǐn)?shù),將這些分?jǐn)?shù)連接起來就形成了一條反映任務(wù)進(jìn)展的曲線。

在數(shù)據(jù)處理方面,由于原始的對數(shù)概率值范圍是負(fù)無窮到0,研究團(tuán)隊采用了最小-最大歸一化的方法將其映射到0到1的標(biāo)準(zhǔn)進(jìn)度區(qū)間。這就像將不同溫度計的讀數(shù)統(tǒng)一轉(zhuǎn)換為標(biāo)準(zhǔn)的攝氏度刻度一樣,確保結(jié)果的可比較性。

對于需要逐步獎勵信號的下游應(yīng)用,比如強(qiáng)化學(xué)習(xí)中的優(yōu)勢權(quán)重回歸,研究團(tuán)隊還開發(fā)了一個巧妙的轉(zhuǎn)換機(jī)制。他們計算相鄰時間點之間的進(jìn)度增量,然后使用指數(shù)函數(shù)進(jìn)行放大,同時設(shè)置最大值限制以防止某些動作獲得過高的權(quán)重。這確保了獎勵信號既能反映真實的任務(wù)進(jìn)展,又能保持?jǐn)?shù)值穩(wěn)定性。

值得注意的是,研究團(tuán)隊發(fā)現(xiàn)不使用聊天模板的效果更好。在他們的消融研究中,添加聊天模板會顯著降低性能,在Qwen3-VL模型上甚至導(dǎo)致近50%的性能下降。這個發(fā)現(xiàn)提示我們,進(jìn)度估計任務(wù)可能更適合模型的原始預(yù)訓(xùn)練目標(biāo),而不是經(jīng)過指令微調(diào)后的對話格式。

三、ManiRewardBench:全面的機(jī)器人操作評測基準(zhǔn)

為了全面評估TOPReward方法的效果,研究團(tuán)隊構(gòu)建了一個前所未有的大規(guī)模評測平臺——ManiRewardBench。這個評測基準(zhǔn)就像一個綜合性的機(jī)器人技能考試中心,涵蓋了現(xiàn)實世界中可能遇到的各種操作場景。

ManiRewardBench包含了130個獨特的操作任務(wù),這些任務(wù)經(jīng)過精心設(shè)計,涵蓋了從簡單的物體操作到復(fù)雜的多步驟推理等各個難度層次。在多步驟推理類任務(wù)中,有一個特別有趣的挑戰(zhàn)叫"推動拼圖塊拼出GO字",這需要機(jī)器人不僅具備空間推理能力,還要能夠順序執(zhí)行多個物體操作。另一個復(fù)雜任務(wù)是"建造金字塔",它需要四個不同的子任務(wù):選擇合適的積木、精確定位、按層堆疊,以及保持結(jié)構(gòu)穩(wěn)定。還有一項叫"按顏色分組立方體"的任務(wù),要求機(jī)器人識別不同顏色的物體并進(jìn)行分類重組。

在精細(xì)操作控制方面,評測基準(zhǔn)包含了一些對精度要求極高的任務(wù)。比如"水平對齊立方體"任務(wù)對應(yīng)著數(shù)據(jù)集中執(zhí)行時間最長的操作,因為它需要毫米級的精確控制。"將香蕉旋轉(zhuǎn)90度"和"將記號筆旋轉(zhuǎn)45度"這類任務(wù)考驗的是機(jī)器人對角度的精確控制能力。"倒茶"任務(wù)則需要機(jī)器人掌握復(fù)雜的空間定向和力控制技巧。

可變形物體處理是另一個重要的測試領(lǐng)域。"疊毛巾"任務(wù)要求機(jī)器人處理柔軟且形狀不固定的材料,這需要完全不同于剛性物體的操作策略。"將一塊布疊在另一塊布上"的任務(wù)進(jìn)一步增加了難度,因為涉及到兩個可變形物體之間的相互作用。

評測基準(zhǔn)還包含了一些抽象和符號性的任務(wù)。"按回車鍵然后按空格鍵"考驗的是機(jī)器人執(zhí)行順序操作的能力,以及對符號指令的理解。"擺桌子"是一個開放性任務(wù),需要機(jī)器人理解餐桌擺設(shè)的常識性規(guī)則。

數(shù)據(jù)收集涵蓋了四個不同的機(jī)器人平臺,確保了評測的廣泛性和實用性。Franka機(jī)械臂系列提供了工業(yè)級精度的操作場景,SO-100和SO-101系列代表了標(biāo)準(zhǔn)化的研究平臺,而YAM系統(tǒng)的單臂和雙臂配置則模擬了不同復(fù)雜度的操作需求。

每個任務(wù)都經(jīng)過了詳細(xì)的子任務(wù)標(biāo)注。研究團(tuán)隊為每個操作序列手工標(biāo)注了不同階段的開始和結(jié)束時間。比如在"清理桌子"任務(wù)中,整個過程被分解為"抓取罐子"、"將罐子放入盤子"、"抓取勺子"、"將勺子放入盤子"四個連續(xù)的子任務(wù),每個子任務(wù)都有精確的時間標(biāo)記。這種精細(xì)化的標(biāo)注使得研究人員能夠評估獎勵模型是否能準(zhǔn)確捕捉任務(wù)的內(nèi)在進(jìn)展結(jié)構(gòu)。

評測基準(zhǔn)還特意包含了失敗軌跡數(shù)據(jù)。在23個任務(wù)的156個執(zhí)行片段中,既有成功的操作也有失敗的嘗試。這種設(shè)計對于測試獎勵模型的魯棒性至關(guān)重要,因為一個優(yōu)秀的評估系統(tǒng)應(yīng)該能夠區(qū)分成功和失敗的操作,而不僅僅是對成功案例進(jìn)行排序。

四、實驗結(jié)果與性能評估

研究團(tuán)隊在兩個大規(guī)模數(shù)據(jù)集上進(jìn)行了comprehensive評估:Open X-Embodiment數(shù)據(jù)集和他們自建的ManiRewardBench。Open X-Embodiment是一個包含50個學(xué)術(shù)機(jī)器人數(shù)據(jù)集的龐大集合,研究團(tuán)隊從中選擇了39個子數(shù)據(jù)集,每個數(shù)據(jù)集隨機(jī)采樣20個操作序列進(jìn)行測試。

在Open X-Embodiment數(shù)據(jù)集上的結(jié)果清晰地展現(xiàn)了TOPReward相對于傳統(tǒng)GVL方法的優(yōu)勢。在開源模型Qwen3-VL上,TOPReward達(dá)到了0.857的價值順序相關(guān)性分?jǐn)?shù),而GVL方法只有0.194,這意味著TOPReward在預(yù)測任務(wù)進(jìn)度方面比GVL準(zhǔn)確了四倍多。在Molmo2模型上,這種差距同樣顯著:TOPReward獲得了0.417的分?jǐn)?shù),而GVL甚至出現(xiàn)了負(fù)值(-0.016),表明其預(yù)測結(jié)果比隨機(jī)猜測還要差。

有趣的是,在專有模型Gemini-2.5-Pro上,情況有所不同。GVL方法在這個強(qiáng)大的專有模型上表現(xiàn)相對較好(0.541),而TOPReward的表現(xiàn)稍遜(0.433)。研究團(tuán)隊通過后續(xù)的消融研究發(fā)現(xiàn),這主要是因為Gemini的API強(qiáng)制使用聊天模板,而TOPReward在沒有聊天模板的情況下表現(xiàn)最佳。

在ManiRewardBench數(shù)據(jù)集上,TOPReward展現(xiàn)出了令人印象深刻的一致性表現(xiàn)。在四個不同的機(jī)器人平臺上,Qwen3-VL模型配合TOPReward都達(dá)到了0.942到0.954的高分,這種跨平臺的穩(wěn)定性證明了方法的泛化能力。相比之下,GVL方法在不同平臺上的表現(xiàn)極不穩(wěn)定,在某些平臺上甚至接近于零。

定性分析結(jié)果同樣令人鼓舞。研究團(tuán)隊繪制的任務(wù)進(jìn)度曲線顯示,TOPReward能夠產(chǎn)生平滑、單調(diào)遞增的進(jìn)度信號,這些信號與人工標(biāo)注的子任務(wù)邊界高度吻合。以"疊毛巾"任務(wù)為例,TOPReward識別出的進(jìn)度曲線準(zhǔn)確反映了"抓取毛巾角落"、"提起毛巾"、"對折毛巾"等關(guān)鍵操作節(jié)點。在多步驟任務(wù)中,進(jìn)度曲線甚至能夠識別出中間的平臺期,對應(yīng)于機(jī)器人在子任務(wù)之間的過渡階段。

五、成功檢測能力的驗證

傳統(tǒng)的價值順序相關(guān)性指標(biāo)存在一個根本性局限:它只關(guān)心預(yù)測值的相對順序,而不考慮絕對完成水平。這就像一個只能判斷學(xué)生考試答卷先后順序,但分不清及格與不及格的評分系統(tǒng)。研究團(tuán)隊通過一個巧妙的思想實驗揭示了這個問題:即使一個任務(wù)只完成了30%就停滯不前,只要其內(nèi)部進(jìn)度是單調(diào)遞增的,VOC指標(biāo)仍然會給出很高的分?jǐn)?shù)。

為了驗證TOPReward在成功檢測方面的實際效用,研究團(tuán)隊在ManiRewardBench的失敗軌跡數(shù)據(jù)集上進(jìn)行了二元分類測試。這個數(shù)據(jù)集包含23個任務(wù)的156個操作片段,其中既有成功完成的操作,也有各種失敗情形。對于TOPReward,研究團(tuán)隊使用最后3個采樣幀的平均對數(shù)概率作為成功指標(biāo);對于GVL,則使用VOC分?jǐn)?shù)本身作為判斷依據(jù)。

結(jié)果表明,在開源模型Qwen3-VL上,GVL的成功檢測能力基本等同于隨機(jī)猜測(ROC-AUC為0.519),而TOPReward達(dá)到了0.654的較好表現(xiàn),提升幅度達(dá)到135個基點。這個差距的產(chǎn)生有其深層原因:GVL要求模型生成精確的數(shù)值輸出,這正是開源模型的弱點;而TOPReward只需要模型對一個二元判斷表達(dá)置信度,這與模型的訓(xùn)練目標(biāo)更加匹配。

在專有模型Gemini-2.5-Pro上,兩種方法的表現(xiàn)相當(dāng)接近(GVL為0.823,TOPReward為0.826)。這個結(jié)果驗證了研究團(tuán)隊的假設(shè):VOC失效模式在底層模型已經(jīng)具備良好校準(zhǔn)能力的情況下并不明顯,而主要出現(xiàn)在開源模型面臨復(fù)雜數(shù)值生成任務(wù)時。

成功檢測能力的提升對實際應(yīng)用具有重要意義。在自動化數(shù)據(jù)集篩選場景中,TOPReward可以幫助研究人員自動識別高質(zhì)量的演示數(shù)據(jù),過濾掉失敗或不完整的操作記錄。在在線學(xué)習(xí)環(huán)境中,準(zhǔn)確的成功檢測能夠為強(qiáng)化學(xué)習(xí)算法提供關(guān)鍵的終止信號,避免智能體在失敗的軌跡上繼續(xù)探索。

六、實際應(yīng)用中的優(yōu)勢權(quán)重行為克隆

為了驗證TOPReward在實際機(jī)器人學(xué)習(xí)中的價值,研究團(tuán)隊設(shè)計了一個綜合性的真實世界實驗。他們選擇了單臂SO-100機(jī)器人平臺,這是一個標(biāo)準(zhǔn)化的研究級機(jī)器人系統(tǒng),在學(xué)術(shù)界廣泛使用。實驗包含六個不同復(fù)雜度的操作任務(wù):將玩具車放入盒子、將紅色立方體堆疊在綠色立方體上、將筆放入杯子、將玩偶放入盒子、拿起立方體,以及將立方體放入杯子。

實驗的設(shè)計思路基于優(yōu)勢權(quán)重回歸的概念。這種方法的核心思想是,不是所有的演示數(shù)據(jù)都同等重要——一些動作對任務(wù)成功貢獻(xiàn)更大,應(yīng)該在學(xué)習(xí)過程中被賦予更高的權(quán)重。傳統(tǒng)的行為克隆方法將所有演示動作視為平等,就像一個學(xué)生機(jī)械地復(fù)制整篇范文,而不理解哪些段落是關(guān)鍵的論證,哪些只是過渡性內(nèi)容。

研究團(tuán)隊首先從公開的單臂SO-100數(shù)據(jù)集上預(yù)訓(xùn)練了一個基礎(chǔ)策略模型,該模型接受了200小時的操作數(shù)據(jù)訓(xùn)練。然后,對于每個測試任務(wù),他們收集了50個新的演示樣本。這些演示數(shù)據(jù)可能包含噪聲或次優(yōu)操作,更真實地反映了實際數(shù)據(jù)收集的情況。

TOPReward在這個場景中的作用是為每個狀態(tài)-動作對計算價值估計。研究團(tuán)隊將這些價值轉(zhuǎn)換為優(yōu)勢信號,具體方法是從每個價值中減去該演示序列的平均價值。然后,他們使用這些優(yōu)勢權(quán)重來指導(dǎo)基礎(chǔ)策略的微調(diào)過程,采用流匹配損失函數(shù),這是一種能夠處理連續(xù)動作空間的先進(jìn)優(yōu)化技術(shù)。

實驗結(jié)果令人鼓舞。在所有六個任務(wù)上,基于TOPReward優(yōu)勢權(quán)重的方法都顯著優(yōu)于標(biāo)準(zhǔn)的行為克隆基線。最顯著的改進(jìn)出現(xiàn)在"將玩偶放入盒子"和"拿起立方體"兩個任務(wù)上,兩種方法都從較低的成功率(分別為7和7次成功,滿分10次)提升到了完美表現(xiàn)(10/10)。其他任務(wù)也都有實質(zhì)性提升,比如"將立方體放入杯子"從6次成功提升到9次,"將筆放入杯子"從5.67次提升到6.33次。

這些改進(jìn)的背后反映了TOPReward捕捉操作質(zhì)量細(xì)微差別的能力。在"將玩偶放入盒子"任務(wù)中,成功的關(guān)鍵往往在于精確的抓取姿態(tài)和流暢的放置軌跡。TOPReward能夠識別出演示數(shù)據(jù)中這些關(guān)鍵時刻,并在訓(xùn)練過程中給予更高權(quán)重。相比之下,標(biāo)準(zhǔn)行為克隆可能會同等對待所有動作,包括那些對任務(wù)成功貢獻(xiàn)較小的過渡性動作。

值得注意的是,即使是預(yù)訓(xùn)練的基礎(chǔ)模型也表現(xiàn)不佳,這說明單純的大規(guī)模預(yù)訓(xùn)練并不能保證在特定任務(wù)上的良好表現(xiàn)。這個發(fā)現(xiàn)強(qiáng)調(diào)了任務(wù)特定微調(diào)的重要性,以及高質(zhì)量獎勵信號在這個過程中的關(guān)鍵作用。

七、技術(shù)細(xì)節(jié)與實現(xiàn)考量

TOPReward方法的成功不僅依賴于核心算法思想,還涉及許多精心設(shè)計的技術(shù)細(xì)節(jié)。研究團(tuán)隊在開發(fā)過程中遇到了多個需要仔細(xì)權(quán)衡的設(shè)計選擇,每個決策都可能顯著影響最終性能。

在詞匯選擇方面,研究團(tuán)隊對比了多個可能的完成指示詞,包括"真"、"是"、"完成"等。通過詳細(xì)的對比分析,他們發(fā)現(xiàn)"真"這個詞在成功和失敗軌跡之間展現(xiàn)出最大的概率差異。這個發(fā)現(xiàn)并非偶然——"真"作為一個基礎(chǔ)的邏輯判斷詞,在大型語言模型的訓(xùn)練過程中出現(xiàn)頻率很高,因此模型對其語義表示更加穩(wěn)定和可靠。

提示模板的設(shè)計也經(jīng)過了反復(fù)優(yōu)化。最終采用的模板形式簡潔明確:"上述視頻顯示機(jī)器人成功完成了以下任務(wù):[任務(wù)描述]。請判斷這個陳述是真還是假。答案是:"這種表述方式避免了復(fù)雜的指令格式,更接近模型預(yù)訓(xùn)練時遇到的自然文本模式。

前綴采樣策略的選擇同樣重要。研究團(tuán)隊選擇了均勻間隔的時間點采樣方法,而不是基于關(guān)鍵幀檢測或其他復(fù)雜策略。這種簡單方法的優(yōu)勢在于計算效率高且結(jié)果穩(wěn)定,雖然可能錯過一些關(guān)鍵的瞬間變化,但在大多數(shù)任務(wù)中都能提供足夠的時序信息。

歸一化技術(shù)是確保方法穩(wěn)健性的關(guān)鍵組件。最小-最大歸一化雖然簡單,但能夠有效地將原始對數(shù)概率值映射到標(biāo)準(zhǔn)的0-1區(qū)間。研究團(tuán)隊還加入了一個小的epsilon項來防止除零錯誤,這種數(shù)值穩(wěn)定性考慮在實際部署中非常重要。

對于下游應(yīng)用的獎勵轉(zhuǎn)換,研究團(tuán)隊設(shè)計了一個巧妙的指數(shù)放大機(jī)制。這個機(jī)制通過計算相鄰時間點的進(jìn)度增量,然后應(yīng)用指數(shù)函數(shù)進(jìn)行放大,同時設(shè)置最大值限制。這種設(shè)計既能放大重要動作的權(quán)重差異,又能防止某些動作獲得過于極端的權(quán)重值。

聊天模板的影響是一個意外但重要的發(fā)現(xiàn)。在消融研究中,研究團(tuán)隊發(fā)現(xiàn)添加標(biāo)準(zhǔn)的聊天模板會顯著降低性能。在Qwen3-VL模型上,這種性能下降達(dá)到了47%,在Molmo2模型上也有近20%的下降。這個現(xiàn)象提示我們,不同類型的任務(wù)可能需要不同的模型交互方式,盲目應(yīng)用標(biāo)準(zhǔn)化接口可能適得其反。

八、方法局限性與未來改進(jìn)方向

盡管TOPReward方法在多個測試場景中表現(xiàn)出色,但研究團(tuán)隊坦誠地指出了當(dāng)前方法的一些內(nèi)在局限性。這些局限性的認(rèn)識對于理解方法的適用邊界和指導(dǎo)未來改進(jìn)方向具有重要價值。

最顯著的局限來自底層視覺語言模型的感知能力邊界。TOPReward的性能上限受制于所使用的視覺模型的理解能力。對于需要細(xì)微空間推理的任務(wù),比如精確對齊操作或小物體操作,如果底層模型無法從視覺上區(qū)分中間狀態(tài)的細(xì)微差別,那么TOPReward也就無法提供有意義的進(jìn)度信號。這就像讓一個近視的人判斷遠(yuǎn)處兩個物體的相對位置,即使方法再巧妙也無法克服感知本身的限制。

當(dāng)前的歸一化策略也存在一定的限制性。由于采用了逐序列的最小-最大歸一化,不同軌跡之間的絕對進(jìn)度值無法直接比較。這在某些應(yīng)用場景中可能造成問題,比如當(dāng)我們需要在大批量數(shù)據(jù)中選擇最優(yōu)演示樣本時,當(dāng)前方法無法提供跨序列的一致性評估。

計算效率是另一個需要考慮的因素。為了生成完整的進(jìn)度曲線,TOPReward需要對視頻的多個前綴分別進(jìn)行推理,這導(dǎo)致計算成本與采樣點數(shù)成正比增長。在需要實時反饋的應(yīng)用場景中,這種計算開銷可能成為實際部署的障礙。

方法對視頻質(zhì)量的依賴性也值得注意。在光照條件差、視角受限或者存在遮擋的情況下,視覺模型的判斷可能變得不可靠,進(jìn)而影響TOPReward的評估準(zhǔn)確性。這在實際的機(jī)器人部署環(huán)境中是一個不可忽視的考慮因素。

語言指令的歧義性可能帶來另一層挑戰(zhàn)。對于一些表述模糊或者存在多種合理解釋的任務(wù)描述,模型可能難以形成一致的完成標(biāo)準(zhǔn)。這種情況下,TOPReward的輸出可能會出現(xiàn)不穩(wěn)定或者與人類期望不符的情況。

盡管存在這些局限性,研究團(tuán)隊對方法的發(fā)展前景保持樂觀。他們指出,隨著視覺語言模型能力的持續(xù)提升,TOPReward的性能天花板也會相應(yīng)提高。未來的改進(jìn)方向可能包括開發(fā)更高效的采樣策略、設(shè)計跨序列一致的歸一化方法,以及探索多模態(tài)信息融合等技術(shù)路徑。

九、對機(jī)器人學(xué)習(xí)領(lǐng)域的深遠(yuǎn)影響

TOPReward方法的提出不僅解決了一個具體的技術(shù)問題,更重要的是,它展現(xiàn)了一種全新的思維范式,可能對整個機(jī)器人學(xué)習(xí)領(lǐng)域產(chǎn)生深遠(yuǎn)影響。這種影響體現(xiàn)在多個層面,從基礎(chǔ)研究方法到實際應(yīng)用策略都可能發(fā)生根本性變化。

在理論層面,TOPReward挑戰(zhàn)了傳統(tǒng)的獎勵工程范式。過去幾十年來,機(jī)器人學(xué)習(xí)領(lǐng)域一直在尋求如何有效地將人類知識編碼為機(jī)器可理解的獎勵信號。這個過程往往需要大量的專家經(jīng)驗和反復(fù)的試錯調(diào)整,就像手工藝人精心雕琢每一個細(xì)節(jié)。TOPReward的出現(xiàn)表明,我們可能不需要如此復(fù)雜的人工設(shè)計,而是可以直接利用大型模型中已經(jīng)編碼的常識性知識。

這種方法論上的轉(zhuǎn)變具有革命性意義。它暗示著機(jī)器人學(xué)習(xí)可能正在從"工程驅(qū)動"向"數(shù)據(jù)驅(qū)動"的范式轉(zhuǎn)換。在新的范式下,關(guān)鍵不再是如何設(shè)計精巧的獎勵函數(shù),而是如何更好地利用和解釋預(yù)訓(xùn)練模型中蘊含的世界知識。這種轉(zhuǎn)變類似于計算機(jī)視覺領(lǐng)域從手工特征設(shè)計到深度學(xué)習(xí)的歷史性轉(zhuǎn)折。

在實際應(yīng)用層面,TOPReward的零樣本特性使得機(jī)器人系統(tǒng)的部署變得更加靈活和高效。傳統(tǒng)方法需要為每個新任務(wù)重新設(shè)計和調(diào)試獎勵函數(shù),這個過程可能需要數(shù)周甚至數(shù)月的時間。而TOPReward只需要提供任務(wù)的自然語言描述,就能立即開始工作。這種即插即用的特性極大降低了機(jī)器人系統(tǒng)的部署門檻。

對于機(jī)器人教育和研究來說,這種方法的普及可能帶來民主化的效應(yīng)。以前,只有具備深厚專業(yè)知識的研究團(tuán)隊才能有效地進(jìn)行復(fù)雜的機(jī)器人學(xué)習(xí)實驗。而TOPReward的簡單性使得更多的研究者和學(xué)生能夠參與到機(jī)器人學(xué)習(xí)的研究中來,這可能加速整個領(lǐng)域的發(fā)展速度。

從產(chǎn)業(yè)角度來看,TOPReward可能催生新的商業(yè)模式和應(yīng)用場景。由于不再需要大量的專家時間進(jìn)行獎勵設(shè)計,機(jī)器人解決方案的開發(fā)成本可能顯著降低。這種成本結(jié)構(gòu)的改變可能使得機(jī)器人技術(shù)在更多垂直領(lǐng)域得到應(yīng)用,從家庭服務(wù)到工業(yè)自動化都可能受益。

然而,這種技術(shù)進(jìn)步也帶來了新的挑戰(zhàn)和考慮。隨著機(jī)器人系統(tǒng)變得更加依賴大型語言模型的判斷,如何確保這些判斷的可靠性和安全性變得至關(guān)重要。我們需要開發(fā)新的驗證和監(jiān)督機(jī)制,確保機(jī)器人在執(zhí)行任務(wù)時的行為符合人類的價值觀和安全標(biāo)準(zhǔn)。

TOPReward還可能推動機(jī)器人學(xué)習(xí)向更加通用和靈活的方向發(fā)展。傳統(tǒng)的機(jī)器人系統(tǒng)往往針對特定任務(wù)進(jìn)行優(yōu)化,難以適應(yīng)新的需求。而基于自然語言描述的獎勵系統(tǒng)天然具有更好的泛化能力,可能為真正通用的機(jī)器人智能奠定基礎(chǔ)。

最終,TOPReward代表了人工智能和機(jī)器人學(xué)習(xí)領(lǐng)域一個重要的發(fā)展趨勢:從復(fù)雜的工程化解決方案向簡潔而強(qiáng)大的原理性方法轉(zhuǎn)變。這種轉(zhuǎn)變不僅提高了技術(shù)的實用性,也為我們理解和構(gòu)建智能系統(tǒng)提供了新的視角。隨著這類方法的不斷完善和推廣,我們有理由相信機(jī)器人技術(shù)將更快地走向成熟和普及。

說到底,TOPReward的真正價值不僅在于解決了一個具體的技術(shù)難題,更在于它開啟了一扇通向更智能、更靈活機(jī)器人系統(tǒng)的大門。在這個快速發(fā)展的時代,這樣的技術(shù)突破為我們描繪了一個機(jī)器人與人類更加和諧共處的未來圖景。當(dāng)機(jī)器人能夠更好地理解和響應(yīng)人類的需求時,我們距離真正的智能化社會就又近了一步。研究團(tuán)隊的這項工作不僅推動了學(xué)術(shù)研究的邊界,也為整個社會的技術(shù)進(jìn)步做出了實質(zhì)性貢獻(xiàn)。有興趣深入了解這項研究的讀者可以通過論文編號arXiv:2602.19313v1查詢完整的技術(shù)細(xì)節(jié)和實驗數(shù)據(jù)。

Q&A

Q1:TOPReward方法與傳統(tǒng)的機(jī)器人獎勵設(shè)計有什么不同?

A:傳統(tǒng)方法需要工程師為每個任務(wù)精心設(shè)計復(fù)雜的獎勵函數(shù),就像為每個新菜譜都要重新編寫詳細(xì)的評分標(biāo)準(zhǔn)。而TOPReward直接利用視覺語言模型的內(nèi)部"信念",通過分析模型對"任務(wù)是否完成"這個簡單問題的確信程度來評估進(jìn)度,無需任何人工設(shè)計。

Q2:為什么TOPReward在開源模型上比閉源模型效果更好?

A:這主要是因為閉源模型的API強(qiáng)制使用聊天模板,而TOPReward在原始的預(yù)訓(xùn)練格式下表現(xiàn)最佳。研究發(fā)現(xiàn)添加聊天模板會導(dǎo)致性能下降近50%,這說明進(jìn)度估計任務(wù)更適合模型的原始訓(xùn)練目標(biāo),而不是對話式的交互模式。

Q3:TOPReward方法能應(yīng)用到哪些實際場景中?

A:TOPReward可以廣泛應(yīng)用于機(jī)器人學(xué)習(xí)的多個環(huán)節(jié),包括自動篩選高質(zhì)量的訓(xùn)練數(shù)據(jù)、為強(qiáng)化學(xué)習(xí)提供密集獎勵信號、檢測任務(wù)完成狀態(tài),以及指導(dǎo)機(jī)器人策略的改進(jìn)。特別是在需要快速部署到新任務(wù)的場景中,它的零樣本特性能顯著降低開發(fā)成本和時間。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
贏7分!楊毅卻批評主教練郭士強(qiáng):將中國男籃的優(yōu)勢給丟了

贏7分!楊毅卻批評主教練郭士強(qiáng):將中國男籃的優(yōu)勢給丟了

體育哲人
2026-03-01 22:40:43
最新戰(zhàn)況:伊朗與多支武裝協(xié)同反擊,美以遭重創(chuàng)

最新戰(zhàn)況:伊朗與多支武裝協(xié)同反擊,美以遭重創(chuàng)

兵國大事
2026-03-01 21:11:10
去年漲價3次,今年突然集體降價!多個品牌陸續(xù)宣布,網(wǎng)友:再等等,還會降

去年漲價3次,今年突然集體降價!多個品牌陸續(xù)宣布,網(wǎng)友:再等等,還會降

佛山電視臺小強(qiáng)熱線
2026-03-02 19:30:36
伊朗的援軍到了!以色列再征兵10萬,關(guān)鍵時刻,普京對中國做承諾

伊朗的援軍到了!以色列再征兵10萬,關(guān)鍵時刻,普京對中國做承諾

軍機(jī)Talk
2026-03-02 09:50:33
伊朗稱美軍在中東遭受重大傷亡 美中央司令部否認(rèn)

伊朗稱美軍在中東遭受重大傷亡 美中央司令部否認(rèn)

每日經(jīng)濟(jì)新聞
2026-03-02 09:33:24
伊朗的投降王牌:只要美國松綁,出賣中國利益絕不會有半點猶豫

伊朗的投降王牌:只要美國松綁,出賣中國利益絕不會有半點猶豫

老范談史
2026-02-28 06:45:51
誰能無悔?大羅后悔逼宮,卡卡承認(rèn)選錯,連穆里尼奧都曾哭成淚人

誰能無悔?大羅后悔逼宮,卡卡承認(rèn)選錯,連穆里尼奧都曾哭成淚人

足籃大世界
2026-03-01 15:34:01
伊朗反擊,不設(shè)紅線!以色列怎么也沒想到,自己才是最大冤大頭

伊朗反擊,不設(shè)紅線!以色列怎么也沒想到,自己才是最大冤大頭

肖茲探秘說
2026-03-01 23:30:08
貢獻(xiàn)一張上世紀(jì)90年代的美女照

貢獻(xiàn)一張上世紀(jì)90年代的美女照

TVB的四小花
2026-03-02 17:39:45
“生靈涂炭”,知名女主持人直播中落淚!連線時警報突然響起,網(wǎng)友紛紛祈愿……

“生靈涂炭”,知名女主持人直播中落淚!連線時警報突然響起,網(wǎng)友紛紛祈愿……

新民周刊
2026-03-02 16:00:18
唐尚珺也沒想到,他經(jīng)歷16次高考35歲才上岸,卻在直播間完成自救

唐尚珺也沒想到,他經(jīng)歷16次高考35歲才上岸,卻在直播間完成自救

法老不說教
2026-02-26 19:14:53
2026手機(jī)套餐新規(guī):老用戶多等7天,續(xù)約可省數(shù)百元

2026手機(jī)套餐新規(guī):老用戶多等7天,續(xù)約可省數(shù)百元

透視到底
2026-03-01 10:16:29
打伊朗就顧不上中國?特朗普這才意識到,這一仗美軍“打不起”

打伊朗就顧不上中國?特朗普這才意識到,這一仗美軍“打不起”

空天力量
2026-03-02 19:13:25
一年流出視頻294部的小寶到底探過多少朵花?

一年流出視頻294部的小寶到底探過多少朵花?

挪威森林
2026-01-25 17:18:42
林昀儒為何一局未贏?聽了他的總結(jié),才明白如今王楚欽究竟有多強(qiáng)

林昀儒為何一局未贏?聽了他的總結(jié),才明白如今王楚欽究竟有多強(qiáng)

陌識
2026-03-02 14:00:47
70%用戶表示“失去靈魂”,全新奧迪A6L:實力很強(qiáng),口碑兩極分化

70%用戶表示“失去靈魂”,全新奧迪A6L:實力很強(qiáng),口碑兩極分化

少數(shù)派報告Report
2026-03-02 11:43:10
趙本山近況曝光!68歲高齡現(xiàn)身美國加州,這狀態(tài)你敢信?

趙本山近況曝光!68歲高齡現(xiàn)身美國加州,這狀態(tài)你敢信?

手工制作阿殲
2026-03-01 16:51:57
武漢南三環(huán)堵到崩潰!官方終于出手:近中遠(yuǎn)三階段治理方案來了

武漢南三環(huán)堵到崩潰!官方終于出手:近中遠(yuǎn)三階段治理方案來了

好笑娛樂君每一天
2026-03-02 15:08:55
英媒:曼聯(lián)管理層對卡里克的轉(zhuǎn)正持謹(jǐn)慎態(tài)度

英媒:曼聯(lián)管理層對卡里克的轉(zhuǎn)正持謹(jǐn)慎態(tài)度

懂球帝
2026-03-02 18:56:06
為什么科學(xué)家說:如果宇宙中只有人類,比找到外星人更可怕?

為什么科學(xué)家說:如果宇宙中只有人類,比找到外星人更可怕?

觀察宇宙
2026-03-01 20:46:19
2026-03-02 20:16:50
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7408文章數(shù) 553關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

美記者詢問就伊朗局勢中方會采取什么行動 外交部回應(yīng)

頭條要聞

美記者詢問就伊朗局勢中方會采取什么行動 外交部回應(yīng)

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財經(jīng)要聞

金銀大漲 市場仍在評估沖突會否長期化

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

家居
藝術(shù)
親子
公開課
軍事航空

家居要聞

萬物互聯(lián) 享科技福祉

藝術(shù)要聞

簡約的風(fēng)景畫,美國畫家Ben Bauer作品

親子要聞

阿寶和藏區(qū)老二居然就差一天的生日時間,今天我們給他們過生日哦

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍動用新型武器:山寨伊朗的

無障礙瀏覽 進(jìn)入關(guān)懷版