過(guò)去,如果想讓機(jī)器人布置餐桌,需要給它明確的指令,比如:往前走 2 米,抬起 45 度,食物需要擺在餐盤(pán)中,叉子擺到盤(pán)子的右側(cè)……
現(xiàn)在,只要對(duì)機(jī)器人說(shuō)“把這些餐具以合理的形式擺好”,它就能通過(guò)與大語(yǔ)言模型交流,學(xué)到怎么擺的常識(shí)性知識(shí),然后按照要求把餐具合理地?cái)[出來(lái)。

(來(lái)源:https://sites.google.com/view/llm-grop)
這項(xiàng)研究來(lái)自美國(guó)紐約州立大學(xué)賓漢姆頓分校張世琦教授團(tuán)隊(duì)與合作者,他們提出了一種名為 LLM-GROP 的方法,使機(jī)器人能夠在復(fù)雜環(huán)境中高效地完成多對(duì)象重新排列任務(wù),在真實(shí)環(huán)境中的任務(wù)成功率達(dá) 84.4%。
張世琦對(duì) DeepTech 表示:“我們首次將大語(yǔ)言模型的常識(shí)知識(shí)與任務(wù)與運(yùn)動(dòng)規(guī)劃(TAMP,Task and motion planning)任務(wù)結(jié)合。該系統(tǒng)表現(xiàn)出強(qiáng)適應(yīng)能力,支持在動(dòng)態(tài)障礙的環(huán)境中進(jìn)行實(shí)時(shí)調(diào)整?!?/p>
該研究為服務(wù)機(jī)器人在開(kāi)放世界中的語(yǔ)義任務(wù)執(zhí)行提供了新思路,適用于移動(dòng)操作平臺(tái),即當(dāng)機(jī)器人既需要在任務(wù)層面做離散規(guī)劃,把復(fù)雜任務(wù)分解成一步步動(dòng)作,又需要在連續(xù)空間里做軌跡規(guī)劃的情況。
![]()
圖丨移動(dòng)機(jī)械臂布置餐桌的場(chǎng)景(來(lái)源:IJRR)
研究團(tuán)隊(duì)對(duì)移動(dòng)操作(MoMa)領(lǐng)域進(jìn)行研究,重點(diǎn)關(guān)注機(jī)器人同時(shí)執(zhí)行導(dǎo)航和移動(dòng)抓取的任務(wù)。他們還特別關(guān)注如何在給定未明確指定的目標(biāo)的情況下,計(jì)算每個(gè)物體應(yīng)該放置的位置和方式。
研究人員利用大模型的豐富常識(shí)知識(shí),例如餐具的擺放方式,來(lái)促進(jìn)任務(wù)級(jí)和運(yùn)動(dòng)級(jí)規(guī)劃。此外,他們還使用計(jì)算機(jī)視覺(jué)方法來(lái)學(xué)習(xí)選擇基礎(chǔ)位置的策略促進(jìn) MoMa 行為。
張世琦舉例說(shuō)道:“這很像餐廳里服務(wù)員上菜的情景。一方面,服務(wù)員站得離桌子越近越好,另一方面又要與顧客、桌子、椅子以及其他障礙物保持一定的距離。我們用視覺(jué)方案來(lái)解決站位問(wèn)題,以兼顧機(jī)械手臂和基座的性能表現(xiàn)?!?/p>
![]()
(來(lái)源:IJRR)
以具體場(chǎng)景為例,來(lái)理解機(jī)器人在任務(wù)規(guī)劃和運(yùn)動(dòng)規(guī)劃之間進(jìn)行交互:假如機(jī)器人想要將餐具擺放到十人餐桌,有人已就座。
在任務(wù)層面,它需要判斷具體從桌子左邊還是右邊走過(guò)去更安全。與此同時(shí),機(jī)器人在上菜時(shí)需要決策先放盤(pán)子還是杯子等。而運(yùn)動(dòng)規(guī)劃的問(wèn)題則是:餐桌旁邊已有椅子,應(yīng)該如何調(diào)整站姿,能讓放盤(pán)子的成功率和效率都比較高。
![]()
(來(lái)源:IJRR)
為驗(yàn)證該系統(tǒng)的效果,該團(tuán)隊(duì)分別在真實(shí)機(jī)器人和仿真環(huán)境中進(jìn)行實(shí)驗(yàn)。真實(shí)實(shí)驗(yàn)涵蓋三個(gè)不同復(fù)雜度的任務(wù),包括擺放不同數(shù)量的餐具物品,并在有無(wú)障礙物的情況下執(zhí)行多次試驗(yàn)。結(jié)果顯示,LLM-GROP 在可生成合理的對(duì)象布局的前提下,還能在復(fù)雜環(huán)境中高效地導(dǎo)航和操作。
其中,在真實(shí)世界對(duì)象重新排列試驗(yàn)中,機(jī)器人的任務(wù)成功率達(dá)到 84.4%。通過(guò)主觀人類(lèi)評(píng)估,LLM-GROP 在用戶(hù)滿(mǎn)意度方面比現(xiàn)有的對(duì)象重新排列方法表現(xiàn)更好。在仿真環(huán)境中,LLM-GROP 的執(zhí)行時(shí)間比其他基線方法更短。
研究人員還對(duì)比了不同大模型在系統(tǒng)中的作用,發(fā)現(xiàn) GPT-4 在多數(shù)任務(wù)中表現(xiàn)最佳,而 Gemini 和 Claude 則在某些特定任務(wù)中展現(xiàn)優(yōu)勢(shì)。
![]()
圖丨相關(guān)論文(來(lái)源:IJRR)
近日,相關(guān)論文以《LLM-GROP:利用大語(yǔ)言模型實(shí)現(xiàn)可視化的機(jī)器人任務(wù)與運(yùn)動(dòng)規(guī)劃》(LLM-GROP: Visually Grounded Robot Task and Motion Planning with Large Language Models)為題發(fā)表在 International Journal of Robotics Research(IJRR)[1]。
紐約州立大學(xué)賓漢姆頓分校張笑寒博士(目前任職于波士頓動(dòng)力 AI 機(jī)器人實(shí)驗(yàn)室)、丁琰博士(目前任職于鹿明機(jī)器人)、博士生速水陽(yáng)平(Yohei Hayamizu)和扎伊納布·阿爾塔韋爾(Zainab Altaweel)是共同第一作者,張世琦教授擔(dān)任通訊作者。這項(xiàng)研究的合作者還包括美國(guó)人形機(jī)器人廠家 Agility Robotics 克里斯?帕克斯頓(Chris Paxton)、美國(guó)得克薩斯大學(xué)奧斯汀分校彼得?斯通(Peter Stone)教授和朱玉可教授。
![]()
(來(lái)源:資料圖)
研究團(tuán)隊(duì)計(jì)劃在未來(lái)的研究中繼續(xù)改進(jìn)相關(guān)問(wèn)題。例如,在實(shí)際環(huán)境中可能涉及控制等復(fù)雜的問(wèn)題;進(jìn)一步探索機(jī)器人在抓取時(shí)控制器是如何實(shí)現(xiàn)的;機(jī)器人犯錯(cuò)后如何恢復(fù);為機(jī)器人提供更好的攝像頭提供更豐富的視覺(jué)信息;考慮機(jī)器人邊走邊操作的情況等等。
“我們?cè)谶@次研究中第一次把大模型用在任務(wù)運(yùn)動(dòng)規(guī)劃以及移動(dòng)操作的問(wèn)題上,未來(lái)我們還將探索在現(xiàn)實(shí)場(chǎng)景中更多有趣的問(wèn)題?!睆埵犁硎?。
參考資料:
1.https://doi.org/10.1177/02783649251378196
運(yùn)營(yíng)/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.