過去,如果想讓機(jī)器人布置餐桌,需要給它明確的指令,比如:往前走 2 米,抬起 45 度,食物需要擺在餐盤中,叉子擺到盤子的右側(cè)……
現(xiàn)在,只要對機(jī)器人說“把這些餐具以合理的形式擺好”,它就能通過與大語言模型交流,學(xué)到怎么擺的常識(shí)性知識(shí),然后按照要求把餐具合理地?cái)[出來。

(https://sites.google.com/view/llm-grop)
這項(xiàng)研究來自美國紐約州立大學(xué)賓漢姆頓分校張世琦教授團(tuán)隊(duì)與合作者,他們提出了一種名為 LLM-GROP 的方法,使機(jī)器人能夠在復(fù)雜環(huán)境中高效地完成多對象重新排列任務(wù),在真實(shí)環(huán)境中的任務(wù)成功率達(dá) 84.4%。
張世琦對 DeepTech 表示:“我們首次將大語言模型的常識(shí)知識(shí)與任務(wù)與運(yùn)動(dòng)規(guī)劃(TAMP,Task and motion planning)任務(wù)結(jié)合。該系統(tǒng)表現(xiàn)出強(qiáng)適應(yīng)能力,支持在動(dòng)態(tài)障礙的環(huán)境中進(jìn)行實(shí)時(shí)調(diào)整。”
該研究為服務(wù)機(jī)器人在開放世界中的語義任務(wù)執(zhí)行提供了新思路,適用于移動(dòng)操作平臺(tái),即當(dāng)機(jī)器人既需要在任務(wù)層面做離散規(guī)劃,把復(fù)雜任務(wù)分解成一步步動(dòng)作,又需要在連續(xù)空間里做軌跡規(guī)劃的情況。
![]()
圖丨移動(dòng)機(jī)械臂布置餐桌的場景(IJRR)
研究團(tuán)隊(duì)對移動(dòng)操作(MoMa)領(lǐng)域進(jìn)行研究,重點(diǎn)關(guān)注機(jī)器人同時(shí)執(zhí)行導(dǎo)航和移動(dòng)抓取的任務(wù)。他們還特別關(guān)注如何在給定未明確指定的目標(biāo)的情況下,計(jì)算每個(gè)物體應(yīng)該放置的位置和方式。
研究人員利用大模型的豐富常識(shí)知識(shí),例如餐具的擺放方式,來促進(jìn)任務(wù)級(jí)和運(yùn)動(dòng)級(jí)規(guī)劃。此外,他們還使用計(jì)算機(jī)視覺方法來學(xué)習(xí)選擇基礎(chǔ)位置的策略促進(jìn) MoMa 行為。
張世琦舉例說道:“這很像餐廳里服務(wù)員上菜的情景。一方面,服務(wù)員站得離桌子越近越好,另一方面又要與顧客、桌子、椅子以及其他障礙物保持一定的距離。我們用視覺方案來解決站位問題,以兼顧機(jī)械手臂和基座的性能表現(xiàn)。”
![]()
(IJRR)
以具體場景為例,來理解機(jī)器人在任務(wù)規(guī)劃和運(yùn)動(dòng)規(guī)劃之間進(jìn)行交互:假如機(jī)器人想要將餐具擺放到十人餐桌,有人已就座。
在任務(wù)層面,它需要判斷具體從桌子左邊還是右邊走過去更安全。與此同時(shí),機(jī)器人在上菜時(shí)需要決策先放盤子還是杯子等。而運(yùn)動(dòng)規(guī)劃的問題則是:餐桌旁邊已有椅子,應(yīng)該如何調(diào)整站姿,能讓放盤子的成功率和效率都比較高。
![]()
(IJRR)
為驗(yàn)證該系統(tǒng)的效果,該團(tuán)隊(duì)分別在真實(shí)機(jī)器人和仿真環(huán)境中進(jìn)行實(shí)驗(yàn)。真實(shí)實(shí)驗(yàn)涵蓋三個(gè)不同復(fù)雜度的任務(wù),包括擺放不同數(shù)量的餐具物品,并在有無障礙物的情況下執(zhí)行多次試驗(yàn)。結(jié)果顯示,LLM-GROP 在可生成合理的對象布局的前提下,還能在復(fù)雜環(huán)境中高效地導(dǎo)航和操作。
其中,在真實(shí)世界對象重新排列試驗(yàn)中,機(jī)器人的任務(wù)成功率達(dá)到 84.4%。通過主觀人類評估,LLM-GROP 在用戶滿意度方面比現(xiàn)有的對象重新排列方法表現(xiàn)更好。在仿真環(huán)境中,LLM-GROP 的執(zhí)行時(shí)間比其他基線方法更短。
研究人員還對比了不同大模型在系統(tǒng)中的作用,發(fā)現(xiàn) GPT-4 在多數(shù)任務(wù)中表現(xiàn)最佳,而 Gemini 和 Claude 則在某些特定任務(wù)中展現(xiàn)優(yōu)勢。
![]()
圖丨相關(guān)論文(IJRR)
近日,相關(guān)論文以《LLM-GROP:利用大語言模型實(shí)現(xiàn)可視化的機(jī)器人任務(wù)與運(yùn)動(dòng)規(guī)劃》(LLM-GROP: Visually Grounded Robot Task and Motion Planning with Large Language Models)為題發(fā)表在 International Journal of Robotics Research(IJRR)[1]。
紐約州立大學(xué)賓漢姆頓分校張笑寒博士(目前任職于波士頓動(dòng)力 AI 機(jī)器人實(shí)驗(yàn)室)、丁琰博士(目前任職于鹿明機(jī)器人)、博士生速水陽平(Yohei Hayamizu)和扎伊納布·阿爾塔韋爾(Zainab Altaweel)是共同第一作者,張世琦教授擔(dān)任通訊作者。這項(xiàng)研究的合作者還包括美國人形機(jī)器人廠家 Agility Robotics 克里斯?帕克斯頓(Chris Paxton)、美國得克薩斯大學(xué)奧斯汀分校彼得?斯通(Peter Stone)教授和朱玉可教授。
![]()
(資料圖)
研究團(tuán)隊(duì)計(jì)劃在未來的研究中繼續(xù)改進(jìn)相關(guān)問題。例如,在實(shí)際環(huán)境中可能涉及控制等復(fù)雜的問題;進(jìn)一步探索機(jī)器人在抓取時(shí)控制器是如何實(shí)現(xiàn)的;機(jī)器人犯錯(cuò)后如何恢復(fù);為機(jī)器人提供更好的攝像頭提供更豐富的視覺信息;考慮機(jī)器人邊走邊操作的情況等等。
“我們在這次研究中第一次把大模型用在任務(wù)運(yùn)動(dòng)規(guī)劃以及移動(dòng)操作的問題上,未來我們還將探索在現(xiàn)實(shí)場景中更多有趣的問題。”張世琦表示。
參考資料:
1.https://doi.org/10.1177/02783649251378196
運(yùn)營/排版:何晨龍





京公網(wǎng)安備 11011402013531號(hào)