下一位傳菜員可能是它：科學(xué)家用大模型讓機(jī)器人搞定餐桌布置難題

IP屬地中國·北京 DeepTech深科技 時(shí)間：2025-12-02 20:15:27

過去，如果想讓機(jī)器人布置餐桌，需要給它明確的指令，比如：往前走 2 米，抬起 45 度，食物需要擺在餐盤中，叉子擺到盤子的右側(cè)……
現(xiàn)在，只要對機(jī)器人說“把這些餐具以合理的形式擺好”，它就能通過與大語言模型交流，學(xué)到怎么擺的常識(shí)性知識(shí)，然后按照要求把餐具合理地?cái)[出來。

（https://sites.google.com/view/llm-grop）
這項(xiàng)研究來自美國紐約州立大學(xué)賓漢姆頓分校張世琦教授團(tuán)隊(duì)與合作者，他們提出了一種名為 LLM-GROP 的方法，使機(jī)器人能夠在復(fù)雜環(huán)境中高效地完成多對象重新排列任務(wù)，在真實(shí)環(huán)境中的任務(wù)成功率達(dá) 84.4%。
張世琦對 DeepTech 表示：“我們首次將大語言模型的常識(shí)知識(shí)與任務(wù)與運(yùn)動(dòng)規(guī)劃（TAMP，Task and motion planning）任務(wù)結(jié)合。該系統(tǒng)表現(xiàn)出強(qiáng)適應(yīng)能力，支持在動(dòng)態(tài)障礙的環(huán)境中進(jìn)行實(shí)時(shí)調(diào)整。”
該研究為服務(wù)機(jī)器人在開放世界中的語義任務(wù)執(zhí)行提供了新思路，適用于移動(dòng)操作平臺(tái)，即當(dāng)機(jī)器人既需要在任務(wù)層面做離散規(guī)劃，把復(fù)雜任務(wù)分解成一步步動(dòng)作，又需要在連續(xù)空間里做軌跡規(guī)劃的情況。

圖丨移動(dòng)機(jī)械臂布置餐桌的場景（IJRR）
研究團(tuán)隊(duì)對移動(dòng)操作（MoMa）領(lǐng)域進(jìn)行研究，重點(diǎn)關(guān)注機(jī)器人同時(shí)執(zhí)行導(dǎo)航和移動(dòng)抓取的任務(wù)。他們還特別關(guān)注如何在給定未明確指定的目標(biāo)的情況下，計(jì)算每個(gè)物體應(yīng)該放置的位置和方式。
研究人員利用大模型的豐富常識(shí)知識(shí)，例如餐具的擺放方式，來促進(jìn)任務(wù)級(jí)和運(yùn)動(dòng)級(jí)規(guī)劃。此外，他們還使用計(jì)算機(jī)視覺方法來學(xué)習(xí)選擇基礎(chǔ)位置的策略促進(jìn) MoMa 行為。
張世琦舉例說道：“這很像餐廳里服務(wù)員上菜的情景。一方面，服務(wù)員站得離桌子越近越好，另一方面又要與顧客、桌子、椅子以及其他障礙物保持一定的距離。我們用視覺方案來解決站位問題，以兼顧機(jī)械手臂和基座的性能表現(xiàn)。”

（IJRR）
以具體場景為例，來理解機(jī)器人在任務(wù)規(guī)劃和運(yùn)動(dòng)規(guī)劃之間進(jìn)行交互：假如機(jī)器人想要將餐具擺放到十人餐桌，有人已就座。
在任務(wù)層面，它需要判斷具體從桌子左邊還是右邊走過去更安全。與此同時(shí)，機(jī)器人在上菜時(shí)需要決策先放盤子還是杯子等。而運(yùn)動(dòng)規(guī)劃的問題則是：餐桌旁邊已有椅子，應(yīng)該如何調(diào)整站姿，能讓放盤子的成功率和效率都比較高。

（IJRR）
為驗(yàn)證該系統(tǒng)的效果，該團(tuán)隊(duì)分別在真實(shí)機(jī)器人和仿真環(huán)境中進(jìn)行實(shí)驗(yàn)。真實(shí)實(shí)驗(yàn)涵蓋三個(gè)不同復(fù)雜度的任務(wù)，包括擺放不同數(shù)量的餐具物品，并在有無障礙物的情況下執(zhí)行多次試驗(yàn)。結(jié)果顯示，LLM-GROP 在可生成合理的對象布局的前提下，還能在復(fù)雜環(huán)境中高效地導(dǎo)航和操作。
其中，在真實(shí)世界對象重新排列試驗(yàn)中，機(jī)器人的任務(wù)成功率達(dá)到 84.4%。通過主觀人類評估，LLM-GROP 在用戶滿意度方面比現(xiàn)有的對象重新排列方法表現(xiàn)更好。在仿真環(huán)境中，LLM-GROP 的執(zhí)行時(shí)間比其他基線方法更短。
研究人員還對比了不同大模型在系統(tǒng)中的作用，發(fā)現(xiàn) GPT-4 在多數(shù)任務(wù)中表現(xiàn)最佳，而 Gemini 和 Claude 則在某些特定任務(wù)中展現(xiàn)優(yōu)勢。

圖丨相關(guān)論文（IJRR）
近日，相關(guān)論文以《LLM-GROP：利用大語言模型實(shí)現(xiàn)可視化的機(jī)器人任務(wù)與運(yùn)動(dòng)規(guī)劃》（LLM-GROP: Visually Grounded Robot Task and Motion Planning with Large Language Models）為題發(fā)表在 International Journal of Robotics Research（IJRR）[1]。
紐約州立大學(xué)賓漢姆頓分校張笑寒博士（目前任職于波士頓動(dòng)力 AI 機(jī)器人實(shí)驗(yàn)室）、丁琰博士（目前任職于鹿明機(jī)器人）、博士生速水陽平（Yohei Hayamizu）和扎伊納布·阿爾塔韋爾（Zainab Altaweel）是共同第一作者，張世琦教授擔(dān)任通訊作者。這項(xiàng)研究的合作者還包括美國人形機(jī)器人廠家 Agility Robotics 克里斯?帕克斯頓（Chris Paxton）、美國得克薩斯大學(xué)奧斯汀分校彼得?斯通（Peter Stone）教授和朱玉可教授。

（資料圖）
研究團(tuán)隊(duì)計(jì)劃在未來的研究中繼續(xù)改進(jìn)相關(guān)問題。例如，在實(shí)際環(huán)境中可能涉及控制等復(fù)雜的問題；進(jìn)一步探索機(jī)器人在抓取時(shí)控制器是如何實(shí)現(xiàn)的；機(jī)器人犯錯(cuò)后如何恢復(fù)；為機(jī)器人提供更好的攝像頭提供更豐富的視覺信息；考慮機(jī)器人邊走邊操作的情況等等。
“我們在這次研究中第一次把大模型用在任務(wù)運(yùn)動(dòng)規(guī)劃以及移動(dòng)操作的問題上，未來我們還將探索在現(xiàn)實(shí)場景中更多有趣的問題。”張世琦表示。
參考資料：
1.https://doi.org/10.1177/02783649251378196
運(yùn)營/排版：何晨龍

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

OpenAI發(fā)布GPT-5.2-Codex：號(hào)稱工程實(shí)戰(zhàn)能力天花板

第42次南極考察人員登陸后有何重點(diǎn)工作？

國產(chǎn)大模型叩響資本市場大門

iPhone最高立減2000多元，數(shù)百人排隊(duì)搶購榴蓮！海南今起封關(guān)，網(wǎng)友已經(jīng)在看機(jī)票了……

1秒定位船舶，語音識(shí)別率近九成！吳淞海事局自研系統(tǒng)將推動(dòng)安全監(jiān)管向智能化邁進(jìn)

上海算力綜合指數(shù)連續(xù)多年居全國前列，在用數(shù)據(jù)中心達(dá)136個(gè)

全站最新

OpenAI發(fā)布GPT-5.2-Codex：號(hào)稱工程實(shí)戰(zhàn)能力天花板

第42次南極考察人員登陸后有何重點(diǎn)工作？

國產(chǎn)大模型叩響資本市場大門

iPhone最高立減2000多元，數(shù)百人排隊(duì)搶購榴蓮！海南今起封關(guān)，網(wǎng)友已經(jīng)在看機(jī)票了……

熱門推薦

OpenAI發(fā)布GPT-5.2-Codex：號(hào)稱工程實(shí)戰(zhàn)能力天花板

充滿爭議仍獲放行：密歇根州批準(zhǔn)為甲骨文與OpenAI超級(jí)數(shù)據(jù)中心供電

會(huì)玩！中國科學(xué)家“擼”的這只“貓”，入選2025全球物理學(xué)年度亮點(diǎn)

第42次南極考察人員登陸后有何重點(diǎn)工作？

國產(chǎn)大模型叩響資本市場大門

開放第三方支付蘋果在日調(diào)整規(guī)則

80后億萬富翁出任NASA局長主張與中國太空競爭

iPhone最高立減2000多元，數(shù)百人排隊(duì)搶購榴蓮！海南今起封關(guān)，網(wǎng)友已經(jīng)在看機(jī)票了……

社評：中國科技進(jìn)步，路透社本不必焦慮

1秒定位船舶，語音識(shí)別率近九成！吳淞海事局自研系統(tǒng)將推動(dòng)安全監(jiān)管向智能化邁進(jìn)

上海算力綜合指數(shù)連續(xù)多年居全國前列，在用數(shù)據(jù)中心達(dá)136個(gè)

歐盟“撤回”2035全面電動(dòng)化

iPhone內(nèi)存用完就壞了？蘋果客服回應(yīng)

盛路通信：公司研發(fā)的微波模塊組件可應(yīng)用于衛(wèi)星通信系統(tǒng)

首創(chuàng)ACE具身研發(fā)范式大曉機(jī)器人構(gòu)建具身智能開放新生態(tài)