狼叫獸

靈初智能公司近日發(fā)布了首個基于強化學(xué)習(xí)(RL)的端到端具身模型Psi R0。該模型支持雙靈巧手協(xié)同進行復(fù)雜操作,可以將多個技能串聯(lián)混訓(xùn),生成具有推理能力的智能體來完成并閉環(huán)長程靈巧操作任務(wù),并且在跨物品、跨場景級別上表現(xiàn)出較高的泛化能力。
以電商場景為例, Psi R0能夠使用雙靈巧手流暢地完成一系列動作,如抓取、掃碼、放置、塑料袋打結(jié)等,在客戶現(xiàn)場可以取代一個完整工位。這是業(yè)界首次通過RL訓(xùn)練完成長程靈巧操作任務(wù)的具身機器人。
官方表示,Psi R0模型是基于RL訓(xùn)練出來的,使用海量仿真數(shù)據(jù)訓(xùn)練出雙手操作的智能體,并通過雙向訓(xùn)練框架串聯(lián)多技能,在開放環(huán)境中率先完成了長程任務(wù),并具備較強的泛化能力和較高的魯棒性。
這一技能訓(xùn)練框架從物體時空軌跡抽象出關(guān)鍵信息以構(gòu)建通用目標(biāo)函數(shù),解決了獎勵函數(shù)設(shè)計困難的問題。在后訓(xùn)練階段,通過少量高質(zhì)量真機數(shù)據(jù)對齊進一步提升了長程任務(wù)的成功率。
除了轉(zhuǎn)移可行性函數(shù)外,雙向訓(xùn)練框架中的其他部分也發(fā)揮著重要作用。它能夠微調(diào)技能以提高串聯(lián)成功率和泛化性,并賦予模型自主切換技能的能力,確保在遭遇操作失敗時迅速調(diào)整策略以實現(xiàn)高成功率。





京公網(wǎng)安備 11011402013531號