機器人在產線中拿起iPad,放進功能測試站。測試平臺隨即合攏,幾秒鐘后,檢測完成。機器人再次伸臂,將iPad穩穩取出,轉身送往下一道工序。
這一幕發生在龍旗科技(603341.SH)的產線中。11月3日,智元機器人宣布團隊研發的真機強化學習技術已在與龍旗科技合作的驗證產線中落地。強化學習是一種讓機器人通過不斷嘗試和反饋自主優化動作策略的AI訓練方式。“傳統的強化學習通常在仿真環境中完成。”一位和英偉達存在合作關系的仿真引擎供應商告訴第一財經記者,通常來說,研發人員會在虛擬環境中搭建與真實工廠相似的生產線、機械臂與操作物體,讓機器人完成學習后再上產線部署。
![]()
“但Sim to real(仿真到真實)之間的溝壑一直存在。”他告訴記者,在虛擬環境中學到的策略往往需要大量調試才能在真機上穩定復現,這其中需要耗費大量的人力和物力。
這也是當前人形機器人企業在進入實際場景時,需要耗時數月部署、調試的核心原因之一。今年上半年,記者在一家華東地區的工廠看到,人形機器人已開始進入實際產線。雖然現場僅有兩三臺機器人在作業,但負責調試與維護的工作人員卻有數十人。彼時,一位在現場的人形機器人企業的解決方案工程師告訴第一財經記者,給一臺人形機器人配10位工作人員“都算少的”,他說,這些工作人員大多負責機器人的調試、標定與安全監控,包括調整運動參數、處理異常狀態,以及在訓練過程中實時校驗數據,確保機器人動作穩定、物料完好。
“我們都是機器人的‘保姆’,需要在現場確保他們不會‘亂來’。”他說。
智元機器人合伙人兼首席科學家羅劍嵐告訴第一財經記者,讓強化學習直接嵌入真實產線,有利于優化機器人強化學習的訓練目標,減少現場的人力和物力投入。“在產線中部署強化學習,產線作業的通過率、作業節拍、良率直接成為機器人的目標,機器人可以通過產線的原生信號完成訓練,部署可以縮減至分鐘級。”
不過,羅劍嵐也提到,在真機強化學習的部署過程中也可能存在物料損耗或安全的風險。“這需要通過預訓練和機器人的底層控制,將機器人在現場學習中的風險控制在可控范圍內。”
解決了機器人部署效率的問題,如何批量復制是智元需要面臨的下一個難題。羅劍嵐透露,團隊正通過本地私有云與OTA(Over-the-Air,即空中升級)機制,讓不同工序的真機強化學習經驗得以共享,實現模型的批量更新和復現。盡管用真機強化學習在產線中部署提升了部署效率,羅劍嵐也表示,真機強化學習不僅依賴算法本身,更依賴于與工廠系統的深度對接。從通信技術到數據接口,都需要在實際環境中逐步打通。“只有當這些底層環節順暢運轉,工序間的數據流和反饋閉環才能真正形成。”





京公網安備 11011402013531號