11月3日,智元創新(上海)科技有限公司(簡稱:智元機器人)對外宣布該公司研發的真機強化學習技術,首次實現從學術論文階段走向工業應用,目前在與龍旗科技合作的驗證產線中成功落地。相關第三方可驗證的實驗數據將在后續部署中公布。
![]()
智元展示此次落地的真機強化學習方案 。
真機強化學習(Real-World Reinforcement Learning)技術是指,讓AI算法直接在真實物理設備上進行強化學習(RL)訓練的技術。簡單來說,它讓機器人不只在虛擬仿真環境里學會策略,而是直接在真機上通過試錯學習最優行為。
國外多項學術研究顯示,強化學習在工業機器人中的應用具有巨大潛力,但從仿真環境到真機再到工業規模的穩定部署仍面臨較多挑戰,在機器人研究領域,目前更多的是停留在研究階段,并未大規模走向工業產線應用。
據了解,這項真機強化學習技術,可讓機器人在真實產線中自主學習、持續優化作業策略,新技能訓練與穩定部署僅需數十分鐘,且性能全程不降級。在換線、換型或流線調整時,該系統只需最小的硬件改動和標準化部署流程,即可顯著提升柔性、壓縮部署時間與成本。
智元機器人合伙人、首席科學家羅劍嵐告訴澎湃科技,目前這套方案已進入常態化作業狀態,最大的突破點在于其性能真正將AI模型部署在工廠中,實現100%的準確率。在聯調機制下,落地工業產線的故障率已經被控制在產線驗收范圍內。
羅劍嵐稱,工業產線較為保守,傳統自動化設備在具有不確定性的場景下,難以同時兼顧高精度、高成功率和通用性,而真機強化學習技術能更好地解決這一問題。真機強化學習技術約80%將應用于集中上下料與柔性換線環節。
長期以來,精密制造產線面臨剛性瓶頸。傳統機械臂依賴復雜夾具設計與場地改造,調試周期長、換型成本高;“視覺+力控”等柔性方案雖有改進,卻存在參數敏感、部署復雜等問題,難以適配消費電子行業高頻產品迭代需求。
相較于傳統方案,真機強化學習技術具備三大核心優勢:極速部署、超高適配和柔性換型,可在不同工位和產品線上快速遷移與復用。其訓練周期從“數周”縮短至“數十分鐘”,效率實現指數級提升;自主克服來料位置偏差、尺寸公差等擾動,在長周期運行中持續保持工業級穩定性與100%任務完成率。
不過,相較于仿真學習,真機強化學習技術或面臨成本高昂等問題。在成本控制方面,羅劍嵐表示,真機強化學習技術的優勢體現在兩方面:顯性成本方面直接與產能掛鉤,提升了生產效率;隱性成本方面,具有高模塊化、高柔性率特征,在不同工序間切換非常便捷,只需極小程度的硬件調整。
羅劍嵐強調,“隨著經驗的積累,這一系統在新產線上部署會更快,成本也會越來越低。”他表示,這是一套可管理、可復制、可拓展的工具,未來會將其打造成通用模板進行推廣,像搭樂高積木一樣,從3C逐步擴展到汽車、家電、醫療等領域。





京公網安備 11011402013531號