去年已實現量產近千臺的人形機器人公司智元機器人再度對外宣布重磅消息。
3月10日,該公司正式發布首個通用具身基座大模型,即智元啟元大模型(Genie Operator-1)。“GO-1大模型借助人類和多種機器人數據,讓機器人獲得了革命性的學習能力,可泛化應用到各類的環境和物品中,快速適應新任務、學習新技能。”
值得關注的是,智元機器人方面介紹,GO-1大模型還支持部署到不同的機器人本體,高效地完成落地,并在實際的使用中持續不斷地快速進化。

2024年底,智元機器人年推出了AgiBot World,包含超過100萬條軌跡、涵蓋217個任務、涉及五大場景的大規模高質量真機數據集。然而,如何有效利用高質量的AgiBot World數據集以及互聯網大規模異構視頻數據?這仍然是關鍵。
智元介紹,數字金字塔的底層是互聯網的大規模純文本與圖文數據,可以幫助機器人理解通用知識和場景;在這之上是大規模人類操作/跨本體視頻,可以幫助機器人學習人類或者其他本體的動作操作模式;更上一層則是仿真數據,用于增強泛化性,讓機器人適應不同場景、物體等;金字塔的頂層,則是高質量的真機示教數據,用于訓練精準動作執行。
“現有的VLA(Vision-Language-Action)架構,未有利用到數字金字塔中大規模人類/跨本體操作視頻數據,缺少了一個重要的數據來源,導致迭代的成本更高,進化的速度更慢。”基于這一現實,智元此次提出了Vision-Language-Latent-Action(ViLLA)架構。
據介紹,該架構由VLM(多模態大模型)+ MoE(混合專家)組成。其中VLM借助海量互聯網圖文數據獲得通用場景感知和語言理解能力,MoE中的Latent Planner(隱式規劃器)借助大量跨本體和人類操作數據獲得通用的動作理解能力,MoE中的Action Expert(動作專家)則借助百萬真機數據獲得精細的動作執行能力。
也就是說,與VLA架構相比,ViLLA通過預測Latent Action Tokens(隱式動作標記),彌合了圖像-文本輸入與機器人執行動作之間的鴻溝,能有效利用高質量的AgiBot World數據集以及互聯網大規模異構視頻數據,增強策略的泛化能力。
智元機器人稱,在推理時,VLM、Latent Planner和Action Expert三者協同工作:VLM 采用InternVL-2B,接收多視角視覺圖片、力覺信號、語言輸入等多模態信息,進行通用的場景感知和指令理解;Latent Planner是MoE中的一組專家,基于VLM的中間層輸出預測Latent Action Tokens作為CoP(Chain of Planning,規劃鏈),進行通用的動作理解和規劃;Action Expert是MoE中的另外一組專家,基于VLM的中間層輸出以及Latent Action Tokens,生成最終的精細動作序列。
“實現了可以利用人類視頻學習,完成小樣本快速泛化,降低了具身智能門檻,并成功部署到智元多款機器人本體,持續進化,將具身智能推上一個新臺階。”智元機器人方面表示。
根據該公司給出的數據,通過Vision-Language-Latent-Action (ViLLA) 架構,其在五種不同復雜度的任務上測試 GO-1,相比已有的最優模型,GO-1平均成功率提高了32%(46%->78%)。其中 “Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(補充飲料) 任務表現尤為突出。此外還單獨驗證了ViLLA 架構中Latent Planner的作用,其可以提升12%的成功率(66%->78%)。
智元機器人稱,智元通用具身基座大模型GO-1的推出,標志著具身智能向通用化、開放化、智能化方向快速邁進。
智元機器人于2023年2月成立于上海臨港新片區,其臨港工廠也已于2024年10月開始生產,這也是上海首座人形機器人量產工廠。據悉,智元機器人還計劃在上海張江建設年產能在1萬臺左右的人形機器人的二期工廠。截至目前,該公司主要有三條主打產品線,分別為遠征、Genie和靈犀。





京公網安備 11011402013531號