
與OpenAI分手之后,Figure自研首個模型終于交卷了!
不用ChatGPT,Figure直接把視覺-語言-動作模型(VLA)——Helix裝入人形機器人大腦。
它可以讓機器人感知、語言理解、學習控制,是一個端到端的通用模型。

果然,Figure的一大目標,就是發展家庭機器人。為此,其內部的AI需要像人一樣推理,需要處理任何家庭用品。

「機器人若不實現能力上的飛躍,將無法進入家庭領域」
目前,Helix還主要用于Figure上半身控制,包括手腕、頭、單個手指、甚至軀干,能以高速率執行復雜任務。
只需一句話,機器人便可以拿起任何物品。
當被要求「撿起沙漠物品」時,Helix會識別出玩具仙人掌,選擇最近的手,并執行精確的電機指令以牢固地抓住它。

還有生活中各種小物件,比如金屬鏈、帽子、玩具等等,它皆精準「拿捏」。

快看,它還會將物品放置在冰箱,而且是兩個Figure協作完成。

這是因為Helix是首個同時操控兩臺機器人的VLA,使他它們能夠解決共同的、長序列操作任務,即使是處理從未見過的物品。
有網友表示,這一刻讓我瞬間不寒而栗。

另有網友表示,「這非常令人印象深刻」,甚至有人馬上想要買兩臺體驗一下。



左右
值得一提的是,新款模型采用單一神經網絡權重學習所有行為,無需任何特定的微調。
而且,它還是首款完全在嵌入式低功耗GPU上運行的VLA,未來商業部署,甚至走入家庭近在咫尺。
Helix:通用視覺-語言-動作模型
家庭環境是機器人技術面臨的最大挑戰。
與可控的工業環境不同,家庭中充滿了無數物品——易碎的玻璃器皿、褶皺的衣物、散落的玩具——每個物品都有著不可預測的形狀、尺寸、顏色和質地。
要想讓機器人在家庭中發揮作用,它們需要能夠生成智能化的新行為來應對各種情況,特別是對于那些此前從未見過的物品。
如果沒有質的飛躍,當前的機器人技術將無法適應家庭環境。
目前,僅僅教會機器人一個新行為就需要大量人力投入:要么需要博士級專家花費數小時進行手動編程,要么需要數千次示教。
考慮到家庭環境問題的龐大性,這兩種方法的成本都高得難以承受。

圖1:不同機器人技能獲取方法的擴展曲線。在傳統啟發式控制中,技能的增長取決于博士研究人員的手動編程。在傳統機器人模仿學習中,技能隨數據采集量擴展。而采用Helix技術,只需通過自然語言即可實時定義新技能
但在人工智能的其他領域已經掌握了即時泛化的能力。
如果我們能夠將視覺語言模型(Vision Language Models,VLM)中捕獲的豐富語義知識直接轉化為機器人動作,將會帶來什么改變?
這種新能力將從根本上改變機器人技術的發展軌跡(圖1)。
突然間,那些曾經需要數百次示教才能掌握的新技能,現在只需通過自然語言與機器人對話就能立即獲得。
關鍵問題在于:我們如何從VLM中提取所有這些常識知識,并將其轉化為可泛化的機器人控制?Helix的構建正是為了跨越這一鴻溝。

首創「系統1,系統2」VLA
團隊表示,Helix是首個由「系統1,系統2」組成的VLA,可以實現人形機器人上半身的高速精確控制。
先前的VLM主干網絡具有通用性但速度不快,機器人視覺運動策略速度快但缺乏通用性。而Helix通過兩個系統解決了這個難題,兩個系統經過端到端訓練,并可以相互通信:
系統2(S2):VLM主干網絡,經互聯網規模數據預訓練,工作頻率7-9Hz,用于場景和語言理解,可對不同的物體和場景進行泛化。
系統1(S1):80M參數交叉注意力Transformer,依靠一個全卷積的多尺度視覺主干網絡進行視覺處理,該網絡在模擬環境中完成預訓練初始化。
這種解耦架構讓每個系統都能在最佳時間尺度上運行,S2可以「慢思考」高層目標,S1通過「快思考」來實時執行和調整動作。
例如,在協作中,S1能快速適應伙伴機器人的動作變化,同時維持S2設定的語義目標。

Helix的設計相較現有方法具有以下幾個關鍵優勢:
速度和泛化能力:Helix不僅達到了專門針對單任務行為克隆(behavioral cloning)策略的運行速度,還能夠對數千個全新測試對象實現零樣本學習。
可擴展性:Helix能夠直接輸出高維動作空間的連續控制,避免了先前VLA方法中使用的復雜動作token化方案。這些方案雖然在低維控制設置(如二指夾爪)中取得了一定成功,但在高維人形機器人控制中面臨擴展性挑戰。
架構簡單:Helix采用標準架構——系統2使用開源、開放權重的視覺語言模型,系統1則采用簡單的基于Transformer的視覺運動策略。
職責分離:通過S1和S2的「解耦」,能夠獨立迭代優化每個系統,無需受限于尋找統一的觀察空間或動作表示。
模型和訓練細節
數據
研究人員收集了一個高質量的、多機器人、多操作員的多樣化遙操作行為數據集,總計約500小時。
為了生成自然語言條件下的訓練對,他們使用自動標注VLM來生成回顧性指令。
VLM會處理來自機器人板載攝像頭的分段視頻片段,提示詞是這樣的:「如果要實現視頻中看到的動作,你會給機器人什么指令?」
為了防止數據干擾,所有訓練中使用的物品都被排除在評估之外。
架構
這個系統主要包括兩個主要組件,S2(VLM主干網絡)和S1(基于潛層條件的視覺運動Transformer)。
S2建立在一個經過互聯網規模數據預訓練的7B參數開源開放權重VLM之上。它處理單目機器人圖像和機器人狀態信息(包括手腕姿態和手指位置),將這些信息投影到視覺-語言嵌入空間中。
結合指定期望行為的自然語言命令,S2會將所有與任務相關的語義信息提煉為單個連續潛層向量,傳遞給S1用于條件化其低層動作。
其中S1是一個80M參數的交叉注意力(cross-attention)編碼器-解碼器Transformer,負責低層控制。它依賴于一個全卷積的多尺度視覺主干網絡進行視覺處理,該網絡完全在模擬環境中預訓練初始化。
雖然S1接收與S2相同的圖像和狀態輸入,但它以更高的頻率處理這些信息,以實現更快速的閉環控制。來自S2的潛層向量被投影到S1的token空間,并在序列維度上與S1視覺主干網絡的視覺特征連接,提供任務條件。
S1以200Hz的頻率輸出完整的上半身人形機器人控制信號,包括期望的手腕姿態、手指彎曲和外展控制,以及軀干和頭部方向目標。
另外,團隊還在動作空間中,附加了一個合成的「任務完成百分比」動作,讓Helix能預測自己的終止條件。這樣,多個學習行為的序列化就更容易了。
訓練





京公網安備 11011402013531號