大模型的風終于吹到了機器人身上。
剛剛,人形機器人初創公司 Figure AI 發布了新 AI 系統 Helix,這是專為人形機器人設計的“視覺-語言-動作”(Vison-Language-Action,VLA)模型,能夠讓機器人直接理解自然語言、解析視覺信息,并執行相應的動作。
(Figure AI)
Helix 是第一款對整個人形上身(包括手腕、軀干、頭部和各個手指)進行高速率連續控制的 VLA 模型。
簡單來說,這就像給機器人裝上了一個超級大腦,讓它們可以像人類一樣用眼睛觀察、用耳朵聽、用手操作,并且能在沒有特別訓練的情況下完成全新的任務。
如果你覺得機器人還停留在那種“機械化執行命令”、只能按照預設流程工作的階段,那 Figure AI 的新視頻可能會改變你的看法。
視頻中,雖然兩個機器人的動作慢吞吞的,但它們對人類指令的理解十分到位,包括打開冰箱、拿起食物、擺放到恰當的位置,甚至還能傳遞食物(協同合作)。
Figure AI 在 X 上寫道:“我們發現,只要給機器人提示詞,我們就可以(讓它)拿起幾乎任何物體。”
圖 | Figure AI 發布 Helix 模型(X)
相比傳統的機器人控制方式,Helix 可以讓機器人具備更強的自主學習能力,不再局限于固定任務,而是可以在各種場景中學習、適應新挑戰。
這種能力得益于 Figure AI 的 S2+S1 雙系統架構,可對人形機器人的整個上半身進行高速、靈巧的控制。
圖 | Helix 的雙系統架構(Figure AI)
其中 S2 系統是一個機載互聯網預訓練的視覺語言模型(VLM),以 7-9 Hz 的頻率運行,用于場景理解和語言理解,從而實現跨對象和上下文的廣泛概括。
而 S1 系統負責快速反應的視覺運動策略,將 S2 產生的潛在語義表征轉化為 200 Hz 的精確連續機器人動作。換句話說就是負責理解來自人類的語言指令,并結合視覺信息解析環境,實現自主決策并保證流暢的肢體協調。
“這種解耦架構允許每個系統在其最佳時間尺度上運行。S2 可以慢慢‘思考高級’目標,而 S1 可以‘快速思考’以實時執行和調整動作。”Figure AI 寫道。
圖 | Figure AI 的 CEO 表示:“要讓機器人進入千家萬戶,我們需要在能力上實現重大進展。”(X)
據 Figure AI 介紹,他們收集了高質量的多機器人、多操作員數據集,其中包含各種遠程操作行為,總共約 500 小時。
為了生成自然語言條件訓練對,Figure AI 使用自動標記 VLM 來生成 hindsight 指令。VLM 會處理來自機器人機載攝像頭的分段視頻片段,并提示:“你會給機器人什么指令來執行此視頻中看到的動作?”訓練期間處理的所有物品均不包含在評估中,以防止污染。
Helix 系統由兩個主要組件組成:S2(VLM 主干)和 S1(潛在條件視覺運動 Transformer)。
S2 建立在 7B 參數開源、開放權重的 VLM 上,該 VLM 已在互聯網規模數據上進行了預訓練。它將單目機器人圖像和機器人狀態信息(包括手腕姿勢和手指位置)投影到視覺語言嵌入空間后進行處理。
結合指定所需行為的自然語言命令,S2 將所有語義任務相關信息提煉為單個連續潛在向量,并傳遞給 S1 以調節其低級動作。
S1 是一個 80M 參數交叉注意編碼器-解碼器 Transformer,用于處理低級控制。它依靠完全卷積、多尺度視覺主干進行視覺處理,該主干通過完全在模擬中完成的預訓練進行初始化。
圖 | 機器人可以撿起各種各樣的東西(Figure AI)
雖然 S1 接收與 S2 相同的圖像和狀態輸入,但它以更高的頻率處理它們,以實現響應更快的閉環控制。來自 S2 的潛在向量被投影到 S1 的標記空間中,并沿著序列維度與來自 S1 視覺主干的視覺特征連接起來,提供任務調節。
S1 以 200hz 的頻率輸出完整的人形機器人上半身控制,包括所需的手腕姿勢、手指屈曲和外展控制以及軀干和頭部方向目標。他們在動作空間中附加了一個合成的“任務完成百分比”動作,使 Helix 能夠預測自己的終止條件,從而更容易對多個學習到的行為進行排序。
通過端到端訓練,Helix 能夠控制機器人,直接從視覺和語言輸入中推理出正確的行動,而無需手動編寫具體任務指令,也不需要針對特定任務進行調整。
Helix 的訓練設計支持在 Figure 機器人上高效地并行部署模型,每個機器人都配備了雙低功耗嵌入式 GPU。推理管道分為 S2(高級潛在規劃)和 S1(低級控制)模型,每個模型都在專用 GPU 上運行。
Figure AI 總結道:“Helix 以極少的資源實現了強大的對象泛化。我們總共使用約 500 小時的高質量監督數據來訓練 Helix,這僅僅是之前收集的視覺-語言-動作數據集的一小部分(<5%),并且不依賴于多機器人化身收集或多個訓練階段。”
圖 | Figure AI 定義的新“機器人技能獲取”擴展法則(Figure AI)
早在 2 月 4 號,Figure AI 就在為 Helix 的出現埋下伏筆。
當時,CEO 布雷特·艾德考克(Brett Adcock)宣布“終止與 OpenAI 的合作”,并表示將向外界展示“人形機器人上從未見過的東西”。
與此同時,據知情人士透露,Figure AI 似乎正在接洽投資者,計劃以 395 億美元的估值籌集 15 億美元。
Figure AI 拒絕發表評論,但如果屬實,新一輪融資將使這家初創公司的估值大幅提升,去年該公司的估值為 26 億美元。Figure AI 之前的投資者包括微軟、OpenAI、英偉達和杰夫·貝佐斯。
可以看出,Figure AI 對 Helix 寄予厚望。他們希望這不只是一次普通的 AI 升級,而是讓機器人更接近“真正的人類助手”。它可以控制機器人聽懂你的話、看懂世界、靈活行動,并且不斷學習新技能,讓機器人真正成為“聰明的 AI 勞動力”。
當然,演示視頻再天花亂墜,實際應用中也可能頻頻翻車、不堪大用。這種事情我們已經目睹無數次了。
因此,Figure AI 的 Helix 是否真的像宣傳的那樣靈活、聰明,我們還是要保持冷靜,等到它真正走向市場。
參考資料:
https://www.figure.ai/news/helix
https://www.bloomberg.com/news/articles/2025-02-14/robotics-startup-figure-ai-in-talks-for-new-funding-at-39-5-billion-valuation
https://x.com/Figure_robot/status/1892577876454801453





京公網安備 11011402013531號