![]()
近日,字節跳動 Seed 團隊發布了最新的機器人研究成果——Robix,一個旨在提升機器人思考、規劃與靈活交互能力的「機器人大腦」。
![]()
標題:Robix: A Unified Model for Robot Interaction, Reasoning and PlanningArXiv:https://arxiv.org/abs/2509.01106項目主頁:https://robix-seed.github.io/robix/
長期以來,通用機器人在處理復雜、長程任務時,往往因依賴 “模塊化” 拼接的設計而顯得僵化。Robix 的核心亮點在于其一體化架構:將推理、任務規劃與人機交互無縫整合到單個端到端多模態模型中。
根據報告與演示視頻,搭載 Robix 的機器人已展現出一系列過去難以實現的復雜交互能力:
在做飯時,它不僅能根據菜名(如「魚香肉絲」)準備食材,還能主動發現缺少配料并詢問是否需要補齊;在用戶中途改變主意時,它可立即停止當前操作并靈活執行新指令;在你隨手涂鴉時,它能識別出畫中的物體,并自然地給予回應與贊賞;
以下演示視頻將直觀展示 Robix 在真實互動場景中的工作方式。
核心思想:
從「指令執行器」到「統一思考者」
在將 AI 從數字世界帶入物理現實的過程中,研究者們面臨著巨大的挑戰。一個真正的通用機器人,需要的遠不止是執行「拿起杯子」這樣的孤立指令。它必須在開放、動態的環境中,應對一系列復雜難題:
理解模糊指令:如何領會「等大家吃完再收盤子」這樣帶有隱含條件的指令?處理實時反饋:當用戶突然說「那個杯子別動」時,如何實時中止并調整計劃?動態推理決策:在動態環境中,基于實時感知進行推理,并在物理約束下做出合理決策。
為此,Robix 采用了層次化機器人系統 (Hierarchical Robot System)架構,將「大腦」與「小腦」解耦,實現「宏觀思考,微觀執行」:
高階認知層 (High-level Cognitive Layer):扮演「決策大腦」的角色,負責處理復雜的任務。它需要理解人類的指令,進行多模態推理,并制定出適應性的任務規劃。Robix 正是為這一層而設計的。低階控制層 (Low-level Controller Layer):扮演「行動小腦」的角色。它不負責「做什么」的決策,而是忠實地執行來自大腦的原子命令,如「拿起那個紅色的蘋果」、「向左移動 5 厘米」等。這一層通常由一個視覺 - 語言 - 動作(VLA)模型來實現。
通過這種分工,機器人系統既能在高層次上靈活地與環境和人類互動,又能在低層次上保證動作的精準執行,從而在真實場景中展現接近人類的適應性。
![]()
Robix 是一個統一的視覺語言模型,充當機器人系統的「大腦」。它能夠接收來自攝像頭的第一視角信息和用戶的自然語言指令,通過推理思考,生成既能與人溝通的自然回復,也能驅動機器人執行的原子級動作指令。
Robix 技術報告指出,現有多模態模型在邁向通用機器人「大腦」的過程中仍面臨兩大瓶頸:一是具身推理能力不足,難以將語言和視覺中的抽象概念(如空間關系、物體屬性)準確映射到物理世界并應用于推理與規劃;二是靈活交互能力缺失,無法在端到端框架中將推理、規劃與自然語言交互無縫結合。這些局限嚴重制約了多模態模型在真實環境中支撐通用機器人智能的潛力。
為此,Robix 采用統一視覺語言模型架構,通過持續預訓練增強具身推理能力,并在內部原生整合推理、任務規劃與人機交互三大核心功能,從而在端到端流程中實現連貫的復雜指令理解、長程任務規劃與自然對話交流,有效提升機器人系統的通用性和穩定性。在此基礎上,Robix 進一步展現出更強的交互智能:不僅能夠在指令模糊或多解時主動發起澄清,還能在任務執行過程中實時響應中斷并進行動態重規劃,同時結合上下文與常識進行推理與決策,從而展現出超越以往模塊化系統的靈活性與智能性。
現場實測:
Robix 具備基礎世界知識,工作交流兩不誤
技術報告中的概念可能有些抽象,但通過演示視頻里揭秘機器人行動前的「內心戲」,我們可以清晰地看到 Robix 是如何工作的。
1. 不僅聽懂「話」,更能領會「意」(常識推理)
在演示中,當用戶提出要做一道「魚香肉絲」時,Robix 的表現遠超一個搜索引擎。
知識調用:它首先根據內置的知識,回答出做這道菜通常需要木耳、胡蘿卜、青椒以及蔥姜蒜等配料。
![]()
演示視頻截圖03:24
視覺結合:接著,它觀察桌上現有的食材,識別出其中有任務所需的胡蘿卜和青椒。
![]()
演示視頻截圖 03:36
主動規劃:最關鍵的是,在備好現有蔬菜后,它能意識到任務并未完全滿足,并主動提出幫助:「我把需要用到的蔬菜都放進去了。不過看起來你好像還缺木耳呢,需要我幫你找找嗎?」
![]()
演示視頻截圖 03:44
2. 隨時變通,從容應對「我改主意了」 (實時打斷)
真實的人機交互充滿了不確定性。在清理桌面的任務中,用戶多次打斷了 Robix 的操作。
當 Robix 正要將一罐可樂放入收納盒時,用戶突然說:「等等,我討厭喝可樂,你把它扔了吧。」
Robix 立刻理解了這條與原計劃完全不同的新指令,中止了「放入收納盒」的動作,轉而執行「扔進垃圾桶」。這種無縫的計劃切換能力,是機器人在家庭環境中服務的關鍵。
![]()
演示視頻截圖 00:49
3. 從「被動響應」到「主動交互」(主動對話)
除了響應用戶的指令,Robix 還能主動對話。
在清理任務的結尾,Robix 觀察到桌子上只剩下一串葡萄。它沒有被動等待新指令,而是主動進行任務總結并發起對話,詢問用戶:「桌子上就剩下這些葡萄了,要不要幫你打包?」,以此來確認下一步的行動。
![]()
演示視頻截圖 01:15
4. 「眼觀六路」,理解真實的三維空間 (空間理解)
Robix 對空間的理解不是平面的,而是立體的。當面對一桌琳瑯滿目的物品時,用戶提出了一個非常考驗空間感的問題:「離你較遠的這一排,從左往右數的第三個是什么物體?」
Robix 清晰地推理出桌上有遠近兩排物體,并準確地在遠排從左到右定位到第三個物體,回答出:「這是一瓶礦泉水」。這背后是其訓練數據中包含的大量多視角對應、深度估計、空間關系等 3D 空間理解任務的支撐。
![]()
演示視頻截圖 02:47
5. 不止是「工具人」,還能成為「聊天搭子」(通用交互)
除了完成任務,Robix 還展現了廣泛的通用交互能力。
視覺識別:它可以準確讀出手機屏幕上的時間「16:17」,也能識別白紙上手寫的漢字「測試用,勿動」。開放式對話:當用戶展示一幅自己畫的簡筆畫時,Robix 不僅能認出是「一頭大象」,還能自然地給出「我覺得你畫得非常棒!這頭大象看起來很可愛,線條也很流暢」這樣的評價,展現了成為一個有趣互動伙伴的潛力。
![]()
演示視頻截圖 02:30
揭秘背后:
Robix 的「養成三部曲」
如此流暢智能的表現,背后是一套嚴謹而創新的三階段訓練策略。
第一步:打好基礎 —— 學習物理世界的規則
為了讓模型具備機器人的「物理直覺」,構建對物理世界的基本認知,研究團隊在通用視覺語言模型(Qwen2.5-VL)的基礎上,用約 2000 億 token 的海量數據進行「補課」,重點強化三大機器人核心能力:
3D 空間理解:通過多視角對應、3D 邊界框檢測、深度排序與估計等任務,讓模型理解三維世界。視覺定位:通過邊界框和中心點標注,讓模型能準確地「看到」并定位用戶指令中提到的物體。任務推理:基于海量機器人和第一視角數據集,訓練模型判斷「任務是否完成」、「這個動作可行嗎」、「下一步該做什么」。
![]()
Robix 通過在海量數據上持續預訓練構建對物理世界的基本認知
第二步:學會互動 —— 情景模擬中的「社交演練」
真實世界中復雜的人機交互數據非常稀缺。為此,團隊設計了一套創新的「交互合成」流水線,將現有的機器人操作數據轉化為包含七種復雜人機交互場景的數據集,包括:多階段指令、約束指令、開放式指令、隨時打斷、無效 / 非法指令、模糊指令和人機閑聊。這相當于讓 Robix 在模擬環境中經歷了各種「極限拉扯」,學會了如何靈活應對。
![]()
Robix 訓練數據構造「流水線」,涵蓋了多種復雜的人機交互場景
第三步:自我完善 —— 糾正「思想與行動的偏差」
SFT 之后的模型有時仍會犯一些邏輯錯誤,比如「想法與行動不一致」(心里想著扔紙巾,手上卻要去拿杯子)。為了解決這個問題,團隊引入了強化學習,設計了一個特殊的「思想 - 行動一致性」獎勵函數 ,這個機制就像一位嚴格的導師,不斷糾正 Robix 的邏輯偏差,讓 Robix 的思考邏輯更嚴謹,行動更可靠。
評估結果:
Robix 在具身推理、任務規劃與人機交互方面表現出色
研究團隊通過一系列離線基準和在線真實任務測試,對 Robix 進行了全面的評估。
1. 基礎感知與推理能力評估
在 31 個公開基準測試中,預訓練后的 Robix-base 模型在 3D 空間理解、視覺定位和任務推理等具身推理能力上表現出明顯提升。
![]()
Robix 展現出比較強的具身推理和多模態理解能力
3D 空間理解:在 8 個空間推理基準測試中,Robix-7B 和 Robix-32B 在其中 7 個任務上均優于其基座模型 Qwen2.5-VL,平均準確率分別提升 6.5 和 5.1 個絕對點;同時在 5 個任務中超過了業界代表性閉源多模態模型 Gemini-2.5-Pro,展現出優異的空間理解能力。
視覺定位:在 8 個視覺 Grounding 基準測試中,Robix 均取得明顯提升,其中 Robix-32B 在多個任務中優于閉源大規模模型。尤其是在多物體定位的 LVIS-MG 基準上,Robix-7B 和 Robix-32B 的 F1 分數較 Qwen2.5-VL-7B/32B 分別提升 39.6 和 25.0 個絕對點,顯示出強大的目標定位能力。
具身任務推理:在團隊構建的 Agibot-ER 真實世界具身任務推理基準上,Robix-7B 和 Robix-32B 的準確率相比 Qwen2.5-VL-7B/32B 分別提升 12.8 和 7.2 個絕對點,體現了其在任務級推理上的優勢。
2. 離線交互任務評估
為系統評估模型的長程任務規劃和任務泛化能力,研究團隊構建了三個離線評估集:AGIBot OOD(Out-of-Distribution)、Internal OOD 和 Internal ID(In-Distribution)。它們涵蓋整理桌面、超市購物、制作三明治、洗衣服等二十余種日常任務類型,同時包含多階段任務、約束性指令、交互式中斷等多類指令形式,用于全面測試模型在復雜環境下的推理、規劃與交互表現。
![]()
在離線交互數據測試中,Robix 展示了優異的復雜指令理解、任務規劃和 OOD 泛化能力
整體表現:Robix-32B-RL 在所有評估集上排名第一,優于目前的開源和閉源模型基線,展現出優異的推理、規劃與交互能力。跨領域泛化:在兩項跨領域(OOD)任務測試中,Robix-32B 的準確率分別領先 Gemini-2.5-Pro11.8和3.0個百分點,凸顯較強的泛化能力。思維鏈推理:顯式思維鏈顯著增強了模型在 OOD 任務泛化與復雜指令理解上的表現。去除思維鏈的基線模型在 Internal OOD 基準上準確率下降7.2個點,在 Open Instruction 任務中更是下降26.7個點。強化學習增益:RL 階段帶來進一步提升。相比僅經 SFT 訓練的版本,Robix-7B 與 Robix-32B 在 Internal OOD 基準上的準確率分別提升8.3和3.3個點,驗證了 RL 在增強具身推理能力方面的有效性。
3. 真實世界在線評估
研究團隊進一步將 Robix 部署到真實機器人系統(字節跳動 Seed 自研ByteMini雙臂機器人)上,并在廚房、超市等貼近日常生活的場景中設置了五項在線評測任務:
Table Bussing(桌面清理):清理使用過的餐具、器皿和食物。Checkout Packing(結賬打包):在結賬環節整理購買的商品并將其放入袋子或盒子中。Dietary Filtering(飲食篩選):根據飲食限制(如無咖啡因)選擇或排除食物與飲品。Grocery Shopping(雜貨店購物):根據用戶指令推薦并選購雜貨商品。Tableware Organization &Shipment(餐具整理與運輸):分類、打包餐具并將其運送到指定位置。
![]()
Robix + UMI測試結果
在由人類標注員通過UMI設備充當低層控制器的測試中,Robix-32B 的平均任務完成率達到92.6%,略高于 Gemini-2.5-Pro 的91.0%,并顯著優于 GPT-4o (64.3%) 和 Qwen2.5-VL-32B (28.0%)。
![]()
Robix + GR-3 聯合評測結果
在與 Seed 自研的 VLA 模型GR-3結合進行端到端測試時,Robix-32B 的平均任務完成率達到92.5%,同樣優于 Gemini-2.5-Pro (88.2%) 和 GPT-4o (64.4%)。
研究人員進一步分析發現,基線模型性能下降的一個重要原因在于VLM–VLA的「指令對齊」問題。具體而言,高階 VLM 生成的文本指令在語義上正確,但低階 VLA 模型無法識別。例如,VLA 可以識別「奧利奧」,卻無法理解「餅干盒」。此外,響應延遲也是大型商業模型在真實場景中面臨的實際挑戰,其響應時間有時超過 30 秒,難以滿足實時交互需求。
總結與展望
Robix 的研究為通向更通用、更智能的具身智能體提供了一條可行路徑。通過將推理、規劃與交互融為一體,它使機器人更接近「善解人意」的智能伙伴。
當然,通往通用機器人的道路仍然漫長。研究團隊也坦言,Robix 在高度動態場景中依舊存在局限,且亟需更強大的長期記憶機制。但可以肯定的是,Robix 已經為這一目標奠定了堅實基礎。我們有理由相信,在不遠的將來,一個既能高效完成任務、又能自然交流的智能機器人,將真正走入人類生活。





京公網安備 11011402013531號