![]()
在人工通用智能(AGI)的探索征程中,具身智能 Agents 作為連接數字認知與物理世界的關鍵載體,其核心價值在于能夠在真實物理環境中實現穩健的空間感知、高效的任務規劃與自適應的執行閉環。
然而,當前主流大語言模型(LLMs)與多模態大語言模型(MLLMs)在具身任務場景中,普遍面臨三大核心瓶頸:一是模型設計與智能體實際需求存在顯著脫節,難以適配物理世界的動力學特性、傳感器噪聲與動態變化;二是實時延遲與任務性能間存在不可調和的權衡,輕量化模型雖能滿足實時性需求,卻在指令遵循、空間感知等關鍵能力上表現薄弱;三是現有評估依賴非真實的離線指標,無法全面反映模型在復雜真實場景中的魯棒性與泛化能力。
為此,中興星云大腦團隊(ZTE NebulaBrain Team)重磅推出具身視覺 - 語言基礎模型 EmbodiedBrain,以 7B 和 32B 兩種參數規格構建了涵蓋數據架構、訓練策略、評估體系的全流程創新框架,為下一代通用具身智能體的發展提供了突破性解決方案。
![]()
Arxiv: https://arxiv.org/abs/2510.20578WebPage: https://zterobot.github.io/EmbodiedBrain.github.io/Code: https://github.com/ZTERobot/EmbodiedBrain1.0/Models:https://huggingface.co/ZTE-AIM/EmbodiedBrain-7Bhttps://huggingface.co/ZTE-AIM/EmbodiedBrain-32B
架構創新:模塊化設計實現感知 - 推理 - 行動一體化閉環
EmbodiedBrain 以 Qwen2.5-VL 為基礎框架,創新性地采用模塊化編碼器 - 解碼器架構,成功打通了「感知 - 推理 - 行動」的全鏈路,實現了三大核心能力的深度協同(圖 1)。
![]()
圖 1 EmbodiedBrain 的架構:該模型處理多種多模態輸入,包括任意分辨率的圖像、長視頻序列以及復雜的語言指令。視覺輸入由視覺編碼器和 MLP 投影器處理,文本輸入則進行分詞處理。所有輸入被送入核心大語言模型(LLM)解碼器,該解碼器執行深度推理并生成結構化輸出。最終輸出包含三部分:自然語言響應(
)、分步規劃(
)和可執行動作序列(
),從而實現對具身環境的直接控制與交互。
該架構的三大核心組件各司其職且高效聯動:
1. 原生分辨率視覺 Transformer(ViT):作為視覺編碼器,其采用窗口 注意力機制,能夠在處理原生分辨率圖像時兼顧效率與細節捕捉;同時引入二維旋轉位置編碼(2D Rotary Positional Embedding, ROPE),精準保留圖像中的空間幾何關系,為后續空間推理提供扎實的視覺基礎。
2. 輕量級 MLP 視覺 - 語言融合器:承擔視覺特征與語言嵌入空間的「橋梁」作用,通過壓縮視覺特征維度、對齊模態語義分布,確保視覺信息與語言指令能夠在統一的表示空間中高效交互,避免多模態信息割裂導致的理解偏差。
3. 基于 Qwen2.5 初始化的解碼器:作為模型的「認知核心」,采用僅解碼器結構,引入時間對齊的多模態 ROPE(Multimodal RoPE Aligned to Absolute Time)技術,顯著強化對長視頻序列的時序理解能力,能夠處理動態場景中的時間依賴關系。
從工作流程來看,視覺輸入首先經視覺編碼器與 MLP 融合器處理,轉化為與語言兼容的特征;文本指令經分詞后與視覺特征共同構成多模態 token 序列,輸入解碼器;最終解碼器輸出包含三部分的結構化結果:
字段提供自然語言交互反饋,
字段將任務分解為 [Navigate](導航)與 [Manipulate](操作)兩類可解釋步驟,
字段以二元 / 三元組格式生成直接調用智能體 API 的可執行動作。
以「從冰箱取番茄并加熱」任務為例(圖 1),模型可生成「導航至冰箱→打開冰箱→取出番茄→導航至微波爐→加熱番茄」的清晰規劃,以及對應的 [Navigate, Fridge]、[Manipulate, Open Fridge] 等動作序列,完美實現從語義理解到物理執行的閉環。
數據與訓練:Agent 對齊設計與強化學習突破長程規劃瓶頸
數據架構:面向具身智能的結構化設計與多源篩選
為解決模型與具身智能體需求脫節的根本問題,EmbodiedBrain 創新設計了規劃中心型結構化數據格式(圖 2、圖 3),該格式嚴格遵循「用戶查詢 - 模型響應 - 顯式規劃 - 底層動作」的層級邏輯,確保高層任務目標與底層執行步驟的精準對齊。
以「將臟衣服放入洗衣機」任務為例(圖 2),
字段明確交互意圖,
字段分解為 5 個導航與操作步驟,
字段以 [Search, Dirty clothes]、[Navigate, Basket] 等標準化格式生成動作,既滿足機器可解析性,又保留人類可解釋性。
![]()
圖 2: EmbodiedBrain 訓練數據概覽
訓練數據涵蓋四大核心類別,通過多階段篩選策略保障質量:
1. 通用多模態指令數據:包括 tulu-3-sft-personas-instruction-following(10K 樣本,強化指令遵循與約束滿足)、UltraIF-sft-175k(20K 樣本,含單輪 / 多輪對話,提升長程記憶)、MM-IFInstruct-23k(22K 樣本,結合圖像接地對話,強化多模態 grounding),為模型奠定通用指令理解基礎。
2. 空間推理數據:基于 EmbSpatial 與 pixmo-points 數據集,通過「基線模型生成驗證 + GPT-4o 二次過濾」的兩階段拒絕采樣(圖 2),篩選出 50K 空間推理樣本(含目標查詢、物體關系推理)與 60K 視覺定位樣本(含計數、坐標標注),強化模型對三維空間的理解能力。
3. 任務規劃數據:基于 Alfred 數據集(AI2-THOR 環境),通過解析 PDDL 文件生成子任務序列、捕獲全景圖像與物體邊界框、動態更新物體位置等流程(圖 3),構建空間接地的規劃數據集,確保規劃步驟與物理環境適配。
4. 視頻理解數據:融合 Ego4D、Epic-Kitchens、EgoPlan-IT 三大數據集,生成「回顧性理解」(如「已完成何種動作」)與「前瞻性規劃」(如「下一步應執行何種動作」)兩類 QA 樣本,并通過 Qwen2.5-VL-72B 過濾確保數據質量,提升模型對動態場景的時序推理能力。
![]()
圖 3 監督微調(SFT)階段的整體數據分布及各動作的規劃數據分布
在數據配比上,通過對比 5 種不同數據混合方案(表 1),發現「通用 MLLM 數據 52K: 空間推理數據 130K: 任務規劃數據 51.5K: 視頻理解數據 20K」的配比(52:130:51.5:20)效果最優 —— 該配比在空間推理平均得分達 70.27%(僅比最高值低 0.6%),同時在任務規劃平均得分達 64.64%(為所有方案最高),尤其在執行規劃(EP1/EP2)與目標導向推理(EgT)子任務上提升顯著,為后續訓練奠定了均衡的數據基礎。
訓練策略:兩階段范式與 Step-GRPO 創新突破
EmbodiedBrain 采用「監督微調(SFT)+ 強化學習(RL)」的兩階段訓練策略,層層遞進優化模型能力:
![]()
圖 4 所提出的 Step-GRPO 的詳細流程
Stage 1:多模態拒絕采樣 SFT:核心目標是提升模型的基礎感知與推理能力。針對數據噪聲問題,設計 “粗粒度過濾 + 細粒度驗證” 的兩階段拒絕采樣:首先用 Qwen2.5-VL-7B 生成 8 個候選響應,通過 Qwen3-30B-A3B-Instruct-2507 篩選掉明顯錯誤樣本;再用 Qwen2.5-VL-72B 生成 “ oracle 答案”,與原始標簽對比,剔除標簽錯誤樣本。該過程有效去除數據噪聲,確保 SFT 階段學習信號的可靠性。
Stage 2:Step-GRPO 多任務強化學習:如何讓模型在沒有人類手把手教學的情況下,學會處理復雜的長序列任務?EmbodiedBrain 給出的答案是Step-GRPO(分步增強的組相對策略優化)。類似于 DeepSeek-R1 等推理模型背后的強化學習思路,Step-GRPO 引入了「引導先驗」機制。這就好比老師在教學生解難題時,不是直接給答案,而是給出關鍵的中間步驟提示。這種機制將復雜的長任務拆解為可逐步優化的子問題,配合異步獎勵計算架構,不僅讓模型學會了「三思而后行」,還實現了約 20% 的訓練加速。
聚焦長程任務規劃與輸出格式標準化。針對傳統強化學習在長序列規劃中穩定性差、收斂慢的問題,創新提出 Step-Augumented Group Relative Policy Optimization(Step-GRPO)方法(圖 4):在任務規劃時,隨機引入 1-3 步前置規劃步驟作為「引導先驗」(Guided Precursors),將復雜長任務分解為可逐步優化的子問題。例如在「尋找畫筆」任務中,通過注入「導航至設備架」、「定位畫筆」等前置步驟,幫助模型建立步驟間的依賴關系,提升規劃連貫性。
同時,為提升訓練效率與獎勵可靠性,EmbodiedBrain 設計了多維度獎勵系統:
1. 指令遵循任務:基于答案與真值的匹配度計算正確性獎勵;
2. 視覺感知任務:接地與檢測任務采用加權 IoU 評分,計數任務采用數值匹配度;
3. 空間感知任務:區分選擇題與描述題,結合語義一致性與簡潔性評分;
4. 任務規劃任務:采用「規則獎勵(0-1 分,評估 XML 格式完整性、動作集合規性)+GRM 獎勵(0-1 分,Qwen3-30B-A3B 評估規劃合理性)」的雙重機制,平衡格式規范性與規劃邏輯性。
此外,通過異步獎勵計算架構,將 GRM 推理與 RL 訓練解耦,實現約 20% 的訓練加速,且無性能損失。
![]()
表 1:不同數據混合配置下冷啟動監督微調(SFT)性能評估(所有數值單位為 %)
評估體系:三維基準與開源環境構建真實能力校驗
為全面、客觀驗證模型性能,EmbodiedBrain 構建了包含通用多模態能力、空間感知、端到端仿真規劃的三維評估體系,覆蓋 14 項主流基準測試,徹底解決傳統離線評估的局限性。
多維度基準設計與性能表現
1. 通用多模態能力評估(5 項基準):采用 MM-IFeval(指令遵循)、MMMU(跨學科推理)、MMStar(多模態綜合推理)、AI2D(圖表理解)、OCRBench(圖像文本推理),全面檢驗模型的基礎多模態能力。實驗結果(表 2)顯示,EmbodiedBrain-32B 在 MM-IFeval 達 46.98%,較 Qwen2.5-VL 32B(46.66%)與 RoboBrain 2.0 32B(39.75%)顯著領先;在 MMStar 達 65.80%,超越同類模型,證明其在保留通用能力的同時,實現了具身場景的專項提升。
![]()
表 2:EmbodiedBrain 與先前模型在 14 個不同基準測試上的性能對比。每個基準測試組中最高分數以粗體突出顯示。
2. 空間感知能力評估(4 項基準):通過 Blink(空間關系理解)、CV-Bench(3D 物體屬性推理)、EmbSpatial(第一視角空間關系)、ERQA(端到端多模態推理),檢驗模型對三維空間的理解能力。表 2 數據顯示,EmbodiedBrain-7B 在 Blink 達 88.11%,較 RoboBrain 2.0 7B(62.94%)提升 39.99%;32B 版本在 CV-Bench 達 83.64%,EmbSpatial 達 77.03%,均為所有測試模型最高,印證了其空間推理能力的優越性。
3. 任務規劃能力評估(5 項基準):涵蓋 EgoPlan-Bench、EgoPlan-Bench2、EgoThink 等公開基準,以及自主設計的 Internal Planning 基準與 VLM-PlanSim-99 仿真基準。其中,Internal Planning 基準針對長程規劃能力,采用「匈牙利算法計算動作匹配度 + LCS 算法計算順序一致性」評估方法,EmbodiedBrain-32B 的 F1 分數達 90.50%,較 Qwen2.5-VL 32B(28.30%)提升超 2 倍。此外,為了拒絕「刷榜式」的虛高分數,團隊提出并開源了包含 99 個手動驗證家庭任務的 VLM-PlanSim-99 仿真基準,在最考驗「真功夫」的端到端仿真規劃中,EmbodiedBrain-32B 斬獲了 46.46% 的成功率,幾乎是 Qwen2.5-VL 32B (25.25%) 和 RoboBrain 2.0 32B (24.24%) 的兩倍。這一數據有力證明了:EmbodiedBrain 不是一個只會做選擇題的模型,而是一個真正能干活的具身大腦。
![]()
圖 5:EmbodiedBrain 的空間推理示例
典型案例驗證:從空間推理到端到端執行
在空間推理任務中(圖 5),EmbodiedBrain 能夠精準回答「物體相對位置」、「目標物體計數」、「空間關系判斷」等問題,例如正確識別「車門在左側」、「手中物品為雞蛋」,展現出對復雜空間線索的整合能力。
![]()
圖 6:EmbodiedBrain 為「在水槽清洗蘋果后將其放入冰箱」任務生成的成功 11 步規劃定性示例。該模型正確識別并執行了兩個連續子目標:(1) 步驟 1-6:獲取物體、將其置于水槽并清洗;(2) 步驟 7-11:拿起清潔后的物體并將其存放在冰箱中。
在任務規劃案例中,針對「烘焙糕點設置計時器」任務, EmbodiedBrain 正確選擇「安裝計時器」動作,而 RoboBrain 2.0 與 Qwen2.5-VL 分別選擇錯誤的「攪拌面糊」、「預熱烤箱」;針對「清洗碗具并冷藏」任務,模型生成 11 步完整執行序列(圖 6),從「導航至碗具→放入水槽→清洗→導航至冰箱→存放」,每一步均符合物理邏輯與任務流程,實現端到端閉環。
開源共享與未來展望:賦能具身智能生態發展
作為面向全球科研社區的開放成果,中興團隊已將 EmbodiedBrain 的全部訓練數據、模型權重與評估方法開源(https://zterobot.github.io/EmbodiedBrain.github.io),同時開源了創新的 VLM-PlanSim-99 仿真環境,為具身智能領域提供了統一的基準平臺與工具鏈,有效解決了現有研究中「數據封閉」、「評估標準不一」的痛點。
未來,EmbodiedBrain 將重點推進兩大方向:一是拓展至多智能體協同任務,探索多智能體間的分工、通信與協作機制;二是研究領域隨機化技術,提升模型在不同真實機器人平臺(如家庭服務機器人、工業協作機器人)上的適配性,推動具身智能從仿真環境走向實際應用。
中興星云大腦團隊以 EmbodiedBrain 為契機,不僅在學術層面突破了具身智能任務規劃的性能邊界,更在產業層面為 AGI 落地物理世界提供了可復用的技術框架。





京公網安備 11011402013531號