![]()
機器之心發布
機器之心編輯部
最近,國內具身智能的開源 VLM 登頂了行業之巔。2025 年以來,具身智能的行業研發力似乎也迎來了井噴式爆發。
11 月 13 日,北京人形機器人創新中心正式開源了具身智能 VLM 模型 ——Pelican-VL 1.0,根據介紹,該模型覆蓋 7B、72B 參數規模,被稱為 “最大規模的開源具身多模態大腦模型”。
![]()
項目鏈接:https://pelican-vl.github.io/Github:https://github.com/Open-X-Humanoid/pelican-vlHuggingface:https://huggingface.co/collections/X-Humanoid/pelican-vl-10Modelscope:https://modelscope.cn/collections/Pelican10-VL-1036b65bbdfe46
官方資料顯示,其核心優勢在于深度整合海量數據與自適應學習機制:并在由 1000+ A800 GPU 組成的集群上訓練,單次檢查點訓練耗費超過 50,000 A800 GPU - 小時;團隊從原始數據中蒸餾出包含數億 token 的高質量元數據以做訓練基石。在基線基礎上性能提升 20.3%,超過同級別開源模型 10.6%。根據測試,其平均性能超越 GPT-5 和 Google gemini 等閉源系列模型,成為了目前最強具身性能的開源多模態大模型 。
![]()
DPPO 造就 “VLM 快速高效提升”
簡單來說,Pelican-VL 就像一名刻苦鉆研的學生:每次訓練循環都會 “看視頻 — 自主練習 — 發現錯誤 — 糾正提升”,這得益于北京人形開創性的運用了 “刻意練習” DPPO(Deliberate Practice Policy Optimization)訓練范式。
![]()
DPPO 模仿人類元認知的學習方式,通過強化學習(RL)探索弱點、生成失敗樣本,再進行有針對性的監督微調(SFT),讓模型不斷自我糾錯和迭代進步。正如學生做錯題后總結經驗一樣,Pelican-VL 能在訓練中發現 “薄弱知識點” 并補齊,從而持續提高在視覺 - 語言和具身任務上的能力。通過這種機制,模型能夠更準確地理解圖像內容、語言指令和物理常識,在空間 - 時間推理和動作規劃方面實現突破。更具體的如圖所示,DPPO 框架包含兩個主要階段:強化學習(RL)和監督微調(SFT)。首先在 RL 階段通過多樣化獎勵機制和難度過濾,自動發現模型薄弱點,并對能力進行快速提升。之后進入 SFT 階段,針對弱點數據進行知識擴展與模式對齊,通過蒸餾和數據構建進一步鞏固模型能力。整個過程通過難度感知采樣與滾動日志記錄,實現 RL 與 SFT 的迭代循環,使得模型既能快速學習新技能,又能保持穩定性與全面性。
同時,憑借 DPPO,Pelican-VL 實現,成為同類具身模型性能最強。在以下具身特定能力方面大幅得到了提升:
多模態理解與推理能力:Pelican-VL 同時處理視覺和文本輸入,訓練時使用了海量圖像、視頻及跨模態標注數據。它不僅能準確識別物體,還能基于場景進行物理推理、空間關系理解和功能預測。例如,在封閉廚房或商超場景中,它能夠分辨果蔬擺放、柜臺位置等,并據此規劃取物和放置動作。空間 - 時間認知:模型訓練包含數萬小時的視頻和動態場景問答,使其具備了連續時序的理解能力。在處理視頻幀時,Pelican-VL 能捕捉物體移動、操作步驟的時間先后關系,從而對復雜連貫的任務序列做出合理推斷,比如判斷 “先搬動哪個物品再操作下一個”。具身交互能力:在諸如物體抓取、導航、協作等機器人任務中,Pelican-VL 不僅能理解任務目標,還能輸出細化的動作步驟和評估每步可行性。這意味著它在看到指令后,可以設計出機器人關節的移動軌跡、抓取點和操作策略。其多任務能力覆蓋抓取、導航、人機交互等不同應用場景,體現出跨任務的強大泛化性。自我糾錯與迭代學習:借助 DPPO 循環訓練,Pelican-VL 具有 “自我糾錯” 特質。每輪強化學習后,模型都會自動生成新的難題樣本并進行再訓練,如同不斷練習和復盤。隨著訓練的進行,它的弱點被逐步修補,能力不斷提升。這一過程類似 “刻意練習” 的學習范式,使得 Pelican-VL 在迭代中持續進步并達到與頂級閉源系統持平的表現。
開源 “大腦”,加速產業落地
這些改進并非紙上談兵。北京人形團隊在多項真實的具身任務上給出評測:在接觸豐富的觸覺操控(例如需要調整握力以抓取軟物體)上,Pelican-VL 成功實現了閉環預測與實時調節;在以 “可供性(affordance)” 為核心的物體搬取策略中,模型能零樣本生成可行的操作方案;在長程任務規劃方面,一個統一大腦也能協調多臺機器人完成級聯任務。總體上,論文報告稱相較基線模型,在空間理解和時間推理等能力上出現顯著提升,并在若干公開基準上超過了部分 100B 量級的開源系統,甚至接近一些閉源模型的水平。
![]()
![]()
同時,團隊還在九個維度的具身智能分類體系中,對 Pelican-VL 的各項技能進行了評測,如下雷達圖分布顯示,各項指標均勻、均衡且在關鍵維度上表現突出。
![]()
![]()
![]()
![]()
粗體數字和帶下劃線的數字分別表示最佳結果和次佳結果。符號 “?” 標記的結果與官方報告存在差異或異常偏低,這可能是因為官方評估采用了模型專屬提示詞(模型對提示詞較為敏感),而本研究的結果是在統一實驗方案下獲得的,以確保對比的公平性。星號 “*” 表示結果來源于官方渠道。黃色單元格標記的是本文提出的 Pelican-VL 1.0 模型。
對產業與研究界而言,Pelican-VL 有兩層現實意義:一它提供了一套 “視覺理解 → 長期規劃→物理操作 ” 串聯的可復用訓練范式,降低了在機器人中使用 VLM 的門檻;二是團隊選擇開源基礎模型和推理代碼,意味著其他實驗室或企業可以在這個 “腦” 上做定制化訓練,加速落地探索。
北京人形團隊也在討論中指出,盡管取得進步,但高質量具身數據的稀缺性、評測基準的局限以及如何安全、可靠地在人類環境中部署仍是下一步需要直面的挑戰。
讀者如果想把這則研究的影響具象化:想象家里的助手機器人不僅能識別碗盤在哪兒,還能判斷 “這個杯子能用來拿湯嗎?”、“這個蘋果該怎樣輕拿輕放才不擠壞?” 并在實際失敗后自己學會改進 ——Pelican-VL 正是在朝這個方向邁出一大步。
國際模型對比:技術路線與應用場景
Pelican-VL 代表了國內具身智能的一種端到端解法,與國外一些知名模型在策略和場景上各有側重。
對于國外 AI 大廠:
英偉達團隊在 25 年 3 月提出來 Cosmos-Reason1 是 NVIDIA 發布的專為物理智能(Physical AI)打造的多模態大模型,包含 8B 和 56B 兩種尺寸。模型在空間、時間和基礎物理三大常識范疇下,融合視覺與文本信息,具備強大的物理常識推理和具身推理能力。采用 ViT-300M 視覺編碼器、Mamba-MLP-Transformer 主干,以及多階段訓練流程(包括視覺預訓練、通用與物理智能 SFT、強化學習),配合 1 億級多模態樣本和千萬級具身與物理常識數據。在物理推理、空間認知等多項基準測試上遠超現有主流模型,并開源了權重與代碼。
Google 的 embodied reasoning 以 Gemini Robotics-ER 模型為代表,核心目標是讓 AI 能夠在真實物理環境中理解、規劃并做出決策,主要應用于機器人領域。Gemini Robotics-ER 具備多模態推理能力,能夠處理物體檢測、空間理解、抓取預測和三維軌跡規劃等任務,并將視覺感知轉化為機器人可執行的高階指令。模型支持多步規劃和環境反饋動態調整,利用如 ERQA 數據集等基準評估其現實任務能力。此外,Google 探索 “內心獨白” 機制,讓機器人在動態環境下能自我思考、實時調整,實現高魯棒性的具身智能。相關技術已集成于 Google AI Studio、Gemini API 和 Vertex AI,為自動化生產、導航、操作等機器人實際應用提供支持。
而 GPT-5 是通用視覺 - 語言大模型同樣具備強大的圖像理解和跨模態推理能力,但它們原本并非專為物理執行而設計。GPT-5 可以回答視覺問題、生成圖像描述,但缺少與機器人硬件對接的控制層。
相比國外閉源模型,Pelican-VL 在國內開源模型基礎上進行預訓練,利用少量的數據和訓練資源,即達到了相當的性能,甚至更好的性能,整體數據利用率達到了其他模型的 10 倍~50 倍。另外,因為 Pelican-VL 是開源的模型,可以賦能國內外具身行業。此外,在國內 Pelican-VL 也是性能最好的具身智能模型,相比于國內同類模型,平均提升了 10%+ 的性能。
結語
從搭建 “具身天工” 和 “慧思開物” 這一硬一軟的通用平臺開始,再到如今,以算法推動行業研發、以數據利用率加速模型迭代、以開源策略為產業落地夯實基礎,北京人形似乎都在以一個更宏觀的視角在探索具身智能的這條道路。這種 “平臺 + 生態” 的布局,或許也將促進打破技術閉環與數據孤島,更讓具身智能從實驗室的單點突破,走向產業鏈協同的規模化發展。
當越來越多企業借助開源工具降低研發門檻,當真實場景數據持續反哺模型進化,具身智能或許能真正加速滲透工業、家庭、物流等多元場景,最終讓機器人真正具備 “感知 - 思考 - 行動” 的通用能力。





京公網安備 11011402013531號