11月13日,北京人形機器人創新中心全面開源具身智能VLM模型——Pelican-VL 1.0。該模型覆蓋7B、72B參數規模,是迄今為止“最大規模的開源具身多模態大模型”,同時,也是迄今為止全球性能最強大的具身智能VLM模型,根據測試,其性能超越GPT-5 同類模型15.79% ,與Google gemini 系列模型相比提升19.25%,同時也超越通義千問、書生萬象等國內模型,成為了目前最強的開源具身多模態大模型 。
![]()
另外值得注意的是,Pelican-VL的核心主創團隊都是由女性組成,這也充分體現了女性力量在我國科技研發中的重要貢獻。該團隊還提出了一套全新的DPPO(刻意訓練)訓練范式,是全球首創的具身多模態大模型后訓練自進化算法框架。憑借DPPO,Pelican-VL 實現這一目標使用的數據量為200K,僅僅是其他大模型的1/10甚至1/50,是名副其實的開源VLM性價比之王。
Pelican-VL 1.0 的開源,能夠大幅提升具身智能在商業服務、工業泛工業、高危特種作業、家庭服務等多種真實場景中,通過視覺-語言感知輔助多步任務規劃的能力。而VLM作為目前實現機器人全自主的核心,Pelican的開源也將推動我國具身智能全自主發展。
![]()
本次開源的Pelican-VL 1.0的核心優勢在于深度整合海量數據與自適應學習機制,在由 1000+ A800 GPU 組成的集群上訓練,單次檢查點訓練耗費超過 50,000 A800 GPU-小時;團隊從原始數據中蒸餾出的包含數億 token 的高質量元數據以做訓練基石。基于上述優勢,Pelican-VL 1.0實現了在基線基礎上性能提升20.3%,平均超過Qwen3-VL系列、InternVL3.5系列等同級別開源模型10.6%。
得益于“刻意練習”DPPO(Deliberate Practice Policy Optimization)訓練范式,Pelican-VL 就像一名刻苦鉆研的學生:每次訓練循環都會“看視頻—自主練習—發現錯誤—糾正提升”。通過DPPO 模仿人類元認知的學習方式,通過強化學習(RL)探索弱點、生成失敗樣本,再進行有針對性的監督微調(SFT),讓模型不斷自我糾錯和迭代進步。
就像學生做錯題后總結經驗一樣,Pelican-VL 能在訓練中發現“薄弱知識點”并補齊,從而持續提高在視覺-語言和具身任務上的能力。通過這種機制,Pelican-VL 能夠更準確地理解圖像內容、語言指令和物理常識,最終在決策和操作執行環節中,實現了具身智能在空間-時間推理和動作規劃方面的大幅突破。
VLM,讓具身擁有智能
人形機器人無疑是目前AI技術在普通人認知里最具象的展現,而讓機器人真正能夠做到服務人類,一直都是全球研發團隊所追求的目標,但這并不容易,背后是具身智能體對于空間-時間的理解不足,以及多步驟長線程復雜決策的能力缺失造成的困境。
在典型的Vision–Language–Action (VLA) 系統里,Pelican-VL 扮演著“視覺語言大腦”的角色,為機器人提供強大的環境感知和指令理解能力。它將攝像頭所見與自然語言指令結合,構建起對場景的多模態表征,然后輸出可供后續決策單元使用的結構化信息。也就是說,Pelican-VL負責“看圖聽話”,理解指令和環境,VLA負責跨機器人應用;簡而言之,Pelican-VL 構成了VLA系統的認知前端,為長期規劃和指令執行提供跨模態的信息支持,使機器人能夠像人類一樣將復雜任務拆解并落地操作。
而由于端到端VLA直出的模型存在黑箱性,機器人雖然可以理解人類指令,但最終執行的動作卻不可控,而分層的模型則是先建模、再規劃、最后執行,雖然解決了黑箱風險,但也產生了新的信息傳導誤差問題,信息隨著每一層模型的傳遞,可能會在某一層產生微小誤差,這一誤差會在后續環節呈現指數級的擴散。
北京人形的解法是讓VLM和世界模型相互糾偏作為大腦,再與VLA等構建的技能庫模型協作。通過將VLM部署在云端,用于理解指令、規劃任務與生成策略,世界模型則對物理世界進行建模與預測,VLM規劃的策略在世界模型中進行預演,預測執行策略后的結果。二者通過反饋機制相互作用,具象化的理解策略的后果,根據好壞精進能力,VLM能力提升后又反向修正和提升世界模型的預測準確性,以此幫助機器人實現能力躍遷的關鍵。
以下面這個復合指令為例:“把鞋子放到鞋架上、將桌上的垃圾扔到垃圾桶,再把衣服放入洗衣機”。Pelican-VL 首先將會感知房間物體和布局,構建出整個環境的語義表示;接著根據指令自動生成行動序列:依次移動到鞋架、垃圾桶和洗衣機位置并進行抓取和放置操作。
![]()
作為創造全球首個人形機器人馬拉松冠軍的團隊,北京人形致力于讓具身智能體從最能跑到最聰明、最好用的演進,本次Pelican-VL的開源也代表著北京人形在具身智能領域的又一重大突破。
而Pelican-VL代表了國內具身智能的一種端到端解法,它和Google提出的RT-2有著相似特點,都是追求單模型解決感知到執行,但不同于RT-2基于PaLM-E、PaLI-X等預訓練模型微調的思路,Pelican-VL是從零開始構建大規模具身訓練集并使用DPPO循環自我演練,而與SayCan、GPT-5相比,它則更強調開放性和端到端的控制輸出,為不同機器人提供統一的智能“大腦”解決方案。
因此,Pelican-VL不僅具備目前具身智能大模型里最大的規模、最強的性能,也能夠幫助人形機器人更好的感知空間-時間、實現具身交互,并且在訓練中進行自我糾錯與迭代。
開源當天,北京人形進行了直播演示和技術解讀,邀請了《商業漫談 Jane’s Talk》創始人、科技媒體人衛詩婕與主創成員深度對話,不僅詳細展現了具身智能大腦Pelican-VL全面領先的性能,并拆解Pelican-VL創新的技術架構,還充分展示了女性研發成員在具身智能模型領域的創新力量。
![]()
用“最低”的門檻,激發“最高”的產業活力
北京人形希望通過Pelican-VL 的開放為產業落地提供更良好土壤,讓廣大機器人廠商和開發者可以自由使用與定制這一模型,加速研發進程。例如,北京人形機器人創新中心還在推進“千臺機器人真實場景數據采集計劃”,讓上千臺機器人在工廠、倉庫、酒店等場景中執行任務并采集數據。而這些規模化的多模態數據與Pelican-VL結合,將推動其在制造業自動化、智能物流、零售無人化和家居服務等多領域的快速適配和優化。
Pelican-VL 的開源特點和多場景覆蓋能力可以視作機器人生態的“開放型大腦”,作為具身智能的基礎軟件平臺,廠商可以基于它快速開發特定場景下的應用方案,大大降低開發成本和難度。長期來看,Pelican-VL 及其后續版本將促進國內形成完善的通用機器人智能平臺,推動更多種類的機器人像安裝“通用智能操作系統”一樣迅速獲取新能力。
Pelican-VL 1.0 的開源標志著具身智能進入了一個以數據驅動、開放協同為核心的新階段。它不僅在技術上實現了視覺、語言和行動的深度融合,也為產業鏈帶來了全新的合作模式。隨著更多研究機構和企業參與生態建設,北京人形致力于通過通用機器人“大腦”市場的發展,讓更多機器人在可見的未來中具備“通用智能”、靈活自適應的能力。
VLM模型——Pelican-VL 1.0主頁
https://pelican-vl.github.io/
Github
GitHub - Open-X-Humanoid/pelican-vl: Pelican-VL 1.0 is a new family of open-source embodied brain mo
Huggingface
https://huggingface.co/X-Humanoid/Pelican1.0-VL-72B
Modelscope
https://modelscope.cn/models/X-Humanoid/Pelican1.0-VL-72B





京公網安備 11011402013531號