導讀:從馬拉松冠軍到最強大腦,這次的突破不再是四肢,而是靈魂。
中國人形機器人,再獲突破性進展!
昨天,全球參數量最大的具身智能多模態大模型——Pelican-VL 1.0正式開源。
它不僅覆蓋了7B到72B級別,能夠同時理解圖像、視頻和語言指令,并將這些感知信息轉化為可執行的物理操作。
而且還針對目前具身能力短板,在空間理解、物理推理和思維鏈等維度實現了系統性提升,并在12個主流公開評測基準上達到行業領先水平。
可以說,Pelican-VL 1.0的提出,打通了從「看懂世界」到「動起來」的完整智能鏈路。

而這背后,便是創造全球首個人形機器人馬拉松冠軍的團隊——北京人形機器人創新中心。
當前,通用大模型在遷移到具身智能任務時,仍面臨多維度能力欠缺的問題。
李飛飛教授提出過Think in Space的觀點,強調走向具身智能需要解決空間智能問題的重要性。英偉達和谷歌也在研究中指出,具身領域的大模型必須具備物理智能,并相繼推出了Cosmos-Reason和Gemini-RoboticsER這類面向具身場景的多模態大模型。
無獨有偶,創新中心也希望通過全面開源Pelican-VL這一基礎大腦模型,幫助更多具身智能體獲得更強的認知與決策能力,并在意圖理解、長程任務規劃推理等多類場景中實現性能提升。

具體來說,通過「刻意練習」(DPPO)訓練范式,Pelican-VL在不斷自我診斷與糾錯中提升推理與規劃能力,使模型像人類一樣在失敗中學習,從而實現了視覺理解、語言表達和物理執行的深度融合。
憑借這一機制,Pelican-VL在多個維度展現出突破性能力:
具備跨模態的理解與推理能力,能在復雜環境中識別目標、推斷物體功能與可供性;
具備時間-空間認知,能理解動作的順序與因果關系。
模型的自進化循環使其在每一輪訓練后都能修正弱點,形成持續強化的學習閉環。Pelican-VL不僅是一種模型,更是一個能夠驅動機器人系統不斷進化的「智能引擎」。
總體上,論文報告稱相較基線模型,在空間理解和時間推理等能力上出現顯著提升,并在若干公開基準上超過了部分100B量級的開源模型。


Pelican-VL的推出不僅是一次技術突破,更為產業界與學術界帶來了雙重啟示。
它首先構建了一套貫通「視覺理解—長程規劃—物理操作」的通用訓練范式,提供了一個可復用、可擴展的范式,降低了具身智能研發的門檻。
與此同時,團隊開放了模型與推理框架,為科研機構和企業提供了一個可自由定制、快速迭代的智能基座,加速了從實驗到落地的過程。
更深層的意義在于,Pelican-VL讓「機器人自主學習和反思」從理念走向現實。
它的「刻意練習」機制使模型能在錯誤中總結經驗、持續進化,如同人類通過反復訓練掌握技能。
這意味著未來的機器人不再只是機械執行者,而是具備認知與改進能力的學習體。
可以想象,在家庭或工業場景中,它將能夠自主判斷物體用途、調節操作力度、優化行動策略——從被動執行邁向主動理解與自我成長,標志著具身智能邁入真正的「學習時代」。
智能抓取
實現精細抓取泛化操作新突破
當抓取一個水杯或一枚雞蛋時,基于Pelican-VL的大腦會瞬間完成一系列精密的操作:
通過視覺預判物體屬性、在接觸瞬間施加恰到好處的力道、并在觸碰后根據手感微調抓力。
這套由主動預測、觸覺適應與記憶更新構成的「感知運動閉環」,是靈巧抓取的關鍵。
而這項能力正是具身智能機器人與物理世界交互的基礎,但卻面臨著觸覺感知與運動靈活的協同難、復雜場景下的泛化難、算法與數據制約等等難題,目前行業內即便有相關技術突破,也仍未完全解決大規模落地的難題。
如今,Pelican-VL驅動的機器人抓取框架,成功復現并實現了這一高級智能。

仿生核心:Pelican-VL構建的智能抓取閉環
技術框架嚴格遵循了人類感知運動的三個核心環節,并將其轉化為可執行的機器人系統:
1. 主動預測:提供精準的「第一印象」
在機械臂接觸物體前,Pelican-VL大模型憑借其卓越的視覺感知與真實世界物理推理能力,僅通過視覺輸入,就能精準預測出物體的物理屬性(如材質、易碎度),并生成初始抓取力。
這為機器人提供了如同人類般的「先見之明」,使其從指尖接觸的一刻起,就具備了恰到好處的基準夾持力,通過模型提供前饋信息縮短閉環控制穩定時間。
2. 觸覺適應:實現毫秒級的「手感微調」
在抓取和操控過程中,指尖的觸覺傳感器會實時傳回微滑移、受力分布等數據。系統通過一個同步的在線摩擦估計與自適應抓取控制模塊,像人類神經反射一樣,持續、快速地微調抓力。
這不僅確保了抓取的穩定性,更關鍵的是能動態適應不確定因素,避免對精致、柔軟的物品造成損傷。
3. 記憶更新:打造持續進化的「經驗庫」
每次抓取任務完成后,系統會對比預測與實際感官結果的差異,并將這次成功的交互經驗存儲在一個物理記憶圖譜中。
當下一次遇到相同或類似的物體時,Pelican-VL會優先調用這個更新、更精確的記憶來指導預測。使機器人系統具備持續學習的能力,每一次抓取都在為下一次更精準、更柔和的操作打下基礎。
實戰驗證:輕松拿捏精致與柔軟物體
在實際機器人測試中,該框架展現出了卓越的性能。
從接近、加載、提升、持穩到運輸歸還的完整七階段抓取流程中,Pelican-VL驅動的機器人能穩定操作一系列精致與柔性物體。
「看得準」:由Pelican-VL提供的精準初始力先驗,極大地加速了后續自適應控制器的收斂過程。
「抓得穩」:在線控制器在提升、移動過程中持續動態調整抓力,有效應對慣性等擾動,確保抓取萬無一失。
「學得快」:整個交互過程形成的經驗被存入知識圖譜,系統像一位經驗豐富的老師傅,越用越熟練。
通過將Pelican-VL大模型的強大認知能力與實時控制、記憶系統深度融合,機器人抓取從簡單的「執行命令」升級為了具備預測、反應與學習能力的智能行為。
這一能力使機器人在低成本、低樣本的條件下依然能夠實現高度泛化、更加柔性的抓取表現,為行業帶來了真正可規模化落地的智能抓取方案。
這不僅是技術上的一個里程碑,更為機器人在復雜、非結構化環境中真正實現自主操作,打開了無限可能的大門。
VLM讓VLA實現能力躍遷
在典型的Vision–Language–Action(VLA)系統里,Pelican-VL扮演著「視覺語言大腦」的角色,為機器人提供強大的環境感知和指令理解能力。
它將攝像頭所見與自然語言指令結合,構建起對場景的多模態表征,然后輸出可供后續決策單元使用的結構化信息。
也就是說,Pelican-VL負責「看圖聽話」,理解指令和環境,VLA負責跨機器人應用;二者組合可以在多種機器人上執行多任務。
有了這樣的基礎,系統可以完成長時序、多步驟的任務規劃和執行。

Pelican-VL等具身智能模型可部署在商超、家居等多種真實場景中,通過視覺-語言感知輔助多步任務規劃
論文中演示了一個生活場景下的復合指令:例如「把鞋子放到鞋架上、將桌上的垃圾扔到垃圾桶,再把衣服放入洗衣機」。
Pelican-VL首先感知房間物體和布局,構建出整個環境的語義表示;接著根據指令自動生成行動序列:依次移動到鞋架、垃圾桶和洗衣機位置并進行抓取和放置操作。
在這一過程中,模型不斷更新內部環境狀態,調整計劃并適應實際情況,實現了自然語言指令的自主分解和執行。
簡而言之,Pelican-VL構成了VLA系統的認知前端,為長期規劃和指令執行提供跨模態的信息支持,使機器人能夠像人類一樣將復雜任務拆解并落地操作。
同時,在快慢系統、端到端等諸多架構中,前沿探索者們也一直在致力于研究當VLA以VLM為基座時,VLM各項能力為度對VLA模型所帶來的性能增益。
例如DeepMind的RT-Affordance,李飛飛的ReKep以及Sergey Levine的Training Strategies for Efficient Embodied Reasoning等著名學者和機構都曾探討過可供性、思維鏈等能力對于具身操作的重要性。
對此,Pelican-VL針對性地進行了能力提升,并在多個維度中達到行業領先水平。

RT-Affordance項目地址:https://snasiriany.me/rt-affordance

跨本體具身大腦實現多機協作
Pelican-VL具備不同層級的機器人任務規劃調度能力,可根據場景生成機器人行為規劃,并將其轉化為具體機器人功能函數的執行調用,作為多機器人系統的任務調度器。
論文中給出一個多機器人協作流水線的開發示例:
在一個燈泡質檢流程中,Pelican-VL將任務按機器人拆分為若干行為層任務,進而生成不同機器人動作層的函數調用。
例如,它會生成對「輪式人形機器人」執行「檢查電控柜并啟動系統」的函數調用指令,也會為雙臂機器人生成「對燈泡進行結構與功能檢測」的調用。
對于通用的操作函數,生成所需的控制參數,由專門的運動規劃模塊將其轉化為關節軌跡和夾爪動作。
這種方式類似于一個項目經理給不同的團隊下達精確的工作指令,Pelican-VL則通過多輪對話和分步指令,確保多臺機器人的協同工作。
基于穩定多視角可供性的零樣本操作
在更加通用的操作場景下,論文也給出了一個基于可供性進行任意物體操作的例子。
Pelican-VL先輸出詳細的視覺定位和功能性描述(如目標物體的抓取點、放置位置等),然后利用函數調用機制觸發操作。
例如在通用抓取演示中,它會先生成多視角下的一致性預估(如抓取點、避障區域)以保證空間定位準確;接著將這些計劃通過接口調用下發給運動控制單元。
這一流程就像「思維鏈」式的中間規劃:模型內部先思考出清晰的步驟,再把每步落成可執行的函數調用,確保執行過程可控且透明。
通過函數調用,Pelican-VL不僅能處理單機任務,也可管理多機器人協作任務,進一步彰顯了其在復雜系統中的實用性。

結語
此次Pelican-VL的開源,對于人形機器人產業與研究而言帶來了兩個正向價值:
首先它提供了一整套「視覺理解→長程規劃→物理操作」串聯的可復用訓練范式,降低了在機器人中使用 VLM 的門檻;
其次,借助開源基礎模型和推理代碼,所有其他實驗室或企業都可以在這個「腦」上做定制化訓練,加速人形機器人在各行各業的落地探索。
作為拿下過全球首個人形機器人馬拉松冠軍、百米賽跑冠軍的團隊,北京人形機器人創新中心已經推出了具身智能的通用硬件平臺「具身天工」和通用軟件平臺「慧思開物」兩個開放平臺,如今又在VLM上實現了重大突破。
不難看出,一切都是為產業落地提供更良好土壤,讓國內的機器人廠商和開發者可以自由使用與定制人形機器人,加速研發進程,并且正在讓具身智能機器人從最能跑,演化到最聰明和最好用的更高階段。
根據了解,目前北京人形機器人創新中心還在推進「千臺機器人真實場景數據采集計劃」,讓上千臺機器人在工廠、倉庫、酒店等場景中執行任務并采集數據。
而這些規模化的多模態數據與Pelican-VL結合,將推動其在制造業自動化、智能物流、零售無人化和家居服務等多領域的快速適配和優化。
對于制造業企業來說,基于Pelican-VL快速開發特定場景下的應用方案,可大大降低開發成本和難度。
長期來看,Pelican-VL及其后續版本將促進國內形成完善的通用機器人智能平臺,推動更多種類的機器人像安裝「通用智能操作系統」一樣迅速獲取新能力,讓人形機器人更低門檻、低成本、高效率的走進不同制造業、工業體系。





京公網安備 11011402013531號