![]()
祁煜,2023年本科畢業(yè)于北京大學(xué)信息科學(xué)技術(shù)學(xué)院。目前為美國Northeastern University在讀博士生,研究方向為機器人與機器學(xué)習(xí), 具身智能, 在 CVPR、ICML、CoRL 等頂級會議中發(fā)表過論文。
具身智能是近年來非常火概念。一個智能體(比如人)能夠在環(huán)境中完成感知、理解與決策的閉環(huán),并通過環(huán)境反饋不斷進入新一輪循環(huán),直至任務(wù)完成。這一過程往往依賴多種技能,涵蓋了底層視覺對齊,空間感知,到上層決策的不同能力,這些能力便是廣義上的具身智能。
已經(jīng)有很多優(yōu)秀的工作把多模態(tài)大語言模型(MLLMs)部署在具身智能的不同應(yīng)用上。盡管已經(jīng)有不少相關(guān)工作評估過他們具身智能的潛力,但主要集中在子領(lǐng)域上,比如給點(Pointing),空間推理(Spatial Reasoning)等等,也有一些工作在仿真里定義任務(wù)評估他們的性能,比如EmbodiedBench等,但是他們并沒有把一個任務(wù)切分成一步步的原子技能,也就無法判斷出到底是哪個細粒度的能力導(dǎo)致一個任務(wù)的失敗。
BEAR基準(zhǔn)
為了系統(tǒng)評估MLLM在具身智能的各個子能力,美國東北大學(xué)聯(lián)合香港中文大學(xué),哈佛大學(xué),提出了BEAR基準(zhǔn),并且提供了詳細的錯因分析和算法提升。
![]()
Arxiv鏈接:https://arxiv.org/abs/2510.08759Huggingface鏈接:https://huggingface.co/papers/2510.08759項目主頁:https://bear-official66.github.io/
![]()
BEAR涵蓋了4,469個圖片-視頻-文字的VQA。BEAR涵蓋6個大類,其中包括5個基礎(chǔ)類別,包括給點(Pointing), 給檢測框(Bounding Box), 空間推理(Spatial Reasoning),任務(wù)規(guī)劃(Task Planning),并且在每個類別下面還有不同子技能,如給點分為普通物體給點,空間關(guān)系給點和局部給點,共分為14個技能,見下圖。除此之外,我們引入第六個長程推理類別,首次將具身智能的任務(wù)切分為以14個不同技能劃分的步驟,涵蓋了智能體在完成一個任務(wù)中所需要具備的技能。
![]()
測評實驗
實驗部分,作者全面測量了20個不同的MLLM,并且測量了Direct和CoT不同的prompt, 而且將常見的test-time-scaling methods都進行了實驗,得出以下有趣的結(jié)論:
多模態(tài)大模型并不具備具身智能,目前在BEAR基準(zhǔn)上表現(xiàn)最好的模型,GPT-5,也僅僅有52%的成功率。通常情況,閉源模型比開源模型表現(xiàn)好。但是部分開源模型擁有很強的潛力,如InternVL系列模型,在BEAR基準(zhǔn)上超過了GPT-4o, Claude等模型。
![]()
Chain-of-thought在很多子能力在閉源模型上起到一致的負面作用,比如給點和空間推理能力。作者分析給點是一個直接的表達方法,模型只需要輸出一個正則之后的x和y,過度的推理給模型引入不必要的干擾。同時,人們在進行空間推理的時候常常使用“直覺”,引入推理鏈有時會使模型引入一些錯誤的空間表達和位置關(guān)系,在推理最終答案的時候起到了負面作用。
![]()
細粒度錯因統(tǒng)計
更進一步地,作者對GPT-4o的每一個子能力都進行了錯因統(tǒng)計,分析顯示了如下幾個有趣的發(fā)現(xiàn):
模型視覺全能能力不足是多個類別的主要瓶頸。具體表現(xiàn)為模型無法細致進行l(wèi)anguage grounding, 無法判斷軌跡走向,無法理解圖片中發(fā)生的動作。模型3D能力不足主要體現(xiàn)在無法判斷第一人稱下的方向(左右關(guān)系),并且常常搞混相機在連續(xù)幀之間的移動走向。對于長程推理,與高層規(guī)劃(planning)相比,底層感知和空間推理仍然是主要瓶頸,錯誤占比高達88%。
![]()
BEAR智能體設(shè)計全面提升大模型的具身能力
基于上面的發(fā)現(xiàn),作者團隊意識到,增強模型的視覺能力,可以全面提高模型的具身推理能力。在多模態(tài)領(lǐng)域,已經(jīng)有一些工作通過畫輔助線和教會模型使用工具用來求解數(shù)學(xué)問題。受這樣工作的啟發(fā),作者開發(fā)了BEAR-Agent,這是一個可對話的多模態(tài)智能體,主要通過提供工具和做輔助線的方式增強模型的視覺推理能力,進而提升模型的具身推理能力。作者選取了表現(xiàn)最好的開源模型和閉源模型,InternVL3-14B和GPT-5,BEAR-Agent可以顯著提高他們在BEAR上的performance。
![]()
![]()
仿真測試
進一步地,作者基于Maniskill用Franka-panda搭建了桌面的操作環(huán)境,并且測試了3類任務(wù),共12個語言指令。我們的實驗結(jié)果表明,BEAR-Agent提升了20.17% MOKA在桌面操作環(huán)境上的表現(xiàn),這表示著BEAR-Agent對Embodied Agent的潛力。
![]()
本篇文章重點對多模態(tài)大模型在具身推理的多個任務(wù)上進行評測和對失敗進行歸因分析,并且提供了詳細的失敗測評,并且設(shè)計Agent算法進行改進。作者希望分析結(jié)果有利于多模態(tài)大模型和具身智能在未來的迭代。非常歡迎感興趣的老師同學(xué)們聯(lián)系作者團隊進行進一步交流!





京公網(wǎng)安備 11011402013531號