亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當(dāng)前位置: 首頁 ? 資訊 ? 新科技 ? 正文

大模型在具身推理上「翻車」了?4496 道題全面揭示短板

IP屬地 中國·北京 機器之心Pro 時間:2025-10-28 12:20:44



祁煜,2023年本科畢業(yè)于北京大學(xué)信息科學(xué)技術(shù)學(xué)院。目前為美國Northeastern University在讀博士生,研究方向為機器人與機器學(xué)習(xí), 具身智能, 在 CVPR、ICML、CoRL 等頂級會議中發(fā)表過論文。

具身智能是近年來非常火概念。一個智能體(比如人)能夠在環(huán)境中完成感知、理解與決策的閉環(huán),并通過環(huán)境反饋不斷進入新一輪循環(huán),直至任務(wù)完成。這一過程往往依賴多種技能,涵蓋了底層視覺對齊,空間感知,到上層決策的不同能力,這些能力便是廣義上的具身智能。

已經(jīng)有很多優(yōu)秀的工作把多模態(tài)大語言模型(MLLMs)部署在具身智能的不同應(yīng)用上。盡管已經(jīng)有不少相關(guān)工作評估過他們具身智能的潛力,但主要集中在子領(lǐng)域上,比如給點(Pointing),空間推理(Spatial Reasoning)等等,也有一些工作在仿真里定義任務(wù)評估他們的性能,比如EmbodiedBench等,但是他們并沒有把一個任務(wù)切分成一步步的原子技能,也就無法判斷出到底是哪個細粒度的能力導(dǎo)致一個任務(wù)的失敗。

BEAR基準(zhǔn)

為了系統(tǒng)評估MLLM在具身智能的各個子能力,美國東北大學(xué)聯(lián)合香港中文大學(xué),哈佛大學(xué),提出了BEAR基準(zhǔn),并且提供了詳細的錯因分析和算法提升。



Arxiv鏈接:https://arxiv.org/abs/2510.08759Huggingface鏈接:https://huggingface.co/papers/2510.08759項目主頁:https://bear-official66.github.io/



BEAR涵蓋了4,469個圖片-視頻-文字的VQA。BEAR涵蓋6個大類,其中包括5個基礎(chǔ)類別,包括給點(Pointing), 給檢測框(Bounding Box), 空間推理(Spatial Reasoning),任務(wù)規(guī)劃(Task Planning),并且在每個類別下面還有不同子技能,如給點分為普通物體給點,空間關(guān)系給點和局部給點,共分為14個技能,見下圖。除此之外,我們引入第六個長程推理類別,首次將具身智能的任務(wù)切分為以14個不同技能劃分的步驟,涵蓋了智能體在完成一個任務(wù)中所需要具備的技能。



測評實驗


實驗部分,作者全面測量了20個不同的MLLM,并且測量了Direct和CoT不同的prompt, 而且將常見的test-time-scaling methods都進行了實驗,得出以下有趣的結(jié)論:

多模態(tài)大模型并不具備具身智能,目前在BEAR基準(zhǔn)上表現(xiàn)最好的模型,GPT-5,也僅僅有52%的成功率。通常情況,閉源模型比開源模型表現(xiàn)好。但是部分開源模型擁有很強的潛力,如InternVL系列模型,在BEAR基準(zhǔn)上超過了GPT-4o, Claude等模型。



Chain-of-thought在很多子能力在閉源模型上起到一致的負面作用,比如給點和空間推理能力。作者分析給點是一個直接的表達方法,模型只需要輸出一個正則之后的x和y,過度的推理給模型引入不必要的干擾。同時,人們在進行空間推理的時候常常使用“直覺”,引入推理鏈有時會使模型引入一些錯誤的空間表達和位置關(guān)系,在推理最終答案的時候起到了負面作用。




細粒度錯因統(tǒng)計


更進一步地,作者對GPT-4o的每一個子能力都進行了錯因統(tǒng)計,分析顯示了如下幾個有趣的發(fā)現(xiàn):

模型視覺全能能力不足是多個類別的主要瓶頸。具體表現(xiàn)為模型無法細致進行l(wèi)anguage grounding, 無法判斷軌跡走向,無法理解圖片中發(fā)生的動作。模型3D能力不足主要體現(xiàn)在無法判斷第一人稱下的方向(左右關(guān)系),并且常常搞混相機在連續(xù)幀之間的移動走向。對于長程推理,與高層規(guī)劃(planning)相比,底層感知和空間推理仍然是主要瓶頸,錯誤占比高達88%。



BEAR智能體設(shè)計全面提升大模型的具身能力


基于上面的發(fā)現(xiàn),作者團隊意識到,增強模型的視覺能力,可以全面提高模型的具身推理能力。在多模態(tài)領(lǐng)域,已經(jīng)有一些工作通過畫輔助線和教會模型使用工具用來求解數(shù)學(xué)問題。受這樣工作的啟發(fā),作者開發(fā)了BEAR-Agent,這是一個可對話的多模態(tài)智能體,主要通過提供工具和做輔助線的方式增強模型的視覺推理能力,進而提升模型的具身推理能力。作者選取了表現(xiàn)最好的開源模型和閉源模型,InternVL3-14B和GPT-5,BEAR-Agent可以顯著提高他們在BEAR上的performance。





仿真測試


進一步地,作者基于Maniskill用Franka-panda搭建了桌面的操作環(huán)境,并且測試了3類任務(wù),共12個語言指令。我們的實驗結(jié)果表明,BEAR-Agent提升了20.17% MOKA在桌面操作環(huán)境上的表現(xiàn),這表示著BEAR-Agent對Embodied Agent的潛力。



本篇文章重點對多模態(tài)大模型在具身推理的多個任務(wù)上進行評測和對失敗進行歸因分析,并且提供了詳細的失敗測評,并且設(shè)計Agent算法進行改進。作者希望分析結(jié)果有利于多模態(tài)大模型和具身智能在未來的迭代。非常歡迎感興趣的老師同學(xué)們聯(lián)系作者團隊進行進一步交流!

免責(zé)聲明:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。

全站最新
久艹视频在线免费观看| 国产精品久久久久av| 欧洲一区在线电影| 香蕉成人伊视频在线观看| 欧美日韩一级大片| 欧洲色大大久久| 欧美午夜理伦三级在线观看| 欧美高清激情brazzers| 日韩h在线观看| 亚洲久久久久久久久久| 久久久久久国产免费| 亚洲综合日韩在线| 亚洲欧美在线网| 播放灌醉水嫩大学生国内精品| 久久久久久蜜桃一区二区| 欧美一级片在线免费观看| 91黄色8090| 亚洲成人精品视频| 亚洲天堂av网| 国产精品久久色| 久久综合伊人77777麻豆| 男人揉女人奶房视频60分| 亚洲欧美另类动漫| 久久av高潮av无码av喷吹| 亚洲 欧美 成人| 蜜桃一区二区三区在线| 国产精品私人影院| 91精品中文字幕一区二区三区| 欧美激情图片区| 国产精品日本一区二区| 天天爽天天爽夜夜爽| 欧美丰满艳妇bbwbbw| 青草国产精品久久久久久| 中文字幕亚洲不卡| 精品国产欧美成人夜夜嗨| 国产精品成人播放| 国产深夜男女无套内射| 麻豆一区产品精品蜜桃的特点| 男男视频亚洲欧美| 91久久久免费一区二区| 91国在线精品国内播放| 国产欧美日韩一区| 欧美日韩一区二区区别是什么| 日韩a级片在线观看| 国产在线视频一区二区| 亚洲国产美女搞黄色| 久久久精品一区| 成人国产在线看| 亚洲av鲁丝一区二区三区| 午夜国产在线观看| 色哟哟一区二区在线观看| 亚州欧美日韩中文视频| 亚洲色成人www永久在线观看| 国产真人真事毛片| www.日韩大片| 欧美风情在线观看| 97在线免费公开视频| 99国产揄拍国产精品| 亚洲国产成人av网| 国产欧美日韩91| 国产精品无码一区二区三区免费| 久热re这里精品视频在线6| 日韩视频一区二区三区| 日韩欧美亚洲v片| 久久在线视频精品| 亚洲视频一二三区| 国产欧美一区二区三区四区| 小毛片在线观看| 国产成人亚洲综合a∨婷婷图片 | 久久天天狠狠| 麻豆明星ai换脸视频| 久久噜噜亚洲综合| 97婷婷涩涩精品一区| 色综合久久久无码中文字幕波多| 日韩高清在线电影| 亚洲人成在线免费观看| 阿v天堂2017| 五月天婷婷在线观看| 欧美美女视频在线观看| 99亚洲精品视频| 国产三级三级在线观看| 精品久久久三级丝袜| 免费一级淫片aaa片毛片a级| 国产成人毛毛毛片| 亚洲天堂精品在线| 国产永久免费网站| 日本午夜一本久久久综合| 在线丨暗呦小u女国产精品| 在线观看免费不卡av| 成人h精品动漫一区二区三区| 国产婷婷97碰碰久久人人蜜臀| www日韩在线观看| 成人黄页毛片网站| 97久久精品人人澡人人爽缅北| 日本国产一级片| 欧美日韩一级大片| 一区二区三区高清| 青青视频在线播放| 2020国产精品| 自拍日韩亚洲一区在线| 亚洲午夜免费视频| 999精品视频在线| 亚洲国产精品视频| 国产ts丝袜人妖系列视频| 国产精品视频你懂的| 日本a级片在线播放| 国产精品久久国产精麻豆99网站| 欧美黄色免费网址| 国产精品免费人成网站| 黄色大片在线免费看| 国产欧美日韩三级| 欧美三级午夜理伦三级| 欧美精品一区二区不卡| 日韩欧美99| 久久久久久免费网| caoporn超碰97| 亚洲va韩国va欧美va精品| 国产美女三级视频| 欧洲精品在线观看| 国产成人精品视频免费| 亚洲视频一区二区三区| 欧美性生给视频| 欧美乱妇高清无乱码| 亚洲国产999| 国产伦精品一区二区三区高清版| 欧美一区二区视频网站| 美女洗澡无遮挡| 亚洲图片欧美色图| 国产麻豆xxxvideo实拍| 日韩在线欧美在线| 少妇又紧又色又爽又刺激视频| 国产精品视频地址| 理论电影国产精品| 可以看毛片的网址| 欧美日韩国产综合一区二区 | 国产成人精品在线播放| 高清不卡一区二区在线| 久久黄色免费看| 欧美日韩裸体免费视频| 国产精品亚洲无码| 亚洲欧美日韩成人| 国产毛片毛片毛片毛片毛片| 国产色综合一区二区三区| 国产激情视频一区二区三区欧美| 日本黄色片一级片| 欧美日韩精品专区| 1级黄色大片儿| 国产精品美女网站| 91麻豆精品在线观看| 中文字幕在线视频一区二区| 亚洲美女在线观看| 国产视频在线观看免费| 色一情一区二区三区四区| 日韩一区在线免费观看| 久久国产精品影院| 国产精品第一第二| 国产色爱av资源综合区| 国产精品扒开腿做爽爽| 97超视频免费观看| gogogo免费视频观看亚洲一| 亚洲天堂网站在线| 欧美裸体xxxx极品少妇| 成人午夜av电影| 国产香蕉精品视频| 久久成年人视频| 国产在线视频一区二区| 日本三级中文字幕在线观看| 欧美日韩国产精品一区二区不卡中文 | 日韩一区二区三区在线播放| 亚洲aⅴ乱码精品成人区| 青青草成人免费在线视频| 亚洲а∨天堂久久精品9966| 囯产精品一品二区三区| 久久人妻精品白浆国产| www.日韩.com| 国产精品一区二区三区乱码| youjizz.com日本| 国产精品午夜视频| 欧美日韩亚洲国产一区| 国产又黄又猛又爽| 粗暴91大变态调教| 奇米成人av国产一区二区三区| 中文字幕在线不卡视频| 精品免费囯产一区二区三区 | 亚洲爆乳无码精品aaa片蜜桃| 亚洲国产日韩欧美在线99| 蜜臀va亚洲va欧美va天堂| 国产成人精品综合久久久久99 | 五月六月丁香婷婷| 国产精品久久久久久久久久99| 夜夜操天天操亚洲| 国产剧情久久久| 制服下的诱惑暮生| 成人国产精品日本在线| 欧美人与禽zozo性伦| 国产麻豆一精品一av一免费| eeuss中文字幕| 裸体裸乳免费看| 亚洲欧美中文日韩在线| av一区二区三区四区| 欧美一区二区三区网站| 成人在线看视频| 国产精品劲爆视频| 日韩一区二区三区精品视频| 成人一区在线看| 激情视频网站在线观看| 人妻精品久久久久中文字幕69| 国产成人综合亚洲| 日韩午夜在线观看视频| 成人毛片视频在线观看| 91亚洲国产成人久久精品麻豆| 日本成人在线免费观看| 亚洲欧美在线网| 国产精品久久久久久久久久久久| 日韩一区二区三区视频在线| 亚洲欧美精品午睡沙发| 精品一区二区三区的国产在线播放| 日本三级免费看| 欧美 日本 国产| 欧美性猛交久久久乱大交小说| 精品网站在线看| 亚洲精品美女在线| 午夜亚洲福利老司机| 无码h黄肉3d动漫在线观看| 欧美日韩中文字幕在线观看| 999久久久精品视频| 在线观看视频黄色| 136fldh精品导航福利| 亚洲精品国产免费| 午夜亚洲国产au精品一区二区| 成人av电影在线| 手机在线观看毛片| 国产又粗又猛又爽又| 欧美人妻精品一区二区免费看| 亚洲成人福利在线观看| 蜜臀av性久久久久蜜臀av| 欧美日韩精品综合| 国产精品国产精品国产专区蜜臀ah| 日韩av大片免费看| 97视频色精品| 国产69精品久久久久99| 欧美福利在线观看| 丝袜美腿精品国产二区 | 91国产一区在线| 欧美日韩国产123| 欧美成人精品一区二区三区| 中文字幕亚洲综合久久| 欧美性受xxxx黑人xyx| 一区二区三区日韩在线观看| 一区二区三区四区亚洲| 亚洲成人av一区二区三区| 亚洲高清久久久| 色www精品视频在线观看| 欧美在线一二三| 日韩欧美一二三区| 麻豆91精品视频| 成人av在线播放网站| 国产乱色国产精品免费视频| 无码国精品一区二区免费蜜桃| 国产理论视频在线观看| 日韩一级片免费| 久久成人羞羞网站| www..com久久爱| 国产日韩精品一区二区三区| 亚洲美女屁股眼交| 欧美高清激情brazzers| 日韩精品在线影院| 欧美—级高清免费播放| 国产99久久精品一区二区 夜夜躁日日躁 | 精品国产电影一区二区| 中文字幕亚洲欧美日韩高清| 91国偷自产一区二区三区的观看方式| 97久久精品国产| 精品久久久久久中文字幕动漫| 成人黄动漫网站免费| 久久精品福利视频| 国产精品久久久999| 91性高湖久久久久久久久_久久99| 日本成人三级| 美女福利视频在线| 成人免费视频网站入口| 热re99久久精品国99热蜜月| 国产婷婷一区二区三区| 性生交大片免费看l| 欧美另类一区二区| 91视频久久久| 免费高清在线视频一区·| 久久精品一二三| 亚洲经典中文字幕| 国产精品av在线| www插插插无码视频网站| 最新中文字幕久久| 波多野结衣一二三四区| 中文字幕a级片| 日韩不卡免费视频| 亚洲一区二区五区| 日韩高清人体午夜| 国产精品久久久久久久久久久久冷| 九色在线视频观看| 手机在线播放av| 久久这里只有精品9| 手机在线观看毛片| 91久色porny| 欧美日本视频在线| 日韩中文字幕在线视频播放| 欧美国产日韩一区二区三区| 亚洲va久久久噜噜噜久久天堂| 日日橹狠狠爱欧美超碰| 久久久久久久久久一区二区三区| 日本少妇一区二区| 欧美日韩亚洲一区二| 欧美一区第一页| 茄子视频成人在线观看| 亚洲人视频在线| 亚洲精品一区二区久| 99精品视频免费在线观看| 色菇凉天天综合网| 久久久久亚洲精品| 日韩国产成人无码av毛片| 影音先锋男人资源在线观看| 美国十次了思思久久精品导航 | 亚洲一区亚洲二区亚洲三区| 免费看a级黄色片| 亚洲 欧美 中文字幕| 亚洲激情欧美激情| 亚洲一级一级97网| 亚洲日本精品| 999视频在线| 91激情五月电影| 91麻豆精品国产91久久久久久久久 | 高h放荡受浪受bl| 制服丝袜亚洲播放| 欧美一级特黄aaaaaa在线看片| 中文字幕自拍偷拍| 色婷婷激情久久| 超碰免费在线公开| 中文字幕在线观看欧美| 欧美成人性战久久| 久久在线中文字幕| 久久一二三四| 中文字幕av日韩| 99视频在线免费播放| 国产精品18久久久久久vr| 欧美精品激情blacked18| 国产交换配乱淫视频免费| 亚洲国产精品av| 国产乱码精品一区二区三区卡 | 7777精品视频| 免费中文字幕视频| 亚洲一区二区三区四区的| 97视频在线免费观看| 日韩av新片网| 免费的成人av| 成人黄色av播放免费| 一级片视频在线观看| 日韩精品在线免费观看视频| 伊人成人222| 亚洲成av人在线观看| 日本xxxxx18| 日本美女一级片| 亚洲丰满少妇videoshd| 日本免费高清不卡| 蜜桃视频在线一区| 国产999精品| 精品美女www爽爽爽视频| 久久亚洲国产精品| 久久国产精品波多野结衣| 欧美日韩亚洲不卡| 国偷自产av一区二区三区麻豆| 亚洲欧洲av在线| 少妇性l交大片| 亚洲a一区二区| 超碰人人爱人人| 中文字幕一区三区| 久久久一本二本三本| 中文字幕欧美一| 国产白丝袜美女久久久久| 久久午夜电影网| 日本不卡高清视频一区| 成人动漫一区二区在线| 亚洲久久久久久久久久| 色欲狠狠躁天天躁无码中文字幕| 欧美成人一级视频| 三级在线观看免费大全| 色妞欧美日韩在线| 国产精品男女视频| 成人免费网视频| 成人综合激情网| 欧美精品成人网| 精品伦理精品一区| 中文字幕在线观看精品| 91久久精品一区二区别| 日韩高清一区在线| 国产男女猛烈无遮挡91| 久久一区视频| 91九色露脸| 国产大片中文字幕| 九九热精品视频国产| 无码人妻丰满熟妇区bbbbxxxx| 欧美xxxx在线观看| 美女福利视频网| 国语对白做受69| 中文字幕影音先锋| 日韩成人激情视频| 久草福利资源在线| 曰本色欧美视频在线| 久久久精品国产sm调教网站| 欧美乱大交xxxxx| 日韩综合小视频| 精品日韩电影|