![]()
想象一下,你花了幾萬塊錢買了個(gè)最新的智能機(jī)器人,它號稱能理解語言、識別物體、執(zhí)行任務(wù),在宣傳視頻里表現(xiàn)得像個(gè)完美的家庭助手。可是當(dāng)你真正使用時(shí),只要稍微改變一下房間的燈光,或者換個(gè)角度放置物品,這個(gè)昂貴的機(jī)器人就突然變成了"瞎子",完全找不到目標(biāo)物品了。這聽起來像科幻電影里的bug,但卻是當(dāng)今AI機(jī)器人領(lǐng)域的真實(shí)寫照。
復(fù)旦大學(xué)的費(fèi)森宇、王思言、施俊豪等研究團(tuán)隊(duì),聯(lián)合同濟(jì)大學(xué)、上海創(chuàng)新研究院以及新加坡國立大學(xué)的研究人員,在2025年10月發(fā)表了一項(xiàng)顛覆性研究,論文編號為arXiv:2510.13626v1。這項(xiàng)研究就像是給當(dāng)今火熱的"視覺-語言-行為"(VLA)AI機(jī)器人做了一次全面體檢,結(jié)果卻令人大跌眼鏡——那些在測試中表現(xiàn)優(yōu)異的AI機(jī)器人,實(shí)際上就像是應(yīng)試教育培養(yǎng)出來的"高分低能"學(xué)生,只會(huì)背標(biāo)準(zhǔn)答案,一旦遇到稍有變化的情況就束手無策。
這項(xiàng)研究的核心發(fā)現(xiàn)可以用一個(gè)生活化的比喻來理解:如果說傳統(tǒng)的機(jī)器人測試就像是讓學(xué)生在完全相同的考場、相同的座位、相同的光線下做同一份試卷,那么復(fù)旦團(tuán)隊(duì)的研究就像是把考試搬到了真實(shí)世界——有時(shí)在明亮的教室,有時(shí)在昏暗的圖書館;有時(shí)桌子是木質(zhì)的,有時(shí)是金屬的;有時(shí)周圍很安靜,有時(shí)有各種干擾。結(jié)果令人震驚:那些平時(shí)能考95分的"優(yōu)等生"機(jī)器人,在這種真實(shí)環(huán)境下的表現(xiàn)竟然跌到了30分以下。
更讓研究團(tuán)隊(duì)意外的是,這些號稱能理解人類語言的智能機(jī)器人,實(shí)際上對語言指令幾乎是"充耳不聞"的。就像是你對著機(jī)器人說"請把紅色的蘋果拿過來",但它完全不理會(huì)你說的是紅色還是綠色、蘋果還是橘子,只是機(jī)械地重復(fù)著它在訓(xùn)練時(shí)學(xué)會(huì)的固定動(dòng)作。這種發(fā)現(xiàn)徹底顛覆了人們對當(dāng)前AI機(jī)器人能力的認(rèn)知。
研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為LIBERO-Plus的綜合測試平臺,包含了超過一萬個(gè)不同難度的機(jī)器人任務(wù),就像是為機(jī)器人設(shè)計(jì)的"高考模擬題庫"。他們從七個(gè)不同維度來"刁難"這些機(jī)器人:改變物品擺放位置、調(diào)整攝像頭角度、變換機(jī)器人初始姿態(tài)、修改語言指令、改變光照條件、更換背景材質(zhì),以及加入傳感器噪聲。這些變化在日常生活中再普通不過,但對機(jī)器人來說卻像是遇到了七種不同的"天災(zāi)人禍"。
一、當(dāng)機(jī)器人遇上"換位思考"——空間感知的致命弱點(diǎn)
在我們的日常生活中,即使房間里的家具重新擺放,或者我們從不同角度看同一個(gè)物品,我們的大腦都能輕松識別和定位目標(biāo)。但對于當(dāng)前的AI機(jī)器人來說,這卻是一個(gè)幾乎無法跨越的障礙。
復(fù)旦團(tuán)隊(duì)的實(shí)驗(yàn)揭示了一個(gè)令人震驚的事實(shí):當(dāng)攝像頭位置發(fā)生微小變化時(shí),原本表現(xiàn)優(yōu)異的機(jī)器人就像是突然失明了一樣。比如OpenVLA機(jī)器人,在標(biāo)準(zhǔn)測試中能達(dá)到76.5%的成功率,但一旦改變攝像頭角度,成功率就暴跌到僅有1.1%。這種下降幅度相當(dāng)于一個(gè)平時(shí)能考80分的學(xué)生,僅僅因?yàn)閾Q了個(gè)座位就只能考1分。
為了理解這種現(xiàn)象,我們可以用一個(gè)生動(dòng)的比喻:現(xiàn)在的AI機(jī)器人就像是一個(gè)從小到大只在固定位置看電視的孩子,他已經(jīng)完全習(xí)慣了從那個(gè)特定角度看到的畫面。一旦你把他的椅子挪動(dòng)幾步,哪怕只是稍微改變觀看角度,他就完全認(rèn)不出屏幕上的內(nèi)容了。這不是因?yàn)樗囊暳τ袉栴},而是因?yàn)樗拇竽X從未學(xué)會(huì)如何處理從不同角度看到的同一個(gè)物體。
更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn),那些同時(shí)配備了第一人稱(機(jī)器人手腕攝像頭)和第三人稱(外部攝像頭)視角的機(jī)器人,在面對視角變化時(shí)表現(xiàn)要好得多。這就像是一個(gè)人既能從自己的角度看問題,又能從旁觀者的角度觀察,自然更容易適應(yīng)變化。比如OpenVLA-OFT機(jī)器人在攝像頭角度測試中仍能保持59.7%的成功率,而只依賴第三人稱視角的版本OpenVLA-OFT_w則跌至16.8%。
機(jī)器人的初始姿態(tài)變化同樣會(huì)造成災(zāi)難性的影響。當(dāng)研究團(tuán)隊(duì)稍微改變機(jī)器人手臂的起始位置時(shí),大多數(shù)機(jī)器人的表現(xiàn)都出現(xiàn)了斷崖式下跌。這種現(xiàn)象可以理解為,機(jī)器人就像是一個(gè)從小習(xí)慣右手寫字的人,突然被要求換成左手寫字,盡管任務(wù)本質(zhì)沒有改變,但執(zhí)行方式的微小變化就讓它們完全亂了陣腳。
這些發(fā)現(xiàn)揭示了當(dāng)前AI機(jī)器人的一個(gè)根本性缺陷:它們并沒有真正理解三維空間和物體的幾何關(guān)系,而只是死記硬背了特定條件下的視覺模式。就像是背書背得很熟的學(xué)生,一旦考試題目稍有變化就不知所措,因?yàn)樗麄儚奈凑嬲斫鈺镜膬?nèi)容。
二、機(jī)器人的"選擇性失聰"——語言理解的驚人真相
在所有令人震驚的發(fā)現(xiàn)中,最讓研究團(tuán)隊(duì)意外的可能是機(jī)器人對語言指令的處理方式。傳統(tǒng)觀念認(rèn)為,現(xiàn)代AI機(jī)器人之所以被稱為"視覺-語言-行為"模型,正是因?yàn)樗鼈兡軌蚶斫馊祟惖恼Z言指令,然后根據(jù)看到的視覺信息執(zhí)行相應(yīng)的行為。但復(fù)旦團(tuán)隊(duì)的研究卻揭示了一個(gè)令人瞠目結(jié)舌的真相:這些機(jī)器人很可能從一開始就在"裝聾作啞"。
為了驗(yàn)證這個(gè)猜測,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)簡單而巧妙的實(shí)驗(yàn):他們完全移除了給機(jī)器人的語言指令,讓機(jī)器人在沒有任何文字說明的情況下執(zhí)行任務(wù)。如果機(jī)器人真的依賴語言指令來理解任務(wù),那么沒有指令的情況下它們應(yīng)該完全無法工作。但實(shí)驗(yàn)結(jié)果卻讓所有人都大吃一驚:在大部分任務(wù)中,即使完全沒有語言指令,機(jī)器人的表現(xiàn)幾乎沒有任何下降!
這種現(xiàn)象就像是你發(fā)現(xiàn)一個(gè)看似在認(rèn)真聽講的學(xué)生,實(shí)際上從頭到尾都戴著耳機(jī)聽音樂,但他仍然能夠完成老師布置的作業(yè)。這不是因?yàn)樗谐芰Γ且驗(yàn)樗缇屯ㄟ^觀察其他同學(xué)的行為,或者通過其他線索,學(xué)會(huì)了一套完全不依賴聽力的"作業(yè)公式"。
研究團(tuán)隊(duì)進(jìn)一步設(shè)計(jì)了更嚴(yán)格的測試。他們不僅移除了語言指令,還故意更換了任務(wù)目標(biāo)。比如,原本的指令是"拿起字母湯罐頭放到籃子里",他們改成了"拿起番茄醬放到籃子里"。如果機(jī)器人真的理解語言,它應(yīng)該能夠適應(yīng)這種變化。但結(jié)果顯示,幾乎所有的機(jī)器人都繼續(xù)執(zhí)行原來的任務(wù),就像是完全沒有聽到新的指令一樣。
這種行為模式就像是一個(gè)在餐廳工作的服務(wù)員,無論顧客點(diǎn)什么菜,他都只會(huì)端上同一道菜。不是因?yàn)樗牪灰姡且驗(yàn)樗麖囊婚_始就沒有真正學(xué)會(huì)如何根據(jù)不同的點(diǎn)菜要求來提供不同的服務(wù)。他只是機(jī)械地重復(fù)著訓(xùn)練時(shí)學(xué)會(huì)的固定流程。
更令人擔(dān)憂的是,當(dāng)研究團(tuán)隊(duì)分析機(jī)器人的具體行為軌跡時(shí),他們發(fā)現(xiàn)即使在明確更改了任務(wù)目標(biāo)的情況下,機(jī)器人仍然會(huì)去抓取原來的目標(biāo)物品。這表明機(jī)器人并不是簡單地"沒聽清楚"指令,而是從根本上就沒有建立起語言指令與行為選擇之間的聯(lián)系。
這個(gè)發(fā)現(xiàn)對整個(gè)AI機(jī)器人行業(yè)都具有顛覆性的意義。它意味著那些號稱具有"語言理解能力"的智能機(jī)器人,很可能只是通過視覺模式識別來完成任務(wù),語言部分更像是一個(gè)華而不實(shí)的裝飾。就像是一臺看起來很高科技的洗衣機(jī),上面有各種復(fù)雜的按鈕和顯示屏,但實(shí)際上只會(huì)執(zhí)行一種洗滌程序。
三、光影魔術(shù)與材質(zhì)變換——機(jī)器人的視覺盲區(qū)
日常生活中,我們很少會(huì)因?yàn)榉块g燈光的變化或者桌面材質(zhì)的不同而找不到自己要的東西。但對于AI機(jī)器人來說,這些看似微不足道的環(huán)境變化卻可能造成巨大的困擾。復(fù)旦團(tuán)隊(duì)的研究揭示了一個(gè)有趣的現(xiàn)象:不同類型的視覺變化對機(jī)器人的影響程度截然不同。
在光照條件測試中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)出人意料的結(jié)果。他們原本預(yù)期改變光線會(huì)嚴(yán)重影響機(jī)器人的表現(xiàn),畢竟光線變化會(huì)影響物體的顏色、陰影和整體視覺效果。但實(shí)際測試結(jié)果顯示,大部分機(jī)器人對光線變化的適應(yīng)性比預(yù)期要好。這個(gè)發(fā)現(xiàn)起初讓研究團(tuán)隊(duì)感到困惑,直到他們深入分析才明白了原因。
原來,那些表現(xiàn)相對穩(wěn)定的機(jī)器人都有一個(gè)共同特征:它們同時(shí)使用第一人稱和第三人稱兩種視角。機(jī)器人手腕上的攝像頭就像是我們的"手眼協(xié)調(diào)"系統(tǒng),提供了近距離、穩(wěn)定的視覺信息。即使房間的整體光線發(fā)生變化,手腕攝像頭仍然能夠在近距離內(nèi)清晰地看到目標(biāo)物體。這就像是你在昏暗的房間里找手機(jī)時(shí),即使看不清房間的整體布局,但當(dāng)手機(jī)就在你面前時(shí),你仍然能夠準(zhǔn)確地抓取它。
為了驗(yàn)證這個(gè)假設(shè),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)極端實(shí)驗(yàn):他們故意遮擋不同類型的攝像頭,觀察機(jī)器人的表現(xiàn)變化。當(dāng)完全遮擋所有攝像頭時(shí),機(jī)器人的成功率幾乎降為零,證明視覺信息確實(shí)是必需的。但當(dāng)只遮擋第三人稱攝像頭而保留手腕攝像頭時(shí),機(jī)器人仍然能夠保持相當(dāng)程度的任務(wù)執(zhí)行能力。這個(gè)結(jié)果就像是證明了一個(gè)人即使閉著眼睛,仍然可以通過觸覺完成一些精細(xì)的手工操作。
相比之下,那些只依賴第三人稱視角的機(jī)器人在光線變化面前就顯得非常脆弱。比如OpenVLA、Nora和WorldVLA這些模型,在光照測試中的成功率下降都超過了60個(gè)百分點(diǎn)。這種現(xiàn)象可以理解為,當(dāng)你試圖在昏暗的環(huán)境中從遠(yuǎn)處觀察并操作物體時(shí),即使是輕微的光線變化也會(huì)嚴(yán)重影響你的判斷和操作精度。
在背景材質(zhì)變化測試中,研究團(tuán)隊(duì)發(fā)現(xiàn)了另一個(gè)有趣的現(xiàn)象。大多數(shù)機(jī)器人對桌面材質(zhì)或墻面紋理的變化表現(xiàn)出了相對較好的適應(yīng)性。這個(gè)結(jié)果最初讓研究人員感到意外,因?yàn)楸尘暗淖兓碚撋蠎?yīng)該會(huì)干擾物體識別。但深入分析后他們意識到,這種"穩(wěn)定性"可能并不意味著機(jī)器人真的理解了物體與背景的區(qū)別,而更像是它們學(xué)會(huì)了忽略某些視覺信息。
為了驗(yàn)證機(jī)器人是否真的具備了區(qū)分目標(biāo)物體和背景干擾的能力,研究團(tuán)隊(duì)設(shè)計(jì)了更精細(xì)的實(shí)驗(yàn)。他們在場景中添加了各種干擾物品,觀察機(jī)器人是否能夠準(zhǔn)確識別并抓取指定的目標(biāo)。結(jié)果顯示,雖然機(jī)器人在面對簡單背景變化時(shí)表現(xiàn)穩(wěn)定,但一旦場景中出現(xiàn)多個(gè)相似物品時(shí),它們往往會(huì)表現(xiàn)出明顯的混淆。
這種現(xiàn)象就像是一個(gè)人在整潔的房間里能夠輕松找到自己的鑰匙,但在雜亂的房間里就可能會(huì)把鑰匙和其他金屬物品搞混。機(jī)器人并沒有真正學(xué)會(huì)區(qū)分目標(biāo)和干擾,而只是在特定的簡化環(huán)境中形成了固定的識別模式。
四、噪聲干擾下的脆弱表現(xiàn)——傳感器的真實(shí)考驗(yàn)
在完美的實(shí)驗(yàn)室環(huán)境中,機(jī)器人的攝像頭能夠獲得清晰、穩(wěn)定的圖像。但在真實(shí)世界中,各種類型的視覺噪聲是無法避免的:相機(jī)抖動(dòng)造成的運(yùn)動(dòng)模糊、灰塵或水汽導(dǎo)致的圖像不清晰、快速變焦產(chǎn)生的徑向模糊,以及各種光學(xué)干擾。復(fù)旦團(tuán)隊(duì)通過模擬這些真實(shí)世界中的視覺干擾,測試了機(jī)器人在"非理想"條件下的表現(xiàn)。
研究團(tuán)隊(duì)設(shè)計(jì)了五種不同類型的視覺噪聲來模擬真實(shí)環(huán)境:運(yùn)動(dòng)模糊模擬相機(jī)或物體快速移動(dòng)時(shí)的模糊效果;高斯模糊模擬鏡頭失焦時(shí)的整體模糊;縮放模糊模擬快速變焦時(shí)產(chǎn)生的徑向模糊效果;霧化效果模擬大氣干擾如霧霾或水汽的影響;玻璃模糊模擬透過有紋理的玻璃觀看時(shí)的視覺扭曲。
這些噪聲效果的設(shè)計(jì)非常貼近真實(shí)生活。比如運(yùn)動(dòng)模糊,當(dāng)你快速轉(zhuǎn)頭或者被觀察的物體在快速移動(dòng)時(shí)就會(huì)出現(xiàn)這種效果。高斯模糊則類似于近視眼摘掉眼鏡后看到的模糊世界。霧化效果就像是在大霧天氣中試圖看清遠(yuǎn)處的物體。玻璃模糊則模擬了透過浴室磨砂玻璃或者有水珠的車窗觀看外界時(shí)的視覺體驗(yàn)。
測試結(jié)果顯示,即使是相對輕微的視覺噪聲也會(huì)對機(jī)器人的表現(xiàn)造成顯著影響。這種脆弱性可以用一個(gè)簡單的比喻來理解:如果說機(jī)器人的視覺系統(tǒng)就像是一個(gè)習(xí)慣了高清電視的觀眾,那么即使是輕微的信號干擾也會(huì)讓它們"看不下去"。相比之下,人類的視覺系統(tǒng)就像是經(jīng)驗(yàn)豐富的老司機(jī),即使在雨雪天氣或者光線不佳的條件下,仍然能夠準(zhǔn)確識別路況和周圍環(huán)境。
特別有趣的是,不同類型的噪聲對機(jī)器人的影響程度并不相同。運(yùn)動(dòng)模糊和玻璃模糊等會(huì)改變物體邊緣和形狀的噪聲,對機(jī)器人的影響比簡單的亮度或?qū)Ρ榷茸兓蟆_@表明當(dāng)前的AI機(jī)器人很大程度上依賴于物體的精確輪廓和邊緣信息來進(jìn)行識別,一旦這些信息被干擾,它們的識別能力就會(huì)急劇下降。
研究團(tuán)隊(duì)還發(fā)現(xiàn),機(jī)器人在面對噪聲時(shí)的表現(xiàn)并不是簡單的線性下降,而是呈現(xiàn)出明顯的"斷崖式"崩潰。也就是說,當(dāng)噪聲強(qiáng)度超過某個(gè)臨界點(diǎn)時(shí),機(jī)器人的成功率不是逐漸降低,而是突然暴跌。這種現(xiàn)象就像是一個(gè)人的視力有一個(gè)臨界點(diǎn),在這個(gè)點(diǎn)之前還能勉強(qiáng)看清,一旦超過這個(gè)點(diǎn)就幾乎什么都看不見了。
這種脆弱性對實(shí)際應(yīng)用有著重要的啟示。它意味著在部署AI機(jī)器人到真實(shí)環(huán)境之前,我們需要確保傳感器的質(zhì)量和穩(wěn)定性,或者開發(fā)更加魯棒的視覺處理算法。否則,一個(gè)在實(shí)驗(yàn)室中表現(xiàn)完美的機(jī)器人,可能在真實(shí)家庭環(huán)境中因?yàn)橐稽c(diǎn)點(diǎn)的視覺干擾就變得完全不可用。
五、物品擺放的致命影響——位置記憶與真實(shí)理解的差距
在測試機(jī)器人對物體布局變化的適應(yīng)性時(shí),復(fù)旦團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)特別令人深思的現(xiàn)象。他們將物體布局的干擾分為兩種類型:在場景中添加干擾物品,以及改變目標(biāo)物品的位置。這兩種看似相似的變化,卻對機(jī)器人產(chǎn)生了截然不同的影響,這種差異揭示了當(dāng)前AI機(jī)器人學(xué)習(xí)方式的本質(zhì)缺陷。
當(dāng)研究團(tuán)隊(duì)在場景中添加額外的物品時(shí),大多數(shù)機(jī)器人的表現(xiàn)相對穩(wěn)定。這個(gè)結(jié)果最初讓人感到欣慰,似乎表明機(jī)器人具備了一定的抗干擾能力,能夠在復(fù)雜環(huán)境中準(zhǔn)確識別目標(biāo)物品。這就像是一個(gè)人在雜亂的桌子上仍然能夠找到自己的手機(jī),看起來是一種很實(shí)用的能力。
但當(dāng)研究團(tuán)隊(duì)改變目標(biāo)物品的位置時(shí),情況就完全不同了。即使是微小的位置調(diào)整,也會(huì)導(dǎo)致大多數(shù)機(jī)器人的性能出現(xiàn)斷崖式下跌。這種現(xiàn)象暴露了一個(gè)令人震驚的事實(shí):機(jī)器人并沒有真正學(xué)會(huì)識別和理解物品本身,而是記住了特定物品在特定位置的視覺模式。
這種學(xué)習(xí)方式可以用一個(gè)生動(dòng)的比喻來解釋:想象一個(gè)從小生活在同一間房子里的人,他已經(jīng)完全習(xí)慣了每件家具的精確位置。即使房間里增加了一些新的裝飾品,他仍然能夠準(zhǔn)確找到自己需要的東西,因?yàn)橹饕揖叩奈恢脹]有改變。但如果有人重新布置了房間,哪怕只是把沙發(fā)從左邊挪到右邊,這個(gè)人就會(huì)感到完全迷失,需要重新熟悉整個(gè)空間布局。
現(xiàn)在的AI機(jī)器人就像是這樣一個(gè)"空間記憶依賴者"。它們在訓(xùn)練過程中建立了"在位置A有一個(gè)紅色物體,在位置B有一個(gè)藍(lán)色物體"這樣的固定映射關(guān)系。當(dāng)新增物品不干擾這些固定位置時(shí),它們?nèi)匀荒軌虬凑沼洃泩?zhí)行任務(wù)。但一旦這些物品的位置發(fā)生變化,整個(gè)映射關(guān)系就被破壞了,機(jī)器人就會(huì)陷入混亂。
更深層次的問題在于,這種學(xué)習(xí)方式表明機(jī)器人并沒有建立起對物體本質(zhì)屬性的理解。它們不是通過"這是一個(gè)紅色的圓形水果,所以這是蘋果"這樣的邏輯來識別物體,而是通過"在坐標(biāo)(x,y)的位置有一個(gè)特定的像素模式"來進(jìn)行識別。這就像是一個(gè)人不是通過理解字母的含義來閱讀,而是記住了每個(gè)單詞在特定頁面上的精確位置。
這種發(fā)現(xiàn)對AI機(jī)器人的實(shí)際部署具有重要意義。它解釋了為什么很多在實(shí)驗(yàn)室中表現(xiàn)優(yōu)異的機(jī)器人,在真實(shí)家庭環(huán)境中往往表現(xiàn)令人失望。因?yàn)檎鎸?shí)環(huán)境中的物品位置是動(dòng)態(tài)變化的,家具會(huì)被重新擺放,日常用品會(huì)被移動(dòng)到不同位置,而當(dāng)前的AI機(jī)器人顯然還沒有準(zhǔn)備好應(yīng)對這種變化。
為了進(jìn)一步驗(yàn)證這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了更精細(xì)的實(shí)驗(yàn)。他們不僅改變了目標(biāo)物品的位置,還測試了機(jī)器人對物品朝向變化的敏感性。結(jié)果顯示,即使是物品的輕微旋轉(zhuǎn)也會(huì)對機(jī)器人的表現(xiàn)產(chǎn)生明顯影響。這進(jìn)一步證實(shí)了機(jī)器人依賴精確視覺模式匹配而非真正物體理解的假設(shè)。
六、多重挑戰(zhàn)下的系統(tǒng)性崩潰——組合效應(yīng)的驚人發(fā)現(xiàn)
在現(xiàn)實(shí)生活中,環(huán)境變化往往不是單一的。當(dāng)你在昏暗的房間里尋找被移動(dòng)過位置的物品時(shí),你同時(shí)面臨著光線不足和物品位置變化兩種挑戰(zhàn)。為了測試機(jī)器人在面對多重變化時(shí)的表現(xiàn),復(fù)旦團(tuán)隊(duì)設(shè)計(jì)了一系列組合實(shí)驗(yàn),結(jié)果揭示了一個(gè)令人擔(dān)憂的現(xiàn)象:多種干擾因素的疊加效應(yīng)遠(yuǎn)超單個(gè)因素的簡單相加。
研究團(tuán)隊(duì)采用了嚴(yán)格的統(tǒng)計(jì)學(xué)方法來分析這種組合效應(yīng)。他們定義了"組合泛化差距"這個(gè)概念,用來衡量機(jī)器人在面對多重挑戰(zhàn)時(shí)的表現(xiàn)是否符合獨(dú)立性假設(shè)。如果兩種干擾因素是獨(dú)立的,那么它們同時(shí)出現(xiàn)時(shí)的成功率應(yīng)該等于各自成功率的乘積。但實(shí)際結(jié)果顯示,幾乎所有的組合情況都表現(xiàn)出顯著的負(fù)相關(guān)性,即實(shí)際表現(xiàn)遠(yuǎn)低于理論預(yù)期。
這種現(xiàn)象可以用一個(gè)簡單的例子來理解:假設(shè)一個(gè)學(xué)生在數(shù)學(xué)考試中能考80分,在嘈雜環(huán)境中做題能考70分。如果干擾因素是獨(dú)立的,那么在嘈雜環(huán)境中做數(shù)學(xué)題應(yīng)該能考56分(80% × 70% = 56%)。但實(shí)際上,這個(gè)學(xué)生可能只能考30分,因?yàn)樵胍舾蓴_了他的數(shù)學(xué)思維,而數(shù)學(xué)題的復(fù)雜性又加劇了噪音的干擾效果。
在機(jī)器人實(shí)驗(yàn)中,這種負(fù)向交互效應(yīng)表現(xiàn)得更加明顯。比如,當(dāng)光線變化和物品位置變化同時(shí)出現(xiàn)時(shí),機(jī)器人的表現(xiàn)下降幅度遠(yuǎn)超兩種單獨(dú)干擾的累積效果。這表明不同類型的感知挑戰(zhàn)在機(jī)器人的信息處理系統(tǒng)中會(huì)相互干擾,造成級聯(lián)式的性能崩潰。
研究團(tuán)隊(duì)通過2000次獨(dú)立實(shí)驗(yàn)收集了詳細(xì)的統(tǒng)計(jì)數(shù)據(jù),并使用卡方檢驗(yàn)來驗(yàn)證這種交互效應(yīng)的顯著性。結(jié)果顯示,幾乎所有的干擾組合都產(chǎn)生了統(tǒng)計(jì)學(xué)上顯著的負(fù)向交互效應(yīng),p值遠(yuǎn)小于0.05的顯著性水平。這意味著觀察到的性能下降不是隨機(jī)現(xiàn)象,而是系統(tǒng)性的問題。
更令人擔(dān)憂的是,即使是看似無關(guān)的干擾因素之間也會(huì)產(chǎn)生意外的相互作用。比如,背景紋理的變化和機(jī)器人初始姿態(tài)的變化,看起來應(yīng)該是完全獨(dú)立的兩個(gè)因素,但實(shí)際測試顯示它們之間存在明顯的負(fù)向交互效應(yīng)。這種現(xiàn)象暗示著當(dāng)前AI機(jī)器人的內(nèi)部表征可能存在高度的耦合性,不同感知通道之間缺乏有效的解耦機(jī)制。
這個(gè)發(fā)現(xiàn)對機(jī)器人的實(shí)際部署具有重要啟示。它意味著即使一個(gè)機(jī)器人在面對單一類型的環(huán)境變化時(shí)表現(xiàn)尚可,我們也不能簡單地推斷它在真實(shí)復(fù)雜環(huán)境中的表現(xiàn)。真實(shí)世界中的多重變化可能會(huì)導(dǎo)致機(jī)器人性能的災(zāi)難性下降,而這種下降是難以通過簡單的單因素測試來預(yù)測的。
七、LIBERO-Plus基準(zhǔn)測試平臺——為機(jī)器人設(shè)計(jì)的"全科考試"
面對當(dāng)前機(jī)器人評估體系的不足,復(fù)旦團(tuán)隊(duì)開發(fā)了一個(gè)全新的綜合測試平臺LIBERO-Plus,這個(gè)平臺就像是為AI機(jī)器人設(shè)計(jì)的"全國高考",不僅考察機(jī)器人的基礎(chǔ)能力,更重要的是測試它們在各種復(fù)雜情況下的應(yīng)變能力。
LIBERO-Plus包含了超過一萬個(gè)不同難度的測試任務(wù),涵蓋了七個(gè)主要的干擾維度和21個(gè)細(xì)分類別。這個(gè)規(guī)模相當(dāng)于為機(jī)器人準(zhǔn)備了一個(gè)包含各種題型、難度梯度和應(yīng)用場景的超大題庫。與傳統(tǒng)的機(jī)器人測試只關(guān)注"能否完成任務(wù)"不同,LIBERO-Plus更關(guān)注"在多大程度的變化下仍能完成任務(wù)"。
整個(gè)平臺的設(shè)計(jì)理念可以類比為現(xiàn)代教育評估的發(fā)展歷程。傳統(tǒng)的機(jī)器人測試就像是古代的科舉考試,所有考生在完全相同的條件下回答完全相同的問題。而LIBERO-Plus則更像是現(xiàn)代的標(biāo)準(zhǔn)化考試,不僅測試知識掌握程度,還測試在不同條件下應(yīng)用知識的能力。
平臺中的任務(wù)被分為五個(gè)難度等級,這個(gè)分級系統(tǒng)是通過讓四個(gè)代表性的機(jī)器人模型執(zhí)行所有任務(wù),然后根據(jù)有多少個(gè)模型能夠成功完成來確定的。一級任務(wù)是所有模型都能完成的"送分題",二級任務(wù)是有三個(gè)模型能完成的"中等題",依此類推,五級任務(wù)是所有模型都無法完成的"地獄難度題"。
這種分級方式的巧妙之處在于,它不是基于人為的主觀判斷,而是基于當(dāng)前最先進(jìn)AI系統(tǒng)的客觀表現(xiàn)。這就像是根據(jù)全班學(xué)生的考試成績來劃分題目難度,既反映了當(dāng)前技術(shù)水平的真實(shí)狀況,又為未來的技術(shù)進(jìn)步提供了明確的目標(biāo)。
研究團(tuán)隊(duì)還為每個(gè)干擾維度設(shè)計(jì)了詳細(xì)的參數(shù)控制系統(tǒng)。以光照變化為例,他們不是簡單地改變整體亮度,而是分別控制漫反射顏色、光源方向、鏡面反射強(qiáng)度和陰影開關(guān)四個(gè)獨(dú)立參數(shù)。這種精細(xì)化的控制使得研究人員能夠準(zhǔn)確定位機(jī)器人在哪些具體方面存在弱點(diǎn)。
更重要的是,LIBERO-Plus平臺實(shí)現(xiàn)了完全自動(dòng)化的任務(wù)生成和評估流程。這意味著研究人員可以快速生成大量測試案例,而不需要人工設(shè)計(jì)每一個(gè)具體任務(wù)。這種自動(dòng)化程度就像是有了一個(gè)能夠自動(dòng)出題、自動(dòng)閱卷的智能考試系統(tǒng),大大提高了測試效率和覆蓋范圍。
平臺的另一個(gè)創(chuàng)新之處是引入了"失敗模式分析"功能。當(dāng)機(jī)器人在某個(gè)任務(wù)上失敗時(shí),系統(tǒng)不僅記錄失敗的事實(shí),還會(huì)分析失敗的具體原因和模式。比如,是因?yàn)槟繕?biāo)定位錯(cuò)誤、路徑規(guī)劃失敗,還是執(zhí)行動(dòng)作不準(zhǔn)確。這種詳細(xì)的失敗分析就像是給機(jī)器人做了一次全面的"體檢",幫助開發(fā)者準(zhǔn)確找到問題所在。
八、訓(xùn)練數(shù)據(jù)多樣化的嘗試——能否解決根本問題
意識到當(dāng)前機(jī)器人的脆弱性主要源于訓(xùn)練數(shù)據(jù)的單一性,研究團(tuán)隊(duì)嘗試了一個(gè)直觀的解決方案:使用更加多樣化的訓(xùn)練數(shù)據(jù)來訓(xùn)練機(jī)器人。他們構(gòu)建了一個(gè)包含超過2萬個(gè)成功軌跡的擴(kuò)展訓(xùn)練數(shù)據(jù)集,這些數(shù)據(jù)涵蓋了各種不同的環(huán)境條件和干擾因素。
這種方法的邏輯就像是為了讓學(xué)生適應(yīng)各種考試環(huán)境,不僅讓他們在標(biāo)準(zhǔn)教室里做題,還讓他們在圖書館、咖啡館、戶外等各種環(huán)境中練習(xí)。理論上,接觸過更多環(huán)境變化的學(xué)生應(yīng)該更容易適應(yīng)考試時(shí)的環(huán)境干擾。
數(shù)據(jù)集的構(gòu)建過程相當(dāng)復(fù)雜。研究團(tuán)隊(duì)需要確保新生成的訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)之間沒有重疊,避免機(jī)器人簡單地記憶答案。同時(shí),他們還要平衡不同類型干擾的比例,確保機(jī)器人不會(huì)偏向于處理某一類特定的變化。這個(gè)過程就像是為學(xué)生準(zhǔn)備一套既全面又平衡的練習(xí)題庫,既要涵蓋所有可能的考點(diǎn),又要避免重復(fù)或偏向某些題型。
使用這個(gè)擴(kuò)展數(shù)據(jù)集訓(xùn)練的機(jī)器人確實(shí)表現(xiàn)出了顯著的改善。在LIBERO-Plus基準(zhǔn)測試中,新訓(xùn)練的機(jī)器人總體成功率達(dá)到了79.6%,比之前的最佳表現(xiàn)提高了11.5個(gè)百分點(diǎn)。更令人鼓舞的是,在最具挑戰(zhàn)性的攝像頭視角變化測試中,新模型的成功率達(dá)到了92.8%,比之前的最佳模型高出了37.2個(gè)百分點(diǎn)。
這種提升特別在處理傳感器噪聲和物體布局變化方面表現(xiàn)明顯。新模型在噪聲環(huán)境中的成功率達(dá)到了89.3%,在布局變化測試中達(dá)到了77.6%,都顯著超過了之前的模型。這些改善表明,通過增加訓(xùn)練數(shù)據(jù)的多樣性,確實(shí)可以在一定程度上提高機(jī)器人的魯棒性。
但研究團(tuán)隊(duì)也發(fā)現(xiàn),這種改善并不是在所有方面都同樣有效。比如,在機(jī)器人初始狀態(tài)變化的測試中,改善幅度相對較小(僅提高了8.6個(gè)百分點(diǎn))。這表明某些類型的泛化挑戰(zhàn)可能需要更加根本性的架構(gòu)改進(jìn),而不僅僅是更多的訓(xùn)練數(shù)據(jù)。
更重要的是,即使是改進(jìn)后的模型,在面對多重干擾的組合挑戰(zhàn)時(shí)仍然表現(xiàn)出明顯的脆弱性。這說明單純增加訓(xùn)練數(shù)據(jù)的多樣性可能無法完全解決當(dāng)前AI機(jī)器人的根本性問題。就像是一個(gè)學(xué)生即使做了很多不同類型的練習(xí)題,如果缺乏對基礎(chǔ)概念的深入理解,面對全新的復(fù)雜問題時(shí)仍然可能束手無策。
九、行業(yè)反思與未來展望——從"應(yīng)試教育"到真正智能
復(fù)旦團(tuán)隊(duì)的研究成果不僅是對當(dāng)前AI機(jī)器人能力的一次深度"體檢",更是對整個(gè)行業(yè)發(fā)展方向的一次深刻反思。他們的發(fā)現(xiàn)揭示了一個(gè)令人深思的現(xiàn)象:當(dāng)前的AI機(jī)器人更像是"應(yīng)試教育"培養(yǎng)出來的高分學(xué)生,而不是具備真正理解能力的智能體。
這種"應(yīng)試教育"式的AI開發(fā)模式在整個(gè)行業(yè)中都很普遍。開發(fā)者們往往專注于在特定基準(zhǔn)測試中獲得高分,就像學(xué)校專注于提高升學(xué)率一樣。機(jī)器人在標(biāo)準(zhǔn)測試中的95%成功率看起來非常impressive,但這種高分往往是通過過度擬合特定測試條件獲得的,而不是通過真正理解任務(wù)本質(zhì)獲得的。
研究結(jié)果表明,當(dāng)前的機(jī)器人學(xué)習(xí)方式存在幾個(gè)根本性的問題。首先是過度依賴位置記憶而非語義理解。機(jī)器人更像是在學(xué)習(xí)"在特定位置做特定動(dòng)作"的映射關(guān)系,而不是理解"什么是蘋果,如何識別蘋果,如何抓取蘋果"這樣的概念性知識。
其次是多模態(tài)融合的表面化。盡管被稱為"視覺-語言-行為"模型,但實(shí)際上大多數(shù)機(jī)器人并沒有真正整合這三種模態(tài)的信息。語言輸入往往被忽略,視覺信息也只是作為模式匹配的依據(jù),而不是用于構(gòu)建對環(huán)境的深層理解。
第三是缺乏因果推理能力。當(dāng)前的機(jī)器人無法理解"為什么"要執(zhí)行某個(gè)動(dòng)作,只能記住"什么時(shí)候"執(zhí)行某個(gè)動(dòng)作。這種缺陷使得它們無法適應(yīng)環(huán)境的變化,因?yàn)樗鼈儚膩頉]有真正理解過行為背后的邏輯。
面對這些挑戰(zhàn),研究團(tuán)隊(duì)提出了幾個(gè)可能的發(fā)展方向。首先是開發(fā)真正的多模態(tài)理解架構(gòu),而不是簡單地將不同模態(tài)的信息拼接在一起。機(jī)器人需要學(xué)會(huì)在視覺、語言和行為之間建立深層的語義連接。
其次是引入因果推理和常識知識。機(jī)器人不僅需要知道"怎么做",更需要理解"為什么這么做"。這可能需要整合更多的先驗(yàn)知識和推理能力。
第三是開發(fā)更加魯棒的學(xué)習(xí)算法。當(dāng)前的深度學(xué)習(xí)方法在面對分布偏移時(shí)往往表現(xiàn)脆弱,需要開發(fā)能夠更好處理環(huán)境變化的新方法。
研究團(tuán)隊(duì)還強(qiáng)調(diào)了評估體系改革的重要性。他們呼吁行業(yè)不要只關(guān)注在標(biāo)準(zhǔn)測試中的高分表現(xiàn),而要更多關(guān)注機(jī)器人在真實(shí)復(fù)雜環(huán)境中的穩(wěn)定性和可靠性。LIBERO-Plus平臺的開源發(fā)布就是希望為行業(yè)提供一個(gè)更加全面、嚴(yán)格的評估標(biāo)準(zhǔn)。
展望未來,真正智能的機(jī)器人應(yīng)該像人類一樣,能夠在各種環(huán)境變化中保持穩(wěn)定的任務(wù)執(zhí)行能力。它們應(yīng)該能夠真正理解語言指令,靈活適應(yīng)環(huán)境變化,并在面對新情況時(shí)展現(xiàn)出合理的推理能力。這樣的機(jī)器人才能真正走出實(shí)驗(yàn)室,成為人們?nèi)粘I钪锌煽康闹帧?/p>
說到底,復(fù)旦團(tuán)隊(duì)的這項(xiàng)研究為我們敲響了一個(gè)警鐘:在追求AI機(jī)器人商業(yè)化的熱潮中,我們不能被表面的高分表現(xiàn)所迷惑,而要關(guān)注這些系統(tǒng)的真實(shí)能力和局限性。只有正視問題,才能找到解決問題的正確道路。就像教育改革需要從應(yīng)試教育向素質(zhì)教育轉(zhuǎn)變一樣,AI機(jī)器人的發(fā)展也需要從追求基準(zhǔn)測試高分向構(gòu)建真正智能的系統(tǒng)轉(zhuǎn)變。
這項(xiàng)研究的價(jià)值不僅在于揭示了問題,更在于為整個(gè)行業(yè)提供了一個(gè)重新審視和改進(jìn)的機(jī)會(huì)。相信隨著更多研究者的關(guān)注和努力,我們終將看到真正智能、可靠的機(jī)器人助手走進(jìn)千家萬戶。畢竟,真正的人工智能應(yīng)該是能夠理解我們、適應(yīng)環(huán)境、可靠工作的伙伴,而不是只會(huì)在完美條件下表演的"花瓶"。
Q&A
Q1:LIBERO-Plus測試平臺有什么特別之處?
A:LIBERO-Plus是復(fù)旦團(tuán)隊(duì)開發(fā)的AI機(jī)器人綜合測試平臺,包含超過1萬個(gè)測試任務(wù),從7個(gè)維度(物品擺放、攝像頭角度、機(jī)器人姿態(tài)、語言指令、光照條件、背景材質(zhì)、傳感器噪聲)全面測試機(jī)器人的真實(shí)能力,就像給機(jī)器人設(shè)計(jì)的"全科考試",能準(zhǔn)確發(fā)現(xiàn)那些在標(biāo)準(zhǔn)測試中表現(xiàn)優(yōu)異但實(shí)際能力有限的AI系統(tǒng)。
Q2:為什么機(jī)器人在改變攝像頭角度后表現(xiàn)會(huì)急劇下降?
A:因?yàn)楝F(xiàn)在的AI機(jī)器人并沒有真正理解三維空間和物體的幾何關(guān)系,而是死記硬背了特定角度下的視覺模式。就像一個(gè)人從小只在固定位置看電視,一旦換個(gè)角度就認(rèn)不出屏幕內(nèi)容。比如OpenVLA機(jī)器人,標(biāo)準(zhǔn)條件下成功率76.5%,但攝像頭角度稍有變化就跌至1.1%。
Q3:AI機(jī)器人真的能理解人類的語言指令嗎?
A:研究發(fā)現(xiàn)大部分AI機(jī)器人實(shí)際上是"裝聾作啞"的。當(dāng)研究團(tuán)隊(duì)完全移除語言指令時(shí),多數(shù)機(jī)器人的表現(xiàn)幾乎沒有下降;即使故意更換任務(wù)目標(biāo)(比如從"拿蘋果"改為"拿橘子"),機(jī)器人仍然執(zhí)行原來的動(dòng)作。這表明它們主要依靠視覺模式識別,語言理解更像是裝飾功能。





京公網(wǎng)安備 11011402013531號