![]()
這項由加州大學圣地亞哥分校的Shresth Grover、中佛羅里達大學的Priyank Pathak、Akash Kumar、Yogesh S Rawat,以及微軟研究院的Vibhav Vineet共同完成的研究發表于2025年12月,論文編號為arXiv:2512.10342v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。
當我們談論人工智能時,往往會被那些令人驚嘆的成就所吸引:能夠生成精美圖片的AI、可以流暢對話的聊天機器人,以及在各種任務中表現出色的視覺語言模型。但是,當我們真正需要這些AI系統在現實世界中執行復雜任務時,比如指導機器人整理房間、規劃行走路徑,或是完成多步驟的操作序列時,一個令人意外的問題浮現了:這些看起來聰明絕頂的AI系統,在面對需要多個步驟才能完成的任務時,表現得就像一個容易迷路的新手司機。
更令人困擾的是,在現實世界中,錯誤是不可避免的。就像我們在做菜時可能會放錯調料,或者在組裝家具時擰錯螺絲一樣,AI系統在執行多步驟任務時也會犯錯。問題的關鍵在于:當AI犯了錯誤后,它們能否像一個經驗豐富的廚師那樣,發現問題所在并及時調整,最終還是能做出一道美味的菜肴?
研究團隊發現,目前最先進的視覺語言模型,包括我們熟知的GPT-4o、InternVLM等,在這種需要"糾錯重來"的場景中表現令人擔憂。當這些AI系統需要識別之前步驟中的錯誤,并制定新的計劃來達成最終目標時,它們的表現幾乎等同于隨機猜測。這就好比一個人在走迷宮時,即使知道終點在哪里,也看得見起點,但就是無法發現自己在中途走錯了路,更別說找到正確的路徑繼續前進。
為了深入研究這個問題,研究團隊開發了一個名為CoSPlan(Corrective Sequential Planning,糾錯式序列規劃)的測試基準。這個基準就像一個專門設計的"考試卷",用來檢驗AI系統在面對包含錯誤的多步驟任務時的表現。
一、當AI遇到"走錯路"的挑戰:CoSPlan基準的誕生
CoSPlan基準的核心思想可以用一個簡單的生活場景來理解。假設你要從家里到一個新的購物中心,你已經按照導航走了一半的路程,但突然發現剛才在某個路口走錯了方向。這時候,你需要做兩件事:第一,找出你在哪一步走錯了(錯誤檢測);第二,從當前位置制定新的路徑到達目的地(步驟完成)。
CoSPlan基準正是模擬了這樣的情況,但針對的是AI系統。研究團隊精心設計了四個不同的測試場景,每個都代表著現實世界中可能遇到的不同類型挑戰。
第一個場景是迷宮導航任務(Maze-E)。這就像給AI一個簡單的走迷宮游戲,告訴它起點和終點,然后給出一系列已經執行的移動步驟,但其中包含一個錯誤的步驟,比如撞到了墻壁或者走進了死胡同。AI需要識別出這個錯誤,然后找到從當前位置到達終點的正確路徑。
第二個場景是積木重新排列任務(Blocks-World-E)。可以把這想象成一個兒童積木游戲,你有不同顏色的積木塊,需要按照特定的順序堆疊起來。系統會給出一系列已經執行的移動指令,但其中有一步是錯誤的,比如把紅色積木放到了錯誤的位置。AI需要發現這個錯誤,并制定正確的步驟來完成最終的積木排列。
第三個場景是圖片重建任務(Shuffle-E)。這類似于拼圖游戲,一張完整的圖片被分割成若干個小塊并打亂了順序。系統會提供一系列交換圖片塊的操作記錄,但其中包含錯誤的交換。AI需要識別錯誤并找到正確的交換序列來恢復原始圖片。
第四個場景是真實世界物體重新組織任務(Robo-VQA-E)。這個場景最接近現實應用,涉及真實的物品擺放和整理。比如,要求將桌子上的各種物品按照特定方式擺放,系統提供一系列已執行的操作,但其中包含錯誤的步驟,如把某個物品放錯了位置。
這四個測試場景覆蓋了從簡單的幾何導航到復雜的現實世界操作的各種情況,總共包含了數萬個測試樣本。每個測試都被設計成多選題的形式,AI需要從幾個選項中選擇正確的答案,就像人類參加選擇題考試一樣。
二、令人意外的測試結果:頂級AI的"盲點"
當研究團隊將這些測試題交給目前最先進的AI系統時,結果令人震驚。包括GPT-4o、CoG-VLM、InternVLM-26B、Qwen2 VL-8B、Janus-pro-7B在內的五個頂級視覺語言模型,在這些看似簡單的任務上表現得異常糟糕。
最令人震驚的發現是,大多數模型的表現幾乎等同于隨機猜測。想象一下,如果你讓一個人閉著眼睛隨機選擇答案,他們的正確率大約是20%(因為有5個選項)。而這些被譽為"智能"的AI系統,在CoSPlan測試中的表現往往就在這個水平左右,有些甚至更差。
在錯誤檢測任務中,AI系統需要從一系列已執行的步驟中找出哪一步是錯誤的。就像在一串珍珠項鏈中找出那顆有瑕疵的珍珠一樣。但測試結果顯示,這些AI系統在這個任務上表現得像是色盲的珠寶鑒定師,幾乎無法準確識別出問題所在。
在步驟完成任務中,情況同樣不樂觀。給定了起始狀態、目標狀態,以及包含錯誤的執行歷史,AI需要制定一個新的行動計劃來達成目標。這就像一個廚師在做菜過程中發現鹽放多了,需要想辦法補救并最終做出美味的菜肴。但測試結果表明,這些AI系統往往無法制定出合理的補救方案。
更有趣的是,研究團隊發現了一些AI行為模式上的"怪癖"。比如,有些模型表現出明顯的選項偏好,會過度頻繁地選擇選項A,就像一個考試時緊張的學生總是習慣性地選擇第一個答案一樣。Janus模型甚至在94%的情況下都選擇選項A,這顯然不是基于對問題內容的理解,而更像是一種機械性的反應。
另一個發現是,當問題不包含錯誤時,這些AI系統的表現要好得多。GPT-4o在無錯誤情況下可以達到接近完美的準確率,但一旦引入錯誤,性能就急劇下降。這就像一個習慣了標準食譜的廚師,當食譜沒有問題時可以做出完美的菜肴,但一旦食譜中有錯誤信息,就完全不知所措了。
研究還發現了一個有趣的現象:AI系統更擅長處理"顯而易見"的錯誤,比如嘗試移動場景中不存在的物體,但對于那些看起來合理但實際上并非最優的步驟,它們就難以識別了。這就像人們容易發現明顯的語法錯誤,但對于微妙的邏輯謬誤就可能視而不見。
三、探索解決方案:鏈式思維和場景圖方法
面對這些令人困擾的結果,研究團隊并沒有止步于發現問題,而是積極探索可能的解決方案。他們嘗試了兩種在AI領域頗具聲譽的推理增強技術:鏈式思維(Chain-of-Thought,CoT)和場景圖(Scene Graph,SG)。
鏈式思維方法就像是教AI"出聲思考"。當人們解決復雜問題時,往往會在心中或者口頭上一步步分析:"首先我需要做什么,然后做什么,最后做什么。" 鏈式思維方法試圖讓AI也采用這種逐步分析的方式。研究團隊為AI提供了詳細的分析框架,包括識別問題約束、描述初始情況、逐步規劃路徑,以及驗證所有約束條件是否滿足。
場景圖方法則像是讓AI建立一個"心理地圖"。就像我們在腦海中構建對房間布局的三維印象一樣,場景圖方法要求AI將視覺場景轉換為結構化的表示,包括物體、它們的屬性(如顏色、大小)、空間關系(如"在...上方"、"靠近..."),以及它們之間的相互作用。
實驗結果顯示,這兩種方法確實能夠帶來一定的改善。鏈式思維方法通過讓AI更有條理地分析問題,提高了整體的推理質量。場景圖方法通過提供更結構化的場景表示,幫助AI更好地理解復雜的空間關系。
但是,即使采用了這些先進技術,AI系統在CoSPlan基準上的表現仍然遠未達到令人滿意的水平。特別是在處理包含錯誤的序列時,這些方法的改善效果有限。這就像給一個方向感不好的人提供了指南針和地圖,雖然有所幫助,但他們仍然容易在復雜路況中迷路。
四、突破性創新:場景圖增量更新技術
認識到現有方法的局限性后,研究團隊開發了一種全新的解決方案:場景圖增量更新(Scene Graph Incremental updates,SGI)。這個方法的核心思想可以用電影制作的概念來理解。
傳統的場景圖方法就像只看電影的第一幀和最后一幀,然后試圖推斷中間發生了什么。而SGI方法則像是逐幀觀看電影,記錄每一個場景變化的細節。具體來說,SGI會為序列中的每一個動作步驟生成相應的中間狀態表示,就像創建一系列連續的快照。
SGI的工作流程可以分為三個主要階段。第一個階段是建立初始和目標的場景圖表示,這就像為電影的開頭和結尾拍攝定格照片。第二個階段是增量場景更新,系統會模擬每一個動作對場景的影響,逐步更新場景圖。這就像制作動畫時的逐幀繪制過程,每一幀都在前一幀的基礎上進行微調。
第三個階段是相似度比較。對于每個可能的行動選項,系統都會模擬其執行結果,并將結果與目標狀態進行比較,選擇最匹配的選項。這就像一個導演在多個結局中選擇最符合故事主題的那一個。
SGI方法的關鍵創新在于它不再試圖在單一步驟中從初始狀態跳躍到最終狀態,而是建立了一系列中間橋梁。這就像建造一座橋梁,不是試圖一跨越過整條河流,而是在河中設置多個支撐點,讓橋梁更加穩固和可靠。
五、顯著的性能提升和廣泛適用性
SGI方法的測試結果令人振奮。在CoSPlan基準的各項測試中,SGI都帶來了顯著的性能提升。對于步驟完成任務,使用InternVLM模型時,SGI在不同測試場景中帶來了1.8%到10.3%的改善。對于GPT-4o模型,改善幅度在1%到10%之間。
在錯誤檢測任務中,SGI的表現更加出色。使用InternVLM時,改善幅度達到了1.4%到5.6%,而使用GPT-4o時,最高改善幅度達到了13.2%。這意味著AI系統發現錯誤的能力得到了大幅提升。
更令人鼓舞的是,SGI的優勢不僅限于包含錯誤的場景。即使在沒有錯誤的理想情況下,SGI同樣能夠提升AI系統的表現。這就像一個優秀的導航系統,不僅能在遇到路障時找到替代路線,在正常情況下也能提供更高效的路徑規劃。
為了驗證SGI方法的普適性,研究團隊還在其他類型的任務上進行了測試。在視覺問答(VQA)任務中,SGI同樣展現出了改善效果。這些任務雖然不涉及序列規劃,但需要對靜態場景進行深入理解和推理。SGI通過其獨特的逐步分析方法,幫助AI系統更好地理解復雜場景。
研究團隊還在PlanBench這個專門的規劃基準上測試了SGI。即使在純文本環境中(沒有視覺信息),SGI也顯示出了改善效果,進一步證明了這種方法的通用性和魯棒性。
六、深入分析:為什么SGI如此有效
要理解SGI為什么如此有效,我們可以用學習駕駛的過程來類比。當一個新手司機學習駕駛時,教練不會只告訴他起點和終點,然后期望他一次性規劃出完美的路線。相反,教練會陪同學員逐段練習,在每個重要路口提供指導,逐步建立對整個路線的理解。
SGI方法正是采用了這種逐步指導的策略。傳統的場景圖方法就像給新手司機一張地圖,告訴他起點和終點,然后期望他能夠一次性規劃出完美路線。而SGI則像是經驗豐富的教練,在整個旅程中提供持續的指導和糾正。
SGI的另一個關鍵優勢在于它能夠捕捉動態變化。在現實世界中,每一個動作都會改變環境狀態,就像投石入水會產生漣漪一樣。傳統方法往往忽略了這些細微但重要的變化,而SGI通過逐步更新場景表示,能夠準確跟蹤這些變化。
此外,SGI還解決了AI系統在長序列推理中的一個根本問題:記憶負擔。當需要同時考慮多個步驟和復雜狀態時,AI系統往往會像一個試圖同時記住太多信息的人一樣出現"短路"。SGI通過將復雜問題分解為一系列簡單的步驟,大大減輕了AI系統的認知負擔。
七、現實世界的意義和未來影響
SGI方法的成功不僅僅是學術研究的突破,更重要的是它為AI在現實世界中的應用開辟了新的可能性。在機器人技術領域,SGI可以幫助機器人更好地執行復雜的任務序列,比如整理房間、準備餐食,或者組裝產品。當機器人在執行過程中遇到意外情況或犯錯時,SGI能夠幫助它們快速識別問題并調整策略。
在自動駕駛領域,SGI的價值同樣顯著。自動駕駛汽車需要在復雜的交通環境中做出一系列決策,而且必須能夠應對突發情況。SGI提供的逐步規劃和錯誤糾正能力,可以讓自動駕駛系統更加安全和可靠。
在智能家居和個人助手領域,SGI可以讓AI系統更好地理解和執行復雜的多步驟指令。比如,當用戶說"幫我準備明天的會議資料"時,AI需要執行查找文檔、整理信息、發送郵件等多個步驟,SGI可以確保這個過程更加順暢和準確。
八、研究的局限性和未來發展方向
盡管SGI方法取得了顯著成功,研究團隊也誠實地指出了當前研究的一些局限性。首先,CoSPlan基準目前只考慮了包含單個錯誤的情況。在現實世界中,錯誤往往會連鎖反應,一個錯誤可能導致后續的多個錯誤。如何處理包含多個錯誤的復雜情況,仍然是一個有待解決的挑戰。
其次,當前的研究主要集中在2D視覺任務上。雖然這為理解AI系統的基本能力提供了良好的基礎,但現實世界的應用往往涉及更復雜的3D環境。如何將SGI方法擴展到視頻處理和3D場景理解,是未來研究的重要方向。
另一個需要考慮的問題是計算效率。SGI方法通過逐步處理每個動作步驟,提高了推理質量,但也增加了計算負擔。在每個步驟都需要進行場景圖更新和相似度比較的情況下,如何平衡性能提升和計算成本,是實際應用中需要解決的問題。
研究團隊還指出,當前的SGI方法依賴于AI系統生成的場景圖表示,而這些表示本身可能包含噪聲或錯誤。如何提高場景圖生成的質量和魯棒性,是進一步改善SGI效果的關鍵。
九、對AI發展的深遠影響
CoSPlan基準和SGI方法的提出,不僅為解決特定技術問題提供了方案,更重要的是為AI研究界提供了新的思考角度。長期以來,AI研究更多關注在理想條件下的性能表現,而忽略了現實世界中無處不在的錯誤和不確定性。
這項研究提醒我們,真正的智能不僅在于做正確的事情,更在于能夠識別和糾正錯誤。人類智能的一個重要特征就是從錯誤中學習和適應的能力。當我們走錯路時,我們能夠意識到錯誤,重新規劃路線;當我們在工作中犯錯時,我們能夠反思原因,調整方法。
SGI方法向這個目標邁出了重要一步。它不是簡單地讓AI避免錯誤,而是讓AI具備了處理錯誤的能力。這種能力對于AI系統在現實世界中的部署至關重要。
此外,這項研究也揭示了當前視覺語言模型的一個重要盲區。盡管這些模型在許多任務上表現出色,但在需要多步推理和錯誤處理的情況下仍然存在顯著不足。這提醒我們,AI的發展仍有很長的路要走,我們不能因為在某些領域的成功而忽視其他重要能力的培養。
說到底,這項研究為我們展現了一個更加真實和全面的AI能力圖景。它不僅指出了當前AI系統的不足,更重要的是提供了改進的方向和方法。SGI技術的成功證明,通過巧妙的算法設計和深入的問題分析,我們可以顯著提升AI系統在復雜現實場景中的表現。
對于普通人來說,這項研究意味著未來的AI助手將更加可靠和實用。當你的智能家居系統在執行復雜指令時出現小差錯,它將能夠自我糾正而不是完全停止工作。當自動駕駛汽車面對意外路況時,它將能夠快速調整策略而不是陷入困境。
這項研究還告訴我們,AI技術的發展并非一帆風順,每一個看似簡單的問題背后都可能隱藏著復雜的技術挑戰。但正是通過不斷發現問題、分析問題、解決問題的過程,AI技術才能真正走向成熟。CoSPlan基準和SGI方法的提出,正是這個發展過程中的重要里程碑。
有興趣深入了解這項研究的讀者,可以通過論文編號arXiv:2512.10342v1查詢完整的技術細節。研究團隊承諾將公開相關代碼和數據集,為后續研究提供支持,這也體現了科學研究開放合作的精神。
Q&A
Q1:CoSPlan基準是什么?
A:CoSPlan是一個專門測試AI系統糾錯能力的測試基準,包含四個不同場景:迷宮導航、積木排列、圖片拼接和真實物品整理。它模擬了AI在執行多步驟任務時遇到錯誤的情況,考驗AI能否發現錯誤并制定正確的后續行動計劃。
Q2:為什么現在的AI系統在CoSPlan測試中表現這么差?
A:主要原因是現有AI系統缺乏處理序列中錯誤的能力。它們更像是只能按照完美食譜做菜的廚師,一旦食譜中有錯誤就完全不知所措。這些系統在訓練時很少接觸包含錯誤的序列,因此缺乏糾錯經驗。
Q3:SGI場景圖增量更新技術是如何工作的?
A:SGI技術就像制作動畫時的逐幀繪制,為序列中每個步驟創建詳細的場景快照。它不是試圖一次性從開始跳到結束,而是逐步追蹤每個動作對環境的影響,最后通過比較不同選項的結果來選擇最佳方案。





京公網安備 11011402013531號