![]()
這項由中國電信人工智能研究院的楊思遠、張洋等研究人員聯合清華大學、中科大、香港科技大學的研究團隊共同完成的研究,于2024年12月2日發布在arXiv預印本平臺上,論文編號為arXiv:2512.02834v1。有興趣深入了解的讀者可以通過這個編號查詢完整論文。
當我們看到一個熟練的廚師在廚房里工作時,會發現他們總是能夠精準地完成每一個動作——切菜時刀起刀落干脆利落,調味時分量恰到好處,端盤時穩如泰山。然而,現在的機器人卻常常像是一個剛學做飯的新手,雖然已經學會了基本技能,但在實際操作時總是會出現各種意外狀況。有時候它們會突然"手抖",有時候又會選擇完全錯誤的動作,就像一個人明明知道怎么做菜,但每次下廚都可能把菜做糊。
這個問題的根源在于,現在的機器人就像是一個裝滿了各種烹飪知識的大腦,但缺乏一個"品嘗機制"來判斷自己即將做出的動作是否正確。它們在訓練時接收了大量的示范數據,就像看了無數個烹飪視頻,但其中既有大廚的精湛技藝,也有新手的笨拙操作,還有各種風格迥異的做法。當機器人真正開始行動時,它們往往會隨機地從這個龐大的"食譜庫"中選擇一種做法,而無法判斷哪種做法最適合當前的情況。
中國電信人工智能研究院的研究團隊注意到了這個關鍵問題,他們發現即使是同一個訓練有素的機器人,在面對相同任務時,僅僅因為內部"拋硬幣"(隨機性)的結果不同,成功率就可能從80%驟降到0%。這就像是一個會做菜的人,今天可能做出美味佳肴,明天卻可能把廚房燒了,完全取決于運氣。
研究團隊提出了一個名為"TACO"的創新解決方案,這個名字代表"Test-time Anti-exploration via pseudo-COunts",翻譯過來就是"通過偽計數在測試時進行反探索"。聽起來很技術化,但其核心思想其實就像給機器人安裝了一個"味覺系統",讓它能夠在行動前"品嘗"一下自己即將做出的動作,選擇最"美味"(最可靠)的那一個。
這個方法的巧妙之處在于,它不需要重新訓練機器人,而是在機器人行動的那一刻給它裝上了一個"智能顧問"。當機器人面臨選擇時,這個顧問會迅速生成多個可能的行動方案,然后像經驗豐富的老師傅一樣,通過"看一眼、聞一聞、想一想",判斷哪個方案最像訓練數據中那些成功的案例,然后建議機器人選擇那個最靠譜的方案。
這種方法的效果相當顯著。在真實的機器人實驗中,裝備了TACO系統的機器人的成功率平均提高了16%。在復雜的模擬環境中,改進效果更加明顯,某些任務的成功率提升甚至超過了20%。更重要的是,這個系統的運行效率很高,就像一個經驗豐富的助手,雖然需要多考慮幾秒鐘,但能夠顯著提高工作質量。
**一、機器人行為的"多重人格"問題**
要理解這項研究的重要性,我們需要先了解現代機器人面臨的一個根本性挑戰。現在的智能機器人就像是一個擁有多重技能的演員,它們通過觀看大量的示范視頻學會了各種動作。但問題是,這些示范視頻來源復雜多樣——有專業操作員的標準動作,有普通人的隨意操作,還有各種不同風格和水平的示范。
當機器人學習這些數據時,它們就像海綿一樣全部吸收,無法區分哪些是值得模仿的"黃金標準",哪些是應該避免的"負面教材"。更糟糕的是,即使是同樣優秀的示范,也可能存在多種不同的執行方式。比如抓取一個杯子,可以從頂部抓,也可以從側面抓,兩種方法都正確,但在特定情況下可能只有一種是最佳選擇。
研究團隊通過實驗發現了一個令人震驚的現象:同一個訓練良好的機器人,在執行完全相同的任務時,僅僅因為內部隨機種子的不同,成功率就會出現巨大差異。這就像一個經驗豐富的廚師,今天做菜可能得到五星好評,明天卻可能被投訴難以下咽,而唯一的區別就是他今天心情好壞。
這種現象在學術界被稱為"推理時不穩定性",但用更通俗的話來說,就是機器人患了"選擇困難癥"。它們擁有解決問題的所有技能和知識,但缺乏一個可靠的"決策系統"來在關鍵時刻做出最佳選擇。
傳統的解決方案通常是重新訓練機器人,讓它們學會更好的判斷。但這種方法有兩個致命缺陷:首先,重新訓練需要大量時間和計算資源,就像重新培養一個廚師需要數年時間;其次,在訓練過程中很難完全消除那些"有毒"的示范數據,因為它們往往與正確的示范數據混雜在一起,很難分離。
**二、"反探索"策略:從失敗中學習智慧**
研究團隊從離線強化學習領域借鑒了一個稱為"反探索"的策略思想。要理解這個概念,可以把它想象成一個經驗豐富的登山向導的工作方式。當面臨多條路徑選擇時,一個新手向導可能會鼓勵探索未知路徑,認為這樣可能發現更好的線路。但經驗豐富的向導知道,在危險的山區,最明智的選擇往往是堅持走那些已經被驗證安全可靠的路徑,而不是冒險嘗試未知路線。
"反探索"的核心思想就是讓機器人像經驗豐富的向導一樣行事:當面臨行動選擇時,不是隨機嘗試或探索新的可能性,而是優先選擇那些在歷史數據中被多次證明成功的行動模式。這種策略特別適合那些對安全性和可靠性要求很高的應用場景,比如工業機器人操作或醫療輔助設備。
但是,如何判斷一個行動是否"安全可靠"呢?這就需要一個評估機制。研究團隊設計了一個被稱為"偽計數估計器"的系統,它的工作原理類似于一個經驗豐富的質量檢查員。這個檢查員會查看機器人準備執行的每一個動作,然后快速回憶:"在我見過的所有成功案例中,類似這樣的動作出現了多少次?"出現次數越多的動作,就越可能是可靠的選擇。
這個偽計數估計器使用了一種被稱為"投幣網絡"(Coin Flipping Network)的技術。雖然名字聽起來像是在賭博,但實際上這是一種非常聰明的數學方法。它的工作原理就像一個圖書管理員,為每種類型的書籍都準備了一個特殊的"指紋"。當需要查找某本書時,管理員只需要檢查這個"指紋",就能快速判斷這本書在圖書館中的常見程度。
**三、"智能選擇器":機器人的決策顧問**
TACO系統的核心是一個"智能選擇器",它的工作方式就像一個經驗豐富的品酒師。當機器人面臨行動選擇時,這個選擇器會要求機器人先"釀造"多種不同的"行動方案",然后像品酒師品嘗不同的酒款一樣,仔細評估每個方案的"品質"。
具體來說,當機器人需要執行一個動作時,TACO系統會讓機器人同時生成多個可能的行動方案。這就像一個廚師在決定今天的菜單時,會先在心中構思幾種不同的搭配方案。然后,智能選擇器會使用內置的"經驗數據庫"來評估每個方案,判斷哪一個最接近那些歷史上成功的操作模式。
這個過程的巧妙之處在于,它充分利用了機器人已有的"內部表示"能力。現代的視覺-語言-動作機器人在處理信息時,會在內部形成一種復雜的"理解表示",就像人類在理解一個場景時會在大腦中形成一個綜合的認知圖像。TACO系統直接利用這些內部表示,而不需要額外訓練新的理解系統,這大大提高了效率。
為了確保這些內部表示的質量,研究團隊開發了一種稱為"高保真特征搜索"的技術。這個技術的工作原理就像一個攝影師在拍攝重要照片時會拍攝多張照片,然后從中選擇最清晰、最準確的那一張。對于每個訓練樣本,系統會生成多個帶有不同"噪聲"水平的版本,然后選擇最接近原始正確答案的那個版本的內部表示進行學習。
**四、效率優化:讓智慧選擇變得快速實用**
雖然生成多個行動方案然后進行選擇聽起來很合理,但如果實施不當,這個過程可能會變得極其緩慢,就像一個過分謹慎的司機在每個路口都要停下來思考十分鐘一樣,雖然安全但完全不實用。
研究團隊通過一個稱為"鍵值緩存優化"的技術巧妙地解決了這個效率問題。這個技術的工作原理就像一個高效的餐廳廚房。在繁忙的餐廳里,廚師們不會為每道菜都從頭開始準備所有配料,而是會預先準備一些通用的基礎食材和調料。當需要制作不同菜品時,廚師只需要在這些共同的基礎上添加特定的元素即可。
具體到TACO系統,當機器人需要評估多個行動方案時,系統會先處理所有方案共同的部分(比如對當前環境的理解),然后將這個共同部分的計算結果保存起來,供所有方案共享使用。這樣,系統只需要為每個方案計算其特有的部分,大大減少了重復計算。
實驗結果顯示,這種優化方法可以將計算時間減少73.2%,使得原本可能需要幾分鐘才能完成的決策過程縮短到幾秒鐘。這種效率提升對于實際應用來說至關重要,因為在真實世界中,機器人往往需要在很短的時間內做出反應。
**五、實驗驗證:從模擬到現實的全面測試**
為了驗證TACO系統的有效性,研究團隊進行了一系列全面的實驗,涵蓋了從計算機模擬環境到真實機器人平臺的各種場景。這些實驗就像是對一個新藥進行從實驗室到臨床的全面測試,確保其在各種條件下都能穩定有效地工作。
在模擬環境中,研究團隊使用了四個不同的基準測試平臺,包括RoboTwin1.0、RoboTwin2.0、LIBERO和SimplerEnv。這些平臺涵蓋了各種不同類型的機器人任務,從簡單的物體抓取到復雜的雙臂協調操作,從單一任務到長序列任務組合。
實驗結果非常令人鼓舞。在RoboTwin1.0基準測試中,裝備了TACO系統的機器人平均成功率提高了9.1%。在一些特別困難的任務中,改進效果更加顯著。比如在"容器放置"任務中,成功率從25%提高到40%,提升幅度達到15個百分點。在"雙瓶抓取簡單"任務中,成功率從60%提高到70%。
更有趣的是,研究團隊還將TACO系統應用到了不同類型的基礎機器人模型上,驗證了其通用性。無論是基于流匹配技術的π0模型,還是基于自回歸技術的OpenVLA模型,裝備TACO系統后都顯示出了顯著的性能提升。這說明TACO系統就像一個通用的"智能插件",可以為各種不同架構的機器人提供決策輔助。
在真實世界的實驗中,研究團隊使用了一個配備雙臂的RealMan75機器人進行測試。這個機器人需要執行五種不同的日常任務:接收書本、存儲充電器、處理紙和筆、操作筆記本電腦,以及抓取書籍。這些任務都是日常生活中常見的操作,但對機器人來說卻充滿挑戰,因為它們需要精確的手眼協調和對環境的準確理解。
真實世界實驗的結果更加令人印象深刻。平均成功率提升了16%,在一些復雜任務中提升幅度甚至達到25%。特別值得注意的是,TACO系統不僅提高了成功率,還顯著改善了機器人動作的穩定性和流暢性。在沒有TACO系統的情況下,機器人經常會出現猶豫、重復動作或選擇明顯錯誤的抓取方式,而裝備了TACO系統后,這些問題基本消失了。
**六、深入機制分析:為什么TACO系統如此有效**
為了更好地理解TACO系統的工作機制,研究團隊進行了一系列深入的分析實驗。這些分析就像對一臺精密儀器進行拆解檢查,目的是理解每個組件是如何貢獻到整體性能的。
首先,研究團隊驗證了偽計數估計器的有效性。他們發現,由CFN(投幣網絡)計算出的"行動可靠性分數"與實際的"動作質量"之間存在強烈的相關性。具體來說,那些被CFN評為高分的行動方案,往往確實更接近訓練數據中的成功示范,而低分的方案則往往對應著那些容易導致失敗的行動模式。
更有趣的是,研究團隊發現TACO系統能夠有效識別并避免那些"看起來正確但實際危險"的行動。這些行動在表面上看起來合理,但實際執行時往往會導致失敗。這就像一個經驗豐富的司機能夠識別出某些看似安全實際危險的駕駛行為,比如在濕滑路面上過快轉彎。
研究團隊還分析了不同組件的重要性。他們發現,如果移除CFN偽計數估計器,系統性能會顯著下降;如果不使用內部表示而是訓練獨立的特征提取器,性能同樣會大幅降低;如果不進行高保真特征搜索,系統的判斷準確性會受到影響。這些分析證明了TACO系統中每個組件都是必要的,它們共同構成了一個高效的決策系統。
**七、技術創新的廣泛影響**
TACO系統的意義遠遠超出了單純的技術改進,它代表了機器人智能發展的一個重要方向。傳統的機器人訓練方法就像是"填鴨式教育",通過大量重復訓練讓機器人記住各種操作模式,但缺乏靈活的判斷能力。而TACO系統則更像是培養"批判性思維",讓機器人學會在行動前進行理性評估。
這種方法的一個重要優勢是它的"即插即用"特性。與需要重新訓練整個系統的傳統改進方法不同,TACO系統可以很容易地集成到現有的機器人系統中,就像給汽車安裝一個新的導航系統一樣簡單。這意味著那些已經投入大量資源訓練的機器人系統可以在不重新開始的情況下獲得顯著的性能提升。
此外,TACO系統的設計理念也為未來的機器人發展提供了新的思路。它表明,有時候提升機器人性能的關鍵不在于讓它們學習更多的技能,而在于讓它們學會更好地使用已有的技能。這就像提升一個人的能力,有時候重點不是學習新知識,而是學會如何更好地整合和應用已有知識。
從更廣闊的角度來看,TACO系統的成功也反映了人工智能發展的一個重要趨勢:從"大而全"向"精而準"轉變。早期的AI系統往往追求覆蓋盡可能多的場景和任務,但現在越來越多的研究開始關注如何讓AI系統在特定場景下做出更可靠、更精準的決策。
**八、面向未來的技術展望**
雖然TACO系統已經顯示出了顯著的效果,但研究團隊也誠實地指出了目前技術的一些局限性。比如,系統目前只能從已有的行動模式中進行選擇,而無法創造全新的行動方案。這就像一個經驗豐富的廚師雖然能夠選擇最佳的烹飪方法,但可能無法發明全新的菜譜。
另一個限制是系統的性能在很大程度上依賴于底層機器人模型的表示能力。如果基礎模型本身存在缺陷,TACO系統雖然能夠改善性能,但改善程度會受到限制。這就像一個再好的指揮家也無法讓一個基礎薄弱的樂團演奏出完美的音樂。
盡管存在這些局限性,TACO系統為未來的研究開辟了幾個有趣的方向。首先,研究團隊提出可以將類似的"測試時優化"方法應用到其他類型的AI系統中,比如語言模型或圖像生成模型。其次,可以進一步改進偽計數估計器的設計,讓它能夠更準確地評估行動質量。最后,可以探索如何將TACO系統與在線學習方法結合,讓機器人能夠在實際使用過程中持續改進自己的決策能力。
從產業應用的角度來看,TACO系統的成功也預示著智能機器人即將迎來一個新的發展階段。隨著這類技術的成熟,我們可能會看到更多可靠、穩定的機器人助手出現在我們的日常生活中,從家庭服務到工業生產,從醫療護理到教育培訓。
歸根結底,TACO系統的核心貢獻在于它提供了一種讓機器人"三思而后行"的方法。在一個越來越需要可靠自動化系統的世界里,這種能夠在關鍵時刻做出明智決策的技術將變得越來越重要。就像我們在開頭提到的那個廚師比喻一樣,TACO系統幫助機器人從一個笨拙的新手成長為一個經驗豐富的專家,不僅知道如何完成任務,更知道如何在每一個關鍵時刻做出最佳選擇。
Q&A
Q1:TACO系統是什么?
A:TACO是中國電信人工智能研究院等機構開發的機器人決策優化系統,全稱是"Test-time Anti-exploration via pseudo-COunts"。它的核心功能是在機器人執行任務時,讓機器人同時生成多個可能的行動方案,然后通過智能評估選擇最可靠的那一個,就像給機器人配備了一個經驗豐富的決策顧問。
Q2:為什么機器人需要TACO這樣的系統?
A:現在的機器人雖然學會了很多技能,但在實際執行任務時經常出現不穩定的表現,同樣的任務有時成功有時失敗。這是因為它們在訓練時接收了各種質量不同的示范數據,缺乏判斷能力來選擇最佳行動。TACO系統解決的就是這個"選擇困難癥"問題,讓機器人能夠在關鍵時刻做出最明智的選擇。
Q3:TACO系統的效果如何?
A:實驗結果非常顯著,在真實機器人實驗中,裝備TACO系統的機器人平均成功率提升了16%,某些復雜任務的成功率提升甚至達到25%。在模擬環境中,不同任務的成功率提升從4.7%到9.1%不等。更重要的是,這個系統可以即插即用,不需要重新訓練機器人,計算效率也很高。





京公網安備 11011402013531號