![]()
本文一作曹嘉航,香港大學在讀博士生,前北京人形機器人創新中心實習生;共同一作黃翊澤,上海交通大學在讀本科生;通訊導師 Andrew F. Luo,香港大學助理教授。
在機器人學習領域,提升基于生成式模型的控制策略(Policy)的性能通常意味著投入巨額成本進行額外的數據采集和模型訓練,這極大地限制了機器人能力的快速迭代與升級。面對模型性能的瓶頸,如何在不增加訓練負擔的情況下,進一步挖掘并增強現有策略的潛力?
香港大學團隊開創性地提出了GPC(General Policy Composition,通用策略組合)框架,為這一挑戰提供了全新的免訓練解決方案。該框架通過在測試時(test-time)對多個預訓練模型進行 “策略組合”,能夠創造出一個性能超越任何單一父策略的 “組合策略”。
GPC 作為一個 “即插即用” 的通用框架,能夠靈活融合不同架構(如 Diffusion-based Policy、Flow-based Policy)、不同模態(如視覺-動作模型 VA、視覺-語言-動作模型 VLA)的機器人策略,打破了傳統性能提升方式對數據和算力的依賴。
![]()
論文標題:Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition論文地址: https://arxiv.org/pdf/2510.01068項目地址:https://sagecao1125.github.io/GPC-Site/代碼地址:https://github.com/SageCao1125/GPC
提高策略性能
GPC 免訓練范式登場
盡管基于擴散模型(Diffusion-based models)的機器人策略已取得顯著進展,但其性能的提升始終受限于模型容量和數據規模。傳統的后訓練優化方法,如監督微調(supervised fine-tuning)需要昂貴的數據收集,而強化學習(reinforcement learning)則面臨復雜的獎勵工程和大量的在線交互挑戰。這些限制使得提升現有先進模型的性能變得既昂貴又耗時。
GPC 框架提出了一種提升策略性能的新范式。它不再依賴于 “更多訓練”,而是巧妙地 “組合現有策略”。
GPC 的核心思想是在機器人執行任務的瞬間,通過凸組合(convex combination)的方式,將多個預訓練策略的 “決策分數(distributional scores)” 進行動態融合。這種方式不僅簡單高效,更重要的是,它建立在堅實的理論基礎之上。
創新理論基石:證明 “1+1>2” 的組合潛力
這一理論基石主要包括兩個核心發現。
功能層面的提升(Functional-Level Improvement):研究團隊證明,對多個預訓練策略的決策分數(distributional scores)進行凸組合(convex combination),能夠生成一個在單步上具有更低誤差的組合分數,它比任何一個單一策略的分數都要更精確。
![]()
系統層面的穩定性(System-Level Stability):通過建立一個 Gr?nwall 型界限,研究證明了單步的誤差改善能夠沿著整個軌跡傳播,從而確保了組合策略在整個生成軌跡上也具有系統性的性能提升和更低的軌跡采樣誤差。
![]()
正是基于這一堅實的數學和系統穩定性證明,GPC 框架得以成立,為機器人能力的增強提供了全新的、有理論支撐的免訓練路徑。
![]()
通用 “策略組合器”
免訓練實現 “即插即用”
通用策略組合(GPC)框架的核心優勢在于其 “即插即用”(plug-and-play)的通用性,它以免訓練的方式,輕松整合了各種機器人策略,打破了模型架構和模態的界限。
GPC 作為一種全新的范式,不再依賴于額外的模型訓練,而是通過在測試時(test-time)將多個預訓練策略的 “決策分數” 進行動態融合來實現性能增強。
![]()
異構策略的靈活架構組合
GPC 的通用性建立在其獨特的分數組合機制上,使其能夠跨越策略架構和輸入模態進行靈活組合:
跨架構兼容:GPC 能夠將基于擴散模型(Diffusion-based Policy)的策略或者基于流匹配(Flow-based Policy)的策略進行組合。這是因為無論策略是基于哪種生成式模型訓練的,它們都能在底層被統一為分數函數(score function)的表示。跨模態 / 跨任務融合:GPC 靈活整合了不同輸入條件下的策略。無論是視覺 - 動作(VA)模型、視覺-語言-動作(VLA)模型,還是處理不同視覺模態(如 RGB 圖像和點云)的策略,GPC 都能將它們的優勢匯聚到一個更強大的組合策略中。
統一的分數凸組合機制
這種機制通過凸組合的方式,有效地平衡了來自不同條件的信息,使合成的決策分數保持在個體策略的可行凸包內,從而避免了策略執行中的極端或不穩定行為,生成更穩定、更連貫的動作軌跡。
GPC 與 Superposition(疊加原理)的擴展
除了核心的凸組合方式外,GPC 框架還自然地連接了疊加原理(Superposition),提供了更強大的組合操作符。
Logical OR(邏輯或):對應于從混合分布中采樣。它通過使用 softmax 函數來加權,從而確定每個策略分數在采樣時間步中的相對貢獻。Logical AND(邏輯與):對應于分布的交集,旨在強制各策略之間達成一致性。它通過求解一個線性系統來計算權重,確保在采樣過程中不同策略保持一致。
這些擴展的組合操作符(Logical OR 和 Logical AND)為 GPC 提供了放大策略性能的潛力,能夠通過更強的約束或混合機制來進一步提升控制效果。
權重搜索
為不同任務 “量身定制” 最優策略
GPC 框架的權重搜索機制,能為每一次策略組合找到最優的權重配置,從而為不同的任務和場景 “量身定制” 出最強的 “組合策略”。這一機制建立在嚴謹的理論分析之上,證明了最優權重的存在性,而廣泛的實驗則揭示了權重分配的關鍵作用。
![]()
通過在測試時(test-time) 對組合權重進行搜索,GPC 能夠靈活地適應各種任務場景,持續地實現性能提升。以下是實驗中總結出的三大核心發現:
發現 1:捕捉更廣闊的通用分布 當被組合的兩個策略都具有中等(例如,高于 30%)的準確率時,GPC 在適當的權重配置下,通常能實現比單一基線策略更高的準確率。這種性能的提升,反映了組合后的分數分布捕捉到了更廣義的分布,減少了對特定條件下的單一決策的依賴。發現 2:避免弱策略的負面影響 實驗表明,當其中一個策略的準確率顯著較低時,GPC 難以超越表現最好的那個基線策略的峰值性能。這提示了來自低準確率模態的分數可能會顯著干擾聯合分布,從而降低整體組合策略的表現。發現 3:強策略主導最優結果 GPC 性能的提升總是伴隨著表現較好的基線策略獲得更大權重時被最大化。這一發現強調了為強分布分配更高權重的必要性,它能有效地將組合策略的決策導向更可靠的“共識區域”,從而最大化 GPC 的有效性。
這些發現共同強調了 GPC 在利用不同條件策略優勢方面的通用性,以及適當調整權重以適應每個策略性能的重要性。
實驗驗證
從仿真到真實世界
經過嚴格測試,GPC 在仿真與真實環境中均展現出超越單一基線方法的性能.
仿真環境測試:在 Robomimic、PushT 和 RoboTwin 等多個主流仿真測試平臺上,GPC 的應用帶來了顯著的性能提升。與單一基線模型相比,GPC 策略在 Robomimic 和 PushT 任務上實現了最高 7.55% 的平均成功率提升,在復雜的 RoboTwin 雙臂協作任務上提升了 7%。這表明 GPC 不同任務執行的有效性上表現出色,為實際應用節省了大量的時間和資源。
![]()
![]()
真實世界:我們采用 PiPER 機器人進行了真機實驗。如 Table 5 所示,在 4 個實際任務中,GPC 在每個任務對比單一基線成功率擁有 5-10% 的提升,展示了在真實環境中 GPC 框架的提升策略性能的能力。
下面展示了清理桌面的真機視頻:
DP 失敗 ?
![]()
https://mp.weixin.qq.com/s/klk-nmh5xFQBooufoGwQhA
DP3 失敗 ?
![]()
https://mp.weixin.qq.com/s/klk-nmh5xFQBooufoGwQhA
GPC 成功 ?
![]()
https://mp.weixin.qq.com/s/klk-nmh5xFQBooufoGwQhA
想了解更多關于 GPC 的詳細信息,可訪問項目主頁:
https://sagecao1125.github.io/GPC-Site/





京公網安備 11011402013531號