![]()
這項由伊利諾伊大學厄巴納-香檳分校的袁立凡、清華大學的陳韋澤、上海AI實驗室的張育辰等國際團隊合作完成的研究,發表于2025年的arXiv預印本,論文編號為arXiv:2509.25123v1。研究揭示了一個令人興奮的發現:大型語言模型在強化學習訓練過程中,竟然能夠像人類一樣通過組合已有技能來學會全新的復雜能力。
想象一下這樣的場景:一個孩子已經學會了騎自行車,也學會了在路上導航,那么他很可能能夠快速掌握騎車去上學這個更復雜的技能。這種將簡單技能組合成復雜能力的過程,一直被認為是人類學習的獨特優勢。然而,這項研究首次證明,人工智能也具備了這種神奇的能力。
研究團隊圍繞一個核心問題展開探索:強化學習真的能教會大型語言模型全新的技能,還是僅僅激活了它們已有的能力?這個問題在AI研究界引發了激烈爭論。一些研究者認為強化學習只是在重新排列模型已知的答案,就像重新洗牌一樣,并沒有真正學到新東西。但這項研究通過精心設計的實驗,給出了令人信服的答案。
為了確保實驗的嚴謹性,研究團隊構建了一個全新的字符串轉換預測任務。這就像是給AI出了一道全新的數學題型,確保它無法通過記憶來作弊。他們設計了25個獨特的字符串轉換函數,每個函數都有一個毫無意義的名稱,比如"func_16",這樣AI就無法從函數名猜測功能。更巧妙的是,在強化學習階段,他們完全隱藏了函數的具體定義,迫使AI必須依靠之前學到的基礎技能來解決問題。
實驗設計分為兩個清晰的階段,就像學習一門手藝的過程。第一階段是"原子技能習得",AI通過監督學習掌握單個函數的行為,就像學生先學會基本的數學運算。第二階段是"組合技能訓練",AI需要在不看函數定義的情況下,學會將多個函數組合使用,就像學會解復合函數題。
研究團隊設置了不同的難度等級,從簡單的單函數應用(Level 1)到復雜的多函數嵌套(Level 6及以上)。實驗結果令人震撼:當AI通過強化學習訓練Level 2的組合問題后,它在未見過的Level 3任務上的準確率從幾乎為零躍升到30%,在Level 4上達到15%。這就像一個學生學會了兩步運算后,突然能夠解決三步甚至四步的復雜問題。
特別有趣的是,研究團隊發現僅僅給AI提供組合問題的數據還不夠,必須配合強化學習才能實現這種跨越式提升。當他們使用傳統的監督學習方法訓練相同的組合數據時,AI的表現平平,就像只是死記硬背而沒有真正理解。但強化學習卻能激發AI的"創造性思維",讓它學會靈活運用已有技能。
更令人驚訝的是技能遷移實驗。研究團隊發現,在字符串任務上學會組合技能的AI,竟然能夠將這種能力遷移到完全不同的倒計時數學任務上。這就像一個學會了烹飪技巧的廚師,能夠將配菜搭配的思維應用到調制雞尾酒上。在倒計時任務的Level 3難度上,具備組合技能的AI準確率達到35%,比基準模型高出18個百分點。
研究團隊還揭穿了之前一些悲觀結論的"假象"。他們發現,當基礎模型在簡單問題上已經表現很好時,強化學習的提升確實有限,這給人一種"強化學習無用"的錯覺。但當面對真正困難的問題時,強化學習的威力就顯露無遺。這就像一個已經是優秀射手的人,在近距離射擊時提升有限,但在遠距離射擊時,專業訓練的價值就體現出來了。
通過詳細的行為分析,研究團隊發現強化學習根本性地改變了AI的推理方式。在接受組合技能訓練后,AI的錯誤類型發生了顯著變化:它不再忽視函數間的組合關系,而是能夠正確理解和處理復雜的嵌套結構。主要的錯誤轉向了基礎計算錯誤,這表明AI已經掌握了高層次的組合邏輯,只是在具體執行時偶有疏漏。
這項研究的意義遠超技術層面。它表明我們正在見證AI學習能力的質的飛躍,從簡單的模式匹配轉向真正的技能組合和創新。這種能力將使AI在面對全新挑戰時更加靈活和高效,就像擁有了舉一反三的智慧。
當然,研究也指出了實現這種能力的關鍵條件:AI必須先掌握必要的基礎技能,然后通過適當的強化學習激勵來學習組合。這為未來的AI訓練策略提供了重要指導:我們應該投資構建具備豐富基礎技能的基礎模型,然后通過強化學習來培養更高層次的組合能力。
這項研究不僅在技術上具有突破性意義,更在哲學層面觸及了AI智能的本質。它表明,通過合適的訓練方法,AI能夠展現出類似人類的學習模式,這為通用人工智能的發展開辟了新的可能性。隨著這種組合學習能力的進一步發展,我們可能很快就會看到能夠真正像人類一樣靈活學習和適應的AI系統。
Q&A
Q1:強化學習是如何讓AI學會組合技能的?
A:強化學習通過獎勵機制激勵AI探索不同的解決方案。當AI成功組合使用多個基礎技能解決問題時,會獲得正面反饋,這促使它學會將簡單技能組合成復雜能力。與傳統的監督學習不同,強化學習讓AI在試錯中發現最優的技能組合方式。
Q2:這種技能組合能力可以應用到現實生活中嗎?
A:是的,這種能力具有廣泛的應用前景。比如在客服AI中,它可以組合語言理解、問題分析和回答生成等基礎技能來處理復雜查詢。在自動駕駛中,可以組合路況識別、路徑規劃和車輛控制等技能。關鍵是AI需要先掌握相關領域的基礎技能。
Q3:為什么強化學習比傳統方法更有效?
A:傳統的監督學習讓AI像背書一樣記住標準答案,而強化學習更像是讓AI在實踐中摸索。通過獎勵和懲罰機制,AI學會了靈活運用已有技能的策略,而不是死記硬背。這種學習方式更接近人類的學習過程,因此能產生真正的技能組合能力。





京公網安備 11011402013531號