![]()
這項由香港大學計算機科學系田樂立、滑鐵盧大學程思濤、香港中文大學(深圳)黃旭寒以及杜克大學殷遜健共同完成的突破性研究發表于2024年12月,論文編號為arXiv:2512.13399v1。研究團隊提出了一種名為"可微分進化強化學習"(DERL)的創新框架,讓人工智能系統能夠自主發現最優的獎勵函數,就像員工學會如何為自己設計最有效的工作激勵機制一樣。
想象一下,如果你是一位老師,需要設計一套評分系統來激勵學生更好地學習。傳統的做法是要么給出簡單的對錯判斷(像期末考試只看總分),要么請專家花大量時間制定復雜的評分標準。但是,簡單的對錯判斷往往太粗糙,而專家制定的標準不僅成本高昂,還可能不夠靈活。現在,這個研究團隊找到了第三種方法——讓AI系統自己學會設計最有效的獎勵機制,就像一個聰明的學生逐漸摸索出最適合自己的學習方法一樣。
在人工智能領域,獎勵函數就像是給AI的"工資條",決定了AI什么時候能得到"獎金",什么時候會被"扣工資"。一個好的獎勵機制能讓AI快速學會正確的行為,而糟糕的獎勵設計則可能讓AI"鉆空子"——表面上完成了任務,實際上卻偏離了我們的真實目標。
傳統的AI訓練方式面臨著一個根本性的困境。一方面,最簡單直接的方式是只在AI完全完成任務時給予獎勵,其他時候一概不給。這就像只在學生期末考試時給成績,平時的作業和課堂表現一概不看。這種方式雖然簡單,但學生(AI)很難從中學到什么,因為反饋太少太遲。另一方面,如果要設計細致的獎勵規則,就需要人類專家投入大量時間和精力,就像要為每一個小的學習環節都設計評分標準一樣,成本極高且難以推廣。
研究團隊提出的DERL框架巧妙地解決了這個難題。它的核心思想是建立一個"雙層"的學習系統。在這個系統中,有一個"元優化器"(可以理解為一位經驗豐富的教學設計師),它的工作是觀察學生(內層的AI策略)在不同獎勵機制下的學習表現,然后不斷調整和優化獎勵規則。與此同時,內層的AI策略則根據當前的獎勵規則進行學習和改進。
這種設計的精妙之處在于,元優化器不是隨機嘗試不同的獎勵規則,而是能夠"理解"獎勵結構與最終表現之間的因果關系。就像一位經驗豐富的教師能夠觀察到"當我這樣布置作業時,學生的成績會提高",然后有意識地調整教學方法。這種能力被研究團隊稱為"元梯度"——即理解如何調整獎勵機制才能改善最終結果的能力。
為了驗證這個理念,研究團隊構建了一個具體的實現方案。他們將獎勵函數設計成由多個"原子基元"組成的結構化組合。這些原子基元就像是樂高積木,每一塊都有特定的功能——有的用來檢查格式是否正確,有的用來驗證部分目標是否達成,有的用來評估過程是否合理。元優化器的任務就是學會如何將這些積木以最有效的方式組合起來,創造出能夠引導AI獲得最佳表現的獎勵函數。
在技術實現上,研究團隊采用了一種被稱為"群體相對策略優化"(GRPO)的算法作為基礎。這個算法的工作原理類似于班級內的相對排名——不是看絕對成績,而是看你在這一批同學中的相對表現。元優化器會同時生成多個不同的獎勵配置,然后觀察在這些不同配置下訓練出來的AI策略各自的表現,通過比較這些表現來學習哪種獎勵設計更有效。
整個訓練過程就像是一個不斷迭代的教學實驗。在每一輪中,元優化器會提出幾種不同的獎勵方案,然后讓內層的AI分別在這些方案下進行學習。學習結束后,系統會在驗證集上測試這些AI的實際表現,并將這些表現作為反饋信號傳遞給元優化器。元優化器根據這些反饋調整自己的參數,學會生成更好的獎勵配置。這個過程會持續進行,直到元優化器找到能夠產生最佳AI表現的獎勵機制。
這種方法的一個關鍵優勢是它的可微分特性。與傳統的進化算法不同,DERL能夠利用梯度信息來指導搜索過程。傳統的進化方法就像在黑暗中摸索,只能通過隨機嘗試來尋找更好的解決方案。而DERL則像是有了一盞明燈,能夠"看到"調整的方向,知道朝哪個方向改進更有可能獲得更好的結果。
為了全面驗證DERL的有效性,研究團隊在三個截然不同的領域進行了實驗測試。第一個領域是機器人代理任務,使用了ALFWorld基準測試。這個測試模擬了家庭環境中的各種任務,比如"把蘋果放到微波爐里"或"清理房間"。AI需要通過自然語言理解任務要求,然后規劃和執行一系列動作來完成目標。
第二個測試領域是科學模擬,使用了ScienceWorld基準。這個環境模擬了小學科學課程的各種實驗和問題,AI需要在虛擬實驗室中進行推理和操作,完成像"測量物體的密度"或"觀察植物生長"這樣的科學任務。
第三個領域是數學推理,使用了GSM8K和MATH這兩個著名的數學問題數據集。GSM8K主要包含小學水平的數學應用題,而MATH則包含了更高級的競賽水平數學問題。
在每個測試領域中,研究團隊都設計了相應的原子基元來構建搜索空間。對于機器人任務,他們設計了四個基元:二元結果獎勵(任務是否完成)、以及三個過程獎勵(分別對應交互過程的前期、中期和后期階段的平均表現)。對于數學推理任務,基元包括:二元結果獎勵、格式檢查獎勵(答案是否用正確格式給出)、步驟獎勵(是否包含逐步推理)、以及軟結果獎勵(答案中是否包含正確數值,即使格式不對)。
為了評估DERL在不同難度和分布偏移情況下的表現,研究團隊設計了三個難度級別的測試。L0級別是最簡單的情況,AI在所有任務類型上都有充分的訓練,然后在相似的任務上測試。L1級別增加了一些挑戰,AI仍然在所有任務類型上訓練,但測試時會遇到一些變種任務。L2級別是最困難的,AI只在部分任務類型上訓練,然后需要在完全沒見過的任務類型上進行測試,這真正考驗了方法的泛化能力。
實驗結果令人印象深刻。在ALFWorld任務中,DERL在所有三個難度級別上都達到了最佳性能,特別是在最困難的L2級別上,DERL達到了65%的成功率,而傳統的結果獎勵方法只有29.7%。在ScienceWorld任務中,DERL同樣表現出色,在L2級別上達到了30.1%的成功率,相比之下傳統方法只有10.9%。
更引人注目的是DERL的人口變體(DERL-pop)的表現。這個變體在每輪訓練中會保留上一輪表現最好的模型作為起點,而不是每次都從頭開始。這種做法類似于在教學中建立在之前成功經驗基礎上的累積學習。DERL-pop在ALFWorld的L2級別上達到了76.4%的驚人成功率,在ScienceWorld的L0級別上甚至達到了98.2%的近乎完美的表現。
在數學推理任務上,DERL同樣證明了它的價值。在GSM8K上,DERL達到了87%的準確率,超過了所有基線方法。在更困難的MATH數據集上,DERL達到了60.2%的準確率,明顯優于簡單結果獎勵的58.8%。這個提升可能看起來不大,但在數學推理這樣的困難任務上,即使是幾個百分點的提升也代表了顯著的進步。
研究團隊還深入分析了DERL的學習過程,發現了一些fascinating的規律。通過追蹤元優化器在訓練過程中生成的獎勵函數結構,他們發現系統會自然而然地偏向于數學上穩定的獎勵組合。在訓練初期,元優化器會生成各種各樣的獎勵函數,其中許多是不穩定的(比如包含可能導致數值爆炸的乘法鏈)。但隨著訓練的進行,系統逐漸學會了偏愛那些數學上更穩定、更可靠的獎勵結構,比如線性組合和歸一化操作。
這種"自然選擇"現象說明了DERL不僅僅是在搜索有效的獎勵函數,它實際上在學習什么樣的獎勵設計原則是根本性有效的。就像一位經驗豐富的教師不僅知道什么樣的教學方法有效,還理解為什么這些方法有效的深層原理。
從計算效率的角度看,DERL確實需要比傳統方法更多的計算資源。由于需要在每個元優化步驟中訓練多個內層策略,總的計算成本大約是基線方法的n倍(其中n是每輪生成的獎勵配置數量)。在研究團隊的實驗中,他們使用了n=8,這意味著DERL需要大約8倍的計算資源。不過,他們也提供了更高效的DERL-pop變體,它通過減少從零開始訓練的次數來顯著降低計算開銷。
為了深入理解DERL的工作機制,研究團隊還進行了一個簡化的概念驗證實驗。他們構建了一個僅使用12個參數的圖神經網絡來表示元優化器,證明即使在這樣簡化的設置下,元優化器仍然能夠發現比簡單基線更好的獎勵函數。這個實驗表明,DERL的核心思想——利用結構化的獎勵搜索空間和梯度引導的優化——是robust的,不依賴于特定的復雜實現。
研究團隊還分析了DERL學習到的獎勵函數的演化軌跡。他們發現,在訓練早期,系統會探索各種復雜的獎勵結構,其中一些包含了不穩定的數學操作。但隨著訓練的進行,系統逐漸收斂到更簡單、更穩定的結構。最終學習到的獎勵函數通常具有良好的數學性質,比如有界的輸出范圍和對輸入變化的平滑響應。
這種演化模式與人類學習設計原則的過程有著有趣的相似性。初學者可能會嘗試復雜的方案,但有經驗的設計者往往偏愛簡潔、可靠的解決方案。DERL似乎自發地發現了這個設計哲學。
從更廣闊的角度來看,DERL代表了人工智能研究中一個重要的轉向:從依賴人類先驗知識向自主發現轉變。傳統的強化學習嚴重依賴人類專家來設計獎勵函數,這不僅成本高昂,還可能引入人類的偏見和局限性。DERL提供了一條通往更自主的AI系統的道路,這些系統能夠通過與環境的交互來發現有效的學習信號。
然而,這項研究也面臨一些限制和挑戰。首先是計算成本問題。雖然DERL在性能上表現出色,但它需要的計算資源確實比傳統方法更多。對于資源有限的應用場景,這可能是一個重要的限制因素。
其次是原子基元的設計問題。雖然DERL可以自動組合基元來創建獎勵函數,但這些基元本身仍然需要人類來定義。在某種程度上,這將設計挑戰從"如何組合信號"轉移到了"如何選擇基元"。不過,研究團隊指出,基元的設計通常比完整獎勵函數的設計要簡單得多,而且同一套基元可以在多個任務中重復使用。
第三個挑戰是長期信用分配問題。雖然DERL生成的獎勵比簡單的結果獎勵更密集,但它們仍然主要基于最終的驗證性能。對于需要極長推理鏈或具有欺騙性中間目標的任務,僅依賴最終性能可能仍然不足以提供足夠的學習信號。
盡管存在這些挑戰,DERL的影響意義是深遠的。它不僅在技術層面提供了一個新的工具,更重要的是,它展示了一種新的思維方式——讓AI系統參與到自己的訓練過程設計中。這種自參照的能力可能是通向更強大、更自主的AI系統的關鍵一步。
在實際應用前景方面,DERL的技術可能會首先在那些獎勵設計特別困難的領域得到應用,比如創造性任務、復雜的游戲環境、或者需要長期規劃的現實世界應用。隨著計算成本的降低和算法效率的提升,這種方法可能會逐漸擴展到更廣泛的應用領域。
從科學意義上講,這項研究為理解智能系統如何學習學習提供了新的視角。它暗示著,真正的智能可能不僅僅在于解決給定的問題,還在于學會如何為自己設置有效的學習目標。這種元學習能力可能是人類智能的一個關鍵特征,而DERL為我們提供了一個計算框架來探索和實現這種能力。
說到底,DERL的成功證明了一個重要觀點:最好的獎勵函數可能不是由人類專家精心設計的,而是通過系統性的探索和優化過程發現的。就像進化過程能夠產生比任何設計師都精妙的生物結構一樣,自動化的獎勵發現可能能夠創造出比人類直覺更有效的學習信號。這不僅可能改變我們訓練AI系統的方式,也可能為我們理解學習和智能本身提供新的洞察。對于普通人來說,這意味著未來的AI系統可能會變得更加自主和高效,能夠在更少的人類指導下學會復雜的技能,從而為各行各業帶來更廣泛和深入的應用可能性。
Q&A
Q1:什么是可微分進化強化學習DERL?
A:DERL是香港大學團隊開發的一種讓AI自動設計獎勵機制的方法。它就像讓AI學會給自己制定最有效的激勵制度,通過雙層學習系統,讓一個"元優化器"觀察AI在不同獎勵下的表現,然后不斷調整優化獎勵規則,最終找到最適合的獎勵函數。
Q2:DERL相比傳統方法有什么優勢?
A:傳統方法要么只給簡單的對錯獎勵(太稀疏),要么需要專家費時費力設計復雜規則(成本太高)。DERL能夠自動發現有效的獎勵組合,在機器人、科學推理、數學等多個領域都大幅超越了傳統方法,特別是在面對全新任務時表現更佳。
Q3:DERL技術什么時候能普及應用?
A:目前DERL還主要在研究階段,因為它需要較多計算資源。不過研究團隊已經開發了更高效的變體,隨著計算成本降低,這種技術可能會首先在游戲、創意設計等獎勵設計困難的領域應用,然后逐步擴展到更多實際場景中。





京公網安備 11011402013531號