![]()
這項由meta人工智能實驗室(FAIR)的陶雷天、伊利亞·庫利科夫等研究人員與威斯康星大學麥迪遜分校合作完成的研究,發表于2025年10月,論文編號為arXiv:2510.07242v2。有興趣深入了解的讀者可以通過該編號查詢完整論文。
教AI做數學題就像訓練一個學生,但現在的方法存在一個根本問題:要么太嚴格,要么太寬松。現有的訓練方式通常采用兩種截然不同的評判標準。第一種就像那種極其苛刻的數學老師,只認標準答案,哪怕你的解題思路完全正確、只是最后答案格式稍有不同,也會被判為零分。第二種則像那種過分寬松的老師,給分很隨意,有時候錯誤答案也能得高分,正確答案反而分數不高。
meta的研究團隊意識到,這兩種極端方式都不利于AI真正學會數學推理。他們提出了一個巧妙的解決方案,稱為HERO(混合集成獎勵優化),這個方法就像找到了嚴格老師和寬松老師之間的完美平衡點。
當前AI數學訓練面臨的核心困境可以用一個簡單的例子來說明。假設AI要解決一道數學題,答案是"2x+3",但AI給出的答案是"3+2x"。從數學角度看,這兩個表達式完全等價,但傳統的嚴格驗證系統會因為順序不同而判定為錯誤。相反,如果使用過于寬松的評分模型,它可能會給一些看似合理但實際錯誤的答案打高分,誤導AI的學習方向。
研究團隊發現,目前的AI訓練主要依賴兩種獎勵信號。第一種是"可驗證獎勵",就像標準化考試的答題卡一樣,只有0分或滿分,沒有中間地帶。這種方法雖然準確,但過于嚴苛,很多合理的答案因為格式問題被錯誤地判為零分。第二種是"獎勵模型",它能給出連續的分數,比如75分、85分等,能夠識別部分正確的答案,但有時候判分不夠準確。
HERO的創新之處在于巧妙地結合了這兩種方法的優勢。它采用了一種叫做"分層標準化"的技術,簡單來說就是先用嚴格的驗證器將所有答案分為"正確"和"錯誤"兩個大組,然后在每個組內部使用獎勵模型進行細致的排名。這就像是先按照及格和不及格將學生分組,然后在及格組內部按照具體分數排序,在不及格組內部也按照接近程度排序。
這種方法還引入了"方差感知加權"機制。當AI面對簡單問題時,大部分答案要么全對要么全錯,這種情況下學習價值有限。但遇到復雜問題時,不同答案的質量差異很大,這時候就需要給予更多關注。HERO會自動識別這些"有挑戰性"的問題,并在訓練中給它們分配更高的權重,確保AI把更多精力花在真正困難的推理任務上。
為了驗證這個方法的有效性,研究團隊進行了全面的實驗測試。他們構建了三種不同的訓練數據集:容易驗證的數學題(答案格式標準,容易自動檢查)、難以驗證的數學題(答案格式靈活,需要人工判斷),以及兩種題目的混合集。實驗涵蓋了多個知名的數學推理基準測試,包括MATH500、AMC、Minerva和Olympiad等。
實驗結果令人振奮。在使用Qwen3-4B-base模型的測試中,當訓練數據為容易驗證的樣本時,HERO在容易驗證任務上的平均得分達到62.0,顯著超過了僅使用獎勵模型的56.4分和僅使用規則驗證器的58.3分。更重要的是,在難以驗證的任務上,HERO的優勢更加明顯,得分高達66.3,比獎勵模型方法高出11.7分,比規則驗證器方法高出9.2分。
當訓練數據包含難以驗證的樣本時,傳統的規則驗證器表現尤其糟糕,因為它們面對格式不標準的正確答案時往往束手無策。在這種情況下,HERO仍能保持穩定的性能提升,證明了其強大的適應性和魯棒性。
研究團隊還進行了詳細的消融實驗,深入分析了HERO各個組件的貢獻。他們發現,在負樣本(錯誤答案)組內提供密集的獎勵信號比在正樣本組內更為重要。這個發現很有道理:對于正確答案,主要目標是確認其正確性;但對于錯誤答案,區分"完全錯誤"和"部分正確"對學習更有價值。
實驗還顯示,獎勵范圍的選擇對性能有重要影響。對于容易驗證的任務,較小的獎勵范圍(如0.05)效果最好,因為規則驗證器的精確性使得較緊的范圍能夠減少噪聲。對于混合任務,較大的獎勵范圍(如0.1或0.2)能提供更豐富的信號,幫助模型更好地學習復雜情況。
令人驚訝的是,使用更大的獎勵模型(從7B增加到72B參數)并沒有帶來顯著的性能提升,這表明HERO的優勢主要來自其巧妙的混合獎勵設計,而不是簡單的模型規模擴大。這個發現對實際應用很有價值,因為它意味著可以在不大幅增加計算成本的情況下獲得性能提升。
研究團隊還與其他先進方法進行了對比。他們測試了基于生成模型的驗證器(如TIGER-Lab的通用驗證器)和大型語言模型驗證器(如Qwen2.5-7B-Instruct),結果顯示HERO在所有測試場景中都保持了領先優勢。這證明了結構化獎勵整合比單純增加驗證器規模更為有效。
為了更深入地理解獎勵模型的行為,研究團隊分析了它在不同難度任務上的表現。他們發現,在難以驗證的任務上,獎勵模型容易出現"獎勵欺騙"現象,即快速提高獎勵分數但實際數學準確性卻在下降。這就像學生學會了考試技巧但沒有真正掌握知識。HERO通過將獎勵模型的輸出錨定到驗證器定義的正確性群組中,有效避免了這種問題。
研究還揭示了一個有趣的現象:密集負樣本獎勵比密集正樣本獎勵更重要。當AI產生錯誤答案時,能夠區分"完全胡說八道"和"思路基本正確但細節有誤"對學習非常有價值。而對于正確答案,主要的區別只是表達方式和完整性,重要性相對較低。
在可擴展性方面,HERO在不同規模的模型上都顯示出了一致的改進效果。無論是在相對較強的Qwen3-4B-base上,還是在基線較弱的OctoThinker-8B-Hybrid-base上,HERO都能帶來顯著的性能提升。這種一致性表明該方法具有良好的普遍適用性。
值得注意的是,HERO不僅在數學推理任務上表現出色,其設計理念也可能適用于其他需要精確性和創造性平衡的任務。比如在代碼生成、邏輯推理、甚至某些創意寫作任務中,都存在類似的"嚴格性"與"靈活性"之間的張力。
從技術實現角度看,HERO引入的計算開銷是可控的。雖然需要同時運行驗證器和獎勵模型,但這種額外成本在現代GPU集群環境下是可以接受的。而且,由于方法能夠更高效地利用訓練數據,實際上可能減少達到相同性能水平所需的總訓練時間。
這項研究也為未來的發展指明了方向。研究團隊指出,可以進一步改進驗證器的覆蓋范圍,開發更好的難度估計器,以及探索過程級別的獎勵信號(不僅僅關注最終答案,還要評估解題步驟的質量)。這些改進方向都有可能進一步提升AI的數學推理能力。
從更宏觀的角度看,這項研究反映了AI發展中的一個重要趨勢:從粗放式的規模擴張轉向精細化的訓練優化。與其簡單地增加模型參數或訓練數據,不如深入思考如何設計更好的訓練信號和學習機制。HERO正是這種思路的典型體現。
說到底,HERO就像是為AI找到了一位既嚴格又靈活的好老師。這位老師知道什么時候該堅持標準,什么時候該給予鼓勵,能夠根據學生的不同情況調整教學策略。通過這種精心設計的教學方法,AI在數學推理方面的表現得到了顯著提升,為構建更強大、更可靠的人工智能系統邁出了重要一步。
Q&A
Q1:HERO混合獎勵優化方法具體是如何工作的?
A:HERO采用分層標準化技術,先用嚴格的驗證器將答案分為正確和錯誤兩組,然后在每組內部用獎勵模型進行細致排名。同時引入方差感知加權,自動識別有挑戰性的問題并給予更高權重,確保AI把更多精力花在真正困難的推理任務上。
Q2:為什么傳統的AI數學訓練方法效果不好?
A:傳統方法要么過于嚴格(只認標準答案格式,正確但格式不同的答案也被判零分),要么過于寬松(評分隨意,錯誤答案可能得高分)。這兩種極端都不利于AI真正學會數學推理,HERO正是為了解決這個問題而設計的。
Q3:HERO在實際測試中的效果如何?
A:在Qwen3-4B-base模型測試中,HERO在難以驗證任務上得分66.3,比獎勵模型方法高11.7分,比規則驗證器高9.2分。在各種數學推理基準測試中都顯示出顯著優勢,且在不同規模模型上都有一致的改進效果。





京公網安備 11011402013531號