清華大學：用最簡單的方法讓小AI模型在數學推理上大放異彩

IP屬地中國·北京 科技行者 時間：2025-12-23 22:16:23

這項由清華大學何丙祥、曲澤凱、劉澤遠等研究團隊聯合伊利諾伊大學香檳分校錢程以及上海人工智能實驗室崔贛渠共同完成的研究發表于2025年12月，展現了一個令人驚訝的發現：在人工智能訓練領域，有時候最簡單的方法反而能取得最好的效果。這項名為"JustRL"的研究挑戰了當前AI訓練中越來越復雜化的趨勢，證明了用最基礎的方法就能讓小型AI模型在數學推理任務上達到頂尖水平。
當前的AI訓練就像烹飪界的分子料理革命，每個廚師都在使用越來越復雜的技術和設備，試圖創造出完美的菜品。多階段訓練管道、動態參數調整、課程學習策略，這些聽起來高大上的技術被廣泛應用，讓整個訓練過程變得像精密的化學實驗一樣復雜。然而，清華團隊提出了一個根本性的問題：這種復雜性真的必要嗎？
研究團隊決定回到最基礎的方法，就像一個經驗豐富的老廚師放棄所有花哨的工具，只用最簡單的鍋碗瓢盆來證明自己的廚藝。他們使用單階段訓練和固定的參數設置，在兩個15億參數的推理模型上進行實驗。結果令人震驚：這種簡單方法不僅達到了當前最先進的性能水平，在九個數學基準測試中平均準確率達到54.9%和64.3%，而且使用的計算資源比那些復雜方法少了整整一半。
更重要的是，相同的參數設置可以直接應用到不同的模型上，無需任何調整，訓練過程表現出平穩、單調的改進趨勢，在4000多個訓練步驟中沒有出現通常需要人工干預的崩潰或停滯現象。這就像發現了一個萬能的烹飪秘方，不管是做川菜還是粵菜，都能保證出色的效果。
研究團隊進行了深入的分析，發現那些被認為是"標準技巧"的復雜方法，比如明確的長度懲罰和強大的驗證器，實際上可能會通過限制探索而降低性能。這個發現暗示，該領域可能正在添加復雜性來解決那些在穩定、擴展的基線方法下根本不存在的問題。
一、從模仿到突破的轉變
在人工智能的發展歷程中，大型語言模型如OpenAI的o1和DeepSeek-R1已經證明了大規模強化學習在數學和編程等具有挑戰性的推理任務中的卓越效果。但是，當涉及到較小的輕量級模型時，業界走上了一條不同的道路。
主流公司更傾向于使用蒸餾技術，這本質上是一種監督微調方法，讓小模型學習大型教師模型的輸出。這種做法從實用角度來看很有意義：蒸餾技術效率高、穩定，能夠立即帶來性能提升。Qwen3的強弱蒸餾技術和DeepSeek-R1都證明了這種策略對小型語言模型的有效性。
然而，蒸餾技術有一個根本性的限制：它受到教師模型能力的約束。當研究人員依賴蒸餾來改進較小模型的性能時，他們會遇到一個上限，特別是當教師模型的更新不頻繁時。即使增加數據量和延長訓練時間，一旦教師模型的性能達到平臺期，進一步的性能提升也變得非常困難。
相比之下，強化學習可以在蒸餾過程達到飽和后提供進一步的改進，使其在這種情況下成為關鍵方法。與此同時，針對小型模型的強化學習卻獲得了不穩定和困難的聲譽，需要越來越復雜的技術才能可靠地工作。
過去一年中，我們看到了大量試圖穩定和改進小模型強化學習訓練的方法激增：多階段訓練管道、動態參數調度、自適應溫度控制、響應長度懲罰，以及各種形式的數據整理和過濾技術。這種技術的激增提出了一個重要問題：這種復雜性真的必要嗎？
當不同的工作結合不同的方法子集并報告不同的結果時，很難確定真正驅動性能的因素。更令人擔憂的是，許多最近的工作都引用訓練不穩定性，如獎勵崩潰、熵漂移和長度爆炸，作為其技術的動機，但卻將這些技術應用在已經復雜的基線之上。這使得無法知道新方法是否提供了真正的好處，還是僅僅補償了之前復雜性引入的問題。
累積的"最佳實踐"可能是相互斗爭，而不是對抗強化學習的根本挑戰。研究團隊決定探索是否可以通過更簡單的方法實現穩定、競爭性的訓練。他們將最小化設置應用于兩個流行的15億參數推理模型，使用基于常見實踐的單階段訓練和固定參數。
二、簡單配方的威力
研究團隊的方法刻意保持簡單，將自己限制在強化學習的基礎要素上，避免了在最近工作中變得常見的多階段管道、動態調度和專門技術。
他們使用veRL中GRPO的默認實現，采用二元結果獎勵。獎勵信號來自DAPO的輕量級基于規則的驗證器，沒有使用像SymPy這樣可能增加計算開銷的符號數學庫。研究團隊保持了極致的簡單性：采用單階段訓練，沒有漸進式上下文延長、課程切換或階段轉換，從開始到結束連續訓練；使用固定參數，沒有自適應溫度調度、動態批量大小調整或訓練中期參考模型重置；使用標準數據，在DAPO-Math-17k上訓練，沒有離線難度過濾或在線動態采樣策略；使用基本提示，采用簡單的后綴提示而不進行調優："請逐步推理，并將你的最終答案放在boxed{}中"；進行長度控制，簡單地將最大上下文長度設置為16K標記，而不是使用明確的長度懲罰項。
研究團隊確實使用了一種技術："剪切更高"，這是長時間強化學習訓練中穩定性的一個成熟實踐。他們將此視為基線的一部分，而不是附加技術。他們使用veRL在兩個15億推理模型上訓練了這個配方：DeepSeek-R1-Distill-Qwen-1.5B和OpenMath-Nemotron-1.5B，每個都使用32個A800-80GB GPU訓練約15天。相同的參數對兩者都有效，無需逐模型調優，并在整個訓練過程中保持固定。
在評估方面，研究團隊評估了九個具有挑戰性的數學推理任務，包括AIME 2024、AIME 2025、AMC 2023、MATH-500、Minerva Math、OlympiadBench、HMMT Feb 2025、CMIMC 2025和BRUMO 2025。他們報告Pass@1準確率，對每個問題平均N個采樣響應（MATH-500、Minerva Math和OlympiadBench使用N=4；其他使用N=32）。他們使用溫度0.7、top-p 0.9，并允許生成最多32K標記。
為了解決基于規則的驗證器的假陰性問題，他們用CompassVerifier-3B增強現有系統，這是一個輕量級的基于模型的驗證器。
三、突破性實驗結果
研究團隊將JustRL應用于兩個流行的15億參數推理模型，展示了他們的最小配方在具有顯著穩定訓練動力學的情況下實現競爭性能。
從較弱基礎開始的擴展實驗顯示了令人矚目的成果。研究團隊使用簡單的單階段配方訓練DeepSeek-R1-Distill-Qwen-1.5B 4380步。他們的模型JustRL-DeepSeek-1.5B在各基準測試中實現了54.87%的平均成績，超過了ProRL-V2的53.08%，盡管ProRL-V2使用了九階段訓練管道和動態參數以及更復雜的技術。他們在九個基準測試中的六個上領先，展示了廣泛的改進而不是對單個任務的過度擬合。
然而，真正的問題是他們的簡單性是否會帶來計算成本。答案是否定的。計算成本比較顯示，他們匹配了ProRL-V2計算預算的一半，同時使用固定參數的單階段配方。BroRL通過將每個例子的rollout增加到512個，基本上詳盡地探索解決方案空間，需要4.9倍的計算量。他們的方法在沒有這種計算開銷的情況下實現了競爭性能。
值得注意的是，使用動態采樣的模型過濾示例。按照POLARIS的做法，研究團隊為使用動態采樣的DeepSeek-R1-Distill-Qwen-1.5B估計了50%的過濾比率，因為rollout經常包含許多瑣碎或困難的情況。即使假設沒有過濾，他們的計算使用仍然是可比較的甚至更低的，使他們的估計保守。
訓練穩定性方面的表現同樣令人印象深刻。JustRL-DeepSeek-1.5B的訓練曲線顯示了平穩和單調的改進，沒有通常需要干預的振蕩或平臺期。穩定性本身表明他們沒有與訓練設置作斗爭。
更強基礎的擴展實驗進一步驗證了方法的有效性。研究團隊使用完全相同的配方訓練OpenMath-Nemotron-1.5B 3440步，沒有參數變化。他們實現了64.32%的平均成績，略微超過QuestA的63.81%，在九個基準測試中的五個上領先。差距很小，這是有道理的，因為兩種方法都在推動15億規模可實現的界限。關鍵區別在于如何到達那里。
QuestA引入了一種創新的課程學習方法，將問題與部分思維鏈解決方案作為提示進行增強，將訓練階段分為不同難度。這不僅需要基礎真值答案，還需要更大模型生成的完整推理軌跡用于課程構建，帶來額外的數據要求和工程復雜性。他們的方法僅使用標準問題-答案對，沒有增強或課程設計。
在計算效率方面，他們使用的計算量減少了一半，同時實現了稍好的平均性能，沒有設計QuestA使用的復雜課程。另一條平滑的訓練曲線表明，相同配方在兩個模型上都有效，無需參數調優，這表明了真正的魯棒性而不是對單個模型的幸運優化。
這些結果并不貶低QuestA的貢獻，問題增強是一種明顯有幫助的聰明技術。相反，它們表明通過更簡單的方法也可以實現競爭性能。
四、訓練動態的深入分析
訓練配方的終極測試不僅僅是最終數字，而是是否能夠可靠地達到目標。復雜技術通常作為訓練不穩定性的響應而出現：振蕩獎勵、策略崩潰或失控的響應長度。如果更簡單的方法可以完全避免這些失敗模式，那么這表明我們可能一直在治療癥狀而不是原因。
研究團隊詳細檢查了JustRL-DeepSeek-1.5B的訓練動態，在4000個訓練步驟中跟蹤三個關鍵動態：平均訓練獎勵、策略熵和平均響應長度。這些動態揭示了模型是穩定學習還是需要持續干預。
策略熵在訓練后期步驟中在1.0和1.6之間振蕩，沒有系統性的向上漂移（探索崩潰）或向下漂移（過早收斂），表明簡單的"剪切更高"技術在大規模強化學習中表現良好。平均獎勵顯示從大約-0.6到+0.4的平均獎勵攀升。曲線有噪音，但趨勢明顯向上。更重要的是，沒有會在多階段方法中通常觸發干預的擴展平臺期或突然下降。信號足夠一致，模型可以持續學習。
模型開始時冗長，生成平均約8000標記的響應。沒有任何明確的長度懲罰，它自然地壓縮到1000步時的4000-5000標記，并保持在這個范圍內。這種有機壓縮可能比明確的懲罰更魯棒，明確的懲罰可能創造模型學會利用的對抗性壓力。
與典型強化學習的對比非常明顯。雖然研究團隊沒有計算資源來運行廣泛的對照比較，但文獻提供了背景。許多最近的工作明確引用訓練不穩定性作為其技術的動機：ProRL-v2在觀察到長度漂移后引入了調度長度懲罰；BroRL在遇到平臺期后將rollout增加到數百個；多個工作在KL散度增長過大時應用KL正則化和重置參考模型，這限制了訓練上界。他們的訓練沒有表現出任何激發干預的病態。
當然，這些平滑曲線并不證明更簡單的方法總是更穩定，或者技術永遠不會有幫助。他們無法分離哪些特定復雜技術導致不穩定性，哪些解決了它。但對比是明顯的：最小配方產生的訓練動態根本不需要已成為標準實踐的干預。
五、消融研究的意外發現
研究團隊從JustRL-DeepSeek-1.5B的基礎配方開始，進行了兩項消融研究，都訓練了3000多步，結果令人意外。
第一個修改是添加明確的長度懲罰項，針對最后4k標記（如DAPO中使用的）。第二個修改是進一步添加來自DeepScaleR的更復雜驗證器，以減少假陰性。結果顯示，兩種修改都降低了性能：添加超長懲罰在50% AIME 2024處平臺化（相對于55%基線），添加兩種修改在45%處平臺化。
關于超長懲罰的發現尤其有啟發性。研究團隊假設明確懲罰冗長響應可能通過更快地推動模型走向簡潔來改善訓練效率。相反，性能顯著降低作為權衡。熵圖揭示了原因：明確懲罰崩潰探索，將熵驅動到0.5-0.6，與他們基礎方法的1.2-1.4范圍相比。明確懲罰似乎創造了與學習目標沖突的壓力，迫使模型在探索實際有效方法之前過早收斂到更短的響應。
關于魯棒驗證器的實驗也產生了有趣的結果。研究團隊進一步假設減少假陰性（正確解決方案標記錯誤）會提供更清潔的學習信號。然而，即使在規范化獎勵尺度后，其使用導致更差的最終性能，在45% AIME 2024處平臺化。
研究團隊提供了兩種可能的解釋。首先，更嚴格的基礎驗證器通過減少"完美"分數創建了更豐富的學習信號頻譜，而魯棒驗證器的寬容性提供了較少細致的指導。其次，更嚴格驗證器對精確格式的依賴可能迫使模型發展更魯棒的內部計算，當驗證器在外部糾正錯誤時失去了這種激勵。因此，寬容的驗證器可能無法鼓勵最佳泛化所需的精確性。
這些結果揭示了兩個重要教訓。首先，并非所有"標準技巧"都能跨環境遷移。超長懲罰在DAPO的設置中有效，但在他們的設置中降低了性能，表明技術以復雜和有時不可預測的方式與其他設計選擇交互。其次，更簡單的方法并不總是更容易改進。他們測試了兩個看似合理的修改，但都使情況變得更糟，表明他們的基礎配方實現了容易被額外干預破壞的微妙平衡。
研究團隊明確說明了這些消融的局限性。他們測試了兩個特定修改，但許多其他技術仍未探索：課程學習、自適應溫度調度、參考模型重置、不同驗證器設計和各種形式的數據增強。其中一些可能改進他們的基線。他們的觀點不是額外技術永遠不會有幫助，而是應該經驗性驗證而不是假設有益。
六、現實意義與局限性
這項研究帶來的啟示是多層面的。平滑的訓練曲線伴隨著健康的熵、單調獎勵和自然長度收斂，與經常被引用作為復雜技術動機的不穩定性形成對比。他們的負面消融顯示，添加"改進"實際上主動降低了性能。這表明復雜性有時可能解決由其他設計選擇創造的癥狀，而不是根本的強化學習挑戰。
然而，研究團隊承認他們不知道的內容。他們證明了簡單強化學習效果很好，但無法分離原因。是參數嗎？訓練數據集？驗證器設計？三者之間的相互作用？他們的結果也僅限于數學推理中15億規模的兩個骨干。推廣到其他領域、模型大小和任務仍然是開放問題。
復雜性在某些情況下可能有幫助。在極端計算約束下，遇到他們沒有面臨的特定失敗模式時，推動超越當前性能上限時，或在具有更嘈雜獎勵信號的領域中，額外技術可能是有價值的。他們的論點是方法論的：首先建立簡單基線，然后僅在識別出它解決的特定問題時才添加復雜性。
研究團隊的工作存在幾個限制。首先，他們的結果僅限于15億參數規模的數學推理任務，推廣到其他領域（如編程、一般問答）和模型大小仍未探索。其次，雖然他們證明了簡單性有效，但無法明確分離哪些特定組件（參數、驗證器設計、訓練數據）對成功最關鍵。第三，他們的計算預算雖然低于一些復雜方法，但對資源受限的研究人員來說可能仍然過高。最后，他們沒有探索當推向更長訓練時間時他們的方法是否保持優勢，或者在規模上額外技術是否變得必要。
七、簡單之道的深遠意義
關于小模型強化學習的辯論一直被復雜性對穩定性和性能必要的假設所籠罩。研究團隊著手回答一個直接問題：如果我們在沒有已成為標準實踐的專門技術的情況下將強化學習應用于小型語言模型，會發生什么？
通過退回到更簡單的方法，他們的發現提供了清晰的答案：具有穩定基礎的適當規模可以匹配復雜技術。從兩個基礎模型開始，他們使用單階段訓練和固定參數實現了可比較或更好的性能，匹配或超越了采用多階段訓練和課程學習的方法，同時使用了一半的計算量。
比最終數字更引人注目的是路徑：數千步的平滑、穩定改進，沒有通常需要防止訓練崩潰的干預。這項研究倡導方法論轉變：從簡單開始，擴大規模，只有當簡單、魯棒的基線明顯失敗時才添加復雜性。如果簡單性比當前實踐假設的更頻繁地足夠，那似乎值得關注。
這種發現對整個人工智能研究領域都有重要意義。在追求更好性能的過程中，研究社區往往傾向于添加越來越多的技巧和復雜機制。但正如這項研究所展示的，有時最有效的解決方案可能就是最簡單的那一個。這不僅能夠節省計算資源，降低實施難度，還能提供更好的可復現性和可理解性。
對于實際應用而言，這項研究為那些資源有限但希望訓練高性能小模型的研究者和開發者提供了新的選擇。他們不再需要實施復雜的多階段訓練系統或動態參數調整策略，只需要按照研究團隊提供的簡單配方，就可能獲得出色的結果。這大大降低了強化學習在小模型訓練中的門檻，讓更多人能夠參與到這個領域的研究和應用中來。
說到底，這項研究提醒我們，在科學研究中，簡單往往比復雜更有力量。正如法國作家安托萬·德·圣埃克蘇佩里所說："完美的實現，不是當沒有更多東西可以添加時，而是當沒有更多東西可以去除時。"清華大學團隊的JustRL正是這種哲學的完美體現，它用最簡潔的方法達到了最優秀的效果，為未來的AI研究指明了一個值得深思的方向。有興趣了解更多技術細節的讀者可以通過論文編號arXiv:2512.16649v1查詢完整研究內容。
Q&A
Q1：JustRL是什么樣的AI訓練方法？
A：JustRL是清華大學研究團隊開發的一種極簡強化學習方法，專門用于訓練小型AI模型進行數學推理。它的核心特點是使用單階段訓練和固定參數，避免了復雜的多階段訓練管道和動態參數調整，就像用最簡單的烹飪方法做出最美味的菜肴一樣。
Q2：JustRL相比復雜方法有什么優勢？
A：JustRL最大的優勢是用一半的計算資源就能達到甚至超越復雜方法的性能。在數學推理任務中，它讓15億參數的模型達到了54.9%和64.3%的平均準確率，同時訓練過程非常穩定，不需要人工干預來防止訓練崩潰。
Q3：普通研究者能使用JustRL方法嗎？
A：可以的，這正是JustRL的一大優勢。研究團隊已經開源了代碼和模型，普通研究者不需要復雜的技術實施就能使用這種方法。相同的參數設置可以直接應用到不同模型上，大大降低了強化學習訓練的技術門檻。

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

330億！AI算力基建商賣身科技大廠，資產千億

大疆Osmo Action 6固件升級：正式支持8K視頻

FIIL推出CC3半入耳式TWS耳機：50dB主動降噪，首發價299元

20周年發布20.0版本，QQ音樂煥新上線

美媒：美國對大疆等所有外國制造新型無人機禁令引發美國消費者憤怒，“瘋狂囤貨”

鴻蒙智行智界V9旗艦MPV有望行業首發「頭套式安全氣囊」

全站最新

330億！AI算力基建商賣身科技大廠，資產千億

大疆Osmo Action 6固件升級：正式支持8K視頻

FIIL推出CC3半入耳式TWS耳機：50dB主動降噪，首發價299元

20周年發布20.0版本，QQ音樂煥新上線

熱門推薦

中信銀行行長蘆葦調任郵政集團

鯨觀察｜券商大集合產品轉型倒計時：29只產品待改造，海通資管、廣發資管為“集中地”

330億！AI算力基建商賣身科技大廠，資產千億

Vibe Coding，文科生的AI第一桶金

大疆Osmo Action 6固件升級：正式支持8K視頻

FIIL推出CC3半入耳式TWS耳機：50dB主動降噪，首發價299元

20周年發布20.0版本，QQ音樂煥新上線

美媒：美國對大疆等所有外國制造新型無人機禁令引發美國消費者憤怒，“瘋狂囤貨”

鴻蒙智行智界V9旗艦MPV有望行業首發「頭套式安全氣囊」

釘釘2小時發布20余款AI新品，AI To B入口戰事升級

“粵車南下”正式啟動，初期每日配額100個

頻頻撤回電動化戰略，保時捷失守中國市場

華為又一款“三百萬”級新車！

中印尼聯合科考首次回收高頻深海潛標系統

專訪廣汽泰國總經理王浩勇：新能源出海是生態體系的遠征