在大語言模型(LLM)發(fā)展的浪潮中,阿里通義 Qwen 團(tuán)隊(duì)近日推出了一種創(chuàng)新的強(qiáng)化學(xué)習(xí)方法 ——Soft Adaptive Policy Optimization(SAPO)。這一方法的核心目標(biāo)是解決當(dāng)前大語言模型在強(qiáng)化學(xué)習(xí)中面臨的策略優(yōu)化不穩(wěn)定性問題。
傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法,如 GRPO 和 GSPO,采用硬剪切技術(shù)來控制重要性比率的范圍,確保更新過程中的穩(wěn)定性。然而,這種方式有其固有的缺陷。首先,過于嚴(yán)格的剪切往往導(dǎo)致有效學(xué)習(xí)信號的丟失,尤其是在 GSPO 中,一旦某些 token 表現(xiàn)不佳,整個序列的梯度可能會被舍棄。其次,調(diào)整剪切范圍非常棘手:若范圍過小,許多樣本可能無法貢獻(xiàn)梯度;若范圍過大,則會引入噪聲,反而損害學(xué)習(xí)的穩(wěn)定性。這些問題在大規(guī)模混合專家模型(MoE)中尤為顯著。
針對這些挑戰(zhàn),Qwen 團(tuán)隊(duì)提出了 SAPO,這是一種新型的強(qiáng)化學(xué)習(xí)方法,旨在提升大語言模型的學(xué)習(xí)穩(wěn)定性和性能。SAPO 采用了一種平滑的、溫度控制的門控函數(shù)來替代傳統(tǒng)的硬剪切,從而在保持穩(wěn)定性的同時(shí),保留更多的有效梯度。其獨(dú)特設(shè)計(jì)包括:
1. 連續(xù)信任域 :避免了硬剪切帶來的不連續(xù)性問題。
2. 序列級一致性 :確保不丟棄整段序列,保留更多的信息。
3. token 級自適應(yīng)性 :減弱異常 token 對整體學(xué)習(xí)的影響。
此外,SAPO 在處理正負(fù) token 時(shí)采用非對稱的溫度設(shè)計(jì),使其對不同類型的 token 進(jìn)行差異化處理,這進(jìn)一步增強(qiáng)了學(xué)習(xí)的效果。經(jīng)過實(shí)驗(yàn)證明,SAPO 在多個規(guī)模的 dense 和 MoE 模型上均展現(xiàn)出顯著的提升。
為驗(yàn)證這一新方法的有效性,Qwen 團(tuán)隊(duì)對其進(jìn)行了全面評估。在數(shù)學(xué)推理、代碼生成、邏輯推理和多模態(tài)數(shù)學(xué)推理等任務(wù)上,SAPO 的表現(xiàn)明顯優(yōu)于傳統(tǒng)方法 GRPO 和 GSPO。這一突破不僅標(biāo)志著阿里通義在大語言模型領(lǐng)域的技術(shù)創(chuàng)新,也為未來的 AI 研究開辟了新的方向。
論文地址:https://arxiv.org/abs/2511.20347





京公網(wǎng)安備 11011402013531號