無需強化學習(RL)、驗證器、CoT,語言模型也能「解鎖」推理能力?
一項新研究證明:只需在基礎語言分布上進行測試時采樣,即可獲得與GRPO相當(甚至更好)的性能!
無需訓練,還可適用于不可驗證的領域。
作者為哈佛大學計算機科學助理教授 Yilun Du 和博士生 Aayush Karan。
1?? 背景
強化學習提升了LLM在數學、編程和科學等前沿領域的問題解決能力。然而:強化學習在多大程度上能夠激發出基礎 LLM 中原本不存在的新行為?
研究團隊寫道,“悲觀的證據表明,像GRPO這樣的RL算法在pass@k指標上表現不如基礎模型,并表現出生成多樣性的損失。”
2?? 方法
受馬爾可夫鏈蒙特卡洛(MCMC)的啟發,他們提出了一種利用基礎模型自身似然函數的簡單迭代采樣算法。
具體而言,由于基礎模型傾向于生成高似然的內容,他們提出從冪分布P^α中采樣,自然地銳化基礎LLM分布P。
直觀地說,P^α對未來路徑高度敏感,它會強烈降低那些會導致模型陷入低似然結果的token權重。這種類似“規劃”的機制,對于推理類任務來說非常具有價值。然而,直接從P^α中采樣是不可行的,因為它需要在指數級大的序列空間上進行歸一化。
他們采用Metropolis-Hastings(一種MCMC算法)近似采樣器,通過部分重采樣新的候選內容、并根據P^α的概率決定是否接受,迭代改進生成結果。
為了使這種方法適用于LLM,他們將Metropolis-Hastings整合進自回歸生成中,從而逐塊構建來自P^α的樣本。
3?? 結果
實驗結果顯示,在無需額外訓練或驗證器的情況下,他們的采樣器在多個領域和基礎模型上實現了與GRPO相當的 single-shot 準確率,甚至在一些跨領域任務(如編程)以及無法驗證的任務(如Alpacaeval)中超越過了GRPO。
他們認為,基礎模型本身在推理方面的潛力遠超傳統采樣方法所呈現的水平。同時,設計更好的LLM采樣器在通用語言領域中(不僅限于可驗證推理任務)也具有廣泛的應用價值。 推理 論文 #學術
paper:Reasoning with Sampling: Your base Model is Smarter Than You Think
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()





京公網安備 11011402013531號