1 月 11 日消息,微軟亞洲研究院旗下數學和人工智能研究團隊昨日(1 月 10 日)發布博文,針對小語言模型,設計并開發了 rStar-Math 技術,專門用于解決數學問題。
和微軟之前推出的 Phi-4 不同,rStar-Math 采用蒙特卡洛樹搜索(Monte Carlo Tree Search)進行推理,這種方法模擬了人類逐步解決問題的思維方式,能夠將復雜問題分解成更小的部分,逐步求解。

研究人員要求模型輸出自然語言描述和 Python 代碼形式的“思維鏈”步驟,并將自然語言作為 Python 代碼注釋,僅使用 Python 代碼輸出訓練模型。

研究人員訓練了一個“策略模型”生成數學推理步驟,并使用“過程偏好模型”(PPM)選擇最有希望的解題步驟。這兩個模型通過四輪“自我進化”互相改進,不斷提升性能。
研究人員使用了 74 萬道公開的數學應用題及其解答作為初始數據,并利用上述兩個模型生成了新的解題步驟。
測試結果顯示,應用 rStar-Math 技術后,Qwen2.5-Math-7B 模型的準確率從 58.8% 躍升至 90.0%,將 Phi3-mini-3.8B 從 41.4% 提升到 86.4%,分別比 OpenAI 的 o1-preview 模型高 4.5% 和 0.9%。

研究團隊已在 Hugging Face 上宣布,計劃將 rStar-Math 的代碼和數據在 GitHub 上公開,方便其他研究者使用和改進。
附上參考地址





京公網安備 11011402013531號