5 月 1 日消息,微軟昨日(4 月 30 日)發(fā)布 Phi-4-reasoning 系列推理模型,通過監(jiān)督微調(diào) Phi-4,并利用 o3-mini 生成的高質量“可教導”提示數(shù)據(jù)集訓練,專為復雜推理任務設計。
援引博文介紹,微軟本次共推出 Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reasoning 三款模型,官方稱該系列模型不僅延續(xù)了小型模型的高效特性,還在推理能力上實現(xiàn)重大突破。

該系列模型通過推理時間擴展(inference-time scaling)技術,擅長處理需要多步驟分解和內(nèi)部反思的復雜任務,尤其在數(shù)學推理和代理型應用中表現(xiàn)突出,具備媲美大型前沿模型的潛力。
Phi-4-reasoning 是一款擁有 140 億參數(shù)的開源推理模型,通過監(jiān)督微調(diào)(Supervised Fine-Tuning,SFT)Phi-4,結合 OpenAI o3-mini 的高質量推理演示數(shù)據(jù),并充分利用額外計算資源,生成詳細的推理鏈條。

Phi-4-reasoning-plus 增強版通過強化學習(Reinforcement Learning,RL)進一步提升性能,tokens 用量比標準版多 1.5 倍,支持更高精度。

兩款模型在數(shù)學推理和博士級科學問題測試中,均超越 OpenAI o1-mini 和 DeepSeek-R1-Distill-Llama-70B,甚至在 AIME 2025(美國數(shù)學奧林匹克資格賽)中擊敗 6710 億參數(shù)的 DeepSeek-R1 滿血模型。
Phi-4-mini-reasoning 專為計算資源有限的環(huán)境設計,是一款基于 Transformer 的緊湊型語言模型,優(yōu)化用于數(shù)學推理。

該模型通過 DeepSeek-R1 生成的合成數(shù)據(jù)微調(diào),能在低延遲場景下提供高質量的逐步問題解決方案。這款模型覆蓋從中學到博士級的百萬級多樣化數(shù)學問題,非常適合教育應用、嵌入式輔導和邊緣設備部署。
在多項數(shù)學基準測試中,其 3.8 億參數(shù)的表現(xiàn)超越 OpenThinker-7B 和 Llama-3.2-3B-instruct 等更大模型,甚至在部分測試中接近 OpenAI o1-mini 的水平。





京公網(wǎng)安備 11011402013531號