11月27日,DeepSeek推出新型數學推理模型DeepSeekMath-V2,采用可自我驗證的數學推理訓練框架。
團隊表示,該成果驗證了自驗證推理路徑的可行性,為構建更可靠的數學智能系統提供了新的發展方向。模型代碼與權重已在Hugging Face及GitHub平臺開源發布。
該模型基于DeepSeek-V3.2-Exp-base構建,通過LLM驗證器自動審查生成的數學證明,并利用高難度樣本持續優化模型性能。在2025年國際數學奧林匹克競賽(IMO 2025)和2024年中國數學奧林匹克競賽(CMO 2024)中均達到金牌水平,并在2024年普特南數學競賽(Putnam 2024)中取得118/120(近乎滿分)的優異成績。
技術創新:從最終答案獎勵到自我驗證
在數學推理與定理證明領域,傳統強化學習方法存在根本性局限,它僅通過獎勵與標準答案匹配的最終結果來訓練模型,卻忽視了推理過程的質量。這種方法的缺陷在于,正確答案未必意味著推導過程正確,且許多定理證明任務根本不需要數值答案,而是要求嚴格的邏輯推導過程。
DeepSeekMath-V2針對這些問題提出了創新性的解決方案。該系統的核心架構構建了一個自驅動的驗證-生成閉環:將一個LLM作為“審稿人”擔任證明驗證器,另一個LLM作為“作者”負責證明生成,兩者通過強化學習機制相互協作,并引入“元驗證”層來有效抑制模型幻覺。
關鍵的技術創新在于元驗證機制,通過第二層評估過程來檢查驗證器識別的問題是否真實存在。實驗結果表明,將元驗證器的反饋納入驗證器訓練后,驗證器在證明分析方面的質量評分顯著提升,同時保持了證明評分預測的準確性,實現了驗證精度與可靠性的雙重突破。
自動化標注流程降低人工成本
為解決人工標注成本高昂的難題,研究團隊設計了一套高效的自動化評估流程。該體系基于多層驗證機制,通過交叉檢驗與共識決策確保標注的準確性。具體而言,系統會為每個證明生成多輪獨立分析,并對識別出的問題進行二次驗證,最終依據共識結果進行質量評分。
值得關注的是,在后續訓練階段,這一自動化流程已能完全替代人工標注。質量評估顯示,自動化標注結果與專家判斷高度一致,證實了該系統能夠自主生成高質量訓練數據,持續優化模型性能。
這一技術路徑的突破性在于構建了完整的自驅動學習生態系統。系統通過驗證反饋直接優化生成質量,利用自動化評估處理復雜案例,并持續產生訓練數據促進系統迭代。這種創新方法不僅顯著降低了人力成本,更證明了在適當技術支持下,人工智能系統能夠實現自我演進與持續改進,為下一代自主學習系統的開發奠定了重要基礎。
基準測試展現領先性能
在自主構建的91個CNML級別問題測試中,DeepSeekMath-V2展現出卓越的數學推理能力,在代數、幾何、數論、組合學和不等式等所有類別中均超越了GPT-5-Thinking-High和Gemini 2.5-Pro的表現。
在IMO-ProofBench基準測試中,該模型同樣表現優異:在基礎集上,其人工評估結果優于DeepMind的DeepThink(IMO金牌水平);在更具挑戰性的高級集上,模型保持了強勁的競爭力,同時顯著超越了所有其他基準模型。
特別值得關注的是驗證機制的有效性:對于未完全解決的問題,生成器能夠準確識別證明過程中的真實缺陷;而對于完全解決的問題,則成功通過了全部64次驗證嘗試。這一結果表明,基于大語言模型的驗證器確實能夠有效評估那些傳統上被認為難以自動驗證的復雜數學證明,為自動化數學推理系統的發展提供了重要技術支撐。





京公網安備 11011402013531號