2025.11.28

本文字數:1072,閱讀時長大約2分鐘
作者 | 第一財經 劉曉潔
11月27日晚,DeepSeek悄悄地在Hugging Face 上開源了一個新模型:DeepSeek-Math-V2。這是一個數學方面的模型,也是目前行業首個達到IMO(國際奧林匹克數學競賽)金牌水平且開源的模型。
在同步發布的技術論文中,DeepSeek表示,Math-V2的部分性能優于谷歌旗下的Gemini DeepThink,并展示了模型在IMO-ProofBench基準以及近期數學競賽上的表現。

具體來看,在其中的Basic基準上,DeepSeek-Math-V2 遠勝其他模型,達到了近99%的高分,而排在第二的谷歌旗下Gemini Deep Think (IMO Gold)分數為89%。但在更難的 Advanced 子集上,Math-V2分數為61.9%,略遜于 Gemini Deep Think (IMO Gold)的65.7%。
在這篇名為《DeepSeek Math-V2:邁向可自驗證的數學推理》的論文中,DeepSeek指出,大語言模型已經在數學推理方面取得了重大進展,這是人工智能的重要試驗臺,如果進一步推進,可能會對科學研究產生影響。

但當前的AI在數學推理方面有著研究局限:以正確的最終答案作為獎勵,正確的答案卻不能保證正確的推理。許多數學任務,如定理證明,需要嚴格的分步推導,而不是數字答案,這使得最終答案獎勵不適用。
為了突破深度推理的極限,DeepSeek認為有必要驗證數學推理的全面性和嚴謹性。團隊提出,自我驗證對于擴展測試時間計算尤為重要,特別是對于那些沒有已知解決方案的開放問題。
此次DeepSeek推出的Math-V2就從結果導向轉向了過程導向,展示了強大的定理證明能力。這一模型不依賴大量的數學題答案數據,而是通過教會AI如何像數學家一樣嚴謹地審查證明過程,從而在沒有人類干預的情況下,也能不斷提升解決高難度數學證明題的能力 。
論文提到,Math-V2在IMO 2025和CMO 2024上取得了金牌級成績,在Putnam 2024上通過擴展測試計算實現了接近滿分的成績(118/120)。
DeepSeek認為,雖然仍有許多工作要做,但這些結果表明,可自我驗證的數學推理是一個可行的研究方向,可能有助于開發更強大的數學AI系統。
對于DeepSeek此次的動作,海外的反應是“鯨魚終于回來了”。有網友感慨,DeepSeek以10個百分點的優勢擊敗了谷歌的IMO Gold 獲獎模型DeepThink,這不在預測范圍內。“想象一下,當他們公布編程模型時會發生什么,我打賭他們絕對有編程模型。”
目前,行業頭部廠商的模型已經又迭代了一輪,11月,先是OpenAI發布了GPT-5.1,幾天后xAI發布Grok 4.1,就在上周谷歌發布了Gemini 3系列引爆AI圈,“也該輪到DeepSeek出牌了”。不過,更受外界關注的仍然是,DeepSeek的旗艦模型到底什么時候更新,行業期待“鯨魚”的下一個動作。





京公網安備 11011402013531號