12月1日消息,近日, DeepSeek在Hugging Face平臺正式開源了DeepSeek-Math-V2模型,這是全球首個達到國際數學奧林匹克競賽金牌水平的開源數學模型。該模型基于DeepSeek-V3.2-Exp-base開發。
DeepSeek-Math-V2模型在國際數學奧林匹克IMO 2025模擬賽中解出5道題(共6題),在中國數學奧林匹克CMO 2024中獲得金牌級評價,更在被譽為“地獄難度”的普特南(Putnam)數學競賽2024中取得了118/120的接近滿分成績,遠超人類最高分90分。
“鯨魚回來了!” 這是AI開源社區在DeepSeek發布新模型后的熱烈反應。
兩大創新,成績碾壓GPT-5-Thinking-High和Gemini 2.5-Pro
根據DeepSeek團隊發布的論文,DeepSeekMath-V2的核心突破在于成功實現了“自我驗證”的數學推理機制。

傳統的AI數學推理訓練存在根本性局限——模型獎勵基于最終答案的正確性,但這并不能保證推理過程的正確性或邏輯的嚴謹性。
DeepSeek研究人員在論文中明確指出:“正確答案并不保證推理過程正確”。
這種結果導向的訓練方式,導致模型可能通過錯誤的邏輯得出正確答案,成為“自信的騙子”。
DeepSeekMath-V2徹底改變了這一模式,轉向過程導向的訓練方法。它不依賴大量的數學題答案數據,而是教會AI如何像數學家一樣嚴謹地審查證明過程。
這種方法模擬了人類數學家的思考方式:寫幾步之后,停下來反思,發現漏洞就推翻重寫,直到自己挑不出毛病為止。
另一個大核心創新則是DeepSeekMath-V2構建了一個多層次自我驗證系統。
該系統由三個關鍵角色組成,形成了一個相互協作又相互制約的架構。
“做題家”(證明生成器) 負責解題和撰寫證明過程。與以往不同,它被訓練成不僅要寫答案,還要進行“自我評價”,誠實指出自己可能出錯的地方。
“鐵面判官”(證明驗證器) 是專門訓練的評分模型,它不看答案對錯,而是專門盯著證明過程挑刺。它將證明分為三個等級:1分(完全正確)、0.5分(有小瑕疵)、0分(有致命錯誤)。
“判官的審計員”(元驗證器) 是最絕的一步,它專門檢查驗證器是否在胡亂挑刺。如果驗證器指出了一個不存在的錯誤,它會被元驗證器糾正。
通過這種精巧的架構,DeepSeekMath-V2實現了真正的自我反思能力。
模型不再盲目相信自己的第一直覺,而是學會了懷疑、審視和批判性思維。
根據論文公開的數據,DeepSeekMath-V2在多項數學基準測試中展現出統治級的實力。
在IMO-ProofBench基準測試中,DeepSeekMath-V2在Basic子集上獲得了接近99%的驚人高分,顯著高于Gemini Deep Think的89%。

在更高級的Advanced子集上,DeepSeekMath-V2得分為61.9%,略低于Gemini Deep Think的65.7%,但仍展現出強大的競爭力。
在與頂級模型的直接對比中,DeepSeekMath-V2在所有CNML級別問題類別上,包括代數、幾何、數論、組合學和不等式均持續優于GPT-5-Thinking-High和Gemini 2.5-Pro。

在代數領域,DeepSeekMath-V2遠超GPT-5-Thinking-High和Gemini 2.5-Pro;在幾何領域,其得分幾乎是Gemini 2.5-Pro的三倍。
更令人印象深刻的是,當允許模型進行“自我驗證”,即生成答案后,自己挑毛病,然后帶著問題重新生成,證明的質量分數從初始的0.15(迭代1次)飆升到了0.27(迭代8次)。
開源社區沸騰
DeepSeekMath-V2的開源發布,在AI社區引發了強烈反響。
海外社區有評論稱“鯨魚終于回來了”,并指出DeepSeek以約10個百分點優勢超越谷歌同類模型,超出預期。
在技術社區,用戶用更通俗的語言解讀這一突破:“DeepSeek換了個教法,死磕過程。結果對了,也必須看解題步驟,過程中只要有一步沒整明白,也不給糖吃。這就逼著AI必須要真懂,不能當混子。”
還有用戶指出這一發布的時間點堪稱完美:“就在昨天,AI教父Ilya在訪談中提到,現在的AI就是個只會死記硬背的做題機器。僅僅不到24小時,DeepSeek就把新模型開源了。”
這一巧合被形容為“一次穿越時空的擊掌”,是DeepSeek對AI發展路徑的實質性回應。
不過,也有用戶提出了理性的擔憂:“自我糾錯這套路,說得輕松其實難度不小啊,驗證器要是本身就有問題呢?左手批右手的感覺。”
無論如何,大家都認為DeepSeekMath-V2的開源具有重要的行業意義。
DeepSeekMath-V2采用Apache 2.0許可證,允許修改、重新用途和本地部署,為學術研究和商業應用提供了極大便利。
這一開源降低了全球研究者的門檻,特別是在當前谷歌和OpenAI都將他們的高分數學模型嚴格限制在付費或實驗性訪問。
DeepSeekMath-V2的開源發布標志著AI數學推理能力不再是大公司的專屬領域,而是成為全球研究者可以共同探索和推進的開放領域。
Hugging Face聯合創始人兼Clement Delangue表示:這一發布是邁向AI真正民主化的一步。
用戶現在可以免費使用“世界上最好的數學家之一的大腦”,而不必擔心公司或政府將其收回。





京公網安備 11011402013531號