DeepSeek-Math-V2數學模型開源，成績碾壓OpenAI和谷歌同類模型

IP屬地中國·北京 編輯：江紫萱 TechWeb 時間：2025-12-01 16:11:19

12月1日消息，近日， DeepSeek在Hugging Face平臺正式開源了DeepSeek-Math-V2模型，這是全球首個達到國際數學奧林匹克競賽金牌水平的開源數學模型。該模型基于DeepSeek-V3.2-Exp-base開發。
DeepSeek-Math-V2模型在國際數學奧林匹克IMO 2025模擬賽中解出5道題（共6題），在中國數學奧林匹克CMO 2024中獲得金牌級評價，更在被譽為“地獄難度”的普特南(Putnam)數學競賽2024中取得了118/120的接近滿分成績，遠超人類最高分90分。
“鯨魚回來了！” 這是AI開源社區在DeepSeek發布新模型后的熱烈反應。
兩大創新，成績碾壓GPT-5-Thinking-High和Gemini 2.5-Pro
根據DeepSeek團隊發布的論文，DeepSeekMath-V2的核心突破在于成功實現了“自我驗證”的數學推理機制。
傳統的AI數學推理訓練存在根本性局限——模型獎勵基于最終答案的正確性，但這并不能保證推理過程的正確性或邏輯的嚴謹性。
DeepSeek研究人員在論文中明確指出：“正確答案并不保證推理過程正確”。
這種結果導向的訓練方式，導致模型可能通過錯誤的邏輯得出正確答案，成為“自信的騙子”。
DeepSeekMath-V2徹底改變了這一模式，轉向過程導向的訓練方法。它不依賴大量的數學題答案數據，而是教會AI如何像數學家一樣嚴謹地審查證明過程。
這種方法模擬了人類數學家的思考方式：寫幾步之后，停下來反思，發現漏洞就推翻重寫，直到自己挑不出毛病為止。
另一個大核心創新則是DeepSeekMath-V2構建了一個多層次自我驗證系統。
該系統由三個關鍵角色組成，形成了一個相互協作又相互制約的架構。
“做題家”（證明生成器）負責解題和撰寫證明過程。與以往不同，它被訓練成不僅要寫答案，還要進行“自我評價”，誠實指出自己可能出錯的地方。
“鐵面判官”（證明驗證器）是專門訓練的評分模型，它不看答案對錯，而是專門盯著證明過程挑刺。它將證明分為三個等級：1分（完全正確）、0.5分（有小瑕疵）、0分（有致命錯誤）。
“判官的審計員”（元驗證器）是最絕的一步，它專門檢查驗證器是否在胡亂挑刺。如果驗證器指出了一個不存在的錯誤，它會被元驗證器糾正。
通過這種精巧的架構，DeepSeekMath-V2實現了真正的自我反思能力。
模型不再盲目相信自己的第一直覺，而是學會了懷疑、審視和批判性思維。
根據論文公開的數據，DeepSeekMath-V2在多項數學基準測試中展現出統治級的實力。
在IMO-ProofBench基準測試中，DeepSeekMath-V2在Basic子集上獲得了接近99%的驚人高分，顯著高于Gemini Deep Think的89%。
在更高級的Advanced子集上，DeepSeekMath-V2得分為61.9%，略低于Gemini Deep Think的65.7%，但仍展現出強大的競爭力。
在與頂級模型的直接對比中，DeepSeekMath-V2在所有CNML級別問題類別上，包括代數、幾何、數論、組合學和不等式均持續優于GPT-5-Thinking-High和Gemini 2.5-Pro。
在代數領域，DeepSeekMath-V2遠超GPT-5-Thinking-High和Gemini 2.5-Pro；在幾何領域，其得分幾乎是Gemini 2.5-Pro的三倍。
更令人印象深刻的是，當允許模型進行“自我驗證”，即生成答案后，自己挑毛病，然后帶著問題重新生成，證明的質量分數從初始的0.15（迭代1次）飆升到了0.27（迭代8次）。
開源社區沸騰
DeepSeekMath-V2的開源發布，在AI社區引發了強烈反響。
海外社區有評論稱“鯨魚終于回來了”，并指出DeepSeek以約10個百分點優勢超越谷歌同類模型，超出預期。
在技術社區，用戶用更通俗的語言解讀這一突破：“DeepSeek換了個教法，死磕過程。結果對了，也必須看解題步驟，過程中只要有一步沒整明白，也不給糖吃。這就逼著AI必須要真懂，不能當混子。”
還有用戶指出這一發布的時間點堪稱完美：“就在昨天，AI教父Ilya在訪談中提到，現在的AI就是個只會死記硬背的做題機器。僅僅不到24小時，DeepSeek就把新模型開源了。”
這一巧合被形容為“一次穿越時空的擊掌”，是DeepSeek對AI發展路徑的實質性回應。
不過，也有用戶提出了理性的擔憂：“自我糾錯這套路，說得輕松其實難度不小啊，驗證器要是本身就有問題呢？左手批右手的感覺。”
無論如何，大家都認為DeepSeekMath-V2的開源具有重要的行業意義。
DeepSeekMath-V2采用Apache 2.0許可證，允許修改、重新用途和本地部署，為學術研究和商業應用提供了極大便利。
這一開源降低了全球研究者的門檻，特別是在當前谷歌和OpenAI都將他們的高分數學模型嚴格限制在付費或實驗性訪問。
DeepSeekMath-V2的開源發布標志著AI數學推理能力不再是大公司的專屬領域，而是成為全球研究者可以共同探索和推進的開放領域。
Hugging Face聯合創始人兼Clement Delangue表示：這一發布是邁向AI真正民主化的一步。
用戶現在可以免費使用“世界上最好的數學家之一的大腦”，而不必擔心公司或政府將其收回。

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

TikTok簽署協議，將美國業務出售給甲骨文等主導的合資企業

谷歌安卓16調整Emoji表情設計，風格向iOS靠攏

周受資內部信曝TikTok美國方案；騰訊辟謠元寶由真人運營丨邦早報

TikTok美國業務新進展：字節保留電商、廣告等，引入三方組新合資公司負責數據安全

AI浪潮下，10年后的頂尖高校拼什么？丨GAIR 2025

極數迭代CEO佟顯喬：具身智能的數據工程解決方案思考丨GAIR 2025

全站最新

TikTok簽署協議，將美國業務出售給甲骨文等主導的合資企業

谷歌安卓16調整Emoji表情設計，風格向iOS靠攏

周受資內部信曝TikTok美國方案；騰訊辟謠元寶由真人運營丨邦早報

TikTok美國業務新進展：字節保留電商、廣告等，引入三方組新合資公司負責數據安全

熱門推薦

授權亂象頻出，誰的同仁堂？

當“野性消費”退潮：鴻星爾克留下了什么？

英氏控股的優勢只有品牌和廣告嗎？

為什么蘋果、華為，都干不過小天才？

豪擲10億美金投資OpenAI！迪士尼終于對AI妥協了？（深度觀察）

從“寧王”到“易中天”，時代的“魚群”在遷徙

阿維塔赴港IPO：一場針對“依附者”的價值審視

“鐵飯碗”銀行也開始末位淘汰了？普通人有機會，但沒退路

君樂寶，想要逃出伊利、蒙牛的“五指山”

5 個月估值翻 3 倍！瑞典 AI 巨頭 Lovable 獲 3.3 億美元 B 輪融資

十億流量瞬間清零!YouTube 永久封禁兩大 AI 虛假預告片“鼻祖”頻道

OpenAI 更新 ChatGPT 以強化未成年人保護措施

告別信息淹沒！ChatGPT 推出聊天置頂功能，讓重要對話觸手可及

Meta 官宣2026上半年發布 Mango 系列下一代模型

ChatGPT 移動應用全球用戶支出突破 30 億美元