DeepSeek上新，“奧數金牌水平”

IP屬地中國·北京 編輯：周偉第一財經 時間：2025-11-28 10:08:56

2025.11.28
本文字數：1072，閱讀時長大約2分鐘
作者 | 第一財經劉曉潔
11月27日晚，DeepSeek悄悄地在Hugging Face 上開源了一個新模型：DeepSeek-Math-V2。這是一個數學方面的模型，也是目前行業首個達到IMO（國際奧林匹克數學競賽）金牌水平且開源的模型。
在同步發布的技術論文中，DeepSeek表示，Math-V2的部分性能優于谷歌旗下的Gemini DeepThink，并展示了模型在IMO-ProofBench基準以及近期數學競賽上的表現。
具體來看，在其中的Basic基準上，DeepSeek-Math-V2 遠勝其他模型，達到了近99%的高分，而排在第二的谷歌旗下Gemini Deep Think (IMO Gold)分數為89%。但在更難的 Advanced 子集上，Math-V2分數為61.9%，略遜于 Gemini Deep Think (IMO Gold)的65.7%。
在這篇名為《DeepSeek Math-V2：邁向可自驗證的數學推理》的論文中，DeepSeek指出，大語言模型已經在數學推理方面取得了重大進展，這是人工智能的重要試驗臺，如果進一步推進，可能會對科學研究產生影響。
但當前的AI在數學推理方面有著研究局限：以正確的最終答案作為獎勵，正確的答案卻不能保證正確的推理。許多數學任務，如定理證明，需要嚴格的分步推導，而不是數字答案，這使得最終答案獎勵不適用。
為了突破深度推理的極限，DeepSeek認為有必要驗證數學推理的全面性和嚴謹性。團隊提出，自我驗證對于擴展測試時間計算尤為重要，特別是對于那些沒有已知解決方案的開放問題。
此次DeepSeek推出的Math-V2就從結果導向轉向了過程導向，展示了強大的定理證明能力。這一模型不依賴大量的數學題答案數據，而是通過教會AI如何像數學家一樣嚴謹地審查證明過程，從而在沒有人類干預的情況下，也能不斷提升解決高難度數學證明題的能力。
論文提到，Math-V2在IMO 2025和CMO 2024上取得了金牌級成績，在Putnam 2024上通過擴展測試計算實現了接近滿分的成績（118/120）。
DeepSeek認為，雖然仍有許多工作要做，但這些結果表明，可自我驗證的數學推理是一個可行的研究方向，可能有助于開發更強大的數學AI系統。
對于DeepSeek此次的動作，海外的反應是“鯨魚終于回來了”。有網友感慨，DeepSeek以10個百分點的優勢擊敗了谷歌的IMO Gold 獲獎模型DeepThink，這不在預測范圍內。“想象一下，當他們公布編程模型時會發生什么，我打賭他們絕對有編程模型。”
目前，行業頭部廠商的模型已經又迭代了一輪，11月，先是OpenAI發布了GPT-5.1，幾天后xAI發布Grok 4.1，就在上周谷歌發布了Gemini 3系列引爆AI圈，“也該輪到DeepSeek出牌了”。不過，更受外界關注的仍然是，DeepSeek的旗艦模型到底什么時候更新，行業期待“鯨魚”的下一個動作。

標簽：數學模型金牌水平方面谷歌行業數據答案導向能力旗下大量奧數過程財經 科學研究 時間問題情況范圍 劉曉潔 產生 尤為重要 解決方案 人類想象 全面性 人工智能 數學題

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

松鼠Ai徐藝涵獲評福布斯中國“影響力教育人物”獎：以AI之智，共筑教育未來

網傳拿下SpaceX低軌衛通相控陣天線量產訂單，碩貝德回應

將復古風貫徹到底，現代下一代索納塔被曝將致敬80年代初代車型

榮耀MagicOS十二月功能上新：一句話P圖、全品牌互聯等

突破美國壟斷，浙江小城跑出一只黑馬

天貓超市加碼淘寶閃購，菜鳥負責倉網與倉配運營

全站最新

松鼠Ai徐藝涵獲評福布斯中國“影響力教育人物”獎：以AI之智，共筑教育未來

網傳拿下SpaceX低軌衛通相控陣天線量產訂單，碩貝德回應

將復古風貫徹到底，現代下一代索納塔被曝將致敬80年代初代車型

榮耀MagicOS十二月功能上新：一句話P圖、全品牌互聯等

熱門推薦

馬斯克：傳統燃油車將逐漸消亡

AI預報全球天氣，氣象人工智能科學模型「風源」發布

拼多多官宣：實行聯席董事長制度

順豐主動退出抖音電商退貨業務

紅米REDMI Note 15系列新春版官宣將于明天發布

羅永浩宣布 2025 科技創新大會將發布細紅線 AI 軟件

Mistral AI 發布新版文檔識別技術 Mistral OCR 3 模型

藍色光標官宣深度接入豆包大模型，全面融合大語言與視頻生成能力

火山引擎譚待：2026年大模型市場將迎十倍增長，AI競爭不是零和博弈而是共同做大蛋糕

松鼠Ai徐藝涵獲評福布斯中國“影響力教育人物”獎：以AI之智，共筑教育未來

網傳拿下SpaceX低軌衛通相控陣天線量產訂單，碩貝德回應

將復古風貫徹到底，現代下一代索納塔被曝將致敬80年代初代車型

榮耀MagicOS十二月功能上新：一句話P圖、全品牌互聯等

突破美國壟斷，浙江小城跑出一只黑馬

它石智航發布全球首個實現自主刺繡機器人