開源最強，逼平閉源頂流！DeepSeek發布V3.2系列模型，推理能力追平GPT-5

IP屬地中國·北京 華爾街見聞官方 時間：2025-12-01 20:19:42

DeepSeek今天（12月1日）同步推出兩款正式版本AI模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale，前者主打日常應用場景，后者在多項國際競賽中獲得金牌。這標志著開源模型與閉源商業模型的性能差距進一步縮小。
該公司表示，DeepSeek-V3.2在公開推理測試中達到GPT-5水平，僅略低于Gemini-3.0-Pro。相比同類產品Kimi-K2-Thinking，新模型輸出長度大幅降低，顯著減少了計算開銷與用戶等待時間。官方網頁、APP和API服務已全面更新至V3.2版本。

增強版V3.2-Speciale在IMO 2025、CMO 2025等四項國際頂級競賽中斬獲金牌，其中在ICPC與IOI成績分別達到人類選手第二名與第十名水平。該版本結合了DeepSeek-Math-V2的定理證明能力，專注于將開源模型推理能力推向極致。
兩款模型均已在HuggingFace和ModelScope平臺開源。V3.2-Speciale目前僅以臨時API形式開放至12月15日，供社區評測與研究使用。
推理性能對標頂尖閉源模型
DeepSeek-V3.2定位為平衡推理能力與輸出長度的日常使用模型，適合問答場景和通用Agent任務。在主流推理基準測試中，該模型表現接近Gemini-3.0-Pro水平。
DeepSeek-V3.2-Speciale作為長思考增強版本，具備嚴謹的數學證明與邏輯驗證能力，在IMO 2025、CMO 2025、ICPC World Finals 2025及IOI 2025四項國際競賽中均獲金牌。這是開源模型首次在如此廣泛的頂級競賽中取得突破性成績。
但該公司提示，Speciale版本在處理高度復雜任務時消耗的Tokens顯著更多、成本更高，目前僅供研究使用，不支持工具調用，暫未針對日常對話與寫作任務優化。
首次實現思考模式與工具調用融合
DeepSeek-V3.2是該公司首個將思考融入工具使用的模型，同時支持思考模式與非思考模式的工具調用。該公司提出了一種大規模Agent訓練數據合成方法，構造了1800多個環境、85000多條復雜指令的強化學習任務。
根據技術報告，V3.2在智能體評測中達到當前開源模型最高水平，大幅縮小了開源模型與閉源模型在工具調用能力上的差距。該公司表示，模型并未針對測試集工具進行特殊訓練，預計在真實應用場景中能展現較強泛化性。
在思考模式下，模型能夠經過多輪思考加工具調用后給出更詳盡準確的回答。該功能已增加對Claude Code的支持，但暫未充分適配Cline、RooCode等使用非標準工具調用的組件。
DSA稀疏注意力機制獲驗證
該公司兩個月前發布的實驗性DeepSeek-V3.2-Exp收到眾多用戶對比測試反饋。目前未發現該版本在任何特定場景中顯著差于V3.1-Terminus，驗證了DSA稀疏注意力機制的有效性。
官方網頁端、APP和API均已更新為正式版DeepSeek-V3.2。V3.2-Speciale的臨時API服務可通過特定base_url訪問，該模型API價格不變，最大輸出長度默認為128K，服務截止至北京時間12月15日。
兩款模型已在HuggingFace和ModelScope平臺開源，技術報告同步發布。該公司表示用戶的積極反饋為其持續創新注入了更多信心與動力。
Deepseek官方新聞稿全文如下：
兩個月前，我們發布了實驗性的 DeepSeek-V3.2-Exp，并收到了眾多熱心用戶反饋的對比測試結果。目前未發現 V3.2-Exp 在任何特定場景中顯著差于 V3.1-Terminus，這驗證了 DSA 稀疏注意力機制的有效性。也感謝廣大用戶一直以來的積極反饋與支持，為我們的持續創新注入了更多信心與動力。
今天，我們同時發布兩個正式版模型：

DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。
官方網頁端、App 和 API 均已更新為正式版 DeepSeek-V3.2，歡迎使用。Speciale 版本目前僅以臨時 API 服務形式開放，以供社區評測與研究。
新模型技術報告已同步發布：
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf
推理能力全球領先DeepSeek-V3.2 的目標是平衡推理能力與輸出長度，適合日常使用，例如問答場景和通用 Agent 任務場景。在公開的推理類 Benchmark 測試中，DeepSeek-V3.2 達到了 GPT-5 的水平，僅略低于 Gemini-3.0-Pro；相比 Kimi-K2-Thinking，V3.2 的輸出長度大幅降低，顯著減少了計算開銷與用戶等待時間。
DeepSeek-V3.2-Speciale 的目標是將開源模型的推理能力推向極致，探索模型能力的邊界。V3.2-Speciale 是 DeepSeek-V3.2 的長思考增強版，同時結合了 DeepSeek-Math-V2 的定理證明能力。該模型具備出色的指令跟隨、嚴謹的數學證明與邏輯驗證能力，在主流推理基準測試上的性能表現媲美 Gemini-3.0-Pro（見表1）。更令人矚目的是，V3.2-Speciale 模型成功斬獲 IMO 2025（國際數學奧林匹克）、CMO 2025（中國數學奧林匹克）、ICPC World Finals 2025（國際大學生程序設計競賽全球總決賽）及 IOI 2025（國際信息學奧林匹克）金牌。其中，ICPC 與 IOI 成績分別達到了人類選手第二名與第十名的水平。
Tips：在高度復雜任務上，Speciale 模型大幅優于標準版本，但消耗的 Tokens 也顯著更多，成本更高。目前，DeepSeek-V3.2-Speciale 僅供研究使用，不支持工具調用，暫未針對日常對話與寫作任務進行專項優化。
表1：DeepSeek-V3.2 與其他模型在各類數學、代碼與通用領域評測集上的得分（括號內為消耗 Tokens 總量約數）
思考融入工具調用不同于過往版本在思考模式下無法調用工具的局限，DeepSeek-V3.2 是我們推出的首個將思考融入工具使用的模型，并且同時支持思考模式與非思考模式的工具調用。我們提出了一種大規模 Agent 訓練數據合成方法，構造了大量「難解答，易驗證」的強化學習任務（1800+ 環境，85,000+ 復雜指令），大幅提高了模型的泛化能力。
表2：DeepSeek-V3.2 與其他模型在各類智能體工具調用評測集上的得分
如表 2 所示，DeepSeek-V3.2 模型在智能體評測中達到了當前開源模型的最高水平，大幅縮小了開源模型與閉源模型的差距。值得說明的是，V3.2 并沒有針對這些測試集的工具進行特殊訓練，所以我們相信，V3.2 在真實應用場景中能夠展現出較強的泛化性。
示例為通過 LobeChat 使用 DeepSeek-V3.2 的深度思考+工具調用能力得到更加詳細準確的回復
開源DeepSeek-V3.2
HuggingFace:
https://huggingface.co/deepseek-ai/DeepSeek-V3.2
ModelScope:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2
DeepSeek-V3.2-Speciale
HuggingFace:
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale
ModelScope:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale
網頁端、APP 與 API 更新DeepSeek-V3.2 是我們當前正式提供服務的模型，官網網頁、APP、API 模型均已由 DeepSeek-V3.2-Exp 升級為正式版 DeepSeek-V3.2，使用方式不變。
同時，為了方便社區評測與研究，我們非正式部署了 DeepSeek-V3.2-Speciale 的 API 服務，API 用戶可以通過設置
base_url="https://api.deepseek.com/v3.2_speciale_expires_on_20251215"
訪問該模型。該模型 API 價格不變，只支持思考模式下的對話功能，不支持工具調用等功能，最大輸出長度默認為 128K，支持時間截止至北京時間 2025-12-15 23:59。
思考模式下的工具調用本次 API 更新支持了 DeepSeek-V3.2 思考模式下的工具調用能力。當前在思考模式下，模型能夠經過多輪的思考 + 工具調用，最終給出更詳盡準確的回答。下圖為思考模式下進行工具調用的 API 請求示意圖：
在回答問題 1 過程中（請求 1.1 - 1.3），模型進行了多次思考 + 工具調用后給出答案。在這個過程中，用戶需回傳思維鏈內容（reasoning_content）給 API，以讓模型繼續思考。
在下一個用戶問題開始時（請求 2.1），需刪除之前的思維鏈，并保留其它內容發送給 API。
更詳細的使用方法請參考 API 文檔：
https://api-docs.deepseek.com/zh-cn/guides/thinking_mode
DeepSeek-V3.2 的思考模式也增加了對 Claude Code 的支持，用戶可以通過將模型名改為 deepseek-reasoner，或在 Claude Code CLI 中按 Tab 鍵開啟思考模式進行使用。但需要注意的是，思考模式未充分適配 Cline、RooCode 等使用非標準工具調用的組件，我們建議用戶在使用此類組件時繼續使用非思考模式。

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

華杉進行年度演講，羅永浩：要不今天公布錄音？

Windows 11任務欄至今仍無法自由移動！微軟終于給出原因：沒用舊代碼

東安動力首臺轉子發動機R05E點火成功，2027年量產

挑戰液態海洋共識：NASA研究稱土衛六含太陽系最大“冰沙”

曝TikTok交易達成，美國和字節跳動各掌握一家公司

AI賦能流程神州數碼汽車行業AI 應用落地研討會在滬舉辦

全站最新

華杉進行年度演講，羅永浩：要不今天公布錄音？

Windows 11任務欄至今仍無法自由移動！微軟終于給出原因：沒用舊代碼

東安動力首臺轉子發動機R05E點火成功，2027年量產

挑戰液態海洋共識：NASA研究稱土衛六含太陽系最大“冰沙”

熱門推薦

華杉進行年度演講，羅永浩：要不今天公布錄音？

基于阿里千問，烏干達打造本土大模型

比亞迪正式進入伊拉克市場，推出BYD SHARK 6

金沙酒業營銷負責人更迭，王維龍離職，韓玉國接棒

Windows 11任務欄至今仍無法自由移動！微軟終于給出原因：沒用舊代碼

東安動力首臺轉子發動機R05E點火成功，2027年量產

挑戰液態海洋共識：NASA研究稱土衛六含太陽系最大“冰沙”

曝TikTok交易達成，美國和字節跳動各掌握一家公司

AI賦能流程神州數碼汽車行業AI 應用落地研討會在滬舉辦

希迪智駕港交所上市，成港股首家商用車智能駕駛公司

千問App辟謠：全員大會集體吃豆包圖是AI生成的

你的“大廠經驗”，在AI面前可能一文不值

科學與健康|改寫生命演化史！2025我國古生物學研究在多領域取得突破

他設計的手機賣了1.5億臺 | 我們的四分之一世紀

VEX機器人亞洲公開賽在京開幕，全球近30國青少年選手參賽