
unsplash
ChatGPT迎來三周歲生日之際,競爭對手DeepSeek送來了一份“生日禮”,似乎并不想讓這位大模型領域的先行者過得那么輕松。
12月1日晚間,DeepSeek一口氣發布了DeepSeek-V3.2和DeepSeek-V3.2-Speciale兩個正式版模型,同步發布的技術論文顯示,這兩個推理能力達到了全球領先水平。
根據DeepSeek介紹,已經在網頁端、App、API全部更新的“常規軍”V3.2重在平衡推理能力與輸出長度,適合日常使用。
在Benchmark推理測試中,V3.2與GPT5、Claude??4.5在不同領域各有高低,只有Gemini 3 Pro對比前三者均有較明顯優勢。

圖片來自DeepSeek官微
與此同時,DeepSeek方面還表示,對比國產大模型廠商月之暗面新近發布的Kimi-K2-Thinking,V3.2的輸出長度大幅降低,顯著減少了計算開銷與用戶等待時間。在智能體評測中,V3.2得分也高于同為開源的Kimi-K2-Thinking和MiniMax M2,是目前的“最強開源大模型”,相比閉源大模型的巔峰也已無限迫近。

圖片來自DeepSeek官微
更值得注意的是,V3.2在一些問答場景和通用Agent任務中的表現。在一個關于旅游攻略的具體場景咨詢中,V3.2通過深度思考和網站爬蟲、搜索引擎等工具調用,給出了十分詳盡、精確的攻略和建議。V3.2更新的API首次支持了在思考模式下使用工具調用能力,大大提升了用戶獲取到的答案的豐富度和適用性。
而且,DeepSeek方面特別強調,V3.2“并沒有針對這些測試集的工具進行特殊訓練”。
我們注意到,在大模型測試得分越來越高,但在與普通用戶的互動中卻經常犯一些常識性錯誤的當下(尤其以GPT5發布時遭遇的吐槽為代表),DeepSeek近期“上新”時經常強調這一點,證明自身走的不是一條只用正確的答案作為獎勵機制,打造出了看似高智商的“最強大腦”,卻無法勝任用戶個人所需的簡單任務、簡單問題的“低情商”智能體。
而只有從根本上克服這一點,成為所謂高智商、高情商的“雙高”大模型,才有孕育出全能、可靠、高效的AI Agent的能力。DeepSeek方面也表示,相信V3.2在真實應用場景中能夠展現出較強的泛化性。
為了在計算效率、強大推理能力與智能體性能之間取得平衡,DeepSeek在訓練、整合以及應用層面進行了全方位的優化。根據技術論文,V3.2引入了DSA(DeepSeek稀疏注意力機制),能在長上下文場景中顯著降低計算復雜度,同時保持模型性能。
同時,為了將推理能力整合到工具使用場景中,DeepSeek開發了新的合成流程,能夠系統性地大規模生成訓練數據。這一方法促進了可擴展的智能體訓練后優化,顯著提升了復雜、交互式環境中的泛化能力和對指令跟隨能力。
另外,如上文所述,V3.2也是DeepSeek推出的首個將思考融入工具使用的模型,大幅提高了模型的泛化能力。
相比于重視平衡性,專注于如何“說人話、干人事”的V3.2,長思考“特種部隊”V3.2 Speciale的定位則是將將開源模型的推理能力推向極致,探索模型能力的邊界。
值得一提的是,V3.2 Speciale的一大亮點是結合了上周剛剛發布的最強數學大模型DeepSeek-Math-V2的定理證明能力。
我們此前的文章中提到,Math-V2不僅在2025國際數學奧林匹克競賽和2024中國數學奧林匹克上都取得了金牌級成績,在IMO-Proof Bench基準測試評估中還得到了比Gemini 3更好的成績。
而且,與此前提到的思路類似,這款數學模型同樣在努力克服正確答案獎勵機制和“做題家”的身份,以自驗證的方式突破目前AI在深度推理方面的局限,讓大模型真的弄懂何為數學,怎樣推導過程,以此形成更強大、穩定、實用也泛用的定理證明能力。
在推理能力上大幅增強的V3.2 Speciale,也在主流推理基準測試中取得了媲美Gemini 3.0 Pro的成績。不過,V3.2 Speciale的能力優勢需消耗大量Tokens,顯著升高的成本讓其目前不支持工具調用和日常對話、寫作,僅供研究使用。
從OCR到Math-V2,再到V3.2和V3.2 Speciale,DeepSeek近期的新品發布不僅每次都收獲贊譽一片,也在絕對能力提升的同時不斷明確著“實用性”“泛化能力”等發展主線。
2025年后半程,GPT-5、Gemini 3、Claude?Opus?4.5相繼發布,測試成績一次好過一次,再加上快速追趕的DeepSeek,“最牛大模型”的賽道已經有些擁擠。而頭部的大模型在訓練上已有較明顯的區別,表現上也各有特色,相信2026年的大模型的競賽會更加精彩。(作者|胡珈萌,編輯|李程程)





京公網安備 11011402013531號