12月2日消息,昨日晚間,DeepSeek發(fā)布了兩款新模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale,并開源。DeepSeek-V3.2 達(dá)到了 GPT-5 的水平,DeepSeek-V3.2-Speciale在主流推理基準(zhǔn)測試上的性能表現(xiàn)媲美 Gemini-3.0-Pro。

在發(fā)布的技術(shù)論文中,DeepSeek團(tuán)隊提到,過去幾個月中出現(xiàn)了一個明顯的分化,開源與閉源模型之間的性能差距非但沒有縮小、反而似乎在擴(kuò)大,限制開源模型在復(fù)雜任務(wù)中能力的三個關(guān)鍵不足。
最新發(fā)布和開源的這兩款模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale則是克服了這些不足,成功讓開源模型重回全球大模型第一梯隊。
強(qiáng)化Agent能力,融入思考推理
根據(jù)DeepSeek官方介紹:
1、DeepSeek-V3.2 的目標(biāo)是平衡推理能力與輸出長度,適合日常使用,例如問答場景和通用 Agent 任務(wù)場景。
在公開的推理類 Benchmark 測試中,DeepSeek-V3.2 達(dá)到了 GPT-5 的水平,僅略低于 Gemini-3.0-Pro;相比 Kimi-K2-Thinking,V3.2 的輸出長度大幅降低,顯著減少了計算開銷與用戶等待時間。
2、DeepSeek-V3.2-Speciale 的目標(biāo)是將開源模型的推理能力推向極致,探索能力的邊界。
V3.2-Speciale 版本是 DeepSeek-V3.2 的長思考增強(qiáng)版,并結(jié)合了 DeepSeek-Math-V2 的定理證明能力。該模型具備出色的指令跟隨能力、嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)證明與邏輯驗證能力,在主流推理基準(zhǔn)測試上的性能表現(xiàn)媲美 Gemini-3.0-Pro。
V3.2-Speciale 模型成功斬獲 IMO 2025(國際數(shù)學(xué)奧林匹克)、CMO 2025(中國數(shù)學(xué)奧林匹克)、ICPC World Finals 2025(國際大學(xué)生程序設(shè)計競賽全球總決賽)及 IOI 2025(國際信息學(xué)奧林匹克)金牌。

在高度復(fù)雜任務(wù)上,Speciale 模型大幅優(yōu)于標(biāo)準(zhǔn)版本,但消耗的 Tokens 也顯著更多,成本更高。目前,DeepSeek-V3.2-Speciale 僅供研究使用,不支持工具調(diào)用,暫未針對日常對話與寫作任務(wù)進(jìn)行專項優(yōu)化。
當(dāng)前官方網(wǎng)頁端、APP 和 API 用戶均可直接體驗 DeepSeek-V3.2。API 用戶可限時調(diào)用體驗 DeepSeek-V3.2-Speciale。DeepSeek-V3.2系列模型已經(jīng)開源,技術(shù)報告同期發(fā)布。
三大因素拉大開源模型與閉源模型差距

在技術(shù)論文引言中,DeepSeek團(tuán)隊指出,推理模型的發(fā)布標(biāo)志著大型語言模型發(fā)展歷程中的一個關(guān)鍵時刻,推動了其在可驗證領(lǐng)域整體性能的顯著飛躍。然而,在過去幾個月中出現(xiàn)了一個明顯的分化。雖然開源社區(qū)持續(xù)取得進(jìn)展,但閉源專有模型的性能軌跡以明顯更快的速度加速提升。因此,開源與閉源模型之間的性能差距非但沒有縮小,反而似乎在擴(kuò)大,專有系統(tǒng)在復(fù)雜任務(wù)中展現(xiàn)出日益優(yōu)越的能力。
通過分析,DeepSeek團(tuán)隊識別出限制開源模型在復(fù)雜任務(wù)中能力的三個關(guān)鍵不足。
首先,在架構(gòu)上,對樸素注意力機(jī)制的主要依賴嚴(yán)重限制了長序列的效率。這種低效對可擴(kuò)展部署和有效后訓(xùn)練都構(gòu)成了重大障礙。
其次,在資源分配方面,開源模型在后訓(xùn)練階段的計算投入不足,限制了其在困難任務(wù)上的表現(xiàn)。
最后,在 AI Agent方面,與專有模型相比,開源模型在泛化能力和指令遵循能力上表現(xiàn)出明顯滯后,阻礙了其在真實(shí)部署中的有效性。
為了應(yīng)對這些關(guān)鍵限制,DeepSeek團(tuán)隊首先引入了 DSA(DeepSeek 稀疏注意力),一種旨在顯著降低計算復(fù)雜度的高效注意力機(jī)制。該架構(gòu)有效解決了效率瓶頸,即使在長上下文場景中也能保持模型性能。
其次,開發(fā)了一個穩(wěn)定且可擴(kuò)展的強(qiáng)化學(xué)習(xí)協(xié)議,允許在后訓(xùn)練階段進(jìn)行顯著的計算擴(kuò)展。值得注意的是,該框架分配的后訓(xùn)練計算預(yù)算超過了預(yù)訓(xùn)練成本的 10%,從而解鎖了高級能力。
第三,提出了一種新穎的流程,以在工具使用場景中培養(yǎng)可泛化的推理能力。首先,利用 DeepSeek-V3 方法實(shí)施冷啟動階段,將推理和工具使用統(tǒng)一在單個軌跡中。隨后,推進(jìn)到大規(guī)模Agent任務(wù)合成,生成了超過 1800 個任務(wù)導(dǎo)向的環(huán)境和 85000 個復(fù)雜的提示詞。這些廣泛的合成數(shù)據(jù)驅(qū)動了 RL 過程,顯著增強(qiáng)了模型在智能體上下文中的泛化能力和指令遵循能力。
DeepSeek-V3.2 的關(guān)鍵技術(shù)突破就包括上述3項:引入 DSA稀疏注意力機(jī)制、可擴(kuò)展的強(qiáng)化學(xué)習(xí)框架、大規(guī)模Agent任務(wù)合成流程。

DeepSeek-V3.2 使用與 DeepSeek-V3.2-Exp 完全相同的架構(gòu)。與 DeepSeek-V3.1 的最后一個版本 DeepSeek-V3.1-Terminus 相比,DeepSeek-V3.2 唯一的架構(gòu)修改是通過持續(xù)訓(xùn)練引入了DSA 稀疏注意力機(jī)制。
DeepSeek-V3.2保持了與 DeepSeek-V3.2-Exp 中相同的后訓(xùn)練流程,包括專家蒸餾和混合 RL 訓(xùn)練。

圖注:DeepSeek-V3.1-Terminus 和 DeepSeek-V3.2 在 H800 集群上的推理成本
此外,DeepSeek官方還特意提到:兩個月前,其發(fā)布了實(shí)驗性的 DeepSeek-V3.2-Exp,并收到了眾多熱心用戶反饋的對比測試結(jié)果。目前未發(fā)現(xiàn) V3.2-Exp 在任何特定場景中顯著差于 V3.1-Terminus,這驗證了 DSA 稀疏注意力機(jī)制的有效性。
基準(zhǔn)測試表現(xiàn),顯著提升開源模型的Agent能力
最終,DeepSeek-V3.2 在多個推理基準(zhǔn)測試中與 Kimi-k2-thinking 和 GPT-5 取得了相似性能,但略遜于 Gemini-3.0-Pro。

值得注意的是,為了推動開源模型在推理領(lǐng)域的邊界,DeepSeek團(tuán)隊放寬了長度限制,開發(fā)了 DeepSeek-V3.2-Speciale。因此,DeepSeek-V3.2-Speciale 實(shí)現(xiàn)了與領(lǐng)先閉源模型Gemini-3.0-Pro 的性能持平。
與 K2-Thinking相比,DeepSeek-V3.2 以明顯更少的輸出tokens取得了類似的分?jǐn)?shù)。
DeepSeek-V3.2 顯著提升了開源模型的Agent能力,在長尾Agent任務(wù)上表現(xiàn)出卓越的熟練度。DeepSeek-V3.2 成為Agent場景中極具成本效益的替代方案,顯著縮小了開源模型與前沿專有模型的性能差距,同時成本大幅降低。
在代碼Agent評估中,DeepSeek-V3.2 在 SWE-bench Verified 和 Terminal Bench 2.0 上均顯著優(yōu)于開源 LLM,展示了其在現(xiàn)實(shí)世界編碼工作流程中的潛力。
DeepSeek-V3.2 的思考模式也增加了對 Claude Code 的支持,用戶可以通過將模型名改為 deepseek-reasoner,或在 Claude Code CLI 中按 Tab 鍵開啟思考模式進(jìn)行使用。
在搜索Agent評估中,使用標(biāo)準(zhǔn)的商業(yè)搜索 API 評估模型,DeepSeek-V3.2 表現(xiàn)也更優(yōu)。
在工具使用基準(zhǔn)測試上,DeepSeek-V3.2 大幅縮小了與閉源模型之間的性能差距。
本次API更新支持了 DeepSeek-V3.2 思考模式下的工具調(diào)用能力。當(dāng)前在思考模式下,模型能夠經(jīng)過多輪的思考 + 工具調(diào)用,最終給出更詳盡準(zhǔn)確的回答。下圖為思考模式下進(jìn)行工具調(diào)用的 API 請求示意圖:

技術(shù)報告最后也指出了一些當(dāng)前研究的局限性,包括,由于總訓(xùn)練FLOPs較少,DeepSeek-V3.2的世界知識廣度仍落后于領(lǐng)先的閉源模型。在基準(zhǔn)測試模型性能時考慮實(shí)際計算成本至關(guān)重要。尋找串行和并行擴(kuò)展的最佳組合以最大化效率和可擴(kuò)展性仍然是團(tuán)隊未來工作的關(guān)鍵方向。





京公網(wǎng)安備 11011402013531號