DeepSeek發布最強開源新品，瞄向全能Agent，給GPT-5與Gemini 3下戰書

IP屬地中國·北京 編輯：劉敏極客怪咖 時間：2025-12-02 08:12:19

unsplash
ChatGPT迎來三周歲生日之際，競爭對手DeepSeek送來了一份“生日禮”，似乎并不想讓這位大模型領域的先行者過得那么輕松。
12月1日晚間，DeepSeek一口氣發布了DeepSeek-V3.2和DeepSeek-V3.2-Speciale兩個正式版模型，同步發布的技術論文顯示，這兩個推理能力達到了全球領先水平。
根據DeepSeek介紹，已經在網頁端、App、API全部更新的“常規軍”V3.2重在平衡推理能力與輸出長度，適合日常使用。
在Benchmark推理測試中，V3.2與GPT5、Claude??4.5在不同領域各有高低，只有Gemini 3 Pro對比前三者均有較明顯優勢。
圖片來自DeepSeek官微
與此同時，DeepSeek方面還表示，對比國產大模型廠商月之暗面新近發布的Kimi-K2-Thinking，V3.2的輸出長度大幅降低，顯著減少了計算開銷與用戶等待時間。在智能體評測中，V3.2得分也高于同為開源的Kimi-K2-Thinking和MiniMax M2，是目前的“最強開源大模型”，相比閉源大模型的巔峰也已無限迫近。
圖片來自DeepSeek官微
更值得注意的是，V3.2在一些問答場景和通用Agent任務中的表現。在一個關于旅游攻略的具體場景咨詢中，V3.2通過深度思考和網站爬蟲、搜索引擎等工具調用，給出了十分詳盡、精確的攻略和建議。V3.2更新的API首次支持了在思考模式下使用工具調用能力，大大提升了用戶獲取到的答案的豐富度和適用性。
而且，DeepSeek方面特別強調，V3.2“并沒有針對這些測試集的工具進行特殊訓練”。
我們注意到，在大模型測試得分越來越高，但在與普通用戶的互動中卻經常犯一些常識性錯誤的當下（尤其以GPT5發布時遭遇的吐槽為代表），DeepSeek近期“上新”時經常強調這一點，證明自身走的不是一條只用正確的答案作為獎勵機制，打造出了看似高智商的“最強大腦”，卻無法勝任用戶個人所需的簡單任務、簡單問題的“低情商”智能體。
而只有從根本上克服這一點，成為所謂高智商、高情商的“雙高”大模型，才有孕育出全能、可靠、高效的AI Agent的能力。DeepSeek方面也表示，相信V3.2在真實應用場景中能夠展現出較強的泛化性。
為了在計算效率、強大推理能力與智能體性能之間取得平衡，DeepSeek在訓練、整合以及應用層面進行了全方位的優化。根據技術論文，V3.2引入了DSA（DeepSeek稀疏注意力機制），能在長上下文場景中顯著降低計算復雜度，同時保持模型性能。
同時，為了將推理能力整合到工具使用場景中，DeepSeek開發了新的合成流程，能夠系統性地大規模生成訓練數據。這一方法促進了可擴展的智能體訓練后優化，顯著提升了復雜、交互式環境中的泛化能力和對指令跟隨能力。
另外，如上文所述，V3.2也是DeepSeek推出的首個將思考融入工具使用的模型，大幅提高了模型的泛化能力。
相比于重視平衡性，專注于如何“說人話、干人事”的V3.2，長思考“特種部隊”V3.2 Speciale的定位則是將將開源模型的推理能力推向極致，探索模型能力的邊界。
值得一提的是，V3.2 Speciale的一大亮點是結合了上周剛剛發布的最強數學大模型DeepSeek-Math-V2的定理證明能力。
我們此前的文章中提到，Math-V2不僅在2025國際數學奧林匹克競賽和2024中國數學奧林匹克上都取得了金牌級成績，在IMO-Proof Bench基準測試評估中還得到了比Gemini 3更好的成績。
而且，與此前提到的思路類似，這款數學模型同樣在努力克服正確答案獎勵機制和“做題家”的身份，以自驗證的方式突破目前AI在深度推理方面的局限，讓大模型真的弄懂何為數學，怎樣推導過程，以此形成更強大、穩定、實用也泛用的定理證明能力。
在推理能力上大幅增強的V3.2 Speciale，也在主流推理基準測試中取得了媲美Gemini 3.0 Pro的成績。不過，V3.2 Speciale的能力優勢需消耗大量Tokens，顯著升高的成本讓其目前不支持工具調用和日常對話、寫作，僅供研究使用。
從OCR到Math-V2，再到V3.2和V3.2 Speciale，DeepSeek近期的新品發布不僅每次都收獲贊譽一片，也在絕對能力提升的同時不斷明確著“實用性”“泛化能力”等發展主線。
2025年后半程，GPT-5、Gemini 3、Claude?Opus?4.5相繼發布，測試成績一次好過一次，再加上快速追趕的DeepSeek，“最牛大模型”的賽道已經有些擁擠。而頭部的大模型在訓練上已有較明顯的區別，表現上也各有特色，相信2026年的大模型的競賽會更加精彩。（作者｜胡珈萌，編輯｜李程程）

標簽：能力模型工具開源數學用戶機制編輯作者方面全能智能 奧林匹克 無法圖片所需個人情商新品爬蟲深度任務優勢答案論文常規錯誤 系統性 方法金牌勝任技術全

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

靠螞蟻阿福，如何干翻“賽博神醫”？

這個實驗室為破解退役電池困局提供“中國方案”

編程只用一句話，國內第一批靠秒噠賺錢的人出現了！

賈躍亭要打造中美機器人橋梁？傳FF正密謀進軍AI機器人領域

贏得產業資本支持的英特爾，按下“瘦身”暫停鍵

全國一等獎！遼視AI實驗室用AI繪出文化自信新篇章

全站最新

靠螞蟻阿福，如何干翻“賽博神醫”？

這個實驗室為破解退役電池困局提供“中國方案”

編程只用一句話，國內第一批靠秒噠賺錢的人出現了！

賈躍亭要打造中美機器人橋梁？傳FF正密謀進軍AI機器人領域

熱門推薦

靠螞蟻阿福，如何干翻“賽博神醫”？

歐盟委員會提議修改2035年新車“零排放”目標

小心“頭頂上的隱患”：無人機不能任性飛

這個實驗室為破解退役電池困局提供“中國方案”

“向華為學習”！華為不造車但造車離不開華為

編程只用一句話，國內第一批靠秒噠賺錢的人出現了！

賈躍亭要打造中美機器人橋梁？傳FF正密謀進軍AI機器人領域

贏得產業資本支持的英特爾，按下“瘦身”暫停鍵

全國一等獎！遼視AI實驗室用AI繪出文化自信新篇章

360集團回應玉紅炮轟周鴻祎：失實、誹謗!

60億加碼核心產線 TCL華星的產能卡位與技術突圍

法拉第未來FX Super One預量產車啟動生產

「機器人+」人形機器人走向大眾？宇樹科技首發應用商店，行業生態“暗戰”浮出水面

2025浙江數字經濟百人會在杭州舉行

長城歐拉5正式上市，限時換新價9.18萬元起