小雷發(fā)現(xiàn),DeepSeek似乎真的很喜歡大晚上給大家突然來個驚喜。
12月1日晚,DeepSeek突然來了一波更新:V3.2版本正式上線并向所有用戶開放,同時也在各個開源社區(qū)上傳了V3.2的本地部署模型供所有用戶使用。從官方公布的測試結(jié)果來看,DeepSeek V3.2的推理能力已經(jīng)基本與OpenAI的GPT-5相近,但是其成本卻遠低于GPT-5,可以說僅這一點就足以讓不少人為之興奮了。
好了,廢話不多說,讓我們直接進入正題,看看DeepSeek這次給我們帶來了哪些方面的提升。
推理更強還更便宜
DeepSeek V3.2共有兩個版本,一個是在DeepSeek官方網(wǎng)站上給大家免費使用的DeepSeek V3.2版,另一個則是僅支持API服務訪問的DeepSeek V3.2-Speciale,從官方的描述來看,Speciale版擁有更強的推理能力,其主要用于探索目前模型能力的推理能力上限。
V3.2-Speciale除了會主動進入“長思考加強”模式外,還結(jié)合了DeepSeek-Math-V2的定理證明能力,使其擁有更強的指令跟隨、數(shù)學證明和邏輯驗證能力。在官方測試中,V3.2-Speciale的推理基準測試成績直接媲美最新的Gemini-3.0-Pro。
![]()
圖源:DeepSeek
同時,DeepSeek還用V3.2-Speciale測試了IMO 2025(國際數(shù)學奧林匹克)、CMO 2025(中國數(shù)學奧林匹克)、ICPC World Finals 2025(國際大學生程序設計競賽全球總決賽)及 IOI 2025(國際信息學奧林匹克)等四項賽事的決賽試題,均獲得金牌的成績。
特別是在ICPC和IOI的測試中,直接達到人類選手第二及第十名的水平,由此不難看出,DeepSeek V3.2在編程等領域的進步顯然更大一些。而且在橫向?qū)Ρ戎校珼eepSeek V3.2-Speciale的賽事成績也全部超越了GPT-5 High,也是給OpenAI來了個措手不及。
![]()
圖源:DeepSeek
在官方的技術(shù)文檔里,他們提到DeepSeek V3.2的主要突破是引入了DeepSeek Sparse Attention (DSA) 稀疏注意力機制,并且通過雙版本的設計來滿足不同場景下的推理需求。
DSA機制的部署可以說從根本上解決了AI大模型在注意力方面的效率問題,具體來說,傳統(tǒng)的注意力機制在運行時會計算序列中所有元素之間的關聯(lián),而DSA則是“有選擇”地計算部分關鍵元素之間的關聯(lián),這使得所需要計算的數(shù)據(jù)顯著降低。
事實上,類似的技術(shù)DeepSeek在年初的論文里就已經(jīng)預告過,當時小雷還寫了一篇文章,針對DeepSeek發(fā)布的全新注意力機制NSA進行解讀。不過在后續(xù)的DeepSeek模型更新中,NSA機制一直沒有公開露面,讓小雷一度以為這個機制的部署遇到了什么困難。
不過,現(xiàn)在看來并非是遇到了困難,而是DeepSeek找到了更好的實現(xiàn)方式,年初論文里的NSA在處理長文本數(shù)據(jù)時,更像是把圖書館的書名做成一本索引,然后在遇到問題時通過索引快速鎖定對應區(qū)域,然后再進行信息檢索。
![]()
圖源:LLM
而DSA則是類似于搜索引擎,在處理長文本時會首先進行快速的全文閱讀,然后建立“閃電索引器”,后續(xù)需要檢索數(shù)據(jù)時,再通過關鍵詞來快速確定相關內(nèi)容,與NSA固定區(qū)域的檢索是不同的,DSA不僅更智能和精準,而且消耗的資源還更低。
在DSA機制的加持下,128K的序列推理成本可以降低60%以上,并且讓推理速度提升約3.5倍速度,內(nèi)存占用則減少70%,同時模型本身的性能沒有明顯下降,可以說從根本上改變了AI大模型在注意力領域的表現(xiàn)。
根據(jù)官方提供的數(shù)據(jù),在H800集群上進行AI模型測試時,在序列長度達到128K時,預填充階段每百萬token的成本從0.7美元降到了0.2美元左右,解碼階段則是從2.4美元降到了0.8美元,讓DeepSeek V3.2可能成為同級別AI大模型里長文本推理成本最低的模型。
不僅會思考,還會用“工具”
除了DSA機制外,DeepSeek V3.2還有個核心升級是允許AI大模型在思考模式下調(diào)用工具。官方表示其調(diào)用工具及使用工具的過程都無需訓練,這使得DeepSeek V3.2擁有更強大的通用性能,并且作為開源模型可更好兼容使用者自制的工具。
為了驗證DeepSeek V3.2的新特性,小雷設計了一些問題來看看他的回答效果,首先看看思考模式的表現(xiàn):
問:A 比 B 大三歲,B 比 C 大兩歲。五年后 A 的年齡剛好是 C 的兩倍。問現(xiàn)在三個人多少歲?
答:
![]()
圖源:雷科技
答案是正確的,不過關鍵在思考過程:
![]()
![]()
圖源:雷科技
可以看到DeepSeek在計算出結(jié)果后,開始反復驗證答案的正確,并且思考不同情況下該答案是否仍然正確或存在其他問題,在最后輸出答案前,DeepSeek總共進行了三輪答案驗證。
雖然看起來有點浪費算力,但是這種多次驗證的思路卻是必須的,可以更好的確保DSA機制下回答的正確率,否則就以DeepSeek的稀疏架構(gòu)來說,出錯的概率其實會比其他AI更高。
然后我又設計了一個多步驟的任務鏈處理:
搜索北京今天氣溫
把氣溫轉(zhuǎn)換為華氏溫度
調(diào)用工具檢查你的換算是否正確
最后用一句話總結(jié)今天適合不適合戶外活動
注:你必須自己決定什么時候調(diào)用工具,不能一次性完成。
我們來看看DeepSeek的思考過程:
![]()
圖源:雷科技
可以看到其很好的理解了提問的需求,并且開始分步驟使用搜索和數(shù)學工具來解決問題,最終輸出了回答:
![]()
圖源:雷科技
回答整體上是正確按照步驟做了回答,并且最后還自動選擇數(shù)學工具對轉(zhuǎn)換結(jié)果進行確認,但是也有一個奇葩的地方,DeepSeek把思考過程中提到過的“總結(jié)今天適合不適合戶外運動”的回答弄丟了,不過瑕不掩瑜,思考過程來看,DeepSeek確實具備自主決策使用哪些工具的能力。
作為對比,另一個AI在面對相同的問題時,雖然理解“調(diào)用工具”等要求,但是在執(zhí)行到實際步驟時卻變成直接搜索對應數(shù)據(jù)來填充回答:
![]()
圖源:雷科技
事實上,在DeepSeek的思考模式工具調(diào)用教程里也有類似的問題,不過那個教程中展示的是如何通過多輪對話和調(diào)用多個工具來提高最終答案的質(zhì)量。
你可以這么理解:DeepSeek以前只能在你提問時通過回憶(模型參數(shù))來組合答案,現(xiàn)在則可通過拆解問題、逐個提問并針對問題使用不同工具(如搜索、數(shù)學、編程等)來給出更好的解決方案,最后再整合所有回答并重新排版成完整答案。
因為整體時間有限,所以小雷也就沒有設計更難的問題去測試DeepSeek,有興趣的朋友現(xiàn)在就可以登錄DeepSeek官網(wǎng)親自試試。
最強開源?OpenAI和Google又要頭疼了
DeepSeek V3.2強嗎?確實強,但是并沒有斷崖式領先,從測試結(jié)果來看與GPT-5 High及Gemini 3.0 Pro都是有來有回。但是,當一個能在多個權(quán)威基準里對標 GPT-5、Gemini 3.0 Pro、推理成本卻低到只有行業(yè)主流模型三分之一甚至更低的模型以完全開源的方式放出來,足以對整個市場造成沖擊——這也是DeepSeek一直能顛覆行業(yè)的根本邏輯。
此前,業(yè)界一直有個聲音:“開源模型永遠落后閉源模型8個月”,這個結(jié)論不好說對不對,但是DeepSeek V3.2的發(fā)布顯然終結(jié)了這個爭論。DeepSeek繼續(xù)堅持全量開源,尤其是在引入DSA這種能顯著降低成本、提升長文本能力的底層技術(shù)之后,其實就讓開源模型的角色從“追趕者”變成了反向倒逼閉源巨頭的“挑戰(zhàn)者”。
更重要的是,DSA帶來的成本革命會對AI大模型的商業(yè)化造成顯著影響,因為AI大模型的訓練和推理本質(zhì)上都還存在成本高的問題,一句“成本下降60%”背后其實不只是關系到運營成本,還有前期部署成本,整體成本下降也意味著即使是小型企業(yè)都可以借助DeepSeek訓練出更強的模型。
而在推理端,長文本交互的價格足夠低后,高級AI應用(智能體、自動化工作流、長鏈推理等)也將不再局限于企業(yè)級市場,而是能夠更好地被推廣到消費級市場使用,甚至可能極大加速“AI工具取代傳統(tǒng)軟件”的趨勢,使AI真正滲透到操作系統(tǒng)層級的日常使用中。
對于普通用戶而言,或許只是覺得多了個免費的好用模型,但是從在幾個月、半年后,或許你會發(fā)現(xiàn)各種硬件、軟件的AI體驗又有了質(zhì)的提升,不用懷疑,這背后大概率有DeepSeek的功勞。





京公網(wǎng)安備 11011402013531號