
壞消息,開源模型和閉源模型的差距越來越大了。
好消息,DeepSeek 又出手了。
12 月 1 日,DeepSeek 發(fā)布了兩款新模型 —— DeepSeek V3.2 和 DeepSeek-V3.2-Speciale。
![]()
前者和 GPT-5 能打的有來有回,后面的高性能版更是直接把 GPT 爆了,開始和閉源模型天花板 —— Gemini 打了個(gè)五五開。
還在IMO 2025(國際數(shù)學(xué)奧林匹克)、CMO 2025(中國數(shù)學(xué)奧林匹克)等一系列比賽中拿下金牌。
![]()
這是這家公司今年第九次發(fā)布模型,雖然大家期待的 R2 還沒有來。
所以,DeepSeek 是怎么用更小的數(shù)據(jù),更少的顯卡,做出能和國際巨頭來抗衡的模型?
我們翻開了他們的論文,想把這件事給大家講清楚。
為了做到這個(gè)目標(biāo),DeepSeek 又整了不少新招:
先是把咱們的老朋友 DSA —— 稀疏注意力給轉(zhuǎn)正了。
![]()
這東西在之前的 V3.2-EXP 版本里出現(xiàn)過,當(dāng)時(shí)只是測了一下 DSA 會不會影響模型的性能,現(xiàn)在是真的把這玩意給放到了主力模型上。
![]()
大家平時(shí)和大模型聊天的時(shí)候會發(fā)現(xiàn),你在一個(gè)對話框里聊的越多,模型就越容易胡言亂語。
甚至聊的太多了,還會直接不讓你聊了。
![]()
這是因?yàn)榇竽P驮淖⒁饬C(jī)制導(dǎo)致的問題,在這套老邏輯的影響下,每個(gè) token 出來,都要和前面的每一個(gè) token 互相算在一起做一次計(jì)算。

這就導(dǎo)致了句子增長一倍,模型的計(jì)算量就得增加到原來的四倍,如果邊長到原來的三倍,計(jì)算量就變成了原來的九倍,非常麻煩。
DeepSeek 想這樣不行啊,于是就給大模型里加了固定頁數(shù)的目錄(稀疏注意力),相當(dāng)于幫模型劃重點(diǎn)了。
而在有了目錄之后,以后每次只需要計(jì)算這個(gè) token 和這些目錄的關(guān)系就行了,相當(dāng)于就是看書先讀目錄,看完目錄,對哪一章感興趣,再去仔細(xì)看這章的內(nèi)容就好。
這樣一來,就能讓大模型讀長文的能力變的更強(qiáng)。
在下面這張圖里可以看到,隨著句子越來越長,傳統(tǒng)的 V3.1 的推理成本是越來越高。
但是用上了稀疏注意力的 3.2 則沒什么變化。。。
![]()
屬于是超級省錢冠軍了。
另一方面,DeepSeek 開始重視起了開源模型的后訓(xùn)練工作。
大模型這一套從預(yù)訓(xùn)練開始,到考試打分的過程,其實(shí)有點(diǎn)像是我們?nèi)祟悘男W(xué)開始,一路讀書讀到高考的過程。
前面的大規(guī)模預(yù)訓(xùn)練,相當(dāng)于從小學(xué)到高二,把所有課本、練習(xí)冊、卷子全過一遍,這一步大家都差不多,不管是閉源模型,還是開源模型,都在老老實(shí)實(shí)的念書。
但到了高考沖刺階段就不一樣了,在模型的后訓(xùn)練階段,閉源模型一般都會請名師,猛刷題,開始搞起各種強(qiáng)化學(xué)習(xí),最后讓模型來考一個(gè)不錯的成果。
但開源模型在這塊花的心思就比較少了,按照 DeepSeek 的說法,過去的開源模型在訓(xùn)練后階段計(jì)算投入普遍偏低。
這就導(dǎo)致這些模型可能基礎(chǔ)能力是已經(jīng)到位的了,但就是難題刷少了,結(jié)果導(dǎo)致考出來的成績不太好。
于是,DeepSeek 決定這次自己也要上名師輔導(dǎo)班,設(shè)計(jì)了一套新的強(qiáng)化學(xué)習(xí)協(xié)議,在預(yù)訓(xùn)練結(jié)束后,花了超過總訓(xùn)練算力的 10% 來給模型開小灶,把之前缺的這塊給補(bǔ)上。
同時(shí)還推出了個(gè)能思考超長時(shí)間的特殊版本 ——DeepSeek V3.2 Speciale。
這玩意的思路是這樣的:
過去的大模型因?yàn)樯舷挛拈L度有限制,所以在訓(xùn)練的時(shí)候都會做一些標(biāo)注懲罰的工作,如果模型深度思考的內(nèi)容太長了,那就會扣分。
而到了 DeepSeek V3.2 Speciale 這兒,所以 DeepSeek 干脆取消掉了這個(gè)扣分項(xiàng),反而鼓勵模型想思考多久就思考多久,想怎么思考就怎么思考。
最終,讓這個(gè)全新的 DeepSeek V3.2 Speciale 成功的和前幾天爆火的 Gemini 3 打的有來有回。
![]()
此外DeepSeek 還很重視模型在智能體方面能力。
一方面,為了提高模型的基礎(chǔ)能力,DeepSeek 構(gòu)建了一個(gè)虛擬環(huán)境,合成了成千上萬條數(shù)據(jù)來輔助訓(xùn)練。
DeepSeek-V3.2 用 24667 個(gè)真實(shí)代碼環(huán)境任務(wù)、50275 個(gè)真實(shí)搜索任務(wù)、4417 個(gè)合成通用 agent 場景、5908 個(gè)真實(shí)的代碼解釋任務(wù)做后訓(xùn)練。
![]()
另一方面,DeepSeek 還優(yōu)化了模型使用各種工具的流程。
以前幾代 DeepSeek 的一個(gè)典型毛病是:會把思考和用工具給分開。
模型一旦去調(diào)用外部工具,前面那段思考基本就算寫完收工了,等工具查完結(jié)果再回來,它往往又要重新鋪一遍思路。
這就導(dǎo)致一種很蠢的體驗(yàn)——哪怕只是去查一下“今天幾月幾號” 這種小事,模型也會從頭開始重建整套推理鏈,非常浪費(fèi)時(shí)間。。。
在 V3.2 這里,DeepSeek 忍不了了,直接把這套邏輯推翻重做。
現(xiàn)在的規(guī)則變成:在一整串工具調(diào)用的過程中,模型的“思考過程”會一直保留下來,只有當(dāng)用戶發(fā)來一條新的提問時(shí),才會重置這一輪推理;而工具的調(diào)用記錄和結(jié)果,會像聊天記錄一樣一直留在上下文里。
![]()
通過這修改模型架構(gòu),重視后訓(xùn)練,強(qiáng)化 Agent 能力的三板斧,DeepSeek 才終于讓自己的新模型,有了能和世界頂尖開源模型再次一戰(zhàn)的能力。
當(dāng)然,即使做了這么多改進(jìn),DeepSeek 的表現(xiàn)也算不上完美。
但托尼最喜歡 DeepSeek 的一點(diǎn),就是他們愿意承認(rèn)自己的不足。
而且還會直接在論文里寫出來。
比如這次論文就提到了,這次的 DeepSeek V3.2 Speciale 雖然能和谷歌的 Gemini 3 Pro 來打的五五開。
![]()
但是要回答相同的問題,DeepSeek 需要花費(fèi)更多的 token。
我自己也測試了一下,從“人類的最終考試” 的題庫里隨便抽了道題目,同時(shí)丟給 Gemini 3 Pro 和 DeepSeek V3.2 Speciale 這兩個(gè)模型。
![]()
題目是: 蜂鳥類在足形目中獨(dú)特地?fù)碛须p側(cè)成對的橢圓形骨,這是一種嵌入在膨脹的十字翼腱膜的尾狀骨中,嵌入壓低多粒骨的尾狀骨。這塊籽骨支撐著多少對對腱?請用數(shù)字回答。
結(jié)果發(fā)現(xiàn) Gemini 只要 4972 個(gè) Tokens 就能把問題給答出來。
![]()
而到了 DeepSeek 這邊,則用了 8077 個(gè) Tokens 才把問題給搞明白。
![]()
光看用量的話,DeepSeek 的的 Tokens 消耗量高了快六成,確實(shí)是有不小的差距。
但是話又說回來了。
DeepSeek 雖然消耗的 token 多,但是人家價(jià)格便宜啊。。。
還是剛才那個(gè)問題,我回頭仔細(xì)看了眼賬單。
DeepSeek 8000 多個(gè) tokens,花了我 0.0032 美元。
但谷歌這邊,5000 個(gè) tokens 不到,給我干掉了 0.06 刀?這塊要比 DeepSeek 高了有 20 倍了。
![]()
從這個(gè)角度上來看,怎么感覺還是 DeepSeek 更香一些。。。
最后,讓我們回到論文的開頭。
正如 DeepSeek 所言,最近半年來,開源模型和閉源模型的差距正在不斷加大。
![]()
但他們還是用自己的方式,在不斷追趕這份差距。
而 DeepSeek 的各種節(jié)省算力,節(jié)約數(shù)據(jù)的操作,其實(shí)讓我想到了上個(gè)月,一場關(guān)于 Ilya Sutskever 的訪談。
![]()
這位 OpenAI 曾經(jīng)的靈魂人物認(rèn)為,只靠一味的給模型堆參數(shù),是沒有未來的。
AlexNet只用了兩塊GPU。Transformer剛出現(xiàn)時(shí)的實(shí)驗(yàn)規(guī)模,大多在8~64塊GPU范圍內(nèi)。按今天的標(biāo)準(zhǔn)看,那甚至相當(dāng)于幾塊GPU的規(guī)模,ResNet也一樣。沒有哪篇論文靠龐大的集群才能完成。
比起算力的堆砌,對算法的研究也一樣重要。
這正是 DeepSeek 在做的事情。
從 V2 的 MoE,到 V3 的多頭潛在注意力(MLA),再到如今 DeepSeek Math V2 的自驗(yàn)證機(jī)制,V3.2 的稀疏注意力(DSA)。
DeepSeek 展現(xiàn)給我們進(jìn)步,從來都不是單一的,依靠堆砌參數(shù)規(guī)模所帶來的提升。
而是在想辦法,如何用有限的數(shù)據(jù),來堆積出更多的智能。
巧婦狂作無米之炊
所以,R2 什么時(shí)候來呢?
撰文:早起
編輯:江江 & 面線
美編:煥妍
圖片、資料來源:DeepSeek 官網(wǎng)、論文
![]()





京公網(wǎng)安備 11011402013531號