![]()
12月2日,DeepSeek 發(fā)布了 V3.2 技術(shù)報(bào)告。在這篇論文里,他們做了一件罕見(jiàn)的事:明確指出開(kāi)源大模型與閉源模型的性能差距不是在縮小,而是在擴(kuò)大。
這是基于大量實(shí)測(cè)數(shù)據(jù)的冷靜判斷。
1
差距正在拉大,這是事實(shí)
2024年,當(dāng) DeepSeek、Qwen、GLM 等開(kāi)源模型接連發(fā)布時(shí),社區(qū)充滿樂(lè)觀情緒。"8個(gè)月時(shí)間差"的說(shuō)法廣為流傳,許多人相信開(kāi)源正在追上閉源。但進(jìn)入2025年,情況發(fā)生了變化。
DeepSeek 在論文引言部分直言不諱地寫(xiě)道:“過(guò)去幾個(gè)月出現(xiàn)了明顯的分化。雖然開(kāi)源社區(qū)持續(xù)進(jìn)步,但閉源專有模型的性能提升速度顯著更快。結(jié)果是,兩者的差距非但沒(méi)有縮小,反而在擴(kuò)大,閉源系統(tǒng)在復(fù)雜任務(wù)上展現(xiàn)出越來(lái)越強(qiáng)的優(yōu)勢(shì)。”
這個(gè)觀察有數(shù)據(jù)支撐。論文對(duì)比了 DeepSeek V3.2 與 GPT-5、Gemini 3.0 Pro 在多個(gè)基準(zhǔn)測(cè)試上的表現(xiàn)。在 MMLU-Pro(多學(xué)科知識(shí)測(cè)試)中,DeepSeek V3.2 得分 85.0,GPT-5 是 87.5,而 Gemini 3.0 Pro 達(dá)到了 90.1。在 GPQA Diamond(研究生級(jí)別科學(xué)問(wèn)題)測(cè)試中,三者的得分分別是 82.4、85.7 和 91.9。
![]()
更明顯的差距體現(xiàn)在 HLE(Human Last Exam,極難的文本推理測(cè)試)中。DeepSeek V3.2 的得分是 25.1,GPT-5 是 26.3,而 Gemini 3.0 Pro 高達(dá) 37.7——這個(gè)差距已經(jīng)不是"接近"能形容的了。
值得注意的是,DeepSeek V3.2 已經(jīng)是目前最強(qiáng)的開(kāi)源模型,在大部分開(kāi)源模型的對(duì)比中都處于領(lǐng)先位置。但即便如此,它與頂級(jí)閉源模型之間仍然存在明顯差距,尤其是在需要深度推理和復(fù)雜任務(wù)處理的場(chǎng)景中。
1
差距為何在拉大?三個(gè)結(jié)構(gòu)性問(wèn)題
論文通過(guò)系統(tǒng)分析,識(shí)別出限制開(kāi)源模型在復(fù)雜任務(wù)上能力的三個(gè)關(guān)鍵缺陷。這些不是表面問(wèn)題,而是深層次的結(jié)構(gòu)性困境。
第一個(gè)問(wèn)題在于架構(gòu)層面。
開(kāi)源模型普遍依賴傳統(tǒng)的 vanilla attention 機(jī)制,這種機(jī)制在處理長(zhǎng)序列時(shí)效率極低。
論文指出,這種架構(gòu)上的依賴"嚴(yán)重限制了長(zhǎng)序列的效率,對(duì)可擴(kuò)展部署和有效的后訓(xùn)練構(gòu)成了實(shí)質(zhì)性障礙"。當(dāng)閉源模型已經(jīng)在探索更高效的注意力機(jī)制時(shí),開(kāi)源模型還在用五年前的技術(shù)架構(gòu),這本身就是一個(gè)巨大的劣勢(shì)。
第二個(gè)問(wèn)題是資源投入的鴻溝,尤其體現(xiàn)在后訓(xùn)練階段。
后訓(xùn)練是讓模型從"會(huì)說(shuō)話"變成"會(huì)思考"的關(guān)鍵環(huán)節(jié),需要通過(guò)強(qiáng)化學(xué)習(xí)讓模型學(xué)會(huì)推理、工具使用和遵循復(fù)雜指令。論文透露,DeepSeek V3.2 的后訓(xùn)練計(jì)算預(yù)算超過(guò)了預(yù)訓(xùn)練成本的 10%。要知道,預(yù)訓(xùn)練本身就是天價(jià)投入,而大部分開(kāi)源模型的后訓(xùn)練預(yù)算可能連 1% 都不到。這種資源投入上的差距,直接導(dǎo)致了性能上的代際差異。
第三個(gè)問(wèn)題是 AI Agent 能力的滯后。
在真實(shí)應(yīng)用場(chǎng)景中,開(kāi)源模型的泛化能力和指令理解能力明顯落后。論文引用了三個(gè)關(guān)鍵的 Agent 測(cè)評(píng)基準(zhǔn):在 MCP-Mark 中,DeepSeek V3.2 得分 45.9,Gemini 3.0 Pro 是 51.0;在 MCP-Universe 中,前者是 80.3,后者是 87.9;在 Tool-Decathlon 中,差距更加明顯。這些數(shù)字背后反映的是開(kāi)源模型在復(fù)雜多輪交互、工具調(diào)用、長(zhǎng)期規(guī)劃等場(chǎng)景下的能力不足。
論文總結(jié)道:"開(kāi)源模型在泛化能力和指令跟隨能力方面展現(xiàn)出明顯滯后,這阻礙了它們?cè)趯?shí)際部署中的有效性。"這是一個(gè)誠(chéng)實(shí)且殘酷的判斷。
1
DeepSeek 的應(yīng)對(duì):技術(shù)路線的根本性改變
認(rèn)識(shí)到問(wèn)題后,DeepSeek 沒(méi)有選擇簡(jiǎn)單地堆砌參數(shù)或增加數(shù)據(jù)量,而是在三個(gè)核心維度上進(jìn)行了根本性的技術(shù)創(chuàng)新。
在架構(gòu)層面,DeepSeek 引入了 DSA(DeepSeek Sparse Attention)機(jī)制。
傳統(tǒng)注意力機(jī)制的計(jì)算復(fù)雜度是 O(L2),序列長(zhǎng)度翻倍,計(jì)算量就要翻四倍。DSA 通過(guò)"閃電索引器"(Lightning Indexer)快速計(jì)算每個(gè) token 的重要性評(píng)分,然后只選擇 top-k 個(gè)最重要的 token 參與注意力計(jì)算(論文中 k=2048),將復(fù)雜度從 O(L2) 降至 O(L×k)。
這個(gè)改進(jìn)不僅僅是理論上的優(yōu)化。論文通過(guò)實(shí)測(cè)數(shù)據(jù)表明,在 128K 上下文長(zhǎng)度下,DSA 大幅降低了推理成本,而性能幾乎沒(méi)有損失。更令人意外的是,在 AA-LCR(長(zhǎng)文本推理基準(zhǔn))和 Fiction.liveBench(小說(shuō)理解測(cè)試)中,V3.2 的表現(xiàn)甚至優(yōu)于使用傳統(tǒng)注意力機(jī)制的 V3.1。這證明 DSA 不僅更快,在某些場(chǎng)景下質(zhì)量還更好。
![]()
在資源投入層面,DeepSeek 做出了超常規(guī)的決定。
論文明確寫(xiě)道:"近幾個(gè)月來(lái),性能提升與擴(kuò)展的 RL 訓(xùn)練預(yù)算持續(xù)相關(guān),該預(yù)算已超過(guò)預(yù)訓(xùn)練成本的 10%。"這個(gè)數(shù)字在開(kāi)源界極為罕見(jiàn)。具體來(lái)說(shuō),DeepSeek 為數(shù)學(xué)、編程、推理、Agent 等六大領(lǐng)域分別訓(xùn)練了專家模型,每個(gè)都單獨(dú)進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練。在持續(xù)預(yù)訓(xùn)練階段,模型經(jīng)歷了 943.7B tokens 的訓(xùn)練(在 128K 上下文長(zhǎng)度下),然后采用 GRPO(Group Relative Policy Optimization)算法進(jìn)行混合訓(xùn)練,整合推理、Agent 和人類對(duì)齊三類任務(wù)。
在 Agent 能力強(qiáng)化方面,DeepSeek 開(kāi)發(fā)了系統(tǒng)化的任務(wù)合成流程。
他們合成了超過(guò) 1800 個(gè)多樣化環(huán)境和 85,000 條復(fù)雜提示,涵蓋各種真實(shí)場(chǎng)景。具體包括 24,667 個(gè)代碼 Agent 任務(wù)、50,275 個(gè)搜索 Agent 任務(wù)、4,417 個(gè)通用 Agent 任務(wù)和 5,908 個(gè)代碼解釋器任務(wù)。這些合成數(shù)據(jù)不是隨機(jī)生成的,而是通過(guò)冷啟動(dòng)階段學(xué)習(xí)推理與工具使用的統(tǒng)一模式,然后在規(guī)模化階段系統(tǒng)地生成高質(zhì)量訓(xùn)練場(chǎng)景。
效果是顯著的。在 Agent 相關(guān)的測(cè)試中,DeepSeek V3.2 顯著縮小了與閉源模型的差距,在 MCP-Universe 上達(dá)到了 80.3% 的成功率,雖然仍低于 Gemini 的 87.9%,但已經(jīng)是開(kāi)源模型中的最佳表現(xiàn)。論文總結(jié)說(shuō):“DeepSeek V3.2 成為 Agent 場(chǎng)景中極具成本效益的選擇,顯著縮小了開(kāi)源與前沿閉源模型之間的性能差距。”
論文最后寫(xiě)了一句耐人尋味的話:"如果 Gemini 3.0 證明了持續(xù)擴(kuò)展預(yù)訓(xùn)練的潛力,DeepSeek V3.2-Speciale 則證明了在大規(guī)模上下文環(huán)境中強(qiáng)化學(xué)習(xí)的可擴(kuò)展性。"言下之意很明顯:閉源巨頭有資源堆預(yù)訓(xùn)練,但開(kāi)源可以找到自己的路——通過(guò)更高效的架構(gòu)和更科學(xué)的后訓(xùn)練,用更少的資源實(shí)現(xiàn)接近的效果。
這或許是開(kāi)源 AI 唯一的生存之道:不是硬碰硬拼資源,而是拼技術(shù)路線的創(chuàng)新。至少在這一次,DeepSeek 證明了這條路是走得通的。
論文鏈接:https://arxiv.org/html/2512.02556v1
整理:周華香
點(diǎn)個(gè)“愛(ài)心”,再走 吧





京公網(wǎng)安備 11011402013531號(hào)