開(kāi)源和閉源模型的差距在拉大：這是 DeepSeek 論文揭示的殘酷真相

IP屬地中國(guó)·北京 硅星人 時(shí)間：2025-12-07 10:10:19

12月2日，DeepSeek 發(fā)布了 V3.2 技術(shù)報(bào)告。在這篇論文里，他們做了一件罕見(jiàn)的事：明確指出開(kāi)源大模型與閉源模型的性能差距不是在縮小，而是在擴(kuò)大。
這是基于大量實(shí)測(cè)數(shù)據(jù)的冷靜判斷。
1
差距正在拉大，這是事實(shí)
2024年，當(dāng) DeepSeek、Qwen、GLM 等開(kāi)源模型接連發(fā)布時(shí)，社區(qū)充滿樂(lè)觀情緒。"8個(gè)月時(shí)間差"的說(shuō)法廣為流傳，許多人相信開(kāi)源正在追上閉源。但進(jìn)入2025年，情況發(fā)生了變化。
DeepSeek 在論文引言部分直言不諱地寫(xiě)道：“過(guò)去幾個(gè)月出現(xiàn)了明顯的分化。雖然開(kāi)源社區(qū)持續(xù)進(jìn)步，但閉源專有模型的性能提升速度顯著更快。結(jié)果是，兩者的差距非但沒(méi)有縮小，反而在擴(kuò)大，閉源系統(tǒng)在復(fù)雜任務(wù)上展現(xiàn)出越來(lái)越強(qiáng)的優(yōu)勢(shì)。”
這個(gè)觀察有數(shù)據(jù)支撐。論文對(duì)比了 DeepSeek V3.2 與 GPT-5、Gemini 3.0 Pro 在多個(gè)基準(zhǔn)測(cè)試上的表現(xiàn)。在 MMLU-Pro（多學(xué)科知識(shí)測(cè)試）中，DeepSeek V3.2 得分 85.0，GPT-5 是 87.5，而 Gemini 3.0 Pro 達(dá)到了 90.1。在 GPQA Diamond（研究生級(jí)別科學(xué)問(wèn)題）測(cè)試中，三者的得分分別是 82.4、85.7 和 91.9。

更明顯的差距體現(xiàn)在 HLE（Human Last Exam，極難的文本推理測(cè)試）中。DeepSeek V3.2 的得分是 25.1，GPT-5 是 26.3，而 Gemini 3.0 Pro 高達(dá) 37.7——這個(gè)差距已經(jīng)不是"接近"能形容的了。
值得注意的是，DeepSeek V3.2 已經(jīng)是目前最強(qiáng)的開(kāi)源模型，在大部分開(kāi)源模型的對(duì)比中都處于領(lǐng)先位置。但即便如此，它與頂級(jí)閉源模型之間仍然存在明顯差距，尤其是在需要深度推理和復(fù)雜任務(wù)處理的場(chǎng)景中。
1
差距為何在拉大？三個(gè)結(jié)構(gòu)性問(wèn)題
論文通過(guò)系統(tǒng)分析，識(shí)別出限制開(kāi)源模型在復(fù)雜任務(wù)上能力的三個(gè)關(guān)鍵缺陷。這些不是表面問(wèn)題，而是深層次的結(jié)構(gòu)性困境。
第一個(gè)問(wèn)題在于架構(gòu)層面。
開(kāi)源模型普遍依賴傳統(tǒng)的 vanilla attention 機(jī)制，這種機(jī)制在處理長(zhǎng)序列時(shí)效率極低。
論文指出，這種架構(gòu)上的依賴"嚴(yán)重限制了長(zhǎng)序列的效率，對(duì)可擴(kuò)展部署和有效的后訓(xùn)練構(gòu)成了實(shí)質(zhì)性障礙"。當(dāng)閉源模型已經(jīng)在探索更高效的注意力機(jī)制時(shí)，開(kāi)源模型還在用五年前的技術(shù)架構(gòu)，這本身就是一個(gè)巨大的劣勢(shì)。
第二個(gè)問(wèn)題是資源投入的鴻溝，尤其體現(xiàn)在后訓(xùn)練階段。
后訓(xùn)練是讓模型從"會(huì)說(shuō)話"變成"會(huì)思考"的關(guān)鍵環(huán)節(jié)，需要通過(guò)強(qiáng)化學(xué)習(xí)讓模型學(xué)會(huì)推理、工具使用和遵循復(fù)雜指令。論文透露，DeepSeek V3.2 的后訓(xùn)練計(jì)算預(yù)算超過(guò)了預(yù)訓(xùn)練成本的 10%。要知道，預(yù)訓(xùn)練本身就是天價(jià)投入，而大部分開(kāi)源模型的后訓(xùn)練預(yù)算可能連 1% 都不到。這種資源投入上的差距，直接導(dǎo)致了性能上的代際差異。
第三個(gè)問(wèn)題是 AI Agent 能力的滯后。
在真實(shí)應(yīng)用場(chǎng)景中，開(kāi)源模型的泛化能力和指令理解能力明顯落后。論文引用了三個(gè)關(guān)鍵的 Agent 測(cè)評(píng)基準(zhǔn)：在 MCP-Mark 中，DeepSeek V3.2 得分 45.9，Gemini 3.0 Pro 是 51.0；在 MCP-Universe 中，前者是 80.3，后者是 87.9；在 Tool-Decathlon 中，差距更加明顯。這些數(shù)字背后反映的是開(kāi)源模型在復(fù)雜多輪交互、工具調(diào)用、長(zhǎng)期規(guī)劃等場(chǎng)景下的能力不足。
論文總結(jié)道："開(kāi)源模型在泛化能力和指令跟隨能力方面展現(xiàn)出明顯滯后，這阻礙了它們?cè)趯?shí)際部署中的有效性。"這是一個(gè)誠(chéng)實(shí)且殘酷的判斷。
1
DeepSeek 的應(yīng)對(duì)：技術(shù)路線的根本性改變
認(rèn)識(shí)到問(wèn)題后，DeepSeek 沒(méi)有選擇簡(jiǎn)單地堆砌參數(shù)或增加數(shù)據(jù)量，而是在三個(gè)核心維度上進(jìn)行了根本性的技術(shù)創(chuàng)新。
在架構(gòu)層面，DeepSeek 引入了 DSA（DeepSeek Sparse Attention）機(jī)制。
傳統(tǒng)注意力機(jī)制的計(jì)算復(fù)雜度是 O(L2)，序列長(zhǎng)度翻倍，計(jì)算量就要翻四倍。DSA 通過(guò)"閃電索引器"（Lightning Indexer）快速計(jì)算每個(gè) token 的重要性評(píng)分，然后只選擇 top-k 個(gè)最重要的 token 參與注意力計(jì)算（論文中 k=2048），將復(fù)雜度從 O(L2) 降至 O(L×k)。
這個(gè)改進(jìn)不僅僅是理論上的優(yōu)化。論文通過(guò)實(shí)測(cè)數(shù)據(jù)表明，在 128K 上下文長(zhǎng)度下，DSA 大幅降低了推理成本，而性能幾乎沒(méi)有損失。更令人意外的是，在 AA-LCR（長(zhǎng)文本推理基準(zhǔn)）和 Fiction.liveBench（小說(shuō)理解測(cè)試）中，V3.2 的表現(xiàn)甚至優(yōu)于使用傳統(tǒng)注意力機(jī)制的 V3.1。這證明 DSA 不僅更快，在某些場(chǎng)景下質(zhì)量還更好。

在資源投入層面，DeepSeek 做出了超常規(guī)的決定。
論文明確寫(xiě)道："近幾個(gè)月來(lái)，性能提升與擴(kuò)展的 RL 訓(xùn)練預(yù)算持續(xù)相關(guān)，該預(yù)算已超過(guò)預(yù)訓(xùn)練成本的 10%。"這個(gè)數(shù)字在開(kāi)源界極為罕見(jiàn)。具體來(lái)說(shuō)，DeepSeek 為數(shù)學(xué)、編程、推理、Agent 等六大領(lǐng)域分別訓(xùn)練了專家模型，每個(gè)都單獨(dú)進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練。在持續(xù)預(yù)訓(xùn)練階段，模型經(jīng)歷了 943.7B tokens 的訓(xùn)練（在 128K 上下文長(zhǎng)度下），然后采用 GRPO（Group Relative Policy Optimization）算法進(jìn)行混合訓(xùn)練，整合推理、Agent 和人類對(duì)齊三類任務(wù)。
在 Agent 能力強(qiáng)化方面，DeepSeek 開(kāi)發(fā)了系統(tǒng)化的任務(wù)合成流程。
他們合成了超過(guò) 1800 個(gè)多樣化環(huán)境和 85,000 條復(fù)雜提示，涵蓋各種真實(shí)場(chǎng)景。具體包括 24,667 個(gè)代碼 Agent 任務(wù)、50,275 個(gè)搜索 Agent 任務(wù)、4,417 個(gè)通用 Agent 任務(wù)和 5,908 個(gè)代碼解釋器任務(wù)。這些合成數(shù)據(jù)不是隨機(jī)生成的，而是通過(guò)冷啟動(dòng)階段學(xué)習(xí)推理與工具使用的統(tǒng)一模式，然后在規(guī)模化階段系統(tǒng)地生成高質(zhì)量訓(xùn)練場(chǎng)景。
效果是顯著的。在 Agent 相關(guān)的測(cè)試中，DeepSeek V3.2 顯著縮小了與閉源模型的差距，在 MCP-Universe 上達(dá)到了 80.3% 的成功率，雖然仍低于 Gemini 的 87.9%，但已經(jīng)是開(kāi)源模型中的最佳表現(xiàn)。論文總結(jié)說(shuō)：“DeepSeek V3.2 成為 Agent 場(chǎng)景中極具成本效益的選擇，顯著縮小了開(kāi)源與前沿閉源模型之間的性能差距。”
論文最后寫(xiě)了一句耐人尋味的話："如果 Gemini 3.0 證明了持續(xù)擴(kuò)展預(yù)訓(xùn)練的潛力，DeepSeek V3.2-Speciale 則證明了在大規(guī)模上下文環(huán)境中強(qiáng)化學(xué)習(xí)的可擴(kuò)展性。"言下之意很明顯：閉源巨頭有資源堆預(yù)訓(xùn)練，但開(kāi)源可以找到自己的路——通過(guò)更高效的架構(gòu)和更科學(xué)的后訓(xùn)練，用更少的資源實(shí)現(xiàn)接近的效果。
這或許是開(kāi)源 AI 唯一的生存之道：不是硬碰硬拼資源，而是拼技術(shù)路線的創(chuàng)新。至少在這一次，DeepSeek 證明了這條路是走得通的。

論文鏈接：https://arxiv.org/html/2512.02556v1
整理：周華香
點(diǎn)個(gè)“愛(ài)心”，再走吧

免責(zé)聲明：本網(wǎng)信息來(lái)自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

《電腦愛(ài)好者》雜志公眾號(hào)注銷(xiāo)、官網(wǎng)無(wú)法訪問(wèn)，創(chuàng)刊至今已32年

剛說(shuō)淘汰中國(guó)激光雷達(dá)，最后希望的 Luminar 就破產(chǎn)了？

王力宏伴舞機(jī)器人高難度后空翻后穩(wěn)穩(wěn)落地，馬斯克點(diǎn)贊！

長(zhǎng)城歐拉出奇招：“一車(chē)多動(dòng)力”打破單點(diǎn)競(jìng)爭(zhēng)

2025年流星雨迎來(lái)謝幕演出小熊座流星雨22日極大

鴻蒙正奔騰！解碼中國(guó)自主操作系統(tǒng)的生態(tài)成熟好用的極限突圍

全站最新

《電腦愛(ài)好者》雜志公眾號(hào)注銷(xiāo)、官網(wǎng)無(wú)法訪問(wèn)，創(chuàng)刊至今已32年

剛說(shuō)淘汰中國(guó)激光雷達(dá)，最后希望的 Luminar 就破產(chǎn)了？

王力宏伴舞機(jī)器人高難度后空翻后穩(wěn)穩(wěn)落地，馬斯克點(diǎn)贊！

長(zhǎng)城歐拉出奇招：“一車(chē)多動(dòng)力”打破單點(diǎn)競(jìng)爭(zhēng)

熱門(mén)推薦

《電腦愛(ài)好者》雜志公眾號(hào)注銷(xiāo)、官網(wǎng)無(wú)法訪問(wèn)，創(chuàng)刊至今已32年

剛說(shuō)淘汰中國(guó)激光雷達(dá)，最后希望的 Luminar 就破產(chǎn)了？

王力宏伴舞機(jī)器人高難度后空翻后穩(wěn)穩(wěn)落地，馬斯克點(diǎn)贊！

長(zhǎng)城歐拉出奇招：“一車(chē)多動(dòng)力”打破單點(diǎn)競(jìng)爭(zhēng)

上饒農(nóng)商行被罰240萬(wàn)，上饒銀行被罰170萬(wàn)

2025年流星雨迎來(lái)謝幕演出小熊座流星雨22日極大

雷軍轉(zhuǎn)發(fā)！小米汽車(chē)又獲獎(jiǎng) 再引發(fā)輿論安全追問(wèn)

鴻蒙正奔騰！解碼中國(guó)自主操作系統(tǒng)的生態(tài)成熟好用的極限突圍

我國(guó)成功發(fā)射通信技術(shù)試驗(yàn)衛(wèi)星二十三號(hào)

寶馬3系全球產(chǎn)量突破1800萬(wàn)輛，50年傳奇仍在繼續(xù)

降息，突發(fā)！集體拉升，近8萬(wàn)人爆倉(cāng)！

給AI一雙眼睛：XR眼鏡正在重塑下一代智能終端

摩爾線程技術(shù)路線圖全面公開(kāi)！刷新國(guó)產(chǎn)GPU推理天花板，新架構(gòu)能效飆10倍

中科大造出首個(gè)紫外光譜成像芯片，成本有望直降99%

將RNA的自毀密碼寫(xiě)入塑料：科學(xué)家實(shí)現(xiàn)高分子材料的可編程降解