亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

DeepSeek V3到V3.2的進化之路,一文看全

IP屬地 中國·北京 機器之心Pro 時間:2025-12-08 16:18:57



機器之心編譯

作者:Sebastian Raschka

12 月 1 日,DeepSeek 一口氣發布了兩款新模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。

幾天過去,熱度依舊不減,解讀其技術報告的博客也正在不斷涌現。知名 AI 研究者和博主 Sebastian Raschka 發布這篇深度博客尤其值得一讀,其詳細梳理了 DeepSeek V3 到 V3.2 的進化歷程。



機器之心編譯了這篇深度技術博客,以饗讀者:



博客標題:A Technical Tour of the DeepSeek Models from V3 to V3.2博客地址:https://sebastianraschka.com/blog/2025/technical-deepseek.html

與 DeepSeek V3 的發布策略如出一轍,DeepSeek 團隊再次選擇在一個美國主要節假日周末發布了他們的新旗艦模型。

鑒于 DeepSeek V3.2 展現出了極佳的性能水平(在基準測試中對標 GPT-5 和 Gemini 3.0 Pro),加之它本身也是一個開放權重模型,這無疑值得重點關注。



圖 1:DeepSeek V3.2 與專有旗艦模型之間的基準測試對比。來自 DeepSeek V3.2 報告 并加上了注釋。

我曾在文章《大型 LLM 架構對比》的開篇介紹過它的前身 ——DeepSeek V3。隨著新架構的不斷涌現,我在過去幾個月里一直在持續更新那篇文章。

原本,我剛和家人度完感恩節假期回來,計劃「只是」在原文章中增加一個新章節來簡單介紹這次新發布的 DeepSeek V3.2。但隨后我意識到,這次更新包含太多有趣的信息和細節,僅僅一個章節無法涵蓋。因此,我決定將其寫成一篇篇幅較長的獨立文章。

他們的技術報告中涵蓋了大量有趣的領域和值得學習的知識,讓我們開始吧!

目錄

1. DeepSeek 發布時間線

2. 混合推理模型與專用推理模型

3. 從 DeepSeek V3 到 V3.1

3.1 DeepSeek V3 概覽與多頭潛在注意力 (MLA)

3.2 DeepSeek R1 概覽與帶可驗證獎勵的強化學習 (RLVR)

3.3 DeepSeek R1-0528 版本升級

3.4 DeepSeek V3.1 混合推理

4. DeepSeek V3.2-Exp 與稀疏注意力機制

5. 采用自我驗證與自我修正的 DeepSeekMath V2

5.1 自我驗證

5.2 自我修正

6. DeepSeek V3.2 (2025 年 12 月 1 日)

6.1 DeepSeek V3.2 架構

6.2 強化學習更新

6.3 GRPO 更新

6.4 DeepSeek V3.2-Speciale 與擴展思維

7. 總結

1. DeepSeek 發布時間線

雖然 DeepSeek V3 在 2024 年 12 月剛發布時并沒有立刻引起轟動,但隨后推出的 DeepSeek R1 推理模型(基于相同的架構,使用 DeepSeek V3 作為基礎模型)改變了局面。它幫助 DeepSeek 成為了最受歡迎的開放權重模型之一,并成為了 OpenAI、Google、xAI 和 Anthropic 等公司專有模型的有力替代方案。



圖 2:2024 年 12 月發布的 DeepSeek V3 和 R1 架構。我們將在稍后的章節中重溫并討論這些架構細節。

那么,自 V3/R1 以來有什么新變化嗎?我相信 DeepSeek 團隊今年一定非常忙碌。然而,自 DeepSeek R1 發布后的過去 10 到 11 個月里,并沒有出現重大的版本發布。

就我個人而言,我認為花大約一年的時間來發布一個主要的 LLM 版本是合理的,因為這涉及海量的工作。然而,我在各種社交媒體平臺上看到人們宣稱該團隊已經「涼了」。

最后,這并不代表他們什么都沒發布。今年其實陸續有一些較小的發布,例如 DeepSeek V3.1 和 V3.2-Exp。



圖 3:自去年以來的 DeepSeek 發布情況。主要模型以紅色顯示。

正如我在九月份所預測的那樣,DeepSeek V3.2-Exp 的發布旨在為托管剛剛發布的 V3.2 模型準備生態系統和推理基礎設施。

V3.2-Exp 和 V3.2 使用了一種非標準的稀疏注意力(Sparse Attention)變體,這需要定制代碼,我們稍后會詳細介紹這種機制。

2. 混合推理模型與專用推理模型

在進一步討論模型細節之前,有必要先探討一下整體的模型類型。最初,DeepSeek V3 是作為一個基礎模型發布的,而 DeepSeek R1 則增加了額外的后訓練,以開發成一個專用的推理模型。這一過程總結在下圖中。



圖 4:DeepSeek R1 訓練流程概覽

這里值得注意的是,DeepSeek V3 是基礎模型,而 DeepSeek R1 是專用的推理模型。

在 DeepSeek 推進的同時,其他團隊今年也發布了許多非常強大的開放權重推理模型。今年最強的開放權重模型之一是 Qwen3。最初,它是作為一個混合推理模型發布的,這意味著用戶可以在同一個模型中切換推理模式和非推理模式。(在 Qwen3 的案例中,這種切換是通過分詞器添加 / 省略標簽來實現的。)

從那時起,LLM 團隊發布了專用推理模型和指令 / 推理混合模型(有些團隊甚至在這兩者之間反復橫跳),如下圖的時間線所示。



圖 5:今年發布的部分推理模型和混合模型的時間線。

例如,Qwen3 最初是混合模型。但隨后,Qwen 團隊分別發布了獨立的指令(Instruct)模型和推理(Reasoning)模型,因為這兩種模型開發起來更容易,且在各自的用例中性能表現更好。

有些模型(如 OpenAI 的 gpt-oss)僅提供混合變體,用戶可以通過系統提示詞(System prompt)選擇推理力度(我懷疑 GPT-5 和 GPT-5.1 也是類似的處理方式)。

而在 DeepSeek 的案例中,他們似乎反其道而行之,從專用推理模型(R1)轉向了混合模型(V3.1 和 V3.2)。不過,我懷疑 R1 主要是作為一個研究項目,旨在開發推理方法和驗證當時最好的推理模型。V3.2 的發布可能更多是為了開發針對不同用例的最佳整體模型。(在這里,R1 更像是一個測試平臺或原型模型。)

我也猜想,雖然 DeepSeek 團隊開發了具有推理能力的 V3.1 和 V3.2,但他們可能仍在開發專門的 R2 模型。

3. 從 DeepSeek V3 到 V3.1

在更詳細地討論新的 DeepSeek V3.2 發布之前,我認為先概述一下從 V3 到 V3.1 的主要變化會很有幫助。

3.1 DeepSeek V3 概覽與多頭潛在注意力 (MLA)

我已經在其他幾篇文章中非常詳細地討論了 DeepSeek V3 和 R1。

總結一下要點,DeepSeek V3 是一個基礎模型,它使用了兩個值得注意的架構特性:混合專家模型(MoE)多頭潛在注意力(MLA)

我想你此時可能已經對 MoE 非常熟悉了,所以我這里跳過介紹。

另一個值得注意的亮點是 MLA 的使用。MLA 已被用于 DeepSeek V2、V3 和 R1,它提供了一種節省內存的策略,特別適合與 KV 緩存搭配使用。MLA 的核心思想是在將鍵(Key)和值(Value)張量存儲到 KV 緩存之前,先將它們壓縮到一個低維空間中。

在推理時,這些壓縮的張量在使用前會被投影回其原始大小,如下圖所示。這雖然增加了一次額外的矩陣乘法,但顯著減少了內存使用。

(順便提一下,查詢 Query 也會被壓縮,但僅在訓練期間,推理期間不會。)



圖 6:DeepSeek V3 和 R1 中的多頭潛在注意力 (MLA)。為簡單起見,未顯示查詢向量的壓縮空間。

上圖闡述了 MLA 背后的主要思想:鍵和值首先被投影到一個潛在向量中,該向量可以存儲在 KV 緩存中以減少內存需求。這需要稍后進行向上投影(Up-projection)回到原始的鍵 - 值空間,但總體上它提高了效率(類比一下,你可以將其想象為 LoRA 中的降維和升維投影)。

順便說一句,正如前面提到的,MLA 在 DeepSeek V3 中并不是新事物,因為它的前身 DeepSeek V2 也使用了(甚至引入了)它。

3.2 DeepSeek R1 概覽與帶可驗證獎勵的強化學習 (RLVR)

DeepSeek R1 使用了與上述 DeepSeek V3 相同的架構。區別在于訓練配方。即,使用 DeepSeek V3 作為基礎模型,DeepSeek R1 專注于「帶可驗證獎勵的強化學習」(RLVR)方法,以提高模型的推理能力。

RLVR 的核心思想是讓模型從可以進行符號化或編程驗證的響應中學習,例如數學和代碼(但這當然也可以擴展到這兩個領域之外)。



圖 7:一個可驗證任務的示例。

GRPO算法,全稱「群相對策略優化」(Group Relative Policy Optimization),本質上是「近端策略優化」(PPO)算法的一個簡化變體。PPO 在用于 LLM 對齊的「帶人類反饋的強化學習」(RLHF)中非常流行。



圖 8:LLM 訓練中強化學習設置的比較。傳統的帶 PPO 的 RLHF 使用獎勵模型(基于人類偏好訓練)和評論家(價值模型)來指導學習。GRPO 取消了評論家模型。帶 GRPO 的 RLVR 更進一步,移除了獎勵模型,轉而依賴來自符號工具(如計算器或編譯器)的可驗證獎勵。

3.3 DeepSeek R1-0528 版本升級

正如 DeepSeek 團隊自己所述,DeepSeek R1-0528 基本上是一個「小版本升級」。

架構與 DeepSeek V3/R1 保持一致,改進主要在訓練方面,以使其達到當時 OpenAI o3 和 Gemini 2.5 Pro 的水平。

遺憾的是,DeepSeek 團隊沒有發布任何具體信息來描述這是如何實現的;然而,他們表示這部分源于后訓練流程的優化。此外,根據已分享的信息,我認為該模型的托管版本在推理時可能會使用更多的計算資源(即進行更長時間的推理)。

3.4 DeepSeek V3.1 混合推理

DeepSeek V3.1 是一個兼具通用聊天(指令)和推理能力的混合模型。也就是說,不再開發兩個獨立的模型,而是現在有一個模型,用戶可以通過聊天提示模板切換模式(類似于最初的 Qwen3 模型)。

DeepSeek V3.1 基于 DeepSeek V3.1-base,而后者又基于 DeepSeek V3。它們都共享相同的架構。

4. DeepSeek V3.2-Exp 與稀疏注意力機制

DeepSeek V3.2-Exp (2025 年 9 月) 開始變得更有趣了。

最初,DeepSeek V3.2-Exp 在發布時并沒有霸榜基準測試,這也是為什么當時圍繞這個模型的興奮度不高的原因。然而,正如我在九月份推測的那樣,這很可能是一個早期的實驗性發布,旨在為更大規模的發布準備基礎設施(特別是推理和部署工具),因為 DeepSeek V3.2-Exp 中有一些架構上的變化。更大的發布是 DeepSeek V3.2(不是 V4),這一部分稍后會詳細介紹。

那么,DeepSeek V3.2-Exp 有什么新東西?首先,DeepSeek V3.2-Exp 是基于 DeepSeek V3.1-Terminus 作為基礎模型訓練的。什么是 DeepSeek V3.1-Terminus?它只是上一節提到的 DeepSeek V3.1 檢查點的一個小幅改進版。

技術報告指出:

DeepSeek-V3.2-Exp,一個實驗性的稀疏注意力模型,它通過持續訓練為 DeepSeek-V3.1-Terminus 配備了 DeepSeek 稀疏注意力 (DSA)。憑借由 Lightning Indexer 驅動的細粒度稀疏注意力機制 DSA,DeepSeek-V3.2-Exp 在訓練和推理方面都實現了顯著的效率提升,特別是在長上下文場景中。

如上段所述,這里的主要創新是他們在對 DeepSeek V3.1-Terminus 進行進一步訓練之前,添加了DeepSeek 稀疏注意力 (DSA)機制。

這個 DSA 由 (1) 一個 lightning indexer 和 (2) 一個 Token 選擇器(token-selector)組成,目標是有選擇地減少上下文以提高效率。

為了解釋它是如何工作的,讓我們從滑動窗口注意力開始。例如,滑動窗口注意力這種技術(最近被 Gemma 3 和 Olmo 3 使用)會將注意力窗口限制為固定大小,如下圖所示。



圖 9:在滑動窗口注意力中,當前的查詢 Token 不關注所有之前的 Token,而只關注一個子集。

DSA 基于與滑動窗口注意力相同的想法:只能關注一部分過去的 Token。然而,DSA 不是通過固定寬度的滑動窗口來選擇可關注的 Token,而是擁有一個索引器和 Token 選擇器來決定哪些過去的 Token 可以被關注。換句話說,可被關注的 Token 選擇更加隨機,如下圖所示。



圖 10:在 DSA 中,當前 Token 可以關注一組選定的過去 Token,而不是像常規因果注意力那樣關注所有過去 Token。

然而,雖然我上面說了「隨機」,但選擇哪些過去 Token 的模式實際上并不是隨機的,而是學習得到的。

實際上,DSA 使用其所謂的 lightning indexer 基于所有先前的 Token 為每個新的查詢 Token 計算相關性分數。對于此計算,lightning indexer 使用 DeepSeek 多頭潛在注意力 (MLA) 中的壓縮 Token 表示,并計算與其他 Token 的相似度。相似度分數基本上是通過 ReLU 函數的查詢向量和鍵向量之間的縮放點積。

如果你對數學細節感興趣,下面展示了(摘自論文的)該 lightning indexer 相似度分數的方程:



這里,w 是一個學習得到的每頭(per-head)加權系數,決定每個索引器頭對最終相似度分數的貢獻程度。q 指的是查詢向量,k 指的是鍵向量。下面是不同下標的列表:

t:當前查詢 Token 的位置;s:序列中先前 Token 的位置 (0 ≤ s < t);j:不同索引器頭的索引(為了簡單起見,圖 10 僅顯示了一個頭),所以 q_{t,j} 意思是「索引器頭 j 中當前 Token t 的查詢向量」。

你可能會注意到索引器僅針對查詢,而不針對鍵。這是因為模型只需要決定每個新查詢應該考慮哪些過去的 Token。鍵已經被壓縮并存儲在 KV 緩存中,因此索引器不需要再次對它們進行評分或壓縮。

這里的 ReLU 函數,因為它是 f(x) = max(x, 0),會將負的點積位置歸零,這理論上可以實現稀疏性。但由于存在對不同頭的求和,索引器分數實際上為 0 的可能性很小。稀疏性主要來自于單獨的 Token 選擇器。

單獨的 Token 選擇器僅保留少量高分 Token(例如,top-k 位置),并構建一個稀疏注意力掩碼,掩蓋掉未包含在選定子集中的其他 Token。(注意這里的 k 是 top-k 中的 k,不要與上面方程中用于鍵的 k 混淆,這是一個超參數,在 DeepSeek 團隊分享的模型代碼中設置為 2048。)

下圖以流程圖的形式說明了整個過程。



圖 11:DeepSeek V3.2 稀疏注意力機制的可視化總結。

總結一下,索引器和 Token 選擇器的結果是,每個 Token 只關注模型習得的認為最相關的幾個過去 Token,而不是所有 Token 或固定的局部窗口。

這里的目標不是為了超越 DeepSeek V3.1-Terminus 的性能,而是在減少性能衰減(由于稀疏注意力機制)的同時,受益于效率的提升。

總的來說,DSA 將注意力機制的計算復雜度從二次的 O(L2) 降低到了線性的 O(Lk),其中 L 是序列長度,k 是選定 Token 的數量。

5. 采用自我驗證與自我修正的 DeepSeekMath V2

討論完 DeepSeek V3.2-Exp,我們越來越接近本文的主題:DeepSeek V3.2。然而,還有一個拼圖需要先討論。

2025 年 11 月 27 日(美國的感恩節),就在 DeepSeek V3.2 發布前 4 天,DeepSeek 團隊發布了基于DeepSeek V3.2-Exp-base的 DeepSeekMath V2。

該模型是專門為數學開發的,并在多個數學競賽中獲得了金牌級的分數。本質上,我們可以將其視為 DeepSeek V3.2 的概念驗證模型,它引入了另一項技術。

這里的關鍵在于,推理模型(如 DeepSeek R1 和其他模型)是使用外部驗證器訓練的,模型學會了在得出最終答案之前自行編寫解釋。然而,這些解釋可能是不正確的。

正如 DeepSeek 團隊簡潔指出的那樣,常規 RLVR 的缺點是:

[…] 正確的答案并不保證正確的推理。
[…] 模型可能通過有缺陷的邏輯或幸運的錯誤得出正確的答案。

他們旨在解決的 DeepSeek R1 RLVR 方法的另一個局限性是:

[…] 許多數學任務(如定理證明)需要嚴格的逐步推導而不是數值答案,這使得最終答案獎勵并不適用。

因此,為了改善上述兩個缺點,他們訓練了兩個模型:

一個用于定理證明的基于 LLM 的驗證器(Verifier)。主模型,一個證明生成器(Proof-Generator),它使用基于 LLM 的驗證器作為獎勵模型(而不是符號驗證器)。

除了上述通過 LLM 進行自我驗證外,他們還使用了自我修正,讓 LLM 迭代地改進其自己的答案。

5.1 自我驗證

擁有一個對中間步驟進行評分的 LLM 并不是什么新鮮事。有不少關于所謂「過程獎勵模型」(Process Reward Models)的研究專注于此。例子包括:Solving Math Word Problems With Process- and Outcome-based Feedback (2022) 或 Let’s Verify Step by Step (2023),還有更多。

過程獎勵模型的挑戰在于,檢查中間獎勵是否正確并不容易,這也可能導致獎勵黑客攻擊(reward hacking)。

在 2025 年 1 月的 DeepSeek R1 論文中,他們沒有使用過程獎勵模型,因為他們發現:

在我們的實驗中,與其在大規模強化學習過程中引入的額外計算開銷相比,它的優勢是有限的。

在此文中,他們以自我驗證的形式成功地重新審視了這一點。其動機是,即使不存在參考答案,人類在閱讀證明和發現問題時也能進行自我糾正。

因此,為了開發一個更好的撰寫數學證明的模型(下圖中的 LLM 1),他們開發了一個證明驗證器(下圖中的 LLM 2),它可以用作「LLM 即裁判」(LLM-as-a-judge)來對證明者(LLM 1)的輸出進行評分。



圖 12:通用的數學證明生成器 (LLM 1) 和驗證器 (LLM 2) 設置。

驗證器 LLM (LLM 2) 接收一個評分標準來對生成的證明進行評分,分數規則如下:

「1 分:完整且嚴謹的證明,所有邏輯步驟都有清晰的論證;」「0.5 分:證明整體邏輯合理,但有微小錯誤或遺漏細節;」「0 分:證明存在根本性缺陷,包含致命的邏輯錯誤或關鍵缺失。」

對于證明驗證器模型,他們從 DeepSeek V3.2-Exp-SFT 開始,這是他們基于 DeepSeek V3.2-Exp 通過在推理數據(數學和代碼)上進行監督微調而創建的模型。然后,他們使用格式獎勵(檢查解決方案是否符合預期格式)和基于預測分數與實際分數(由人類數學專家標注)接近程度的分數獎勵,對該模型進行進一步的強化學習訓練。

證明驗證器 (LLM 2) 的目標是檢查生成的證明 (LLM 1),但誰來檢查證明驗證器呢?為了使證明驗證器更加穩健并防止其產生幻覺問題,他們開發了第三個 LLM,即元驗證器(meta-verifier)。



圖 13:元驗證器 (LLM 3) 檢查驗證器 (LLM 2) 是否正確評估了生成器 (LLM 1)。

元驗證器 (LLM 3) 也是通過強化學習開發的,類似于 LLM 2。雖然使用元驗證器不是必須的,但 DeepSeek 團隊報告稱:

由元驗證器評估的驗證器證明分析的平均質量得分從 0.85 提高到了 0.96,同時保持了相同的證明評分預測準確性。

這實際上是一個相當有趣的設置。如果你熟悉生成對抗網絡 (GAN),你可能會在這里看到類比。例如,證明驗證器(將其視為 GAN 判別器)改進了證明生成器,而證明生成器生成了更好的證明,進一步推動了證明驗證器的進步。

元分數(meta score)用于驗證器 (LLM 2) 和生成器 (LLM 1) 的訓練期間。它并不用于推理時的自我修正循環,我們將在下一節討論這一點。

5.2 自我修正

在上一節中,我們談到了自我驗證,即分析解決方案的質量。其目的是為了實現自我修正,這意味著 LLM 可以根據反饋采取行動并修改其答案。

傳統上,在自我修正這種成熟且流行的推理擴展技術中,我們會使用同一個 LLM 來生成解決方案并對其進行驗證,然后再進行修正。換句話說,在前面的圖 12 和 13 中,LLM 1 和 LLM 2 將是同一個 LLM。因此,傳統的自我修正過程如下所示:



圖 14:一個經典的自我修正迭代,同一個 LLM 生成初始響應(Output 1),對其進行評估(eval),并生成修正后的答案(Output 2)。

然而,DeepSeek 團隊觀察到在實踐中使用同一個 LLM 既進行生成又進行驗證存在一個關鍵問題:

當被提示一次性生成并分析其自己的證明時,生成器往往會聲稱正確,即使外部驗證器很容易發現缺陷。換句話說,雖然生成器可以根據外部反饋修正證明,但它無法像專用驗證器那樣嚴謹地評估自己的工作。

作為邏輯推論,人們會假設他們使用獨立的證明生成器 (LLM 1) 和證明驗證器 (LLM 2)。因此,這里使用的自我修正循環變得類似于下圖所示。請注意,我們省略了 LLM 3,它僅在開發驗證器 (LLM 2) 期間使用。



圖 15:使用獨立驗證器 LLM (LLM 2) 的自我修正。

然而,在實踐中,與圖 15 不同的是,DeepSeek 團隊使用的生成器和驗證器 LLM 與圖 14 中的經典自我修正循環是同一個:

「所有實驗都使用了一個單一模型,即我們的最終證明生成器,它同時執行證明生成和驗證。」

換句話說,獨立的驗證器對于訓練是必不可少的——可用于改進生成器,但在生成器足夠強大之后,在推理期間就不再使用(或不需要)它了。與簡單的單模型自我修正的關鍵區別在于,最終的證明者是在更強大的驗證器和元驗證器的指導下訓練出來的,因此它學會了將這些評分標準應用于自己的輸出。

此外,在推理期間使用這種合二為一的 DeepSeekMath V2 驗證器在資源和成本方面也是有利的,因為它比運行第二個 LLM 進行證明驗證增加了更少的復雜性和計算需求。

回到圖 14 和 15 中展示的一般自我修正概念,這兩張圖都顯示了 2 次迭代的自我修正(初始迭代和修正后的答案)。當然,我們可以向此過程添加更多迭代。這是一個經典的推理擴展權衡:我們添加的迭代越多,生成答案的成本就越高,但整體準確性也會越高。

在論文中,DeepSeek 團隊使用了多達 8 次迭代,看起來準確性尚未飽和。



圖 16:額外的自我修正迭代提高了準確性。來自 DeepSeekMath V2 論文,并加上了注釋。Best@32 多數投票方法也被稱為自我一致性(Self-consistency)。

6. DeepSeek V3.2 (2025 年 12 月 1 日)

我們在上一節花了這么多時間討論 DeepSeekMath V2 的原因是:

它是一個非常有趣的概念驗證,通過自我驗證和自我修正技術進一步推動了「帶可驗證獎勵的強化學習」(RLVR)理念;自我驗證和自我修正技術也被用于 DeepSeek V3.2 中。

但在我們進入這部分之前,先來看看 DeepSeek V3.2 的總體概況。這個模型之所以重要,是因為它與當前的旗艦模型相比表現非常出色。



圖 17:DeepSeek V3.2 與專有旗艦模型之間的基準測試對比。來自 DeepSeek V3.2 報告,并加上了注釋。

與 DeepSeek 的其他幾款模型類似,V3.2 也附帶了一份很棒的技術報告,我將在接下來的章節中進行討論。

6.1 DeepSeek V3.2 架構

當然,該模型的主要動機是提高整體模型性能。例如,像 DeepSeekMath V2 一樣,它在數學基準測試中獲得了金牌級的表現。然而,該模型在訓練時也考慮到了工具的使用,并且在其他任務(例如代碼和智能體任務)上也表現良好。

同時,DeepSeek 團隊將計算效率視為一個巨大的驅動因素。這就是為什么他們使用了 V2 和 V3 中的多頭潛在注意力 (MLA) 機制,以及他們在 V3.2 中添加的 DeepSeek 稀疏注意力 (DSA) 機制。事實上,論文中提到「DeepSeek-V3.2 使用了與 DeepSeek-V3.2-Exp 完全相同的架構」,這我們在前面的章節中已經討論過了。



圖 18:DeepSeek V3.2 架構。

正如我之前提到的,DeepSeek V3.2-Exp 的發布很可能是為了讓生態系統和推理基礎設施準備好托管剛剛發布的 V3.2 模型。



圖 19:由 DeepSeek 稀疏注意力 (DSA) 實現的推理成本節省。來自 DeepSeek V3.2 報告,并加上了帶注釋。

由于架構與 DeepSeek V3.2-Exp 相同,有趣的細節在于訓練方法,我們將在接下來的章節中討論。

6.2 強化學習更新

總的來說,DeepSeek 團隊采用了類似于 DeepSeek R1 的「帶可驗證獎勵的強化學習」(RLVR)程序,使用了群體相對策略優化(GRPO)算法。但是,有一些有趣的更新值得討論。

最初,DeepSeek R1 使用了:

格式獎勵(確保答案格式正確);語言一致性獎勵(確保模型在編寫回復時不會在不同語言之間切換);主要的驗證者獎勵(數學或代碼問題中的答案是否正確)。

對于 DeepSeek V3.2,他們更改了獎勵:

對于推理和智能體任務,我們采用基于規則的結果獎勵、長度懲罰和語言一致性獎勵。對于通用任務,我們采用生成式獎勵模型,其中每個提示都有自己的評估標準。

例如,他們移除了格式獎勵,但為智能體任務添加了長度懲罰。然后,對于沒有符號驗證器(數學)或代碼解釋器來驗證答案的通用任務,他們使用獎勵模型(另一個訓練用于輸出獎勵分數的 LLM)。

所以,聽起來這個流程不再是像 DeepSeek R1 那樣純粹的基于驗證器的 RLVR,而是 RLVR(用于可驗證領域)和更標準的「LLM 即裁判」獎勵建模(用于其他所有領域)的混合體。

對于數學領域,他們表示額外「整合了來自 DeepSeekMath-V2 的數據集和獎勵方法」,這我們在本文前面已經討論過了。

6.3 GRPO 更新

關于 RLVR 流程內部的學習算法 GRPO 本身,自 DeepSeek R1 論文中的原始版本以來,他們也做了一些更改。

在過去的幾個月里,數十篇論文提出了對 GRPO 的修改建議,以提高其穩定性和效率。

如果不深入 GRPO 的數學細節,簡單來說,DAPO 修改了 GRPO,采用了非對稱裁剪、動態采樣、Token 級損失和顯式的基于長度的獎勵整形。Dr. GRPO 更改了 GRPO 目標本身,以移除長度和標準差歸一化。

最近的 Olmo 3 論文也采用了類似的變更,我引用如下:

零梯度信號過濾: 我們移除獎勵完全相同的實例組(即優勢標準差為零的批次),以避免在提供零梯度的樣本上進行訓練,類似于 DAPO (Yu et al., 2025)。[DAPO]主動采樣: 盡管進行了零梯度過濾,我們仍使用一種新穎、更高效的動態采樣版本維持一致的批次大小 (Yu et al., 2025)。詳見 OlmoRL Infra。[DAPO]Token 級損失: 我們使用 Token 級損失,通過批次中的 Token 總數進行歸一化 (Yu et al., 2025),而不是按樣本歸一化,以避免長度偏差。[DAPO]無 KL 損失: 作為一種常見做法,我們移除了 KL 損失 (GLM-4.5 Team et al., 2025; Yu et al., 2025; Liu et al., 2025b),因為它允許更少限制的策略更新,并且移除它不會導致過度優化或訓練不穩定。[DAPO 和 Dr. GRPO]更高裁剪閾值: 我們將損失中的上限裁剪項設置為比下限略高的值,以允許對 Token 進行更大的更新,正如 Yu et al. (2025) 提議的那樣。[DAPO]截斷重要性采樣: 為了調整推理引擎和訓練引擎之間對數概率的差異,我們將損失乘以截斷的重要性采樣比率,遵循 Yao et al. (2025)。無標準差歸一化: 在計算優勢時,我們不對組的標準差進行歸一化,遵循 Liu et al. (2025b)。這消除了難度偏差,即獎勵標準差低的問題(例如太難或太容易)其優勢會被歸一化項顯著放大。[Dr. GRPO]

DeepSeek V3.2 中的 GRPO 修改稍微不那么激進,我用類似于 Olmo 3 的風格總結如下:

特定領域的 KL 強度(包括數學為零): DeepSeek V3.2 沒有像 DAPO 和 Dr. GRPO 那樣對數學類 RL 總是放棄 KL,而是在目標中保留 KL 項,但根據每個領域調整其權重。然而,他們也指出,非常弱甚至為零的 KL 通常對數學效果最好。(但不是完全移除它,而是變成了一個超參數。)無偏 KL 估計: 如上所述,DeepSeek V3.2 沒有移除 KL 懲罰。除了將其視為調節旋鈕外,他們還提出了對 GRPO 中 KL 懲罰估計方式的修正,即用用于主損失的相同重要性比率重新加權 KL 項,因此 KL 梯度實際上與樣本來自舊策略而不是當前策略的事實相匹配。異策略序列掩碼(Off-policy sequence masking): 當他們在許多梯度步驟中重用 rollout 數據(rollout 只是模型生成的完整序列的術語)時,DeepSeek V3.2 測量當前策略在每個完整答案上偏離 rollout 策略的程度,并簡單地丟棄那些既具有負優勢又「過于偏離策略」的序列。因此,這防止了模型從過度偏離策略或陳舊的數據中學習。保留 MoE 模型的路由: 對于混合專家骨干網絡,他們記錄了 rollout 期間激活了哪些專家,并在訓練期間強制使用相同的路由模式,以便梯度更新針對那些產生采樣答案的專家。保留 top-p /top-k 的采樣掩碼: 當 rollout 使用 top-p 或 top-k 采樣時,DeepSeek V3.2 存儲選擇掩碼并在計算 GRPO 損失和 KL 時重新應用它,以便訓練時的動作空間與采樣期間實際可用的動作空間相匹配。保留原始 GRPO 優勢歸一化: Dr. GRPO 表明 GRPO 的長度和每組標準差歸一化項會使優化偏向于過長的錯誤答案,并過度加權非常容易或非常難的問題。Dr. GRPO 通過移除這兩個項并回到無偏的 PPO 風格目標來解決這個問題。相比之下,DAPO 轉向 Token 級損失,這也改變了長答案與短答案的加權方式。然而,DeepSeek V3.2 保留了原始的 GRPO 歸一化,而是專注于其他修正,例如上面的那些。

所以,總的來說,DeepSeek V3.2 比最近的其他一些模型更接近原始的 GRPO 算法,但增加了一些邏輯上的微調。

6.4 DeepSeek V3.2-Speciale 與擴展思維

DeepSeek V3.2 還有一個極端的、擴展思維(extended-thinking)的變體,稱為DeepSeek V3.2-Speciale,它在 RL 階段僅在推理數據上進行訓練(更類似于 DeepSeek R1)。除了僅在推理數據上訓練外,他們還在 RL 期間減少了長度懲罰,允許模型輸出更長的響應。

生成更長的響應是一種推理擴展形式,為了獲得更好的結果,響應因長度增加而變得更加昂貴。



圖 20:擴展思維的 Speciale 模型實現了更高的準確性,但也生成了更多的 Token。

7. 總結

在這篇文章中,我沒有涵蓋 DeepSeek V3.2 訓練方法的所有細節,但我希望與之前的 DeepSeek 模型的比較有助于闡明主要觀點和創新。

簡而言之,有趣的要點是:

DeepSeek V3.2 使用了自 DeepSeek V3 以來與其所有前身相似的架構;主要的架構調整是他們添加了來自 DeepSeek V3.2-Exp 的稀疏注意力機制以提高效率;為了提高數學性能,他們采用了來自 DeepSeekMath V2 的自我驗證方法;訓練流程有幾項改進,例如 GRPO 穩定性更新(注意論文還涉及圍繞蒸餾、長上下文訓練、集成類似于 gpt-oss 的工具使用等其他幾個方面,我們在本文中沒有涵蓋)。

無論 DeepSeek 模型與其他較小的開放權重模型或像 GPT-5.1 或 Gemini 3.0 Pro 這樣的專有模型相比的市場份額如何,有一件事是肯定的:DeepSeek 的發布總是很有趣,而且從隨開放權重模型檢查點一起發布的技術報告中總有很多值得學習的東西。

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

91精品国产91久久久久麻豆 主演| 一区二区三区精品国产| 欧美夫妇交换xxx| 五月婷婷激情视频| 色哟哟精品一区| 日韩中文字幕亚洲精品欧美| 少妇荡乳情欲办公室456视频| 欧美唯美清纯偷拍| 国产精品一级久久久| 99精品视频免费看| 亚洲成人免费电影| 欧美高清在线视频观看不卡| 中文网丁香综合网| 国内精品福利视频| av最新在线观看| 精品久久久久国产| 99久久一区三区四区免费| 日韩乱码一区二区三区| 国产亚洲精品一区二555| 一级少妇精品久久久久久久| 亚洲精品国产第一综合99久久 | 久久久久久久免费| www天堂在线| 九色成人免费视频| 一区二区成人免费视频| 日韩视频免费直播| 亚洲最大视频网| 欧美国产在线观看| 亚洲精品二区| 天天干,天天操,天天射| 欧洲日韩成人av| 亚洲中文一区二区| 色噜噜亚洲精品中文字幕| 69xxx免费| 日韩一级片在线观看| 欧美一级片黄色| 在线视频国内自拍亚洲视频| 亚洲免费成人在线视频| 一区二区三区在线视频观看58| 国产又爽又黄ai换脸| 在线成人激情视频| 中文精品视频一区二区在线观看| 久久久久久艹| 日本最新不卡在线| 国产专区精品视频| 亚洲 国产 欧美 日韩| 浅井舞香一区二区| 99久久一区二区| 性色av香蕉一区二区| 老熟妇一区二区三区啪啪| 欧美成人在线免费| 瑟瑟视频在线免费观看| 97人洗澡人人免费公开视频碰碰碰| 波多野结衣理论片| 欧美风情在线观看| 国产又大又粗又长| 国产精品高潮粉嫩av| 开心激情综合网| 2014国产精品| 黄页视频在线91| 久久综合毛片| 91性感美女视频| 六月婷婷激情综合| 亚洲黄色性网站| 中文字幕国产免费| 欧美亚洲国产一区二区三区| 精品人妻一区二区免费| 欧美成人欧美edvon| 欧美a级片免费看| 最近更新的2019中文字幕 | 午夜精品福利一区二区三区av| jizzjizz国产精品喷水| 无吗不卡中文字幕| 日韩www视频| 这里只有精品99re| 影音先锋男人资源在线观看| 日韩色av导航| 中文字幕久久久久| 99porn视频在线| 99视频热这里只有精品免费| 欧美爱爱视频免费看| 午夜视频在线观看一区二区| 欧美一级片黄色| 亚洲国产天堂久久综合| 激情五月色婷婷| 国产精品444| 国产综合成人久久大片91| 视色,视色影院,视色影库,视色网| 亚洲黄色av一区| 国产亚洲无码精品| www.日韩系列| 乱色精品无码一区二区国产盗| 精品高清视频| 成人黄色777网| 超碰97人人射妻| 日韩免费观看高清完整版| 日本道在线观看| 91老司机精品视频| 国产性色一区二区| 国产黄色一区二区三区| 亚洲乱码一区二区| 免费观看毛片网站| 国产传媒欧美日韩| 中文字幕欧美激情一区| 亚洲一区二区三区黄色| 日韩亚洲精品电影| 天天摸天天干天天操| 蜜臀在线免费观看| 欧美性三三影院| 天天综合天天干| 亚洲在线免费观看| 亚洲精品一二三| 久久精品无码一区| 久久精品电影网| 青青草国产成人99久久| 免费黄色日本网站| 日韩精品免费在线播放| 亚洲国产精品suv| 黄色网在线视频| 日韩亚洲欧美高清| 中文字幕一区二区人妻痴汉电车 | 国产真实老熟女无套内射| 欧美日韩国产一二三| 欧美日韩综合一区二区三区| 精品国产91亚洲一区二区三区www| 中文乱码免费一区二区| 能免费看av的网站| 国产成人激情视频| 国产欧美日韩卡一| 天堂资源在线视频| 91久久久亚洲精品| 香蕉久久一区二区不卡无毒影院 | 国产小视频91| 日本不卡在线视频| 亚洲精品怡红院| xx视频.9999.com| 国产精品影音先锋| 中国极品少妇xxxx| 欧美在线一区二区三区四| 2020国产精品| 日本理论中文字幕| 亚洲xxxx视频| 亚洲一区二区三区四区不卡| 国产精品黄色网| 欧美极品一区| 欧美另类高清zo欧美| 久久久久亚洲av成人毛片韩| 国产成人亚洲欧美| 欧美日韩国产片| 亚洲av无码乱码国产精品| 五十路熟女丰满大屁股| 中文欧美在线视频| 国产成人99久久亚洲综合精品| 免费啪视频在线观看| 欧美怡红院视频一区二区三区| 91亚洲精华国产精华精华液| 亚洲女同二女同志奶水| 亚洲综合一区二区不卡| 色八戒一区二区三区| 国产一区二区网站| 国产真实乱子伦| 九九精品在线播放| 国产精品国产自产拍高清av王其| 国产一级大片在线观看| 婷婷视频在线播放| 亚洲高清色综合| 精品一区二区日韩| 免费网站在线高清观看| 成人淫片在线看| 欧美主播一区二区三区美女| 精品人妻无码一区二区色欲产成人| 国产精彩免费视频| 久久久国产一区二区| 国产丝袜美腿一区二区三区| 久草网站在线观看| 中文字幕乱码一区二区三区| 亚洲色在线视频| 91亚洲男人天堂| 日本少妇aaa| 伊人狠狠色丁香综合尤物| 国产一区二区三区在线免费观看| 99久久精品国产毛片| 国产美女久久久久久| 深田咏美在线x99av| 亚洲人成电影网站色www| 99久久免费国产| 日本一本高清视频| 欧美三级在线观看视频| 91tv亚洲精品香蕉国产一区7ujn| 亚洲国产裸拍裸体视频在线观看乱了| 97人妻精品一区二区三区视频| 狠狠干狠狠操视频| 国产精品高清免费在线观看| 欧美影视一区在线| 国产真实乱偷精品视频免| 国产性猛交xx乱| www亚洲国产| 97av在线视频| 欧美三级午夜理伦三级中视频| 精品一区二区三区在线观看| 青青草成人免费| 免费国产a级片| 97在线视频免费看| 在线中文字幕不卡| 久久精品国产一区二区| 亚洲黄色免费在线观看| 欧美成人dvd在线视频| 中文字幕亚洲二区| 亚洲午夜成aⅴ人片| 污污视频在线免费看| 色屁屁草草影院ccyy.com| 成年人视频网站免费| 欧美黄色片免费观看| 色88888久久久久久影院按摩 | 欧美性猛xxx| 久久99国产精品免费| 免费看一级一片| 久久精品无码中文字幕| 97不卡在线视频| 91麻豆精品国产91久久久久久久久 | 天堂在线资源8| 2019男人天堂| 播放灌醉水嫩大学生国内精品| 国产精品影院在线观看| 亚洲精品久久在线| 亚洲毛片av在线| 久久精品中文| 精品无码m3u8在线观看| 久久成人人人人精品欧| 色妞久久福利网| 一区二区三区日韩在线| 国产精品99久久久久久www| 337p粉嫩大胆色噜噜噜噜亚洲| 六月丁香激情综合| 波多野吉衣在线视频| 日韩亚洲视频| 日韩av电影院| 亚洲欧美国产另类| 一区二区三区精品视频在线| 激情另类小说区图片区视频区| 国产成人无码一区二区三区在线| 国产九九在线观看| 先锋影音一区二区三区| 国产成人激情视频| 一本一道久久a久久精品逆3p | 粗大的内捧猛烈进出视频| 亚洲欧洲精品一区二区三区波多野1战4| 国模极品一区二区三区| 欧美精品一区二区三区在线播放| 亚洲乱码国产乱码精品精98午夜| 久久er99精品| 久久久精品免费看| 在线观看福利片| 黄色片久久久久| 亚洲成人在线视频网站| 国产欧美中文字幕| 久久五月情影视| 亚洲成人久久久久| 在线这里只有精品| 亚洲六月丁香色婷婷综合久久 | 日本成人在线不卡| 国产精品9999久久久久仙踪林| 欧美精品在线免费| 亚洲精品在线观看www| 欧美日韩一级视频| 亚洲线精品一区二区三区八戒| 成人av在线一区二区| 午夜小视频在线播放| 五月婷婷亚洲综合| 小向美奈子av| 国产精品久久久久久亚洲色| 爆乳熟妇一区二区三区霸乳| 99亚洲精品视频| 亚洲影院色无极综合| 欧美最猛性xxxxx免费| x99av成人免费| 日韩av影片在线观看| 在线电影欧美成精品| 日韩一区欧美小说| 99久久国产免费看| 久久99久久99| 亚洲av毛片成人精品| 国产三级漂亮女教师| 天天综合天天干| 午夜少妇久久久久久久久| 日本美女xxx| 日本一区二区三区网站| 性xxxxxxxxx| 中文字幕55页| 天天色天天综合网| 亚欧无线一线二线三线区别| 4444在线观看| 男女爱爱视频网站| 中文字幕剧情在线观看一区| 欧美重口乱码一区二区| 国产精品久久久久国产a级| 91成人精品网站| 久久久久久国产精品三级玉女聊斋| 中文字幕日韩综合av| 欧美本精品男人aⅴ天堂| 欧美日韩国产成人在线免费| 日韩欧美在线观看视频| 无吗不卡中文字幕| 国产精品乱码人人做人人爱| 国产欧美日韩中文久久| 国产精品1区二区.| 国产激情一区二区三区四区 | 在线码字幕一区| 亚洲三级一区| 国产免费xxx| 免费不卡av在线| 成品人视频ww入口| 欧美一级片免费播放| 日韩a∨精品日韩在线观看| 欧美 日韩 亚洲 一区| 成人性生生活性生交12| 性生交大片免费看l| 日韩乱码人妻无码中文字幕久久| 色屁屁草草影院ccyy.com| 欧美成人综合色| 黄色一级片免费看| 一级黄色大毛片| 久久国产主播| 狠狠v欧美v日韩v亚洲ⅴ| 91偷拍与自偷拍精品| 亚洲欧美日韩一区二区| 日韩欧美一区二区三区| 日韩亚洲欧美成人一区| 亚洲欧美一区二区精品久久久| 久久五月情影视| 国产精品嫩草影院一区二区| caoporn国产精品免费公开| 欧美久久综合性欧美| 女人被男人躁得好爽免费视频| 亚洲一级片免费| xxxx黄色片| 久久精品第一页| 国产欧美综合视频| 麻豆传媒一区二区三区| 久久午夜国产精品| 欧美日韩另类字幕中文| 日韩一区二区三区观看| 日韩在线观看免费高清| 国产精品极品在线| 欧美一区二区视频17c| 国产精品沙发午睡系列| 中国免费黄色片| 国产精品99精品无码视| 后进极品白嫩翘臀在线视频 | 99视频在线观看一区三区| 亚洲午夜一区二区| 欧美一二三四区在线| 久久精品2019中文字幕| 91精品久久久久久久久| 亚洲一区二区精品在线| 三级在线视频观看| 国产黄色大片免费看| 中文字幕乱码视频| 精品在线播放免费| 一区二区三区中文在线观看| 日韩精品一区在线| 久久久影视精品| 欧美日本韩国一区二区三区| 少妇高清精品毛片在线视频| 国产精品国产三级国产专业不| 中国精品一区二区| 狠狠色丁香久久婷婷综合丁香| 亚洲老司机在线| 亚洲韩国日本中文字幕| 国产精品福利在线观看网址| 热这里只有精品| 久久久久国产精品无码免费看| 欧美brazzers| 国产精品 日产精品 欧美精品| 欧美日韩激情视频8区| 亚洲最大中文字幕| 国产精品美女黄网| 91香蕉视频导航| 国产一区二区三区在线视频观看| 丰满少妇高潮在线观看| 久久久91精品国产一区二区精品 | 欧美美最猛性xxxxxx| 久草一区二区| 天堂中文av在线| 国产精品777777| 国产一区不卡在线| 色视频成人在线观看免| 欧美第一黄色网| 深田咏美在线x99av| 国产精品一区二区无码对白| 亚洲乱码国产乱码精品| 成人免费视频播放| 日韩一区二区三区三四区视频在线观看| 97精品久久久中文字幕免费| 色撸撸在线观看| 免费观看a级片| 视频污在线观看| 亚洲国产综合人成综合网站| 永久免费看mv网站入口亚洲| 久久99精品国产99久久| xxxxwww一片| av中文字幕免费在线观看| 国产精品色一区二区三区| 亚洲一区av在线播放| 老牛影视免费一区二区| jlzzjizz在线播放观看| 天堂在线资源网| 日韩欧美中文在线| 国产成人在线一区二区| 日本网站免费在线观看|