機(jī)器之心報(bào)道
機(jī)器之心編輯部
突破級(jí)推理模型來了,DeepSeek 打開了自我驗(yàn)證的數(shù)學(xué)推理方向。
The whale is back!
就在剛剛,DeepSeek 又悄咪咪在 Hugging Face 上傳了一個(gè)新模型:DeepSeek-Math-V2。
![]()
顧名思義,這是一個(gè)數(shù)學(xué)方面的模型。它的上一個(gè)版本 ——DeepSeek-Math-7b 還是一年多以前發(fā)的。當(dāng)時(shí),這個(gè)模型只用 7B 參數(shù)量,就達(dá)到了 GPT-4 和 Gemini-Ultra 性能相當(dāng)?shù)乃健O嚓P(guān)論文還首次引入了 GRPO,顯著提升了數(shù)學(xué)推理能力。
![]()
那時(shí)隔一年半,這個(gè)基于 DeepSeek-V3.2-Exp-base 開發(fā)的 DeepSeek-Math-V2 又帶來了哪些驚喜?
DeepSeek 表示,它的性能優(yōu)于 Gemini DeepThink,實(shí)現(xiàn)了 IMO 金牌級(jí)的水平。
![]()
論文標(biāo)題:DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning模型地址:https://huggingface.co/deepseek-ai/DeepSeek-Math-V2論文地址:https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf核心作者:邵智宏、Yuxiang Luo、Chengda Lu、Z.Z. Ren
論文開篇,DeepSeek 就指出了當(dāng)前 AI 在數(shù)學(xué)推理方面的研究局限:以正確的最終答案作為獎(jiǎng)勵(lì),過于追求最終答案準(zhǔn)確度。
這種做法雖然能讓推理模型在 AIME 和 HMMT 等基準(zhǔn)上達(dá)到更高水平,乃至達(dá)到飽和,但 DeepSeek 表示這并不能解決核心問題:正確答案并不保證推理過程正確。此外,許多數(shù)學(xué)任務(wù)(如定理證明)需要嚴(yán)謹(jǐn)?shù)闹鸩酵茖?dǎo),而不僅僅是數(shù)值答案,這使得基于最終答案的獎(jiǎng)勵(lì)方法不適用。
為了推動(dòng)深度推理的極限,DeepSeek 認(rèn)為有必要驗(yàn)證數(shù)學(xué)推理的全面性和嚴(yán)謹(jǐn)性。
他們指出:「自我驗(yàn)證在擴(kuò)展測(cè)試時(shí)的計(jì)算規(guī)模時(shí)尤為重要,特別是對(duì)于沒有已知解的開放性問題。」
為了實(shí)現(xiàn)可自我驗(yàn)證的數(shù)學(xué)推理,DeepSeek 研究了如何訓(xùn)練一個(gè)準(zhǔn)確且可信賴的基于 LLM 的定理證明驗(yàn)證器。然后,他們使用該驗(yàn)證器作為獎(jiǎng)勵(lì)模型來訓(xùn)練證明生成器,并激勵(lì)生成器在最終完成證明前盡可能發(fā)現(xiàn)并解決自身證明中的問題。
為了在生成器能力增強(qiáng)時(shí)保持生成 - 驗(yàn)證差距,DeepSeek 提出擴(kuò)展驗(yàn)證計(jì)算能力,以自動(dòng)標(biāo)注新的難以驗(yàn)證的證明,從而生成訓(xùn)練數(shù)據(jù)進(jìn)一步提升驗(yàn)證器性能。
簡(jiǎn)單來說,DeepSeek 這篇論文的核心目標(biāo)不僅僅是讓 AI 做對(duì)題,而是讓 AI 「不僅會(huì)做,還能自己檢查,甚至能誠(chéng)實(shí)地承認(rèn)自己哪里做錯(cuò)了」。
為了實(shí)現(xiàn)這一點(diǎn),他們?cè)O(shè)計(jì)了一套由三個(gè)關(guān)鍵角色組成的系統(tǒng),我們可以用一個(gè)「學(xué)生 — 老師 — 督導(dǎo)」的類比來理解:
首先,培養(yǎng)合格的「閱卷老師」(Proof Verification)。
過去訓(xùn)練 AI 數(shù)學(xué)模型,通常只看最后的答案對(duì)不對(duì)。但在高等數(shù)學(xué)證明題(如奧數(shù))中,過程嚴(yán)謹(jǐn)比答案更重要。因此,DeepSeek 團(tuán)隊(duì)首先訓(xùn)練了一個(gè)專門的驗(yàn)證器(Verifier),也就是「閱卷老師」。這個(gè)老師不只是打鉤打叉,而是學(xué)會(huì)了像人類專家一樣把證明過程分為三檔 :
1 分:完美,邏輯嚴(yán)密。0.5 分:大體正確,但有小瑕疵或細(xì)節(jié)遺漏。0 分:有根本性的邏輯錯(cuò)誤或嚴(yán)重缺失。
不僅給分,還要寫評(píng)語:模型被要求在打分前,先寫一段分析,指出哪里好、哪里有問題 。
接下來,給老師配個(gè)「督導(dǎo)」(meta-Verification)。
DeepSeek 發(fā)現(xiàn)了一個(gè)問題:閱卷老師有時(shí)候會(huì)胡亂扣分,它可能給了個(gè)低分,但指出的錯(cuò)誤其實(shí)根本不存在(也就是產(chǎn)生了幻覺)。
為了解決這個(gè)問題,他們引入了元驗(yàn)證(meta-Verification)機(jī)制,相當(dāng)于給老師配了個(gè)「督導(dǎo)」。督導(dǎo)的任務(wù)不是看考卷,而是專門檢查老師寫的「評(píng)語」是否合理。這樣可以雙重確認(rèn):督導(dǎo)會(huì)檢查老師指出的錯(cuò)誤是否真實(shí)存在,以及扣分是否符合邏輯。效果上,通過訓(xùn)練模型既能當(dāng)老師又能當(dāng)督導(dǎo),AI 評(píng)估證明的準(zhǔn)確性和可信度大幅提升。
然后,培養(yǎng)會(huì)「自省」的學(xué)生(Proof Generation with Self-Verification)。
有了好的閱卷系統(tǒng),接下來就是訓(xùn)練做題的「學(xué)生」(生成器)。這里有一個(gè)非常關(guān)鍵的創(chuàng)新:誠(chéng)實(shí)獎(jiǎng)勵(lì)機(jī)制。也就是說,它不僅做題,還要自評(píng):模型在輸出解題過程后,必須馬上跟上一段「自我評(píng)價(jià)」,自己給自己打分(0、0.5 或 1)。
它會(huì)對(duì)誠(chéng)實(shí)進(jìn)行獎(jiǎng)勵(lì):
如果模型做錯(cuò)了,但它在自評(píng)中誠(chéng)實(shí)地指出了自己的錯(cuò)誤,它會(huì)得到獎(jiǎng)勵(lì) 。相反,如果它做錯(cuò)了卻硬說自己是對(duì)的(盲目自信),或者試圖「蒙混過關(guān)」,就會(huì)受到懲罰(得不到高獎(jiǎng)勵(lì))。
這樣做的目的是可以迫使 AI 在輸出答案前進(jìn)行深度思考,試圖發(fā)現(xiàn)并修正自己的錯(cuò)誤,直到它認(rèn)為自己真的做對(duì)了為止 。
最后,形成自動(dòng)化閉環(huán)(Synergy)。
人類專家沒法給成千上萬道奧數(shù)題寫詳細(xì)的步驟評(píng)分,所以 DeepSeek 設(shè)計(jì)了一套自動(dòng)化流程,讓系統(tǒng)「左右互搏」來自我進(jìn)化 :
海量生成:讓「學(xué)生」對(duì)同一道題生成很多種解法。集體投票:讓「老師」對(duì)這些解法進(jìn)行多次評(píng)估。如果大多數(shù)評(píng)估都認(rèn)為某個(gè)解法有問題,那就判定為有問題;如果沒有發(fā)現(xiàn)任何漏洞,才判定為正確 。以戰(zhàn)養(yǎng)戰(zhàn):通過這種方式,系統(tǒng)自動(dòng)篩選出那些很難判卷或很難做對(duì)的題目,變成新的教材,重新訓(xùn)練「老師」和「學(xué)生」。這樣,隨著「學(xué)生」解題能力變強(qiáng),「老師」的眼光也越來越毒辣 。
總之,DeepSeekMath-V2 的方法本質(zhì)上是從「結(jié)果導(dǎo)向」轉(zhuǎn)向了「過程導(dǎo)向」。它不依賴大量的數(shù)學(xué)題答案數(shù)據(jù),而是通過教會(huì) AI 如何像數(shù)學(xué)家一樣嚴(yán)謹(jǐn)?shù)貙彶樽C明過程(包括審查它自己),從而在沒有人類干預(yù)的情況下,也能不斷提升解決高難度數(shù)學(xué)證明題的能力 。
最終,他們得到了 DeepSeekMath-V2 模型,其展現(xiàn)出了強(qiáng)大的定理證明能力:在 IMO 2025 和 CMO 2024 上取得金牌級(jí)成績(jī),并在 Putnam 2024 中以擴(kuò)展測(cè)試計(jì)算實(shí)現(xiàn)了接近滿分的 118/120。
![]()
下圖展示了 DeepSeekMath-V2 在 IMO-ProofBench 基準(zhǔn)(這是 IMO Bench 的一個(gè)子集,其中包含 60 道證明題)上的表現(xiàn),可以看到,在其中的 Basic 基準(zhǔn)上,DeepSeekMath-V2 不僅遠(yuǎn)勝過其它模型,甚至達(dá)到了近 99% 的驚人高分。而在更難的 Advanced 子集上,DeepSeekMath-V2 略遜于 Gemini Deep Think (IMO Gold)。
![]()
DeepSeek 表示:「雖然仍有大量工作需要推進(jìn),但這些結(jié)果表明,可自我驗(yàn)證的數(shù)學(xué)推理是一個(gè)可行的研究方向,有望推動(dòng)更強(qiáng)大數(shù)學(xué) AI 系統(tǒng)的發(fā)展。」
這一自我驗(yàn)證的數(shù)學(xué)推理框架可以說突破了傳統(tǒng)強(qiáng)化學(xué)習(xí)(RL)的限制,讓模型不再依賴最終答案正確性作為唯一獎(jiǎng)勵(lì),而是關(guān)注推理過程的嚴(yán)謹(jǐn)性。此外,DeepSeekMath-V2 中的驗(yàn)證器 - 生成器協(xié)同的雙向改進(jìn)循環(huán)帶來了全面和嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)推理能力,大幅減少了大模型幻覺。
在論文中,DeepSeek 介紹了更多技術(shù)細(xì)節(jié),感興趣的同學(xué)可以去仔細(xì)閱讀。返回





京公網(wǎng)安備 11011402013531號(hào)