11月27日,DeepSeek推出新型數(shù)學(xué)推理模型DeepSeekMath-V2,采用可自我驗(yàn)證的數(shù)學(xué)推理訓(xùn)練框架。
團(tuán)隊(duì)表示,該成果驗(yàn)證了自驗(yàn)證推理路徑的可行性,為構(gòu)建更可靠的數(shù)學(xué)智能系統(tǒng)提供了新的發(fā)展方向。模型代碼與權(quán)重已在Hugging Face及GitHub平臺(tái)開源發(fā)布。
該模型基于DeepSeek-V3.2-Exp-base構(gòu)建,通過LLM驗(yàn)證器自動(dòng)審查生成的數(shù)學(xué)證明,并利用高難度樣本持續(xù)優(yōu)化模型性能。在2025年國際數(shù)學(xué)奧林匹克競賽(IMO 2025)和2024年中國數(shù)學(xué)奧林匹克競賽(CMO 2024)中均達(dá)到金牌水平,并在2024年普特南數(shù)學(xué)競賽(Putnam 2024)中取得118/120(近乎滿分)的優(yōu)異成績。
技術(shù)創(chuàng)新:從最終答案獎(jiǎng)勵(lì)到自我驗(yàn)證
在數(shù)學(xué)推理與定理證明領(lǐng)域,傳統(tǒng)強(qiáng)化學(xué)習(xí)方法存在根本性局限,它僅通過獎(jiǎng)勵(lì)與標(biāo)準(zhǔn)答案匹配的最終結(jié)果來訓(xùn)練模型,卻忽視了推理過程的質(zhì)量。這種方法的缺陷在于,正確答案未必意味著推導(dǎo)過程正確,且許多定理證明任務(wù)根本不需要數(shù)值答案,而是要求嚴(yán)格的邏輯推導(dǎo)過程。
DeepSeekMath-V2針對(duì)這些問題提出了創(chuàng)新性的解決方案。該系統(tǒng)的核心架構(gòu)構(gòu)建了一個(gè)自驅(qū)動(dòng)的驗(yàn)證-生成閉環(huán):將一個(gè)LLM作為“審稿人”擔(dān)任證明驗(yàn)證器,另一個(gè)LLM作為“作者”負(fù)責(zé)證明生成,兩者通過強(qiáng)化學(xué)習(xí)機(jī)制相互協(xié)作,并引入“元驗(yàn)證”層來有效抑制模型幻覺。
關(guān)鍵的技術(shù)創(chuàng)新在于元驗(yàn)證機(jī)制,通過第二層評(píng)估過程來檢查驗(yàn)證器識(shí)別的問題是否真實(shí)存在。實(shí)驗(yàn)結(jié)果表明,將元驗(yàn)證器的反饋納入驗(yàn)證器訓(xùn)練后,驗(yàn)證器在證明分析方面的質(zhì)量評(píng)分顯著提升,同時(shí)保持了證明評(píng)分預(yù)測的準(zhǔn)確性,實(shí)現(xiàn)了驗(yàn)證精度與可靠性的雙重突破。
自動(dòng)化標(biāo)注流程降低人工成本
為解決人工標(biāo)注成本高昂的難題,研究團(tuán)隊(duì)設(shè)計(jì)了一套高效的自動(dòng)化評(píng)估流程。該體系基于多層驗(yàn)證機(jī)制,通過交叉檢驗(yàn)與共識(shí)決策確保標(biāo)注的準(zhǔn)確性。具體而言,系統(tǒng)會(huì)為每個(gè)證明生成多輪獨(dú)立分析,并對(duì)識(shí)別出的問題進(jìn)行二次驗(yàn)證,最終依據(jù)共識(shí)結(jié)果進(jìn)行質(zhì)量評(píng)分。
值得關(guān)注的是,在后續(xù)訓(xùn)練階段,這一自動(dòng)化流程已能完全替代人工標(biāo)注。質(zhì)量評(píng)估顯示,自動(dòng)化標(biāo)注結(jié)果與專家判斷高度一致,證實(shí)了該系統(tǒng)能夠自主生成高質(zhì)量訓(xùn)練數(shù)據(jù),持續(xù)優(yōu)化模型性能。
這一技術(shù)路徑的突破性在于構(gòu)建了完整的自驅(qū)動(dòng)學(xué)習(xí)生態(tài)系統(tǒng)。系統(tǒng)通過驗(yàn)證反饋直接優(yōu)化生成質(zhì)量,利用自動(dòng)化評(píng)估處理復(fù)雜案例,并持續(xù)產(chǎn)生訓(xùn)練數(shù)據(jù)促進(jìn)系統(tǒng)迭代。這種創(chuàng)新方法不僅顯著降低了人力成本,更證明了在適當(dāng)技術(shù)支持下,人工智能系統(tǒng)能夠?qū)崿F(xiàn)自我演進(jìn)與持續(xù)改進(jìn),為下一代自主學(xué)習(xí)系統(tǒng)的開發(fā)奠定了重要基礎(chǔ)。
基準(zhǔn)測試展現(xiàn)領(lǐng)先性能
在自主構(gòu)建的91個(gè)CNML級(jí)別問題測試中,DeepSeekMath-V2展現(xiàn)出卓越的數(shù)學(xué)推理能力,在代數(shù)、幾何、數(shù)論、組合學(xué)和不等式等所有類別中均超越了GPT-5-Thinking-High和Gemini 2.5-Pro的表現(xiàn)。
在IMO-ProofBench基準(zhǔn)測試中,該模型同樣表現(xiàn)優(yōu)異:在基礎(chǔ)集上,其人工評(píng)估結(jié)果優(yōu)于DeepMind的DeepThink(IMO金牌水平);在更具挑戰(zhàn)性的高級(jí)集上,模型保持了強(qiáng)勁的競爭力,同時(shí)顯著超越了所有其他基準(zhǔn)模型。
特別值得關(guān)注的是驗(yàn)證機(jī)制的有效性:對(duì)于未完全解決的問題,生成器能夠準(zhǔn)確識(shí)別證明過程中的真實(shí)缺陷;而對(duì)于完全解決的問題,則成功通過了全部64次驗(yàn)證嘗試。這一結(jié)果表明,基于大語言模型的驗(yàn)證器確實(shí)能夠有效評(píng)估那些傳統(tǒng)上被認(rèn)為難以自動(dòng)驗(yàn)證的復(fù)雜數(shù)學(xué)證明,為自動(dòng)化數(shù)學(xué)推理系統(tǒng)的發(fā)展提供了重要技術(shù)支撐。





京公網(wǎng)安備 11011402013531號(hào)