亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

GPT-5危了!DeepSeek開源世界首個奧數金牌AI,正面硬剛谷歌

IP屬地 中國·北京 新智元 時間:2025-11-28 02:09:14


新智元報道

編輯:編輯部

沉寂許久的DeepSeek又回來了!今天,DeepSeekMath-V2重磅登場,一舉奪下IMO 2025金牌,實力媲美甚至超越了谷歌的IMO金牌模型,開源AI再次扳回一局。

DeepSeek再次歸來!

剛剛,DeepSeek重磅發布DeepSeekMath-V2新模型,一舉奪下IMO 2025金牌。

最關鍵的是,這是首款「開源的IMO金牌模型」。


基于DeepSeek V3.2 Exp base構建

當前,已官宣拿下金牌的兩大模型,一款來自谷歌Gemini Deep Think,另一款便來自OpenAI的內部模型。

在IMO-ProofBench中,DeepSeekMath-V2展現出強大的定理證明能力:

IMO 2025:破解5題(共6題),達到了金牌水平;

CMO 2024(中國數學奧林匹克):達到金牌水平;

Putnam 2024:得分118接近滿分(120分),超越人類參賽者最高分(90分)。


不僅如此,在ProofBench-Basic上,DeepSeekMath-V2的實力碾壓谷歌金牌模型——Gemini Deep Think;在ProofBench-Advanced上直追谷歌。


論文中,團隊訓練了一個基于LLM驗證器(Verifier)作為獎勵函數,并以此訓練模型以自主解決問題。

而且,他們還Scaling了驗證器算力,來標注更復雜的證明,進一步優化了驗證器本身。

這種方法非常巧妙,能有效彌合生成與驗證之間的差距。


結果實證「可驗證的數學推理」,是未來一條可行的研究方向。



DeepSeekMath-V2

讓「自驗證」成最強武器

DeepSeekMath-V2的論文也于GitHub同步放出了。


DeepSeek最新發布的DeepSeekMath-V2帶來的核心突破就是:自驗證(Self-Verification)

這不僅讓它在最難的數學競賽中橫掃人類頂尖選手,更重要的是,它揭示了通往更高級AI的一條必經之路——學會自我反思

為什么只看結果是不夠的

在過去,訓練AI做數學題的方法很簡單:給它一道題,如果它算出的答案和標準答案一致,就給它獎勵。

這在簡單的計算題(如AIME競賽)中很有效。

但到了數學皇冠上的明珠——國際數學奧林匹克(IMO)這個級別,這種方法就徹底失效了。

因為IMO的題目往往沒有簡單的數值答案,而是要求你寫出一段邏輯無懈可擊的證明過程

以前的AI在這里經常是個「大忽悠」,它能胡編亂造一通看起來很專業的數學黑話,最后強行得出一個結論。雖然它可能蒙對了結果,但過程全是漏洞。

DeepSeekMath-V2決定從根本上改變規則,不僅要獎勵正確的答案,更要獎勵嚴謹的自我找茬過程。

秘密武器:左右互搏的三位一體

為了實現這種「自我反思」,DeepSeek設計了一套精妙的「左右互搏」系統,就像在AI的大腦里住了三個人:

1.「做題家」(Generator,證明生成器):

負責解題和寫證明。

但與以往不同,它被訓練成不僅要寫答案,還要寫一段「自我評價」。它必須誠實地說:「這步我有點不確定,可能是錯的。」

研究團隊巧妙設計了獎勵,帶來了下列激勵效果:

誠實面對錯誤,比「硬說自己是對的」更有利。

寫出真正正確的證明,并準確識別其嚴謹程度,可以獲得最高獎勵。

對生成器來說,最優策略是:在最終回答前,發現并修正盡可能多的問題。

2.「鐵面判官」(Verifier,證明驗證器):

這是DeepSeek專門訓練的一個評分模型。它不看答案對不對,而是專門盯著證明過程挑刺。它會像閱卷老師一樣,給證明打分(0分、0.5分、1分),并指出具體的邏輯漏洞。

1分:證明完整且嚴謹,所有關鍵推理步驟都有清晰、充分的論證;

0.5分:整體思路正確,但在細節上存在輕微錯誤或略去部分論證;

0分:存在致命邏輯錯誤或關鍵缺口,導致證明在本質上不成立。

3.「判官的審計員」(meta-Verifier,元驗證器):

這是最絕的一步。因為「判官」也可能犯錯,或者為了省事偷懶瞎判。

于是DeepSeek又引入了一個「元驗證」機制,專門檢查「判官」是不是在胡亂挑刺。如果「判官」指出了一個不存在的錯誤,它會被「審計員」打手板。

「元驗證器」來檢查驗證器給出的分析,包括:

1. 驗證器指出的問題是否真實存在于原證明中;

2. 這些問題是否足以合理支撐它給出的得分,且符合原有的評分細則。

用元驗證器來評估驗證器輸出分析的平均質量分數,從0.85提升到了0.96,同時保持了原有的打分準確率。

在這三者的配合下,DeepSeekMath-V2甚至能做到在沒有標準答案的情況下,自己給自己出題、自己做、自己批改、自己重做

首先,證明驗證器與證明生成器之間形成了良性的「閉環」:

驗證器為生成器提供獎勵信號,從而不斷提高生成器的證明能力;

隨著生成器水平提升,它會產生越來越「刁鉆」的新證明,這些證明反過來又會暴露出驗證器尚未覆蓋的薄弱點。

尤其是那些「驗證器第一次嘗試沒能抓出問題」的證明樣本,對進一步訓練驗證器來說價值極高。

為了高效獲取新證明的正確性標簽,研究團隊設計了自動化標簽生成流程:


在最后兩輪訓練迭代中,這條全自動標注流水線已經完全替代了人工標注。后續的質量檢查表明,自動生成的標簽與人類專家的判斷高度一致。

巔峰對決:DeepSeek vs Gemini

在這個領域,DeepSeek并不孤單。

谷歌DeepMind的Gemini Deep Think也是剛達到IMO金牌水平的頂尖選手。

兩者的對比非常有意思:

DeepMind像是擁有無盡資源的貴族,其實力毋庸置疑,在某些高級基準測試(如IMO-ProofBench Advanced)上依然保持領先。

DeepSeek則像是半路殺出的天才少年。根據DeepSeek的論文,他們的V2模型在基礎測試集(ProofBench Basic)上已經反超了Gemini Deep Think,并且在公開的競賽題目上展現出了驚人的統治力。


更重要的是,DeepSeek將這一技術路徑開源并詳細披露了訓練方法。

這為全世界的AI研究者提了個醒:通往AGI的路上,自驗證可能比單純堆算力更重要。

直追谷歌OpenAI,開源IMO模型贏了

這一令人驚嘆的成績背后,是DeepSeekMath-V2在實驗中展現出的某種「反直覺」的進化特征。

「一次做對」的能力:全方位碾壓GPT-5和Gemini

如果剝離掉所有復雜的反復思考和驗證過程,只看模型的「第一直覺」——也就是所謂的One-Shot能力,DeepSeekMath-V2依然表現出了統治級的實力。

研究團隊構建了一個包含代數、幾何、數論、組合和不等式五大類難題的內部測試集CNML(難度對標中國高中數學聯賽)。

在這個競技場上,DeepSeekMath-V2與目前市面上最強的兩大推理模型——OpenAI的GPT-5-Thinking-High和谷歌DeepMind的Gemini 2.5-Pro進行了正面硬剛。

結果如圖所示:


DeepSeekMath-V2并不是險勝,而是完全勝利

代數:遠超GPT-5和Gemini;

幾何:得分幾乎是Gemini 2.5-Pro的三倍;

數論與組合:同樣穩穩占據第一梯隊。

這說明,即使不給模型「多想一會兒」的機會,它的底座能力已經極其強悍。

進化的關鍵:讓模型「多想幾次」

真正讓DeepSeekMath-V2與眾不同的,是它在連續修正實驗中的表現。

在面對IMO候選題(Shortlist)這種級別的難題時,模型往往無法一次性寫出完美的證明。

實驗顯示,如果允許模型進行「自我驗證」——即生成答案后,自己挑毛病,然后帶著問題重新生成,奇跡就發生了:

初始狀態(迭代1次):模型的平均得分為0.15。

反復思考(迭代8次):當允許模型最多進行8次「自我修正」后,證明的質量分數飆升到了0.27。


更有趣的是,如果讓模型從自己生成的32個解法中挑一個最好的(Best@32),它的評分準確度極高,得分直接躍升至0.42。

這證實了一個關鍵點:模型不僅能改錯,而且非常有自知之明,它清楚地知道自己哪個答案是最好的。

暴力美學與智慧的結晶:高算力搜索

前文提到的普特南數學競賽118分(接近滿分)的「神跡」,并非僅靠運氣,而是得益于一種「高算力搜索」(High-Compute Search)策略。

DeepSeek團隊在實驗中采用了一種極端嚴苛的測試方式:

1.海量候選:對每道題初始生成64個候選證明。

2.地獄級驗證:為每一個證明生成64個獨立的驗證分析。

3.優勝劣汰:只有那些能通過所有64次驗證的證明,才會被認為是「完全可信」的。

正是這種「千錘百煉」的策略,讓模型解決了IMO 2025中6道題里的5道,以及在CMO 2024中拿下金牌水平。

實驗數據還揭示了一個有趣的現象:對于那些它沒做出來的題,模型通常能準確地找出自己證明中的漏洞;而對于做出來的題,則是真真切切地通過了所有考驗。

這是「LLM可以被訓練成可靠的數學驗證者」這一假設的有力實證。

DeepSeekMath-V2意味著什么

DeepSeekMath-V2的成功告訴我們,AI正在從「模仿人類說話」進化到「模仿人類思考」。

真正的思考,往往伴隨著自我懷疑。

當我們看到AI開始在輸出最終結果前,懂得停下來,對自己說一句「這看起來不太對,我再算一遍」時,那才是它真正超越工具屬性的時刻。

真正的智慧,不僅在于瞬間給出答案,更在于擁有推翻自己的勇氣與能力。

參考資料:

https://github.com/deepseek-ai/DeepSeek-Math-V2

秒追ASI

?點贊、轉發、在看一鍵三連?

點亮星標,鎖定新智元極速推送!

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

欧美日韩国产另类不卡| 亚洲免费观看高清完整版在线 | 欧美在线视频全部完| 亚洲天堂第二页| 日本在线视频www| 成人的网站免费观看| 国产日韩精品电影| 成人毛片18女人毛片| 日韩一区二区高清| 五月天丁香花婷婷| 91麻豆国产自产在线观看| 亚洲最大福利视频网| 自拍偷拍色综合| 亚洲色图五月天| 老司机福利av| 色妞www精品视频| 欧美aⅴ在线观看| 91网址在线看| 欧洲一区二区日韩在线视频观看免费| www.av在线.com| 国内精品久久久久久中文字幕| tube国产麻豆| 亚洲成年网站在线观看| 日韩精品视频一区二区| 色一情一乱一乱一91av| 国产一级大片免费看| 97久久精品人人做人人爽50路| 国产精品一区二区三区在线 | 日本道在线观看| 在线激情影院一区| 久久久久久国产精品无码| 在线视频国内自拍亚洲视频| 激情 小说 亚洲 图片: 伦| 中文字幕一区在线| 国产乱子伦精品无码专区| 久久综合九色综合97婷婷女人| 婷婷久久五月天| 成人h精品动漫一区二区三区| 久久99精品久久久久久久青青日本 | 国产欧美精品aaaaaa片| 久久嫩草精品久久久久| 在线视频一区观看| 久久色成人在线| 国内自拍中文字幕| 中文字幕欧美三区| 日本人体一区二区| 中文字幕一区在线观看视频| 91九色在线观看视频| 亚洲综合一区二区精品导航| 久在线观看视频| 一区二区三区视频在线观看| 免费看污黄网站| 亚洲第一搞黄网站| 欧美成年人视频在线观看| 婷婷综合在线观看| 在线观看你懂的视频| 欧美吻胸吃奶大尺度电影| 亚洲少妇18p| 精品欧美久久久| 在线免费观看亚洲视频| 精品国产区一区二区三区在线观看 | 男插女视频网站| 欧美日韩在线播放三区| 91中文字幕永久在线| 日韩久久免费视频| 国产无遮挡又黄又爽| 久久久久久成人| 亚洲中文字幕无码爆乳av | 精品在线视频一区二区| 国产精品夜夜嗨| 永久免费网站视频在线观看| 亚洲男人都懂的| a级大片免费看| 日韩女优av电影| 国产亚洲精品久久久久久无几年桃| 欧美区二区三区| 噜噜噜久久,亚洲精品国产品| 成人欧美一区二区三区黑人免费| 国产传媒欧美日韩成人| 97在线免费视频观看| 亚洲电影一区二区三区| 色噜噜在线观看| 在线播放精品一区二区三区 | 日韩伦理一区二区三区av在线| 久久精品夜色噜噜亚洲aⅴ| www.日日操| 91精品国产品国语在线不卡| 欧美黑吊大战白妞| 日本久久久久亚洲中字幕| 天天干天天爽天天操| 婷婷久久青草热一区二区 | 国产一级淫片a视频免费观看| 国产精品99一区| 国产精品1024| 国产免费人做人爱午夜视频| 欧美一卡2卡三卡4卡5免费| 国产成人久久久久| 国产成人免费av| 精品亚洲国内自在自线福利| 人妻无码久久一区二区三区免费| 在线精品亚洲一区二区不卡| 强乱中文字幕av一区乱码| 国产99久久精品一区二区| 懂色av一区二区在线播放| 日韩精品一区中文字幕| 亚洲国产精品久久久久久| 亚洲特级黄色片| 久久久久网址| 午夜激情一区二区三区| 免费三级在线观看| 国产精品一区专区欧美日韩| 久久久噜噜噜久久人人看 | 青青草免费av| 国产成人拍精品视频午夜网站| 青青草伊人久久| 无码人妻丰满熟妇区毛片18| 精品国产乱码91久久久久久网站| 一道本在线视频| 午夜啪啪免费视频| 欧美一区二区三区系列电影| 在线观看不卡的av| 亚洲一卡二卡三卡四卡无卡网站在线看| 日韩欧美在线视频| 亚洲s码欧洲m码国产av| 久精品国产欧美| 色综合天天综合在线视频| www.国产高清| 国产一区二区中文字幕免费看| 亚洲v日本v欧美v久久精品| 久久一区欧美| 成人自拍偷拍| 国产三级午夜理伦三级| 精品午夜一区二区| 亚洲一区二区美女| 久久国产视频一区| 亚洲一区尤物| 亚洲国产欧美一区二区三区同亚洲 | 91中文在线视频| 精品国产老师黑色丝袜高跟鞋| 黄色片免费观看视频| 亚洲精品二区| 亚洲国产精品va在线| 欧美aaaaa成人免费观看视频| 91插插插影院| 日韩免费观看网站| 一区二区三区精品视频| 免费的毛片视频| 亚洲爆乳无码精品aaa片蜜桃| 亚洲女人天堂成人av在线| 国产乱淫av一区二区三区| 丰满少妇高潮一区二区| 国产精品自拍首页| 欧美一区二区三区小说| 毛片av一区二区三区| xxxxxx黄色| 国产精品18毛片一区二区| 欧美日本精品一区二区三区| 久久国产直播| 免费日本黄色网址| 超碰97在线资源| 91精品一区二区三区在线观看| 丝袜亚洲另类欧美| 精品熟女一区二区三区| 不卡一区二区三区视频| 欧美撒尿777hd撒尿| 激情文学综合丁香| 精品蜜桃一区二区三区| 日韩欧美国产一区二区在线播放| 男女男精品网站| jizz18女人高潮| 美媛馆国产精品一区二区| 精品视频在线观看日韩| 26uuu色噜噜精品一区| 精品国产成人av在线免| 欧美日韩视频在线观看一区二区三区 | 国产制服丝袜在线| 久久综合色婷婷| 亚洲精品成人少妇| 国产ts在线播放| 超碰97人人在线| 欧美xxxx老人做受| 91在线播放网址| 在线观看 亚洲| 欧美精品成人网| 国产精品91一区| 精品美女久久久久久免费| 国产乱淫片视频| 四虎成人在线播放| 91久久精品一区二区别| 亚洲加勒比久久88色综合| 国产一区在线看| 日韩精品成人一区| 日韩欧美xxxx| 成人一区二区电影| 亚洲福利在线播放| 国产精品久久久久影院色老大| 黄色污污网站在线观看| 欧美成人免费高清视频| 国产精品久久久久久久久久东京 | 麻豆短视频在线观看| 国产一区在线免费观看| 日韩成人av在线| 中文字幕欧美国产| 性中国古装videossex| 娇妻被老王脔到高潮失禁视频| 久久免费一级片| 97成人在线视频| 欧美三级日韩三级| 国内成人免费视频| 青娱乐国产盛宴| 成人免费视频久久| 91九色在线观看| 在线观看精品自拍私拍| 午夜久久久影院| 国产在线视视频有精品| 一二三区在线播放| 一起草在线视频| 伊人色综合影院| 国产91色在线| 亚洲精品二三区| 国产精品乱码一区二三区小蝌蚪| 国产极品999| 手机毛片在线观看| 免费高清在线观看免费| 99久久免费国| 久久久精品日本| 亚洲国产成人av网| 国产成人精品免费网站| 成人黄色激情视频| 曰本女人与公拘交酡| 国内精品免费视频| av在线无限看| 欧美乱做爰xxxⅹ久久久| 97在线电影| 欧美一区二三区| 日韩精品在线观看网站| 欧美小视频在线观看| 国产欧美一区二区精品忘忧草| 国产高清成人在线| 国产永久免费视频| 99中文视频在线| 久久久久久网址| 亚洲第一视频网站| 国产精品99久久久久久有的能看| 久久精选视频| 99在线观看免费| 日本五十路女优| 中文字幕xxx| 男人透女人免费视频| 91九色国产ts另类人妖| 成人蜜桃视频| 欧美专区第一页| 久久亚洲电影天堂| 日韩一区二区三区电影在线观看| 亚洲国产毛片aaaaa无费看| 久久久久高清精品| 国产乱国产乱300精品| 日韩性xxxx| 亚洲午夜在线播放| 日本免费一二三区| 国产一区二区三区四区五区六区| 欧美亚洲日本在线观看| 成年丰满熟妇午夜免费视频| 久久久久久久久久久久久9999| 国产精品国产自产拍高清av水多| 久久影院在线观看| 中文字幕日本精品| 日韩精品小视频| 精品国产免费人成在线观看| 色综合激情五月| 性久久久久久久| 亚洲丶国产丶欧美一区二区三区| 久久久噜噜噜久噜久久综合| 成人深夜视频在线观看| 丁香五精品蜜臀久久久久99网站| 麻豆一区二区三区| 亚洲高清精品视频| 少妇一级淫片日本| 久久精品视频5| 久久国产视频精品| 国产67194| 欧美黑吊大战白妞| 一级aaa毛片| 五月婷婷激情网| 亚洲天堂一区在线观看| 日韩人妻无码一区二区三区99| 国产亚洲精品久久777777| 日韩成人在线免费视频| 精品一区免费观看| 欧美国产日韩综合| 国产网站在线看| 国产一卡二卡在线播放| 麻豆视频在线观看| 国产成人无码精品久在线观看| 亚洲欧美在线观看视频| 日韩 欧美 精品| 亚洲永久精品一区| 91麻豆国产在线| 朝桐光av在线一区二区三区| 国产色视频在线| 国产色综合视频| 亚洲国产综合网| 一本色道久久综合熟妇| av观看在线免费| 亚洲风情第一页| 日韩精品一级中文字幕精品视频免费观看 | 丰满岳乱妇一区二区| 国产一二三四区在线| 一区二区三区久久久久| 999精品视频在线观看播放| 男人的天堂久久久| 免费网站在线高清观看| 国产精品成人av久久| 国产精品一区二区人人爽| 人妻无码中文字幕免费视频蜜桃| 国产一区二区成人久久免费影院| 国产午夜亚洲精品理论片色戒| 1区2区3区国产精品| 欧美日韩国产片| 日韩精品视频免费在线观看| 一色桃子一区二区| 国产精品久久久久高潮| 热舞福利精品大尺度视频| 黄色一级视频在线播放| 男男一级淫片免费播放| 欧美精品一区二区成人| a视频免费在线观看| 国内久久婷婷综合| 国产精品美女久久久久av爽李琼| 在线观看日韩国产| 色噜噜国产精品视频一区二区| 日韩av免费在线看| 日本欧洲国产一区二区| 情侣黄网站免费看| 亚洲码无人客一区二区三区| 国产精品无码粉嫩小泬| 国产成+人+日韩+欧美+亚洲| 欧美性猛交xxxxx免费看| 亚洲色图50p| 国产精品第七十二页| 欧美在线播放一区二区| 日本高清久久久| 黄色在线观看免费| 日日躁夜夜躁白天躁晚上躁91| 91丨porny丨首页| 欧美系列日韩一区| 久久久久久国产免费| 久久久久se| 催眠调教后宫乱淫校园| 伊人免费在线观看| 91丨九色丨黑人外教| 欧美成va人片在线观看| 国产精选久久久久久| caopor在线视频| 成人午夜淫片100集| 国产一区中文字幕| 51精品秘密在线观看| 国产成人精品在线观看| 国产精品wwwww| 免费看日批视频| 中文字幕精品一区| 日韩欧美国产综合一区| 日韩av毛片网| 国产青青在线视频| 99自拍视频在线| 日韩精品欧美精品| 一区二区中文视频| 精品国产第一区二区三区观看体验| 欧美老女人在线视频| 精品国产二区在线| 日韩精品xxx| 国产99久一区二区三区a片| 中文字幕一区二区不卡| 在线观看成人黄色| 久久免费视频1| 182午夜视频| 国产毛片一区二区三区va在线 | 超碰超碰超碰超碰| 26uuu色噜噜精品一区二区| 欧美日韩一区三区四区| 国产精欧美一区二区三区| 国产av天堂无码一区二区三区| 日本一级二级视频| 久久成人av少妇免费| 欧美日韩国产首页在线观看| 国产精品自拍偷拍视频| 国产成人精品视频免费看| 黄色片视频网站| 日本一区二区三区国色天香| 亚洲成年人在线| 国产精品日韩一区二区| 久久久久久久久久久久久久国产| 在线观看国产免费视频| 亚洲美女福利视频| 午夜欧美在线一二页| 欧洲s码亚洲m码精品一区| 日本wwww视频| 国产成人一级片| 亚洲精品免费播放| 91精品国产91久久久久久久久| 日本在线观看a| 男人的天堂av网站| 亚洲精品一二三区| 2019av中文字幕| 亚洲视频在线a| 亚洲av无码一区二区乱子伦| 色婷婷国产精品综合在线观看| 亚洲一区亚洲二区亚洲三区| 亚洲精品福利视频网站| 黄瓜视频污在线观看|