亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

超越DeepSeek-R1,數學形式化準確率飆升至84% | 字節&南大開源

IP屬地 中國·北京 編輯:顧青青 量子位 時間:2025-07-31 10:28:26

CriticLean 團隊 投稿
量子位 | 公眾號 QbitAI

當人工智能已經能下圍棋、寫代碼,如何讓機器理解并證明數學定理,仍是橫亙在科研界的重大難題。

字節跳動Seed團隊與南京大學聯合發布CriticLean框架,一舉將數學自然語言到Lean 4代碼的形式化準確率從38%提升至84%。

該框架創新性地將評估模型置于核心位置。通過強化學習訓練的CriticLeanGPT模型,能像數學專家一樣精準判斷形式化代碼是否貼合原始語義,配合迭代優化機制,讓生成的定理證明既符合語法規范,又忠實于數學邏輯。

?前論?和數據代碼倉庫均已對外公開,歡迎開源使用。



數學形式化領域的核心挑戰

將自然語言描述的數學命題轉化為機器可驗證的形式化代碼(如Lean 4定理),是自動化定理證明領域的基礎性難題,其核心挑戰不僅在于語法層面的準確轉換,更在于對數學語義的深度理解與忠實還原。

盡管現有研究在生成模型與編譯有效性上取得一定進展,但在復雜問題的語義對齊上仍存在顯著瓶頸,具體體現在以下三方面:

語義鴻溝:自然語言數學命題的隱含條件等難精準映射為形式邏輯,易出現前提翻譯偏差等問題,過往方法因缺語義一致性校驗,導致大量邏輯錯誤的形式化結果。評價缺位:對形式化結果的評價依賴編譯檢查或 LLM 簡單判斷,存在錯誤類型覆蓋不全、評價可靠性不足的問題,難以識別邏輯矛盾等。數據瓶頸:現有數學形式化數據集規模和多樣性不足、難度分布單一、語義校驗缺失,制約了模型應對復雜數學命題的能力。

引入Critic角色以實現可靠形式化

上述挑戰的核心在于:形式化流程中“評價”與“生成”的割裂。

CriticLean框架將引入強化學習的 Critic 模型,通過訓練專門的語義評價模型(CriticLeanGPT)、結合 Lean 4 編譯器反饋進行迭代生成。系統性解決語義對齊、評價可靠性與數據質量問題,為數學自動化形式化提供了全新范式。




圖1:CriticLean框架通過編譯器與評估器的雙重反饋,實現數學形式化的迭代優化

CriticLeanGPT:會“挑錯”的數學評估專家

團隊基于Qwen2.5和Qwen3系列模型,通過兩步訓練打造專業評估器:

有監督微調(SFT):在4.8萬條包含:數學、代碼以及數學語句-形式化代碼對一致性相關的Critic數據CriticLeanInstruct數據集上訓練,增強其針對語義判斷的評估能力。強化學習優化(RL):采用GRPO算法,以“判斷是否準確”和“輸出格式是否規范”作為獎勵信號,讓模型學會在評估中迭代提升。

該模型能識別12類常見錯誤,包括類型錯誤(占比24.9%)、數學表示錯誤(23.8%)等,能夠發現“代碼編譯通過但邏輯偏離原題”的隱性問題。



△圖2:不同類型錯誤的分布

CriticLeanBench:首個聚焦形式化任務語義評估的基準測試

CriticLeanBench是用于評估模型在數學形式化任務中關鍵推理能力的基準測試,旨在全面衡量模型將自然語言數學陳述轉化為經形式驗證的定理聲明等方面的表現.

其構建和實現過程如下:

CriticLeanBench 在數據收集階段,從多個數據來源選取數學陳述及對應的Lean 4 陳述,提交Lean 4陳述到編譯器。1)對于編譯失敗的語句,隨機采樣保留編譯器反饋信息。2)對于編譯成功的部分,通過使用 DeepSeek R1 結合專家校驗的方式保留正確和錯誤的樣本(錯誤的樣本保留錯誤信息)。

數據來源多樣:數學陳述選取了Omni-MATH、AIME、U-MATH等多個數據源,這些數據源涵蓋了不同難度層次和數學領域的問題。有助于更全面準確地評估模型在不同數學內容上的表現。覆蓋多種錯誤類型:CriticLeanBench 覆蓋語法錯誤、語義錯誤、邏輯錯誤等多種問題,全面考察模型能力。確保評估可靠有效:通過專家審查和大模型驗證相結合的方式來保證評估基準的可靠性和有效性。在不同類別中選取具有代表性的樣本,確保涵蓋各種錯誤類型,從而使評估結果更可靠。



△圖3: CriticLeanBench 構建的概覽



△表1:CriticLeanBench 數據集統計信息與各類代碼基準數據集的對比

在包含500組測試樣本的CriticLeanBench基準中,CriticLeanGPT的準確率達到87%,遠超GPT-4o(67.8%)和Claude 3.5(74.2%),甚至超過DeepSeek-R1(84%)的表現。

核心指標:Qwen3-32B-RL版本準確率達87%,true negative rate(正確識別錯誤樣本)達85.6%,遠超GPT-4o的40.0%。對比優勢:在相同模型規模下,經CriticLean訓練的Qwen2.5-32B模型準確率(78.6%)較基礎版(73.0%)提升5.6%,且對錯誤樣本的識別能力提升明顯。



△表2:在 CriticLeanBench 上的性能表現

模型大小的Scaling分析表明,模型性能隨規模提升穩步增強。



△圖4: 大語言模型在 CriticLeanBench 上的擴展性分析(? 表示閉源的大語言模型)

FineLeanCorpus:28.5萬條高質量形式化數據

依托CriticLean框架,團隊構建了目前規模最大、質量最高的數學形式化數據集之一:

規模與多樣性:包含285,957條樣本,覆蓋從高中奧數到大學數學的16個領域,其中高難度子集(Diamond)含36,033條問題。質量保障:每條樣本均通過編譯器語法檢查與CriticLeanGPT語義驗證,人工抽檢準確率達84%以上。結構優勢:相比LeanWorkbook,其難度分布更均衡(多峰分布),領域覆蓋更全面(如解析幾何樣本量提升300%)。



△表3:FineLeanCorpus 的不同來源及數據集統計信息

與高度偏斜的 Lean-Workbook 相比,FineLeanCorpus 提供了更透明的批判過程、更高比例的頂級問題,以及更加平衡和多樣化的主題分布



△表4:數據集統計信息的對比

與高度偏斜的 Lean-Workbook 相比,FineLeanCorpus 提供了更透明的批判過程、更高比例的頂級問題,以及更加平衡和多樣化的主題分布



△圖5:數據集統計信息的對比()

實驗結果:大幅提高數學形式化準確率

將該框架應用于自動形式化流程,配合Kimina-Autoformalizer-7B生成器,準確率從38%(單輪生成)提升至84%(多輪迭代優化),其中語義評估環節貢獻了30個百分點的提升。



△表5:自動化形式化性能的人類評估準確率結果

論文鏈接:https://arxiv.org/pdf/2507.06181
項目鏈接:https://github.com/multimodal-art-projection/CriticLean

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

精品少妇一区二区三区在线播放| 老司机精品视频网站| 久99久视频| 成人综合视频在线| 日韩av手机在线播放| 中文字幕av久久爽| 国精产品一区一区| 做爰无遮挡三级| 国产黄色片网站| 久久国产柳州莫菁门| 色www免费视频| 色老头一区二区| 欧美一区二区不卡视频| 深夜福利一区二区| 国产成人精品久久| 国产性生交xxxxx免费| 国产色综合一区| 性欧美videossex精品| 高清一区在线观看| 天天色综合社区| 成人影视免费观看| 无码人妻精品一区二区蜜桃色欲 | 蜜臀av免费观看| 538国产精品一区二区免费视频| 午夜精品一区二区三区四区| av网址在线观看免费| 国产精品1000部啪视频| 警花观音坐莲激情销魂小说 | 色香蕉久久蜜桃| 国产高中女学生第一次| 成年人三级黄色片| 国产久一道中文一区| 亚洲美女激情视频| 亚洲美女偷拍久久| 日本在线观看视频网站| 久久亚洲精品欧美| 日韩一二三四区| 另类欧美日韩国产在线| 国产精品第七页| 国产日韩欧美一区二区| 一本一本久久a久久精品综合小说 一本一本久久a久久精品牛牛影视 | 亚洲欧美综合在线观看| 黄色免费一级视频| 日韩欧美一区二| 97久久人人超碰caoprom欧美| 精品丝袜一区二区三区| 一区二区三区不卡视频| 国产在线精品一区二区不卡了| 久久国产精品波多野结衣| 久久精品一二三四| 91社在线播放| 91亚洲国产成人精品性色| 一本色道久久88亚洲综合88| 色综合天天综合| 久久久亚洲高清| 欧美a一区二区| 最近中文在线观看| 91嫩草丨国产丨精品| 精品国产乱码久久久久久1区二区| 日本成人三级电影网站| 国产主播喷水一区二区| 欧美激情视频一区二区三区不卡| 91精品在线一区二区| 亚洲va欧美va天堂v国产综合| 成人综合婷婷国产精品久久蜜臀 | 日韩美女一区二区三区四区| 五月婷婷综合网| 亚洲图片激情小说| 久久蜜桃一区二区| 国产美女一区二区三区| 免费精品视频在线| 久久久久久久高潮| 香蕉视频网站在线| 香蕉视频黄色片| 亚洲男人天堂久久| 精品人妻少妇AV无码专区| 在线观看国产区| 一区精品在线观看| h片在线免费看| av网站在线免费看| 亚洲黄色一级大片| 三级久久三级久久久| 视频精品一区二区| 国产精品99久久久久久似苏梦涵| 日韩精品欧美成人高清一区二区| 国产小视频免费观看| 欧美 日韩 中文字幕| 先锋av资源站| 激情伊人五月天久久综合| 成人av片在线观看| 国产精品美女久久久久久久久久久| 99国产精品久| 伊人一区二区三区| 欧美人与性动xxxx| 777精品伊人久久久久大香线蕉| 欧美一区二区二区| 九九热这里只有精品6| 国产精品jizz在线观看麻豆| 91精品国产99久久久久久红楼| 久久综合九色综合久99| www.男人天堂网| www.成年人| 久青草免费视频| 精品国自产在线观看| 狠狠色丁香婷综合久久| 91麻豆视频网站| 色视频成人在线观看免| 在线播放日韩av| 亚洲free性xxxx护士hd| 人妻少妇精品久久| 精品久久久久久中文字幕人妻最新| 91视频综合网| 秋霞影院一区二区| 亚洲丰满少妇videoshd| 国产一区二区三区三区在线观看| 成人黄色大片在线免费观看| 久操网在线观看| 免费在线观看a级片| 网站黄在线观看| 一区二区不卡在线播放 | 日韩精品久久久久久福利| 欧美华人在线视频| 亚洲综合第一| 污污的视频免费观看| 欧美精品一二三四区| 三级亚洲高清视频| 色婷婷综合久久久中文一区二区 | 国产精品伦子伦| 日本国产在线观看| 色综合久久天天| 欧美亚洲成人精品| 精品久久久久久久久久中文字幕| 黄色小说在线观看视频| 久久日韩精品一区二区五区| 国产手机视频精品| 欧美污视频久久久| 国产精品久久久久久久精| www.欧美色图| 欧美成人免费小视频| 少妇高潮喷水在线观看| 国产又粗又猛又黄| 色噜噜狠狠成人中文综合| 亚洲伊人久久综合| 日本一级免费视频| 国产色婷婷亚洲99精品小说| 97国产在线视频| 宇都宫紫苑在线播放| 韩国精品久久久| 久久精品国产69国产精品亚洲 | 久久狠狠婷婷| 亚洲人精品午夜在线观看| 国产爆乳无码一区二区麻豆 | 九九热视频这里只有精品| 嫩草影院国产精品| 国产一区二区三区免费| 欧美多人乱p欧美4p久久| 可以看的av网址| 久久一区二区视频| 91久久嫩草影院一区二区| 国产午夜免费视频| 丰满人妻一区二区三区大胸| 国产精品不卡av| 国产精品高潮呻吟久久| 欧美亚洲日本黄色| 乱h高h女3p含苞待放| 在线一区二区三区| 18禁网站免费无遮挡无码中文| 六月婷婷综合网| 精品国产一区二区三区四区在线观看| 激情五月婷婷基地| 亚洲国产成人一区二区三区| 国产一区二区三区黄| 久久久久在线视频| 一本色道久久综合精品竹菊| 少妇免费毛片久久久久久久久 | 国产精品自拍合集| 国产在线观看一区二区| 亚洲va国产va天堂va久久| 少妇高潮av久久久久久| 欧美精品在欧美一区二区少妇| 免费成年人高清视频| 一区二区免费视频| 日日摸日日碰夜夜爽av | 制服丝袜中文字幕一区| 香蕉视频999| 在线观看www91| 国产精品久久久久久久无码| 欧美唯美清纯偷拍| 国产ts在线观看| 日韩免费高清av| 日本aⅴ在线观看| 久久亚洲国产精品成人av秋霞| 久久99精品波多结衣一区| 久久夜色精品国产欧美乱| 波多野结衣电车痴汉| www亚洲精品| av观看在线免费| 国产伦精品一区二区三区照片91 | 国产高清无密码一区二区三区| 神马欧美一区二区| a级一a一级在线观看| 久久午夜鲁丝片| 欧美一级黑人aaaaaaa做受| 国产伦一区二区| 91在线播放国产| 不卡av在线网| 无码精品国产一区二区三区免费| 欧美性猛交xxxx乱大交极品| 日本成人午夜影院| 午夜伦理精品一区| 国产在线精品免费| 日日噜噜夜夜狠狠| 亚洲欧美日韩久久久久久 | 日本一级片免费看| 国产在线精品一区二区三区| 亚洲欧美在线观看| 免费看污片网站| 91国语精品自产拍在线观看性色| 美女网站色91| 亚洲中文字幕久久精品无码喷水| 亚洲第一av在线| 日本波多野结衣在线| 中文字幕色呦呦| 亚洲第一区第二区| 日本高清视频www| www.日本xxxx| 欧美xxxx18性欧美| 久久亚洲综合色| 国产三级精品三级观看| 91一区二区三区| 欧美在线三级电影| 在线观看av大片| 亚洲狼人综合干| 欧美精品18videosex性欧美| 中文一区一区三区高中清不卡| 黑人操日本美女| 亚洲日本理论电影| 亚洲福利视频专区| 豆国产96在线|亚洲| 你懂得视频在线观看| 久久久精品国产一区二区三区| 欧美精品一卡二卡| 激情文学综合插| 偷偷色噜狠狠狠狠的777米奇| 亚洲a区在线视频| 精品人在线二区三区| 国产福利不卡视频| 国产精品国产精品88| 国产精品一区二区免费看| 日韩精品资源二区在线| 高清在线不卡av| 精品久久久久久久久久久久久久久久 | 在线观看成人免费| 欧美一区二区三区免费视| 欧美日韩中文字幕在线| 麻豆成人免费电影| 久草精品视频在线观看| 在线观看高清免费视频| 九九久久久久久久久激情| 午夜精品久久久久久久99水蜜桃| 日韩一级片免费看| 欧美三级免费看| www.激情小说.com| 国产超碰91| 久久久爽爽爽美女图片| 欧美美女黄视频| 国产欧美一区二区三区沐欲| 成人免费公开视频| 日韩三级视频在线| 五月开心播播网| 日日橹狠狠爱欧美超碰| 精品久久一区二区三区蜜桃| 97香蕉超级碰碰久久免费软件 | 欧美一区二区三区成人精品| 国产欧美精品aaaaaa片| www日韩av| 久久久久久国产免费| 精品国产伦一区二区三区观看方式 | 欧美三级资源在线| 亚洲一二三区视频在线观看| 91亚洲永久精品| 久久成人免费电影| 狠狠人妻久久久久久综合麻豆| 国产一级精品视频| 看免费黄色录像| 久久久久亚洲av无码a片| aa视频在线播放| 丁香六月激情婷婷| 中文字幕中文字幕在线中一区高清| 国产精品裸体一区二区三区| 国产精品免费在线免费 | 欧美日韩国产乱码电影| 一本大道久久a久久综合| 一区二区三区在线免费播放| 中文字幕在线观看一区二区| 欧美极品少妇xxxxⅹ高跟鞋 | 国产又粗又猛又爽视频| 国产麻豆天美果冻无码视频 | 亚洲午夜久久久久中文字幕久| 中文成人综合网| 18成人在线视频| 亚洲精品菠萝久久久久久久| 悠悠色在线精品| 亚洲欧美日韩人成在线播放| 亚洲福利国产精品| 3d动漫精品啪啪| 亚洲精品suv精品一区二区| 亚洲精品久久久久久久久| 亚洲爱爱爱爱爱| 日韩一区二区三区国产| 国模极品一区二区三区| 米奇精品一区二区三区在线观看| 欧美亚洲另类视频| 亚洲一区二区三区777| 神马影院午夜我不卡| 女人喷潮完整视频| 91精品国产高清91久久久久久 | 国产日产欧美a一级在线| 日韩av高清在线播放| 国产精品wwwww| 91久久免费视频| 欧美一级特黄视频| 手机看片一区二区| 成人污污视频在线观看| 亚洲欧洲三级电影| 亚洲成avwww人| 久久人91精品久久久久久不卡| 99热最新在线| 无码人妻丰满熟妇区毛片| 在线免费观看a级片| 欧美 亚洲 另类 激情 另类 | 欧美视频三区在线播放| 中文字幕久久精品| 成人国产精品一区| 男人天堂网视频| 欧美成人精品激情在线视频| 色wwwwww| 亚洲综合激情网| xxxxx91麻豆| 国产综合久久久久久| av7777777| 国产一级理论片| 成人一级黄色片| 日韩精品一区二区三区四区视频 | 黄色av免费播放| 日本成人超碰在线观看| 亚洲一区在线视频观看| 久精品免费视频| aaa毛片在线观看| 色屁屁影院www国产高清麻豆| www.亚洲色图| 亚洲精品国产电影| 精品伊人久久大线蕉色首页| 好吊色视频一区二区三区| 中文字幕精品在线观看| 国产日韩欧美精品电影三级在线| 日韩av在线免费观看| 日本高清视频一区二区三区| www成人啪啪18软件| 成人一区二区三区中文字幕| 亚洲欧美成人精品| 国产精品久久久影院| 在线观看国产精品入口男同| 亚洲色图制服丝袜| 国产91ⅴ在线精品免费观看| 人妻 丝袜美腿 中文字幕| 日精品一区二区三区| 日韩限制级电影在线观看| 亚洲国产一区在线| 免费视频久久久| 欧美日韩亚洲精品内裤| 国产精品18久久久久久首页狼| 精品夜夜澡人妻无码av | 国产精品久久久久9999爆乳| 国产又粗又猛又黄又爽无遮挡| 欧美剧情电影在线观看完整版免费励志电影 | 色天使色偷偷av一区二区| 久久久久久草| 久草热在线观看| 日韩欧美精品在线| 中文字幕成人一区| 婷婷综合激情网| 深夜福利日韩在线看| 逼特逼视频在线观看| 亚洲国产精品黑人久久久| 91在线播放国产| 久久艹免费视频| 日韩欧美在线网站| 色啦啦av综合| 国产无人区一区二区三区| 91在线播放视频| 中文字幕欧美人妻精品一区蜜臀| 欧美电视剧在线看免费| 免费在线观看亚洲视频| 国产成人一区二区精品非洲| 国产精品高清在线观看| 亚洲精品国产精品乱码| a级黄色免费视频| 一区二区三区不卡在线观看 | 97免费公开视频| 亚洲男人天堂av网| 日韩一区二区三区资源| 日韩激情中文字幕| 一区二区三区美女xx视频| 日本黄色免费片| 91精品国产91久久久久久最新毛片| 无码日韩人妻精品久久蜜桃| 亚洲视频一区在线| 欧美成人xxxxx| 亚洲一区二区三区视频在线|