亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

We-Math 2.0:全新多模態數學推理數據集 × 首個綜合數學知識體系

IP屬地 中國·北京 編輯:唐云澤 機器之心Pro 時間:2025-08-28 12:07:02



本文作者來自北京郵電大學、騰訊微信、清華大學。共同第一作者為北京郵電大學博士生喬潤祺與碩士生譚秋納,其共同完成的代表性工作 We-Math 于 ACL 2025 發表,并曾在 CVPR、ACL、ICLR、AAAI、ACM MM 等多個頂會中有論文發表。本文的通訊作者為博士生導師張洪剛與微信視覺技術中心李琛,We-Math 系列工作為喬潤祺在微信實習期間完成。



論文標題:We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning論文鏈接:https://arxiv.org/abs/2508.10433主頁鏈接:https://we-math2.github.io/代碼鏈接:https://github.com/We-Math/We-Math2.0數據集鏈接:https://huggingface.co/datasets/We-Math/We-Math2.0-Standard



近期,多模態大模型在圖像問答與視覺理解等任務中進展迅速。隨著 Vision-R1 、MM-Eureka 等工作將強化學習引入多模態推理,數學推理也得到了一定提升。然而,在邏輯性與知識系統性要求極高的數學任務中,模型仍然達不到像人類一樣進行嚴密推理的水平,這一問題仍然是開放性難題。

對此,我們仍然認為理想的學習范式應該是讓模型先掌握所需的知識,再進一步提升泛化能力。基于這一思考,我們提出了 We-Math2.0:

1.MathBook Knowledge System:我們首先搭建了一個系統性、完整、相對正交的知識體系:包含5 個層級,491 個知識點與 1819 個知識原理,覆蓋了小學、初中、高中以及部分大學及競賽的知識。

2.MathBook-Standard:基于知識體系,我們發現開源數據集存在無法完整覆蓋、知識無法完成解構等問題,對此我們選擇對每個知識體系進行手動構建題目、畫圖,并結合一題多圖、一圖多題兩種思想,實現每個知識原理對應包含多個問題。

3.MathBook-Pro:我們希望進一步構造一個以模型為中心的數據空間來提升泛化能力。基于 MathBook-Standard 與知識體系,我們通過題目所需知識點數量、視覺復雜度、場景復雜度等三個維度對題目難度進行延展,將一條訓練數據拓展為 8 個不同難度的樣本。

4.訓練策略:基于所構建的數據集,我們首先通過 1000 條數據進行 SFT 冷啟動微調,旨在改變模型的輸出范式,進一步首先利用 MathBook-Standard 的數據,構建了均值獎勵,旨在通過以知識原理為單位對模型進行獎懲。在此基礎上,我們利用 MathBook-Pro 的數據,構建了動態調度訓練(知識調度與模態調度)從而提升模型的泛化能力。

5.MathBookeval: 為了進一步評測模型在全面知識與推理深度層面的能力,我們提出了包含 1000 條樣本的 MathBookeval

為了實現嚴謹、高質量、具備高復雜度的圖像數據,我們的全部數據均為手動利用 Geogebra 專業化軟件新渲染而成,我們希望先通過手動構造高精度的數據來驗證這一思想的可行性。

目前不僅在 X 上收獲了一定的關注度,并且榮登 Huggingface Paper 日榜第一名!



We-Math 2.0

知識體系(MathBook knowledge system)



我們按照「定義 — 定理 — 應用」的思想構建了包含 5 個層級、491 個知識點、1819 個知識原理的知識體系,確保數學概念之間的層次關系與邏輯關聯得到清晰呈現,知識點之間、知識原理之間盡可能相互獨立。

具體而言,每個知識點均對應若干條基本原理。例如,在「三角形的面積」這一知識點下,細分為「三角形面積的基本公式」、「海倫公式」、「三角函數法面積公式」等不同的知識原理。

做法層面:一方面由人類專家基于教材、維基百科和國家課程標準設計初始結構;另一方面,收集開源數據集通過 GPT-4o 進行初步打標,并通過層次聚類生成知識體系。最終,由專家對兩者進行融合與修改,形成高質量的知識體系。

可以在我們的網站當中看到可視化的知識體系。

MathBook-Standard:雙向數據擴展策略



MathBook-Standard 采用「一題多圖」和「一圖多題」的雙向數據擴展策略,每道題目都標注了對應的多層級知識點,并嚴格覆蓋所提出的 1819 個數學知識原理。

具體而言,「一題多圖」是為同一道題生成不同的視覺變式,例如,一個關于三角形的種子問題可以通過改變角度生成不同類型的三角形圖像(如銳角、直角、鈍角三角形),從而提升模型在同一知識原理下的泛化能力;「一圖多題」則由專家基于同一圖像設計多個針對不同知識原理的新問題,全面考察不同的數學知識。

數據集:https://huggingface.co/datasets/We-Math/We-Math2.0-Standard

MathBook-Pro



聚焦以模型為中心的學習路徑,MathBook-Pro 首次實現了針對多模態數學題目的三維難度建模。具體來說,我們從以下三個維度對每個種子問題進行難度擴展:

推理步驟復雜度:通過增加題目涵蓋的知識點數量(不少于 6 個),系統性提升題目的邏輯難度。視覺復雜度:在保持核心幾何結構不變的基礎上,利用 GeoGebra 增加輔助元素或調整幾何配置,逐步增強圖像的視覺難度。語境復雜度:將問題描述從簡明的數學敘述拓展到更為復雜的現實或抽象情境,提升模型對語義和語境的理解能力。

每道種子題目可在這三大維度內擴展為 7 個難度層級,為后續的動態調度和強化學習訓練提供堅實基礎,助力模型實現更穩健的泛化能力。

數據集:https://huggingface.co/datasets/We-Math/We-Math2.0-Pro)

訓練策略

SFT 冷啟動

首先,我們精選了 1,000 條涵蓋全部知識原理的數據,通過監督微調(SFT)實現模型冷啟動,讓模型初步掌握知識導向的推理鏈,激發潛力。隨后,我們采用 GRPO 算法進行兩階段漸進式強化學習:

預對齊強化學習

基于 MathBook-Standard,在每組包含相同知識原理的問題中,采用均值獎勵計算。對于一組變體題目:



獎勵計算為:



具體而言,平均獎勵不僅聚焦于單個問題,還反映了模型對同一知識原理下所有問題掌握情況,從而提供更全面的評價。

動態調度學習



基于 MathBook-Pro,動態調度策略能夠根據模型的錯誤類型,智能地調整訓練數據。MathBook-Pro 為每個種子問題構建了一系列難度逐漸增加的變體,如下所示:



其中,s,v,c 分別表示在推理步驟、視覺和語境上的復雜度增量,這就為每個種子題目形成了一條從基礎推理到高級推理的漸進路徑,基于此展開的增量學習機制如下:



實驗結果

主要結果



較 baseline 有穩定提升:我們基于 Qwen2.5-VL-7B 開發了 MathBook-7B,并在四個主流數學推理測試集(MathVista、MathVision、MathVerse、We-Math)上進行了評估。結果顯示,MathBook-7B 的平均性能較 Qwen2.5-VL-7B 提升超過 5%。優異的知識泛化能力:在 MathVista 和 We-Math 測試集上,MathBook-7B 展現出優異的知識泛化能力,能夠高效解決多領域的復雜多步問題及其子問題,性能超過了其他強化學習方法的基線模型。用相對較少的數據解鎖較大的潛力:MathBook-7B 最終用 10K 左右的數據量訓練即達到與大規模數據集同等效果,充分凸顯了高質量數據與結構化知識體系的高效性。

消融實驗分析





每個模塊均有性能提升,預對齊強化學習最有效:冷啟動微調與兩階段強化學習策略均提升了模型性能。特別是預對齊強化學習后的模型在 MathVista 和 We-Math 中取得了令人印象深刻的結果,這凸顯了知識學習在增強數學推理能力方面的關鍵作用。SFT 帶來的性能提升有限,但對于釋放強化學習的潛力至關重要:SFT 有效改變了模型推理范式,為后續 RL 優化提供了基礎,從而顯著提升了整體性能。(可以從后續的案例分析中看到變化)SFT 人類自然的語言形式優于結構化形式:通過對 SFT 數據范式與規模進行分析,我們發現,采用自然語言形式的 CoT(Chain-of-Thought)作為 SFT 數據優于結構化推理鏈,更能激發模型靈活推理能力的提升。SFT 少量數據足以釋放強化學習的潛力:擴大 SFT 數據規模并非總能帶來更好的性能 —— 在少量精心挑選的 SFT 數據上訓練的模型,其表現可與大規模數據集模型媲美,甚至更優。

實例分析



我們在附錄中提供了具體的回答案例。對比表明,通過在 SFT 階段改變了輸出范式,MathBook-7B 能夠提供更簡潔、更精準的推理過程。例如,在 MathVision 測試集上,MathBook-7B 的回答更加簡潔,平均響應長度減少,但仍保留了所有必要的知識推理步驟,解決了基線模型「過度思考」的問題。我們認為這種思路可以與構建自我思考、自我反饋的方法結合,旨在讓模型在正向推理過程中高效有效地利用知識推理。

MathBookeval 中的實驗結果



知識點數量影響顯著:模型準確率與題目知識點數量呈負相關,尤其在涉及 7-10 個知識點時,大多數模型準確率低于 50%,凸顯多步推理的挑戰性,驗證了知識點數量作為難度指標的有效性。代數與幾何表現差異明顯:模型在代數題上表現較好,準確率普遍超過 50%;但在幾何題上表現較差,反映出空間推理能力的不足。

We-Math 系列工作



我們希望通過 We-Math 系列工作,以長期且持續系統性的努力,推動多模態數學推理的發展。其愿景希望讓模型像人類一樣可以依據知識解決問題,同樣也能在未來成為人類的學習助手。

具體而言,We-Math (ACL 2025) 聚焦于模型的評測,2.0 版本更加聚焦于模型的訓練,現階段我們通過手動構建高精度的知識體系與題目驗證了這一思路的有效性。

從數據集的角度看,2.0 版本更希望凸顯 MathBook-Standard 的高質量與知識覆蓋全面性而 MathBook-Pro 則更多的是傳達一個有更多可能性的思路,后續我們也會進一步依照知識體系與三維空間探索大規模自動構建的可能性。

此外,2.0 版本我們也會將全部的圖像數據與 GGB 源文件開源,我們認為這不僅會對多模態推理有所貢獻,也會對 AI for Education 有著一定的貢獻,相信在未來,知識學習會是很重要的基石

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

av影院午夜一区| 久草国产在线观看| 国产成人av资源| 91久久精品www人人做人人爽| 欧美精品videos极品| 国产成人在线看| 国产精品吊钟奶在线| 91丨porny丨在线| 亚洲综合首页| 91污在线观看| 懂色中文一区二区三区在线视频| 久草视频在线免费| 亚洲在线视频福利| 欧美日韩在线一区二区| 理论片中文字幕| 加勒比海盗1在线观看免费国语版| 婷婷国产在线综合| 久久久久久久免费| 99久久精品99国产精品| 黄页网站在线观看视频| 理论片日本一区| 综合欧美国产视频二区| 天堂网一区二区| 精品国产乱码久久久久久丨区2区 精品国产乱码久久久久久蜜柚 | 久久久精品欧美丰满| 91精品一区二区三区在线观看| 日韩精品在线免费看| 91精品国产91久久久久福利| 激情综合网五月天| 欧美老女人在线视频| 九九九国产视频| 欧美精品欧美精品系列| 激情综合激情五月| 欧美激情一级精品国产| 丰满人妻一区二区三区四区53| 国产精品一区二区av| 久久婷婷麻豆| 欧美亚洲在线视频| jizz一区二区| 久热精品在线播放| 亚洲深夜福利网站| aaaa一级片| 午夜精品99久久免费| 久久久精品视频网站 | zzijzzij亚洲日本成熟少妇| 免费的毛片视频| 手机在线免费毛片| 日韩综合视频在线观看| www.麻豆av| av一区二区三区免费| 日韩和欧美的一区| the porn av| 成人疯狂猛交xxx| 最近日韩中文字幕中文| 日本乱人伦aⅴ精品| 久久久久久免费| 丰满岳乱妇一区二区| 日韩欧美专区在线| 国产无遮挡又黄又爽又色| 91久久综合亚洲鲁鲁五月天| 懂色av蜜臀av粉嫩av分享吧| 国偷自产av一区二区三区小尤奈| 日韩一区二区三区在线| 日本vs亚洲vs韩国一区三区二区 | 免费看污污网站| 欧美一区二区三区不卡| 成人性视频免费网站| 99久久精品国产色欲| 久久久久久久亚洲| 99久久免费看精品国产一区| 成人午夜两性视频| 日韩欧美999| 国产精品第5页| 国产精品一区而去| 日韩视频免费直播| 中文乱码字幕高清一区二区| 亚洲美女中文字幕| 欧美撒尿777hd撒尿| 国产精品视频a| 国产精品又粗又长| www.久久撸.com| 精品人妻一区二区三区免费看| 国产又粗又长又爽视频| 国产91精品高潮白浆喷水| 亚洲欧美制服丝袜| 亚洲人成网站免费播放| 最近中文字幕mv在线一区二区三区四区| 欧美成va人片在线观看| 久久综合色之久久综合| 久久久久久久久久久久国产精品| 国产成人av网址| 国产精品美女久久久久久久| 久久精品久久精品久久| 久久91精品国产91久久久| 午夜18视频在线观看| 国产免费美女视频| 日韩精品一区二区三区外面| 亚洲午夜久久久久久久| 欧美激情资源网| 大桥未久一区二区三区| 国产成人短视频| 午夜精品久久久久久不卡8050| 国产精品嫩草久久久久| 国产欧美一区二区在线| 亚洲欧美aⅴ...| 五月激情丁香一区二区三区| 国产一区二区三区免费| 一级片视频免费看| 亚洲高清视频一区二区| xxav国产精品美女主播| 欧美色综合天天久久综合精品| 丰满人妻av一区二区三区| 操人视频欧美| 国产精品福利影院| 亚洲国产天堂av| 91在线视频成人| 欧美激情视频一区二区三区不卡| 午夜久久久久久久久| 丝袜国产日韩另类美女| 日韩免费不卡视频| 亚洲va在线观看| 久久只有精品| 亚洲国产电影在线观看| 国产精品乱码人人做人人爱| 国产精品久久久久久久久搜平片 | 综合五月激情网| 路边理发店露脸熟妇泻火| 亚洲国产视频在线| 亚洲综合999| 免费在线观看a级片| 五月婷婷久久综合| 国产稀缺精品盗摄盗拍| 久久精彩免费视频| 狠狠色综合日日| 国产av不卡一区二区| 精品久久久久99| 丝袜亚洲另类欧美| 女人扒开双腿让男人捅| 欧美精品久久一区二区| 麻豆久久久久久久| 国产全是老熟女太爽了| 国产成+人+综合+亚洲欧洲| 一本久久综合亚洲鲁鲁| 色哟哟国产精品| 日韩欧美黄色动漫| 韩国女主播成人在线| 男的操女的网站| 天天躁日日躁狠狠躁免费麻豆| 亚洲乱码一区av黑人高潮| 日一区二区三区| 欧美手机在线观看| 国产午夜精品久久久久| 欧美特黄aaaaaa| 孩娇小videos精品| 黄色av网址在线播放| 日本成人看片网址| 亚洲精品资源在线| 日韩有码在线观看| 欧美日韩亚洲国产综合| 中文无码av一区二区三区| 国产成人a亚洲精v品无码| 亚洲91精品在线| 精品久久久久久亚洲国产300| 国产精品高潮呻吟AV无码| 中文字幕综合在线观看| 久久久久国产精品免费| 亚洲成人精品视频在线观看| 国产乱妇无码大片在线观看| 欧美激情在线观看| 在线影院国内精品| 国产又大又长又粗| 亚洲黄色a v| 日韩精品极品在线观看| 成人永久免费视频| 黄色大全在线观看| 少妇精品一区二区| 国产美女在线一区| 亚洲国产欧美日韩| 国产成人av在线播放| 日韩一区二区三区电影 | 欧美剧在线免费观看网站| 国产在线精品免费| 九九精品在线观看视频| 伊人精品视频在线观看| 国产一区二区四区| 性欧美大战久久久久久久免费观看| 国产日韩欧美在线| 中文字幕亚洲激情| 亚洲成人网久久久| 欧美视频在线免费| 日韩午夜中文字幕| 日韩视频免费观看| 亚洲美女精品视频| 激情综合网激情| 精品精品欲导航| 精品国产第一页| 三叶草欧洲码在线| 激情小说中文字幕| 中文字幕在线播放不卡| 午夜成人免费影院| 中文字幕在线观看不卡| 日韩一级完整毛片| 精品国产3级a| 亚洲精品久久久久久下一站| 日韩三级高清在线| 自拍亚洲欧美老师丝袜| 中日韩精品视频在线观看| 国产日产精品一区二区三区的介绍| 一级黄色片在线观看| 国产精品灌醉下药二区| 91精品国产综合久久久久久久久久| ●精品国产综合乱码久久久久| 精品呦交小u女在线| 成人综合电影| 日本亚洲欧美在线| 8x8x8国产精品| 日韩国产一级片| 日本天堂网在线| 亚洲一区二区在线免费观看视频| 久久久久久久久国产| 欧美人与物videos另类| 日本天堂免费a| 美国精品一区二区| 老司机精品久久| 91精品久久久久久久91蜜桃| 国产一区二区三区在线视频| 欧美国产日本在线| 中文字幕日韩一区二区三区不卡 | 日韩av综合中文字幕| 亚洲综合色激情五月| 日本中文字幕网址| 一级黄色高清视频| 国产一区二区三区久久悠悠色av| 亚洲精品永久免费| 永久av免费在线观看| 亚洲精品国产一区二区精华液| 欧美色图亚洲自拍| 黄色一级a毛片| 国产亚洲精品久久久久久777| 88av.com| 免费av网站在线播放| 国产精品麻豆视频| 欧美日韩成人黄色| 激情成人开心网| 亚洲综合久久网| 欧美国产国产综合| 亚洲成色777777女色窝| 国产福利久久| 深夜福利视频网站| 欧美乱妇40p| 欧美成人高潮一二区在线看| 午夜精品小视频| 精品欧美一区二区在线观看| 国产成人精品午夜| 久草视频国产在线| 日韩精品一级二级| 久久天天躁狠狠躁夜夜躁 | 91制片厂免费观看| 99久久久精品| 久久久com| 波多野结衣爱爱| 制服丝袜在线91| 精品一区在线播放| 日韩手机在线观看| 天天综合色天天| 成人激情电影一区二区| 亚洲精品久久久久久国| 日本欧洲一区二区| 欧美人动与zoxxxx乱| 日本黄大片在线观看| 国产精品1024| 欧美成人aa大片| 人人干人人视频| 日本污视频网站| 亚洲综合久久久久| 精品国产三级电影在线观看| 欧美韩国日本在线| 国产成人免费视频精品含羞草妖精| 日本一区二区三区四区视频| 熟妇人妻av无码一区二区三区| 国产精品免费久久久| 视频一区二区三区在线| 91色中文字幕| 日产欧产美韩系列久久99| 欧美片一区二区三区| 久久丫精品忘忧草西安产品| 国产精品欧美综合在线| 国产精品美女久久久久av福利| 国产精彩视频在线观看| 一二三四区精品视频| 潘金莲一级淫片aaaaa免费看| 国产一级aa大片毛片| 欧美国产乱子伦| 国产精品电影观看| 久久综合中文| 91中文精品字幕在线视频| 天天综合天天干| 日韩视频精品在线| аⅴ天堂中文在线网| 国产aⅴ综合色| 欧美激情一区二区三区高清视频| 青青草激情视频| 亚洲国产一区自拍| 99久久精品日本一区二区免费 | 破处女黄色一级片| 久久久亚洲福利精品午夜| 中日精品一色哟哟| 国产精品久久视频| 中文在线免费观看| 欧美国产日韩中文字幕在线| 女~淫辱の触手3d动漫| 亚洲国产精品va| 风韵丰满熟妇啪啪区老熟熟女| 国产精品家庭影院| 影音先锋男人的网站| 熟妇人妻av无码一区二区三区| 久久国产精品久久久久| av网站免费在线播放| 日韩一级黄色av| 国产精品无码天天爽视频| 一本久久综合亚洲鲁鲁| 欧美一级特黄高清视频| 亚洲国产中文字幕在线观看| 国产一区二区三区四区在线| 亚洲va国产天堂va久久en| 成人资源av| 国产亚洲精品福利| 国产午夜福利视频在线观看| 99精品国产视频| 在线日韩一区二区| 欧美一区二区影视| 日韩激情综合网| 91麻豆精品国产自产在线| 91精品视频国产| 91精品国产色综合久久不卡电影| 看一级黄色录像| 国产一区二区视频在线| 欧美一级视频精品观看| gogogo免费高清日本写真| 国产日韩免费视频| 日韩精品在线免费播放| 欧美日韩一道本| 精品一区二区在线看| 国产精品sss| 91美女片黄在线| 国产一区二区播放| 日韩久久不卡| 一区二区av在线| 亚洲精品精品亚洲| 中文字幕日本人妻久久久免费| 日本一区二区三区在线视频| 欧美一级理论片| 国产在线观看免费视频软件| 欧美肥老妇视频| 少妇一级淫片免费看| 久久99精品久久久久子伦 | 亚洲精选免费视频| 中文字幕在线播放一区| 精品奇米国产一区二区三区| 成人免费毛片xxx| 欧美日韩999| 五月婷婷狠狠干| 亚洲一区二区三区蜜桃| 97超级碰碰| 国产精品综合在线视频| 亚洲精品蜜桃久久久久久| 精品国产sm最大网站免费看| www.日日夜夜| 999香蕉视频| 欧美一区二区三区视频| 久久久久99人妻一区二区三区| 亚洲一二三在线| 日日摸夜夜添夜夜添精品视频| 很污的网站在线观看| 久久久久久久久久久人体| 在线视频国内自拍亚洲视频| 国产成人综合网站| 欧美成人一二三区| 婷婷免费在线观看| 成人在线一区二区| 欧美va亚洲va| 久久久综合九色合综国产精品| 欧美激情亚洲色图| 成人激情视频网| 国产精品网曝门| 大胸美女被爆操| 国产自产精品| 欧美日韩成人一区二区| 午夜精品久久久久久久99热黄桃| 17c国产在线| 日韩专区中文字幕| 开心激情综合网| 妺妺窝人体色www在线小说| 日韩欧美一级二级三级久久久| 中文字幕av不卡| 在线不卡免费视频| 久青草视频在线播放| 日韩区在线观看| 久久午夜精品一区二区| 最近中文字幕免费| 久久精品国产美女| 亚洲福利视频久久| 国产又大又黄视频| 一本色道久久综合亚洲精品婷婷 | 亚洲黄页网在线观看| 精品久久久久久中文字幕一区奶水| 国产69精品久久久久777| 日本午夜一区二区| 欧美亚韩一区二区三区| 五月天丁香社区|