![]()
本文作者來自北京郵電大學、騰訊微信、清華大學。共同第一作者為北京郵電大學博士生喬潤祺與碩士生譚秋納,其共同完成的代表性工作 We-Math 于 ACL 2025 發表,并曾在 CVPR、ACL、ICLR、AAAI、ACM MM 等多個頂會中有論文發表。本文的通訊作者為博士生導師張洪剛與微信視覺技術中心李琛,We-Math 系列工作為喬潤祺在微信實習期間完成。
![]()
論文標題:We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning論文鏈接:https://arxiv.org/abs/2508.10433主頁鏈接:https://we-math2.github.io/代碼鏈接:https://github.com/We-Math/We-Math2.0數據集鏈接:https://huggingface.co/datasets/We-Math/We-Math2.0-Standard
![]()
近期,多模態大模型在圖像問答與視覺理解等任務中進展迅速。隨著 Vision-R1 、MM-Eureka 等工作將強化學習引入多模態推理,數學推理也得到了一定提升。然而,在邏輯性與知識系統性要求極高的數學任務中,模型仍然達不到像人類一樣進行嚴密推理的水平,這一問題仍然是開放性難題。
對此,我們仍然認為理想的學習范式應該是讓模型先掌握所需的知識,再進一步提升泛化能力。基于這一思考,我們提出了 We-Math2.0:
1.MathBook Knowledge System:我們首先搭建了一個系統性、完整、相對正交的知識體系:包含5 個層級,491 個知識點與 1819 個知識原理,覆蓋了小學、初中、高中以及部分大學及競賽的知識。
2.MathBook-Standard:基于知識體系,我們發現開源數據集存在無法完整覆蓋、知識無法完成解構等問題,對此我們選擇對每個知識體系進行手動構建題目、畫圖,并結合一題多圖、一圖多題兩種思想,實現每個知識原理對應包含多個問題。
3.MathBook-Pro:我們希望進一步構造一個以模型為中心的數據空間來提升泛化能力。基于 MathBook-Standard 與知識體系,我們通過題目所需知識點數量、視覺復雜度、場景復雜度等三個維度對題目難度進行延展,將一條訓練數據拓展為 8 個不同難度的樣本。
4.訓練策略:基于所構建的數據集,我們首先通過 1000 條數據進行 SFT 冷啟動微調,旨在改變模型的輸出范式,進一步首先利用 MathBook-Standard 的數據,構建了均值獎勵,旨在通過以知識原理為單位對模型進行獎懲。在此基礎上,我們利用 MathBook-Pro 的數據,構建了動態調度訓練(知識調度與模態調度)從而提升模型的泛化能力。
5.MathBookeval: 為了進一步評測模型在全面知識與推理深度層面的能力,我們提出了包含 1000 條樣本的 MathBookeval
為了實現嚴謹、高質量、具備高復雜度的圖像數據,我們的全部數據均為手動利用 Geogebra 專業化軟件新渲染而成,我們希望先通過手動構造高精度的數據來驗證這一思想的可行性。
目前不僅在 X 上收獲了一定的關注度,并且榮登 Huggingface Paper 日榜第一名!
![]()
We-Math 2.0
知識體系(MathBook knowledge system)
![]()
我們按照「定義 — 定理 — 應用」的思想構建了包含 5 個層級、491 個知識點、1819 個知識原理的知識體系,確保數學概念之間的層次關系與邏輯關聯得到清晰呈現,知識點之間、知識原理之間盡可能相互獨立。
具體而言,每個知識點均對應若干條基本原理。例如,在「三角形的面積」這一知識點下,細分為「三角形面積的基本公式」、「海倫公式」、「三角函數法面積公式」等不同的知識原理。
做法層面:一方面由人類專家基于教材、維基百科和國家課程標準設計初始結構;另一方面,收集開源數據集通過 GPT-4o 進行初步打標,并通過層次聚類生成知識體系。最終,由專家對兩者進行融合與修改,形成高質量的知識體系。
可以在我們的網站當中看到可視化的知識體系。
MathBook-Standard:雙向數據擴展策略
![]()
MathBook-Standard 采用「一題多圖」和「一圖多題」的雙向數據擴展策略,每道題目都標注了對應的多層級知識點,并嚴格覆蓋所提出的 1819 個數學知識原理。
具體而言,「一題多圖」是為同一道題生成不同的視覺變式,例如,一個關于三角形的種子問題可以通過改變角度生成不同類型的三角形圖像(如銳角、直角、鈍角三角形),從而提升模型在同一知識原理下的泛化能力;「一圖多題」則由專家基于同一圖像設計多個針對不同知識原理的新問題,全面考察不同的數學知識。
數據集:https://huggingface.co/datasets/We-Math/We-Math2.0-Standard
MathBook-Pro
![]()
聚焦以模型為中心的學習路徑,MathBook-Pro 首次實現了針對多模態數學題目的三維難度建模。具體來說,我們從以下三個維度對每個種子問題進行難度擴展:
推理步驟復雜度:通過增加題目涵蓋的知識點數量(不少于 6 個),系統性提升題目的邏輯難度。視覺復雜度:在保持核心幾何結構不變的基礎上,利用 GeoGebra 增加輔助元素或調整幾何配置,逐步增強圖像的視覺難度。語境復雜度:將問題描述從簡明的數學敘述拓展到更為復雜的現實或抽象情境,提升模型對語義和語境的理解能力。
每道種子題目可在這三大維度內擴展為 7 個難度層級,為后續的動態調度和強化學習訓練提供堅實基礎,助力模型實現更穩健的泛化能力。
數據集:https://huggingface.co/datasets/We-Math/We-Math2.0-Pro)
訓練策略
SFT 冷啟動
首先,我們精選了 1,000 條涵蓋全部知識原理的數據,通過監督微調(SFT)實現模型冷啟動,讓模型初步掌握知識導向的推理鏈,激發潛力。隨后,我們采用 GRPO 算法進行兩階段漸進式強化學習:
預對齊強化學習
基于 MathBook-Standard,在每組包含相同知識原理的問題中,采用均值獎勵計算。對于一組變體題目:
![]()
獎勵計算為:
![]()
具體而言,平均獎勵不僅聚焦于單個問題,還反映了模型對同一知識原理下所有問題掌握情況,從而提供更全面的評價。
動態調度學習
![]()
基于 MathBook-Pro,動態調度策略能夠根據模型的錯誤類型,智能地調整訓練數據。MathBook-Pro 為每個種子問題構建了一系列難度逐漸增加的變體,如下所示:
![]()
其中,s,v,c 分別表示在推理步驟、視覺和語境上的復雜度增量,這就為每個種子題目形成了一條從基礎推理到高級推理的漸進路徑,基于此展開的增量學習機制如下:
![]()
實驗結果
主要結果
![]()
較 baseline 有穩定提升:我們基于 Qwen2.5-VL-7B 開發了 MathBook-7B,并在四個主流數學推理測試集(MathVista、MathVision、MathVerse、We-Math)上進行了評估。結果顯示,MathBook-7B 的平均性能較 Qwen2.5-VL-7B 提升超過 5%。優異的知識泛化能力:在 MathVista 和 We-Math 測試集上,MathBook-7B 展現出優異的知識泛化能力,能夠高效解決多領域的復雜多步問題及其子問題,性能超過了其他強化學習方法的基線模型。用相對較少的數據解鎖較大的潛力:MathBook-7B 最終用 10K 左右的數據量訓練即達到與大規模數據集同等效果,充分凸顯了高質量數據與結構化知識體系的高效性。
消融實驗分析
![]()
![]()
每個模塊均有性能提升,預對齊強化學習最有效:冷啟動微調與兩階段強化學習策略均提升了模型性能。特別是預對齊強化學習后的模型在 MathVista 和 We-Math 中取得了令人印象深刻的結果,這凸顯了知識學習在增強數學推理能力方面的關鍵作用。SFT 帶來的性能提升有限,但對于釋放強化學習的潛力至關重要:SFT 有效改變了模型推理范式,為后續 RL 優化提供了基礎,從而顯著提升了整體性能。(可以從后續的案例分析中看到變化)SFT 人類自然的語言形式優于結構化形式:通過對 SFT 數據范式與規模進行分析,我們發現,采用自然語言形式的 CoT(Chain-of-Thought)作為 SFT 數據優于結構化推理鏈,更能激發模型靈活推理能力的提升。SFT 少量數據足以釋放強化學習的潛力:擴大 SFT 數據規模并非總能帶來更好的性能 —— 在少量精心挑選的 SFT 數據上訓練的模型,其表現可與大規模數據集模型媲美,甚至更優。
實例分析
![]()
我們在附錄中提供了具體的回答案例。對比表明,通過在 SFT 階段改變了輸出范式,MathBook-7B 能夠提供更簡潔、更精準的推理過程。例如,在 MathVision 測試集上,MathBook-7B 的回答更加簡潔,平均響應長度減少,但仍保留了所有必要的知識推理步驟,解決了基線模型「過度思考」的問題。我們認為這種思路可以與構建自我思考、自我反饋的方法結合,旨在讓模型在正向推理過程中高效有效地利用知識推理。
MathBookeval 中的實驗結果
![]()
知識點數量影響顯著:模型準確率與題目知識點數量呈負相關,尤其在涉及 7-10 個知識點時,大多數模型準確率低于 50%,凸顯多步推理的挑戰性,驗證了知識點數量作為難度指標的有效性。代數與幾何表現差異明顯:模型在代數題上表現較好,準確率普遍超過 50%;但在幾何題上表現較差,反映出空間推理能力的不足。
We-Math 系列工作
![]()
我們希望通過 We-Math 系列工作,以長期且持續系統性的努力,推動多模態數學推理的發展。其愿景希望讓模型像人類一樣可以依據知識解決問題,同樣也能在未來成為人類的學習助手。
具體而言,We-Math (ACL 2025) 聚焦于模型的評測,2.0 版本更加聚焦于模型的訓練,現階段我們通過手動構建高精度的知識體系與題目驗證了這一思路的有效性。
從數據集的角度看,2.0 版本更希望凸顯 MathBook-Standard 的高質量與知識覆蓋全面性而 MathBook-Pro 則更多的是傳達一個有更多可能性的思路,后續我們也會進一步依照知識體系與三維空間探索大規模自動構建的可能性。
此外,2.0 版本我們也會將全部的圖像數據與 GGB 源文件開源,我們認為這不僅會對多模態推理有所貢獻,也會對 AI for Education 有著一定的貢獻,相信在未來,知識學習會是很重要的基石





京公網安備 11011402013531號