![]()
本文第一作者楊昱威,來自澳大利亞國立大學,合作者包括章澤宇(澳大利亞國立大學)、侯云鐘(澳大利亞國立大學)、李卓婉(約翰霍普金斯大學)、Gaowen Liu(思科)、Ali Payani(思科)、丁源森(俄亥俄州立大學)以及鄭良(澳大利亞國立大學)。
背景與動機
在科研、新聞報道、數(shù)據(jù)分析等領(lǐng)域,圖表是信息傳遞的核心載體。要讓多模態(tài)大語言模型(MLLMs)真正服務(wù)于科學研究,必須具備以下兩個能力:
1. 精準識別與理解圖表元素(如坐標軸、圖例、數(shù)據(jù)點、標題等);
2. 對圖表數(shù)據(jù)進行深度推理(如計算差值、比較趨勢、跨子圖推理等);
然而,即便是最先進的開源多模態(tài)大語言模型(MLLMs),在高難度科學圖表理解基準測試上準確率依舊徘徊在 30%–50%。盡管合成數(shù)據(jù)集易于生成,但它們通常存在以下問題:
風格單一:缺乏視覺和內(nèi)容多樣性;缺乏真實性:與真實圖表的分布差異較大;數(shù)據(jù)模式受限:生成的圖表數(shù)據(jù)過于簡單,無法模擬復(fù)雜場景;
![]()
為此,我們提出 ECD(Effective Chart Dataset)—— 一個規(guī)模大、質(zhì)量高、風格多樣的合成圖表數(shù)據(jù)集。同時,本文還配套設(shè)計了一條模塊化數(shù)據(jù)合成流水線以及高質(zhì)量評測基準 ECDBench,為開源 MLLM 提供全面的訓(xùn)練與評測支持。
![]()
論文標題:Effective Training Data Synthesis for Improving MLLM Chart Understanding論文地址:https://arxiv.org/pdf/2508.06492代碼倉庫:https://github.com/yuweiyang-anu/ECD項目主頁:https://effective-chart-dataset-synthesis.github.io
數(shù)據(jù)集亮點
![]()
ECD 作為一個全新的高質(zhì)量合成圖表數(shù)據(jù)集,具備以下核心優(yōu)勢:
1. 數(shù)據(jù)規(guī)模與圖表多樣性
數(shù)據(jù)量:包含 10,000+ 圖表,覆蓋廣泛的學科主題和圖表類型;多樣性:涵蓋 25 種主題(如經(jīng)濟學、天文學、醫(yī)學等)、29 種圖表類型(如線圖、條形圖、熱力圖等),以及 252 種子圖組合(包括多種復(fù)雜布局,如 2 行 3 列、3 行 3 列布局等),是同類合成數(shù)據(jù)集中覆蓋范圍最廣的。
2. 高質(zhì)量問答對
數(shù)據(jù)集包含 300k+ 問答對(包括描述類和推理類問題),所有問答對均由 GPT-4o 自動生成并通過置信度過濾篩選得到。
示例:
描述類問題:“左側(cè)子圖的標題是什么?”
答案:“左側(cè)子圖的標題是‘不同媒介的消費趨勢’ ”。
推理類問題:“哪個收入來源在本地媒體和國家媒體之間差異最大?”
答案:“數(shù)字廣告收入差異最大,差值為 300M。”
3. 數(shù)據(jù)真實性
最低的 FID(Frechet Inception Distance)得分:ECD 數(shù)據(jù)集在視覺分布上與真實科學圖表(如 CharXiv 數(shù)據(jù)集,從 arXiv 文章中圖表搜集得到)的相似度最高;最高的像素熵:平均像素熵顯著高于其他合成數(shù)據(jù)集,表明其復(fù)雜度更高,信息量更大,推理難度也更高。
方法與創(chuàng)新:模塊化五階段數(shù)據(jù)合成流水線
![]()
為了實現(xiàn)高質(zhì)量且多樣化的合成圖表數(shù)據(jù)集 ECD,本文設(shè)計了一個五階段模塊化的數(shù)據(jù)合成流水線,具體如下:
1. 單圖生成
使用 29 種預(yù)定義繪圖函數(shù)(如線圖、餅圖、散點圖等),通過獨立數(shù)據(jù)生成器生成數(shù)據(jù)表、標題、坐標軸標簽、標記樣式等內(nèi)容;數(shù)據(jù)生成與繪圖代碼生成分離,提升數(shù)據(jù)模式的多樣性。數(shù)據(jù)可以隨機選擇生成遞增、遞減或波動等趨勢。
2. 多子圖組合
條件順序生成,每個子圖的數(shù)據(jù)生成需要參考前面子圖的數(shù)據(jù);保證多子圖之間的語義一致性,模擬真實科研圖表的布局與信息關(guān)聯(lián)。
3. 視覺多樣化
添加注釋、陰影、放大視窗(Zoom-in inset)、字體 / 坐標軸樣式的變化;引入 Seaborn 等繪圖庫,用于提升視覺豐富度;調(diào)整圖表的分辨率與比例,保證其內(nèi)容可讀性。
4. 圖像質(zhì)量過濾
基于 GPT-4o 對圖表的視覺清晰度與語義連貫性進行兩方面評分;僅保留質(zhì)量高于數(shù)據(jù)集平均評分的圖表。
5. 問答對生成與過濾
每張圖生成描述類與推理類兩種類型的問答對;通過 GPT-4o 進行置信度評分,保留置信度最高 QA,剔除低質(zhì)量樣本。
模型與訓(xùn)練集對比
![]()
在 6 個測試集上評估 4 個開源 MLLM,包括 LLaVA-Next-Llama3-8B、MiniCPM-V2.6、Phi-3-Vision 及 Qwen2.5-VL-7B。 實驗表明,通過 ECD 訓(xùn)練集微調(diào)后,可一致提升 4 個開源 MLLM 的性能表現(xiàn);以 LLaVA-Next-Llama3-8B 為基線,對比先前 ChartQA、ChartBench、ReachQA 圖表訓(xùn)練集 → 在 ECD 訓(xùn)練集監(jiān)督微調(diào)訓(xùn)練(SFT)后,在所有測試集上均顯著一致地提升基線性能,其余訓(xùn)練集上訓(xùn)練后模型性能存在較大波動(不同測試集上性能有提升 / 有下降)。
數(shù)據(jù)集可視化對比
![]()
ECDBench:高質(zhì)量圖表理解評測基準
為進一步驗證模型性能,我們基于所提出的 ECD 數(shù)據(jù)合成流水線與人工核對調(diào)整,額外構(gòu)建了一個高質(zhì)量的基準測試集 ECDBench,用于對當前多模態(tài)視覺語言模型以及采用我們 ECD 訓(xùn)練集監(jiān)督微調(diào)前后的模型效果進行對比評估,基準統(tǒng)計信息如下:
規(guī)模:包含 1,224 張圖表組成:364 單圖,860 多子圖(涵蓋 2–3 種圖表類型)平均分辨率:1378×968 px數(shù)據(jù)GPT4o 自動生成 + 人工精細修訂QA 配置:每張圖表生成 1 條描述類 + 1 條推理類問答,共計 2,448 對問答
ECDBench 上評估測試結(jié)果對比如下
![]()
在 ECDBench 上,所有衡量的 MLLMs 中,o4-mini 在所有三個指標上始終表現(xiàn)最佳(推理類問題準確率為 57.03%,描述類問題準確率為 77.45%,平均準確率為 67.24%)。另外,采用 ECD 訓(xùn)練集微調(diào)后的模型(如 LLaVA-Next-Llama3-8B)性能顯著提升,表明 ECD 訓(xùn)練集的高質(zhì)量問答對能夠有效幫助提升模型圖表理解能力。
總結(jié)與展望
ECD 通過模塊化數(shù)據(jù)合成流程和高質(zhì)量 QA 生成機制,保持了與真實科學圖表的高相似度,且顯著提升了數(shù)據(jù)多樣性與復(fù)雜度。ECDBench 則為 MLLM 圖表理解能力提供了全面的評測基準。我們相信,這一工作將為多模態(tài)推理、科學 AI 助手以及圖表自動化生成領(lǐng)域提供堅實的數(shù)據(jù)基礎(chǔ)與技術(shù)支持。





京公網(wǎng)安備 11011402013531號