ECD：高質(zhì)量合成圖表數(shù)據(jù)集，提升開源MLLM圖表理解能力

IP屬地中國·北京 編輯：沈瑾瑜機器之心Pro 時間：2025-08-21 22:23:34

本文第一作者楊昱威，來自澳大利亞國立大學，合作者包括章澤宇（澳大利亞國立大學）、侯云鐘（澳大利亞國立大學）、李卓婉（約翰霍普金斯大學）、Gaowen Liu（思科）、Ali Payani（思科）、丁源森（俄亥俄州立大學）以及鄭良（澳大利亞國立大學）。
背景與動機
在科研、新聞報道、數(shù)據(jù)分析等領(lǐng)域，圖表是信息傳遞的核心載體。要讓多模態(tài)大語言模型（MLLMs）真正服務(wù)于科學研究，必須具備以下兩個能力：
1. 精準識別與理解圖表元素（如坐標軸、圖例、數(shù)據(jù)點、標題等）；
2. 對圖表數(shù)據(jù)進行深度推理（如計算差值、比較趨勢、跨子圖推理等）；
然而，即便是最先進的開源多模態(tài)大語言模型（MLLMs），在高難度科學圖表理解基準測試上準確率依舊徘徊在 30%–50%。盡管合成數(shù)據(jù)集易于生成，但它們通常存在以下問題：
風格單一：缺乏視覺和內(nèi)容多樣性；缺乏真實性：與真實圖表的分布差異較大；數(shù)據(jù)模式受限：生成的圖表數(shù)據(jù)過于簡單，無法模擬復(fù)雜場景；

為此，我們提出 ECD（Effective Chart Dataset）—— 一個規(guī)模大、質(zhì)量高、風格多樣的合成圖表數(shù)據(jù)集。同時，本文還配套設(shè)計了一條模塊化數(shù)據(jù)合成流水線以及高質(zhì)量評測基準 ECDBench，為開源 MLLM 提供全面的訓(xùn)練與評測支持。

論文標題：Effective Training Data Synthesis for Improving MLLM Chart Understanding論文地址：https://arxiv.org/pdf/2508.06492代碼倉庫：https://github.com/yuweiyang-anu/ECD項目主頁：https://effective-chart-dataset-synthesis.github.io
數(shù)據(jù)集亮點

ECD 作為一個全新的高質(zhì)量合成圖表數(shù)據(jù)集，具備以下核心優(yōu)勢：
1. 數(shù)據(jù)規(guī)模與圖表多樣性
數(shù)據(jù)量：包含 10,000+ 圖表，覆蓋廣泛的學科主題和圖表類型；多樣性：涵蓋 25 種主題（如經(jīng)濟學、天文學、醫(yī)學等）、29 種圖表類型（如線圖、條形圖、熱力圖等），以及 252 種子圖組合（包括多種復(fù)雜布局，如 2 行 3 列、3 行 3 列布局等），是同類合成數(shù)據(jù)集中覆蓋范圍最廣的。
2. 高質(zhì)量問答對
數(shù)據(jù)集包含 300k+ 問答對（包括描述類和推理類問題），所有問答對均由 GPT-4o 自動生成并通過置信度過濾篩選得到。
示例：
描述類問題：“左側(cè)子圖的標題是什么？”
答案：“左側(cè)子圖的標題是‘不同媒介的消費趨勢’ ”。
推理類問題：“哪個收入來源在本地媒體和國家媒體之間差異最大？”
答案：“數(shù)字廣告收入差異最大，差值為 300M。”
3. 數(shù)據(jù)真實性
最低的 FID（Frechet Inception Distance）得分：ECD 數(shù)據(jù)集在視覺分布上與真實科學圖表（如 CharXiv 數(shù)據(jù)集，從 arXiv 文章中圖表搜集得到）的相似度最高；最高的像素熵：平均像素熵顯著高于其他合成數(shù)據(jù)集，表明其復(fù)雜度更高，信息量更大，推理難度也更高。
方法與創(chuàng)新：模塊化五階段數(shù)據(jù)合成流水線

為了實現(xiàn)高質(zhì)量且多樣化的合成圖表數(shù)據(jù)集 ECD，本文設(shè)計了一個五階段模塊化的數(shù)據(jù)合成流水線，具體如下：
1. 單圖生成
使用 29 種預(yù)定義繪圖函數(shù)（如線圖、餅圖、散點圖等），通過獨立數(shù)據(jù)生成器生成數(shù)據(jù)表、標題、坐標軸標簽、標記樣式等內(nèi)容；數(shù)據(jù)生成與繪圖代碼生成分離，提升數(shù)據(jù)模式的多樣性。數(shù)據(jù)可以隨機選擇生成遞增、遞減或波動等趨勢。
2. 多子圖組合
條件順序生成，每個子圖的數(shù)據(jù)生成需要參考前面子圖的數(shù)據(jù)；保證多子圖之間的語義一致性，模擬真實科研圖表的布局與信息關(guān)聯(lián)。
3. 視覺多樣化
添加注釋、陰影、放大視窗（Zoom-in inset）、字體 / 坐標軸樣式的變化；引入 Seaborn 等繪圖庫，用于提升視覺豐富度；調(diào)整圖表的分辨率與比例，保證其內(nèi)容可讀性。
4. 圖像質(zhì)量過濾
基于 GPT-4o 對圖表的視覺清晰度與語義連貫性進行兩方面評分；僅保留質(zhì)量高于數(shù)據(jù)集平均評分的圖表。
5. 問答對生成與過濾
每張圖生成描述類與推理類兩種類型的問答對；通過 GPT-4o 進行置信度評分，保留置信度最高 QA，剔除低質(zhì)量樣本。
模型與訓(xùn)練集對比

在 6 個測試集上評估 4 個開源 MLLM，包括 LLaVA-Next-Llama3-8B、MiniCPM-V2.6、Phi-3-Vision 及 Qwen2.5-VL-7B。實驗表明，通過 ECD 訓(xùn)練集微調(diào)后，可一致提升 4 個開源 MLLM 的性能表現(xiàn)；以 LLaVA-Next-Llama3-8B 為基線，對比先前 ChartQA、ChartBench、ReachQA 圖表訓(xùn)練集 → 在 ECD 訓(xùn)練集監(jiān)督微調(diào)訓(xùn)練（SFT）后，在所有測試集上均顯著一致地提升基線性能，其余訓(xùn)練集上訓(xùn)練后模型性能存在較大波動（不同測試集上性能有提升 / 有下降）。
數(shù)據(jù)集可視化對比

ECDBench：高質(zhì)量圖表理解評測基準
為進一步驗證模型性能，我們基于所提出的 ECD 數(shù)據(jù)合成流水線與人工核對調(diào)整，額外構(gòu)建了一個高質(zhì)量的基準測試集 ECDBench，用于對當前多模態(tài)視覺語言模型以及采用我們 ECD 訓(xùn)練集監(jiān)督微調(diào)前后的模型效果進行對比評估，基準統(tǒng)計信息如下：
規(guī)模：包含 1,224 張圖表組成：364 單圖，860 多子圖（涵蓋 2–3 種圖表類型）平均分辨率：1378×968 px數(shù)據(jù)GPT4o 自動生成 + 人工精細修訂QA 配置：每張圖表生成 1 條描述類 + 1 條推理類問答，共計 2,448 對問答
ECDBench 上評估測試結(jié)果對比如下

在 ECDBench 上，所有衡量的 MLLMs 中，o4-mini 在所有三個指標上始終表現(xiàn)最佳（推理類問題準確率為 57.03%，描述類問題準確率為 77.45%，平均準確率為 67.24%）。另外，采用 ECD 訓(xùn)練集微調(diào)后的模型（如 LLaVA-Next-Llama3-8B）性能顯著提升，表明 ECD 訓(xùn)練集的高質(zhì)量問答對能夠有效幫助提升模型圖表理解能力。
總結(jié)與展望
ECD 通過模塊化數(shù)據(jù)合成流程和高質(zhì)量 QA 生成機制，保持了與真實科學圖表的高相似度，且顯著提升了數(shù)據(jù)多樣性與復(fù)雜度。ECDBench 則為 MLLM 圖表理解能力提供了全面的評測基準。我們相信，這一工作將為多模態(tài)推理、科學 AI 助手以及圖表自動化生成領(lǐng)域提供堅實的數(shù)據(jù)基礎(chǔ)與技術(shù)支持。

免責聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系我們，本站將會在24小時內(nèi)處理完畢。

同類資訊

上海科普教育創(chuàng)新獎揭曉，首設(shè)“前沿科技成果科普獎”

《黃仁勛傳》作者威特：谷歌是對英偉達“AI霸權(quán)”的最大威脅

谷歌CEO「劈柴」親自下場分芯片！930億美元填不飽「算力饑荒」

復(fù)雜空間推理新SOTA，性能提升55%！中山大學新作SpatialDreamer

央視曝光AI培訓(xùn)“月入過萬”騙局，專坑老年人

宇樹機器人在王力宏演唱會秀高難度空翻，馬斯克點贊

全站最新

上海科普教育創(chuàng)新獎揭曉，首設(shè)“前沿科技成果科普獎”

《黃仁勛傳》作者威特：谷歌是對英偉達“AI霸權(quán)”的最大威脅

谷歌CEO「劈柴」親自下場分芯片！930億美元填不飽「算力饑荒」

復(fù)雜空間推理新SOTA，性能提升55%！中山大學新作SpatialDreamer

熱門推薦

上海科普教育創(chuàng)新獎揭曉，首設(shè)“前沿科技成果科普獎”

《黃仁勛傳》作者威特：谷歌是對英偉達“AI霸權(quán)”的最大威脅

效能提升10倍！摩爾線程新一代全功能GPU架構(gòu)“花港”正式發(fā)布

文匯時評｜“AI泔水”成年度熱詞，帶來什么警示

ChatGPT-5.2生成字母掛圖錯誤頻出“人類專家水平”遭質(zhì)疑

谷歌CEO「劈柴」親自下場分芯片！930億美元填不飽「算力饑荒」

復(fù)雜空間推理新SOTA，性能提升55%！中山大學新作SpatialDreamer

央視曝光AI培訓(xùn)“月入過萬”騙局，專坑老年人

利好來了！摩爾線程，重磅發(fā)布！

“星鏈”一衛(wèi)星在太空發(fā)生異常

宇樹機器人在王力宏演唱會秀高難度空翻，馬斯克點贊

智能機器人錦標賽深圳揭榜羅湖50億基金護航顛覆性創(chuàng)新

宇樹機器人為王力宏伴舞，馬斯克贊嘆

AI人才爭奪戰(zhàn)白熱化，谷歌另辟蹊徑“返聘”老員工

氣象人工智能模型“風源”雄安首發(fā)