![]()
本文第一作者是二年級博士生閆熠辰,主要研究方向是多模態(tài)大模型的數(shù)據(jù)質量管理;通訊作者是李環(huán)研究員,主要研究方向包括人工智能數(shù)據(jù)準備、大模型高效推理與部署、時空大數(shù)據(jù)與模型輕量化等。
![]()
01 省流版:一張圖看懂 COIDO
在深入技術細節(jié)之前,我們先用一張漫畫來直觀理解 COIDO (Coupled importance-Diversity Optimization) 解決的核心問題與方案:
正如鐘離在漫畫中所言,面對海量視覺指令數(shù)據(jù)的選擇任務,傳統(tǒng)方法需要遍歷全部數(shù)據(jù)才能進行篩選造成大量「磨損」(高昂計算成本)。同時在面對數(shù)據(jù)重要性和多樣性問題時,傳統(tǒng)方法往往顧此失彼。而 COIDO 通過「耦合優(yōu)化」的新契約,實現(xiàn)了以簡馭繁的效果。
02 論文速覽
![]()
論文題目:COIDO: Efficient Data Selection for Visual Instruction Tuning via Coupled importance-Diversity Optimization收錄會議:NeurIPS 2025作者單位:浙江大學大數(shù)據(jù)智能團隊、杭州電子科技大學、北京郵電大學項目代碼:https://github.com/SuDIS-ZJU/COIDO論文鏈接:https://arxiv.org/abs/2510.17847
03 研究背景與動機 (Motivation)
![]()
多模態(tài)大語言模型(MLLM)的能力在很大程度上依賴于高質量的視覺指令微調(Visual Instruction Tuning)。然而,隨著數(shù)據(jù)集規(guī)模的爆炸式增長(如 LLaVA-665K),在全量數(shù)據(jù)上進行微調帶來了巨大的計算開銷和冗余 。
現(xiàn)有的數(shù)據(jù)篩選方法雖然旨在選取高質量子集,但普遍存在兩個關鍵痛點:
高昂的篩選成本:現(xiàn)有方法通常要求目標 MLLM 對全量數(shù)據(jù)進行反向傳播以計算重要性(如梯度、Loss),這導致篩選階段本身的計算成本就極高,違背了 「降本增效」的初衷 。也就是說,為了篩選出少量有價值數(shù)據(jù),我們還是得讓全部的數(shù)據(jù)進入到目標 MLLM 當中并訓練。優(yōu)化目標的解耦:數(shù)據(jù)篩選通常需要兼顧重要性(importance)和多樣性(Diversity)。現(xiàn)有方法往往將二者割裂處理——在訓練階段關注重要性,在篩選階段通過獨立算法處理多樣性。這種解耦往往導致次優(yōu)的權衡 。
針對上述問題,本文提出了 COIDO 框架,旨在通過極低成本的訓練,實現(xiàn)重要性與多樣性的聯(lián)合(耦合)優(yōu)化 。
04 方法論 (Mothodology)
COIDO 的核心思想是摒棄「遍歷全量數(shù)據(jù)」的舊范式,轉而采用輕量級評分器(Plug-in Scorer)配合小樣本采樣的策略。
![]()
1. 輕量級評分器與小樣本學習:不同于需要全量微調 MLLM 的方法,COIDO 引入了一個輕量級的插件評分器(COIDO Scorer)。我們僅從全量數(shù)據(jù)中隨機采樣一小部分(例如 20%)作為訓練集。評分器通過這部分數(shù)據(jù)學習整個數(shù)據(jù)集的分布特征,從而能夠對剩余數(shù)據(jù)進行泛化評分,無需遍歷全集進行訓練 。
2. 重要性與多樣性的耦合優(yōu)化 (Coupled Optimization):這是本論文的核心創(chuàng)新點。本文將重要性和多樣性的優(yōu)化統(tǒng)一在了一個聯(lián)合訓練框架中,而非分階段進行:
重要性損失 (L_I):基于 Cross-Entropy Loss 的重加權。我們將評分器輸出的得分 w 加權作用于 MLLM 的預測 Loss。根據(jù)反向傳播原理,模型會自動降低高難度(高 Loss)樣本的權重以最小化整體 Loss,從而使得評分器隱式地學習到樣本的重要性(即:分數(shù)越低,樣本越重要 / 越難)
多樣性損失 (L_D):基于譜聚類(Spectral Clustering)的方差最小化。我們在特征空間將數(shù)據(jù)聚類,并計算各簇(Cluster)平均得分的方差。通過最小化該方差,迫使模型在挑選高分樣本時,不會過度集中于某一類,從而保證了數(shù)據(jù)的多樣性分布。
![]()
![]()
![]()
![]()
![]()
05 實驗 (Experiments)
本文在 LLaVA-1.5-7B 模型及 LLaVA-665K 數(shù)據(jù)集上進行了廣泛驗證,并在 10 個主流多模態(tài)基準(包括 VQAv2, GQA, MMBench 等)上進行了測試。
![]()
1. 性能與效率的雙重 SOTA:實驗結果表明,COIDO 僅利用 20% 的數(shù)據(jù)進行訓練和篩選,即可達到全量數(shù)據(jù)微調 98.2% 的平均性能。與現(xiàn)有的 SOTA 方法(如 ICONS、TIVE、COINCIDE)相比:
計算效率最高:COIDO 擁有最低的 Total FLOPs (4.2E),顯著優(yōu)于需要全量遍歷的方法。篩選質量最優(yōu):在相同的數(shù)據(jù)留存率下,COIDO 在各個 Benchmark 上均取得了極具競爭力的結果。
![]()
2. 強大的泛化性與遷移性:將在 LLaVA-665K 上訓練好的 COIDO Scorer 直接應用于 Vision-Flan 數(shù)據(jù)集(Zero-shot Transfer),其表現(xiàn)甚至優(yōu)于在該數(shù)據(jù)集上從頭訓練的評分器,證明了 COIDO 能夠學習到通用的數(shù)據(jù)價值評估標準。
06 總結 (Conclusion)
COIDO 提供了一種全新的多模態(tài)數(shù)據(jù)篩選范式。它打破了「數(shù)據(jù)篩選必須昂貴」的刻板印象,證明了通過耦合優(yōu)化和小樣本學習,我們可以「以簡馭繁」,用極小的計算代價精準定位高價值的視覺指令數(shù)據(jù)。這不僅為資源受限的研究者提供了高效微調 MLLM 的可能,也為未來大規(guī)模多模態(tài)數(shù)據(jù)的自動化清洗與治理提供了新的思路。
關注項目主頁獲取更多細節(jié)與代碼實現(xiàn)!





京公網(wǎng)安備 11011402013531號