本研究由中山大學(xué)、鵬城實(shí)驗(yàn)室、美團(tuán)聯(lián)合完成,第一作者王豪為中山大學(xué)博士研究生,主要研究方向?yàn)閳D像和視頻分割、開放場(chǎng)景視覺感知、多模態(tài)大模型等。論文共同通訊作者為梁小丹教授和藍(lán)湘源副研究員。
背景與動(dòng)機(jī)
Segment Anything Model (SAM) 作為基礎(chǔ)分割模型在密集分割掩碼生成方面表現(xiàn)卓越,但其依賴視覺提示的單一輸入模式限制了在廣泛圖像分割任務(wù)中的適用性。多模態(tài)大語言模型(MLLMs)雖在圖像描述、視覺問答等任務(wù)中表現(xiàn)出色,但輸出局限于文本生成,無法直接處理像素級(jí)視覺任務(wù),這一根本性限制阻礙了通用化模型的發(fā)展。
中山大學(xué)、鵬城實(shí)驗(yàn)室、美團(tuán)聯(lián)合提出X-SAM—— 一個(gè)統(tǒng)一的圖像分割多模態(tài)大模型,將分割范式從 「分割萬物」擴(kuò)展到 「任意分割」。X-SAM 引入了統(tǒng)一框架,使 MLLMs 具備高級(jí)像素級(jí)感知理解能力。研究團(tuán)隊(duì)提出了視覺定位分割(Visual Grounded Segmentation, VGS)新任務(wù),通過交互式視覺提示分割所有實(shí)例對(duì)象,賦予 MLLMs 視覺定位的像素級(jí)理解能力。為支持多樣化數(shù)據(jù)源的有效訓(xùn)練,X-SAM 采用統(tǒng)一訓(xùn)練策略,支持跨數(shù)據(jù)集聯(lián)合訓(xùn)練。實(shí)驗(yàn)結(jié)果顯示,X-SAM 在廣泛的圖像分割基準(zhǔn)測(cè)試中達(dá)到最先進(jìn)性能,充分展現(xiàn)了其在多模態(tài)像素級(jí)視覺理解方面的優(yōu)越性。
論文地址:https://arxiv.org/pdf/2508.04655代碼地址:https://github.com/wanghao9610/X-SAMDemo地址: http://47.115.200.157:7861
方法設(shè)計(jì)
X-SAM 設(shè)計(jì)了通用輸入格式和統(tǒng)一輸出表示:
1)文本查詢輸入(Text Query)
適用于通用分割、開放詞匯分割、指代分割、GCG 分割、推理分割采用特殊短語標(biāo)記 < p > 和 標(biāo)注類別 / 短語 / 句子格式化為:""category/phrase/sentence
2)視覺查詢輸入(Vision Query)
適用于交互式分割和 VGD 分割任務(wù)支持點(diǎn)、涂鴉、邊界框、掩碼等多種視覺提示形式使用專用標(biāo)記 < region > 表示視覺提示格式化為:""
3)統(tǒng)一輸出表示
引入特殊標(biāo)記 < SEG > 表示分割結(jié)果標(biāo)記間的潛在語言嵌入作為分割解碼器的條件嵌入
X-SAM 采用端到端的統(tǒng)一分割 MLLM 架構(gòu),包含以下核心組件:
1)雙編碼器設(shè)計(jì)(Dual Encoders)
圖像編碼器:采用 SigLIP2-so400m 提取全局圖像特征,提升圖像理解能力。分割編碼器:采用 SAM-L 提取細(xì)粒度圖像特征,提升圖像分割效果。
2)雙映射器架構(gòu)(Dual Projectors)
為增強(qiáng) LLM 的圖像理解能力,X-SAM 采用特征融合策略。
分割特征投影:利用像素重排(pixel-shuffle)操作減少空間尺寸,通過 MLP 投影到語言嵌入空間圖像特征投影:直接通過 MLP 投影與分割特征連接后輸入 LLM
3)分割連接器(Segmentation Connector)
針對(duì)圖像分割任務(wù)對(duì)細(xì)粒度多尺度特征的需求,設(shè)計(jì)了分割連接器,為分割解碼器提供豐富的多尺度信息。
下采樣路徑:通過 0.5 倍像素重排生成 1/32 尺度特征;上采樣路徑:通過 2.0 倍像素重排生成 1/8 尺度特征;原始特征:保持 1/16 尺度特征。
4)統(tǒng)一分割解碼器(Segmentation Decoder)
替換 SAM 原始解碼器,采用 Mask2Former 解碼器架構(gòu)。
模塊優(yōu)勢(shì):支持單次分割所有對(duì)象,克服 SAM 單對(duì)象分割限制。模塊特點(diǎn):引入潛在背景嵌入表示所有任務(wù)的 "忽略" 類別,實(shí)現(xiàn)一個(gè)解碼器適配所有分割任務(wù)。
X-SAM 采用三階段漸進(jìn)式訓(xùn)練策略來優(yōu)化多樣化圖像分割任務(wù)的性能:
1)第一階段:分割器微調(diào)(Segmentor Fine-tuning)
2)第二階段:對(duì)齊預(yù)訓(xùn)練(Alignment Pre-training)
3)第三階段:混合微調(diào)(Mixed Fine-tuning)
針對(duì)訓(xùn)練數(shù)據(jù)集規(guī)模差異(0.2K 到 665K 樣本),X-SAM 采用數(shù)據(jù)集平衡重采樣策略:
其中 t 為控制過采樣比例的超參數(shù),f_d 為數(shù)據(jù)集 d 的頻率。在混合訓(xùn)練過程中,根據(jù) r_d 對(duì)數(shù)據(jù)集 d 進(jìn)行重采樣,改善在少樣本數(shù)據(jù)集上的性能。
實(shí)驗(yàn)結(jié)果
綜合性能指標(biāo)
X-SAM 在超過 20 個(gè)分割數(shù)據(jù)集上進(jìn)行了全面評(píng)估,涵蓋 7 種不同的圖像分割任務(wù),實(shí)現(xiàn)了全任務(wù)最優(yōu)性能。
部分關(guān)鍵任務(wù)性能指標(biāo)
指代分割任務(wù):

對(duì)話生成分割任務(wù):
視覺定位分割任務(wù):
圖文理解任務(wù):
可視化結(jié)果展示
總結(jié)與展望
X-SAM 作為首個(gè)真正統(tǒng)一的分割多模態(tài)大語言模型,成功實(shí)現(xiàn)了從「segment anything」到「any segmentation」的重要跨越。通過創(chuàng)新的 VGD 分割任務(wù)、統(tǒng)一架構(gòu)設(shè)計(jì)和漸進(jìn)式訓(xùn)練策略,X-SAM 在保持各項(xiàng)任務(wù)競(jìng)爭(zhēng)性能的同時(shí),實(shí)現(xiàn)了更廣泛的任務(wù)覆蓋范圍,為圖像分割研究開辟了新方向,并為構(gòu)建通用視覺理解系統(tǒng)奠定了重要基礎(chǔ)。未來研究方向可以聚焦于視頻領(lǐng)域的擴(kuò)展。一是與 SAM2 集成實(shí)現(xiàn)圖像和視頻的統(tǒng)一分割,進(jìn)一步擴(kuò)展應(yīng)用范圍;二是將 VGD 分割擴(kuò)展到視頻中,引入視頻中的時(shí)序信息,構(gòu)建創(chuàng)新的視頻分割任務(wù),為視頻理解技術(shù)發(fā)展提供新的可能性。





京公網(wǎng)安備 11011402013531號(hào)