![]()
這項由螞蟻集團旗下Inclusion AI團隊領(lǐng)導(dǎo)的重要研究發(fā)表于2025年10月,研究團隊包括黃梓源、鄭丹丹、鄒程等眾多研究員。論文題為《Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer》,感興趣的讀者可以通過arXiv:2510.06590查詢完整論文,相關(guān)代碼和模型已在GitHub、HuggingFace等平臺開源。
AI看懂圖片和創(chuàng)造圖片,原本是兩個完全不同的任務(wù),就像一個人既要當(dāng)翻譯官又要當(dāng)畫家。以往的AI系統(tǒng)通常需要分別訓(xùn)練兩套完全不同的"大腦"來處理這兩種任務(wù)。現(xiàn)在,螞蟻集團的研究團隊找到了一種方法,讓AI用同一套"視覺語言"既能理解圖片內(nèi)容,又能根據(jù)文字描述創(chuàng)造全新的圖像。
這個突破性發(fā)現(xiàn)的關(guān)鍵在于他們開發(fā)的MingTok技術(shù),可以比作一把"萬能鑰匙",能夠?qū)⑷魏螆D片轉(zhuǎn)換成一種特殊的"通用語言"。這種語言既保留了圖片的詳細信息,又能讓AI輕松理解和操作。基于這項技術(shù),他們構(gòu)建了Ming-UniVision系統(tǒng),這是一個真正統(tǒng)一的AI助手,能夠在同一個對話中無縫切換between看圖說話、根據(jù)描述畫圖、修改圖片等多種任務(wù)。
更令人興奮的是,這個系統(tǒng)支持多輪交互式編輯。你可以先讓它畫一幅畫,然后要求它修改顏色,接著又要求它添加新元素,整個過程就像與一位既懂得欣賞藝術(shù)又擅長創(chuàng)作的朋友在協(xié)作。這種能力的實現(xiàn)得益于統(tǒng)一的視覺表示方法,避免了傳統(tǒng)方法中反復(fù)轉(zhuǎn)換不同格式所帶來的質(zhì)量損失和效率問題。
一、視覺理解與生成的"鴻溝"難題
要理解這項研究的重要性,我們首先需要認識AI在處理視覺任務(wù)時面臨的根本挑戰(zhàn)。當(dāng)AI需要理解一張圖片時,比如識別照片中的貓咪或者回答關(guān)于圖像內(nèi)容的問題,它需要提取高層次的語義信息,就像人類看到圖片時會注意到"這是一只橘色的貓坐在藍色沙發(fā)上"這樣的概念性內(nèi)容。
相比之下,當(dāng)AI要創(chuàng)造圖像時,它需要關(guān)注大量低層次的細節(jié)信息,比如每個像素點的具體顏色值、紋理如何過渡、光影如何分布等等。這就像畫家作畫時不僅要構(gòu)思整體構(gòu)圖,還要精確控制每一筆的色彩和位置。
這兩種需求之間存在天然的矛盾。理解任務(wù)偏愛高維度、富含語義的特征表示,而生成任務(wù)則需要緊湊的、能夠高效編碼視覺細節(jié)的低維表示。就好比一個人既要當(dāng)文學(xué)評論家(需要深刻理解作品含義),又要當(dāng)精密儀器操作員(需要精確控制每個細節(jié)參數(shù)),這兩種角色對信息處理的要求截然不同。
傳統(tǒng)的解決方案是為這兩類任務(wù)分別設(shè)計不同的"專用工具"。理解任務(wù)使用類似CLIP這樣的模型,它們擅長提取圖像的語義概念,能夠很好地將視覺內(nèi)容與文字描述對應(yīng)起來。生成任務(wù)則使用VAE(變分自編碼器)這樣的工具,它們專注于高效壓縮和重建圖像的像素信息。
這種分離式設(shè)計雖然各自都很有效,但當(dāng)我們想要構(gòu)建一個既能理解又能生成的統(tǒng)一系統(tǒng)時,就會遇到嚴重的問題。首先是架構(gòu)復(fù)雜性的急劇增加,系統(tǒng)需要同時維護兩套完全不同的處理流程,就像一個工廠需要兩條完全不同的生產(chǎn)線。其次是優(yōu)化困難,兩個子系統(tǒng)之間可能會出現(xiàn)相互干擾,一個的改進可能會影響另一個的性能。
更重要的是,這種分離設(shè)計嚴重限制了多輪交互的能力。當(dāng)用戶想要進行復(fù)雜的圖像編輯任務(wù)時,比如先生成一張圖片,然后基于對這張圖片的理解進行修改,系統(tǒng)就需要在不同的表示空間之間反復(fù)轉(zhuǎn)換。每次轉(zhuǎn)換都會帶來信息損失和計算開銷,就像在不同語言之間反復(fù)翻譯一樣,每次翻譯都可能丟失一些微妙的含義。
二、MingTok:統(tǒng)一視覺表示的"萬能鑰匙"
面對上述挑戰(zhàn),螞蟻集團的研究團隊開發(fā)了MingTok,這是一個革命性的視覺標(biāo)記器,能夠用統(tǒng)一的連續(xù)表示同時支持理解和生成任務(wù)。如果把傳統(tǒng)方法比作需要不同鑰匙開不同門的復(fù)雜系統(tǒng),那么MingTok就像是一把萬能鑰匙,能夠打開所有的視覺任務(wù)之門。
MingTok的核心創(chuàng)新在于其三階段的順序架構(gòu)設(shè)計。第一階段是低層編碼器,它將輸入圖像壓縮成緊湊的連續(xù)潛在表示。這就像一位攝影師將豐富的視覺場景壓縮成一張照片,保留了最重要的視覺信息同時大幅減少了數(shù)據(jù)量。這種壓縮比達到了32倍,意味著一張512x512像素的圖像被壓縮成僅256個連續(xù)token。
第二階段是語義解碼器,它通過自回歸的方式將緊湊的潛在序列逐步擴展成高維的語義特征。這個過程就像一個熟練的解說員,能夠從簡潔的提綱中展開豐富詳細的故事內(nèi)容。語義解碼器采用因果注意力機制,確保能夠支持逐token的自回歸生成過程。
第三階段是像素解碼器,它負責(zé)從高維語義特征重建出原始圖像。這個組件就像一位技藝精湛的畫家,能夠根據(jù)抽象的概念描述創(chuàng)造出具體的視覺作品。為了提高重建質(zhì)量,像素解碼器在transformer塊之前應(yīng)用了像素反混洗層,有效增加了視覺token數(shù)量并減少了有效補丁大小,從而顯著改善了紋理保真度和邊緣清晰度。
整個系統(tǒng)的訓(xùn)練采用了多任務(wù)學(xué)習(xí)框架,基于掩碼圖像建模范式。訓(xùn)練過程包含三個互補的目標(biāo)。首先是結(jié)構(gòu)化潛在空間正則化,通過掩碼特征預(yù)測來訓(xùn)練低層編碼器和潛在空間,使用預(yù)訓(xùn)練的視覺基礎(chǔ)模型(如DINOv2)作為監(jiān)督信號。這確保了潛在空間具有豐富的語義和結(jié)構(gòu)先驗,為自回歸視覺生成提供了必要的基礎(chǔ)。
其次是可擴展的語義表示學(xué)習(xí),同樣采用掩碼特征預(yù)測范式來訓(xùn)練語義解碼器。具體而言,來自低層編碼器的緊湊潛在序列(部分token被掩碼)通過語義解碼器自回歸地擴展為高維語義特征序列。被掩碼位置的擴展語義特征由與文本語義在預(yù)訓(xùn)練期間對齊的視覺主干(如CLIP)的特征表示進行監(jiān)督。
最后是像素重建目標(biāo),在掩碼和非掩碼兩種條件下訓(xùn)練像素解碼器,其中觀察到的和被掩碼的補丁的表示都被像素解碼器接收,然后學(xué)習(xí)重建完整圖像。這種雙重設(shè)置監(jiān)督迫使解碼器即使在一些潛在特征缺失或噪聲的情況下也能恢復(fù)細粒度細節(jié),模擬了自回歸生成過程中token逐個生成的情況。
三、Ming-UniVision:真正統(tǒng)一的多模態(tài)系統(tǒng)
基于MingTok的強大能力,研究團隊構(gòu)建了Ming-UniVision,這是一個真正統(tǒng)一的多模態(tài)大語言模型,能夠在單一框架內(nèi)無縫處理圖像理解、生成和編輯任務(wù)。這個系統(tǒng)的設(shè)計理念就像建造一座多功能建筑,所有不同的功能區(qū)域都使用相同的建筑語言和結(jié)構(gòu)體系。
Ming-UniVision的統(tǒng)一性體現(xiàn)在兩個關(guān)鍵方面。首先是統(tǒng)一的視覺輸入表示。無論是理解任務(wù)還是生成任務(wù),語言模型都始終接收由語義解碼器產(chǎn)生的高級語義特征。在圖像理解中,這種表示來源于真實圖像,輸入首先通過低層編碼器編碼為緊湊的連續(xù)潛在表示,然后通過語義解碼器生成豐富的、與文本對齊的視覺嵌入。由于整個圖像可以預(yù)先獲得,所有語義token都是并行計算的。
在自回歸圖像生成中,語言模型不是編碼觀察到的圖像,而是通過視覺頭逐個token地生成緊湊潛在表示。每個生成的潛在token立即通過語義解碼器擴展為對應(yīng)的語義特征,然后作為下一個token預(yù)測的上下文輸入反饋給語言模型。這確保了多模態(tài)交互的統(tǒng)一接口,無論視覺內(nèi)容是感知的還是合成的。
其次是統(tǒng)一的下一個token預(yù)測范式。在輸出側(cè),兩種模態(tài)都在共享的序列建模范式下自回歸生成。文本token使用標(biāo)準(zhǔn)的語言模型頭進行預(yù)測,保持與預(yù)訓(xùn)練LLM的完全兼容性。對于視覺內(nèi)容,每個token的視覺頭附接到語言模型以逐個補丁地預(yù)測緊湊的連續(xù)潛在表示,實現(xiàn)了在同一自回歸框架內(nèi)文本和圖像生成的無縫交錯。
這種視覺頭的設(shè)計借鑒了最近關(guān)于統(tǒng)一多模態(tài)建模的工作,但包含了兩個關(guān)鍵的結(jié)構(gòu)改進。首先,研究團隊用整流流預(yù)測目標(biāo)替換了基于擴散的去噪頭,這允許更快的收斂和更少的推理步驟。其次,他們在標(biāo)準(zhǔn)MLP塊的位置采用了基于SwiGLU的前饋網(wǎng)絡(luò),在相同參數(shù)預(yù)算下經(jīng)驗性地改善了潛在預(yù)測精度和最終圖像質(zhì)量。
統(tǒng)一的輸入表示和下一個token預(yù)測共同使得單一模型能夠普遍處理理解、生成和編輯,簡化了多輪上下文圖像理解、生成和操作的架構(gòu)。系統(tǒng)能夠無縫支持多輪、上下文內(nèi)任務(wù),如迭代理解、生成和編輯。通過將理解和生成都表述為共享連續(xù)空間中的下一個token預(yù)測,它無縫支持多輪、上下文內(nèi)任務(wù)。
四、多輪交互式圖像理解、生成和編輯
Ming-UniVision最令人印象深刻的能力之一是支持復(fù)雜的多輪交互式圖像編輯。這種能力就像擁有一位既是藝術(shù)鑒賞家又是畫家的助手,能夠在連續(xù)的對話中理解你的意圖,創(chuàng)作圖像,并根據(jù)你的反饋進行精確修改。
傳統(tǒng)的統(tǒng)一視覺語言模型在支持高效和可擴展的多輪上下文圖像生成方面面臨著幾個主要障礙。首先,擴散變換器在結(jié)構(gòu)上無法進行多輪上下文編輯。FLUX.1等擴散變換器在架構(gòu)上被設(shè)計為每次前向傳遞生成固定數(shù)量的圖像。在訓(xùn)練期間,擴散變換器被配置為基于預(yù)先確定數(shù)量的參考圖像生成圖像,導(dǎo)致靜態(tài)的輸入輸出結(jié)構(gòu)。這種剛性限制了它們動態(tài)擴展生成序列或在單一上下文內(nèi)靈活交錯圖像編輯步驟的能力,使它們不適合自適應(yīng)的多輪任務(wù)。
其次,混合自回歸擴散設(shè)計面臨雙分支開銷。這類設(shè)計集成自回歸和每圖像擴散以實現(xiàn)上下文內(nèi)多輪生成和編輯。雖然雙分支架構(gòu)支持多輪生成,但它引入了顯著的計算和實現(xiàn)開銷。在訓(xùn)練計算開銷方面,混合模型為每個圖像維護多個不同的表示,即用于理解的語義特征、用于去噪的噪聲潛在表示和用于調(diào)節(jié)未來步驟的干凈潛在表示。這顯著增加了訓(xùn)練期間的有效token序列長度,導(dǎo)致更高的內(nèi)存消耗和更長的訓(xùn)練時間。
在訓(xùn)練復(fù)雜性方面,需要非常規(guī)的注意力掩碼方案來管理跨特征空間和跨輪次的依賴關(guān)系。來自先前生成輪次的噪聲token在后續(xù)生成步驟中被掩碼掉,確保只有干凈的潛在表示在未來的圖像生成過程中被觀察到。不同的掩碼策略被應(yīng)用于不同的特征空間:語義特征上的因果注意力和圖像潛在表示上的完全注意力以支持全局去噪。
在推理效率方面,多輪生成需要異構(gòu)空間之間的頻繁轉(zhuǎn)換:潛在空間(生成)→像素空間(通過VAE完全解碼)→特征空間(通過理解編碼器的語義編碼)。每輪生成后,需要完整的解碼編碼周期,增加了延遲和計算開銷。
第三類方法是統(tǒng)一自回歸但采用分離標(biāo)記化。這種架構(gòu)采用單分支自回歸循環(huán),在共享序列建模框架內(nèi)統(tǒng)一理解、生成和編輯。與自回歸擴散混合模型相比,它們的統(tǒng)一架構(gòu)通過依賴單一的下一個token預(yù)測目標(biāo)簡化了訓(xùn)練和推理,消除了對復(fù)雜掩碼方案的需要。然而,它們?nèi)匀灰蕾囉诶斫夂蜕傻牟煌硎荆@需要在多輪編輯期間在域之間頻繁轉(zhuǎn)換。在訓(xùn)練期間,語義和生成token序列都被并行處理,有效地將輸入長度加倍并增加內(nèi)存和計算開銷。因此,盡管架構(gòu)簡化,統(tǒng)一自回歸模型仍然繼承了混合方法的關(guān)鍵低效率,特別是在延遲和可擴展性方面的迭代編輯場景。
相比之下,Ming-UniVision在單一連續(xù)token空間內(nèi)統(tǒng)一理解和生成。這是通過MingTok啟用的統(tǒng)一輸入表示實現(xiàn)的,它允許語義解碼器的高維特征被重用作生成或編輯的條件輸入,而無需昂貴的像素空間繞行。這種設(shè)計支持高效的上下文內(nèi)交互,實現(xiàn)可逆編輯、忠實重建和迭代細化,同時在潛在空間中保持完整上下文。
這種設(shè)計在推理期間實現(xiàn)了無縫的就地迭代工作流:生成圖像后,其語義特征表示在潛在空間中保持。對于下一步,語義特征與新的文本指令(例如"添加帽子")連接并反饋到模型中以產(chǎn)生更新的語義特征。因為整個過程純粹在潛在空間中執(zhí)行,繞過了昂貴的像素空間重編碼,它避免了累積質(zhì)量退化,保持了視覺保真度,并支持低延遲、多輪編輯和生成,可以流暢地交錯圖像理解和自由形式內(nèi)容創(chuàng)建。
五、創(chuàng)新的"視覺化思維鏈"推理
研究團隊還開發(fā)了一種獨特的"視覺化思維鏈"(Visualized Chain-of-Thought)方法,這是一種全新的圖像編輯范式。如果說傳統(tǒng)的AI圖像編輯就像一個魔術(shù)師直接變出結(jié)果,那么視覺化思維鏈就像一個透明的藝術(shù)家,會先用彩色標(biāo)記顯示打算修改的區(qū)域,然后再執(zhí)行具體的編輯操作。
這種方法的工作原理非常直觀。當(dāng)用戶提出圖像編輯請求時,系統(tǒng)首先生成一張中間圖像,其中需要編輯的區(qū)域被彩色覆蓋層高亮顯示。這個過程就像一位建筑師在施工前先用不同顏色標(biāo)記出需要改造的區(qū)域。隨后,系統(tǒng)基于這些視覺線索生成最終的編輯結(jié)果。
與傳統(tǒng)的文本思維鏈推理不同,視覺化思維鏈完全在視覺域內(nèi)進行推理。它不需要將推理輸出轉(zhuǎn)換為編輯掩碼然后再編碼以調(diào)節(jié)圖像編輯過程,而是直接利用可視化上下文來指導(dǎo)編輯。這種端到端的視覺推理和生成框架實現(xiàn)了理解和編輯的無縫集成,提高了圖像編輯工作流的透明度和效率。
為了構(gòu)建訓(xùn)練數(shù)據(jù),研究團隊參考了UniWorld-V1的方法,通過計算編輯圖像與其參考圖像之間的差異來獲得編輯區(qū)域。結(jié)果編輯區(qū)域掩碼然后作為中間輸出覆蓋在參考圖像上用于視覺推理。編輯圖像然后用作最終期望輸出,形成兩步驟的視覺化思維鏈圖像編輯范式。用于視覺生成和理解的統(tǒng)一特征空間使得這種多圖像生成框架能夠端到端訓(xùn)練。
實驗結(jié)果顯示,視覺化思維鏈方法在語義一致性方面表現(xiàn)出色,相比單步基線方法提高了0.5分。這種改進歸因于中間視覺推理結(jié)果引入了強空間先驗并減少了編輯歧義。定性結(jié)果進一步表明,模型能夠準(zhǔn)確識別需要編輯的區(qū)域,為后續(xù)的精確編輯提供了可靠基礎(chǔ)。
六、訓(xùn)練策略與系統(tǒng)優(yōu)化
Ming-UniVision的訓(xùn)練采用了精心設(shè)計的多階段策略,就像培養(yǎng)一個全才藝術(shù)家需要循序漸進的過程。整個訓(xùn)練分為預(yù)訓(xùn)練和監(jiān)督微調(diào)兩個主要階段,每個階段又包含多個子階段,以確保系統(tǒng)能夠穩(wěn)定地獲得理解、生成和編輯能力。
預(yù)訓(xùn)練階段包含兩個關(guān)鍵步驟。第一步是MLP和整流流頭預(yù)熱,在這個初始化階段,研究團隊專注于訓(xùn)練MingTok和LLM之間的MLP連接層,以及用于潛在預(yù)測的每token視覺頭。MingTok和LLM主干在此階段保持固定。訓(xùn)練數(shù)據(jù)混合包含大約30%的理解任務(wù)和70%的自回歸生成任務(wù),這種配置同時預(yù)熱了視覺到語言和語言到視覺的路徑。
第二步是聯(lián)合圖像理解和生成預(yù)訓(xùn)練,旨在使用大規(guī)模圖像文本數(shù)據(jù)構(gòu)建強大的單輪視覺語言能力。由于每token整流流頭的預(yù)測僅限于當(dāng)前token,它依賴語言模型來建模視覺token之間的序列關(guān)系。因此,在這個階段,研究團隊解鎖了語言模型,允許它在自回歸生成期間捕獲token間結(jié)構(gòu)。
為了在不破壞預(yù)訓(xùn)練潛在空間穩(wěn)定性的情況下增強細粒度視覺感知,研究團隊引入了混合分辨率訓(xùn)練并選擇性地只解鎖MingTok的語義解碼器,保持低層編碼器固定。在理解任務(wù)期間,圖像被調(diào)整為1024×1024分辨率,語義解碼器學(xué)習(xí)產(chǎn)生與文本語義對齊的高保真、細節(jié)豐富的嵌入。對于文本到圖像生成,考慮到計算效率和與預(yù)訓(xùn)練緊湊潛在空間的兼容性,輸入保持在512×512。
這種設(shè)置使模型能夠在理解期間感知細節(jié),同時保持穩(wěn)定、快速的生成,這對下游編輯和上下文內(nèi)交互至關(guān)重要。訓(xùn)練數(shù)據(jù)包括大約25%的圖像文本理解對、70%的文本到圖像生成樣本和5%的通用NLP任務(wù)。
監(jiān)督微調(diào)階段同樣分為兩個步驟。第一步專注于圖像理解和生成,旨在使模型與標(biāo)準(zhǔn)視覺語言任務(wù)中的人類意圖對齊。研究團隊凍結(jié)MingTok并解鎖其余部分,因為觀察到在此階段解鎖語義解碼器不會帶來性能提升。此階段繼續(xù)采用混合分辨率訓(xùn)練,數(shù)據(jù)分布包括大約30%的理解任務(wù)、10%的NLP任務(wù)和60%的文本到圖像生成。
第二步引入圖像理解、生成和上下文內(nèi)圖像操作,為了實現(xiàn)多輪上下文感知指令,如迭代編輯和細化,研究團隊引入了專注于圖像生成和上下文內(nèi)操作的最終微調(diào)階段。他們構(gòu)建了用于模型學(xué)習(xí)上下文內(nèi)圖像操作的指令鏈。訓(xùn)練策略遵循與第一步相同的策略,數(shù)據(jù)組成顯著偏移為15%理解、5%NLP、35%標(biāo)準(zhǔn)文本到圖像生成和55%單輪或多輪編輯任務(wù)。
七、多輪編輯性能的關(guān)鍵改進
為了提升多輪編輯的性能,研究團隊深入分析了任務(wù)形式對多輪性能的影響,并提出了創(chuàng)新的改進方案。他們發(fā)現(xiàn),大多數(shù)現(xiàn)有的統(tǒng)一架構(gòu)要么不支持顯式的多輪訓(xùn)練,要么在擴展到此類場景時必須在記憶中同時維護來自多個異構(gòu)特征空間的token,這種異構(gòu)性不僅在多輪訓(xùn)練期間使注意力機制復(fù)雜化,而且使順序編輯過程更加難以優(yōu)化。
基于這種觀察,研究團隊設(shè)計了兩個基礎(chǔ)比較實驗來檢驗任務(wù)形式如何影響多輪性能。第一個是重建加編輯基線,這是一個標(biāo)準(zhǔn)的單輪設(shè)置,其中模型重建原始圖像然后執(zhí)行單次編輯。第二個是添加分割作為編輯的提議方法,它通過添加重建加分割編輯任務(wù)來擴展基線。具體而言,一部分訓(xùn)練樣本被修改為需要重建后跟分割作為編輯操作,鼓勵模型在其潛在空間內(nèi)學(xué)習(xí)細粒度邊界定位和語義一致性。
實驗分析顯示,在各個類別中,分割作為編輯在9個任務(wù)中的11個任務(wù)上改善了語義一致性,在運動變化任務(wù)上獲得了最大的提升(+0.82分),在背景變化任務(wù)上提升了0.52分。平均語義一致性分數(shù)提高了0.41分,總體分數(shù)提高了0.33分,表明目標(biāo)語義和總體輸出質(zhì)量的更好保持。感知質(zhì)量在大多數(shù)類別中保持相當(dāng),反映出通過分割的結(jié)構(gòu)正則化在不犧牲視覺保真度的情況下增強了一致性。
這些針對性的多輪魯棒性改進形成了通向?qū)嶋H、真實世界工作流的自然橋梁,其中編輯經(jīng)常通過長的、依賴的變換序列進行。在復(fù)雜順序場景的定性分析中,統(tǒng)一架構(gòu)的優(yōu)勢在創(chuàng)意實踐典型的復(fù)雜順序場景中最為明顯,這正是現(xiàn)有技術(shù)因特征空間分裂和注意力復(fù)雜性而受到影響的情況。
八、廣泛的實驗驗證與性能評估
研究團隊對Ming-UniVision進行了全面的實驗評估,涵蓋了圖像理解、視覺生成、圖像編輯和圖像重建等多個維度。這些實驗就像對一位全才藝術(shù)家進行的全方位考試,驗證其在各個領(lǐng)域的能力水平。
在多模態(tài)理解方面,Ming-UniVision在多個標(biāo)準(zhǔn)基準(zhǔn)測試中表現(xiàn)出色。在MMStar、HallusionBench、AI2D和MM-Vet等評估語義推理和幻覺檢測的測試中,系統(tǒng)顯示出有競爭力的結(jié)果。這表明MingTok學(xué)習(xí)的共享語義表示對于通用視覺語言理解具有足夠的表達力。然而,研究團隊也誠實地承認了系統(tǒng)的局限性,在OCRBench和MMMU等需要細粒度識別的任務(wù)上存在性能差距,這主要是由于用于自回歸生成的潛在空間的壓縮性質(zhì)以及語義解碼器的因果架構(gòu)所導(dǎo)致的。
在視覺生成能力方面,Ming-UniVision在Geneval基準(zhǔn)測試中達到了最先進的性能水平。特別值得注意的是,系統(tǒng)在屬性控制和空間推理方面表現(xiàn)卓越,在位置(0.92)、顏色(0.93)和顏色屬性(0.70)子任務(wù)中超越了所有其他模型。在位置相關(guān)任務(wù)中的顯著領(lǐng)先優(yōu)勢突出了模型卓越的組合控制能力。這種強勁的性能,結(jié)合統(tǒng)一架構(gòu)固有的更快訓(xùn)練收斂,突出了共享語義空間在指導(dǎo)圖像合成方面的有效性。
研究團隊將這些改進歸因于聯(lián)合感知生成表示,這有助于語義基礎(chǔ)和高效優(yōu)化。在DPG-Bench測試中,Ming-UniVision同樣展現(xiàn)了強勁的性能,得分達到82.12,在統(tǒng)一模型中表現(xiàn)出色。
在圖像編輯性能方面,研究團隊使用GEdit-Bench-EN進行評估,這是一個包含現(xiàn)實世界用戶指令的基準(zhǔn)測試,涵蓋11個不同類別。性能通過三個指標(biāo)進行衡量:語義一致性、感知質(zhì)量和總體分數(shù),全部在0-10的量表上。由于模型不依賴大規(guī)模交錯預(yù)訓(xùn)練,研究團隊發(fā)現(xiàn)理解和生成階段之間的一致分辨率對于有效編輯至關(guān)重要。
實驗結(jié)果顯示,Ming-UniVision在單輪編輯質(zhì)量方面達到了有競爭力的水平,同時在多輪成功率方面表現(xiàn)出色。雖然總體分數(shù)略遜于一些先前工作,但研究團隊將這種差距主要歸因于兩個因素:缺乏大規(guī)模多模態(tài)序列預(yù)訓(xùn)練,以及連續(xù)標(biāo)記器中的高每token細節(jié)密度,這兩者都限制了在復(fù)雜指令下的當(dāng)前保真度。
在圖像重建能力方面,MingTok在32倍壓縮比下運行,將512×512圖像編碼為256個連續(xù)潛在token的緊湊表示。在這種高壓縮下,MingTok實現(xiàn)了0.54的rFID和30.77 dB的PSNR,表明強結(jié)構(gòu)對齊和高像素保真度。在統(tǒng)一多模態(tài)模型的預(yù)訓(xùn)練過程中語義解碼器經(jīng)過聯(lián)合訓(xùn)練后,重建質(zhì)量進一步改善,LPIPS降至0.12,rFID降至0.38。這表明統(tǒng)一框架內(nèi)的端到端優(yōu)化增強了語義解碼器保持精細紋理和全局語義的能力。
九、深入的消融實驗與設(shè)計驗證
為了驗證設(shè)計選擇的有效性,研究團隊進行了全面的消融實驗。這些實驗就像拆解一臺精密機器來理解每個部件的作用,幫助我們理解Ming-UniVision成功的關(guān)鍵因素。
最重要的消融實驗關(guān)注統(tǒng)一表示對競爭任務(wù)的影響。研究團隊設(shè)計了四種不同的配置:使用CLIP作為理解標(biāo)記器和VAE作為生成標(biāo)記器,使用CLIP作為理解標(biāo)記器和MingTok作為生成標(biāo)記器,使用MingTok作為理解標(biāo)記器和VAE作為生成標(biāo)記器,以及使用MingTok同時作為理解和生成標(biāo)記器。
實驗結(jié)果清晰地表明,統(tǒng)一表示對理解任務(wù)的重要性。當(dāng)MingTok同時用作理解和生成標(biāo)記器時,在平均性能上達到最佳,這意味著在統(tǒng)一表示空間中的預(yù)訓(xùn)練比在兩個分離空間中具有更好的圖像理解性能。進一步分析發(fā)現(xiàn),在每個理解標(biāo)記器組內(nèi),當(dāng)VAE用作生成標(biāo)記器時性能較差。這被認為是因為在聯(lián)合訓(xùn)練期間,多模態(tài)大語言模型必須花費相當(dāng)多的努力來對齊理解和生成表示空間。
從這個角度來看,由于VAE的特征更專注于細節(jié)并且語義信息較少,而MingTok的特征本身包含足夠的語義信息,所以MingTok比VAE更容易與理解標(biāo)記器的理解表示對齊。對于生成任務(wù),MingTok展示了其作為圖像生成標(biāo)記器的能力。無論理解標(biāo)記器是什么,MingTok作為生成標(biāo)記器總是顯示出相比其VAE對應(yīng)物的顯著改進。
研究團隊假設(shè)這種優(yōu)勢可能來自MingTok的特征不僅包含用于圖像重建的細節(jié)信息,還包含足夠的語義信息,這可能會加速圖像生成的收斂。此外,當(dāng)MingTok既作為理解標(biāo)記器又作為生成標(biāo)記器時也獲得了最佳生成性能,表明在統(tǒng)一表示空間中的預(yù)訓(xùn)練對圖像生成任務(wù)比在不同表示空間中更有效。
為了進一步探索MingTok作為圖像生成標(biāo)記器的效果,研究團隊還研究了生成任務(wù)的訓(xùn)練過程,包括兩個額外的設(shè)置:使用MingTok的純生成(表示為MingTok(G))和使用VAE的純生成(表示為VAE(G))。從這些曲線中可以得出以下結(jié)論:僅生成模型比具有理解和生成能力的聯(lián)合訓(xùn)練模型獲得更優(yōu)越的性能;MingTok作為圖像生成標(biāo)記器優(yōu)于VAE;在統(tǒng)一表示空間中的聯(lián)合訓(xùn)練最小化了圖像生成任務(wù)中的性能退化。
十、技術(shù)局限性與未來發(fā)展方向
雖然Ming-UniVision展現(xiàn)了統(tǒng)一視覺建模的巨大潛力,但研究團隊也坦誠地討論了當(dāng)前系統(tǒng)的局限性和改進方向。這種學(xué)術(shù)誠實就像一位工匠既展示作品的精彩之處,也指出需要進一步完善的地方。
當(dāng)前編輯性能的局限性主要體現(xiàn)在兩個方面。首先,模型缺乏大規(guī)模交錯預(yù)訓(xùn)練,即在多樣化編輯場景中交替文本和圖像token序列的預(yù)訓(xùn)練。這種數(shù)據(jù)可以幫助模型在微調(diào)前學(xué)習(xí)可概括的編輯模式。沒有這種預(yù)訓(xùn)練,模型嚴重依賴監(jiān)督微調(diào)來獲得編輯行為,這可能無法很好地概括到已見提示之外。這種限制在混合分辨率訓(xùn)練下尤為明顯,其中生成和編輯在較低分辨率下操作,因此無法利用高分辨率理解訓(xùn)練期間學(xué)習(xí)的理解能力。
其次,由于為生成效率而設(shè)計的MingTok的高壓縮比,每個潛在token編碼大量視覺細節(jié)。這種高信息密度使得細粒度編輯具有挑戰(zhàn)性,因為token中的小變化可能導(dǎo)致像素空間中的顯著且通常不可控的變化。在未來的工作中,研究團隊計劃探索更高分辨率的標(biāo)記化或更低的壓縮比,以減少每token信息負載,從而提高生成和編輯的精度和質(zhì)量。
在多輪和自由形式交錯交互方面,雖然MingTok支持基本的上下文內(nèi)編輯,但在更高級的交互模式方面仍有不足。在多輪編輯中,研究團隊觀察到模型難以概括到比訓(xùn)練期間看到的更長的編輯序列。更根本的是,模型在自由形式交錯理解和生成方面仍有困難,例如任意排序的序列如"描述、生成、比較、修訂、重新生成等"。當(dāng)前專注于結(jié)構(gòu)化、單向流的訓(xùn)練范式?jīng)]有充分為模型在靈活、動態(tài)任務(wù)切換方面做好準(zhǔn)備。
研究團隊認為,生成和理解之間的相互增強是統(tǒng)一視覺表示不僅僅是架構(gòu)選擇,而是生成和理解之間相互增強的關(guān)鍵推動因素。通過跨任務(wù)共享相同的表示空間,MingTok允許在生成中學(xué)到的知識(如細粒度紋理合成和組合推理)有益于感知,而視覺理解為更可控和忠實的生成提供了基礎(chǔ)、連貫的先驗。研究團隊觀察到這種協(xié)同作用的早期證據(jù):使用共享表示減少了純生成和統(tǒng)一訓(xùn)練之間的性能差距,并減輕了當(dāng)路徑分歧時通常出現(xiàn)的任務(wù)競爭。
說到底,這項研究代表了向連續(xù)潛在空間中統(tǒng)一視覺語言建模的重要一步。雖然MingTok和Ming-UniVision在聯(lián)合感知和合成方面展示了有希望的能力,但它們?nèi)杂芯窒扌裕貏e是在細粒度編輯和理解方面。研究團隊希望這種觀點能激發(fā)研究社區(qū)進一步探索生成和理解的統(tǒng)一建模,朝著更集成和協(xié)同的多模態(tài)系統(tǒng)發(fā)展。
這項研究的意義遠不止于技術(shù)突破本身。它為我們展示了一個未來的可能性:AI不再需要在不同任務(wù)之間切換不同的"大腦",而是可以用統(tǒng)一的方式理解和創(chuàng)造視覺內(nèi)容。這種統(tǒng)一性不僅提高了效率,更重要的是開啟了全新的交互可能性,讓人機合作變得更加自然和流暢。隨著技術(shù)的進一步發(fā)展,我們有理由相信這種統(tǒng)一的視覺建模方法將成為未來AI系統(tǒng)的重要發(fā)展方向。
Q&A
Q1:MingTok是什么?它與傳統(tǒng)的圖像處理方法有什么不同?
A:MingTok是螞蟻集團開發(fā)的一種統(tǒng)一視覺標(biāo)記器,能夠用同一套"語言"既理解圖片又生成圖片。傳統(tǒng)方法需要兩套完全不同的系統(tǒng)分別處理理解和生成任務(wù),就像需要不同鑰匙開不同門,而MingTok就像一把萬能鑰匙,能夠打開所有視覺任務(wù)之門,避免了在不同系統(tǒng)間轉(zhuǎn)換時的信息損失。
Q2:Ming-UniVision的多輪編輯功能具體是怎么工作的?
A:Ming-UniVision的多輪編輯就像與一位既懂欣賞又會創(chuàng)作的藝術(shù)家朋友協(xié)作。你可以先讓它畫一幅畫,然后要求修改顏色,接著又要求添加新元素。關(guān)鍵在于整個過程都在統(tǒng)一的"潛在空間"中進行,避免了傳統(tǒng)方法中反復(fù)在不同格式間轉(zhuǎn)換造成的質(zhì)量損失,讓編輯過程既快速又保持高質(zhì)量。
Q3:這項技術(shù)對普通用戶有什么實際意義?
A:這項技術(shù)讓AI圖像編輯變得更像人類的創(chuàng)作過程。普通用戶可以通過自然對話的方式與AI協(xié)作創(chuàng)作和編輯圖像,比如修復(fù)老照片(先提高分辨率再上色)、迭代設(shè)計(不斷調(diào)整細節(jié)直到滿意)、精確摳圖等。最重要的是整個過程是連續(xù)的,不需要重新上傳圖片或使用復(fù)雜工具,就像在和朋友討論創(chuàng)意一樣簡單。





京公網(wǎng)安備 11011402013531號