![]()
這項(xiàng)由NVIDIA和羅切斯特大學(xué)聯(lián)合開展的突破性研究發(fā)表于2025年11月,研究團(tuán)隊(duì)包括NVIDIA的韋小龍博士(項(xiàng)目負(fù)責(zé)人)、聶維利博士等多位專家。有興趣深入了解的讀者可以通過論文編號arXiv:2511.20645v1查詢完整論文。
過去幾年,當(dāng)我們驚嘆于AI生成的精美圖片時,很少有人知道這些AI其實(shí)并不是直接在"畫布"上作畫的。就像畫家需要先把復(fù)雜的風(fēng)景畫壓縮成簡單的草圖,然后在草圖上作畫,最后再還原成完整畫作一樣,現(xiàn)有的AI圖像生成系統(tǒng)也采用了類似的"兩階段"工作方式。它們首先使用一個叫做"自編碼器"的工具,把原始圖像壓縮成更小的表示,然后在這個壓縮空間里進(jìn)行創(chuàng)作,最后再解壓回原始圖像。
這種方法雖然大大降低了計(jì)算成本,但也帶來了一個根本性問題:每次壓縮和解壓都會丟失一些細(xì)節(jié),就像復(fù)印件的復(fù)印件總是比原件模糊一樣。當(dāng)我們需要編輯圖像時,這種失真會變得更加明顯。設(shè)想你想要把照片中的自行車改成摩托車,現(xiàn)有的AI系統(tǒng)可能會成功完成主要的替換,但照片背景中的小字、紋理等細(xì)節(jié)往往會變得模糊不清,因?yàn)檫@些信息在壓縮過程中已經(jīng)丟失了。
NVIDIA的研究團(tuán)隊(duì)提出了一個看似簡單但實(shí)際上非常困難的解決方案:讓AI直接在原始像素上工作,跳過壓縮這一步。這就像讓畫家直接在最終的畫布上作畫,而不是先畫草圖再轉(zhuǎn)換。雖然這個想法很直觀,但實(shí)現(xiàn)起來極其困難,因?yàn)橹苯犹幚碓枷袼匦枰幚淼男畔⒘渴菈嚎s方式的數(shù)百倍,計(jì)算成本會呈指數(shù)級增長。
**一、突破傳統(tǒng)思路的"雙層畫家"架構(gòu)**
為了解決直接在像素空間工作的巨大計(jì)算挑戰(zhàn),研究團(tuán)隊(duì)設(shè)計(jì)了一個巧妙的"雙層畫家"系統(tǒng),他們稱之為PixelDiT。這個系統(tǒng)就像是兩個專業(yè)分工不同的畫家在協(xié)作創(chuàng)作一幅畫:一個負(fù)責(zé)整體構(gòu)圖和色彩搭配的"構(gòu)圖大師",另一個專門負(fù)責(zé)細(xì)節(jié)雕琢的"細(xì)節(jié)專家"。
構(gòu)圖大師工作在較粗的"畫塊"級別,每個畫塊包含16×16個像素。它的任務(wù)是理解圖像的整體語義信息,比如這幅畫應(yīng)該是一只狗、一座山還是一個人,以及這些元素應(yīng)該如何排布。由于工作在粗粒度級別,構(gòu)圖大師可以高效地處理全局信息,快速確定圖像的大致輪廓和結(jié)構(gòu)。
與此同時,細(xì)節(jié)專家則專注于每一個像素的精確處理。它接收構(gòu)圖大師提供的語義指導(dǎo),然后在每個像素上進(jìn)行精細(xì)的紋理、邊緣和細(xì)節(jié)處理。這種分工讓系統(tǒng)既能保持全局一致性,又能在細(xì)節(jié)層面達(dá)到極高的精度。
更重要的是,研究團(tuán)隊(duì)為這兩個畫家之間設(shè)計(jì)了一套精密的溝通機(jī)制。細(xì)節(jié)專家不是盲目地處理每個像素,而是會根據(jù)構(gòu)圖大師提供的語義信息,為每個像素定制不同的處理策略。這就像細(xì)節(jié)專家會根據(jù)構(gòu)圖大師的指示,知道某個區(qū)域應(yīng)該畫成毛發(fā)的質(zhì)感還是金屬的光澤,然后相應(yīng)地調(diào)整自己的畫筆。
**二、解決"像素信息爆炸"的壓縮技巧**
即使有了雙層架構(gòu),直接處理像素信息仍然面臨著信息量爆炸的問題。一張256×256的圖像包含超過65000個像素,如果讓AI同時關(guān)注所有像素之間的關(guān)系,計(jì)算量將是天文數(shù)字。這就像讓一個人同時記住一萬個朋友的所有互動關(guān)系一樣不現(xiàn)實(shí)。
研究團(tuán)隊(duì)開發(fā)了一個叫做"像素令牌壓縮"的巧妙技術(shù)。這個技術(shù)在細(xì)節(jié)專家進(jìn)行全局注意力計(jì)算時,臨時將像素信息壓縮成更緊湊的表示,完成全局信息交換后,再將其展開回像素級別。這就像開會討論時,每個部門先內(nèi)部統(tǒng)一意見,派一個代表參加大會,會后再回到部門內(nèi)部具體執(zhí)行。
這種壓縮是可逆的和非破壞性的,與傳統(tǒng)方法的根本區(qū)別在于,它只是為了減少計(jì)算時的中間步驟復(fù)雜度,而不會永久性地丟失信息。所有的高頻細(xì)節(jié)信息都通過殘差連接和學(xué)習(xí)到的展開層得到了保留。
為了讓每個像素都能獲得準(zhǔn)確的語義指導(dǎo),研究團(tuán)隊(duì)還設(shè)計(jì)了"像素級自適應(yīng)調(diào)制"機(jī)制。傳統(tǒng)方法會給一個畫塊內(nèi)的所有像素應(yīng)用相同的處理參數(shù),就像給一整片區(qū)域涂上同樣的顏色。而PixelDiT為每個像素提供獨(dú)立的處理參數(shù),使得同一個畫塊內(nèi)的不同像素可以接收到精確定制的語義指導(dǎo)。
**三、從理論到實(shí)踐的性能驗(yàn)證**
研究團(tuán)隊(duì)在ImageNet數(shù)據(jù)集上進(jìn)行了全面的性能測試,結(jié)果令人印象深刻。PixelDiT-XL在256×256分辨率的圖像生成任務(wù)上達(dá)到了1.61的FID分?jǐn)?shù)(FID分?jǐn)?shù)越低表示生成圖像質(zhì)量越高),大幅超越了此前最好的像素空間生成模型。
更令人驚訝的是,PixelDiT展現(xiàn)出了極快的收斂速度。傳統(tǒng)的像素空間模型通常需要訓(xùn)練數(shù)千輪才能收斂,而PixelDiT僅用80輪訓(xùn)練就達(dá)到了2.36的FID分?jǐn)?shù),這已經(jīng)超過了許多完全訓(xùn)練的傳統(tǒng)像素模型。這種快速收斂得益于雙層架構(gòu)的有效分工:構(gòu)圖大師快速學(xué)會了全局語義理解,而細(xì)節(jié)專家則專注于紋理細(xì)節(jié)的完善。
在文本到圖像生成任務(wù)上,PixelDiT的表現(xiàn)同樣出色。研究團(tuán)隊(duì)將模型擴(kuò)展到支持文本輸入,并直接在1024×1024的高分辨率上進(jìn)行訓(xùn)練,這在此前的像素空間模型中是極其困難的。在Geneval和DPG-bench等標(biāo)準(zhǔn)測試中,PixelDiT分別獲得了0.74和83.5的分?jǐn)?shù),接近目前最先進(jìn)的潛在擴(kuò)散模型的性能水平。
**四、圖像編輯中的"無損優(yōu)勢"**
PixelDiT最引人注目的優(yōu)勢體現(xiàn)在圖像編輯任務(wù)中。研究團(tuán)隊(duì)展示了一個生動的對比實(shí)驗(yàn):使用FlowEdit技術(shù)將照片中的自行車替換為摩托車。使用傳統(tǒng)潛在擴(kuò)散模型(如Stable Diffusion 3和FLUX)時,雖然主要的替換任務(wù)完成了,但照片背景墻上的文字變得完全不可識別,出現(xiàn)了嚴(yán)重的扭曲和模糊。
這種失真的根本原因在于傳統(tǒng)方法的"兩次轉(zhuǎn)換"過程:首先自編碼器將原始圖像編碼到潛在空間時就丟失了部分細(xì)節(jié)信息,然后在潛在空間中進(jìn)行編輯,最后解碼回像素空間時又引入了額外的失真。這就像把一段音樂錄制成磁帶,再從磁帶復(fù)制到CD,每一次轉(zhuǎn)換都會丟失一些音質(zhì)。
相比之下,PixelDiT完全避免了這種多重失真,因?yàn)樗鼜氖贾两K都在原始像素空間工作。在同樣的編輯任務(wù)中,PixelDiT不僅成功地將自行車替換為摩托車,還完美保持了背景中所有文字的清晰度和可讀性。這種"無損編輯"能力對于需要精確保持細(xì)節(jié)的專業(yè)應(yīng)用具有重要意義,比如文檔圖像的編輯、藝術(shù)品的修復(fù),或者需要保持品牌標(biāo)識清晰度的商業(yè)圖像處理。
**五、計(jì)算效率的巧妙平衡**
雖然直接在像素空間工作聽起來計(jì)算成本很高,但PixelDiT通過精心的架構(gòu)設(shè)計(jì)實(shí)現(xiàn)了令人意外的計(jì)算效率。在256×256分辨率下,PixelDiT-XL的單次前向傳播僅需要311 GFLOPs,這個數(shù)值與許多潛在空間模型(238-292 GFLOPs)相當(dāng)接近,但遠(yuǎn)低于其他像素空間模型(通常需要數(shù)千GFLOPs)。
這種效率的實(shí)現(xiàn)主要?dú)w功于兩個關(guān)鍵設(shè)計(jì):首先是雙層架構(gòu)的分工,大部分語義計(jì)算在較粗粒度的畫塊級別完成,只有細(xì)節(jié)處理需要在像素級別進(jìn)行。其次是像素令牌壓縮技術(shù),大大減少了全局注意力計(jì)算的復(fù)雜度。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個有趣的規(guī)律:隨著模型規(guī)模的增大,小畫塊大小帶來的收益會逐漸減少。對于基礎(chǔ)模型,使用4×4的畫塊比16×16的畫塊效果明顯更好,但對于大型模型,這種差異幾乎消失。這表明大模型具有更強(qiáng)的表示能力,可以在較粗的粒度上也能捕獲足夠的細(xì)節(jié)信息。
在實(shí)際應(yīng)用中,PixelDiT的推理速度也表現(xiàn)不俗。在512×512分辨率下,PixelDiT-T2I可以達(dá)到每秒1.07張圖像的生成速度,在1024×1024分辨率下仍能保持每秒0.33張圖像的速度,這在實(shí)際應(yīng)用中是完全可接受的。
**六、從實(shí)驗(yàn)室到現(xiàn)實(shí)應(yīng)用的廣闊前景**
PixelDiT的成功不僅僅是一個技術(shù)突破,更重要的是它為整個AI圖像生成領(lǐng)域指出了一個新方向。傳統(tǒng)上,研究者們普遍認(rèn)為直接在像素空間工作是不現(xiàn)實(shí)的,因?yàn)橛?jì)算成本太高。PixelDiT證明了通過合理的架構(gòu)設(shè)計(jì),這個"不可能"的任務(wù)是完全可以實(shí)現(xiàn)的。
這種直接像素空間方法的最大價值在于它的"所見即所得"特性。設(shè)計(jì)師和藝術(shù)家在使用這類工具時,不需要擔(dān)心因?yàn)榫幋a解碼過程導(dǎo)致的細(xì)節(jié)丟失,他們看到的每一個像素都是最終輸出的真實(shí)像素。這種確定性對于專業(yè)應(yīng)用是極其重要的。
在具體應(yīng)用場景中,PixelDiT特別適合那些對細(xì)節(jié)要求極高的任務(wù)。比如在電影特效制作中,需要在保持演員面部細(xì)微表情的同時改變背景;在建筑設(shè)計(jì)中,需要在保持建筑結(jié)構(gòu)細(xì)節(jié)清晰的同時調(diào)整環(huán)境光照;在產(chǎn)品設(shè)計(jì)中,需要在保持產(chǎn)品質(zhì)感和細(xì)節(jié)的同時改變顏色或材質(zhì)。
研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前模型的局限性。由于模型參數(shù)規(guī)模(1.3B參數(shù))相對較小,加上高質(zhì)量訓(xùn)練數(shù)據(jù)的限制,PixelDiT在處理某些復(fù)雜場景時仍有困難,特別是人手的幾何結(jié)構(gòu)和復(fù)雜建筑場景的生成。不過,這些局限性主要是工程問題而非理論問題,隨著模型規(guī)模的擴(kuò)大和訓(xùn)練數(shù)據(jù)的豐富,這些問題都有望得到解決。
說到底,PixelDiT最重要的貢獻(xiàn)不是某個具體的性能指標(biāo),而是它證明了"直接在像素空間進(jìn)行高質(zhì)量圖像生成"這件事是完全可行的。這個概念驗(yàn)證為未來的研究開辟了全新的道路。當(dāng)越來越多的研究者開始探索這個方向時,我們可能會看到更多令人驚喜的突破。
歸根結(jié)底,PixelDiT代表了AI圖像生成技術(shù)從"近似"向"精確"邁出的重要一步。雖然目前它還不能完全替代現(xiàn)有的潛在空間方法,但它展示的"無損生成"理念可能會深刻影響整個領(lǐng)域的發(fā)展方向。對于普通用戶來說,這意味著未來的AI圖像工具將能夠提供更精確、更可控的創(chuàng)作體驗(yàn),真正實(shí)現(xiàn)"想象到什么就能精確生成什么"的愿景。有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過論文編號arXiv:2511.20645v1查詢NVIDIA團(tuán)隊(duì)發(fā)布的完整研究論文。
Q&A
Q1:PixelDiT和傳統(tǒng)AI圖像生成方法最大的區(qū)別是什么?
A:傳統(tǒng)方法需要先把圖像壓縮成簡化版本,在簡化版本上生成,最后還原回原圖,這個過程會丟失細(xì)節(jié)。而PixelDiT直接在原始像素上工作,就像畫家直接在最終畫布上作畫,避免了壓縮和解壓過程中的信息損失。
Q2:PixelDiT在圖像編輯方面有什么優(yōu)勢?
A:PixelDiT的最大優(yōu)勢是"無損編輯"。比如把照片中的自行車改成摩托車時,傳統(tǒng)方法會讓背景中的小字變模糊,而PixelDiT能完美保持所有細(xì)節(jié)的清晰度,因?yàn)樗鼪]有壓縮解壓的失真過程。
Q3:PixelDiT的計(jì)算成本會不會很高?
A:雖然直接處理像素聽起來成本很高,但PixelDiT通過"雙層畫家"架構(gòu)和像素壓縮技巧,將計(jì)算成本控制在與傳統(tǒng)方法相近的水平。它的推理速度完全滿足實(shí)際應(yīng)用需求,在1024×1024分辨率下能達(dá)到每秒0.33張圖像。





京公網(wǎng)安備 11011402013531號