![]()
新智元報(bào)道
編輯:LRST
擴(kuò)散概率生成模型(Diffusion Models)已成為AIGC時(shí)代的重要基礎(chǔ),但其推理速度慢、訓(xùn)練與推理之間的差異大,以及優(yōu)化困難,始終是制約其廣泛應(yīng)用的關(guān)鍵問(wèn)題。近日,被NeurIPS 2025接收的一篇重磅論文EVODiff給出了全新解法:來(lái)自華南理工大學(xué)曾德?tīng)t教授「統(tǒng)計(jì)推斷,數(shù)據(jù)科學(xué)與人工智能」研究團(tuán)隊(duì)跳出了傳統(tǒng)的數(shù)值求解思維,首次從信息感知的推理視角,將去噪過(guò)程重構(gòu)為實(shí)時(shí)熵減優(yōu)化問(wèn)題。
從Stable Diffusion的文生圖到Sora的文生視頻,擴(kuò)散模型憑借其卓越的生成質(zhì)量始終占據(jù)著圖像和視頻生成領(lǐng)域的主導(dǎo)地位。然而,這種高質(zhì)量的生成往往伴隨著巨大的代價(jià)(包括最近的擴(kuò)散語(yǔ)言模型),它需要通過(guò)數(shù)十甚至上百步的迭代,從純?cè)肼曋兄鸩交謴?fù)圖像。
這就帶來(lái)了兩個(gè)讓業(yè)界頭疼的核心矛盾:
推理效率與質(zhì)量的博弈:想快(減少步數(shù)),畫(huà)質(zhì)就崩;想畫(huà)質(zhì)好,就得忍受漫長(zhǎng)的生成時(shí)間。
理論與實(shí)踐的割裂:為了加速,業(yè)界提出了各種基于微分方程(ODE)的求解器(如DPM-Solver)。但這些方法往往更像是一種「數(shù)值近似技巧」,缺乏對(duì)擴(kuò)散過(guò)程本質(zhì)的解釋。例如,為什么某些參數(shù)化方法(如預(yù)測(cè)噪聲)效果不如預(yù)測(cè)數(shù)據(jù)?我們到底在優(yōu)化什么?
更棘手的是,現(xiàn)有的許多SOTA加速算法(如LD3,DPM-Solver-v3)都依賴(lài)于參考軌跡(Reference Trajectory)進(jìn)行優(yōu)化或者蒸餾。
也就是說(shuō),為了優(yōu)化這10步的生成路徑,你需要先跑一遍高精度的路徑 (比如200步下的結(jié)果) 作為「參考答案」。
在實(shí)際應(yīng)用中,不僅增加了巨大的計(jì)算開(kāi)銷(xiāo),也限制了基礎(chǔ)模型的泛化能力。
華南理工大學(xué)「統(tǒng)計(jì)推斷,數(shù)據(jù)科學(xué)與人工智能」團(tuán)隊(duì)提出的EVODiff,正是為了解決這兩種核心的問(wèn)題,不再修補(bǔ)ODE求解器的數(shù)值誤差,而是回到了擴(kuò)散模型的物理本源——熵(Entropy)。
![]()
論文鏈接:https://openreview.net/forum?id=rKASv92Myl
EVODiff的核心洞察非常深刻:擴(kuò)散模型的去噪過(guò)程,本質(zhì)上就是一個(gè)不斷減少不確定性、恢復(fù)信息的過(guò)程。
![]()
EVODiff的熵減路徑的直觀(guān)理解
在物理學(xué)中,熵代表系統(tǒng)的混亂程度。前向擴(kuò)散過(guò)程是向圖像中加噪,熵不斷增加;反向去噪過(guò)程則是從混亂中恢復(fù)秩序,條件熵(Conditional Entropy)應(yīng)當(dāng)不斷降低。
研究團(tuán)隊(duì)不僅在數(shù)學(xué)上嚴(yán)格證明了數(shù)據(jù)預(yù)測(cè)在推理生成過(guò)程中優(yōu)于噪聲預(yù)測(cè),還提出了一種「免參考」(Reference-free)的自適應(yīng)方差優(yōu)化框架(EVODiff)。
該框架首次展現(xiàn)出,在不依賴(lài)于高成本「參考軌跡」優(yōu)化的前提下,就能夠獲得比一些依賴(lài)參考軌跡的方法(如DPM-Solver-v3, LD3)更高效、且更優(yōu)的生成質(zhì)量。
在CIFAR-10上,僅需10步推理,F(xiàn)ID評(píng)測(cè)指標(biāo)即達(dá)到驚人的2.78,相比于同樣是無(wú)需參考軌跡優(yōu)化的DPM-Solver++,生成誤差率降低了45.5% (從5.10到2.78)。
![]()
在CIFAR-10上與「Referenc-free」方法DPM-Solver++的視覺(jué)對(duì)比
論文作者李仕貴和陳煒均是華南理工大學(xué)數(shù)學(xué)學(xué)院的博士研究生。通訊作者是華南理工大學(xué)電子與信息學(xué)院的曾德?tīng)t教授。
為何「數(shù)據(jù)預(yù)測(cè)」完勝「噪聲預(yù)測(cè)」?
在擴(kuò)散模型社區(qū),存在一個(gè)長(zhǎng)期的經(jīng)驗(yàn)性共識(shí):在做推理生成時(shí),直接使用預(yù)測(cè)干凈數(shù)據(jù)(Data Prediction)的參數(shù)化方案,往往比使用噪聲預(yù)測(cè)(Noise Prediction)的推理范式效果更好,這種現(xiàn)象尤其在較低步數(shù)下特別顯著。
值得關(guān)注的是,這一現(xiàn)象與 MIT 何愷明(Kaiming He)團(tuán)隊(duì)最新發(fā)布的JiT架構(gòu) “Back to Basics: Let Denoising Generative Models Denoise” 中的核心洞察不謀而合! 何愷明團(tuán)隊(duì)從「流形假設(shè)」的角度出發(fā),指出自然數(shù)據(jù)位于低維流形上,而噪聲彌漫于整個(gè)高維空間,因此神經(jīng)網(wǎng)絡(luò)直接預(yù)測(cè)干凈數(shù)據(jù)要比預(yù)測(cè)噪聲容易得多。
如果說(shuō)Back to Basics是從直覺(jué)和實(shí)證角度呼吁回歸本源,那么EVODiff則是在數(shù)學(xué)層面為這一趨勢(shì)提供了堅(jiān)實(shí)的理論支撐。
此前,這個(gè)現(xiàn)象只是被經(jīng)驗(yàn)地驗(yàn)證。而在EVODiff這個(gè)研究中,論文首次給出了嚴(yán)格的數(shù)學(xué)證明。
根據(jù)信息論推導(dǎo),EVODiff團(tuán)隊(duì)發(fā)現(xiàn):
噪聲預(yù)測(cè)路徑:需要經(jīng)過(guò)的間接計(jì)算。這就像是讓你通過(guò)「猜測(cè)干擾項(xiàng)」來(lái)還原真相,中間的誤差會(huì)隨著噪聲預(yù)測(cè)的誤差而被放大。
數(shù)據(jù)預(yù)測(cè)路徑:直接建立的映射則從路徑上就極大地規(guī)避了誤差的伸縮和混合效應(yīng)。
團(tuán)隊(duì)數(shù)學(xué)證明了 「數(shù)據(jù)預(yù)測(cè)參數(shù)化」能更直接地最小化重建誤差,并能更有效地降低條件熵。
這一理論貢獻(xiàn),不僅解釋了 EVODiff 的高效性,也從理論上側(cè)面印證了何愷明團(tuán)隊(duì) 最新的JiT 架構(gòu),為未來(lái)擴(kuò)散模型的設(shè)計(jì)提供了堅(jiān)實(shí)且有原則的數(shù)學(xué)基礎(chǔ),明確了關(guān)于參數(shù)化選擇的爭(zhēng)論。
尋找最優(yōu)路徑
熵感知方差優(yōu)化
既然目標(biāo)是「降低熵」,那么更準(zhǔn)確地熵減便能提高推理效率。同時(shí)既然預(yù)測(cè)數(shù)據(jù)在理論上更高效,那么在具體的迭代中該怎么更高效地降低數(shù)據(jù)預(yù)測(cè)的條件熵呢?
EVODiff首先回顧了擴(kuò)散模型高斯建模中條件熵與條件方差(Conditional Variance)正相關(guān)的特點(diǎn)。
也就是說(shuō),只要在每一步推理中動(dòng)態(tài)調(diào)整方差至最小,就能以最快的速度逼近真實(shí)圖像。
基于此,EVODiff構(gòu)建了一個(gè)「無(wú)參考」的自適應(yīng)優(yōu)化框架。它無(wú)需任何昂貴的預(yù)計(jì)算「參考軌跡」,而是僅利用當(dāng)前迭代步驟的狀態(tài)差異,通過(guò)一個(gè)計(jì)算開(kāi)銷(xiāo)極低的閉式解(Closed-form Solution),就能動(dòng)態(tài)且實(shí)時(shí)地計(jì)算出最優(yōu)的方差控制參數(shù)。這確保了每一步都朝著最高效的收斂路徑。
EVODiff框架解析
更優(yōu)、更快、更智能
EVODiff(Entropy-aware Variance Optimized Diffusion Inference)不僅僅是一個(gè)理論框架,更是一套可以直接落地的實(shí)時(shí)指導(dǎo)算法。
EVODiff框架的先進(jìn)性在于,它首次展現(xiàn)出在無(wú)須參考軌跡優(yōu)化的前提下,就能獲得比一些(如DPM-Solver-v3)基于參考軌跡優(yōu)化的方法更高效、且更優(yōu)的生成質(zhì)量。
其核心特性可以概括為「三板斧」:
1. Reference-free(免參考)的極致輕量化
與需要預(yù)先計(jì)算高成本軌跡的EMS(經(jīng)驗(yàn)?zāi)P徒y(tǒng)計(jì))類(lèi)方法不同,EVODiff完全依靠在線(xiàn)(On-the-fly) 計(jì)算。它利用當(dāng)前迭代步驟中的狀態(tài)差異,動(dòng)態(tài)優(yōu)化方差。這意味著它沒(méi)有任何額外的訓(xùn)練成本或預(yù)處理開(kāi)銷(xiāo),做到了真正的「拿來(lái)即用」。
2. 閉式解(Closed-form Solution)的極速計(jì)算
許多優(yōu)化算法需要復(fù)雜的迭代求解,會(huì)拖慢推理速度。但EVODiff團(tuán)隊(duì)推導(dǎo)出了方差優(yōu)化目標(biāo)的閉式解。這意味著,獲得最優(yōu)參數(shù)幾乎不需要消耗計(jì)算資源。實(shí)驗(yàn)數(shù)據(jù)顯示,EVODiff在獲得SOTA畫(huà)質(zhì)的同時(shí),推理時(shí)間甚至略快于DPM-Solver++。
3. 普適性(Universality)
無(wú)論是像素空間的傳統(tǒng)擴(kuò)散模型(如EDM),還是目前最火的隱空間擴(kuò)散模型(如Stable Diffusion),亦或是不同的噪聲調(diào)度策略(LogSNR, EDM schedule),EVODiff都能無(wú)縫適配并帶來(lái)提升。
SOTA戰(zhàn)績(jī)
「免參考」全面超越「有參考」
EVODiff的「免參考」框架并非空洞理論。在NeurIPS 2025的評(píng)審中,實(shí)驗(yàn)數(shù)據(jù)顯示,免參考路徑在質(zhì)量和效率上均超越了依賴(lài)參考軌跡的方法(DPM-Solver-v3),并在8-10NFE左右就超過(guò)了依賴(lài)參考軌跡的LD3方法(ICLR 2025 Oral),給審稿人留下了深刻印象。
CIFAR-10 (EDM模型):刷新紀(jì)錄的低步數(shù)表現(xiàn)
在極低步數(shù)(NFE=10)的挑戰(zhàn)下,EVODiff的表現(xiàn)堪稱(chēng)「降維打擊」:
基準(zhǔn)(DPM-Solver++):FID 5.10
EVODiff:FID 2.78
提升幅度:錯(cuò)誤率降低了驚人的45.5%
ImageNet-256 (ADM模型):高分辨率下的穩(wěn)健
在高分辨率圖像生成上,EVODiff同樣展現(xiàn)了統(tǒng)治力。為了達(dá)到相同的SOTA級(jí)畫(huà)質(zhì):
傳統(tǒng)方法需要:20 NFE
EVODiff僅需:15 NFE
效率提升:25%
LSUN-Bedrooms (隱空間擴(kuò)散模型):工業(yè)級(jí)模型的完美適配
針對(duì)當(dāng)前工業(yè)界主流的隱空間模型(Latent Diffusion Model),EVODiff在LSUN-Bedrooms數(shù)據(jù)集上:
相比UniPC,F(xiàn)ID分?jǐn)?shù)提升43.4%(在5 NFE下)。
生成速度提升5.3%。
這是一個(gè)非常關(guān)鍵的信號(hào):EVODiff不僅適用于學(xué)術(shù)小模型,更能直接賦能Stable Diffusion等工業(yè)級(jí)大模型。
![]()
![]()
![]()
EVODiff與Reference-free方法在不同指標(biāo)下的全面對(duì)比
![]()
EVODiff與Reference-free和Reference-based的方法的全面對(duì)比評(píng)估
視覺(jué)實(shí)測(cè):告別「多手多腳」的偽影噩夢(mèng)
除了冷冰冰的數(shù)據(jù),EVODiff在視覺(jué)感官上的提升更為直觀(guān)。
在文本生成圖像(Text-to-Image)任務(wù)中,低步數(shù)推理往往會(huì)導(dǎo)致圖像結(jié)構(gòu)崩壞,比如生成出扭曲的肢體或模糊的背景。
論文展示了一個(gè)經(jīng)典的測(cè)試案例:提示詞"An astronaut riding a horse"(宇航員騎馬)。
競(jìng)品方法(UniPC/DPM++):在低步數(shù)下,馬匹經(jīng)常會(huì)出現(xiàn)「五條腿」的解剖學(xué)錯(cuò)誤,或者宇航員與馬的融合顯得極不自然。
EVODiff:生成的圖像結(jié)構(gòu)嚴(yán)謹(jǐn),馬匹四肢正常,光影過(guò)渡自然,展現(xiàn)了極高的語(yǔ)義對(duì)齊度和視覺(jué)連貫性。
![]()
EVODiff在高效文生圖上的表現(xiàn)
![]()
![]()
在文生圖上僅用簡(jiǎn)單的prompt,例如「Giant caterpillar riding a bicycle」和「a photograph of an astronaut riding a horse」,EVODiff能生成高保真、語(yǔ)義連貫且正確的圖像,而其他競(jìng)爭(zhēng)方法則有嚴(yán)重偽影
德國(guó)AI公司Mindverse在其專(zhuān)題報(bào)道中特別指出了這一點(diǎn):「EVODiff在文本生成圖像任務(wù)中展現(xiàn)了‘更自然、更一致、更少偽影’的優(yōu)勢(shì),即使在使用簡(jiǎn)單的提示詞時(shí)也是如此。」
影響力與未來(lái)
從學(xué)術(shù)突破到工業(yè)落地
EVODiff的發(fā)表,不僅僅是多了一個(gè)SOTA算法框架,它標(biāo)志著擴(kuò)散模型推理的研究進(jìn)入了理論驅(qū)動(dòng)的新階段。
以往,我們?yōu)榱思铀伲窃凇该じ摹骨蠼馄骰蛘咛囟ǖ膬?yōu)化和適當(dāng)?shù)恼麴s。而EVODiff告訴我們:只要你從熵感知信息流優(yōu)化的角度去理解去噪過(guò)程,便能從原則上去設(shè)計(jì)一個(gè)既有效率提升又有生成質(zhì)量提升的雙贏范式。
德國(guó)Mindverse的報(bào)道評(píng)價(jià)道:「EVODiff的引入代表著擴(kuò)散推理優(yōu)化向前邁出了一步……它系統(tǒng)地降低條件熵的能力,為更高效、更高質(zhì)量的生成模型開(kāi)辟了新的可能性。」
參考資料:
https://openreview.net/forum?id=rKASv92Myl
秒追ASI
?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點(diǎn)亮星標(biāo),鎖定新智元極速推送!





京公網(wǎng)安備 11011402013531號(hào)