2025-05-13 14:40:54 作者:

近日,一項(xiàng)由英偉達(dá)與麻省理工學(xué)院聯(lián)合開發(fā)的新技術(shù)引發(fā)關(guān)注。該技術(shù)名為 Audio-SDS,是一種基于文本條件的音頻擴(kuò)散模型擴(kuò)展方法,首次將 Score Distillation Sampling(SDS)應(yīng)用于音頻生成領(lǐng)域。
近年來,音頻擴(kuò)散模型在生成高質(zhì)量音頻方面展現(xiàn)了強(qiáng)大的能力,但其在優(yōu)化具有明確語義和可解釋性的參數(shù)方面仍存在局限。新提出的 Audio-SDS 方法,通過融合預(yù)訓(xùn)練模型的強(qiáng)大生成能力與參數(shù)化音頻表示手段,突破了這一限制。
該方法無需依賴大規(guī)模特定任務(wù)的數(shù)據(jù)集,即可靈活運(yùn)用于多種音頻處理任務(wù),包括 FM 合成器參數(shù)校準(zhǔn)、物理沖擊音效合成以及音源分離等關(guān)鍵場(chǎng)景。借助 SDS 方法,用戶能夠根據(jù)高級(jí)文本提示,直接調(diào)整 FM 合成參數(shù)、沖擊音模擬器設(shè)置或分離掩碼,實(shí)現(xiàn)更加直觀和高效的音頻編輯。
研究團(tuán)隊(duì)采用了基于解碼器的 SDS 架構(gòu)、多步去噪機(jī)制及多尺度頻譜圖分析等技術(shù)進(jìn)行實(shí)驗(yàn)驗(yàn)證。結(jié)果顯示,Audio-SDS 在主觀聽感測(cè)試及多項(xiàng)客觀評(píng)價(jià)指標(biāo)(如 CLAP 分?jǐn)?shù)和信號(hào)失真比 SDR)上均表現(xiàn)出色。
Audio-SDS 的一大優(yōu)勢(shì)在于,它通過一個(gè)統(tǒng)一的預(yù)訓(xùn)練模型支持多種音頻任務(wù),避免了對(duì)大量任務(wù)專屬數(shù)據(jù)集的依賴,為音頻生成與編輯提供了一種更具通用性的解決方案。盡管如此,研究者也指出,該方法在模型覆蓋范圍、潛在編碼偽影以及優(yōu)化穩(wěn)定性等方面,仍有改進(jìn)空間。
這項(xiàng)技術(shù)的提出,為音頻生成領(lǐng)域帶來了新的思路,也為未來更高效、更靈活的音頻內(nèi)容創(chuàng)作提供了可能。





京公網(wǎng)安備 11011402013531號(hào)