9月12日,小米技術發布消息,近日,小米集團AI實驗室新一代Kaldi團隊發布了基于Flow Matching架構的ZipVoice系列語音合成(TTS)模型——ZipVoice(零樣本單說話人語音合成模型)與ZipVoice-Dialog(零樣本對話語音合成模型)。
ZipVoice解決了現有零樣本語音合成模型的參數量大、合成速度慢的痛點,ZipVoice-Dialog則解決了現有對話語音合成模型在穩定性和推理速度上的瓶頸。
實驗結果表明,ZipVoice和ZipVoice-Distill在具備更小參數量和更快推理速度的同時,在三個客觀指標,即說話人相似度(SIM-o)、詞錯誤率(WER)和UTMOS,以及兩個主觀指標(CMOS、SMOS)上都極具競爭力,達到了零樣本語音合成模型的SOTA性能水平,同時顯著減少了模型參數量,加快了推理速度。
對話語音合成模型可以根據對話文本合成雙人對話語音,是AI播客等應用的核心技術,得到了業界的廣泛關注。相對單說話人語音合成,對話語音合成需要在一句話中合成不同的說話人音色,且需實現自然且準確的說話人切換,因此更有挑戰性。





京公網安備 11011402013531號