小米發布ZipVoice系列語音合成模型打破AI播客技術瓶頸

IP屬地中國·北京 編輯：鄭浩鳳凰網科技 時間：2025-09-12 12:09:35

9月12日，小米技術發布消息，近日，小米集團AI實驗室新一代Kaldi團隊發布了基于Flow Matching架構的ZipVoice系列語音合成（TTS）模型——ZipVoice（零樣本單說話人語音合成模型）與ZipVoice-Dialog（零樣本對話語音合成模型）。
ZipVoice解決了現有零樣本語音合成模型的參數量大、合成速度慢的痛點，ZipVoice-Dialog則解決了現有對話語音合成模型在穩定性和推理速度上的瓶頸。
實驗結果表明，ZipVoice和ZipVoice-Distill在具備更小參數量和更快推理速度的同時，在三個客觀指標，即說話人相似度（SIM-o）、詞錯誤率（WER）和UTMOS，以及兩個主觀指標（CMOS、SMOS）上都極具競爭力，達到了零樣本語音合成模型的SOTA性能水平，同時顯著減少了模型參數量，加快了推理速度。
對話語音合成模型可以根據對話文本合成雙人對話語音，是AI播客等應用的核心技術，得到了業界的廣泛關注。相對單說話人語音合成，對話語音合成需要在一句話中合成不同的說話人音色，且需實現自然且準確的說話人切換，因此更有挑戰性。

標簽： 語音合成 模型 zipvoice 小米 cmos ai dialog 語音

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

雷軍連發多條微博重申小米汽車安全是前提

“拉索”睜亮眼，破解宇宙線“膝蓋”之謎！發現黑洞是宇宙中的“超級加速器”

6G技術“突圍”：邁出商用關鍵一步

“拉索”重磅新發現！宇宙線“膝蓋”之謎竟由這類黑洞導演

紫光展銳T9300 5G發布：A78大核2.4GHz，安兔兔V10跑分55萬

“空天地一體”防線多維度賦能低空安全治理護航低空經濟發展

全站最新

雷軍連發多條微博重申小米汽車安全是前提

“拉索”睜亮眼，破解宇宙線“膝蓋”之謎！發現黑洞是宇宙中的“超級加速器”

6G技術“突圍”：邁出商用關鍵一步

“拉索”重磅新發現！宇宙線“膝蓋”之謎竟由這類黑洞導演

熱門推薦

雷軍連發多條微博重申小米汽車安全是前提

“拉索”睜亮眼，破解宇宙線“膝蓋”之謎！發現黑洞是宇宙中的“超級加速器”

6G技術“突圍”：邁出商用關鍵一步

“拉索”重磅新發現！宇宙線“膝蓋”之謎竟由這類黑洞導演

紫光展銳T9300 5G發布：A78大核2.4GHz，安兔兔V10跑分55萬

“空天地一體”防線多維度賦能低空安全治理護航低空經濟發展

華為，AI突破將發布

黑洞竟是千萬億電子伏加速器，拉索破解宇宙線“膝”形成之謎

高海拔宇宙線觀測站“拉索”首次揭示黑洞在宇宙線起源中的作用

中國“拉索”破解宇宙線起源之謎

全球限量23臺！OPPO Reno15宋雨琦限定款明天發布：專屬編號+簽名

NotebookCheck評測英特爾酷睿Ultra 7 255U處理器

站在30萬輛的山腳下，嵐圖還要面對更陡峭的挑戰

車好看是第一位和安全是前提矛盾嗎？雷軍連續發文回應質疑

AI、出海、ESG……CFO角色正在加速轉變，這些都是關鍵詞

首頁

資訊

財經號

智能車

專題

電商資訊

人物資訊

滾動資訊

首頁

新科技

新金融

新零售

智能車

房地產

科技探索

人物資訊

網絡游戲

人工智能

小米發布ZipVoice系列語音合成模型打破AI播客技術瓶頸

首頁

資訊

財經號

智能車

專題

電商資訊

人物資訊

滾動資訊

小米發布ZipVoice系列語音合成模型 打破AI播客技術瓶頸

同類資訊

小米發布ZipVoice系列語音合成模型打破AI播客技術瓶頸