智通財經APP獲悉,12月15日,“通義大模型”微信公眾號發文表示,通義百聆語音模型再升級,本次發布包括:Fun-CosyVoice3模型升級,首包延遲降低50%,中英混字準確率翻倍,支持9語種 18方言口音、跨語種克隆與情感控制;Fun-CosyVoice3(0.5B)正式開源,該版本提供了zero-shot音色克隆能力,只需要提供一段3秒以上的參考音頻,即可復刻其音色并合成新語音,并且支持本地部署和二次開發。此外,通義推出輕量化版本Fun-ASR-Nano模型,總參數量壓縮到0.8B,推理成本更低,現已開源,支持本地部署與定制化微調。
通義團隊稱,本次Fun-CosyVoice3大模型完成多項關鍵升級:
首包延遲降低50%,支持雙向流式合成,真正實現“輸入即發聲”,適用于語音助手、直播配音、無障礙閱讀等實時場景;
中英混說詞錯誤率(WER)相比之前降低 56.4%,不論是含專業術語、大小寫混排,還是語碼轉換的句子,都能精準、自然地發音;
在 zero-shot TTS評測中,內容一致性與音色相似度全面提升,復雜場景(test-hard)字符錯誤率(CER)相對降低 26%,接近人類錄音水平;
9種通用語言、18種中文方言、9種情感控制,并具備跨語種音色復刻能力——用一段普通話錄音,即可生成粵語、日語、英語等語音,音色保持高度一致。
Fun-ASR模型能力同樣得到了增強。作為通義百聆推出的端到端語音識別大模型,Fun-ASR 基于數千萬小時真實語音數據訓練,已在釘釘“AI聽記”、視頻會議等場景中大規模落地。本次,通義對 Fun-ASR 的核心能力進行了全面升級,重點優化了嘈雜環境魯棒性、多語言自由混說、中文方言與口音覆蓋、歌詞識別、定制化能力,并將流式識別模型的首字降低到160ms。




京公網安備 11011402013531號