IT之家 12 月 15 日消息,今天下午,通義大模型通過官方公眾號宣布,兩款“百聆”語音模型正式開源,兩款模型迎來升級。根據介紹,其只需 3 秒錄音,就能讓你的聲音無縫切換語種、方言與情緒 —— 普通話、粵語、日、英、開心、憤怒……9 種通用語言、18 種方言,通通搞定。
升級Fun-CosyVoice3 模型升級:首包延遲降低 50%,中英混字準確率翻倍,支持 9 語種 18 方言口音、跨語種克隆與情感控制;Fun-ASR 模型能力增強:噪聲場景準確率 93%、支持歌詞與說唱識別、31 語種自由混說、方言口音覆蓋,并將流式識別模型的首字降低到 160ms。開源Fun-CosyVoice3(0.5B)開源:提供 zero-shot 音色克隆能力,支持本地部署與二次開發;Fun-ASR-Nano(0.8B)開源:Fun-ASR 的輕量化版本,推理成本更低,模型開源,支持本地部署與定制化微調。
IT之家從官方獲悉,本次,Fun-CosyVoice3 大模型完成多項關鍵升級:
首包延遲降低 50%,支持雙向流式合成,真正實現“輸入即發聲”,適用于語音助手、直播配音、無障礙閱讀等實時場景;中英混說詞錯誤率(WER)相比之前降低 56.4%,不論是含專業術語、大小寫混排,還是語碼轉換的句子,都能精準、自然地發音;在 zero-shot TTS 評測中,內容一致性與音色相似度全面提升,復雜場景(test-hard)字符錯誤率(CER)相對降低 26%,接近人類錄音水平;9 種通用語言、18 種中文方言、9 種情感控制,并具備跨語種音色復刻能力 —— 用一段普通話錄音,即可生成粵語、日語、英語等語音,音色保持高度一致。
而開源的 Fun-CosyVoice3-0.5B 模型提供了 zero-shot 音色克隆能力,只需要你提供一段 3 秒以上的參考音頻,即可復刻其音色并合成新語音,并且支持本地部署和二次開發。
Fun-ASR 號稱能讓 AI “聽得懂”。其基于數千萬小時真實語音數據訓練,已在釘釘“AI 聽記”、視頻會議等場景中大規模落地。官方表示,該模型重點優化了嘈雜環境魯棒性、多語言自由混說、中文方言與口音覆蓋、歌詞識別、定制化能力,并將流式識別模型的首字降低到 160ms。
![]()
Fun-CosyVoice3-0.5B 開源地址:
https://github.com/FunAudioLLM/CosyVoice(GitHub)https://funaudiollm.github.io/cosyvoice3/(GitHub.io)https://www.modelscope.cn/studios/FunAudioLLM/Fun-CosyVoice3-0.5B(體驗 demo)https://modelscope.cn/models/FunAudioLLM/Fun-CosyVoice3-0.5B-2512(國內模型倉庫)https://huggingface.co/FunAudioLLM/Fun-CosyVoice3-0.5B-2512(海外模型倉庫)
Fun-ASR-Nano-0.8B 開源地址:
https://github.com/FunAudioLLM/Fun-ASR(GitHub)https://funaudiollm.github.io/funasr/(GitHub.io)https://modelscope.cn/studios/FunAudioLLM/Fun-ASR-Nano/(國內體驗 demo)https://huggingface.co/spaces/FunAudioLLM/Fun-ASR-Nano(海外體驗 demo)https://modelscope.cn/models/FunAudioLLM/fun-asr-nano-2512(國內模型倉庫)https://huggingface.co/FunAudioLLM/Fun-ASR-Nano-2512(海外模型倉庫)



京公網安備 11011402013531號