阿里巴巴通義大模型宣布,其 “百聆” 系列語音模型迎來了重大升級,并正式開源。此次更新的兩款語音模型,能夠在僅需三秒的錄音后,實現無縫切換至多達九種語言和十八種方言,包括普通話、粵語、日語、英語等,同時還可以模擬多種情感如開心和憤怒。
在這次升級中,Fun-CosyVoice3模型得到了顯著改善。模型的首包延遲降低了50%,大幅提升了中英混說的準確率。此外,模型的音色克隆能力得到了增強,用戶只需提供一段三秒以上的錄音,便能復刻出相應的音色并合成新語音。此功能的開發使得實時語音助手、直播配音和無障礙閱讀等場景變得更加高效和便捷。
Fun-ASR 模型的能力同樣得到了提升,噪聲環境下的準確率達到了93%。這一模型不僅支持歌詞和說唱的識別,還可以進行多語言自由混說,覆蓋多種中文方言與口音。為了提升用戶體驗,流式識別的首字延遲已降低至160毫秒,大幅提升了語音交互的流暢性。
此外,這兩款模型均支持本地部署與二次開發,開發者可以根據自己的需求進行定制化調整。開源地址也已公布,用戶可以前往相關平臺體驗和使用這兩款語音模型,進一步推動語音技術在各個領域的應用。
GitHub:https://github.com/FunAudioLLM/CosyVoice
劃重點:



京公網安備 11011402013531號