通義百聆迎來重磅升級 Fun-CosyVoice3(0.5B)正式開源可實現極速克隆音色

IP屬地中國·北京 智通財經 時間：2025-12-15 18:22:11

智通財經APP獲悉，12月15日，“通義大模型”微信公眾號發文表示，通義百聆語音模型再升級，本次發布包括：Fun-CosyVoice3模型升級，首包延遲降低50%，中英混字準確率翻倍，支持9語種 18方言口音、跨語種克隆與情感控制；Fun-CosyVoice3(0.5B)正式開源，該版本提供了zero-shot音色克隆能力，只需要提供一段3秒以上的參考音頻，即可復刻其音色并合成新語音，并且支持本地部署和二次開發。此外，通義推出輕量化版本Fun-ASR-Nano模型，總參數量壓縮到0.8B，推理成本更低，現已開源，支持本地部署與定制化微調。
通義團隊稱，本次Fun-CosyVoice3大模型完成多項關鍵升級：
首包延遲降低50%，支持雙向流式合成，真正實現“輸入即發聲”，適用于語音助手、直播配音、無障礙閱讀等實時場景；
中英混說詞錯誤率(WER)相比之前降低 56.4%，不論是含專業術語、大小寫混排，還是語碼轉換的句子，都能精準、自然地發音；
在 zero-shot TTS評測中，內容一致性與音色相似度全面提升，復雜場景(test-hard)字符錯誤率(CER)相對降低 26%，接近人類錄音水平；
9種通用語言、18種中文方言、9種情感控制，并具備跨語種音色復刻能力——用一段普通話錄音，即可生成粵語、日語、英語等語音，音色保持高度一致。
Fun-ASR模型能力同樣得到了增強。作為通義百聆推出的端到端語音識別大模型，Fun-ASR 基于數千萬小時真實語音數據訓練，已在釘釘“AI聽記”、視頻會議等場景中大規模落地。本次，通義對 Fun-ASR 的核心能力進行了全面升級，重點優化了嘈雜環境魯棒性、多語言自由混說、中文方言與口音覆蓋、歌詞識別、定制化能力，并將流式識別模型的首字降低到160ms。

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

無汞時代！晶華微紅外測溫芯片，筑牢體溫監測 “安全新防線”

脈脈高聘：AI科學家平均月薪達到12.7萬元

路透：特斯拉董事借股票獎勵大賺逾30億美元遠超其他科技巨頭

李國慶60歲再創業：成立「李享生活」，定位線上高端會員店

今日大廠員工事：百度南遷、貝殼調架構，大廠年末人事與業務動態速遞

攜程受害者，開始反擊

全站最新

無汞時代！晶華微紅外測溫芯片，筑牢體溫監測 “安全新防線”

脈脈高聘：AI科學家平均月薪達到12.7萬元

路透：特斯拉董事借股票獎勵大賺逾30億美元遠超其他科技巨頭

李國慶60歲再創業：成立「李享生活」，定位線上高端會員店

熱門推薦

無汞時代！晶華微紅外測溫芯片，筑牢體溫監測 “安全新防線”

脈脈高聘：AI科學家平均月薪達到12.7萬元

路透：特斯拉董事借股票獎勵大賺逾30億美元遠超其他科技巨頭

李國慶60歲再創業：成立「李享生活」，定位線上高端會員店

今日大廠員工事：百度南遷、貝殼調架構，大廠年末人事與業務動態速遞

攜程受害者，開始反擊

超10000家門店的蜜雪冰城，又盯上了早餐店

番茄紅果，字節再造“文化工廠”

飛天茅臺批發價波動背后：茅臺擬取消分銷計劃、縮減非標產品，2026年或放寬招商門檻

爭議藥物\"九期一\"獲新生？復星醫藥14億元收購綠谷醫藥重啟臨床與商業化

億緯鋰能、福田汽車在北京成立新能源科技公司

阿里通義百聆開源兩個語音大模型

?一行AI指令摧毀整臺Mac！Claude CLI工具誤刪用戶主目錄，開發者多年心血瞬間清零

?阿里推出新語音模型“百聆”：三秒錄音實現多語言與情感切換

未來的 AI 在盯著你！Andrej Karpathy 的 Hacker News 十年回顧實驗

首頁

資訊

財經號

智能車

專題

電商資訊

人物資訊

滾動資訊

首頁

新科技

新金融

新零售

智能車

房地產

科技探索

人物資訊

網絡游戲

人工智能

通義百聆迎來重磅升級 Fun-CosyVoice3(0.5B)正式開源可實現極速克隆音色

首頁

資訊

財經號

智能車

專題

電商資訊

人物資訊

滾動資訊

通義百聆迎來重磅升級 Fun-CosyVoice3(0.5B)正式開源 可實現極速克隆音色

同類資訊

通義百聆迎來重磅升級 Fun-CosyVoice3(0.5B)正式開源可實現極速克隆音色