?阿里推出新語音模型“百聆”：三秒錄音實現多語言與情感切換

IP屬地中國·北京 編輯：陸辰風 Chinaz 時間：2025-12-15 18:24:54

阿里巴巴通義大模型宣布，其 “百聆” 系列語音模型迎來了重大升級，并正式開源。此次更新的兩款語音模型，能夠在僅需三秒的錄音后，實現無縫切換至多達九種語言和十八種方言，包括普通話、粵語、日語、英語等，同時還可以模擬多種情感如開心和憤怒。
在這次升級中，Fun-CosyVoice3模型得到了顯著改善。模型的首包延遲降低了50%，大幅提升了中英混說的準確率。此外，模型的音色克隆能力得到了增強，用戶只需提供一段三秒以上的錄音，便能復刻出相應的音色并合成新語音。此功能的開發使得實時語音助手、直播配音和無障礙閱讀等場景變得更加高效和便捷。
Fun-ASR 模型的能力同樣得到了提升，噪聲環境下的準確率達到了93%。這一模型不僅支持歌詞和說唱的識別，還可以進行多語言自由混說，覆蓋多種中文方言與口音。為了提升用戶體驗，流式識別的首字延遲已降低至160毫秒，大幅提升了語音交互的流暢性。
此外，這兩款模型均支持本地部署與二次開發，開發者可以根據自己的需求進行定制化調整。開源地址也已公布，用戶可以前往相關平臺體驗和使用這兩款語音模型，進一步推動語音技術在各個領域的應用。
GitHub:https://github.com/FunAudioLLM/CosyVoice
劃重點:

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

脈脈高聘：AI科學家平均月薪達到12.7萬元

路透：特斯拉董事借股票獎勵大賺逾30億美元遠超其他科技巨頭

李國慶60歲再創業：成立「李享生活」，定位線上高端會員店

今日大廠員工事：百度南遷、貝殼調架構，大廠年末人事與業務動態速遞

攜程受害者，開始反擊

谷歌Tensor G6芯片前瞻：或借鑒天璣9500提升性能

全站最新

脈脈高聘：AI科學家平均月薪達到12.7萬元

路透：特斯拉董事借股票獎勵大賺逾30億美元遠超其他科技巨頭

李國慶60歲再創業：成立「李享生活」，定位線上高端會員店

今日大廠員工事：百度南遷、貝殼調架構，大廠年末人事與業務動態速遞

熱門推薦

脈脈高聘：AI科學家平均月薪達到12.7萬元

路透：特斯拉董事借股票獎勵大賺逾30億美元遠超其他科技巨頭

李國慶60歲再創業：成立「李享生活」，定位線上高端會員店

今日大廠員工事：百度南遷、貝殼調架構，大廠年末人事與業務動態速遞

攜程受害者，開始反擊

超10000家門店的蜜雪冰城，又盯上了早餐店

番茄紅果，字節再造“文化工廠”

飛天茅臺批發價波動背后：茅臺擬取消分銷計劃、縮減非標產品，2026年或放寬招商門檻

爭議藥物\"九期一\"獲新生？復星醫藥14億元收購綠谷醫藥重啟臨床與商業化

億緯鋰能、福田汽車在北京成立新能源科技公司

阿里通義百聆開源兩個語音大模型

?一行AI指令摧毀整臺Mac！Claude CLI工具誤刪用戶主目錄，開發者多年心血瞬間清零

?阿里推出新語音模型“百聆”：三秒錄音實現多語言與情感切換

未來的 AI 在盯著你！Andrej Karpathy 的 Hacker News 十年回顧實驗

千問App校園走紅：功能全免費，學生一年省下一個iPad