阿里通義Qwen3-TTS模型家族上新：聲音不僅能復(fù)制，還可以定制

IP屬地中國·北京 IT之家 時(shí)間：2025-12-24 20:23:42

IT之家 12 月 24 日消息，阿里通義今日官宣，Qwen3-TTS 家族新推出兩款模型，音色創(chuàng)造模型 Qwen3-TTS-VD-Flash 和音色克隆模型 Qwen3-TTS-VC-Flash。IT之家附模型主要特點(diǎn)如下：
音色創(chuàng)造：Qwen3-TTS-VD-Flash 支持復(fù)雜自然語言指令輸入，實(shí)現(xiàn)對音色、韻律、情感、人設(shè)等的精細(xì)化調(diào)控，實(shí)現(xiàn)從“說什么”到“如何說”的全面掌控，可以讓用戶自由地定義想要的音色，徹底擺脫只能進(jìn)行根據(jù)已有的音色進(jìn)行克隆或者只能選擇固定的一部分預(yù)設(shè)音色。在 InstructTTS-eval 中綜合表現(xiàn)顯著優(yōu)于 GPT-4o-mini-tts、Mimo-audio-7b-instruct，在角色扮演測試中也超越 Gemini-2.5-pro-preview-tts。音色克隆：Qwen3-TTS-VC-Flash 支持 3s 級別音色克隆，并且可以基于克隆的音色生成中文、英文、德語、意大利語、葡萄牙語、西班牙語、日語、韓語、法語、俄語等 10 大主流語言。在 MiniMax TTS Multilingual Test Set 上，平均詞錯(cuò)誤率（WER）全面優(yōu)于 MiniMax、ElevenLabs 及 GPT-4o-Audio-Preview。高表現(xiàn)力：Qwen3-TTS-VD-Flash 和 Qwen3-TTS-VC-Flash 具備高表現(xiàn)力的擬人化音色，能夠穩(wěn)定、可靠地輸出高度契合輸入文本的語音內(nèi)容，并根據(jù)文本語義自動(dòng)調(diào)節(jié)語氣節(jié)奏，呈現(xiàn)自然生動(dòng)的表達(dá)效果。魯棒的文本能力：Qwen3-TTS-VD-Flash 和 Qwen3-TTS-VC-Flash 具備強(qiáng)大的文本解析能力，可自動(dòng)處理復(fù)雜文本結(jié)構(gòu)，精準(zhǔn)提取關(guān)鍵信息，對多樣化、非規(guī)范化的文本格式展現(xiàn)出較強(qiáng)的魯棒性（IT之家注：robustness，系統(tǒng)在面臨內(nèi)部結(jié)構(gòu)或外部環(huán)境的改變時(shí)維持功能穩(wěn)定運(yùn)行的能力）。Qwen3-TTS-VD-Flash
Qwen3-TTS 支持通過自然語言描述生成定制化的音色形象。用戶可以隨意輸入聲學(xué)屬性、人設(shè)描述、背景信息等自由描述，輕松創(chuàng)造出自己期望的聲音形象。
可控生成：在 InstructTTS-eval 中，Qwen3-TTS 綜合表現(xiàn)顯著優(yōu)于 GPT-4o-mini-tts、Mimo-audio-7b-instruct，在角色扮演測試中也超越 Gemini-2.5-pro-preview-tts。

Qwen3-TTS-VC-Flash
Qwen3-TTS 支持通過自然 3s 級別音色克隆，并且可以基于克隆的音色生成多語種音頻，同時(shí)對復(fù)雜文本和野生音頻都有較高的魯棒性。
多語種音色克隆：在 MiniMax TTS Multilingual Test Set 上，Qwen3-TTS 在中、英、法、意大利等語項(xiàng)的內(nèi)容穩(wěn)定性優(yōu)于 MiniMax、ElevenLabs 及 GPT-4o-Audio-Preview；其平均詞錯(cuò)誤率（WER）位居第一。

Qwen3-TTS-Voice-Design API 文檔：
Qwen3-TTS-Voice-Clone API 文檔：

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

有高校科技成果轉(zhuǎn)化金額年增70倍，上海賦權(quán)改革讓“紙”變“錢”

在海南，與世界分享“一粒種子”的中國方案

華為又一次全國首個(gè)：實(shí)測能讓5G上行提升數(shù)倍

廣汽L3級自動(dòng)駕駛進(jìn)入實(shí)證階段：測試時(shí)速最高可達(dá)120km/h

從概念走向現(xiàn)實(shí)，南京何以邁向“6G之城”？

我國渤海再獲重大勘探成果，7年來發(fā)現(xiàn)7個(gè)億噸級油田

全站最新

有高校科技成果轉(zhuǎn)化金額年增70倍，上海賦權(quán)改革讓“紙”變“錢”

在海南，與世界分享“一粒種子”的中國方案

華為又一次全國首個(gè)：實(shí)測能讓5G上行提升數(shù)倍

廣汽L3級自動(dòng)駕駛進(jìn)入實(shí)證階段：測試時(shí)速最高可達(dá)120km/h

熱門推薦

有高校科技成果轉(zhuǎn)化金額年增70倍，上海賦權(quán)改革讓“紙”變“錢”

星源卓鎂獲新能源汽車廠商5.75億元訂單，預(yù)計(jì)2027年第一季度開始量產(chǎn)

從工具升級到生態(tài)重塑：智能體開啟銀行業(yè)“人機(jī)共生”新圖景

在海南，與世界分享“一粒種子”的中國方案

華為又一次全國首個(gè)：實(shí)測能讓5G上行提升數(shù)倍

廣汽L3級自動(dòng)駕駛進(jìn)入實(shí)證階段：測試時(shí)速最高可達(dá)120km/h

從概念走向現(xiàn)實(shí)，南京何以邁向“6G之城”？

我國渤海再獲重大勘探成果，7年來發(fā)現(xiàn)7個(gè)億噸級油田

對科技圈，小紅書是個(gè)「新綠洲」

釘釘為AI打造“身體”

第八屆全國航天飛行動(dòng)力學(xué)技術(shù)研討會(huì)第一輪會(huì)議通知

消息稱豆包日活已破1億，系字節(jié)“億級App”產(chǎn)品中花費(fèi)最低

新職業(yè)故事丨跨境電商運(yùn)營管理師：用網(wǎng)絡(luò)“鋪路” 助國貨“走”向全球

記者手記：一場特殊的項(xiàng)目遴選會(huì)，為科學(xué)奇思鼓勁

東方甄選大換帥！董宇輝早已單飛，19年老將孫進(jìn)如何破局？