IT之家 12 月 24 日消息,阿里通義今日官宣,Qwen3-TTS 家族新推出兩款模型,音色創(chuàng)造模型 Qwen3-TTS-VD-Flash 和音色克隆模型 Qwen3-TTS-VC-Flash。IT之家附模型主要特點(diǎn)如下:
音色創(chuàng)造:Qwen3-TTS-VD-Flash 支持復(fù)雜自然語言指令輸入,實(shí)現(xiàn)對音色、韻律、情感、人設(shè)等的精細(xì)化調(diào)控,實(shí)現(xiàn)從“說什么”到“如何說”的全面掌控,可以讓用戶自由地定義想要的音色,徹底擺脫只能進(jìn)行根據(jù)已有的音色進(jìn)行克隆或者只能選擇固定的一部分預(yù)設(shè)音色。在 InstructTTS-eval 中綜合表現(xiàn)顯著優(yōu)于 GPT-4o-mini-tts、Mimo-audio-7b-instruct,在角色扮演測試中也超越 Gemini-2.5-pro-preview-tts。音色克隆:Qwen3-TTS-VC-Flash 支持 3s 級別音色克隆,并且可以基于克隆的音色生成中文、英文、德語、意大利語、葡萄牙語、西班牙語、日語、韓語、法語、俄語等 10 大主流語言。在 MiniMax TTS Multilingual Test Set 上,平均詞錯(cuò)誤率(WER)全面優(yōu)于 MiniMax、ElevenLabs 及 GPT-4o-Audio-Preview。高表現(xiàn)力:Qwen3-TTS-VD-Flash 和 Qwen3-TTS-VC-Flash 具備高表現(xiàn)力的擬人化音色,能夠穩(wěn)定、可靠地輸出高度契合輸入文本的語音內(nèi)容,并根據(jù)文本語義自動(dòng)調(diào)節(jié)語氣節(jié)奏,呈現(xiàn)自然生動(dòng)的表達(dá)效果。魯棒的文本能力:Qwen3-TTS-VD-Flash 和 Qwen3-TTS-VC-Flash 具備強(qiáng)大的文本解析能力,可自動(dòng)處理復(fù)雜文本結(jié)構(gòu),精準(zhǔn)提取關(guān)鍵信息,對多樣化、非規(guī)范化的文本格式展現(xiàn)出較強(qiáng)的魯棒性(IT之家注:robustness,系統(tǒng)在面臨內(nèi)部結(jié)構(gòu)或外部環(huán)境的改變時(shí)維持功能穩(wěn)定運(yùn)行的能力)。Qwen3-TTS-VD-Flash
Qwen3-TTS 支持通過自然語言描述生成定制化的音色形象。用戶可以隨意輸入聲學(xué)屬性、人設(shè)描述、背景信息等自由描述,輕松創(chuàng)造出自己期望的聲音形象。
可控生成:在 InstructTTS-eval 中,Qwen3-TTS 綜合表現(xiàn)顯著優(yōu)于 GPT-4o-mini-tts、Mimo-audio-7b-instruct,在角色扮演測試中也超越 Gemini-2.5-pro-preview-tts。
![]()
Qwen3-TTS-VC-Flash
Qwen3-TTS 支持通過自然 3s 級別音色克隆,并且可以基于克隆的音色生成多語種音頻,同時(shí)對復(fù)雜文本和野生音頻都有較高的魯棒性。
多語種音色克隆:在 MiniMax TTS Multilingual Test Set 上,Qwen3-TTS 在中、英、法、意大利等語項(xiàng)的內(nèi)容穩(wěn)定性優(yōu)于 MiniMax、ElevenLabs 及 GPT-4o-Audio-Preview;其平均詞錯(cuò)誤率(WER)位居第一。
![]()
Qwen3-TTS-Voice-Design API 文檔:
Qwen3-TTS-Voice-Clone API 文檔:





京公網(wǎng)安備 11011402013531號(hào)