4 月 24 日消息,由兩名韓國研究者組建的 Nari Labs 工作室于前天在 GitHub 和 Hugging Face 開源了擁有 16 億參數(shù)的文字轉(zhuǎn)語音 AI 模型 Dia,目前相應(yīng)模型已在 GitHub 上收獲了超過 9300 顆星標(biāo),附項目 GitHub 頁如下:https://github.com/nari-labs/dia

相應(yīng)研究者聲稱 Dia 的音質(zhì)相對于業(yè)界的文字轉(zhuǎn)語音模型擁有更靈活的自由度,同時在生成的語音自然度方面超越了 ElevenLabs Studio、Sesame 等競品。其支持對輸出音頻的音色、情緒和語調(diào)進行精細調(diào)節(jié),還能模擬各種非語言交流(如大笑、咳嗽或清嗓子等)。
官方對比測試顯示,Dia 在聲調(diào)自然度、表情豐富度和語音節(jié)奏感方面,均優(yōu)于專注自然語音合成的 ElevenLabs Studio 以及 Sesame 推出的對話語音模型 CSM-1B。
目前,Dia 僅支持英文,需要英偉達 RTX 3080 及以上顯卡才能本地部署運行,不過用戶也可以在 Hugging Face Spaces 線上平臺中在線使用。Nari Labs 表示,后續(xù)將推出面向普通消費者的一鍵部署服務(wù),進一步降低使用門檻,讓更多人無縫體驗高質(zhì)量文本轉(zhuǎn)語音技術(shù)。





京公網(wǎng)安備 11011402013531號