記者9月20日從喜馬拉雅獲悉,在近日上海網信辦發布的最新一批上海市生成式大模型備案通過名單中,喜馬拉雅音頻大模型與米哈游、閱文集團的筑夢島等文本大模型共同通過了備案,成為全國首個通過備案的音頻生成類大模型。
據悉,喜馬拉雅音頻大模型是全球首個第四代多情感演繹、超自然表達的音頻生成大模型。
該模型是珠峰AI團隊基于自研文本音頻聯合建模的LLM框架,在同一空間向量表征下實現音頻與文本的聯合建模訓練。通過訓練可實現15秒音色克隆能力和聲音轉換能力;超擬人、多情感、對齊人類偏好的語音生成;高可控風格和副語言能力等。
研發團隊對訓練好的模型進行評估發現,在長音頻內容如有聲小說的場景下,該音頻大模型在角色演繹風格的可控性、音素表現的穩定性、語流韻律停頓等的自然度上顯著高于國內外第三代音頻生成模型。
據悉,喜馬拉雅音頻大模型踐行“產模結合”的范式,通過模型結合產業形成業務、數據、算法的正反饋循環。其在AIGC有聲書、Chat對話式交互等業務場景上廣泛使用,諸如最近爆火的有聲書我的阿勒泰就是由音頻大模型生成。珠峰AI表示,音頻大模型能力已經在珠峰AI官網上可以直接體驗使用,用戶可以直接創作自己的音頻內容。
客戶端
記者:趙語涵






京公網安備 11011402013531號