出門問問聯合香港科技大學、上海交通大學、南洋理工大學、西北工業大學等研究機構,共同開源新一代語音生成模型 Spark-TTS,并重磅推出了Spark-TTS 的商業化高品質 TTS 引擎:TicVoice 7.0。
TicVoice 7.0作為出門問問的第七代 TTS 引擎,能在不借助額外生成模型的輔助下(比如基于flow matching進一步預測聲學特征),僅用語言模型(序列猴子)以單階段、單流方式實現 TTS 生成。它不僅具備超自然的語音克隆與跨語種生成能力,還可根據用戶需求定制精品專屬聲音。
目前,出門問問已經將 TicVoice 7.0落地于旗下AI配音產品「魔音工坊」,為用戶帶來了更好的服務及效果體驗,包括 SOTA 的3秒語音克隆能力、更卓越的精品發音人定制效果等,在客服、有聲書、情感直播、影視解說、影視配音等應用場景下帶來更極致的用戶體驗。
TicVoice 7.0 :開啟全新語音編碼范式,技術 Buff 疊滿
出門問問自 2012 年成立以來,便堅持在人工智能語音領域深耕,不斷迭代 TTS 引擎。憑借深厚的技術積累及先進的產品應用經驗,出門問問先后推出了「魔音工坊」「奇妙元」「元創島」等語音或搭載語音功能的產品,牢牢占據領先行業的技術與產品生態位。

近日,出門問問聯合國內外頂尖的學術研究機構香港科技大學、上海交通大學、南洋理工大學、西北工業大學,開源了新一代語音生成模型 Spark-TTS,并發布于開源社區 SparkAudio。

模型一經發布,便迅速登上 Hugging Face 趨勢榜 TTS 前二名,且增長勢頭強勁。而伴隨著相關論文的發布,Spark-TTS 再次點燃學術圈的熱情。

Spark-TTS 或者說 TicVoice 7.0 何以引發如此重大反響? 最重要的原因在于,它為行業帶來了全新的語音編碼范式,且實現了建模結構與文本 LLMs 結構的高度統一:
直擊主流語音 token 痛點
TicVoice 7.0和Spark-TTS提出了一種全新的語音編碼方式,可有效解決主流語音離散編碼存在的兩大核心問題:
單碼本的語義 token 需要經過多個階段才能生成聲學特征,在大語言模型的自回歸建模過程中,難以對音色等屬性進行精準控制。
聲學編碼通常依賴多個碼本,導致模型設計復雜化,同時缺乏與語義的強關聯性,增加了預測的不確定性和難度。

BiCodec示意圖
如圖所示,BiCodec 將輸入語音編碼為互補的兩部分,即固定序列長度的 Global Token 和低碼率的 Semantic Tokens(50 TPS, token per second):
Global Token 負責建模時序無關的全局特征(如音色),確保語音生成的全局可控性。
Semantic Tokens 以 wav2vec 2.0 提取的特征為輸入,編碼與文本緊密相關的信息,確保語義的強相關性。
這種設計使 BiCodec 既能利用 Semantic Tokens 的低碼率和強語義關聯性,同時又能在自回歸語言模型中實現對音色等屬性的精準控制,兼顧高效性與可控性。
實現建模結構與文本 LLMs 結構的高度統一
BiCodec 采用全離散、單流的編碼方式,使語音 token 的建模與文本 token 的建模完全統一:
統一的模型結構:Spark-TTS直接復用 Qwen2.5 的原生架構,并擴展其 Tokenizer 以支持語音相關 token,使 Spark-TTS 的建模方式與文本建模高度一致。
屬性控制:通過引入屬性標簽(如性別、基頻等級)和細粒度屬性值(如精確基頻),Spark-TTS 以文本+屬性標簽為輸入,采用鏈式思考(CoT, Chain of Thought)的方式,依次預測細粒度屬性值 → Global Tokens → Semantic Tokens,從而實現音色生成高度可控。

Spark-TTS的語言模型示意圖
再度刷新行業語音克隆能力標準,極大提升用戶體驗
TicVoice 7.0展現出卓越的語音克隆能力,尤其在跨語言聲音克隆方面表現出色。我們分別將其與出門問問上一代產品 MeetVoice Pro及國內外優秀的同類產品做了評測,發現 TicVoice 7.0在“3秒克隆”和“至臻Pro-精品發音人”方面領先優勢明顯。
讓 AI “說人話”,大大提升情感表現力
TicVoice 7.0能夠在3秒內敏銳地捕捉聲紋特征,讓AI不僅能“說人話”,更能模仿人類的嘆息、停頓。相比上一代的語音大模型,TicVoice 7.0的效果得到全面提升,3秒克隆經評測,其國際通用 MOS 評分從 3.9 提升至 4.2。其在音色相似度、情感表現以及穩定性上都有近10%的提升。總體而言,新一代語音大模型在聽感上更自然、更悅耳、更穩定、情感表現力更強,可有效提升用戶在客服、情感直播、有聲書等場景的體驗。
個性化定制更加精準,輕松獲得播音級配音體驗
TicVoice 7.0支持用戶通過調整性別、語速、基頻等多種屬性(即將上線),精準塑造獨特的聲音風格。尤其在“至臻 Pro-精品發音人”定制方面,用戶可通過 20-200句語料獲得獲得播音級的專業配音體驗。
相比上一代的語音大模型,TicVoice 7.0在國際通用 MOS 分數上從 4.3 提升至 4.7。這意味著語音生成效果非常自然的,語音達到了廣播級水平,普通人很難區分合成語音和廣播語音的區別。總體而言,新一代語音大模型的語音更加清晰流暢、悅耳動聽、容易理解、易于接受,可真正應用于影視/游戲角色配音等場景,為定制用戶帶來專業級體驗。
TicVoice 7.0的發布不僅標志著出門問問在人工智能語音生成領域的又一次重大突破,更通過開源生態與產學研深度協同,為行業發展注入了新動能。
未來,出門問問將持續深化與頂尖學術機構的合作,不斷提升用戶的產品體驗,探索語音生成技術與多模態 AI 的融合邊界,從“聽得懂”到“聽得真”,從“能表達”到“有情感”,讓 AI 真正成為人類情感與智慧的延伸。





京公網安備 11011402013531號