出門問問重磅發布新七代TTS 引擎TicVoice 7.0，讓AI“說人話”

IP屬地中國·北京 編輯：楊凌霄砍柴網 時間：2025-03-07 16:04:02

出門問問聯合香港科技大學、上海交通大學、南洋理工大學、西北工業大學等研究機構，共同開源新一代語音生成模型 Spark-TTS，并重磅推出了Spark-TTS 的商業化高品質 TTS 引擎：TicVoice 7.0。
TicVoice 7.0作為出門問問的第七代 TTS 引擎，能在不借助額外生成模型的輔助下（比如基于flow matching進一步預測聲學特征），僅用語言模型（序列猴子）以單階段、單流方式實現 TTS 生成。它不僅具備超自然的語音克隆與跨語種生成能力，還可根據用戶需求定制精品專屬聲音。
目前，出門問問已經將 TicVoice 7.0落地于旗下AI配音產品「魔音工坊」，為用戶帶來了更好的服務及效果體驗，包括 SOTA 的3秒語音克隆能力、更卓越的精品發音人定制效果等，在客服、有聲書、情感直播、影視解說、影視配音等應用場景下帶來更極致的用戶體驗。
TicVoice 7.0 ：開啟全新語音編碼范式，技術 Buff 疊滿
出門問問自 2012 年成立以來，便堅持在人工智能語音領域深耕，不斷迭代 TTS 引擎。憑借深厚的技術積累及先進的產品應用經驗，出門問問先后推出了「魔音工坊」「奇妙元」「元創島」等語音或搭載語音功能的產品，牢牢占據領先行業的技術與產品生態位。
近日，出門問問聯合國內外頂尖的學術研究機構香港科技大學、上海交通大學、南洋理工大學、西北工業大學，開源了新一代語音生成模型 Spark-TTS，并發布于開源社區 SparkAudio。
模型一經發布，便迅速登上 Hugging Face 趨勢榜 TTS 前二名，且增長勢頭強勁。而伴隨著相關論文的發布，Spark-TTS 再次點燃學術圈的熱情。
Spark-TTS 或者說 TicVoice 7.0 何以引發如此重大反響？最重要的原因在于，它為行業帶來了全新的語音編碼范式，且實現了建模結構與文本 LLMs 結構的高度統一：
直擊主流語音 token 痛點
TicVoice 7.0和Spark-TTS提出了一種全新的語音編碼方式，可有效解決主流語音離散編碼存在的兩大核心問題：
單碼本的語義 token 需要經過多個階段才能生成聲學特征，在大語言模型的自回歸建模過程中，難以對音色等屬性進行精準控制。
聲學編碼通常依賴多個碼本，導致模型設計復雜化，同時缺乏與語義的強關聯性，增加了預測的不確定性和難度。
BiCodec示意圖
如圖所示，BiCodec 將輸入語音編碼為互補的兩部分，即固定序列長度的 Global Token 和低碼率的 Semantic Tokens（50 TPS, token per second）：
Global Token 負責建模時序無關的全局特征（如音色），確保語音生成的全局可控性。
Semantic Tokens 以 wav2vec 2.0 提取的特征為輸入，編碼與文本緊密相關的信息，確保語義的強相關性。
這種設計使 BiCodec 既能利用 Semantic Tokens 的低碼率和強語義關聯性，同時又能在自回歸語言模型中實現對音色等屬性的精準控制，兼顧高效性與可控性。
實現建模結構與文本 LLMs 結構的高度統一
BiCodec 采用全離散、單流的編碼方式，使語音 token 的建模與文本 token 的建模完全統一：
統一的模型結構：Spark-TTS直接復用 Qwen2.5 的原生架構，并擴展其 Tokenizer 以支持語音相關 token，使 Spark-TTS 的建模方式與文本建模高度一致。
屬性控制：通過引入屬性標簽（如性別、基頻等級）和細粒度屬性值（如精確基頻），Spark-TTS 以文本+屬性標簽為輸入，采用鏈式思考（CoT, Chain of Thought）的方式，依次預測細粒度屬性值 → Global Tokens → Semantic Tokens，從而實現音色生成高度可控。
Spark-TTS的語言模型示意圖
再度刷新行業語音克隆能力標準，極大提升用戶體驗
TicVoice 7.0展現出卓越的語音克隆能力，尤其在跨語言聲音克隆方面表現出色。我們分別將其與出門問問上一代產品 MeetVoice Pro及國內外優秀的同類產品做了評測，發現 TicVoice 7.0在“3秒克隆”和“至臻Pro-精品發音人”方面領先優勢明顯。
讓 AI “說人話”，大大提升情感表現力
TicVoice 7.0能夠在3秒內敏銳地捕捉聲紋特征，讓AI不僅能“說人話”，更能模仿人類的嘆息、停頓。相比上一代的語音大模型，TicVoice 7.0的效果得到全面提升，3秒克隆經評測，其國際通用 MOS 評分從 3.9 提升至 4.2。其在音色相似度、情感表現以及穩定性上都有近10%的提升。總體而言，新一代語音大模型在聽感上更自然、更悅耳、更穩定、情感表現力更強，可有效提升用戶在客服、情感直播、有聲書等場景的體驗。
個性化定制更加精準，輕松獲得播音級配音體驗
TicVoice 7.0支持用戶通過調整性別、語速、基頻等多種屬性（即將上線），精準塑造獨特的聲音風格。尤其在“至臻 Pro-精品發音人”定制方面，用戶可通過 20-200句語料獲得獲得播音級的專業配音體驗。
相比上一代的語音大模型，TicVoice 7.0在國際通用 MOS 分數上從 4.3 提升至 4.7。這意味著語音生成效果非常自然的，語音達到了廣播級水平，普通人很難區分合成語音和廣播語音的區別。總體而言，新一代語音大模型的語音更加清晰流暢、悅耳動聽、容易理解、易于接受，可真正應用于影視/游戲角色配音等場景，為定制用戶帶來專業級體驗。
TicVoice 7.0的發布不僅標志著出門問問在人工智能語音生成領域的又一次重大突破，更通過開源生態與產學研深度協同，為行業發展注入了新動能。
未來，出門問問將持續深化與頂尖學術機構的合作，不斷提升用戶的產品體驗，探索語音生成技術與多模態 AI 的融合邊界，從“聽得懂”到“聽得真”，從“能表達”到“有情感”，讓 AI 真正成為人類情感與智慧的延伸。

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

Windows 11任務欄至今仍無法自由移動！微軟終于給出原因：沒用舊代碼

東安動力首臺轉子發動機R05E點火成功，2027年量產

挑戰液態海洋共識：NASA研究稱土衛六含太陽系最大“冰沙”

曝TikTok交易達成，美國和字節跳動各掌握一家公司

AI賦能流程神州數碼汽車行業AI 應用落地研討會在滬舉辦

希迪智駕港交所上市，成港股首家商用車智能駕駛公司

全站最新

Windows 11任務欄至今仍無法自由移動！微軟終于給出原因：沒用舊代碼

東安動力首臺轉子發動機R05E點火成功，2027年量產

挑戰液態海洋共識：NASA研究稱土衛六含太陽系最大“冰沙”

曝TikTok交易達成，美國和字節跳動各掌握一家公司

熱門推薦

Windows 11任務欄至今仍無法自由移動！微軟終于給出原因：沒用舊代碼

東安動力首臺轉子發動機R05E點火成功，2027年量產

挑戰液態海洋共識：NASA研究稱土衛六含太陽系最大“冰沙”

曝TikTok交易達成，美國和字節跳動各掌握一家公司

AI賦能流程神州數碼汽車行業AI 應用落地研討會在滬舉辦

希迪智駕港交所上市，成港股首家商用車智能駕駛公司

千問App辟謠：全員大會集體吃豆包圖是AI生成的

你的“大廠經驗”，在AI面前可能一文不值

科學與健康|改寫生命演化史！2025我國古生物學研究在多領域取得突破

他設計的手機賣了1.5億臺 | 我們的四分之一世紀

VEX機器人亞洲公開賽在京開幕，全球近30國青少年選手參賽

拼多多：趙佳臻獲任聯席董事長，與陳磊共同擔任集團聯席董事長兼聯席CEO

小米汽車已獲L3級自動駕駛道路測試牌照開展了常態化道路測試

上海無人駕駛“警車”試點自動抓拍違停

火山引擎日均50萬億token，不如隨手賣GPU賺得多？