在AI語音合成領域的巔峰對決中,來自廣州爍谷科技的自研Vocu V3(海外版,國內版名為悟聲)系列語音合成模型,登頂全球榜首!
全球AI權威平臺HuggingFace最新TTS Arena榜單顯示,經過全球用戶海量盲測,Vocu V3憑借語音質量、情感表現力,位列語音評測榜第一,超越美國知名獨角獸廠商Inworld、英國語音獨角獸Eleven Labs等。在該榜單上,來自上海的MiniMax位居第7,阿里通義CosyVoice2.0排在第24位。
![]()
全球AI權威平臺HuggingFace最新TTS Arena榜單上,廣州爍谷科技自研Vocu V3模型位居第一。
問鼎語音合成“試金石”榜單榜首
TTS Arena號稱全球AI語音合成領域的“終極擂臺”,其革命性在于徹底顛覆傳統評測體系。過去,行業多依賴字錯率等冰冷數據或小范圍主觀評分,難以甄別頂尖模型間的細微差距。而HuggingFace TTS Arena引入類似國際象棋的Elo社區評分機制:全球用戶隨機聽取兩款模型的合成音頻后進行匿名投票,憑借最直接的主觀偏好決出高下。這種基于海量真實反饋、動態更新的排行榜,成為全球公認的衡量語音合成技術實力“試金石”。
南方都市報、南都大數據研究院了解到,此次登頂全球第一的爍谷科技Vocu V3新一代語音合成模型,2025年10月發布,上線3個月用戶量突破百萬大關。其核心驅動是自研的“悟聲”語音合成算法,實現了從“感知文本”到“再生語音”的關鍵跨越,能深度理解文本語義與情感脈絡,自動匹配動漫、商務、影視劇等豐富音色與口音,精準演繹細膩的情感起伏。在音色克隆方面,僅需3秒聲音樣本,即可實現瞬時克隆,相似度高達99.5%以上。
據悉,“悟聲”語音合成算法已通過“深度合成服務算法備案”,在智能客服、媒體創作、文旅數字人、互動娛樂等眾多領域落地應用。目前,悟聲語音合成算法V3.1版本也正式發布,專業克隆與音色轉換能力進一步升級,全面支持中文、英語、韓語、法語、德語、西班牙語、葡萄牙語等全球數十種語言,以及粵語等方言,在情感張力、相似度、穩定性、自然度、語義理解能力等方面表現領先,達到影視級性能。網友們評價其“擬人化很厲害,比起千篇一律的機械音生動太多”“多語言跨語言無縫支持”等。
![]()
廣州爍谷科技有限公司創始人謝偉鐸向英偉達全球副總裁及管理層團隊介紹產品與技術愿景。
讓AI語音承載更多情感與溫度
如何讓語音合成聲音更加擬人化,更富有人類情感?爍谷科技表示,主要源于其在數據、算法上的雙重深耕。在數據采集環節,構建全鏈路全球化自研管道,內嵌AI模型智能把關數據質量與情感提取,為模型訓練提供“精品教材”。算法層面,持續迭代升級,對底層技術的重投入使模型具備“舉一反三”能力,能挖掘數據深層關聯,提升表達的豐富性、生動性。
除AI生成能力外,爍谷科技還構建了“創造—應用—守護”的安全閉環,嘗試解決音頻深度合成的潛在風險。憑借自研的VocaMark音頻隱形水印技術與VocaAntiFake音頻鑒偽專家大模型,實現對AI生成音頻的無痕溯源與高精度鑒別,并能抵御翻錄、剪輯等惡意混淆攻擊手段。
2025年10月24日,據《廣東省生成式人工智能服務已備案信息公告》,爍谷科技自研的另一款大模型“元語文字”正式通過生成式人工智能服務備案。據悉,由“元語文字”驅動的AI虛擬主播“木幾萌”,2023年初發布后曾登上多個平臺全站熱榜前十,其粉絲總量至今仍超過其他所有同類競品的總和。
爍谷科技創始人謝偉鐸表示,團隊將繼續深耕技術創新,讓AI語音承載更多情感與溫度,為全球語音合成領域的發展持續貢獻智慧與方案。目前爍谷科技已獲奇績創壇的種子輪投資,以及多家機構算力支持,正與頂級資本與產業巨頭緊密接洽Pre-A輪融資。
采寫:南都N視頻記者 袁炯賢(受訪者供圖)





京公網安備 11011402013531號