在TechCrunch Disrupt2025大會上,AI語音巨頭ElevenLabs聯(lián)合創(chuàng)始人兼CEO馬蒂·斯塔尼斯?jié)煞蛩够∕ati Staniszewski)做出一項驚人判斷:AI語音模型將在未來兩三年內(nèi)走向“商品化”——盡管短期內(nèi)仍是核心競爭力,但長期來看,模型之間的性能差異將逐漸縮小,尤其在主流語言和通用音色上。
圖源備注:圖片由AI生成,圖片授權(quán)服務商Midjourney
短期靠模型,長期靠產(chǎn)品面對“既然模型終將同質(zhì)化,為何還要重投入研發(fā)”的質(zhì)疑,Staniszewski坦言:“今天,模型仍是最大的技術(shù)壁壘。如果AI語音聽起來不自然、不流暢,用戶體驗就無從談起。”他指出,ElevenLabs過去在模型架構(gòu)上的突破(如情感表達、多語言韻律建模)是其當前領(lǐng)先的關(guān)鍵。
但公司早已布局后模型時代。Staniszewski強調(diào),ElevenLabs的長期戰(zhàn)略并非僅做“模型供應商”,而是打造“AI+產(chǎn)品”的完整體驗——正如蘋果通過軟硬件協(xié)同定義智能手機,ElevenLabs希望以自研模型為引擎,驅(qū)動高價值應用場景落地,從而構(gòu)建真正護城河。
多模態(tài)融合成下一戰(zhàn)場展望未來1-2年,Staniszewski預測,單一模態(tài)的語音模型將加速向多模態(tài)融合演進。“你將同時生成音頻與視頻,或在對話中實時聯(lián)動大語言模型與語音引擎。”他以Google最新發(fā)布的Veo3視頻生成模型為例,說明跨模態(tài)協(xié)同正成為技術(shù)新前沿。
為此,ElevenLabs正積極尋求與第三方模型和開源社區(qū)合作,探索將其頂尖音頻能力嵌入更廣泛的AI生態(tài)。例如,將ElevenLabs的語音合成與視覺生成、LLM推理深度耦合,打造沉浸式虛擬人、智能客服或互動娛樂體驗。
商品化≠無價值,而是價值重心轉(zhuǎn)移Staniszewski并不認為模型商品化意味著行業(yè)衰退,而是價值重心從底層技術(shù)轉(zhuǎn)向應用創(chuàng)新。他解釋:“未來,企業(yè)會根據(jù)具體場景選擇不同模型——客服用一個,游戲配音用另一個,教育講解再用一個。可靠性、可擴展性和場景適配性,比單純的‘音質(zhì)最好’更重要。”
因此,ElevenLabs正同步強化其API平臺、開發(fā)者工具鏈與行業(yè)解決方案,確保客戶不僅能獲得高質(zhì)量語音,更能快速集成到真實業(yè)務流中。
結(jié)語:做AI時代的“聲音基礎(chǔ)設(shè)施”在語音AI從“炫技”走向“實用”的拐點,ElevenLabs的選擇清晰而務實:短期死磕模型,長期深耕產(chǎn)品。當行業(yè)共識逐漸指向“模型即服務”(Model-as-a-Commodity),真正的贏家或許不是參數(shù)最多的公司,而是最懂用戶、最能將AI無縫嵌入人類交互場景的那一個。
正如Staniszewski所言:“最好的用例,誕生于產(chǎn)品與AI的魔法結(jié)合。”而ElevenLabs,正試圖成為這場魔法的首席煉金術(shù)士。





京公網(wǎng)安備 11011402013531號