meta 大手筆的買買買還在繼續。
近日,meta 宣布已收購 AI 音頻初創公司 WaveForms AI。據知情人士透露,此次收購旨在增強 meta 在人工智能音頻技術方面的實力,特別是開發能夠理解并模仿人類情感的下一代語音交互系統。WaveForms 的創始團隊,包括其聯合創始人 Alexis Conneau 和 Coralie Lemaitre,將加入 meta 新成立的 AI 部門超級智能實驗室 (meta Superintelligence Labs)。
WaveForms AI 雖然是一家非常年輕的初創公司,于 2024 年 12 月才剛剛成立,但在短時間內便獲得了業界的廣泛關注。今年早些時候,該公司宣布完成了由知名風險投資公司 Andreessen Horowitz (a16z) 領投的 4000 萬美元種子輪融資,當時的公司估值達到了 2 億美元。
![]()
圖丨WaveForms AI(linkedIn)
該公司的核心業務聚焦于開發能夠實時理解和響應語音中情感細微差別的音頻大語言模型(Audio-based Large Language Models)。WaveForms 的目標是實現其所謂的“語音圖靈測試”,即創造出與人類聲音在情感表達和自然度上無法區分的 AI 語音。創始人 Conneau 公開表示,他們的使命是追求“情感通用智能”(Emotional General Intelligence, EGI),旨在建立感覺自然、個性化且極具吸引力的人機連接。
Conneau 認為,雖然 OpenAI、Google 和 meta 等公司都在追求通用人工智能的智力層面,但 WaveForms 的目標是讓 AI 交互變得深度人性化和情感共鳴,其音頻語言模型能夠捕捉語音中的情感細節,如語調、語氣變化和口音,并據此調整其響應方式。例如,由 WaveForms 技術驅動的 AI 教師可以識別學生的挫敗感,并相應地以更多的耐心或鼓勵來回應。
而實現這一愿景的技術關鍵在于其提出的“端到端音頻語言模型”(end-to-end audio language model)。傳統的語音處理通常需要三個獨立的 AI 模型協同工作:一個模型負責將用戶的語音轉錄成文本,第二個模型基于文本生成回應,第三個模型再將文本回應轉換成語音。而根據 a16z 的介紹,WaveForms 的技術能夠通過單一模型完成這全部三項任務,從而顯著提升了處理效率和交互的流暢性。此外,該模型還計劃融入情感檢測功能,使其能夠根據捕捉到的用戶情緒線索來調整自身的輸出方式。
此次收購的主角之一,WaveForms 的聯合創始人兼首席執行官 Alexis Conneau,是音頻和文本大語言模型領域的頂尖研究者。他此前曾在 meta 從事音頻研究長達近八年,之后又在 OpenAI 領導了 GPT-4o 高級語音模式神經網絡的研發工作。正是在 OpenAI 期間,他開發了能夠對用戶口語進行實時、人性化回復的先進語音模式。另一位聯合創始人 Coralie Lemaitre 則曾在谷歌擔任廣告業務策略師,擁有豐富的商業和產品戰略領導經驗。
![]()
圖丨Alexis Conneau(AIM Media House)
對于 meta 來說,收購 WaveForms 是在 AI 賽道上的一次重要加碼。最近幾個月,meta 一直在從 OpenAI、Anthropic、谷歌等對手手中挖來大量 AI 人才。
除了 WaveForms,meta 上個月還收購了另一家致力于生成逼真、類人聲音的 AI 初創公司 PlayAI。同時,公司還聘請了前谷歌杰出研究員、語音 AI 領域的知名專家 Johan Schalkwyk,并由他擔任新成立的超級智能實驗室的語音技術負責人。
根據 The Information 的報道,Conneau 和 Lemaitre 已作為收購的一部分加入 meta。雖然具體收購金額尚未披露,但考慮到 WaveForms 在去年 12 月的 2 億美元估值,以及 meta 和其他科技巨頭為招募頂尖 AI 人才支付的巨額溢價,收購價格可能達到數億美元。而他們在加入 meta 后,也將向 Schalkwyk 匯報。
meta 首席執行官馬克·扎克伯格 (Mark Zuckerberg) 對語音交互的未來抱有極大的期望。他在今年四月的財報電話會議上曾預測:“我們都將擁有一個可以全天候與之交談的 AI。”然而,meta 此前在自研大語言模型方面并不順利。其原計劃發布的 Llama 4 模型,就因為在進行類人語音對話方面的能力不及 OpenAI 的模型而被推遲。收購 WaveForms,無疑將為 meta 補上這一關鍵短板,其先進的情感化、端到端音頻技術有望顯著提升 meta 現有及未來產品的語音交互體驗。
可以預見,WaveForms 的技術和人才將被深度整合到 meta 的各項業務中。其技術可以直接用于改進 meta AI 聊天機器人的語音功能,使其對話更自然、更富情感。此外,在 Instagram Reels 等視頻內容平臺,該技術也可以用于開發更高級的語音翻譯和配音功能。從長遠來看,在 meta 傾力打造的元宇宙 (metaverse) 虛擬環境中,能夠進行情感交流的逼真 AI 語音將是提升用戶沉浸感的關鍵。
參考資料:
1.https://www.theinformation.com/articles/meta-acquires-ai-audio-startup-waveforms?rc=ayz15n





京公網安備 11011402013531號