3 月 7 日消息,去年三月底,OpenAI 宣布了一項名為 Voice Engine(聲音引擎)的人工智能服務的“小規模預覽”,聲稱該技術能夠在僅需 15 秒語音的情況下克隆一個人的聲音。然而,近一年過去,這項工具仍未正式推出,OpenAI 也未透露其是否會全面上線,以及何時上線。

OpenAI 對于 Voice Engine 的謹慎態度,可能源于對技術被濫用的擔憂,也可能是為了避免引發監管審查。該公司此前曾被指責過于注重“亮眼產品”,而忽視安全性,并且急于趕在競爭對手之前發布產品。
OpenAI 發言人在接受 TechCrunch 采訪時表示,公司仍在與有限的“可信合作伙伴”一起測試 Voice Engine。該發言人稱:“我們正在從合作伙伴對技術的使用中學習,以提升模型的實用性和安全性。我們很高興看到它被應用于多種場景,包括語音治療、語言學習、客戶支持、游戲角色以及 AI 虛擬形象等。”
據了解,Voice Engine 是 OpenAI 文本轉語音 API 和 ChatGPT 語音模式背后的技術,能夠生成與原始說話者極為相似的自然語音。該工具將書面文字轉換為語音,同時在內容方面設置了某些限制。然而從一開始,Voice Engine 的發布就遭遇了延遲和發布時間窗口的不斷變化。
根據 OpenAI 在 2024 年 6 月的一篇博客文章,Voice Engine 模型通過學習預測說話者在給定文本轉錄中可能發出的聲音,考慮不同的聲音、口音和說話風格,從而生成文本的語音版本,以及反映不同類型說話者朗讀文本的“語音表達”。
最初,OpenAI 計劃在 2024 年 3 月 7 日將 Voice Engine(當時名為 Custom Voices)引入其 API,并計劃讓最多 100 名“可信開發者”提前使用,優先考慮那些開發具有“社會價值”或展示“創新和負責任”技術應用的應用程序的開發者。OpenAI 還為該服務設定了價格:“標準”語音每百萬字符收費 15 美元,“高清”語音每百萬字符收費 30 美元。然而,在最后一刻,公司推遲了發布。幾周后,OpenAI 在沒有提供注冊選項的情況下發布了 Voice Engine,僅允許 2023 年底開始合作的約 10 名開發者使用。
2024 年 3 月,OpenAI 在 Voice Engine 的發布博客中表示:“我們希望就合成語音的負責任部署以及社會如何適應這些新能力展開對話。基于這些對話和小規模測試的結果,我們將就是否以及如何大規模部署這項技術做出更明智的決策。”
據 OpenAI 介紹,Voice Engine 自 2022 年起就開始研發。該公司聲稱在 2023 年夏天向全球最高層級的政策制定者展示了該工具的潛力和風險。目前,包括 Livox 在內的幾家合作伙伴已經可以使用 Voice Engine。Livox 是一家致力于為殘疾人開發更自然溝通設備的初創公司。其首席執行官卡洛斯?佩雷拉(Carlos Pereira)告訴 TechCrunch,盡管由于 Voice Engine 的網絡要求(許多 Livox 的客戶沒有互聯網接入),他們無法將該技術整合到產品中,但他認為這項技術“令人印象深刻”。
佩雷拉通過電子郵件向 TechCrunch 表示:“語音的質量以及語音能夠以不同語言說話的可能性是獨一無二的 —— 尤其是對于我們的客戶,即殘疾人。這是我見過的最令人印象深刻且易于使用的創建語音的工具。我們希望 OpenAI 盡快開發出離線版本。”他補充說,他尚未收到來自 OpenAI 關于 Voice Engine 可能發布的任何指導,也沒有看到該公司計劃開始收費的跡象。目前,Livox 的使用尚未產生任何費用。
在 2024 年 6 月的博客文章中,OpenAI 暗示延遲發布 Voice Engine 的原因之一是擔心該技術可能在去年美國選舉周期中被濫用。基于與利益相關者的討論,Voice Engine 采取了多項安全措施,包括為生成音頻添加水印以追溯其來源。
根據 OpenAI 的說法,開發者在使用 Voice Engine 之前必須獲得原始說話者的“明確同意”,并且必須向其受眾“明確披露”語音是由 AI 生成的。然而,該公司尚未說明如何執行這些政策。即使對于擁有 OpenAI 資源的公司來說,大規模執行這些政策也可能極具挑戰性。
在博客文章中,OpenAI 還暗示希望開發一種“語音認證體驗”以驗證說話者身份,并建立一個“禁止清單”,防止創建與知名人士聲音過于相似的語音。這兩個項目在技術上都極具雄心,如果處理不當,將對一家常被指責忽視安全舉措的公司造成負面影響。
隨著 AI 語音克隆技術的快速發展,有效的過濾和身份驗證正迅速成為負責任發布語音克隆技術的基本要求。據相關報道,AI 語音克隆是 2024 年增長最快的第三大詐騙手段,導致了欺詐行為的增加和銀行安全檢查被繞過,而隱私和版權法律則難以跟上其發展速度。惡意行為者利用語音克隆技術制作名人和政客的煽動性深度偽造視頻,并在社交媒體上迅速傳播。
OpenAI 可能在下周推出 Voice Engine,也可能永遠不會推出。該公司多次表示,正在考慮將服務保持在較小范圍內。但有一點是明確的:無論是出于形象考慮還是安全原因,Voice Engine 的有限預覽已成為 OpenAI 歷史上最長的一次。





京公網安備 11011402013531號