![]()
Voice Agent 賽道正在爆發,但它迫切需要一個能讓對話真正流動起來的底層引擎。
作者|Li Yuan
編輯|鄭玄
2025 年過了大半,幾乎可以確定,今年 AI 最熱的賽道之一,就是 AI 陪伴類的硬件。
AI 擅長情感陪伴,我們早就從那些火爆的陪伴類 App 里領教過了。今年 AI 陪伴類的硬件熱潮背后,其實更是 AI 語音技術的迅速成熟。
今年,你是不是也接到過 AI 銷售的電話?從過去僵硬的機械音,AI 銷售的推銷目前已經到了幾乎完全自然的語音對話。NotebookLM 火了一整年,也催生了一堆 AI 播客產品。AI 口語陪練 App 正在大把賺錢,更不用提 AI 虛擬伙伴和虛擬主播。
其實,這些具體應用的背后,都是一個新的賽道:Voice Agent(語音智能體)正在快速發展的后果。從幕后到臺前,"Voice Agent" 正在開啟大規模滲透,也因此催生了一批備受資本青睞的初創公司。
這一波滲透浪潮,讓人們直觀地感受到 AI 語音的「可用性」——它不再是遙不可及的未來技術,而是已經能創造商業價值的工具。但當行業試圖將這些 Voice Agent 從早期嘗鮮,推向大規模、高標準的商業場景時,問題也迎面而來:AI 語音系統已經到達可用的地步,然而這并不等于技術已經穩定好用。
想要實現一個好的 Voice Agent,大模型的「智商」只是底座。在交互的臨門一腳,也就是「嗓音」層面,延遲、情商(擬人度)、個性化聲音質感、流利度,每一樣都不能或缺。行業實踐早已證明,超過 1 秒的延遲就會打斷對話節奏;而機械的播報,比如無法正確讀出網址、郵箱或日期,則會瞬間暴露 AI 的「非人感」,這在專業的 B 端場景中是致命的。
這些細節體驗,每一樣都可能帶來客戶的大幅增加或流失。
Voice Agent 賽道正在爆發,但它迫切需要一個能讓對話真正「流動起來」的底層引擎,一個能撐起下一代交互體驗的 TTS 模型。競爭的焦點,已經從 LLM 的「大腦」,延伸到了 TTS 的「嗓音」。誰掌握嗓音,誰就掌握著下一代 AI 商業化的鑰匙。
而 10 月 30 日 MiniMax 發布的 Speech 2.6 模型,似乎正是一個專為解決這些痛點而來的答案。
01
Voice Agent:AI 時代的交互界面
那么,到底什么是 Voice Agent?
簡單來說,它是一個「能說話的智能體」——用戶開口說話,它理解、回應、執行,一切都像在和人交談。
和文本交互相比,語音的優勢是壓倒性的:它更自然,也更符合人類本能;比文字更快,也更適合即時溝通;同時語音更具情感溫度,也更容易與人建立連接。
許多早期的 AI 產品早已證明了這一點。比如 AI 女友應用 Dolores 的開發者就發現,平臺上 70% 的收入都來自于語音的購買。開發者曾經感嘆道:「人們真的會為那幾句逼真的『我愛你』付費。」
而對于企業而言,Voice Agent 意味著「成本更低、速度更快、更可靠的服務」,能讓企業實現全天候待命:它們是 24/7 在線的銀行、保險、物流 AI 客服;是汽車里幫你導航和控制空調的智能助手;是醫療場景中幫助醫生自動生成病例的記錄員……
![]()
語音本身就有天然優勢,而 Voice Agent 的爆發,更來自底層技術的突破。
自從 2023 年開始,TTS 技術被廣泛運用在配音、數字分身、語音助手等方向,并開始出現爆發式的增長,可用性大幅提高。這背后是模型架構的革新,尤其是基于 AR Transformer 等新架構的出現,讓語音合成的自然度和表現力達到了新的高度。
硅谷頂級風投 a16z 近期發文,表示 Voice Agent 正在成為「AI 時代的交互界面」和「下一代 SaaS 入口」。
一個完整的 Voice Agent 交互中,通常有這樣幾個模塊:
語音識別 (ASR):首先,ASR 模塊負責「傾聽」,將用戶的語音轉換成文本。
大語言模型 (LLM):接著,LLM 作為「大腦」,理解這些文本的意圖,思考并生成回應的文本。
語音合成 (TTS):最后,TTS 模塊(Text-to-Speech)作為「嗓音」,將 LLM 生成的文本答案,轉換成我們能聽到的、自然的語音。
如今,語音識別的準確率已經非常高,而大模型的差距正在縮小,真正的競爭已轉向交互的「最后一公里」——那副負責「開口說話」的嗓音,也就是 TTS 模型。TTS 是交互的最后一環,直接決定了用戶的主觀體驗。
一個普遍的誤解是,TTS 只要「清晰可聞」就足夠了。但在真實的商業場景中,這遠遠不夠。決定一個 Voice Agent 成敗的,從來不是單純的清晰度,而是交互是否自然、可信、順暢。
語音交互對實時性的要求極高。保險電銷的實測數據表明:AI 坐席必須在客戶說完 1 秒內接話,否則「機器感」就會瞬間出現。傳統語音鏈路(ASR + LLM + TTS)是串行處理,每一步都要等上一步結束,延遲常常高達 2~3 秒——在真實對話中幾乎不可接受。
如果說低延遲是門檻,而「擬人感」則是靈魂。
一段富有情感的聲音,能瞬間建立陪伴感與黏性。C 端用戶追求沉浸與共鳴,一個機械音足以讓人出戲;B 端企業則依賴語氣的自然與可信,才能傳遞專業形象。
擬人感也包括足夠聰明——比如,AI 客服需要讀出 max-support@tech.com。一個「笨」的 TTS 會念成「max 減...」,而「聰明」的 TTS 則會讀成「max 『杠』...」。這不僅考驗模型的語音理解能力,也依賴于豐富的本地語言數據去支撐訓練。
不同的 TTS 在表面上看起來似乎差別不大,但真正的差異藏在細節里——只有開發者才感受得到,而用戶的留存,正是被這些細節一點點改變的。哪怕只是降低一秒延遲,用戶也可能因此留下。
02
為 Voice Agent 而生:
MiniMax Speech 2.6
什么樣的語音模型,才算是為 Voice Agent 而生?
在語音生成這條賽道上,MiniMax 一直是榜單常客——AA、Hugging Face榜單第一已成常態。不過,近期 Minimax 發布的Speech 2.6 模型,專為 Voice Agent 打造,MiniMax 交出了一份更驚艷的答卷。
直接看 Demo,就能感受到變化。
在官方發布的這段模擬客服場景 Demo 中,Speech 2.6 模型聲音的表現力十分驚艷。
模型的女聲客服并非勻速的機械播報,而是充滿了細節。語言有時候快,有時候慢,這種語速的自然變化和節奏感非常接近真人對話。更關鍵的是,它甚至會生成一些極其擬人的微小停頓和吸氣聲,仿佛在思考或組織語言,這讓「真人感」變得極強。那種微妙的節奏感,讓人第一次覺得 AI 的「嗓音」是有呼吸的。
而在這些「聽起來很自然」的背后,是一組更為驚艷的數據。
首先,Speech 2.6 就對準了 Voice Agent 的生死線——延遲。
MiniMax Speech 2.6 將首包(First-packet)響應時間壓縮到了250 毫秒。
這是一個什么概念?行業實踐和一線項目的共識是,1 秒(1000 毫秒)是語音交互體驗的絕對分水嶺。一旦延遲超過 1 秒,對話的節奏就會被徹底打斷,用戶的感知會立刻從「交談」切換為「等待機器響應」。而 250 毫秒,意味著從 AI 的 LLM 大腦「想」完答案,到 TTS「開口」說出第一個字,中間的停頓幾乎符合人類的生理感知極限。這為實現真正流暢、可打斷的實時對話流(Real-time Conversation Flow)提供了最關鍵的技術前提。
在語音賽道,MiniMax 的指標一直與 11Labs 這樣的國際頭部玩家「有來有回」。據一些行業測試披露,雖然 11Labs 官方聲稱其延遲可達 75 毫秒,但根據他們北美客戶的實際測試,其在真實網絡環境下的首包延遲也在 200 到 300 毫秒區間。從這個角度看,Speech 2.6 的 250 毫秒,是一個在真實商業環境中可穩定復現的、極具競爭力的低延遲數據。它解決的是 Voice Agent 場景下最基礎、也是最致命的「停頓」和「卡殼」問題,讓對話得以真正「流動」起來。
更令人驚喜的,在一些決定專業度的小細節上,Speech 2.6 做得也非常不錯。
我們在官網的體驗區發現,這次更新的 Speech 2.6 模型現在能正確讀出電話、郵箱、網址、數學公式等結構化文本。
比如在這次測試中,筆者讓它讀出極客公園的網址,效果相當不錯。
它不僅按照中文習慣讀成了「點 net」,前面的英文部分也沒有機械地一個字母一個字母拼讀,而是自然地讀成了「geek」和「park」兩個單詞——更符合語義,也更像人。
更有趣的是數學題的測試。筆者隨手從網上找了一道初中水平的題目講解,讓它來朗讀。
除了加號、等號、根號這些常見符號讀得準確,最讓人意外的是,那些久違的「因為」「所以」邏輯符號,它也能正確讀出——連筆者這個早已離開課堂多年的成年人都愣了一下:原來是這樣讀的。
更妙的是,它對「x」的處理方式。那種讀法,聽起來就像中國人平時念「x」時的口音。當我選了一個老奶奶的聲音來合成時,整段講解突然有了熟悉的畫面感——就像長輩在耐心地給你講題。
這個功能對于 B 端開發者來說價值巨大。過去,當 LLM 需要播報一個郵箱或網址時,開發者必須在 TTS 上游額外搭建一套繁瑣的文本預處理(Text Normalization)規則庫,用正則表達式或硬編碼,手動「翻譯」文本,否則模型就會出錯。
而當模型更聰明,B 端廠商和開發者的技術棧就被極大簡化了,顯著降低了文本準備的復雜度和維護成本。
在官網上,筆者發現 MiniMax 還專門針對 Voice Agent 的長尾需求做了不少處理。
比如在聲音復刻技術上。在真實的商業場景中,企業可用的原始素材往往是「不完美」的。比如,用于復刻的錄音可能來自非母語人士(帶有口音),或者在錄制時有輕微的結巴、不流利的停頓。
傳統的聲音復刻模型只會忠實地「復刻缺陷」。這導致生成的語音雖然音色很「像」,但聽起來「不專業」、「不好聽」,在客服或電銷這類需要高度專業形象的場景中根本無法使用。
Speech 2.6 新增的Fluent LoRA模型,正是為了解決這個「復刻缺陷」問題。它能夠在聲音復刻的場景中,即使用戶上傳的是一段不流利的素材(如結巴、口音、非母語),也能夠智能修正,復刻出一個流利、自然的表達。這極大拓寬了聲音復刻的可用素材范圍,讓 B 端廠商在追求個性化音色的同時,不必再為素材的「不完美」而妥協,保證了 Voice Agent 對外輸出的專業形象。
MiniMax 這種為 B 端落地掃清障礙的思路,不僅體現在「音色流暢度」這種精細的「深度」上,也體現在「多語種覆蓋」的「廣度」上。在多語言的支持上,Speech 2.6 此次支持四十多個語種,這為需要構建全球化產品的 AI 出海團隊提供了堅實的底層支持。
MiniMax Speech 2.6 的升級路徑非常清晰:它不再滿足于做那個「指標刷榜」的 TTS 模型,而是通過解決延遲、智能和流暢度這三大難題,真正成為開發者最愛用的,下一代 Voice Agent 場景中,那個最穩定、最智能、最高效的「語音底層」。
03
誰掌握聲音,
誰就掌握下一代 AI 商業化的鑰匙
大模型的技術競賽,顯然已經進入了下半場。
如果說過去兩年的主題是「煉大腦」——比拼的是誰的 LLM 更智能、參數更高、跑分更強——那么現在,人們除了關心模型的智能能力,也關注正在誰的商業化能力更強。
當Voice Agent正在成為下一代 AI 商業化的入口。在這場「Voice-First」浪潮中,LLM負責「想」,TTS 負責「說」。AI 想得再聰明,也得說得自然,才能被人真正接受。誰能掌握更擬人、更低延遲的語音能力,誰就更有機會拿到商業化的「入場券」。
MiniMax 這次的 Speech 2.6 模型,讓我們看到了它研發的能力和商業化的潛力。
在「聲音」這個越來越關鍵的技術賽道上,MiniMax 早已是頭部玩家。它的技術底蘊,來自于對底層架構的自研——基于AR Transformer 模型的高質量 TTS 系統。這種架構選擇使其在語音的自然度、表現力和多語種支持上獲得了先天優勢。
在開發者生態上,MiniMax 的布局同樣穩健。海外多家主流Voice Agent 基礎設施平臺已將其語音能力接入:包括曾為 ChatGPT 高級語音模式提供工具的LiveKit、GitHub 熱門開源框架Pipecat,以及 YC 孵化的語音部署平臺Vapi。對這些底層平臺而言,接入哪個 TTS API,本身就是對其性能與穩定性的認可。
![]()
在國內,MiniMax 的語音能力也深度融入多個商業場景。從Rokid Glasses等 AR 設備,到榮耀、魅族等智能終端,再到AI玩具 Bubble Pal;從超級小愛、納米 AI 搜索、Key AI、MegaView AI 助手到Fuzozo 平臺;乃至教育與垂直領域的聽力熊、精準學——幾乎所有語音交互形態,都能聽到 MiniMax 的聲音。
一個值得思考的問題是:一個技術指標早已登頂、同時被海內外「基礎設施」和「終端產品」雙重驗證的語音模型,為什么還要專門為Voice Agent再做優化?
答案或許是——正因為有過大量落地實踐,MiniMax比別人更早、更清晰地看到了 Voice Agent 場景的真正痛點。
Speech 2.6的發布,正標志著 MiniMax 先于其他公司的關注點轉變:從「聲音好聽」,邁向「聲音能落地」。
「好聽」是一項技術指標,關乎音質、韻律與自然度,但要真正落地,還要解決更復雜的問題:延遲、智能與擬人。它解決的是開發者在落地時最棘手的問題,是 AI Agent 能否擺脫「機器感」、實現「專業度」的臨門一腳。
通過在底層引擎中內嵌「智能化」和「流利性」,Speech 2.6 極大地釋放了上層開發者的生產力。開發者不再需要耗費巨額成本去搭建繁瑣的文本預處理規則,也不再需要為不完美的復刻素材而苦惱。
通過提供一個更快、更聰明、更流暢、更全面的語音底層,MiniMax 正在為整個 Voice Agent 賽道「減負」——
讓開發者能更專注于 LLM 的業務邏輯與場景創新。
在大模型競爭的下半場,誰能為下一代交互——Voice Agent 提供最無縫、最自然、最智能的聲音交互,誰就掌握了商業化的鑰匙。而 MiniMax 看起來,正在握緊這把鑰匙。
*頭圖由AI生成
本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO
極客一問
你如何看待 MiniMax?
AI 讓富豪更富,10 人狂攬 3.7 萬億,重塑全球財富版圖
點贊關注極客公園視頻號,






京公網安備 11011402013531號