文| 趣解商業(yè),作者 | 張語(yǔ)格,編輯 | 趣解商業(yè)·AI力場(chǎng)
語(yǔ)音對(duì)話,是用戶與AI交互最常見(jiàn)的方式之一,大模型的語(yǔ)音對(duì)話能力已成為AI應(yīng)用和硬件的關(guān)鍵能力。Deepgram 和 Opus Research 的調(diào)研顯示,2025年,67% 的企業(yè)已將對(duì)話式AI 智能體置于戰(zhàn)略核心位置,84% 的企業(yè)計(jì)劃在未來(lái)一年增加相關(guān)投入。
此外,“趣解商業(yè)”注意到,AI語(yǔ)音賽道正在密集地獲得融資,OpenAI、Google等科技巨頭也在密集發(fā)布自己的語(yǔ)音模型或語(yǔ)音產(chǎn)品。
在這個(gè)日漸火熱的賽道里,一些為 AI 產(chǎn)品提供底層語(yǔ)音交互技術(shù)的平臺(tái)型公司,正在AI產(chǎn)業(yè)中扮演越來(lái)越重要的角色。
AI對(duì)話的“硬傷”
在生成式 AI 的浪潮下,基于實(shí)時(shí)互動(dòng)技術(shù)的對(duì)話式 AI 正加速在各行各業(yè)落地實(shí)踐。
對(duì)話式AI整合了大語(yǔ)言模型(LLM)、自動(dòng)語(yǔ)音識(shí)別(ASR)、文字轉(zhuǎn)語(yǔ)音(TTS)、實(shí)時(shí)互動(dòng)(RTE)等技術(shù),當(dāng)前已在情感陪伴、智能硬件、在線教育等場(chǎng)景中實(shí)現(xiàn)規(guī)模化落地,陪伴類玩具、智能眼鏡、AI耳機(jī)等產(chǎn)品紛紛成為消費(fèi)者爭(zhēng)搶的對(duì)象。
然而,伴隨消費(fèi)熱潮而來(lái)的還有居高不下的退貨率。此前有媒體報(bào)道,AI毛絨玩具電商退貨率高達(dá)30%-40%,有些品牌的AI眼鏡退貨率甚至在40%-50%。
究其原因,仍然當(dāng)前 AI 硬件普遍面臨交互生硬、情感連接弱、同質(zhì)化嚴(yán)重等問(wèn)題。有不少消費(fèi)者表示,AI對(duì)話的體驗(yàn)像是機(jī)器人一樣毫無(wú)感情“念稿”,沒(méi)有真實(shí)感且不流暢。有網(wǎng)友在社媒平臺(tái)上發(fā)帖表示,買的陪伴機(jī)器人到手體驗(yàn)后感覺(jué)“好笨、會(huì)答錯(cuò)、交互比較呆”,就退貨了。
![]()
圖源:小紅書截圖
“IT桔子”發(fā)布的“AIGC產(chǎn)品降速榜”顯示,今年9月聊天機(jī)器人、寫作工具等通用類AI產(chǎn)品的增速集體下降。“趣解商業(yè)”注意到,很多情況下AI產(chǎn)品被吐槽都是源于未能準(zhǔn)確理解用戶的需求。
行業(yè)數(shù)據(jù)顯示,僅 21% 的用戶對(duì)現(xiàn)有 AI 對(duì)話體驗(yàn)滿意,部分服務(wù)的用戶流失率高到“不可接受”。
聲智科技副總裁黃赟賀表示,真正的語(yǔ)音交互不止于語(yǔ)言交流,在語(yǔ)言之外,AI還要分析用戶聲音的頻率、振幅、波形,提取出情緒特征、識(shí)別不同的聲源、聲源距離、甚至預(yù)測(cè)用戶的意圖,“語(yǔ)調(diào)、音色、節(jié)奏、情緒,以及背景音樂(lè)、環(huán)境噪音(風(fēng)聲、雨聲、車聲)、物體發(fā)出的聲音(開(kāi)門聲、打字聲)這些環(huán)境中的各種非語(yǔ)音信息,也都是AI理解用戶的重要方式。”
但是,想要AI在復(fù)雜的環(huán)境中理解用戶意圖,并且通過(guò)端到端準(zhǔn)確傳遞給用戶,還要克服不少技術(shù)瓶頸。在近期舉辦的Convo AI&RTE 2025第十一屆實(shí)時(shí)互聯(lián)網(wǎng)大會(huì)上,聲網(wǎng)創(chuàng)始人兼CEO趙斌對(duì)話式AI的技術(shù)挑戰(zhàn)概括為幾點(diǎn):低延遲響應(yīng)、自然打斷、上下文管理、情感理解與表達(dá)等。
人類對(duì)話的延遲一般在400毫秒左右;有研究表明,當(dāng)語(yǔ)音AI的響應(yīng)延遲超過(guò) 500 毫秒時(shí),用戶體驗(yàn)會(huì)顯著下降,導(dǎo)致對(duì)話中斷或用戶放棄使用。然而,傳統(tǒng)的語(yǔ)音合成鏈路,從語(yǔ)音識(shí)別、大語(yǔ)言模型到語(yǔ)音合成,延遲能達(dá)到 2-3 秒,高延遲成了人機(jī)交互一大痛點(diǎn)。
AI產(chǎn)品的防干擾能力也很關(guān)鍵,如何識(shí)別哪些打斷的指令來(lái)自用戶,哪些是嘈雜的環(huán)境音,被用戶打斷補(bǔ)充后仍能流暢地給出回應(yīng),這既需要語(yǔ)音識(shí)別有聲學(xué)基礎(chǔ),也要有足夠的上下文記憶和理解能力。
對(duì)于用戶來(lái)說(shuō),期待的不僅僅是一個(gè)能提供正確回答的機(jī)器,還是一個(gè)有“人味”的AI;如何解決這些挑戰(zhàn),則是對(duì)話式AI產(chǎn)品具備擬人感的關(guān)鍵。
AI浪潮中的“賣鏟人”
聲網(wǎng)聯(lián)合 RTE 開(kāi)發(fā)者社區(qū)發(fā)布的《2025 對(duì)話式 AI 應(yīng)用場(chǎng)景熱力榜單》顯示,AI 語(yǔ)音助手、AI 社交與陪伴、AI 潮玩位列前三,充分說(shuō)明對(duì)話式 AI 在個(gè)人助理與情感陪伴領(lǐng)域的強(qiáng)勁需求。而AI語(yǔ)音交互的需求,也帶動(dòng)了一批平臺(tái)型語(yǔ)音技術(shù)公司迅速增長(zhǎng)。
隨著對(duì)話式 AI 技術(shù)的快速發(fā)展,VoiceAgent 是目前市場(chǎng)上極具代表性的產(chǎn)品形態(tài);當(dāng)前Voice Agent主要有兩種主流架構(gòu)方式——傳統(tǒng)的級(jí)聯(lián)模式和端到端模式。級(jí)聯(lián)模式是將三個(gè)獨(dú)立組件(語(yǔ)音識(shí)別、大模型推理、語(yǔ)音合成)串聯(lián)起來(lái)的流水線,開(kāi)發(fā)者可以自由選擇不同公司的組件組裝產(chǎn)品;端到端模式則是由模型內(nèi)部處理,直接輸出語(yǔ)音回復(fù)。
不同模式各有優(yōu)劣,但無(wú)論哪種模式,都離不開(kāi)穩(wěn)定低延遲的實(shí)時(shí)傳輸技術(shù)作為底層支持。在此基礎(chǔ)上,一批提供穩(wěn)定傳輸網(wǎng)絡(luò)的實(shí)時(shí)通信服務(wù)商開(kāi)始迅速增長(zhǎng),例如即構(gòu)科技、融云、科大訊飛、聲網(wǎng)等。
![]()
圖源:聲網(wǎng)
有行業(yè)人士表示,相比大廠的泛用型云服務(wù),這些垂類公司勝在音視頻領(lǐng)域傳輸更穩(wěn)定。例如聲網(wǎng),就是在全球搭建了自己的網(wǎng)絡(luò),全球任意兩點(diǎn)之間都能保證傳輸效率,但大廠很難為單一的音頻業(yè)務(wù)優(yōu)化得這么細(xì)致。
作為“全球?qū)崟r(shí)互動(dòng)云第一股”,聲網(wǎng)在過(guò)去多年持續(xù)攻堅(jiān)“聽(tīng)到、聽(tīng)懂、理解”三大難題;據(jù)“趣解商業(yè)”了解,聲網(wǎng)對(duì)話式 AI 相關(guān)用量在 2025 年第三季度實(shí)現(xiàn) 151% 的環(huán)比增長(zhǎng),展現(xiàn)出強(qiáng)勁的市場(chǎng)需求。
聲網(wǎng)近期還推出了對(duì)話式 AI 引擎 2.0,對(duì)話式 AI 開(kāi)發(fā)套件、對(duì)話式 AI 模型評(píng)測(cè)平臺(tái)和對(duì)話式 AI Studio,加速對(duì)話式 AI 在實(shí)時(shí)互動(dòng)行業(yè)的應(yīng)用創(chuàng)新。聲網(wǎng)創(chuàng)始人兼CEO趙斌表示,截至目前,聲網(wǎng)年度服務(wù)分鐘數(shù)首次突破1萬(wàn)億分鐘,標(biāo)志著 RTE 技術(shù)已成為數(shù)字社會(huì)不可或缺的基礎(chǔ)設(shè)施。
據(jù)“趣解商業(yè)”了解,聲網(wǎng)對(duì)話式 AI 引擎落地案例豐富,例如為豆神 AI 的互動(dòng)課提供實(shí)時(shí)語(yǔ)音交互支撐,實(shí)現(xiàn) AI 教師與學(xué)生自然流暢對(duì)話;為賦之家庭陪伴機(jī)器人打造情感化語(yǔ)音交互,增強(qiáng)陪伴體驗(yàn);為珞博智能的 AI 寵物 Fuzozo 優(yōu)化 AI 交互的實(shí)時(shí)性和穩(wěn)定性,帶來(lái)個(gè)性化情感陪伴體驗(yàn)。此外,MiniMax Chat、星野的語(yǔ)音對(duì)話功能,智譜清言的視頻通話功能、商湯商量的實(shí)時(shí)音視頻交互,背后都有聲網(wǎng)的技術(shù)支撐。
![]()
圖源:微博截圖
聲網(wǎng)推出對(duì)話式AI引擎后,將其視作新的增長(zhǎng)曲線;然而從聲網(wǎng)母公司Agora, Inc.( NASDAQ:API )發(fā)布的財(cái)報(bào)來(lái)看,目前這項(xiàng)業(yè)務(wù)的收入對(duì)公司業(yè)績(jī)?cè)鲩L(zhǎng)的貢獻(xiàn)尚不明顯。
Agora, Inc.是Agora和聲網(wǎng)兩家獨(dú)立企業(yè)的控股公司,它們的業(yè)務(wù)通過(guò)各自的子公司和可變利益實(shí)體進(jìn)行管理。Agora, Inc.從今年一季度扭虧為盈,今年一季度和二季度分別收入3327萬(wàn)美元和3425.9萬(wàn)美元,同比增長(zhǎng)0.8%和0.1%。
“趣解商業(yè)”注意到,今年上半年,面向中國(guó)市場(chǎng)的“聲網(wǎng)中國(guó)”和面向海外市場(chǎng)的“Agora”業(yè)績(jī)顯露出不同的趨勢(shì),公司增長(zhǎng)全部由面向海外市場(chǎng)的Agora貢獻(xiàn),而聲網(wǎng)中國(guó)的收入則是連續(xù)兩季度同比下降。
財(cái)報(bào)數(shù)據(jù)顯示,Agora在2025年第二季度收入為1820萬(wàn)美元,同比增長(zhǎng)16.7%,而聲網(wǎng)中國(guó)收入為1.155億元人民幣(約合1610萬(wàn)美元),同比下降12.4%。Agora, Inc.在財(cái)報(bào)中解釋,Agora的增長(zhǎng)主要得益于業(yè)務(wù)拓展以及直播購(gòu)物等領(lǐng)域使用量增長(zhǎng),具體來(lái)源于API調(diào)用增加還是對(duì)話式AI引擎產(chǎn)品的銷售,無(wú)法確定;聲網(wǎng)中國(guó)的收入減少則源于某些終端銷售產(chǎn)品的停售,如果加上這部分則收入與去年同期基本持平。
“趣解商業(yè)”注意到,Agora, Inc.在電話會(huì)議中披露了聲網(wǎng)中國(guó)的客戶數(shù)量,截至3月末和6月末,其活躍客戶數(shù)量分別為1994和1997,幾乎沒(méi)有增長(zhǎng)。
另外值得注意的是,今年二季度,Agora, Inc.的研發(fā)費(fèi)用為1400萬(wàn)美元,占總收入的40.9%,這對(duì)一家剛剛扭虧的公司而言仍是一筆不菲的支出;但相比去年同期的1810萬(wàn)美元研發(fā)費(fèi)用,同比下降23.0%,主要原因是公司優(yōu)化全球員工隊(duì)伍,導(dǎo)致人員成本下降,其中包括股權(quán)激勵(lì)費(fèi)用從2024年第二季度的210萬(wàn)美元降至2025年第二季度的100萬(wàn)美元。
![]()
![]()
圖源:聲網(wǎng)財(cái)報(bào)截圖
值得一提的是,今年Agora的核心高管也出現(xiàn)了人事變動(dòng)。今年8月,Agora宣布公司董事、首席技術(shù)官和首席科學(xué)家鐘聲(Shawn)離職,其運(yùn)營(yíng)職責(zé)被移交給公司創(chuàng)始人、董事長(zhǎng)兼首席執(zhí)行官趙斌;現(xiàn)任公司聲網(wǎng)(Agora)首席營(yíng)收官、聯(lián)合創(chuàng)始人Tony Wang和現(xiàn)任公司首席財(cái)務(wù)官的王靜波已被任命為公司董事。
在AI浪潮中“賣鏟子”是門好生意,但賺到錢的前提是“鏟子”足夠好用。為了拿出更多定制化、差異化的語(yǔ)音技術(shù)服務(wù),聲網(wǎng)這類垂直服務(wù)商需要持續(xù)的研發(fā)投入保持競(jìng)爭(zhēng)優(yōu)勢(shì)。可以預(yù)見(jiàn)的是,隨著多模態(tài)AI應(yīng)用的普及,那些能夠提供低延遲、高穩(wěn)定性、自然交互體驗(yàn)的技術(shù)平臺(tái),將在下一輪競(jìng)爭(zhēng)中占據(jù)更加有利的位置。





京公網(wǎng)安備 11011402013531號(hào)