近日,聲網和RTE開發者社區宣布,共同支持TEN VAD 和 TEN Turn Detection兩款新模型開源。這兩個模型是基于聲網十余年實時語音深度研究成果與超低延遲技術積累所打造的高性能模型,能夠讓 AI Agent 的交互體驗更加自然。作為開源項目,任何人都可以自由使用、Fork 或為其貢獻代碼。這兩款模型也將作為開源對話式 AI 生態體系 TEN 的核心模塊持續迭代優化。
TEN VAD:超低延遲、低功耗、高準確率的語音活動檢測模型
TEN VAD 是一個基于深度學習的輕量級流式語音活動檢測模型,具備低延遲、低功耗、高準確率等優勢。它通常用于語音輸入大語言模型(LLM)前的預處理步驟,準確識別是否音頻中包含人聲并過濾掉無效音頻(例如背景噪音或靜音段)。
雖然它的功能簡單,但作用十分強大:
· 準確識別音頻幀中是否有人聲;
· 判斷一句話的開始和結束位置;
· 過濾掉無關音頻(背景噪音、靜音等);
這不僅提升了 STT 的準確性,還能顯著降低處理成本--避免將無意義的聲音送入到 STT 流程中從而產生費用。同時,如果你會用到“輪次檢測(Turn Detection)”,那么 VAD 是你的必選項,它是輪次檢測準確性的可靠保障。
性能對比:與目前常用的 WebRTC Pitch VAD 和 Silero VAD 相比,在公開的 TEN VAD 測試集上(來自多場景、逐幀人工標注),TEN VAD 展示出了更優的效果。

在延遲方面 TEN VAD 同樣領先。它能快速檢測語音與非語音之間的切換,而 Silero VAD 則存在數百毫秒的延遲,導致人機交互系統的端到端延遲和打斷延遲增加。

開發者友好:TEN VAD 已在 Hugging Face 和 GitHub 上開源,并附帶人工精標的數據集(TEN VAD Test Sample),開發者可以一鍵使用進行模型推理或模型評估。
實際應用效果:一個真實用戶案例顯示,使用 TEN VAD 后,音頻傳輸數據量減少了 62%,顯著降低了語音服務成本。
TEN Turn Detection:讓 Voice Agent 學會“何時說、何時聽”
TEN Turn Detection 重在解決人機對話中最難的部分之一——判斷用戶何時停止說話。在真實交流中,AI 需要區分出“中途停頓”與“說完了”的差別。插話太早會打斷人類思路,太遲回應則會顯得遲鈍、不自然。
TEN Turn Detection 支持全雙工語音交互,即允許用戶和 AI 同時說話,就像兩個人交流時那樣自然。
工作原理:它不僅識別語音內容,還通過分析語言模式,判斷說話者是在思考、猶豫,還是已經表達完畢;最終讓 AI 更智能地決定“該說”還是“該聽”,從而讓對話更加流暢自然。該模型支持中英文,可供所有 Voice Agent 開發者自由使用。
效果表現:我們在多場景測試數據集上對比了 TEN Turn Detection 和其他同類開源模型,各模型的表現如下:

為什么選擇 TEN VAD 和 TEN Turn Detection?
當結合使用這兩個模型時可以打造出更自然、反應更迅速、成本更低的 Voice Agent:
開源 + 高質量
· 基于聲網十多年實時語音深度研究經驗;
· 超低延遲、低功耗、高準確率;
· 完全開源,Apache 2.0 許可證,歡迎使用、修改和貢獻。
更自然的對話
· 正確處理“打斷”、“停頓”、“回應”等人類式交互;
· 極大提升用戶體驗。
成本更低
· VAD 準確識別語音幀,有效減少語音識別調用量;
· 實測結果顯示:兩者合用能大幅降低總系統成本。
即插即用
· 可作為 TEN framework 的插件模塊使用;
· 對于已經使用 TEN framework 的開發者,支持無縫集成;
· 對于正在選型 AI Agent 框架的團隊,TEN 是具備最佳 VAD 和輪次檢測能力的選擇之一。
使用 TEN VAD 和 TEN Turn Detection 的最佳實踐
兩款模型都可以搭配 TEN Agent(基于 TEN framework 的 Voice Agent)使用:
Hugging Face 上快速運行(推薦)
1.登錄 Hugging Face;
2.打開 TEN Agent Demo;





京公網安備 11011402013531號