據 AIbase 報道,谷歌本周宣布為其原生音頻模型 Gemini2.5Flash Native Audio 推出重大更新,旨在將 AI 交互從簡單的“文本轉語音”跨越到真正的擬人化實時交流。
此次更新的核心在于“原生”處理能力。不同于傳統 AI 需要先將語音轉為文字再處理的繁瑣流程,該模型能夠直接感知聲音中的語調、情感和停頓,從而實現更自然流暢的對話。
谷歌數據顯示,新版本對開發者指令的遵循率已從84% 躍升至 90%,在處理多步驟工作流時展現出更高的精準度。在音頻基準測試 ComplexFuncBench 中,其函數調用準確率達到 71.5%,超越了 OpenAI gpt-realtime(66.5%)的表現,顯示出在實時語音代理(Live Voice Agents)領域的強勁競爭力。
目前,這項技術已全面接入 Google AI Studio、Vertex AI、Gemini Live 以及 Search Live。開發者現可通過 Gemini API 體驗這一升級版模型,利用其更強的一致性和多輪對話記憶能力,構建更可靠、更具情緒感知力的 AI 助手。





京公網安備 11011402013531號