谷歌最近發(fā)布了 Gemini2.5Flash Native Audio 的更新,顯著增強了其語音助手的功能。這一版本旨在更好地處理復雜的工作流程,提高執(zhí)行用戶指令的準確性,同時使對話更加自然流暢。根據(jù)谷歌的反饋,新版本在開發(fā)者指令的遵循率上從84% 提升至90%,這表明語音助手在理解和執(zhí)行用戶請求方面有了顯著進步。
在多步驟對話的質(zhì)量上,更新也帶來了明顯改善。用戶在與語音助手互動時,將體驗到更流暢的溝通。這種提升使得助手能夠更好地適應復雜的詢問和任務,使用戶感受到更高效的服務。
谷歌還透露,更新后的音頻模型在 ComplexFuncBench 基準測試中,函數(shù)調(diào)用的準確率達到了71.5%,相比之下,OpenAI 的 gpt-realtime 則為66.5%。不過需要指出的是,谷歌在測試中可能并未使用 OpenAI 最近發(fā)布的最新版本。
此次更新已經(jīng)在 Google AI Studio、Vertex AI、Gemini Live 和 Search Live 中上線,Google Cloud 的客戶也開始使用這項新技術(shù)。開發(fā)者們可以通過 Gemini API 對模型進行測試,進一步探索其潛力。
這次的更新不僅僅是功能的提升,也反映出谷歌在人工智能領(lǐng)域不斷進步的決心和努力,為用戶提供更好的體驗。
劃重點:





京公網(wǎng)安備 11011402013531號