硬剛 OpenAI:谷歌 Gemini2.5實時音頻性能霸榜，函數調用準確率達71.5%

IP屬地中國·北京 編輯：江紫萱 Chinaz 時間：2025-12-18 10:28:59

據 AIbase 報道，谷歌本周宣布為其原生音頻模型 Gemini2.5Flash Native Audio 推出重大更新，旨在將 AI 交互從簡單的“文本轉語音”跨越到真正的擬人化實時交流。
此次更新的核心在于“原生”處理能力。不同于傳統 AI 需要先將語音轉為文字再處理的繁瑣流程，該模型能夠直接感知聲音中的語調、情感和停頓，從而實現更自然流暢的對話。
谷歌數據顯示，新版本對開發者指令的遵循率已從84% 躍升至 90%，在處理多步驟工作流時展現出更高的精準度。在音頻基準測試 ComplexFuncBench 中，其函數調用準確率達到 71.5%，超越了 OpenAI gpt-realtime（66.5%）的表現，顯示出在實時語音代理(Live Voice Agents)領域的強勁競爭力。
目前，這項技術已全面接入 Google AI Studio、Vertex AI、Gemini Live 以及 Search Live。開發者現可通過 Gemini API 體驗這一升級版模型，利用其更強的一致性和多輪對話記憶能力，構建更可靠、更具情緒感知力的 AI 助手。

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

華為云城市峰會在烏蘭察布召開，當地已吸引67個數據中心項目

火山引擎的「火」，是怎么點起來的

馬斯克：非自動駕駛燃油車終將消亡最終的競爭力是智能化

XREAL 1S發布：3299元起，用一副眼鏡把500英寸巨幕“戴”在身上

歐洲頂尖神經學家：中國為科學家提供“絕佳機遇”

“元寶AI自動回復太像真人”引質疑騰訊為其發聲

全站最新

華為云城市峰會在烏蘭察布召開，當地已吸引67個數據中心項目

火山引擎的「火」，是怎么點起來的

馬斯克：非自動駕駛燃油車終將消亡最終的競爭力是智能化

XREAL 1S發布：3299元起，用一副眼鏡把500英寸巨幕“戴”在身上

熱門推薦

寒武紀增資至4.22億

大曉機器人正式發布行業首創的ACE具身研發范式

賽力斯公布車輛轉向防碰撞專利

邢自強：中國在人工智能上的投資十分有效

華為云城市峰會在烏蘭察布召開，當地已吸引67個數據中心項目

火山引擎的「火」，是怎么點起來的

馬斯克：非自動駕駛燃油車終將消亡最終的競爭力是智能化

XREAL 1S發布：3299元起，用一副眼鏡把500英寸巨幕“戴”在身上

歐洲頂尖神經學家：中國為科學家提供“絕佳機遇”

“元寶AI自動回復太像真人”引質疑騰訊為其發聲

2035年去月球“上班”！青年科學家蘇萌描繪未來圖景

中國氣象局：到2035年全面建成數值預報與人工智能優勢互補、融合統一的地球系統預報體系

電動巴士訂單排滿明年，比亞迪計劃在巴西擴建

海南封關首日iPhone最高可減2140元

中國氣象局：未來十年將在一批關鍵核心技術上實現突破