11月19日消息,Google正式發布Gemini 3大模型,該模型包含了原生多模態、推理、Agent等多種能力,性能大幅領先Anthropic的Claude Sonnet 4.5模型和OpenAI的GPT-5.1模型。

Google DeepMind研究團隊稱:“Gemini 3是全球領先的多模態理解模型,更是Google迄今為止最強大的智能體(Agentic)和氛圍編程(Vibe Coding)模型,能夠提供更豐富的可視化效果和更深度的交互體驗,而這一切都構建在最先進的推理能力之上。”
Google 和 Alphabet 首席執行官Sundar Pichai表示:“從今天起,我們將 Gemini 全面融入谷歌的產品生態。其中包括在搜索的 AI 模式(AI Mode)下的 Gemini 3,具備更復雜的推理能力和全新的動態體驗。這是我們首次在產品發布當日就將 Gemini 引入搜索。此外,Gemini 3 今天也同步向 Gemini app 用戶、AI Studio 和 Vertex AI 的開發者、以及我們全新的智能體開發平臺 Google Antigravity 中同步推出。”
Sundar Pichai還透露,自兩年前推出Gemini大模型以來,現在,每月有 20 億用戶使用 AI 概覽(AI Overviews)。Gemini app 的月用戶量已突破 6.5 億,超過 70% 的 Cloud 客戶使用我們的 AI,1300 萬開發者在使用我們的生成模型進行構建。
對于Gemini 3 的發布,OpenAICEO薩姆?奧特曼(Sam Altman)、xAI創始人、CEO埃隆?馬斯克(Elon Musk)在X上都發來點贊。奧特曼發推評價“Gemini 3看起來很不錯”,馬斯克轉發了谷歌DeepMind CEO的推文稱“Nice work”。
Gemini 3 Pro性能超GPT-5.1,Claude Sonnet 4.5
此次推出的Gemini 3包括Gemini 3 Pro 預覽版、Gemini 3 Deep Think 模式。
其中,Gemini 3 Pro 預覽版將集成到 Google 的全棧產品中。用戶在日常生活中即可使用它來學習、構建和規劃一切事務。Gemini 3 Deep Think 模式——這一增強型推理模式將 Gemini 3 的性能再次提升至全新高度,該模式首先供安全測試人員試用,預計將在未來幾周內向 Google AI Ultra 訂閱用戶開放該功能。
Google公開的信息顯示,在每個關鍵的 AI 基準測試中,Gemini 3 Pro 的性能均顯著超越 2.5 Pro,并且也大幅領先競爭對手Anthropic的Claude Sonnet 4.5模型和OpenAI的GPT-5.1。

Gemini 3 Pro在 LMArena 排行榜上以 1501 的突破性 Elo 評分高居榜首。其在推理能力上展現出博士水平,在“人類終極考試”中(未使用任何工具的情況下得分率達 37.5%)及 GPQA Diamond 基準測試中(準確率高達 91.9%)均獲得最高分。此外,它在數學領域為前沿模型樹立了全新標桿,在 MathArena Apex 測試中,以 23.4% 達到了最先進水平(State-of-the-Art)。
除了文本能力,Gemini 3 Pro 在 MMMU-Pro 上取得 81% 的成績,在 Video-MMMU 上達到 87.6%。同時,該模型在 SimpleQA Verified 基準測試中也斬獲了當前最先進的 72.1% 得分,展現出其在事實準確性方面的顯著進步。這意味著 Gemini 3 Pro 具備高度可靠性,能夠有效解決跨越科學和數學等廣泛主題的復雜問題。
在測試中,Gemini 3 Deep Think 在“人類最終考試”(Humanity’s Last Exam)中的表現(未使用工具的情況下達到 41.0%)以及在 GPQA Diamond 測試中的表現(達到 93.8%),均超越了 Gemini 3 Pro。此外,它還在 ARC-AGI -2 基準測試中取得了 45.1% 的突破性成績(啟用代碼執行)。這三項測試中,Gemini 3 Deep Think表現均超越Claude Sonnet 4.5和GPT-5.1模型。

發布全新智能體開發平臺Google Antigravity
Google DeepMind研究團隊表示,Gemini 3 是Google迄今為止構建的最出色的氛圍編程(Vibe Coding)和智能體編程(Agentic Coding)模型。
它在 WebDev Arena 排行榜上以1487 ELO 名列前茅。在 Terminal-Bench 2.0 測試中(一個測試模型通過終端操作計算機的工具使用能力)上也取得 54.2% 的好成績;同時,在衡量編程智能體(coding agents)的 SWE-bench Verified(76.2%)基準測試中,其表現遠超 2.5 Pro。
現場,Google還正式發布 Google Antigravity——全新的智能體開發平臺,讓開發者能夠在更高層次上,以任務為導向的方式進行開發。
Google Antigravity 利用 Gemini 3 的高級推理、工具使用和智能編碼能力,將 AI 輔助從開發者工具包中的工具轉變為一個活躍的伙伴。盡管 Google Antigravity 的核心仍沿用熟悉的 AI 集成開發環境(IDE),但其智能體已被提升到一個專屬的界面,并被賦予直接訪問編輯器、終端和瀏覽器的權限。現在,智能體能夠代表您自主規劃和執行復雜的端到端軟件任務,并在此過程中自行驗證代碼。
除了 Gemini 3 Pro 之外,Google Antigravity 還深度整合了最新的用于瀏覽器控制的 Gemini 2.5 Computer Use 模型,以及圖像編輯模型 Nano Banana(Gemini 2.5 Image)。
現場演示了Google Antigravity 使用 Gemini 3 來驅動航班追蹤應用所需的端到端智能體工作流程。該智能體能夠獨立規劃、編寫應用程序代碼,并通過基于瀏覽器的計算機使用來驗證其執行效果。

現在,用戶已經可以通過 Google AI Studio、Vertex AI、Gemini CLI 以及Google全新的智能體開發平臺 Google Antigravity 中使用 Gemini 3 進行開發和構建。同時,Gemini 3也已在 Cursor、GitHub、JetBrains、Manus、Replit 等第三方平臺上線。
Google 和 Alphabet 首席執行官Sundar Pichai總結Gemini的發展,他稱:“Gemini 1 在原生多模態和長上下文窗口方面的突破,擴展了可處理的信息種類及其信息量。Gemini 2 則為智能體能力奠定了基礎,并在推理和思考方面推動了前沿,幫助處理更復雜的任務和想法。現在,Gemini 3具備最先進的推理能力,能夠理解深層次內容與細微差別——無論是感知創意中細微的線索,還是剖析復雜難題中相互交織的結構維度。Gemini 3 在理解用戶請求的上下文和真實意圖方面也更為出色,您只需更精簡的提示就能獲取所需結果。更令人驚嘆的是,僅僅用了兩年時間,AI 已經從單純的文本和圖像識別,發展到能夠洞察語境。”(果青)





京公網安備 11011402013531號