Google發布Gemini 3大模型，性能遠超GPT-5.1，已接入Google搜索

IP屬地中國·北京 編輯：朱天宇 TechWeb 時間：2025-11-19 12:13:15

11月19日消息，Google正式發布Gemini 3大模型，該模型包含了原生多模態、推理、Agent等多種能力，性能大幅領先Anthropic的Claude Sonnet 4.5模型和OpenAI的GPT-5.1模型。
Google DeepMind研究團隊稱：“Gemini 3是全球領先的多模態理解模型，更是Google迄今為止最強大的智能體（Agentic）和氛圍編程（Vibe Coding）模型，能夠提供更豐富的可視化效果和更深度的交互體驗，而這一切都構建在最先進的推理能力之上。”
Google 和 Alphabet 首席執行官Sundar Pichai表示：“從今天起，我們將 Gemini 全面融入谷歌的產品生態。其中包括在搜索的 AI 模式（AI Mode）下的 Gemini 3，具備更復雜的推理能力和全新的動態體驗。這是我們首次在產品發布當日就將 Gemini 引入搜索。此外，Gemini 3 今天也同步向 Gemini app 用戶、AI Studio 和 Vertex AI 的開發者、以及我們全新的智能體開發平臺 Google Antigravity 中同步推出。”
Sundar Pichai還透露，自兩年前推出Gemini大模型以來，現在，每月有 20 億用戶使用 AI 概覽（AI Overviews）。Gemini app 的月用戶量已突破 6.5 億，超過 70% 的 Cloud 客戶使用我們的 AI，1300 萬開發者在使用我們的生成模型進行構建。
對于Gemini 3 的發布，OpenAICEO薩姆?奧特曼（Sam Altman）、xAI創始人、CEO埃隆?馬斯克（Elon Musk）在X上都發來點贊。奧特曼發推評價“Gemini 3看起來很不錯”，馬斯克轉發了谷歌DeepMind CEO的推文稱“Nice work”。
Gemini 3 Pro性能超GPT-5.1，Claude Sonnet 4.5
此次推出的Gemini 3包括Gemini 3 Pro 預覽版、Gemini 3 Deep Think 模式。
其中，Gemini 3 Pro 預覽版將集成到 Google 的全棧產品中。用戶在日常生活中即可使用它來學習、構建和規劃一切事務。Gemini 3 Deep Think 模式——這一增強型推理模式將 Gemini 3 的性能再次提升至全新高度，該模式首先供安全測試人員試用，預計將在未來幾周內向 Google AI Ultra 訂閱用戶開放該功能。
Google公開的信息顯示，在每個關鍵的 AI 基準測試中，Gemini 3 Pro 的性能均顯著超越 2.5 Pro，并且也大幅領先競爭對手Anthropic的Claude Sonnet 4.5模型和OpenAI的GPT-5.1。
Gemini 3 Pro在 LMArena 排行榜上以 1501 的突破性 Elo 評分高居榜首。其在推理能力上展現出博士水平，在“人類終極考試”中（未使用任何工具的情況下得分率達 37.5%）及 GPQA Diamond 基準測試中（準確率高達 91.9%）均獲得最高分。此外，它在數學領域為前沿模型樹立了全新標桿，在 MathArena Apex 測試中，以 23.4% 達到了最先進水平（State-of-the-Art）。
除了文本能力，Gemini 3 Pro 在 MMMU-Pro 上取得 81% 的成績，在 Video-MMMU 上達到 87.6%。同時，該模型在 SimpleQA Verified 基準測試中也斬獲了當前最先進的 72.1% 得分，展現出其在事實準確性方面的顯著進步。這意味著 Gemini 3 Pro 具備高度可靠性，能夠有效解決跨越科學和數學等廣泛主題的復雜問題。
在測試中，Gemini 3 Deep Think 在“人類最終考試”（Humanity’s Last Exam）中的表現（未使用工具的情況下達到 41.0%）以及在 GPQA Diamond 測試中的表現（達到 93.8%），均超越了 Gemini 3 Pro。此外，它還在 ARC-AGI -2 基準測試中取得了 45.1% 的突破性成績（啟用代碼執行）。這三項測試中，Gemini 3 Deep Think表現均超越Claude Sonnet 4.5和GPT-5.1模型。
發布全新智能體開發平臺Google Antigravity
Google DeepMind研究團隊表示，Gemini 3 是Google迄今為止構建的最出色的氛圍編程（Vibe Coding）和智能體編程（Agentic Coding）模型。
它在 WebDev Arena 排行榜上以1487 ELO 名列前茅。在 Terminal-Bench 2.0 測試中（一個測試模型通過終端操作計算機的工具使用能力）上也取得 54.2% 的好成績；同時，在衡量編程智能體（coding agents）的 SWE-bench Verified（76.2%）基準測試中，其表現遠超 2.5 Pro。
現場，Google還正式發布 Google Antigravity——全新的智能體開發平臺，讓開發者能夠在更高層次上，以任務為導向的方式進行開發。
Google Antigravity 利用 Gemini 3 的高級推理、工具使用和智能編碼能力，將 AI 輔助從開發者工具包中的工具轉變為一個活躍的伙伴。盡管 Google Antigravity 的核心仍沿用熟悉的 AI 集成開發環境（IDE），但其智能體已被提升到一個專屬的界面，并被賦予直接訪問編輯器、終端和瀏覽器的權限。現在，智能體能夠代表您自主規劃和執行復雜的端到端軟件任務，并在此過程中自行驗證代碼。
除了 Gemini 3 Pro 之外，Google Antigravity 還深度整合了最新的用于瀏覽器控制的 Gemini 2.5 Computer Use 模型，以及圖像編輯模型 Nano Banana（Gemini 2.5 Image）。
現場演示了Google Antigravity 使用 Gemini 3 來驅動航班追蹤應用所需的端到端智能體工作流程。該智能體能夠獨立規劃、編寫應用程序代碼，并通過基于瀏覽器的計算機使用來驗證其執行效果。
現在，用戶已經可以通過 Google AI Studio、Vertex AI、Gemini CLI 以及Google全新的智能體開發平臺 Google Antigravity 中使用 Gemini 3 進行開發和構建。同時，Gemini 3也已在 Cursor、GitHub、JetBrains、Manus、Replit 等第三方平臺上線。
Google 和 Alphabet 首席執行官Sundar Pichai總結Gemini的發展，他稱：“Gemini 1 在原生多模態和長上下文窗口方面的突破，擴展了可處理的信息種類及其信息量。Gemini 2 則為智能體能力奠定了基礎，并在推理和思考方面推動了前沿，幫助處理更復雜的任務和想法。現在，Gemini 3具備最先進的推理能力，能夠理解深層次內容與細微差別——無論是感知創意中細微的線索，還是剖析復雜難題中相互交織的結構維度。Gemini 3 在理解用戶請求的上下文和真實意圖方面也更為出色，您只需更精簡的提示就能獲取所需結果。更令人驚嘆的是，僅僅用了兩年時間，AI 已經從單純的文本和圖像識別，發展到能夠洞察語境。”（果青）

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

上海科普教育創新獎揭曉，首設“前沿科技成果科普獎”

《黃仁勛傳》作者威特：谷歌是對英偉達“AI霸權”的最大威脅

谷歌CEO「劈柴」親自下場分芯片！930億美元填不飽「算力饑荒」

復雜空間推理新SOTA，性能提升55%！中山大學新作SpatialDreamer

央視曝光AI培訓“月入過萬”騙局，專坑老年人

宇樹機器人在王力宏演唱會秀高難度空翻，馬斯克點贊

全站最新

上海科普教育創新獎揭曉，首設“前沿科技成果科普獎”

《黃仁勛傳》作者威特：谷歌是對英偉達“AI霸權”的最大威脅

谷歌CEO「劈柴」親自下場分芯片！930億美元填不飽「算力饑荒」

復雜空間推理新SOTA，性能提升55%！中山大學新作SpatialDreamer

熱門推薦

上海科普教育創新獎揭曉，首設“前沿科技成果科普獎”

《黃仁勛傳》作者威特：谷歌是對英偉達“AI霸權”的最大威脅

效能提升10倍！摩爾線程新一代全功能GPU架構“花港”正式發布

文匯時評｜“AI泔水”成年度熱詞，帶來什么警示

ChatGPT-5.2生成字母掛圖錯誤頻出“人類專家水平”遭質疑

谷歌CEO「劈柴」親自下場分芯片！930億美元填不飽「算力饑荒」

復雜空間推理新SOTA，性能提升55%！中山大學新作SpatialDreamer

央視曝光AI培訓“月入過萬”騙局，專坑老年人

利好來了！摩爾線程，重磅發布！

“星鏈”一衛星在太空發生異常

宇樹機器人在王力宏演唱會秀高難度空翻，馬斯克點贊

智能機器人錦標賽深圳揭榜羅湖50億基金護航顛覆性創新

宇樹機器人為王力宏伴舞，馬斯克贊嘆

AI人才爭奪戰白熱化，谷歌另辟蹊徑“返聘”老員工

氣象人工智能模型“風源”雄安首發