
Gemini3太強了。
11月18日,在所有人的期待中,Google的最新AI模型Gemini3正式發(fā)布。這次,一切都回到了Google的節(jié)奏。
徹底屠榜
這是一個幾乎“屠榜”了所有評測集的模型,而且,請注意,是一個通用模型在細分評測上碾壓了諸多“推理模型”、“多模態(tài)模型”等細分領(lǐng)域模型。

根據(jù)Google的介紹,Gemini 3 是一個有原生多模態(tài)、強大推理和Agent能力的模型。在硅星人參加的發(fā)布前小范圍溝通會上,Gemini的團隊強調(diào)這個模型的這些能力“不是分開的,是都在一處,都在一個模型里,你可以同時用這些能力”。
今天用來評測模型各種能力的榜單,被Gemini3刷到了離譜的新高。
在多模態(tài)能力上,它的理解和推理都達到新高度:
Gemini 3 Pro以81%的MMMU-Pro分數(shù)和87.6%的Video-MMMU分數(shù)直接刷新了這個多模態(tài)推理的記錄。

案例介紹:Gemini 3.0的視覺能力融入了推理,能主動解決不一致符號帶來的歧義問題,對手寫舊表格的 OCR 識別能力甚至優(yōu)于受過訓(xùn)練的學(xué)生。
可能Gemini 3才真正第一次稱得上是一個有多模態(tài)推理能力的模型。
Google展示了一個很有趣的用法:做一個等離子體流在托卡馬克里的可視化展現(xiàn),同時用一首詩來捕捉核聚變的美。
在推理能力上:
它以突破性的1501分登頂LMArena排行榜。
它還在SimpleQA Verified上取得了72.1%的最新最優(yōu)成績,在事實準(zhǔn)確性方面顯示出巨大進步。這意味著Gemini 3 Pro在科學(xué)和數(shù)學(xué)等廣泛主題上解決復(fù)雜問題時具有高度的可靠性。
它在人類最后考試上也展示了博士級推理能力(在不使用任何工具的情況下得分37.5%),在GPQA Diamond上獲得91.9%的高分。它還在數(shù)學(xué)領(lǐng)域為前沿模型設(shè)立了新標(biāo)準(zhǔn),在MathArena Apex上達到了23.4%的最新最優(yōu)成績。
一個prompt生成復(fù)古任天堂模擬器,自帶游戲且無需外部素材,一分鐘就能完成輸出。
這還不算完,在深度推理模式Deep Think下,也就是讓模型增加推理的token消耗和用更多時間去處理一些問題時,它在人類最后考試里,在不使用工具的情況下得分41.0%,在GPQA Diamond 得分93.8%。而在ARC-AGI上,它還取得了前所未有的45.1%的成績(使用代碼執(zhí)行)。而已經(jīng)很強的Gemini 2.5,這一項的得分只有:
4.9%。
在人人喊scaling law撞墻的今天,又搞出了十倍的提升。
而在Agent能力上:
Gemini 3以1487 ELO分的成績登頂WebDev Arena排行榜。它在Terminal-Bench 2.0上得分54.2%,該測試衡量模型通過終端操作計算機的工具使用能力,并且在SWE-bench Verified(76.2%)上大幅超越2.5 Pro,該基準(zhǔn)衡量編碼智能體的能力。
另外,Gemini的長上下文和推理的結(jié)合也有提升,在一個讓AI模擬運營一個自動售貨機,來考察它在agent場景的記憶能力的榜單Vending-Bench 2上,它也同樣登頂——Gemini 3 Pro在完整的模擬一年的運營中保持了持續(xù)的工具使用和決策能力,在不偏離任務(wù)的情況下獲得更高回報。

Google官方也展示了一個案例,當(dāng)你要求它:
根據(jù)我郵件中的詳細信息,幫我搜索并預(yù)訂一輛下周旅行用的中型SUV,租金需控制在每天80美元以內(nèi)。
它在獲得你充分的Google全家桶授權(quán)后,真的就完美幫你找到了這樣一個服務(wù),并放到你面前,你只需確認即可。
此次Gemini還推出了Agent模式,就是為了這樣的場景,當(dāng)你給他充分授權(quán)后,你能讓AI把你一切的Google系產(chǎn)品都可以調(diào)用起來,完成復(fù)雜任務(wù)。
看了這些榜單的情況,只剩下SWE-Bench Verified上,Claude Sonnet 4.5領(lǐng)先它1分,其他全部被它占了第一。
有人評論道:OpenAI and Anthropic are so over。
強大到開始全量鋪開生成式UI
在Google自己看來,這些全面提升的能力有多強?
它已經(jīng)足夠強大到,讓Google認為Gemini這個app必須更改自己的交互形態(tài)了。
Google這次給Gemini做了界面大更新。除了改變了頁面設(shè)計,增加了更方便調(diào)用個人數(shù)據(jù)庫的我的資料文件夾功能、“徹底改進了購物體驗”,可以直接從Google購物圖譜帶來商品列表、比較表格和價格,該圖譜包含超過500億條商品列表等。最主要的,就是對輸入輸出的交互做了徹底改變。
什么“ChatGPT”式的一問一答,那是上個時代的做法,現(xiàn)在Gemini要直接給你全模態(tài)的可交互結(jié)果:
“Gemini 3將突破界面設(shè)計的邊界。它的推理和多模態(tài)能力已經(jīng)解鎖了一項我們稱為生成式UI的新功能。
我們介紹一種新穎的生成式UI,它動態(tài)創(chuàng)建沉浸式視覺體驗和交互式界面——如網(wǎng)頁、游戲、工具和應(yīng)用程序——而且這些界面自動設(shè)計并完全定制以響應(yīng)任何問題、指令或提示。
這些提示可以簡單到一個單詞,或根據(jù)需要長而詳細的指令。這些新型界面與AI模型通常渲染內(nèi)容的靜態(tài)、預(yù)定義界面明顯不同。”
說的更直接一點,哪怕一個詞,也能給你一個app。
比如,當(dāng)你詢問關(guān)于物理學(xué)里的三體問題(three body problem),你能得到一個可以交互的模擬界面,讓你直接改變變量來觀察結(jié)果。
而這整個答案更像是一個有文字有圖片還有3D可交互網(wǎng)頁的獨立web app。你甚至可以繼續(xù)用自然語言開發(fā)下去最終把它變成你的一個項目。
目前,Gemini先提供了兩個“實驗性”功能選項——視覺布局(Visual layout)和動態(tài)視圖(Dynamic View)。不過Google也表示,為了幫助了解這些實驗,用戶最初可能只看到其中之一。
而且這個新的交互方式也會在Google的搜索里上線。在搜索的AI mode里提問,也會給出類似一個可交互app的搜索答案。
新的Dynamic View展示,當(dāng)你只是問了一下梵高,就能得到一個完整可交互的界面供你探索
Google還為此發(fā)布了一篇論文。這意思似乎是向所有人喊話:
你們也跟上啊。

此次發(fā)布里,還有一個非常值得重視的舉動是,這一次Gemini 3在第一時間就部署到了Google搜索上,而且包括這個還被稱為實驗性的生成式UI,也直接進入搜索的AI mode。
這說明什么?
說明這是一個在Google看來已經(jīng)訓(xùn)練到十分穩(wěn)定,可以直接放入主營業(yè)務(wù)產(chǎn)品,而不用擔(dān)心有反噬的模型,而且,它還是一個遙遙領(lǐng)先,沒有人再能隨便狙擊的模型,一個完全按Google自己節(jié)奏訓(xùn)練和應(yīng)用的模型。
當(dāng)如此謹慎的Google都在Gemini的介紹里大量的使用“any”,強調(diào)這個模型可以讓任何想法變成產(chǎn)品時,你品,你細細品,它對這模型到底有多自信。
One more thing: 徹底讓Agent來開發(fā)軟件的“IDE”平臺 Antigravity
而對于Google來說,似乎這些還不夠,Google當(dāng)天還順帶發(fā)了一個自己的全新“類IDE”Vibe coding產(chǎn)品,一個讓Agent來主導(dǎo)軟件開發(fā)全流程的平臺——Antigravity 。
Google也不免俗的介紹了一句話開發(fā)的案例。
你輸入一個prompt,就能得到一個完整的飛行追蹤應(yīng)用。但實現(xiàn)的過程正是不同所在,Antigravity是一個讓Agent主導(dǎo)一切的環(huán)境,它為多個Agent做好了多個它們可以使用的工具和環(huán)境,包括編輯器、瀏覽器、終端等。
“Google Antigravity將AI助手從開發(fā)者工具箱中的工具轉(zhuǎn)變?yōu)橹鲃雍献骰锇椤km然Google Antigravity的核心是熟悉的AI IDE體驗,但其Agent已提升到一個專用界面,并可直接訪問編輯器、終端和瀏覽器。現(xiàn)在,Agent可以在驗證自身代碼的同時,自主地為您同時規(guī)劃和執(zhí)行復(fù)雜的端到端軟件任務(wù)。”
Antigravity也集合了Google各個強大模型:“除了Gemini 3 Pro,Google Antigravity還與我們最新的Gemini 2.5計算機使用模型緊密耦合,用于瀏覽器控制,以及我們頂級的圖像編輯模型Nano Banana(Gemini 2.5圖像)。”
而且,Google又給這個產(chǎn)品帶來一個瘋狂的新能力:它會在和你的配合中,學(xué)習(xí)你的coding風(fēng)格, 和你搭建框架的喜好,最終越來越像你...或者說,像一個更全能全棧工程師版的你...
如此高預(yù)期的模型,不僅沒有讓人失望,還帶著驚喜一起到來。Google真的是強。
而且,Google勢頭也正猛。在硅星人參加的小范圍提前溝通會上,Google也順帶公布了最新的用戶數(shù)據(jù):
從上一季度的4.5億用戶,猛增到了這季度6.5億用戶。1300萬開發(fā)者在用Gemini等Google的模型開發(fā),而本季度的日常調(diào)用也同比翻了3倍。

據(jù)Gemini團隊透露,過去一季度的增長很大程度歸功于Nano Banana。
要知道,Nano Banana 2 也在傳聞中,排隊等待Google的發(fā)布......不得不感慨Google的工具箱里,武器實在太多了。
————————————
在此次發(fā)布前,我們也有機會與Google Gemini團隊交流,以下為溝通實錄:
硅星人:能否分享一下在訓(xùn)練這個新模型過程中的一些Aha moments?
Gemini團隊:這是個有趣的問題,因為我認為在使用這個模型時,有很多時刻你能真正感受到它的推理能力,也能感受到它在多模態(tài)能力上的強大。我想指出幾個時刻。第一個是我第一次用它進行氛圍編碼(vibe coding)的時候。令人驚艷的是,它僅憑非常簡單的提示就能創(chuàng)造出各種游戲。能夠在那個環(huán)境中創(chuàng)建3D可視化并玩一個真正的游戲,我覺得太棒了。
實際上,我們的一位工程師一直在用它來創(chuàng)建游戲,這些游戲明天就會在YouTube上發(fā)布,因為你可以用這些游戲創(chuàng)造出如此豐富、高保真的體驗,我覺得這太棒了。另一個我認為我們不常談到的頓悟時刻是該模型在多語言性能上的強大。
對我來說,特別有趣的一點是,拿一首用古吉拉特語寫的詩——我父母從小說的語言——不僅進行翻譯,還在此基礎(chǔ)上進行創(chuàng)作。你能看到模型的細微差別、創(chuàng)造力和寫作風(fēng)格。我認為那也是另一個讓我感嘆這個模型非常聰明,能夠?qū)⒍鄠€要素融合在一起的時刻。我覺得真正酷的是,當(dāng)你找到這些時刻,你可以將多模態(tài)輸入、復(fù)雜的推理問題,以及你希望看到的輸出格式結(jié)合起來。我認為這時你才能真正看到Gemini 3的魔力顯現(xiàn)。
問:你會如何描述AntiGravity在當(dāng)前生態(tài)系統(tǒng)中的定位?
Gemini團隊:這是個好問題。先提醒一下,我認為AntiGravity會非常令人興奮。大語言模型和AI確實改變了我們的編碼方式,使我們軟件工程師能夠保持在一個非常高的層次上,借助智能體的幫助處理真正復(fù)雜的任務(wù),這樣你就可以專注于最終目標(biāo),并更快地達成。
所以AntiGravity真正構(gòu)建在此基礎(chǔ)上,構(gòu)建在模型的能力之上。這是一個新的IDE。市場上也有其他IDE,需要明確的是,我們的模型在多個IDE中以及通過API供開發(fā)者繼續(xù)使用。但AntiGravity將給我們提供另一種與開發(fā)者接觸的方式,了解他們的用例,了解那些真實世界任務(wù)和挑戰(zhàn),然后幫助我們改進模型,通過成為這種以智能體為中心的IDE,為他們提供最佳體驗。我認為這將對軟件開發(fā)帶來一點全新的思路。
問:對于消費者來說,你期望Gemini智能體有哪些使用場景?
Gemini團隊:我們希望幫助人們應(yīng)對生活中遇到的更復(fù)雜的任務(wù)。我個人在幾件事上正在使用它:首先,如果我要找演唱會門票之類的,不用再自己去搜索所有不同選項,為帶兩個孩子的家庭找到合適的套票,我可以讓智能體去完成,它會找到合適的配置,并帶我到達可以購買的那一步,然后我只需點擊一個按鈕就能繼續(xù)完成購買。
另一件我覺得很酷的事是使用智能體模式來幫你分類處理郵件收件箱。我開始每天早上這么做:我醒來有50封郵件,要花很長時間逐一查看并決定怎么處理。我可以使用智能體模式來幫我處理這些,它會告訴我:這里有你需要完成的任務(wù)、這里有你需要回復(fù)的郵件、這些是可以歸檔的。這真的為我節(jié)省了大量時間,我非常興奮能讓更多人使用到這個功能。
問:隨著Pro版本發(fā)布,我們能期待Flash和Flashlight很快推出嗎?
Gemini團隊:是的,我的意思是,我們確實希望構(gòu)建Gemini 3模型家族。這是我們首要考慮的。
我們感到興奮的是,看看對Gemini 3 Pro的反饋如何?人們用它做什么?我們在哪里看到機會?然后當(dāng)我們思考完整的模型家族,思考Flash和Flashlight時,我們首要考慮的是如何構(gòu)建這個主力模型?合適的成本和延遲應(yīng)該是怎樣的?我們?nèi)绾嗡伎颊_的使用場景?所以我們會繼續(xù)利用Pro版本的反饋來確保我們能夠持續(xù)構(gòu)建。你們很快就會看到我們推出更多產(chǎn)品。
問:Gemini應(yīng)用最近用戶增長顯著,團隊在此期間做了什么來如此快速地加速采用?
Gemini團隊:一個主要因素是我們在Nano Banana上看到的病毒式傳播,特別是在泰國、印度尼西亞、印度等國家。顯然,這是一個極其成功的產(chǎn)品,很多人都想玩一玩。如果你看到那些手辦潮流和許多其他人們真正想?yún)⑴c并分享給朋友的東西。
我們也對我們與GEO的合作以及我們?yōu)閷W(xué)生提供的優(yōu)惠感到非常興奮。我們看到學(xué)生群體中有很多使用熱情,他們真的很想用Gemini來幫助完成作業(yè)和課堂學(xué)習(xí)材料。
最后我想說的是,模型質(zhì)量真的非常重要。我們在2.5 Pro上看到了這一點,我們也很期待看到人們將如何使用Gemini 3。
問:你們是否在用AntiGravity與Cursor等工具競爭?這是企業(yè)最大的使用場景之一嗎?
Gemini團隊:非常感謝。這是個好問題。我不會這樣看待它。這次發(fā)布中,我們實際上正在與Cursor進行非常緊密的合作。我們在許多不同行業(yè)都有許多合作伙伴,并與他們密切合作。對我們來說,在用戶所在的地方觸達并連接用戶非常重要。
AI開發(fā)以及AI如何影響不同領(lǐng)域和行業(yè)也還處于非常早期的階段。我認為這對我們來說能夠進行實驗也很重要。我相信會有其他人也在實驗,每個產(chǎn)品本身也會不斷發(fā)展,對吧?我們將通過我們的模型和許多其他想法繼續(xù)與Cursor保持緊密合作。除此之外,我想我們對AntiGravity將創(chuàng)造的接觸點也感到興奮。
問:AI行業(yè)有聲音稱迭代速度已放緩,擴展定律已失效。但Google的大模型似乎取得了顯著進展。到目前為止,你對大模型的迭代速度以及技術(shù)是否還能做到這一點有什么看法?
Gemini團隊:這是個好問題。當(dāng)然,關(guān)于這方面的討論有很多。我認為,當(dāng)我觀察AI領(lǐng)域時,我看到了很多進展,而且進展速度非常快。我認為最好的觀察方式是AI領(lǐng)域總體上對許多不同行業(yè)產(chǎn)生的影響。你可以看到這一點在越來越多的不同職業(yè)中發(fā)生。人們正在使用AI模型來幫助他們的工作。學(xué)生正在使用AI模型來幫助他們的作業(yè)。
或者我們在日常生活中使用這些模型來了解事物,了解我們好奇的事物,想了解更多的東西。所有這些方面,模型在我們的日常生活中變得越來越有影響力。所以我認為進展非常快。當(dāng)我觀察我們自己模型能力的進展時,我認為我們看到非常令人興奮的進展正在發(fā)生。
我認為有時候,并不總是全新的能力出現(xiàn),而是模型所使能的能力。你能做什么新事物?從模型開發(fā)的角度來看,當(dāng)我們觀察預(yù)訓(xùn)練、后訓(xùn)練時,我們看到各方面都有相當(dāng)令人振奮的發(fā)展。我認為隨著我們了解更多,隨著我們與用戶進行更多互動,這將繼續(xù)一段時間,這對我們來說非常重要,能夠通過我們的產(chǎn)品進行這個開發(fā)周期,觸達我們的用戶。我們將更多了解他們的需求在哪里,他們對什么感興趣,他們想學(xué)什么,這將引導(dǎo)我們引入新能力并構(gòu)建技術(shù)。





京公網(wǎng)安備 11011402013531號