谷歌Gemini 3終于在凌晨正式揭幕。
在背負(fù)了整整一年“起大早趕晚集”的質(zhì)疑后,周二,谷歌正式發(fā)布了其年度重磅模型Gemini 3。與以往小修小補(bǔ)式的迭代不同,這次更新被視作谷歌對OpenAI和Anthropic最猛烈的一次反擊。據(jù)知情人士透露,Gemini 3的發(fā)布甚至在OpenAI和Anthropic內(nèi)部引發(fā)了不小的“焦慮”,競爭對手的員工們私下推測,如果谷歌在自動(dòng)編程和圖像生成上實(shí)現(xiàn)超越,他們的先發(fā)優(yōu)勢可能將蕩然無存。
投資機(jī)構(gòu)JonesTrading首席市場策略師米克·奧羅克(Mike O’Rourke)一針見血地指出:“憑借谷歌在搜索領(lǐng)域的龐大體量和先發(fā)優(yōu)勢,它極有可能奪回市場份額,迫使OpenAI及其背后的微軟陷入被動(dòng)。”
當(dāng)谷歌將Gemini 3直接植入擁有數(shù)十億用戶的搜索框時(shí),這種分發(fā)能力具有毀滅性的打擊力。反觀OpenAI,雖然目前仍是流量霸主,但面對甲骨文和微軟開出的高昂算力賬單,其商業(yè)模式的容錯(cuò)空間遠(yuǎn)低于谷歌。
1. 硬核亮點(diǎn):不只更聰明,還能“生成界面”(Generative UI)
Gemini 3的核心技術(shù)亮點(diǎn)大致可以歸結(jié)為一點(diǎn):試圖打破文本對話框的限制。
——生成式UI (Generative UI): 這是本次更新最大的亮點(diǎn)。以前你問AI旅游攻略,它只給你文字;現(xiàn)在Gemini 3能直接生成一個(gè)交互式界面。當(dāng)你查詢某個(gè)歷史或藝術(shù)問題時(shí),它能混合圖形和文本,甚至實(shí)時(shí)構(gòu)建微型應(yīng)用程序。這不僅是回答問題,更是在“生成體驗(yàn)”。
——Antigravity編程工具: 這是谷歌面向開發(fā)者領(lǐng)域投放的一枚重磅炸彈。這個(gè)“智能體優(yōu)先”的編碼環(huán)境,能讓AI自動(dòng)完成軟件編寫、測試和部署。
——告別“馬屁精”:谷歌特意強(qiáng)調(diào),Gemini 3減少了“阿諛奉承(sycophancy)”。現(xiàn)在的原則是“告訴你真相,而不是你想聽到的話。”這意味著Gemini 3在面對錯(cuò)誤前提時(shí),會有更強(qiáng)的批判性思維,而不是一味迎合用戶。
——準(zhǔn)確率和智能度提升: 谷歌稱Gemini 3是其最智能的模型,能幫助用戶將任何想法變成現(xiàn)實(shí)。在標(biāo)準(zhǔn)基準(zhǔn)測試中,Gemini 3的信息準(zhǔn)確率達(dá)到了72%。雖然數(shù)字在絕對值上看似不高,但在生成式AI領(lǐng)域無疑穩(wěn)居前列。
2. 大V親測:Gemini三年練成“博士級”智能
沃頓商學(xué)院教授、AI領(lǐng)域意見領(lǐng)袖伊桑·莫利克(Ethan Mollick)剛剛對Gemini 3進(jìn)行了一番深度測評。
這一次,他沒有堆砌枯燥的基準(zhǔn)測試分?jǐn)?shù),而是用一個(gè)跨越三年的對比測試,展示了AI令人咋舌的進(jìn)化速度:那個(gè)曾經(jīng)只會陪你聊天的AI,現(xiàn)在已經(jīng)變成了能獨(dú)立干活的“數(shù)字同事”。
——從“描述”到“創(chuàng)造”
三年前ChatGPT發(fā)布前夕,莫利克曾向早期GPT-3輸入一個(gè)荒誕的提示詞:“寫一個(gè)關(guān)于糖果驅(qū)動(dòng)的超光速飛船逃離水獺的故事”。那時(shí)候,AI只能勉強(qiáng)寫出一段連貫文字或一首蹩腳詩。
今天,面對同樣的提示詞,莫利克對Gemini 3提出了更高的要求:“用實(shí)際行動(dòng)展示AI進(jìn)步了多少。”
結(jié)果,Gemini 3直接編寫并生成了一個(gè)可交互、可試玩的網(wǎng)頁游戲。在游戲里,你需要真正駕駛那艘糖果飛船去躲避水獺的追擊。
告別“AI味”!Gemini 3初體驗(yàn):性格直爽、智商斷層,但這價(jià)格讓我手抖
莫利克感嘆:“2022年的AI只能描述;2025年,AI已經(jīng)可以編寫引擎代碼、設(shè)計(jì)界面,并讓你親自駕駛飛船。”
——全能助手Antigravity
隨Gemini 3一同發(fā)布的還有開發(fā)工具Antigravity。很多人以為這只是給程序員用的,但在莫利克看來,這更像是一個(gè)通用的“智能體工作臺”。
他的核心理念在于:在計(jì)算機(jī)上做的任何事情,本質(zhì)上都是代碼。既然AI能搞定代碼,它就能搞定一切——無論是處理Excel、制作PPT,還是分析本地文件。
告別“AI味”!Gemini 3初體驗(yàn):性格直爽、智商斷層,但這價(jià)格讓我手抖
莫利克把電腦里存放過往所有文章的文件夾權(quán)限都交給了Antigravity,并下達(dá)指令:“幫我把所有關(guān)于AI的預(yù)測整理成一個(gè)漂亮頁面,并上網(wǎng)搜索驗(yàn)證哪些我說對了,哪些說錯(cuò)了。”
Gemini 3的表現(xiàn)像極了一位靠譜的員工:
它讀取文件,制定計(jì)劃; 還會在計(jì)劃生成后的關(guān)鍵節(jié)點(diǎn)停下來,等待莫利克的批準(zhǔn); 獲得批準(zhǔn)后,它自主上網(wǎng)搜索、編寫代碼、生成網(wǎng)頁、甚至控制瀏覽器進(jìn)行測試。
告別“AI味”!Gemini 3初體驗(yàn):性格直爽、智商斷層,但這價(jià)格讓我手抖
莫利克發(fā)現(xiàn),自己與AI的交互方式發(fā)生了本質(zhì)變化:不再是用復(fù)雜提示詞去“引導(dǎo)”對話,而是用自然語言去“指揮”隊(duì)友干活。這種可控感和理解力是邁向智能體時(shí)代的關(guān)鍵一步。
——寫出“博士級”論文
為了測試Gemini 3的智能極限,莫利克還祭出了終極考驗(yàn):一套十年前的、格式混亂的、甚至包含損壞數(shù)據(jù)的舊科研文件。
他給出的指令非常模糊,類似于導(dǎo)師對博士生的要求:“理清這些數(shù)據(jù)結(jié)構(gòu)”、“寫一篇原創(chuàng)論文,要有深度的理論探討,像給學(xué)術(shù)期刊投稿那樣寫”。
結(jié)果Gemini 3不僅修復(fù)了數(shù)據(jù),還提出了原創(chuàng)的研究假設(shè),甚至自己編寫了一套自然語言處理(NLP)算法來衡量眾籌項(xiàng)目的“獨(dú)特性”指標(biāo),并完成了統(tǒng)計(jì)分析。最終,它交出了一篇14頁的論文。
當(dāng)然Gemini 3也有不完美的地方。就像一個(gè)剛讀博的學(xué)生一樣,它的某些統(tǒng)計(jì)方法需要修正,某些理論推導(dǎo)略顯激進(jìn)。但在莫利克給出修改意見后,它能迅速領(lǐng)會意思并大幅改進(jìn)。
莫利克總結(jié)道:“如果我們將‘博士級智力’定義為能像合格研究生那樣干活,那么它的確是做到了。”
3. 風(fēng)評炸鍋:Gemini 3“真香”?
——數(shù)據(jù)派:智商爆表,但是“昂貴話癆”
權(quán)威評測機(jī)構(gòu)Artificial Analysis給出的結(jié)論喜憂參半,但總體偏向樂觀:
· 智力超群: 在智能指數(shù)(Intelligence Index)測試中,Gemini 3 Pro Preview拿下73分的高分,而同類模型的平均分僅為42分。這不僅僅是領(lǐng)先,更是斷層式的碾壓。
· 極速響應(yīng): 128 tokens/秒的生成速度,讓Gemini 3在處理復(fù)雜任務(wù)時(shí)依然“健步如飛”,遠(yuǎn)超行業(yè)平均水平(56 tokens/秒)。
· 錢包預(yù)警: 強(qiáng)大的代價(jià)是昂貴。雖然輸入價(jià)格適中,但輸出價(jià)格高達(dá)12美元/1M tokens(平均水平為8.40美元)。而且,這還是個(gè)“話癆”模型:測試中它生成了92M tokens,是平均水平(27M)的三倍多。
一句話總結(jié):Gemini 3聰明、反應(yīng)快,但廢話略多,且每一個(gè)字都很貴。
@aniruddhadak則表示“基準(zhǔn)測試結(jié)果”令人驚嘆......“堪稱智能體編碼工作流的新基石。”
告別“AI味”!Gemini 3初體驗(yàn):性格直爽、智商斷層,但這價(jià)格讓我手抖
@deredleritt3r也拿數(shù)據(jù)說話,認(rèn)為Gemini 3在計(jì)算機(jī)操作方面更是形成了絕對碾壓之勢:“這是全能電腦特工要出爐的節(jié)奏”。
告別“AI味”!Gemini 3初體驗(yàn):性格直爽、智商斷層,但這價(jià)格讓我手抖
——體驗(yàn)派:沒有AI味,碾壓優(yōu)勢
隨著Gemini 3和Antigravity的訪問權(quán)限陸續(xù)開放,一眾科技博主紛紛上手親測并發(fā)表評論。
作為早期測試者的@aditabrm詳細(xì)評估了Gemini 3的強(qiáng)項(xiàng)和局限,稱其“令人印象深刻”,并在發(fā)布當(dāng)天分享了自己的詳細(xì)測評。
行業(yè)觀察家@aagarwal1012則認(rèn)為,谷歌Gemini 3大幅拉高了同類產(chǎn)品的標(biāo)準(zhǔn)。
科技播客@SciTechera更是用一幅圖凸顯谷歌Gemini 3上線后相比于其他競爭對手的絕對優(yōu)勢。
對于每天都要和AI打交道的硬核玩家@Matt Shumer來說,Gemini 3直接成了他的“日常主力工具”(Daily Driver)。他發(fā)表的評測更為感性且聚焦于生產(chǎn)力:
· 寫作進(jìn)化: 創(chuàng)意寫作終于“像人”了,告別了那種一眼假的“AI味”。Gemini 3的行文邏輯連貫,節(jié)奏自然,性格也變得干練直接,不再有那些為了湊字?jǐn)?shù)的客套開場白。
· 前端殺手: 這是最大的驚喜。@Matt Shumer直言其前端能力“極其出色”,設(shè)計(jì)細(xì)節(jié)、微交互、響應(yīng)式布局,往往一次就能搞定。設(shè)計(jì)能力的跨度實(shí)現(xiàn)了巨大飛躍。
——冷靜派:也并不是所有用戶都買賬。
回到產(chǎn)品本身,谷歌自豪地宣稱Gemini 3的信息準(zhǔn)確率達(dá)到了72%。對于大模型來說,這是一個(gè)了不起的數(shù)字。但在部分用戶眼中,這可能還不夠。
初創(chuàng)公司Oumi聯(lián)合創(chuàng)始人Manos Koukoumidis直言不諱:“如果人們指望谷歌把他們從‘藍(lán)色鏈接’的海洋中拯救出來,并替他們完成工作,目前的水平還遠(yuǎn)遠(yuǎn)不夠。”
與搜索引擎深度整合后,Gemini 3能檢索信息、驗(yàn)證事實(shí),但“幻覺”依然存在。用戶期待的是100%的可靠性,而72%意味著仍有近三成的概率會“一本正經(jīng)地胡說八道”。
Gemini 3正式上線后不久,就有用戶在社交平臺X發(fā)文潑了一盆冷水,說雖然它會像“資深工程師一樣聲稱自己‘搞定’了,但用戶還是要檢查”,與其他模型一樣存在易出錯(cuò)、半途而廢的問題。
還有用戶在體驗(yàn)Gemini 3預(yù)覽版時(shí)認(rèn)為有時(shí)還不如2.5 Pro,比如對比二者生成“鵜鶘騎自行車”的圖片,前者并沒有明顯優(yōu)勢。
@Matt Shumer也提到了Antigravity的兩面性:谷歌新推出的IDE雖然強(qiáng)大,但仍需人類進(jìn)行“保姆級”看護(hù),以捕捉模型遺漏的錯(cuò)誤。
4. 戰(zhàn)局觀察:OpenAI罕見沉默,友商緊急“抱團(tuán)”
評價(jià)一個(gè)模型的強(qiáng)弱,別看它說什么,要看它的對手在做什么。
硅谷觀察家約翰·庫根(John Coogan) 用這樣一個(gè)更有趣的視角來解讀Gemini 3。
——Anthropic在找靠山。就在谷歌放大招的同時(shí),Anthropic迅速靠攏微軟,達(dá)成300億美元的算力合作,并拿到了英偉達(dá)和微軟的巨額投資。這種“抱團(tuán)取暖”的防御姿態(tài),恰恰印證了谷歌帶來的壓迫感。
——OpenAI異常安靜。以前最喜歡在谷歌發(fā)布會前搞“截胡”的OpenAI,這次卻顯得格外沉默,僅發(fā)布了一些群聊功能和廣告業(yè)務(wù)相關(guān)的動(dòng)作。公司CEO薩姆·奧特曼(Sam Altman)倒是不忘在X平臺上對谷歌表示祝賀。谷歌CEO桑德爾·皮查伊(Sundar Pichai)也作出回應(yīng)。
——xAI的焦慮。馬斯克麾下的xAI則選擇了簡單粗暴的“硬剛”,發(fā)布會前后在X平臺上瘋狂投放Grok的廣告,讓人不免猜測是否在試圖搶奪谷歌的關(guān)注度。
5. 結(jié)語:技術(shù)狂歡背后仍需冷靜
根據(jù)麥肯錫的數(shù)據(jù),到2030年,整個(gè)AI行業(yè)預(yù)計(jì)將花費(fèi)近7萬億美元來建設(shè)數(shù)據(jù)中心和超級計(jì)算機(jī)。
這是一個(gè)天文數(shù)字。
對于Gemini 3的發(fā)布,研究機(jī)構(gòu)Creative Strategies首席分析師本·巴賈林(Ben Bajarin)頗為冷靜:“我們需要真正有能力、高質(zhì)量的用例,才能看到收入產(chǎn)生實(shí)質(zhì)性流轉(zhuǎn)。但我們現(xiàn)在還沒到那一步。”
目前AI主要還是用于傳統(tǒng)的搜索查詢和輔助編程。投資人開始質(zhì)疑:Anthropic、OpenAI甚至谷歌,真的能產(chǎn)生足夠的銷售額來覆蓋這萬億美元級別的基建投入嗎?
對此,谷歌DeepMind CEO戴密斯·哈薩比斯(Demis Hassabis)顯得頗為淡定。他在Gemini 3上線前接受采訪時(shí)表示,雖然私募市場可能存在泡沫,但谷歌擁有真正的收入引擎。公司云業(yè)務(wù)季度銷售額增長三分之一,達(dá)到150億美元。他形容谷歌的狀態(tài)是“全情投入(Locked in)”,并對最終勝出充滿信心。(辰辰)





京公網(wǎng)安備 11011402013531號