Gemini 3 Flash 倒反天罡了：關鍵性能居然超過了 Pro!

IP屬地中國·北京 硅星人 時間：2025-12-18 00:11:40

作者｜周一笑
郵箱｜ zhouyixiao@pingwest.com
12 月 17 日，Google 正式發布 Gemini 3 Flash。一個定價只有 Claude 1/5、GPT 1/4 的“輕量模型”，在編碼上超過 Claude Sonnet 4.5，在推理和多模態上全面碾壓，和 GPT-5.2 也互有勝負。

MMMU-Pro，多模態的評估效果：

更夸張的是，它甚至超過了自家旗艦：在 SWE-bench 上，Gemini 3 Flash 78%，Gemini 3 Pro 76.2%，這也是 Flash 系列誕生以來超過同代 Pro 模型的第一次。

數據可能還是有點抽象，直接看它能干什么：
Gemini 3 Flash 單次生成完整動畫 3D 程序化房間

用Gemini 3 Flash 一句話生成可玩游戲

Resemble AI 用Gemini 3 Flash 實時分析 deepfake 視頻：他們的產品需要把復雜的音視頻取證數據即時轉化為普通人能理解的分析結果。在測試中，他們發現 3 Flash 的多模態分析速度比 2.5 Pro 快了 4 倍，能夠在不拖慢關鍵工作流的情況下處理原始的技術輸出數據
一個月前，Gemini 3 Pro 和 Deep Think 的發布讓 Google 重新站回 AI 第一梯隊，Gemini 3 Pro 登頂 LMArena，Deep Think 在 ARC-AGI 上打出其他模型三倍的成績。發布以來，Gemini API 日均處理量突破 1 萬億 tokens。現在，Flash 的到來補齊了 Gemini 3 家族的最后一塊拼圖。
但這次的 Gemini 3 Flash 和以往不一樣。過去我們對 Flash 的認知很清晰，快、便宜、但能力打折。想要速度，就得接受智能上的妥協。然而Gemini 3 Flash 打破了這個慣例，它用輕量模型的價格，打出了旗艦級的能力。
1
1/5 的價格，憑什么打旗艦？
先說和其他家的對比。
在博士級科學推理基準 GPQA Diamond 上，Gemini 3 Flash 拿到 90.4%，大幅領先 Claude Sonnet 4.5 的 83.4%，接近 GPT-5.2 的 92.4%。在多模態理解基準 MMMU-Pro 上，Flash 81.2%，超過 GPT-5.2 的 79.5%，更是甩開 Claude Sonnet 4.5 十幾個百分點。
在人類最后考試 Humanity's Last Exam 上（無工具），Gemini 3 Flash 33.7%，Claude Sonnet 4.5 只有 13.7%——差距接近 20 個百分點。

編碼能力同樣亮眼。在 SWE-bench Verified 上，Gemini 3 Flash 78%，超過了 Claude Sonnet 4.5 的 77.2%，頭一次超過了自家 3 Pro 的 76.2%。
把價格因素放進來看就更夸張了，Flash 的價格大約是 Claude 的 1/5、GPT 的 1/4，但在多項指標上打平甚至領先。如果說以前選 Flash 是快、省錢但有所妥協，現在選 Flash 是省錢還省心。
那么一個問題自然出現，Gemini 3 Pro 還有什么用？
極限推理場景。GPQA Diamond 上 Pro 91.9% vs Flash 90.4%，Humanity's Last Exam 上 Pro 37.5% vs Flash 33.7%，加上只有Gemini 3 Pro才有的 Deep Think 模式。Pro 適合極限推理，Flash 適合高頻 agent 任務，這是 Google 給出的新分工。
但對大多數場景來說，Flash 不僅夠用，而且性價比炸裂。
效率層面同樣顯著。根據 Artificial Analysis 測試，Gemini 3 Flash 比 2.5 Pro 快 3 倍，處理日常任務平均節省 30% token 消耗。定價方面，輸入 $0.50/百萬 tokens，輸出 $3/百萬 tokens，只有 3 Pro 的四分之一。

Gemini 3 Flash 在性能、成本與速度的權衡關系上推進了最優邊界
Google 的官方說法是：“速度和規模，不必以犧牲智能為代價。” 放在以前的 Flash 上可能是句口號，但這次數據確實撐得起來。
1
免費用戶，旗艦體驗
Gemini 3 Flash 的發布不只是 API 層面的事，它會直接改變普通用戶的日常體驗。
在 Gemini App 里，Gemini 3 Flash 會替代原來的 2.5 Flash，成為新的默認模型。這意味全球所有的 Gemini 用戶，包括免費用戶，都將自動升級到 Gemini 3 級別的體驗，不需要付費，不需要做任何設置。
升級后的 App 會提供三種模式供用戶選擇：
Fast（極速）：默認由Gemini 3 Flash 驅動，秒回日常問題。
Thinking（思考）：同樣由 Flash 3 驅動，但激活了它的“深度思考”能力，專門處理復雜邏輯。
Pro（專業）：繼續保留 Gemini 3 Pro，作為處理高難度數學和代碼問題的首選。
在 Google Search 里，AI Mode 的默認模型也會在全球范圍內升級到 3 Flash。Google 表示，得益于 3 Flash 強大的推理和多模態能力，AI Mode 現在能更精準地理解用戶意圖，處理更復雜、更有多重約束條件的問題，同時生成結構清晰、易于消化的回答。
對于美國用戶，Google 還開放了更多選項，可以在 AI Mode 里選擇"Thinking with 3 Pro"來獲得更深度的幫助，圖像生成模型 Nano Banana Pro 也向更多美國用戶開放了。
對于普通用戶來說，這可能是感知最明顯的一次升級。你打開 Gemini，它已經是前沿級別的模型了；你在 Google 搜索里問復雜問題，背后跑的是一個融入了頂級大模型能力的引擎。換句話說，免費用戶現在用的默認模型，能力已經不輸其他家的付費旗艦。
1
開發者：省錢還賺到
以前做 agentic 應用，想用旗艦級模型就得付旗艦級價格。Gemini 3 Flash 改變了這個局面。
過去開發者面臨一個兩難選擇，要么用快但笨的小模型，犧牲任務完成質量；要么用聰明但慢且貴的大模型，面對延遲和成本的雙重壓力。尤其是在需要多輪調用、高頻迭代的 agent 場景里，這個取舍幾乎是綁死的。Gemini 3 Flash 提供了一個新選項，足夠快、足夠聰明、成本可控。在 SWE-bench 上 78% 的成績說明它完全有能力處理復雜的編碼任務，同時 3 倍于 2.5 Pro 的速度讓它能勝任對延遲敏感的實時場景，而 1/5 于競品的價格讓大規模部署成為可能。
目前，Gemini 3 Flash 已經在以下平臺上線（preview）：
Google AI Studio 和 Gemini API
Gemini CLI
Android Studio
Vertex AI（面向企業）
Google Antigravity：這是 Google 新推出的 agentic 開發平臺，專門為 AI 主導的軟件開發流程設計，讓 AI Agent 可以直接操作編輯器、終端和瀏覽器
在高頻調用場景，Google 還提供了配套的成本優化方案。Context Caching 功能可以在重復 token 使用達到一定閾值時降低 90% 的成本；Batch API 支持異步批量處理，成本可以再降 50%，同時提供更高的調用配額。對那些需要在生產環境里大規模跑 agent 任務的團隊，這套組合拳相當有吸引力。
1
Flash 的含義變了
Gemini 3 Flash 的發布，某種程度上重新定義了“Flash”這個品類的含義。
Flash，終于不只是快速和效率了。
過去，Flash 或者說輕量級模型的定位非常明確：用能力換取速度和成本優勢。你選擇 Flash，就意味著接受它在智能上的折扣。但 Gemini 3 Flash 證明了另一種可能，當底層的基礎模型足夠強大時，輕量版本不一定要做太多能力閹割，它可以只是“更高效的滿配版”。
Google 在博客里提到，Gemini 3 Flash 的核心模型能力已經強到一個程度：在很多任務上，關掉思考模式的 3 Flash，比開著思考模式的 2.5 版本表現還好。以前你需要犧牲速度來換準確，現在不用了。
這次發布也讓 Gemini 3 家族陣容正式成型：Gemini 3 Pro、Gemini 3 Deep Think、Gemini 3 Flash 三個版本，覆蓋了從輕度用戶到硬核開發者的完整需求譜系。想要極致推理深度，用 Deep Think；想要最強綜合能力，用 Pro；想要又快又好還便宜，用 Flash。各取所需，不再是單選題。
從數據來看，Google 在 AI 產品化這條路上跑得相當穩。Gemini App 的月活已經突破 6.5 億，開發者數量達到 1300 萬，API 調用量同比增長 3 倍。上季度到這季度，用戶數從 4.5 億猛增到 6.5 億。
目前，普通用戶可以直接在 Gemini App 和 Google Search 的 AI Mode 中體驗新模型；開發者可以通過 Google AI Studio 和 Gemini API 開始構建應用。
當 Google 用 Flash 模型 1/5 的價格打出旗艦級能力，Flash 這個品類的想象空間被徹底打開了。

點個“愛心”，再走吧

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

Windows 11任務欄至今仍無法自由移動！微軟終于給出原因：沒用舊代碼

東安動力首臺轉子發動機R05E點火成功，2027年量產

挑戰液態海洋共識：NASA研究稱土衛六含太陽系最大“冰沙”

曝TikTok交易達成，美國和字節跳動各掌握一家公司

AI賦能流程神州數碼汽車行業AI 應用落地研討會在滬舉辦

希迪智駕港交所上市，成港股首家商用車智能駕駛公司

全站最新

Windows 11任務欄至今仍無法自由移動！微軟終于給出原因：沒用舊代碼

東安動力首臺轉子發動機R05E點火成功，2027年量產

挑戰液態海洋共識：NASA研究稱土衛六含太陽系最大“冰沙”

曝TikTok交易達成，美國和字節跳動各掌握一家公司

熱門推薦

基于阿里千問，烏干達打造本土大模型

比亞迪正式進入伊拉克市場，推出BYD SHARK 6

金沙酒業營銷負責人更迭，王維龍離職，韓玉國接棒

Windows 11任務欄至今仍無法自由移動！微軟終于給出原因：沒用舊代碼

東安動力首臺轉子發動機R05E點火成功，2027年量產

挑戰液態海洋共識：NASA研究稱土衛六含太陽系最大“冰沙”

曝TikTok交易達成，美國和字節跳動各掌握一家公司

AI賦能流程神州數碼汽車行業AI 應用落地研討會在滬舉辦

希迪智駕港交所上市，成港股首家商用車智能駕駛公司

千問App辟謠：全員大會集體吃豆包圖是AI生成的

你的“大廠經驗”，在AI面前可能一文不值

科學與健康|改寫生命演化史！2025我國古生物學研究在多領域取得突破

他設計的手機賣了1.5億臺 | 我們的四分之一世紀

VEX機器人亞洲公開賽在京開幕，全球近30國青少年選手參賽

拼多多：趙佳臻獲任聯席董事長，與陳磊共同擔任集團聯席董事長兼聯席CEO