截胡OpenAI：谷歌率先公測“數學奧賽金牌級”AI推理模型

IP屬地中國·北京 IT之家 時間：2025-12-05 14:17:13

IT之家 12 月 5 日消息，科技媒體 NeoWin 今天（12 月 5 日）發布博文，報道稱谷歌面向 Gemini Ultra 訂閱（月費 249.99 美元）用戶，推出了 Gemini 3 Deep Think（深度思考）模式。
相比較標準版 Gemini 3 Pro 模型，Deep Think 模式調用了更多計算資源，并采用了全新技術架構。該功能目前已完全集成至 Gemini App 中，Google AI Ultra 訂閱用戶即日起可通過在提示欄中選擇“Deep Think”與 Gemini 3 Pro 模型搭配使用。

谷歌官方數據顯示，Deep Think 模式在處理復雜數學、科學及邏輯問題時的推理能力實現了顯著飛躍。IT之家援引博文介紹，在被譽為“業內最難 AI 基準測試之一”的 Humanity’s Last Exam 中，該模式取得了 41% 的高分，確立了新的行業標桿。
同時，在 GPQA Diamond 科學知識測試中，其得分高達 93.8%；在包含代碼執行的 ARC-AGI-2 嚴苛測試中，也拿下了 45.1% 的成績，均展現出業內頂尖（State-of-the-art）的性能水平。

Deep Think 模式之所以能取得如此突破，核心在于運用了先進的并行推理技術（Advanced Parallel Reasoning），讓模型能夠同時探索多種假設路徑以尋找最優解。
值得注意的是，該模型的變體此前已在國際數學奧林匹克競賽（IMO）和國際大學生程序設計競賽（ICPC）世界總決賽中達到了“金牌標準”。特別是在 IMO 場景下，模型需在無法訪問互聯網或工具的情況下，于兩個 4.5 小時的考試時段內完成解題并撰寫自然語言證明。
谷歌此次公測被視為對競爭對手的有力回擊。OpenAI 曾在今年 7 月聲稱其實驗性推理大模型達到了數學奧賽金牌水平，但截至目前該模型仍未向公眾開放。
隨著谷歌率先將達到 IMO 金牌標準的模型推向大眾市場，行業普遍預測，這一舉動或將迫使 OpenAI 加快同類產品的發布節奏，大模型領域的“推理能力之戰”將進一步升級。

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

阿里千問緊急辟謠

力積存儲再度遞表沖擊港股IPO：近年累虧超5億元，利基DRAM布局下仍面臨多重挑戰

一加中國區總裁李杰：Turbo系列擁有“超巨量的電池”

華為云零售峰會2025：Data+AI雙引擎實效落地，共筑智能時代新零售

安卓上線“擴展深色主題”設置，專治堅守淺色UI的“不聽話”App

國產GPU四小龍IPO齊活！最后一個剛剛公布

全站最新

阿里千問緊急辟謠

力積存儲再度遞表沖擊港股IPO：近年累虧超5億元，利基DRAM布局下仍面臨多重挑戰

一加中國區總裁李杰：Turbo系列擁有“超巨量的電池”

華為云零售峰會2025：Data+AI雙引擎實效落地，共筑智能時代新零售

熱門推薦

阿里千問緊急辟謠

力積存儲再度遞表沖擊港股IPO：近年累虧超5億元，利基DRAM布局下仍面臨多重挑戰

一加中國區總裁李杰：Turbo系列擁有“超巨量的電池”

華為云零售峰會2025：Data+AI雙引擎實效落地，共筑智能時代新零售

安卓上線“擴展深色主題”設置，專治堅守淺色UI的“不聽話”App

國產GPU四小龍IPO齊活！最后一個剛剛公布

蚌埠滕湖機場完成驗證試飛！

中國新礦物團隊再添一員！“金秀礦”正式命名背后有多難？｜封面專訪

羅永浩吐槽后，上海電信：WIFI速率不達標原因很多

李禮輝：必須加快制度創新，確定金融智能體的法律地位

TikTok美國迎“大結局”：持股19.9%合資方案對TikTok意味著什么？

紫光國微：在商業航天領域，公司的FPGA等系列產品正陸續導入

上海電信回應“WIFI速率不達標”

TikTok內部信“泄密”：被反復討論的“美國協議”，到底發生了什么？

我國科學家實現新一代光計算芯片研究新突破