剛剛，谷歌「IMO金牌」模型上線Gemini，數學家第一時間證明猜想

IP屬地中國·北京 編輯：唐云澤機器之心Pro 時間：2025-08-04 14:18:12

機器之心報道
編輯：澤南、楊文
網友：Deep Think 簡直太瘋狂了。
本周五，谷歌宣布向 Google AI Ultra 訂閱用戶推出 Deep Think 功能，并將全版本的 Gemini 2.5 Deep Think 模型（用于 IMO 競賽）提供給部分數學家使用。

新版本融合了一系列早期測試人員的反饋和研究突破，比今年 I/O 大會上首次發布的版本有了顯著改進。
谷歌表示，2.5 Deep Think 是最近在今年國際數學奧林匹克（IMO）比賽中獲得金牌的模型的變體。雖然該模型需要數小時才能推理復雜的數學問題，但今天發布的版本速度更快，日常使用體驗也更佳，根據內部評估，其在 2025 年 IMO 基準測試中仍能達到銅牌級的性能。
Google DeepMind 表示，Gemini 2.5 Deep Think 對于正在解決難題的研究人員、科學家和學者很有用。它不僅能回答問題，還能運用并行思維和強化學習技術進行頭腦風暴。
谷歌展示了一名數學家 Michel van Garrel 使用深度思考能力證明猜想的經歷。
現在， Google AI Ultra 訂閱用戶可以在 Gemini 應用中使用 Deep Think，只需在模型下拉菜單中選擇 2.5 Pro，并在提示欄中切換「Deep Think」即可使用。Deep Think 會自動與代碼執行、 Google 搜索等工具配合使用，并且可以生成更長的響應。
已經有很多網友第一時間進行了測試，看看他們實現的效果。設計一個小游戲：

賽博朋克核反應堆控制界面：

測試過的人表示，使用次數限制似乎是 5 條 / 24 小時。
1X 機器人的 Eric Jang 表示，看起來我們距離一個能證明簡單猜想，做出新數學發現的 AI 模型只有不到 12 個月時間了，距離大語言模型的「初步」自我完善還有不到 24 個月的時間。

谷歌還計劃在未來幾周內通過 Gemini API 向受信任的測試者發布帶工具和不帶工具的 Deep Think，以便更好地了解其在開發者和企業用例中的可用性。
延長 Gemini 的并行「思考時間」
就像人們通過探索不同的角度、權衡潛在的解決方案并完善最終答案來解決復雜問題一樣，Deep Think 通過使用并行思維技術推動了思維能力的邊界。這種方法讓 Gemini 能夠同時生成多個想法并同時考慮它們，甚至可以隨著時間的推移修訂或結合不同的想法，最終得出最佳答案。
此外，通過延長推理時間或「思考時間」，谷歌為 Gemini 提供了更多的時間來探索不同的假設，進而為復雜問題找到創造性的解決方案。
谷歌還開發了新穎的強化學習技術，鼓勵模型利用這些延長的推理路徑，使 Deep Think 能隨著時間的推移成為一個更好的、更直觀的解決問題者。
最先進的性能
Deep Think 能夠幫助人們解決需要創造力、戰略規劃和逐步改進的難題，例如：
迭代開發與設計： Deep Think 在需要分步驟構建復雜事物的任務中的表現亮眼。比如，Deep Think 可以同時改進網頁開發任務的美學和功能性，僅使用一個提示詞就能讓模型生成了一幅寶塔的體素藝術圖像。與 2.5 Pro 相比，Deep Think 為場景的各個方面添加了越來越多的細節，從寶塔的建筑結構，到樹木的保真度，再到地平面的多樣性，提示的各個方面都得到了更深入的處理。

Deep Think 在 Gemini 應用中使用并行思維技術，提供更詳細、創造性和深思熟慮的回應。
科學與數學發現：由于它能夠推理高度復雜的問題，Deep Think 成為研究人員的強大工具。它可以幫助提出和探索數學猜想，或推理復雜的科學文獻，從而加速發現的過程。算法開發與編程：Deep Think 在處理需要精確問題表述、權衡取舍和時間復雜度的重要編碼問題時表現尤為出色。
此外，Gemini 2.5 Deep Think 在多個基準測試中取得了優秀成績，分別在 HLE（34.8%，無外部工具使用）、Live Code Bench V6（87.6%）、IMO2025（60.7%）和 AIME 2025（99.2%）中表現突出，展現了其在復雜問題解決、編程和數學領域的強大推理能力。

Gemini 2.5 Deep Think Model Card：https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Deep-Think-Model-Card.pdf
谷歌表示，在 Gemini 的整個訓練和部署階段著重提升了安全性。測試中，Gemini 2.5 Deep Think 的內容安全性和語氣客觀性相比 Gemini 2.5 Pro 有所提升，但拒絕良性請求的傾向有所增強。隨著 Gemini 問題解決能力的提升，谷歌正在評估相關風險并實施安全緩解措施，確保其高級功能的安全性。
參考鏈接：
https://blog.google/products/gemini/gemini-2-5-deep-think/

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

上海電信回應羅永浩網速慢投訴

羅永浩被大金空調售后整破防：清洗需要1.5萬，摳個濾網收283元

字節跳動全年利潤500億美元？知情人士回應

vivo X200T手機規格曝光：天璣9400+芯片，5000萬主攝

微軟商城Surface獨家好價，支付寶付款額外補貼、至高優惠6000+

圍墻倒塌前夜：iOS 與 Android 迎來“世紀大和解”

全站最新

上海電信回應羅永浩網速慢投訴

羅永浩被大金空調售后整破防：清洗需要1.5萬，摳個濾網收283元

字節跳動全年利潤500億美元？知情人士回應

vivo X200T手機規格曝光：天璣9400+芯片，5000萬主攝

熱門推薦

上海電信回應羅永浩網速慢投訴

羅永浩被大金空調售后整破防：清洗需要1.5萬，摳個濾網收283元

字節跳動全年利潤500億美元？知情人士回應

羅永浩錘子軟件在上海成立分公司

一加Turbo系列電池突破9000mAh 李杰：強得可怕

全球大模型第一股要來了智譜發布IPO招股書：代碼能力并列全球第一

行業唯一闊折疊！華為Pura X最高優惠800元：6899元起

vivo X200T手機規格曝光：天璣9400+芯片，5000萬主攝

微軟商城Surface獨家好價，支付寶付款額外補貼、至高優惠6000+

《互聯網平臺價格行為規則》印發

圍墻倒塌前夜：iOS 與 Android 迎來“世紀大和解”

阿里字節騰訊的CEO身旁都有了一個AI科學家

《互聯網平臺價格行為規則》印發

《互聯網平臺價格行為規則》印發：不得以低于成本的價格銷售商品或者提供服務，擾亂市場競爭秩序

AI處理簡歷、智能體面試，未來人力資源科技在這場大會上“扎堆兒”

首頁

資訊

財經號

智能車

專題

電商資訊

人物資訊

滾動資訊

首頁

新科技

新金融

新零售

智能車

房地產

科技探索

人物資訊

網絡游戲

人工智能

剛剛，谷歌「IMO金牌」模型上線Gemini，數學家第一時間證明猜想