
奧特曼發布GPT-5
北京時間8月8日,今天凌晨,OpenAI舉行發布會,正式發布了期待已久的新一代大語言模型GPT-5,并面向所有7億ChatGPT用戶開放使用。
OpenAI在其官網上稱,GPT-5是公司迄今為止最強大的AI系統,其智能水平上相較于所有以往模型實現了重大飛躍,在編程、數學、寫作、醫療、視覺感知等多個領域都展現出一流性能。
OpenAI CEO山姆奧特曼(Sam Altman)表示,GPT-5和OpenAI此前的模型相比取得了巨大進步。他將其比作“讓我再也回不去”的那種技術,就像第一款配備視網膜顯示屏的iPhone帶來的體驗一樣。

GPT-5
“GPT-5真的讓我第一次覺得,我們的主力模型已經達到了可以讓你向一位真正的專家、一位博士級專家提出任何問題,”奧特曼在發布會上表示,“它最酷的能力之一,就是能即時為你寫出高質量軟件。按需軟件這個概念,將會成為GPT-5時代的標志性特征之一。”
統一系統
GPT?5是一個統一系統,只會以一個模型的形式呈現,而不是像以前那樣分成一個常規模型和一個單獨的推理模型。
它由三個關鍵組成部分構成:一個智能高效的基礎模型,能夠回答大多數問題;一個用于解決更復雜問題的深度推理模型(GPT?5 Thinking);以及一個實時路由器(智能分流系統),可根據對話類型、復雜度、工具需求以及用戶的明確指示(例如提示中寫道“請深入思考這個問題”)快速判斷應使用哪個模型。
這個路由器會根據真實反饋不斷學習優化,包括用戶切換模型的行為、對回復的偏好以及正確率等指標,從而持續提升表現。
在達到使用上限后,每個模型還配備有輕量版本,以處理剩余查詢。我們計劃在不久的將來將這些能力整合到一個單一模型中。
最強編程模型
OpenAI稱,GPT-5是公司迄今為止最強大的編程模型。它在復雜的前端生成和調試大型資源庫方面表現尤為出色。它通常能夠僅通過一個提示就創建出美觀且響應迅速的網站、應用程序和游戲,憑借對美學感知的敏銳洞察力,直觀且優雅地將想法轉化為現實。

GPT-5編程得分
早期測試者還特別提到,它在設計決策上的表現更出色,對間距、字體排版以及留白等細節有了更深入的理解。
奧特曼表示,GPT-5是“全球最強的編程與寫作模型”。
在OpenAI的測試中,該模型在基準測試SWE-Bench、SWE-Lancer和 Aider Polyglot中的編程表現優于所有其他模型。在真實世界編程測試中,GPT-5在SWE-bench Verified中的得分為74.9%,在Aider Polyglot中的得分為88%。
在發布會上,OpenAI負責后訓練工作的負責人揚杜布瓦(Yann Dubois)現場演示了如何用GPT-5生成一個帶有互動游戲的法語學習網站。
短短幾秒內,GPT-5就寫出了數百行代碼,并生成了該網站的前端界面。杜布瓦簡單點擊瀏覽了網站的各個功能,發現一切似乎都按預期正常運行。
多模態
OpenAI稱,GPT-5的多模態能力也了提升。該模型在多模態基準測試中表現出色,覆蓋視覺、視頻、空間及科學推理等多個領域。

多模態測試
更強的多模態能力意味著,ChatGPT能更精準地對圖像及其他非文本輸入進行推理,無論是解讀圖表、概述演示文稿的照片,還是回答與示意圖相關的問題,它都能勝任。
安全改進
GPT-5安全研究負責人亞歷克斯貝特爾(Alex Beutel)表示,OpenAI對GPT-5進行了超過五千小時的安全風險測試,重點之一是“確保模型不會對用戶撒謊”。
和之前的o3推理模型相比,GPT-5回答中出現的“幻覺”更少,但大語言模型自帶的“自信撒謊”問題仍然存在。
當模型開始像智能體一樣執行任務時,這個問題會變得更加復雜,不過OpenAI表示,GPT-5在更可靠地處理多步驟任務方面表現更好。貝特爾說:“過去我們發現模型有時會聲稱自己完成了任務,但實際上并未完成,這是個問題。”
GPT-5會為那些以前會拒絕回答的提示提供OpenAI所稱的“安全回應”(safe completions)。貝特爾解釋道,“如果有人問‘點燃某種特定材料需要多少能量?’,這可能是試圖繞過安全保護機制,意圖造成傷害,也可能是學生出于學習物理知識而提問。這就給模型如何做出最佳回復帶來了真正的挑戰。”
OpenAI將于周四開始面向所有免費用戶以及付費ChatGPT訂閱用戶開放GPT-5,教育和企業客戶預計將在下周獲得訪問權限。付費用戶將享有更高的使用額度。(作者/簫雨)
更多一手新聞,歡迎下載鳳凰新聞客戶端訂閱科技。想看深度報道,請微信搜索“科技”。





京公網安備 11011402013531號