OpenAI GPT-5發布：模型能力全面“屠榜”，構建“超級智能”第一步

IP屬地中國·北京 編輯：王婷極客公園 時間：2025-08-08 08:07:11

OpenAI 的第一次 SOTA，但他們說這只是構建「超級智能」的第一步。
作者｜張勇毅
經歷過無數次「跳票」之后，GPT-5 終于來了。
北京時間 8 月 8 日凌晨一點，頗有新一代「科技春晚」架勢的 OpenAI 夏季發布會拉開帷幕。
與此前 OpenAI 速通式的發布會明顯不同，這次 OpenAI 準備了時長超過一個小時的發布會直播幾波人馬輪番上陣，你方唱罷我登場，從各種角度展示 GPT-5 的強悍性能。
先說重點：GPT-5 在多個領域的表現都迎來了全面提升，在文本、WebDev 和視覺感知能力領域排名第一；在硬提示、編碼、數學、創造力、長查詢等方面排名第一 GPT-5，在代號為「峰會」的測試下，目前保持著截至目前最高的 Arena 分數，可以說是字面意義上的「屠榜」了。
Sam Altman 表示，GPT-4o 就像中學生，而 GPT-5 就像大學生，甚至形容 GPT-5 是第一部配備視網膜顯示屏的 iPhone——「你問它一個問題，也許能得到正確答案，也許會得到一些瘋狂的東西。GPT-4 則感覺像在和一名大學生對話。而 GPT-5，是第一次讓我真正感覺像在與一位博士級別的專家交談。」Sam Altman 這樣介紹 GPT-5 的能力提升。
盡管 ChatGPT 的周活躍用戶已接近 7 億，但 OpenAI 過去一段時間實際上并未擁有行業領先的前沿模型。現在，OpenAI 相信 GPT-5 將使其穩穩地重回排行榜榜首。
Altman 甚至直接在發布會中斷言：「這是世界上編碼能力最強的模型，是世界上寫作能力最強的模型，也是世界上在醫療保健領域最強的模型」
同時 OpenAI 也在發布會上宣稱，除了代碼能力爆表，GPT-5 的寫作功底和回答健康相關問題的準確性也更上一層樓。同時 GPT-5 不僅在智能上實現了「巨大飛躍」，還大幅減少了「一本正經胡說八道」的幻覺問題。它在理解和遵循指令方面表現更出色，拍馬屁的傾向也大大降低了。
01
告別「幻覺」，AI 更可靠了
首先是本次更新的模型陣容，GPT-5 系列一共有 GPT-5, mini, nano, chat 四個版本，其中 Chat 版本對應的是實現更自然、更智能的響應的體驗——你甚至可以用它來學習一門新的語言。
另外，現在當你打開 ChatGPT 網頁之后，首先會注意到 GPT-5 被呈現為一個單一模型，而不是一個常規模型外加一個獨立的推理模型。
這背后其實是 OpenAI 開發的一個路由系統（router），它會自動為更復雜的查詢切換到推理能力更強的版本，或者在你告訴它努力思考時也會這樣做。（Altman 稱之前的模型選擇界面是「一個非常混亂的爛攤子」。）
「AI 幻覺」一直是大家吐槽的重災區。好消息是，GPT-5 在這方面下了大功夫，官方宣稱其產生幻覺的可能性「顯著降低」。具體來說：
在聯網搜索時，GPT-5 的回答出現事實錯誤的概率比 GPT-4o 低了 45%。
在獨立思考時，其回答出錯的概率更是比 OpenAI o3 低了 80%
GPT-5 也在新的 ARC-AGI-2 上進行了測試。除 Grok 4（思考）外，它的表現優于所有主要模型。
此外，GPT-5 還成了一個「老實人」。它不太會再對用戶撒謊，吹噓自己能完成辦不到的任務。當遇到不可能完成、指令不明確或缺少關鍵工具的任務時，它會更誠實地溝通自己的局限。
這次更新最有趣的一點，莫過于引入了四種全新的「人格」模式，用戶可以自由選擇。它們分別是：
犬儒 (Cynic)
機器人 (Robot)
傾聽者 (Listener)
學霸 (Nerd)
這些模式是可選的，你可以根據自己的喜好，設定 ChatGPT 與你互動和回答問題的方式。想讓它跟你抬杠，還是像個耐心的朋友一樣傾聽？現在都可以由你說了算。
「這個模型給人的『感覺』真的很好，」ChatGPT 的負責人 Nick Turley 說，「我認為人們會真切地感受到這一點，特別是那些平時不怎么研究模型的普通用戶。」
此外，你還可以為單個聊天窗口更改顏色主題，代碼編輯器主題愛好者狂喜了。
02
「軟件按需生成」時代來臨？代碼能力逆天
隨著代碼能力的進一步提升，Altman 預測，GPT-5 強大的編碼能力將開啟一個他稱之為「軟件按需生成」的時代。
在 OpenAI 的測試中，GPT-5 在 SWE-Bench, SWE-Lancer, 和 Aider Polyglot 等多個編碼基準測試中的表現均優于任何其他模型。在人類最終測試中取得 42% 的成績，在 SWE 基準測試中取得 75% 的成績。
一個小插曲是，發布會上的這張圖的坐標軸明顯有不少槽點，不僅有 52.8 > 69.1 這樣的弱智錯誤，也實際上夸大了 GPT-5 的能力提升，在社交媒體上被網友群嘲「你這 PPT 怕最好別是 GPT-5 做的」。
在發布會上，OpenAI 的后期訓練負責人 Yann Dubois 使用 GPT-5 現場演示，要求它生成一個用于學習法語、并帶有互動游戲的網站。在短短幾秒鐘內，GPT-5 就編寫了數百行代碼，并直接展示了網站的前端界面。 他在 Zoom 上分享屏幕并進行了簡單的點擊操作，一切看起來都完美運行。
發布會現場，OpenAI 還直接展示了一款僅靠一段提示詞就由 GPT-5 創作的 3D 游戲。其創作的 3D 場景不僅畫面精致，其中的物理效果也非常準確的還原出了對應的效果。
03
更安全，更「誠實」
據模型安全研究負責人 Alex Beutel 介紹，為了解其安全風險，OpenAI 對 GPT-5 進行了「超過五千小時」的測試。其中一個重點是「確保模型不會對用戶撒謊」。
雖然 GPT-5 的幻覺（hallucination）比 OpenAI 的 o3 推理模型要少，但「自信地撒謊」仍然是大型語言模型固有的問題。當模型開始像智能體（agent）一樣完成任務時，這個問題會變得更加復雜。不過 OpenAI 表示，GPT-5 在更可靠地處理多步驟任務方面表現更好。「過去，我們看到過模型聲稱完成了某項任務，但實際上并沒有完成的情況，」Beutel 說，「這是個問題。」
對于以前會直接拒絕回答的提示，GPT-5 將提供 OpenAI 所謂的「安全補全」機制（safe completions）。Beutel 解釋說：「比如有人問『點燃某種特定材料需要多少能量？』，這可能是一個試圖繞過安全防護造成傷害的惡意問題，也可能是一個想了解材料物理特性的學生。這給模型如何回應帶來了真正的挑戰。」
通過「安全補全」，GPT-5「試圖在保持安全的約束下，給出盡可能有幫助的答案」。模型通常只會部分遵從，并提供一些無法被實際用于造成傷害的、更宏觀層面的信息。
04
如何用上 GPT-5
那么，大家最關心的問題來了：怎么才能用上 GPT-5 呢？
好消息是，所有 ChatGPT 用戶都可以現在立即免費體驗到 GPT-5。這也是 OpenAI 第一次面向所有用戶免費開放前沿模型。當然，不同級別的用戶權限不同：
Plus 訂閱用戶在達到使用上限前，可以有更多的使用次數。
Pro 訂閱用戶則可以訪問具備更強推理能力的 GPT-5 Pro 版本。
當用戶達到使用上限后，ChatGPT 會自動切換到一個「迷你版」的 GPT-5 來處理后續的請求。同時，隨著 GPT-5 的上線，它將正式取代 GPT-4o, OpenAI o3, OpenAI o4-mini, GPT-4.1 和 GPT-4.5 等一系列舊模型。
此外 Token 定價部分，標準版 GPT-5 為每百萬輸入 Token 1.25 美元，每百萬輸出 Token 10 美元。mini 版與 Nano 版定價都便宜不少。
詳細定價可參考下圖截取自官網的信息。
此外，OpenAI 還在 API 中發布了一個名為「Minimal」的新參數，這樣你就可以在所有用例中使用 GPT-5，只需改變推理的力度。
除了 OpenAI 的第一方平臺，微軟 CEO 納德拉同時也宣布，GPT-5 已在微軟全系平臺上線，包括 Microsoft 365 Copilot、Copilot、GitHub Copilot 和 Azure AI Foundry。同時所有這些改進均在 Azure 上進行訓練。
最后，Altman 表示，OpenAI 的使命是開發通用人工智能（AGI）。GPT-5 使他們更接近這一目標，盡管整個行業已經開始轉向構建所謂的「超級智能」。
「我有點討厭 AGI 這個詞，因為現在每個人對它的定義都略有不同，」Altman 說，「但這是朝著真正強大的模型邁出的重要一步。這顯然是需要一個具備通用智能的模型才能做到。」
然而，他也承認相比起真正的 AGI， GPT-5 仍然「缺少一些非常重要的東西」。
「這不是一個模型，它是從它所發現的新事物中所生長出來的原生事物，對我來說，這正是它為什么能成為 AGI 「種子」的原因。」Sam Altman 這樣介紹道。
*頭圖視覺中國

標簽：模型能力 發布會 問題用戶屠榜全面任務代碼幻覺編碼主題世界錯誤經歷信息 大學生 網站幾波級別物理材料大家視覺小時學生方面領域生長事物官方 輪番上陣

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

80多年前，他們在重慶為全國戰時科研機構養小白鼠

全國首個高海拔巖洞式算力艙智算中心——雅礱江兩河口算電融合示范項目投運

支付寶FluidMarkdown鴻蒙版開源，專為AI流式交互設計

民聲現場·市民講述：“無貨源”模式做跨境電商，竟是騙局！

4.98萬就能買機器人通用基座？一機三態，多場景驗證，配VLA大腦

煥新補貼成效顯現，11月江蘇新能源汽車零售額同比增長26.2%

全站最新

80多年前，他們在重慶為全國戰時科研機構養小白鼠

全國首個高海拔巖洞式算力艙智算中心——雅礱江兩河口算電融合示范項目投運

支付寶FluidMarkdown鴻蒙版開源，專為AI流式交互設計

民聲現場·市民講述：“無貨源”模式做跨境電商，竟是騙局！

熱門推薦

“上參下”腳步逐漸加快，多地農信改革邁出實質性一步

“上參下”腳步逐漸加快，多地農信改革邁出實質性一步

李禮輝：必須加快制度創新，確定金融智能體的法律地位

珠海國資五年輸血45億未果，傅氏姐弟接盤“保殼”，*ST寶鷹5800萬押寶子公司能否續命？

百融云創發布RaaS戰略及“結果云”平臺定義AI硅基智能新范式

聯動科技：新產品QT-9800SoC測試系統已完成實驗室驗證用于測試系統級芯片（SoC）

80多年前，他們在重慶為全國戰時科研機構養小白鼠

優必選與天鵝到家簽署戰略合作協議

中科曙光與商湯科技、大曉機器人合作簽約

全國首個高海拔巖洞式算力艙智算中心——雅礱江兩河口算電融合示范項目投運

支付寶FluidMarkdown鴻蒙版開源，專為AI流式交互設計

民聲現場·市民講述：“無貨源”模式做跨境電商，竟是騙局！

4.98萬就能買機器人通用基座？一機三態，多場景驗證，配VLA大腦

煥新補貼成效顯現，11月江蘇新能源汽車零售額同比增長26.2%

高通雙架構戰略曝光：Oryon管當下，RISC-V賭未來