今年OpenAI最為大眾期待的產(chǎn)品來了。
美東時間8月7日周四,OpenAI宣布,推出新一代旗艦人工智能(AI)模型GPT-5。它是OpenAI首個“一體化”的AI系統(tǒng),是OpenAI首次將o系列模型的推理能力與GPT系列模型快速響應能力相結(jié)合的產(chǎn)物。
OpenAI CEO Sam Altman在新模型發(fā)布會上高度評價GPT-5,稱它是“世界上最好的模型”,是相比此前模型的“重大升級”,并表示,它的問世標志著,OpenAI在實現(xiàn)通用人工智能(AGI)道路上邁出“重要一步”。
OpenAI介紹,GPT-5在多項基準測試中表現(xiàn)出色,在編程、數(shù)學、健康等領(lǐng)域達到前沿水平。GPT-5在SWE-bench Verified代碼測試中得到74.9%的準確率,略超Anthropic本周二發(fā)布的新模型Claude Opus 4.1。同時,GPT-5的幻覺問題大幅改善,錯誤信息率僅為4.8%,遠低于前代模型GPT-4o的20.6%。
從本周四當日起,GPT-5向所有ChatGPT的免費用戶和訂閱Plus、Pro、Team的付費用戶開放,作為默認模型使用,并于一周內(nèi)在Enterprise 和 Edu付費方案上線。
與GPT-4o一樣,GPT-5免費和付費版的區(qū)別在于用量。Plus用戶享有更高使用限額,Pro用戶可無限使用并獲得增強版本GPT-5 Pro。對于免費用戶,完整的推理功能可能需要幾天時間才能全部上線。一旦免費用戶達到GPT-5 的用量限制,OpenAI就將為他們切換到更小的模型GPT-5 mini。
OpenAI周三還表示,將以每年1美元的象征性收費向美國聯(lián)邦政府機構(gòu)提供ChatGPT 產(chǎn)品。具體來說是ChatGPT的企業(yè)版,其中包含強化的安全和隱私功能。
OpenAI剛剛官宣GPT-5,微軟就宣布,從本周四開始,將GPT-5整合到旗下廣泛的產(chǎn)品組合中,包括365 Copilot、Copilot、GitHub Copilot和Azure AI Foundry等平臺,讓微軟的企業(yè)和消費者用戶能夠立即體驗到GPT-5的高級推理能力和編程優(yōu)勢。
GPT-5擁有編程、創(chuàng)意寫作、健康領(lǐng)域三大優(yōu)勢
OpenAI的GPT5發(fā)布公告在一開頭就說,GPT-5是OpenAI“最智能、最快速、最實用的模型,其內(nèi)置的思維能力,讓每個人都能擁有專家級的智慧。”
根據(jù)OpenAI介紹,作為OpenAI的“最強大模型”,GPT-5在三個關(guān)鍵領(lǐng)域?qū)崿F(xiàn)了顯著提升。
首先是編程能力。GPT-5是OpenAI迄今為止最強大的編碼模型,在復雜的前端生成和大型代碼庫調(diào)試方面表現(xiàn)突出,能夠僅憑一個提示就創(chuàng)建美觀響應式的網(wǎng)站、應用程序App和游戲。早期測試者注意到其在間距、排版和留白等設計選擇方面的改進。
在從GitHub獲取現(xiàn)實世界編碼任務的基準測試SWE-bench Verified中,GPT-5思考后首次嘗試的準確率達74.9%,高于OpenAI推理模型o3的69.1%和GPT-4o的30.8%。
![]()
評論指出,這意味著,GPT-5 的表現(xiàn)略勝于 Anthropic周二推出的Claude Opus 4.1和谷歌DeepMind的Gemini 2.5 Pro,后兩者在SWE-bench Verified測試的得分分別為74.5%和59.6%。
不過,在衡量數(shù)學、人文和自然科學領(lǐng)域模型表現(xiàn)的各學科專家級能力Humanity’s Last Exam測試中,帶有擴展推理功能的GPT-5增強版本GPT-5 pro在使用工具的情況下得分42%。這略低于得分 44.4%的 xAI模型Grok 4 Heavy。
![]()
Altman稱,GPT-5尤其擅長按需啟動整個軟件App,也就是所謂的“氛圍編碼”、即用AI根據(jù)自然語言提示生成功能代碼,從而加快開發(fā)速度。
作為實例,OpenAI的研究者演示了,要求GPT-5創(chuàng)建一款網(wǎng)頁App,幫助說英語的用戶學習法語,且該App必須有一個引人入勝的主題,包含抽認卡、測驗、經(jīng)典的貪吃蛇游戲,以及追蹤每日學習進度的方法。
研究者將相同的提示詞提交到兩個GPT-5 窗口中,幾分鐘后生成了兩個不同的App。OpenAI的負責人稱,這些App“存在一些缺陷”,但用戶可以根據(jù)個人喜好再調(diào)整AI生成的軟件,例如更改背景或添加更多標簽頁。
在創(chuàng)意寫作方面,GPT-5能夠處理結(jié)構(gòu)復雜的寫作任務,如無韻律的抑揚格五音步詩或自然流動的自由詩。OpenAI的ChatGPT業(yè)務副總Nick Turley表示,GPT-5在創(chuàng)意任務上表現(xiàn)出“更好的品味”,響應更自然。
![]()
健康咨詢是第三個重要提升領(lǐng)域。
GPT-5能更積極地標記潛在健康問題,幫助用戶解析醫(yī)療結(jié)果,盡管OpenAI強調(diào),ChatGPT不能替代醫(yī)療專業(yè)人員。
在名為HealthBench Hard Hallucinations 的測試中,具備思考能力的GPT-5出現(xiàn)幻覺的錯誤信息率僅為1.6%。這遠低于GPT-4o 和 o3 模型,后兩者的錯誤信息率分別為15.8%和12.9%。
![]()
幻覺可能性顯著降低 新的安全訓練模式
OpenAI稱,GPT-5相比此前的模型更可靠和實用,它能更準確地回答現(xiàn)實世界的疑問,出現(xiàn)幻覺的可能性顯著降低。
在對代表ChatGPT生產(chǎn)流量的匿名提示詞啟用網(wǎng)絡搜索后,GPT-5響應中包含事實錯誤的可能性比GPT-4o低約45%;在思考后,GPT-5響應中包含事實錯誤的可能性比o3低約 80%。下圖可見,GPT-5響應的錯誤信息率僅為4.8%,GPT-4o為20.6%,o3為22%。
![]()
OpenAI還表示,為GPT-5引入了一種新的安全訓練形式,名為安全補全(safe completions)。它教模型在安全范圍內(nèi)盡可能給出最有幫助的答案。有時,這可能意味著部分回答用戶的問題,或者只提供高水平的回答。
如果需要拒絕,經(jīng)過訓練的GPT-5 會以透明的方式告知用戶拒絕的原因,并提供安全的替代方案。
在受控的實驗和OpenAI的生產(chǎn)模型中,OpenAI都發(fā)現(xiàn)這種安全補全的方法更加細致入微,能夠更好地引導雙重用途問題,增強對模糊意圖的魯棒性,并減少不必要的過度拒絕。
OpenAI 的后訓練負責人Michelle Pokrass 表示:“GPT-5 已經(jīng)過訓練,能夠識別任務何時無法完成,避免猜測,并能更清晰地解釋局限性,相比之前的模型,這減少了無根據(jù)的斷言。”
推出四種可選的ChatGPT聊天預設性格
OpenAI稱,GPT-5在指令執(zhí)行方面表現(xiàn)提升,其執(zhí)行自定義指令的能力也得到了相應的提升。OpenAI將為所有ChatGPT 用戶推出四種預設性格的全新研究預覽版。
初始的四種性格選項——憤世嫉俗者(Cynic)、機器人(Robot)、傾聽者(Listener)和書呆子(Nerd)都是可選的,用戶可在設置中隨時調(diào)整,用以匹配ChatGPT和用戶的溝通風格。
上述四種性格最初適用于文本聊天,之后將擴展到語音聊天,讓用戶無需編寫自定義提示詞即可設置ChatGPT 的交互方式——無論是簡潔專業(yè)的、周到支持的,還是略帶諷刺的。
OpenAI稱,所有這些新性格都達到或超過了我們減少諂媚行為的內(nèi)部評估標準。
Altman盛贊歷史性突破 用回GPT-4后效果相當糟
在本周四的簡報會上,Altman對GPT-5給予了極高評價,將GPT-5定位為通往AGI的重要里程碑。他表示:
“在以往歷史上任何時期,擁有像GPT-5這樣的東西都是不可想象的。”
“這是第一次感覺就像在與任何領(lǐng)域的專家交談。”
Altman在簡報會上甚至不惜用“踩”GPT-4抬高GPT-5。他說:
“我嘗試過用回GPT-4,但效果相當糟糕。”
GPT-5采用統(tǒng)一的系統(tǒng)架構(gòu),配備實時路由器,能夠根據(jù)對話類型、復雜性和工具需求自動決定是快速響應還是進行深度"思考"。這消除了用戶選擇合適設置的需要,使ChatGPT更易于使用。
在經(jīng)濟價值工作的內(nèi)部基準測試中,使用推理模式的GPT-5在大約一半的案例中可與專家水平相當或更優(yōu),涵蓋法律、物流、銷售和工程等40多個職業(yè)。OpenAI VP Nick Turley稱:"這個模型的感覺真的很好。"
Altman比喻,使用GPT-5就像隨時擁有一支學歷通通為博士的專家團隊。他還說:“在很多新領(lǐng)域,人們受到想法的限制,但實際上卻沒有執(zhí)行能力。”
微軟全面整合搶占先機
微軟在GPT-5發(fā)布當日即宣布,將其整合到廣泛的產(chǎn)品線中。在企業(yè)級應用方面,Microsoft 365 Copilot將利用GPT-5更好地處理復雜問題、在長對話中保持專注并理解用戶上下文。企業(yè)用戶可通過推理功能處理電子郵件、文檔和文件。
對于消費者,Microsoft Copilot的新智能模式將利用GPT-5幫助用戶發(fā)現(xiàn)最佳解決方案。用戶可通過copilot.microsoft.com或Windows、Mac、Android和iOS設備上的Copilot應用免費體驗GPT-5。
![]()
開發(fā)者將通過GitHub Copilot和Visual Studio Code獲得GPT-5支持,用于編寫、測試和部署代碼。Azure AI Foundry平臺將提供所有GPT-5模型,配備AI驅(qū)動的模型路由器,根據(jù)每個任務的復雜性、性能需求和成本效率選擇最優(yōu)模型。
微軟AI紅隊使用嚴格的安全協(xié)議測試了GPT-5推理模型,結(jié)果顯示,該模型在惡意軟件生成、欺詐自動化等多種攻擊模式下展現(xiàn)出OpenAI歷代模型中最強的AI安全配置之一。





京公網(wǎng)安備 11011402013531號