OpenAI最強模型GPT-5來了！免費可用，Altman高呼邁向AGI一大步，微軟搶先接入

IP屬地中國·北京 編輯：沈如風華爾街見聞官方 時間：2025-08-08 08:12:41

今年OpenAI最為大眾期待的產(chǎn)品來了。
美東時間8月7日周四，OpenAI宣布，推出新一代旗艦人工智能（AI）模型GPT-5。它是OpenAI首個“一體化”的AI系統(tǒng)，是OpenAI首次將o系列模型的推理能力與GPT系列模型快速響應能力相結(jié)合的產(chǎn)物。
OpenAI CEO Sam Altman在新模型發(fā)布會上高度評價GPT-5，稱它是“世界上最好的模型”，是相比此前模型的“重大升級”，并表示，它的問世標志著，OpenAI在實現(xiàn)通用人工智能（AGI）道路上邁出“重要一步”。
OpenAI介紹，GPT-5在多項基準測試中表現(xiàn)出色，在編程、數(shù)學、健康等領(lǐng)域達到前沿水平。GPT-5在SWE-bench Verified代碼測試中得到74.9%的準確率，略超Anthropic本周二發(fā)布的新模型Claude Opus 4.1。同時，GPT-5的幻覺問題大幅改善，錯誤信息率僅為4.8%，遠低于前代模型GPT-4o的20.6%。
從本周四當日起，GPT-5向所有ChatGPT的免費用戶和訂閱Plus、Pro、Team的付費用戶開放，作為默認模型使用，并于一周內(nèi)在Enterprise 和 Edu付費方案上線。
與GPT-4o一樣，GPT-5免費和付費版的區(qū)別在于用量。Plus用戶享有更高使用限額，Pro用戶可無限使用并獲得增強版本GPT-5 Pro。對于免費用戶，完整的推理功能可能需要幾天時間才能全部上線。一旦免費用戶達到GPT-5 的用量限制，OpenAI就將為他們切換到更小的模型GPT-5 mini。
OpenAI周三還表示，將以每年1美元的象征性收費向美國聯(lián)邦政府機構(gòu)提供ChatGPT 產(chǎn)品。具體來說是ChatGPT的企業(yè)版，其中包含強化的安全和隱私功能。
OpenAI剛剛官宣GPT-5，微軟就宣布，從本周四開始，將GPT-5整合到旗下廣泛的產(chǎn)品組合中，包括365 Copilot、Copilot、GitHub Copilot和Azure AI Foundry等平臺，讓微軟的企業(yè)和消費者用戶能夠立即體驗到GPT-5的高級推理能力和編程優(yōu)勢。
GPT-5擁有編程、創(chuàng)意寫作、健康領(lǐng)域三大優(yōu)勢
OpenAI的GPT5發(fā)布公告在一開頭就說，GPT-5是OpenAI“最智能、最快速、最實用的模型，其內(nèi)置的思維能力，讓每個人都能擁有專家級的智慧。”
根據(jù)OpenAI介紹，作為OpenAI的“最強大模型”，GPT-5在三個關(guān)鍵領(lǐng)域?qū)崿F(xiàn)了顯著提升。
首先是編程能力。GPT-5是OpenAI迄今為止最強大的編碼模型，在復雜的前端生成和大型代碼庫調(diào)試方面表現(xiàn)突出，能夠僅憑一個提示就創(chuàng)建美觀響應式的網(wǎng)站、應用程序App和游戲。早期測試者注意到其在間距、排版和留白等設計選擇方面的改進。
在從GitHub獲取現(xiàn)實世界編碼任務的基準測試SWE-bench Verified中，GPT-5思考后首次嘗試的準確率達74.9%，高于OpenAI推理模型o3的69.1%和GPT-4o的30.8%。

評論指出，這意味著，GPT-5 的表現(xiàn)略勝于 Anthropic周二推出的Claude Opus 4.1和谷歌DeepMind的Gemini 2.5 Pro，后兩者在SWE-bench Verified測試的得分分別為74.5%和59.6%。
不過，在衡量數(shù)學、人文和自然科學領(lǐng)域模型表現(xiàn)的各學科專家級能力Humanity’s Last Exam測試中，帶有擴展推理功能的GPT-5增強版本GPT-5 pro在使用工具的情況下得分42%。這略低于得分 44.4%的 xAI模型Grok 4 Heavy。

Altman稱，GPT-5尤其擅長按需啟動整個軟件App，也就是所謂的“氛圍編碼”、即用AI根據(jù)自然語言提示生成功能代碼，從而加快開發(fā)速度。
作為實例，OpenAI的研究者演示了，要求GPT-5創(chuàng)建一款網(wǎng)頁App，幫助說英語的用戶學習法語，且該App必須有一個引人入勝的主題，包含抽認卡、測驗、經(jīng)典的貪吃蛇游戲，以及追蹤每日學習進度的方法。
研究者將相同的提示詞提交到兩個GPT-5 窗口中，幾分鐘后生成了兩個不同的App。OpenAI的負責人稱，這些App“存在一些缺陷”，但用戶可以根據(jù)個人喜好再調(diào)整AI生成的軟件，例如更改背景或添加更多標簽頁。
在創(chuàng)意寫作方面，GPT-5能夠處理結(jié)構(gòu)復雜的寫作任務，如無韻律的抑揚格五音步詩或自然流動的自由詩。OpenAI的ChatGPT業(yè)務副總Nick Turley表示，GPT-5在創(chuàng)意任務上表現(xiàn)出“更好的品味”，響應更自然。

健康咨詢是第三個重要提升領(lǐng)域。
GPT-5能更積極地標記潛在健康問題，幫助用戶解析醫(yī)療結(jié)果，盡管OpenAI強調(diào)，ChatGPT不能替代醫(yī)療專業(yè)人員。
在名為HealthBench Hard Hallucinations 的測試中，具備思考能力的GPT-5出現(xiàn)幻覺的錯誤信息率僅為1.6%。這遠低于GPT-4o 和 o3 模型，后兩者的錯誤信息率分別為15.8%和12.9%。

幻覺可能性顯著降低新的安全訓練模式
OpenAI稱，GPT-5相比此前的模型更可靠和實用，它能更準確地回答現(xiàn)實世界的疑問，出現(xiàn)幻覺的可能性顯著降低。
在對代表ChatGPT生產(chǎn)流量的匿名提示詞啟用網(wǎng)絡搜索后，GPT-5響應中包含事實錯誤的可能性比GPT-4o低約45%；在思考后，GPT-5響應中包含事實錯誤的可能性比o3低約 80%。下圖可見，GPT-5響應的錯誤信息率僅為4.8%，GPT-4o為20.6%，o3為22%。

OpenAI還表示，為GPT-5引入了一種新的安全訓練形式，名為安全補全（safe completions）。它教模型在安全范圍內(nèi)盡可能給出最有幫助的答案。有時，這可能意味著部分回答用戶的問題，或者只提供高水平的回答。
如果需要拒絕，經(jīng)過訓練的GPT-5 會以透明的方式告知用戶拒絕的原因，并提供安全的替代方案。
在受控的實驗和OpenAI的生產(chǎn)模型中，OpenAI都發(fā)現(xiàn)這種安全補全的方法更加細致入微，能夠更好地引導雙重用途問題，增強對模糊意圖的魯棒性，并減少不必要的過度拒絕。
OpenAI 的后訓練負責人Michelle Pokrass 表示：“GPT-5 已經(jīng)過訓練，能夠識別任務何時無法完成，避免猜測，并能更清晰地解釋局限性，相比之前的模型，這減少了無根據(jù)的斷言。”
推出四種可選的ChatGPT聊天預設性格
OpenAI稱，GPT-5在指令執(zhí)行方面表現(xiàn)提升，其執(zhí)行自定義指令的能力也得到了相應的提升。OpenAI將為所有ChatGPT 用戶推出四種預設性格的全新研究預覽版。
初始的四種性格選項——憤世嫉俗者（Cynic）、機器人（Robot）、傾聽者（Listener）和書呆子（Nerd）都是可選的，用戶可在設置中隨時調(diào)整，用以匹配ChatGPT和用戶的溝通風格。
上述四種性格最初適用于文本聊天，之后將擴展到語音聊天，讓用戶無需編寫自定義提示詞即可設置ChatGPT 的交互方式——無論是簡潔專業(yè)的、周到支持的，還是略帶諷刺的。
OpenAI稱，所有這些新性格都達到或超過了我們減少諂媚行為的內(nèi)部評估標準。
Altman盛贊歷史性突破用回GPT-4后效果相當糟
在本周四的簡報會上，Altman對GPT-5給予了極高評價，將GPT-5定位為通往AGI的重要里程碑。他表示：
“在以往歷史上任何時期，擁有像GPT-5這樣的東西都是不可想象的。”
“這是第一次感覺就像在與任何領(lǐng)域的專家交談。”
Altman在簡報會上甚至不惜用“踩”GPT-4抬高GPT-5。他說：
“我嘗試過用回GPT-4，但效果相當糟糕。”
GPT-5采用統(tǒng)一的系統(tǒng)架構(gòu)，配備實時路由器，能夠根據(jù)對話類型、復雜性和工具需求自動決定是快速響應還是進行深度"思考"。這消除了用戶選擇合適設置的需要，使ChatGPT更易于使用。
在經(jīng)濟價值工作的內(nèi)部基準測試中，使用推理模式的GPT-5在大約一半的案例中可與專家水平相當或更優(yōu)，涵蓋法律、物流、銷售和工程等40多個職業(yè)。OpenAI VP Nick Turley稱："這個模型的感覺真的很好。"
Altman比喻，使用GPT-5就像隨時擁有一支學歷通通為博士的專家團隊。他還說：“在很多新領(lǐng)域，人們受到想法的限制，但實際上卻沒有執(zhí)行能力。”
微軟全面整合搶占先機
微軟在GPT-5發(fā)布當日即宣布，將其整合到廣泛的產(chǎn)品線中。在企業(yè)級應用方面，Microsoft 365 Copilot將利用GPT-5更好地處理復雜問題、在長對話中保持專注并理解用戶上下文。企業(yè)用戶可通過推理功能處理電子郵件、文檔和文件。
對于消費者，Microsoft Copilot的新智能模式將利用GPT-5幫助用戶發(fā)現(xiàn)最佳解決方案。用戶可通過copilot.microsoft.com或Windows、Mac、Android和iOS設備上的Copilot應用免費體驗GPT-5。

開發(fā)者將通過GitHub Copilot和Visual Studio Code獲得GPT-5支持，用于編寫、測試和部署代碼。Azure AI Foundry平臺將提供所有GPT-5模型，配備AI驅(qū)動的模型路由器，根據(jù)每個任務的復雜性、性能需求和成本效率選擇最優(yōu)模型。
微軟AI紅隊使用嚴格的安全協(xié)議測試了GPT-5推理模型，結(jié)果顯示，該模型在惡意軟件生成、欺詐自動化等多種攻擊模式下展現(xiàn)出OpenAI歷代模型中最強的AI安全配置之一。

免責聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系我們，本站將會在24小時內(nèi)處理完畢。

同類資訊

一屏多用：華為Mate X7 / XTs折疊屏手機“變身”智能手卡

美國一法院放行馬斯克原560億美元薪酬方案

京東七鮮石家莊首店開業(yè)爆火，現(xiàn)烤花邊蛋撻單日售出超1萬只！

「AI新世代」沖刺“全球大模型第一股”！智譜叩開港股大門，大模型“淘金熱”進入資本成色檢驗時刻

歐洲刑警組織最新設想：2035年有可能爆發(fā)“機器人犯罪潮”

高德上線3D收費站：全國164城全覆蓋，安全島輪廓精準還原

全站最新

一屏多用：華為Mate X7 / XTs折疊屏手機“變身”智能手卡

美國一法院放行馬斯克原560億美元薪酬方案

京東七鮮石家莊首店開業(yè)爆火，現(xiàn)烤花邊蛋撻單日售出超1萬只！

「AI新世代」沖刺“全球大模型第一股”！智譜叩開港股大門，大模型“淘金熱”進入資本成色檢驗時刻

熱門推薦

一屏多用：華為Mate X7 / XTs折疊屏手機“變身”智能手卡

美國一法院放行馬斯克原560億美元薪酬方案

京東七鮮石家莊首店開業(yè)爆火，現(xiàn)烤花邊蛋撻單日售出超1萬只！

「AI新世代」沖刺“全球大模型第一股”！智譜叩開港股大門，大模型“淘金熱”進入資本成色檢驗時刻

歐洲刑警組織最新設想：2035年有可能爆發(fā)“機器人犯罪潮”

高德上線3D收費站：全國164城全覆蓋，安全島輪廓精準還原

廣汽能源：本月將推出機械臂式自動充電，明年兆瓦超充陸續(xù)落地

事關(guān)互聯(lián)網(wǎng)平臺定價促銷等行為，新規(guī)更好保護消費者和經(jīng)營者

OPPO Reno 15 Pro Mini參數(shù)曝光：天璣8450+1.5K高刷小直屏

Ubiquant團隊推出通用推理模型URM：讓AI像人類一樣循環(huán)思考

沒受輿論影響！俞敏洪曬東方甄選年會現(xiàn)場視頻，網(wǎng)友炸鍋了

小米HyperVL：讓手機也能擁有"火眼金睛"的AI大模型

清華大學開創(chuàng)性突破：讓AI能像福爾摩斯一樣"破解"假視頻的秘密

合肥工業(yè)大學團隊首創(chuàng)TIMAR：3D虛擬人實現(xiàn)真實對話交互

維也納大學團隊破解超雙曲幾何在強化學習中的訓練難題